Logistic Regression Model Studies on Case-Control Data with Three-Stage Sampling
KAJIAN MODEL REGRESI LOGISTIK PADA DATA
KASUS-KONTROL DENGAN TIGA TAHAP PENGAMBILAN
CONTOH
RATNA CHRISTIANINGRUM
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
2011
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI
Dengan ini saya menyatakan bahwa tesis Kajian Model Regresi Logistik pada
Data Kasus-Kontrol dengan Tiga Tahap Pengambilan Contoh adalah karya saya
dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun
kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip
dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
tesis ini.
Bogor, Agustus 2011
Ratna Christianingrum
G151090191
ABSTRACT
RATNA CHRISTIANINGRUM. Logistic Regression Model Studies on
Case-Control Data with Three-Stage Sampling . Under direction of BUDI
SUSETYO, and KUSMAN SADIK
If the sample is taken by using multistage random sampling, through reducing
sample size in the next stage, then the ordinary logistic models can’t be used. This
data will be analyzed using logistic models with the additional intercept. This
research studied the application of addition intercept terms in logistic regression
for case control study used multi stage random sampling. Furthermore, this
research compared between the model which was formed and the model of
the frame sampling data. The addition intercept in logistic models was able to
describe the pattern of relationship explanatory variable with response variable.
Missing information decreases with increasing number of samples that observed.
Average of missing information in the third stage tends to be smaller than in the
second stage, because the third stage has more homogeneous sample units than the
second stage. The average of missing information is smaller than the average
reduction in the number of samples when using multi-stage random sampling, so
this sampling technique is also suitable for use in research aimed at predicting the
probability of case. Moreover the use of the sampling technique can reduce the
sampling cost.
Keywords: Additional Intercept, logistic model, multi-stage random sampling,
case-control
RINGKASAN
RATNA CHRISTIANINGRUM. Kajian Model Regresi Logistik pada Data
Kasus-Kontrol dengan Tiga Tahap Pengambilan Contoh. Dibimbing oleh BUDI
SUSETYO dan KUSMAN SADIK
Rancangan penelitian yang banyak digunakan dalam bidang epidemiologi
adalah rancangan penelitian kasus-kontrol. Dalam penelitian kasus-kontrol,
contoh kasus dan contoh kontrol diambil secara terpisah. Kasus merupakan unit
contoh yang memiliki karakteristik tertentu yang diamati, sedangkan kontrol
merupakan unit contoh yang tidak memiliki karakteristik tertentu yang diamati.
Teknik pengambilan contoh dengan beberapa tahap dapat digunakan untuk
mengambil contoh kasus dan kontrol.
Manfaat lain dari penggunaan teknik pengambilan contoh dengan beberapa
tahap yaitu dapat mengurangi biaya pengambilan contoh. Hal ini mungkin terjadi
apabila penelitian memiliki biaya pengamatan suatu peubah lebih mahal dari
peubah yang lain. Dengan menggunakan teknik pengambilan contoh dengan
beberapa tahap, peubah yang memiliki biaya pengamatan yang mahal diamati di
tahap terakhir pengambilan contoh dan hanya sebagian yang diamati.
Konsekuensi dari penggunaan teknik pengambilan contoh dengan beberapa
tahap adalah proses analisa data yang lebih komplek. Penelitian ini mengkaji
penerapan regresi logistik dengan penambahan konstanta pada penelitian kasuskontrol yang menggunakan teknik pengambilan contoh dengan beberapa tahap.
Selain itu akan membandingkan model yang terbentuk dengan model dari data
hasil pembangkitan.
Data yang digunakan merupakan data berpasangan yang diperoleh dari
proses pembangkitan. Terdapat tida peubah penjelas yang digunakan, yaitu X 1 ,
X 2 , dan X 3 . Peubah X 1 memiliki dua nilai yang mungkin (0, 1) dan dibangkitkan
secara acak dari distribusi binomial dengan n=1 dan p=0.3. Peubah X 2 memiliki
tiga nilai yang mungkin (0, 1, 2) yang dibangkitkan secara acak dari distribusi
multinomial dengan nilai peluang yang digunakan adalah 0.3, 0.2, dan 0,5 untuk
masing-masing nilai kategori secara berurutan. Peubah X 3 memiliki empat nilai
yang mungkin yaitu 0, 1, 2, dan 3. Peubah ini dibangkitkan secara acak dari
distribusi multinomial dengan nilai peluang yang digunakan adalah 0.1, 0.2, 0.3,
dan 0.4 untuk masing-masing nilai kategori secara berurutan. Peubah Y akan
bernilai 1 apabila nilai probabilitas > z dan bernilai 0 untuk lainnya. Nilai z
dibangkitkan secara acak dari distribusi uniform.
Model regresi logistik dengan penambahan konstanta dibangun dari data
contoh. Terdapat 2 macam model yang dibentuk, yaitu model regresi logistik
dengan satu konstanta tambahan dan model regresi logistik dengan dua konstanta
tambahan. Model regresi logistik dengan satu konstanta tambahan dibangun dari
data dengan dua tahap pengambilan contoh, sedangkan model lainnya dibangun
dari data dengan tiga tahap pengambilan contoh. Konstanta tambahan (α i ) tidak
hanya berfungsi untuk mengkoreksi β 0 , namun juga β i .
Hasil pengujian terhadap parameter dari model regresi logistik dengan
penambahan konstanta, hampir semua parameter yang dimiliki memberikan hasil
yang sama dengan parameter dari model untuk data hasil pembangkitan. Selain
itu, parameter ini memiliki tanda yang sama dengan parameter dari model untuk
data hasil pembangkitan. Jadi dapat disimpulkan bahwa regresi logistik dengan
penambahan konstanta mampu menggambarkan pola hubungan antara peubah
respon dengan peubah penjelas.
Informasi yang hilang akan menurun seiring dengan bertambahnya jumlah
contoh yang diamati. Rata-rata informasi yang hilang pada tahap ke-3 cenderung
lebih kecil dari rata-rata informasi yang hilang pada tahap ke-2. Hal ini
dikarenakan tahap ke-3 memiliki unit contoh yang lebih homogen dari tahap ke-2.
Kata kunci: Konstanta tambahan, model regresi logistik, tiga tahap pengambilan
contoh, penelitian kasus kontrol
© Hak Cipta milik IPB, tahun 2011
Hak Cipta dilindungi Undang-undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
yang wajar bagi IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh Karya tulis
dalam bentuk apa pun tanpa izin IPB
KAJIAN MODEL REGRESI LOGISTIK PADA DATA
KASUS-KONTROL DENGAN TIGA TAHAP PENGAMBILAN
CONTOH
RATNA CHRISTIANINGRUM
Tesis
Sebagai salah satu syarat untuk memperoleh gelar
Magister Sains pada
Program Studi Statistika
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2011
Penguji Luar Komisi pada Ujian Tesis : Dr. Ir. Aji Hamim Wigena, MSc
Judul Penelitian
: Kajian Model Regresi Logistik pada Data Kasus-Kontrol
dengan Tiga Tahap Pengambilan Contoh
Nama
: Ratna Christianingrum
NRP
: G151090191
Program Studi
: Statistika
Disetujui
Komisi Pembimbing
Dr. Ir. Budi Susetyo, MS
Ketua
Dr. Kusman Sadik, MSi
Anggota
Diketahui,
Ketua Program Studi S2 Statistika
Dekan Sekolah Pascasarjana IPB
Dr. Ir. Erfiani, MSi
Dr. Ir. Dahrul Syah, M.Sc. Agr.
Tanggal Ujian : 20 Agustus 2011
Tanggal Lulus :
PRAKATA
Puji dan syukur penulis panjatkan kepada Tuhan atas segala rahmat dan
karunia-Nya sehingga karya ilmiah ini dapat diselesaikan. Judul karya ilmiah ini
adalah “Kajian Model Regresi Logistik pada Data Kasus-Kontrol dengan Tiga
Tahap Pengambilan Contoh”.
Terima kasih penulis ucapkan kepada Dr. Ir. Budi Susetyo, M.S selaku
pembimbing I dan Dr. Kusman Sadik, M.Si selaku pembimbing II, terima kasih
atas bimbingan, saran dan waktunya. Disamping itu penulis juga mengucapkan
terima kasih kepada Dr. Ir. Aji Hamim Wigena, M.Sc. selaku penguji luar komisi
pada ujian tesis dan seluruh staf Program Studi Statistika.
Ungkapan terima kasih juga disampaikan kepada Bapak, Ibu dan adik serta
seluruh keluarga atas doa, dukungan dan kasih sayangnya. Terima kasih kepada
teman-teman Statistika angkatan 2009 atas bantuan dan kebersamaannya.
Semoga karya ilmiah ini dapat bermanfaat.
Bogor, Agustus 2011
Ratna Christianingrum
RIWAYAT HIDUP
Penulis dilahirkan di Semarang, pada tanggal 30 Juni 1987 sebagai anak
pertama dari pasangan Bapak Suparman, S.Pd dan Ibu Amini, S.Pd.
Tahun 2005 penulis menyelesaikan pendidikan di SMU Negeri 1 Salatiga dan
pada tahun yang sama lulus melalui SPMB pada Program Studi Statistika FMIPA
Universitas Diponegoro. Pada tahun 2009 penulis menyelesaikan kuliah dan pada
tahun yang sama penulis diterima di Program Studi Statistika Pasca Sarjana
Institut Pertanian Bogor.
DAFTAR ISI
Halaman
DAFTAR TABEL ........................................................................................ xii
DAFTAR GAMBAR ................................................................................... xii
DAFTAR LAMPIRAN ................................................................................ xiv
PENDAHULUAN
Latar Belakang .....................................................................................
Tujuan ..................................................................................................
1
2
TINJAUAN PUSTAKA
Pengertian .............................................................................................
Teknik Pengambilan Contoh .................................................................
Teknik Analisis .....................................................................................
3
4
6
METODOLOGI
Sumber Data .......................................................................................... 13
Metode Analisis .................................................................................... 13
HASIL DAN PEMBAHASAN
Model Regresi Logistik Biner untuk Data Hasil Pembangkitan .............
Model Regresi Logistik Biner dengan Penambahan Konstanta ..............
Pengujian Parameter .............................................................................
Informasi yang Hilang ...........................................................................
17
19
24
26
SIMPULAN DAN SARAN
Simpulan .............................................................................................. 31
Saran .................................................................................................... 31
DAFTAR PUSTAKA .................................................................................. 33
LAMPIRAN ................................................................................................. 35
DAFTAR TABEL
Halaman
1
Proses pengambilan contoh dengan tiga tahap .........................................
5
2
Nilai parameter model Y terhadap X 1 dan X 2 untuk N=300 ..................... 18
3
Nilai parameter model Y terhadap X 1 , X 2 , dan X 3 untuk N=300 .............. 19
4
Nilai rata-rata persentase jumlah parameter yang memberikan kesimpulan
yang berbeda dari model data hasil pembangkitan untuk N=300............... 24
5
Rata-rata persentase informasi hilang pada tahap kedua pengambilan
contoh untuk N=300............................................................................... 25
6
Rata-rata persentase total informasi yang hilang untuk N=300 ............... 27
DAFTAR GAMBAR
Halaman
1
Skema proses pengambilan contoh .....................................................
20
2
Rata-rata informasi hilang pada tahap kedua proses pengambilan
contoh ..................................................................................................
26
3
Rata-rata persentase total informasi hilang………...............................
28
4
Rata-rata persentase informasi hilang pada tahap kedua dan ketiga
dengan N=300 .....................................................................................
28
DAFTAR LAMPIRAN
Halaman
1
Program di SAS 6.2 .............................................................................
37
2
Program di Matlab ...............................................................................
39
3
Nilai parameter model Y terhadap X 1 dan X 2 untuk data hasil
pembangkitan
……………………………………………...........................................
44
4
Nilai parameter model Y terhadap X 1 , X 2 , dan X 3 untuk data hasil
pembangkitan ……………………………………………...................
46
5
Rata-rata persentase informasi hilang pada tahap kedua pengambilan
contoh ……………………………………………...............................
48
6
Rata-rata persentase total informasi hilang ..........................................
50
PENDAHULUAN
Latar Belakang
Rancangan penelitian kasus-kontrol merupakan rancangan penelitian yang
banyak digunakan dalam bidang epidemiologi. Rancangan ini digunakan untuk
menelusuri faktor resiko dari suatu penyakit. Rancangan ini memiliki hubungan
sebab-akibat yang lebih kuat daripada cross section. Breslow (1996) dalam Scott
(2006) menyatakan bahwa penelitian kasus-kontrol merupakan tulang belakang
dari epidemiologi.
Contoh kasus dan kontrol diambil secara terpisah dalam penelitian kasuskontrol. Kasus merupakan kumpulan unit contoh yang memiliki karakteristik
tertentu yang akan diamati, misalnya orang yang terjangkit penyakit tertentu.
Adapun kontrol merupakan kumpulan unit contoh yang tidak memiliki
karakteristik yang akan diamati. Proses pengambilan contoh, baik dalam kasus
maupun kontrol menggunakan teknik pengambilan contoh yang sederhana.
Teknik
pengambilan
contoh
tersebut
antara
lain
menggunakan
teknik
pengambilan contoh acak sederhana (simple random sampling) atau teknik
pengambilan contoh acak bersrata (stratified random sampling). Scott (2006)
lebih menyarankan penggunaan teknik pengambilan contoh yang lebih kompleks
daripada yang sederhana, yaitu teknik pengambilan contoh acak dengan beberapa
tahap.
Manfaat lain dari penggunaan teknik pengambilan contoh dengan beberapa
tahap yaitu dapat mengurangi biaya pengambilan contoh. Hal ini mungkin terjadi
apabila penelitian memiliki biaya pengamatan suatu peubah lebih mahal dari
peubah yang lain. Dengan menggunakan teknik pengambilan contoh dengan
beberapa tahap, peubah yang memiliki biaya pengamatan yang mahal diamati di
tahap terakhir pengambilan contoh dan hanya sebagian yang diamati.
Terdapat beberapa metode yang dapat digunakan untuk menganalisis data
kasus-kontrol, salah satunya dengan menggunakan regresi logistik. Regresi
logistik merupakan metode yang digunakan untuk menggambarkan hubungan
sebuah peubah respon dengan satu atau lebih peubah penjelas, dimana peubah
responnya diskrit yang mempunyai dua atau lebih nilai yang mungkin (Hosmer &
Lemeshow 2000). Apabila peubah respon yang digunakan merupakan data biner
maka disebut regresi logistik biner. Dalam regresi logistik terdapat asumsi yang
harus dipenuhi (Meyers, et al. 2006) yaitu:
1.
Tidak ada multikolinearitas yang sempurna
2.
Tidak terdapat kesalahan spesifikasi (semua prediktor yang relevan harus
disertakan, sedangkan prediktor yang tidak relevan dapat dihilangkan).
3.
Peubah bebas harus diukur pada tingkat skala respon sumatif, interval atau
rasio, meskipun peubah dikotomus diperbolehkan.
Data kasus-kontrol dapat dianalisis dengan regresi logisitik biner apabila
proses pengambilan contoh dilakukan dengan satu tahap pengambilan contoh.
Data kasus-kontrol yang diperoleh dengan menggunakan teknik pengambilan
contoh dengan beberapa tahap tidak dapat dianalisis menggunakan regresi logistik
biner. Contoh tersebut diambil dari distribusi bersyarat Y dan X yang telah
diamati di tahap sebelumnya. Akibatnya konstanta yang dihasilkan akan berbias.
Penambahan konstanta pada model regresi logistik dilakukan untuk mengatasi
permasalahan tersebut (Lee, et al. 2010)
Penelitian ini mengkaji penerapan regresi logistik dengan penambahan
konstanta pada penelitian kasus-kontrol yang menggunakan teknik penarikan
contoh acak dengan beberapa tahap. Selain itu akan membandingkan model yang
terbentuk dengan model dari data hasil pembangkitan.
Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk
1. Mengkaji penerapan regresi logistik dengan penambahan konstanta pada
penelitian kasus-kontrol yang menggunakan teknik pengambilan contoh acak
dengan beberapa tahap.
2. Membandingkan model yang terbentuk dari data contoh dengan model dari
data hasil pembangkitan-nya.
TINJAUAN PUSTAKA
Pengertian
Rancangan penelitian kasus-kontrol di bidang epidemiologi didefinisikan
sebagai rancangan epidemiologi yang mempelajari hubungan antara faktor
penelitian dengan penyakit, dengan cara membandingkan kelompok kasus dan
kelompok kontrol berdasarkan faktor penelitian yang diamati (Warti 2010). Kasus
merupakan unit pengamatan yang memiliki karakteristik tertentu, biasanya unit
pengamatan yang mengidap penyakit tertentu. Kontrol merupakan unit
pengamatan yang tidak memiliki karakteristik tertentu (Lee et al. 2010). Scott dan
Wild (1991) menyatakan bahwa epidemiologi digunakan untuk memprediksi
hubungan antara peubah penjelas, misalnya faktor-faktor resiko dari suatu
penyakit dan peubah respon yang diskrit.
Langkah awal dari penelitian kasus-kontrol yaitu pengidentifikasian
kelompok orang yang mengidap penyakit tertentu dan yang tidak untuk melihat
faktor resiko keduanya (Woodward 2005 dalam Warti 2010). Langkah selanjutnya
dilakukan penelusuran riwayat penyakit tersebut dengan rancangan penelitian
kasus-kontrol.
Rancangan
ini
memberikan
cara
yang
efisien
dalam
mengumpulkan faktor-faktor penelitian dari penyakit yang jarang terjadi.
Misalkan ada seorang peneliti yang akan mengidentifikasi faktor-faktor
yang dapat meningkatkan resiko seseorang terkena penyakit jantung pada usia
produktif, untuk pasien rumah sakit A yang datang dalam kurun waktu setahun
terakhir. Setelah mendapatkan kerangka contoh yang berupa daftar pasien
dilakukan identifikasi pasien yang mengindap penyakit jantung dan yang tidak.
Orang yang mengindap penyakit jantung dimasukkan dalam kelompok kasus,
sedangkan sisanya sebagai kontrol.
Contoh kasus dan kontrol diperoleh dengan menggunakan teknik
pengambilan contoh di masing-masing kelompok kasus dan kelompok kontrol.
Dalam penelitian tersebut, peubah yang diamati tahap pertama adalah jenis
kelamin, tekanan darah dan berat badan. Peubah-peubah ini diamati pada tahap
pertama proses penambilan contoh karena untuk mendapatkan nilai dari peubah
ini hampir tidak memerlukan biaya. Untuk mendapatkan nilai dari peubah,
peneliti hanya perlu mengunjungi rumah sakit. Peubah yang diamati di tahap
terakhir pengambilan contoh merupakan peubah yang berhubungan dengan
tingkah
laku
dan
kebiasaan,
misalkan
kebiasaan
merokok,
kebiasaan
mengkonsumsi alkohol, dan pola konsumsi makanan. Peubah-peubah ini
diletakkan di tahap terakhir proses pengambilan contoh, karena biaya memperoleh
nilai peubah-peubah tersebut relatif mahal. Peneliti harus mengunjungi langsung
orang yang terpilih sebagai contoh untuk mendapatkan nilai peubahnya.
Teknik Pengambilan Contoh
Teknik pengambilan contoh digunakan untuk memperoleh contoh yang
mampu menggambarkan keadaan sebenarnya dari populasi yang diamati.
Penelitian kasus-kontrol menggunakan teknik pengambilan contoh yang biasa
digunakan. Namun dalam penelitian ini, contoh untuk kasus dan kontrol diambil
secara terpisah. Teknik pengambilan contoh yang digunakan merupakan teknik
pengambilan contoh acak sederhana dan teknik pengambilan contoh acak bersrata.
Scott (2006) menyatakan bahwa lebih baik menggunakan rancangan pengambilan
contoh yang lebih kompleks yaitu rancangan pengambilan contoh yang terbagi
dalam beberapa tahap. Teknik pengambilan contoh tersebut dapat menurunkan
biaya pengambilan contoh dan mampu mengatasi data hilang.
Langkah awal proses pengambilan contoh dalam penelitian kasus-kontrol
adalah membagi populasi ke dalam dua kelompok berdasarkan status karakteristik
yang diamati. Kelompok pertama adalah kumpulan unit pengamatan yang
memiliki karakteristik tertentu dan kelompok ini disebut kasus. Kelompok kedua
adalah kumpulan unit pengamatan yang tidak memiliki karakteristik tertentu.
Kelompok ini disebut kontrol. Contoh kasus dan kontrol diambil secara terpisah di
masing-masing kelompok kasus dan kontrol. Teknik pengambilan contoh acak
sederhana digunakan untuk memperoleh contoh kasus ataupun kontrol.
Pada tahap pertama pengambilan contoh, unit contoh terbagi dalam
beberapa kelompok berdasarkan jumlah faktor penelitian dan taraf dari masingmasing faktor penelitian yang diamati. Misalkan pada tahap pertama terdapat dua
faktor penelitian yang diamati, di mana faktor pertama mempunyai tiga taraf dan
Tabel 1 Proses pengambilan contoh dengan tiga tahap
Populasi
Tahap pertama
Tahap kedua
N N0
n0
(Jumlah n01
(Jumlah
(jumlah
(jumlah unit dimana
dimana Y=0
keseluru contoh Y=0
dan
X(1) =
,
han
kontrol) X(1) =
)
=
)
kontrol)
(Jumlah
dimana Y=0
X(1) =
,
=
)
N1
(jumlah
keseluru
han
kasus)
n1
(jumlah
contoh
kasus)
Tahap ketiga
unit n011
dan
X(2)
unit n01b
dan
X(2)
(Jumlah n0a
unit dimana
Y=0
dan
(1)
X =
)
(Jumlah
dimana Y=0
X(1) =
,
=
)
unit n0a1
dan
X(2)
unit n0ab
dan
X(2)
(Jumlah n01
unit dimana
Y=1
dan
(1)
X =
)
(Jumlah
dimana Y=0
X(1) =
,
=
)
(Jumlah
dimana Y=1
X(1) =
,
=
)
(Jumlah n0a
unit dimana
Y=1
dan
(1)
X =
)
unit n111
dan
X(2)
(Jumlah
dimana Y=1
,
X(1) =
=
)
unit n11b
dan
X(2)
(Jumlah
dimana Y=1
X(1) =
,
=
)
unit n1a1
dan
X(2)
(Jumlah
dimana Y=1
X(1) =
,
=
)
unit n1ab
dan
X(2)
faktor kedua mempunyai dua taraf. Jumlah kelompok yang ada pada tahap
pertama ini adalah 2 x 3= 6 kelompok. Pada tahap pertama, faktor penelitian yang
diamati biasanya berupa data kategori.
Tahap kedua dimulai setelah unit pengamatan terbagi ke dalam beberapa
kelompok. Dari masing-masing kelompok diamati seluruh anggota kelompok atau
hanya sub-contohnya. Jika hanya diambil sub-contoh, maka proses pengambilan
contohnya menggunakan teknik pengambilan contoh acak sederhana. Selanjutnya
dilakukan pengukuran faktor penelitian yang akan diamati pada tahap ini.
Tahap ketiga pengambilan contoh dilakukan setelah tahap kedua. Cara
memperoleh contoh pada tahap ketiga dan tahap-tahap selanjutnya sama dengan
cara memperoleh contoh pada tahap kedua. Pada tahap terakhir pengambilan
contoh, data yang diamati dapat berupa data diskrit atau kontinu. Tabel proses
pengambilan contoh dengan menggunakan tiga tahap dapat dilihat pada Tabel 1.
Teknik Analisis
Metode yang banyak digunakan untuk menganalisis data kasus-kontrol
adalah regresi logistik. Regresi logistik merupakan suatu metode yang digunakan
untuk menggambarkan hubungan antara peubah respon yang berupa data kategori
dengan satu atau lebih peubah penjelas.
Model
Respon yang diamati dalam penelitian kasus-kontrol adalah status dari
karakteristik yang akan diamati, misalnya status penyakit. Unit yang berasal dari
kelompok kasus diberi nilai peubah respon Y=1. Unit yang berasal dari kelompok
kontrol diberi nilai peubah respon Y=0. Peubah penjelas yang dinyatakan dalam
bentuk vektor penjelas dituliskan dengan notasi X. Nilai peluang untuk kasus
dengan X = x adalah
(1)
Sedangkan nilai peluang untuk kontrol adalah
(2)
Model ini merupakan model regresi logistik biner. Namun model ini hanya dapat
digunakan pada rancangan penelitian kasus-kontrol dengan satu tahap.
Model regresi logistik biner yang biasa tidak dapat digunakan pada
rancangan kasus-kontrol dengan menggunakan dua tahap atau lebih dalam proses
pengambilan contoh. Hal ini dikarenakan konstanta dari model regresi logistik
biasa berbias. Untuk mengatasi permasalahan tersebut maka dilakukan modifikasi
terhadap model regresi logistik. Modifikasi yang dilakukan adalah dengan
menambahkan konstanta tambahan yang dinotasikan dengan α. Nilai α muncul
sebagai akibat penggunaan skema pengambilan contoh kasus kontrol yang dapat
dilihat di Tabel 1 (Scott & Wild 1997). Model baru yang terbentuk adalah sebagai
berikut:
•
Dua tahap
(3)
(4)
•
Tiga tahap
(5)
(6)
dengan
merupakan konstanta tambahan untuk strata ke-i yang terbentuk pada tahap
kedua (i = 1, 2, ..., a)
merupakan konstanta tambahan untuk strata ke-i yang terbentuk di tahap kedua
dan strata ke-j yang terbentuk dari tahap ke-3 (i = 1, 2, ..., a dan j=1, 2, ..., b)
merupakan vektor contoh acak bagi peubah penjelas
merupakan vektor parameter
Pendugaan Parameter
Berdasarkan skema pengambilan contoh, maka fungsi likelihood untuk
model dengan beberapa tahap pengambilan contoh tidak hanya bergantung pada
parameter β tetapi juga pada distribusi bersyarat dari X, yang diberikan oleh
X(1)=
, X(2)=
, ... untuk i = 1, ..., a dan j = 1, ..., b. Fungsi likelihood bagi
model dengan dua tahap pengambilan contoh adalah sebagai berikut:
(7)
Sedangkan fungsi likelihood bagi model dengan tiga tahap pengambilan contoh
adalah sebagai berikut:
(8)
dengan
C=
D=
dengan
Y
merupakan peubah respon
h
merupakan nilai dari peubah respon (h=0,1)
merupakan peubah penjelas yang diamati pada tahap pertama proses
pengambilan contoh
merupakan nilai dari peubah penjelas ke-i yang diamati pada tahap pertama
proses pengambilan contoh (i = 1, 2, ..., a)
merupakan peubah penjelas yang diamati pada tahap kedua proses
pengambilan contoh
merupakan nilai dari peubah penjelas ke-j yang diamati pada tahap kedua
proses pengambilan contoh (j = 1, 2, ..., b)
merupakan nilai dari peubah penjelas ke-k yang diamati pada tahap ketiga
proses pengambilan contoh dan berasal dari kelompok peubah respon ke-h,
kelompok peubah penjelas ke-i dan ke-j (i = 1, 2, ..., a dan j=1, 2, ..., b)
merupakan jumlah seluruh anggota kelompok yang memiliki nilai peubah
respon h dan nilai peubah penjelas yang diamati pada tahap pertama proses
pengambilan contoh
merupakan jumlah contoh yang diambil dari kelompok yang memiliki nilai
peubah respon h dan nilai peubah penjelas yang diamati pada tahap pertama
proses pengambilan contoh
merupakan jumlah seluruh anggota kelompok yang memiliki nilai peubah
respon h, nilai peubah penjelas yang diamati pada tahap pertama proses
pengambilan contoh
, dan nilai peubah penjelas yang diamati pada
tahap kedua proses pengambilan contoh
merupakan jumlah contoh yang diambil dari kelompok yang memiliki nilai
peubah respon h, nilai peubah penjelas yang diamati pada tahap pertama
proses pengambilan contoh
, dan nilai peubah penjelas yang diamati
pada tahap kedua proses pengambilan contoh
Secara umum proses pengambilan contoh dalam penelitian kasus kontrol,
contoh berukuran n i diambil dari
untuk setiap kategori respon i=1, 2, ...,
a. Peluang Y terpilih sebagai contoh adalah sebesar
sebesar
dan peluang x terpilih
. Sehingga persamaan (1) dapat ditulis kembali menjadi (Scot dan
Wild 1997):
(9)
dengan
merupakan perbandingan antara peluang individu terpilih sebagai contoh
pada kelompok ke-i dengan peluang individu terpilih dari populasi
merupakan jumlah anggota kelompok ke-i
n
merupakan jumlah keseluruhan data
Dalam penelitian kasus kontrol, respon yang diamati adalah ada atau
tidaknya karakteristik yang diamati, misalnya status penyakit. Sehingga peubah
responnya merupakan data biner. Apabila dilakukan pengambilan contoh dengan
tiga tahap pengambilan contoh, maka persamaan (9) dapat ditulis kembali
menjadi:
(10)
dengan
merupakan nilai pobabilitas contoh terpilih jika Y=h,
. t merupakan indek yang menunjukkan kelompok
yang terbentuk pada setiap tahap pengambilan contoh. Jika dilakukan dua tahap
pengambilan contoh, maka t dapat digantikan dengan i. Jika dilakukan tiga tahap
pengambilan contoh, maka t dapat digantikan dengan kombinasi i dan j (ij).
Berdasarkan model pada persamaan (9) dan (10) maka fungsi log
likelihood dapat ditulis sebagai berikut:
(11)
=
dengan
Persamaan (11) disebut juga sebagai pseudo-likelihood.
Pendugaan konstanta tambahan ( ) dari persamaan (3) dan (5) dapat dicari
dengan menggunakan metode Conditional Maximum Likelihood (CML). CML
memperlakukan α sebagai konstanta yang fix. Penduga
yang konsisten dapat
diperoleh dengan memaksimalkan persamaan (11) dan menggantikan
pada
persamaan (9) dengan penduga yang konsisten. Wild (1991) menyatakan bahwa
P(Y=h) dapat digantikan dengan
dan
dengan sampling fraksional
Sehingga
pada persamaan (9) dapat digantikan
.
dapat diduga dengan:
Berdasarkan model di persamaan (3) dan (5), maka t dapat digantikan dengan i
dan ij.Penduga
dengan menggunakan CML merupakan penduga yang konsisten.
Evaluasi Model
Pengujian parameter
secara parsial menggunakan uji Wald dengan
merasionalkan nilai dugaan parameter dengan simpangan bakunya. Hipotesis yang
akan diuji adalah:
H0 :
H1 :
, i=1, 2, ..., p
Statistik uji yang digunakan adalah
Jika H 0 benar, maka statistik W akan mengikuti sebaran normal baku
Proses pengambilan contoh dikatakan efisien apabila biaya yang diperlukan
untuk memperoleh contoh sekecil mungkin, namun contoh yang terambil mampu
memberikan informasi semaksimal mungkin. Besarnya informasi yang hilang
dapat dilihat dari besarnya simpangan.
dengan
P : nilai estimasi peluang dari model untuk data populasi
: nilai estimasi peluang dari model untuk data contoh
Apabila yang dilakukan adalah simulasi, maka ukuran kebaikan model tidak
cukup dengan menggunakan rataan simpangan, namun menggunakan rataan dari
rataan simpangan yang dicari dengan menggunakan rumus berikut:
METODOLOGI
Sumber Data
Sumber data yang digunakan dalam penelitian ini adalah data hasil simulasi.
Data yang dibangkitkan merupakan data berpasangan, yaitu Y, X 1 , X 2 , dan X 3 . Y
merupakan peubah respon yang berdistibusi binomial dan bersifat acak. Peubah
X 1 , X 2 , dan X 3 merupakan peubah penjelas yang berperan sebagai faktor
penelitian. Peubah X 1 merupakan faktor penelitian yang berupa data kategori
yang terdiri atas dua kategori. Peubah X 2 merupakan faktor penelitian yang
berupa data kategori yang terdiri atas tiga kategori, sedangkan X 3 merupakan
faktor penelitian yang berupa data kategori yang terdiri atas empat kategori.
Jumlah data yang dibangkitkan adalah 300, 500, 700, 900 dan 1000. Tiap
jumlah data diulang sebanyak 10 kali. Proses pembangkitan data dan estimasi
parameter β menggunakan SAS 9.2, dengan program yang terlampir di Lampiran
1. Proses pengambilan contoh, pendugaan nilai konstanta tambahan (α), dan
perhitungan besar informasi yang hilang menggunakan Matlab R2009a dengan
program yang terlampir di Lampiran 2. Asumsi yang digunakan dalam penelitian
ini yaitu peubah X 1 memiliki biaya pengamatan yang paling murah, peubah X 2
memiliki biaya pengamatan yang lebih mahal daripada peubah X 1 , namun masih
lebih murah daripada biaya pengamatan peubah X 3 dan peubah X 3 memiliki biaya
pengamatan peubah yang paling mahal.
Metode Analisis
Langkah-langkah analisis data yang dilakukan berkaitan dengan tujuan
penelitian terbagi menjadi lima tahap. Tahap-tahap tersebut yaitu:
Tahap Pertama
Langkah awal yang dilakukan adalah membangkitkan data secara acak.
Proses pembangkitan data sebagai berikut:
1. Menentukan nilai parameter model ( )
2. Membangkitkan nilai
yang berdistribusi binomial secara acak dengan n=1
dan p=0.3
3. Membangkitkan nilai
yang berdistribusi multinomial dengan tiga kategori
secara acak dengan nilai peluang yang digunakan adalah 0.3, 0.2, dan 0,5
untuk masing-masing nilai kategori secara berurutan
4. Membangkitkan nilai
yang berdistribusi berdistribusi multinomial dengan
empat kategori secara acak dengan nilai peluang yang digunakan adalah 0.1,
0.2, 0.3, dan 0.4 untuk masing-masing nilai kategori secara berurutan.
5. Membangkitkan nilai z yang berdistribusi uniform secara acak
6. Menghitung nilai probabilitas dengan menggunakan persamaan regresi
logisitik, yaitu:
=
dimana
7. Mencari nilai Y dengan kriteria sebagai berikut:
•
Y = 1 apabila
>z
•
Y = 0 apabila
≤z
Tahap Kedua
1. Memodelkan peubah Y terhadap peubah X 1 , X 2 , dan X 3 dengan regresi
logistik biner pada data hasil pembangkitan
2. Menghitung nilai peluang dengan menggunakan model yang terbentuk untuk
nilai-nilai peubah X 1 , X 2 , dan X 3 yang mungkin
3. Memodelkan peubah Y terhadap peubah X 1 dan X 2 dengan regresi logistik
biner pada data hasil pembangkitan
4. Menghitung nilai peluang dengan menggunakan model yang terbentuk untuk
nilai-nilai peubah X 1 dan X 2 yang mungkin
5. Melakukan uji signifikansi parameter dengan menggunakan uji Wald pada
model yang terbentuk di nomor 1
Tahap Ketiga
1. Mengelompokkan data hasil pembangkitan berdasarkan nilai peubah Y dan
nilai peubah X 1
2. Melakukan pengambilan contoh dengan menggunakan teknik pengambilan
contoh acak sederhana di tiap kelompok yang terbentuk di nomor 1 dengan
kriteria pengambilan contoh sebagai berikut:
•
Apabila jumlah anggota kelompok kurang dari atau sama dengan 5,
maka seluruh anggota kelompok diambil sebagai contoh
•
Apabila jumlah anggota kelompok lebih dari 5, maka jumlah contoh
yang diambil adalah sebesar 70 %, 75%, 80%, 85%, 90%, dan 95%
dari jumlah anggota kelompok
Proses pengambilan contoh ini akan diulang sebanyak 10 kali untuk setiap
persentase pengambilan contoh
3. Mengamati nilai peubah X 2
4. Mengelompokkan contoh yang terambil pada proses pengambilan contoh di
nomor 2 berdasarkan nilai peubah Y, X 1 , dan X 2
5. Melakukan pengambilan contoh dengan menggunakan teknik pengambilan
contoh acak sederhana di tiap kelompok yang terbentuk di nomor 4 dengan
kriteria pengambilan contoh dan besar presentase jumlah contoh yang diambil
sama dengan yang digunakan di nomor 2
6. Mengamati nilai peubah X 3
Tahap Keempat
1. Melakukan estimasi parameter menggunakan regresi logistik biner dengan
penambahan satu konstanta untuk contoh yang terambil pada proses
pengambilan contoh di tahap ketiga nomor 2
2. Mengestimasi nilai peluang untuk nilai peubah X 1 dan X 2 yang mungkin
dengan menggunakan model yang terbentuk pada nomor 1
3. Mencari nilai estimasi parameter dengan menggunakan regresi logistik
dengan penambahan dua konstanta untuk contoh yang diperoleh dari proses
pengambilan contoh pada tahap ketiga nomor 5
4. Mengestimasi nilai peluang untuk nilai peubah X 1 , X 2 , dan X 3 yang mungkin
dengan menggunakan model yang terbentuk di nomor 3
5. Melakukan uji signifikansi parameter dengan menggunakan uji Wald untuk
model yang terbentuk di nomor 3
Tahap Kelima
1. Menghitung besar informasi yang hilang pada tahap kedua proses
pengambilan contoh dengan cara membandingkan nilai peluang yang
diperoleh di tahap kedua nomor 4 dan nilai peluang yang diperoleh pada
tahap keempat nomor 2
2. Menghitung besar informasi yang hilang pada tahap ketiga proses
pengambilan contoh dengan cara membandingkan nilai peluang yang
diperoleh di tahap kedua nomor 2 dan nilai peluang yang diperoleh pada
tahap keempat nomor 4
3. Membandingkan hasil uji signifikansi parameter pada tahap kedua nomor 5
dengan hasil uji signifikansi parameter pada tahap keempat nomor 5
4. Menarik kesimpulan
HASIL DAN PEMBAHASAN
Model Regresi Logistik Biner untuk data Hasil Pembangkitan
Model regresi logistik digunakan untuk menggambarkan hubungan antara
peubah respon dan peubah penjelas pada data hasil pembangkitan. Model regresi
logistik biner yang dibangun ada dua macam, yaitu model regresi logistik Y
terhadap dua peubah (X 1 dan X 2 ) dan model regresi logistik Y terhadap tiga
peubah (X 1 , X 2 , dan X 3 ). Kedua model ini digunakan sebagai model pembanding
bagi model-model yang terbentuk dari data hasil pengambilan contoh.
Proses pembangkitan data diawali dengan menentukan model regresi yang
akan dibangkitkan. Model tersebut adalah sebagai berikut:
Data hasil pembangkitan dianggap sebagai kerangka contoh.
Model Y terhadap X 1 dan X 2
Model untuk peubah respon, X 1 dan X 2 yang terbentuk adalah sebagai
berikut:
dengan
Nilai parameter dari model peubah Y terhadap peubah X 1 dan X 2 untuk masingmasing kerangka contoh dapat dilihat di tabel 2.
Model dari data hasil pembangkitan pertama menunjukkan semua parameter
dalam model tersebut signifikan pada α = 5%. Hal ini berarti bahwa semua
peubah penjelas memberikan pengaruh yang nyata terhadap peubah respon. Setiap
parameter dari peubah X 2 yang bernilai 1 memiliki tanda negatif. Hal ini
menunjukkan bahwa peubah X 2 apabila bernilai 1 maka memiliki kecenderungan
untuk
menghasilkan
respon
kasus
yang
lebih
kecil
daripada
peubah
pembandingnya. Sedangkan peubah lainnya memberikan kecenderungan untuk
menghasilkan respon kasus yang lebih besar daripada peubah pembandingnya.
Tabel 2 Nilai parameter model Y terhadap X 1 dan X 2 untuk N=300
Kerangka
GB
GB
GB
Contoh
1
-1.4635 0.2072 0.6460 0.2062 0.8870 0.1949
2
-1.9009 0.3076 1.2736 0.3081 0.6911 0.2021
3
-1.4903 0.2165 0.7410 0.2163 0.6342 0.1947
4
-1.9505 0.3078 1.0435 0.3077 0.7227 0.2159
5
-2.0145 0.3678 1.3830 0.3682 0.6586 0.2091
6
-1.2473 0.1921 0.5251 0.1923 0.7721 0.2005
7
-1.4282 0.2271 0.9258 0.2292 0.4699 0.1991
8
-1.6445 0.2694 1.0149 0.2687 0.4589 0.2009
9
-1.4519 0.2290 0.7598 0.2269 0.4948 0.2022
10
-1.8188 0.3073 1.1658 0.3082 0.6379 0.2387
GB
-0.9334
-0.8760
-0.7128
-0.8475
-0.6747
-0.7764
-0.7175
-0.5733
-0.5426
-0.7992
GB = Galat Baku (standard error)
Model Y terhadap X 1 , X 2 , dan X 3
Model regresi logistik biner Y terhadap X 1 , X 2 , dan X 3 yang diperoleh
adalah sebagai berikut:
dengan
.
Nilai parameter dari model peubah Y terhadap peubah X 1 , X 2 dan X 3 untuk
masing-masing kerangka contoh dapat dilihat di Tabel 3.
Semua nilai parameter dalam
di kesepuluh model tersebut signifikan pada
taraf α = 5%. Model dari data hasil pembangkitan pertama menunjukkan semua
parameter dalam model tersebut signifikan pada α = 5%. Hal ini berarti bahwa
semua peubah penjelas memberikan pengaruh yang nyata terhadap peubah respon.
Setiap parameter dari peubah X 2 dan X 3 yang bernilai 1 memiliki tanda negatif.
Hal ini menunjukkan bahwa apabila nilai dari peubah X 2 dan X 3 adalah 1, maka
peubah X 2 dan X 3 memiliki kecenderungan untuk menghasilkan respon kasus
yang lebih kecil daripada peubah pembandingnya. Sedangkan peubah lainnya
memberikan kecenderungan untuk menghasilkan respon kasus yang lebih besar
daripada peubah pembandingnya.
Nilai parameter model regresi logistik biner untuk Y terhadap X 1 dan X 2
dari data hasil pembangkitan secara keseluruhan dapat dilihat di Lampiran 3. Nilai
0.2119
0.2016
0.1956
0.2137
0.1946
0.1908
0.1860
0.1884
0.1857
0.1995
parameter model regresi logistik biner untuk Y terhadap X 1 , X 2 , dan X 3 dari data
hasil pembangkitan secara keseluruhan dapat dilihat di Lampiran 4.
Apabila nilai parameter dari model Y terhadap X 1 , X 2 , dan X 3
dibandingkan dengan parameter model yang dibangkitkan, terlihat bahwa nilainilai parameter dari model Y terhadap X 1 , X 2 , dan X 3 berada di sekitar parameter
model yang dibangkitkan. Misalkan dilakukan perbandingan nilai
. Nilai
dari parameter model yang dibangkitkan adalah 1, sedangkan nilai
dari
model Y terhadap X 1 , X 2 , dan X 3 berada dalam rentang 0.5618 sampai 1.5154.
Nilai rata-rata dari parameter-parameter ini sebesar 1.0605 dengan ragam sebesar
0.0897.
Tabel 3 Nilai parameter model Y terhadap X 1 , X 2 dan X 3
Kerangka
contoh
1 Parameter -1.5297 0.8013 1.0778 -1.1948
GB
0.3021 0.2331 0.2388 0.2409
2 Parameter -1.8214 1.5154 0.9441 -1.1691
GB
0.3654 0.3335 0.2485 0.2427
3 Parameter -1.8437 1.0006 1.1479 -0.7900
GB
0.2883 0.2579 0.2675 0.2361
4 Parameter -1.8821 1.1717 0.8415 -0.9654
GB
0.3404 0.3203 0.2445 0.2343
5 Parameter -2.1577 1.5825 0.8243 -0.9001
GB
0.4060 0.3828 0.2567 0.2320
6 Parameter -1.2831 0.5618 0.9462 -0.8024
GB
0.2354 0.2094 0.2349 0.2108
7 Parameter -1.6128 1.0139 0.5053 -0.8573
GB
0.2824 0.2436 0.2309 0.2123
8 Parameter -1.5451 1.1800 0.8593 -0.8564
GB
0.3083 0.2818 0.2564 0.2259
9 Parameter -1.3830 0.8163 0.7934 -0.7343
GB
0.2656 0.2445 0.2475 0.2158
10 Parameter -1.5634 0.9611 0.8038 -0.8096
GB
0.2655 0.2498 0.2458 0.2148
untuk N=300
1.1054
0.3295
1.1557
0.3477
1.6660
0.2969
0.8639
0.2992
1.1429
0.3055
1.0170
0.2649
0.8584
0.2868
1.2157
0.2856
1.1668
0.2762
0.8107
0.2802
-2.2634
0.3919
-1.7595
0.3318
-1.7595
0.3227
-1.4424
0.3052
-1.7614
0.3314
-1.8485
0.3453
-1.5921
0.3313
-1.7827
0.3201
-1.6208
0.2978
-1.8169
0.3304
GB = Galat Baku (standard error)
Model Regresi Logistik Biner dengan Penambahan Konstanta
0.7132
0.2890
0.6406
0.2944
0.9785
0.2886
0.5752
0.2767
0.9520
0.2809
0.5312
0.2543
1.0884
0.2715
0.5578
0.2809
0.6511
0.2715
0.6102
0.2471
Pada sub-bab ini akan dilakukan pembahasan tentang model regresi
logistik dengan penambahan konstanta sebagai akibat penggunaan teknik
X1=0
N00=160
X1=0
n00=112
X2=0
N000=22
X2=0
N000=15
X2=1
N001=62
X2=1
N001=43
X2=2
N002=28
X2=2
N002=20
Y=0
N=222
X1=1
N01=62
X1=1
n01=43
Sampling
Frame
N= 300
X1=0
N10=59
X1=0
n10=42
X2=0
N010=15
X2=0
N010=11
X2=1
N011=21
X2=1
N011=15
X2=2
N012=7
X2=2
N012=5
X2=0
N100=16
X2=0
N100=11
X2=1
N101=14
X2=1
N101=10
X2=2
N102=12
X2=2
N102=8
X2=0
N110=4
X2=0
N110=4
X2=1
N111=1
X2=1
N111=1
X2=2
N112=1
X2=2
N112=1
Y=1
N=78
X1=0
N11=9
X1=0
n11=6
Gambar 1 Skema proses pengambilan contoh
pengambilan contoh dengan tiga tahap. Sebagai contoh pada kerangka contoh
pertama untuk jumlah data sebesar 300 data dengan jumlah contoh yang diambil
pada setiap proses pengambilan contoh sebesar 70% dari jumlah data yang ada.
Gambar 1 merupakan skema pengambilan contoh pada salah satu kasus
simulasi. Kasus simulasi yang digunakan adalah data pada kerangka contoh
pertama dengan jumlah contoh yang diambil adalah sebesar 70% pada setiap
pengambilan contoh pada ulangan pertama.
Model regresi logistik dengan konstanta berdasarkan skema pengambilan
contoh (Gambar 1) sebagai berikut:
Model 1 (Y terhadap X 1 dan X 2 )
dengan i = 0,1
Nilai untuk masing-masing α i adalah α 0 = -0.03198 dan α 1 = -0.03953.
Model 2 (Y terhadap X 1 , X 2 dan X 2 )
dengan
i = 0,1
j = 0, 1, 2
Nilai untuk masing-masing α i dan α ij adalah sebagai berikut:
= 0.0168
= -0.0395
= 0.0083
= 0.0295
= -0.06899
= 0.3102
= 0.3365
= 0.3365
Model peubah Y terhadap peubah X 1 dan X 2 dari kerangka contoh
pertama sebagai berikut:
Nilai α i merupakan konstanta untuk mengkoreksi nilai β 0 dan β 1(0) . Berdasarkan
skema pengambilan contoh
yang digunakan,
pembagian kelompok (i)
menggunakan nilai peubah X 1 . Misalkan pada saat X 1 = 0, maka nilai
untuk model dari data hasil pembangkitan adalah -0.8175. Sedangkan
nilai
untuk model 1 adalah -0.82478. Apabila dengan
menggunakan model 1 namun tanpa memasukkan nilai
, maka nilai
yang diperoleh sebesar -0.7928.
Dari contoh diatas dapat dilihat bahwa dengan menggunakan
nilai
lebih mendekati nilai
data hasil pembangkitan. Nilai parameter
nilai parameter
dan
, maka
dari model untuk
dan
dari model 1 mendekati
dari model model untuk data hasil pembangkitan.
Hal ini menunjukkan bahwa penambahan α mampu mengkoreksi model regresi
logistik yang biasa.
Selanjutnya dibandingkan tanda dari parameter model 1 dengan tanda dari
parameter model data hasil pembangkitan. Dari kedua model tersebut, tanda yang
dimiliki oleh parameternya sama. Misalkan untuk tanda dari
dan
model data hasil pembangkitan adalah positif dan negatif. Tanda dari
untuk
dan
dari model 1 juga positif dan negatif.
Apabila dilakukan uji Wald pada setiap parameter di model yang terbentuk
dari data hasil pembangkitan, maka semua parameternya signifikan pada tingkat
α = 5%, yang berarti bahwa semua peubah penjelas memberikan pengaruh yang
nyata terhadap peubah respon. Setiap parameter dari model 1 dilakukan uji Wald,
maka diperoleh bahwa semua parameter signifikan pada tingkat α = 5%, sehingga
dapat disimpulkan bahwa dengan menggunakan model 1 semua peubah bebas
memberikan pengaruh yang nyata terhadap peubah respon. Kesimpulan yang
dihasilkan oleh model 1 sama dengan kesimpulan yang dihasilkan oleh model dari
data hasil pembangkitan. Hal ini menunjukkan bahwa model 1 mampu
menggambarkan pola hubungan antara peubah respon dan peubah penjelas dengan
baik.
Model Y terhadap X 1 , X 2 , dan X 3 dari sampling frame pertama adalah
sebagai berikut:
dengan
Nilai
merupakan konstanta untuk mengkoreksi nilai
berfungsi untuk mengkoreksi nilai
,
,
dan
dan
, sedangkan
. Hal ini terjadi
sebagai akibat dari penggunaan teknik pengambilan contoh dengan tiga tahap.
Misalkan pada saat nilai x1 = 0 dan x 2 = 0, maka nilai
untuk model untuk data hasil pembangkitan adalah
0.3494.
Nilai
adalah
0.3276. Apabila dengan menggunakan model 2, namun tanpa memasukkan nilai
, maka nilai
sebesar
0.3024. Terlihat bahwa dengan menggunakan penambahan konstanta nilai
dari model 2 lebih
estimasi
mendekati nilai
hasil pembangkitan. Selain itu nilai
dari model untuk data
juga menunjukkan pengaruh interaksi
antara i dan j. Berdasarkan skema pengambilan contoh yang digunakan, i
terbentuk berdasarkan nilai X 1 sedangkan j terbentuk berdasarkan nilai X 2 .
Sehingga dapat dikatakan bahwa nilai-nilai
menggambarkan pengaruh
interaksi antara peubah X 1 dan X 2 .
Perbandingan tanda dari nilai estimasi parameter model 2 dengan model
dari data hasil pembangkitan, maka diperoleh bahwa tanda dari parameter di
kedua model sama. Tanda pada parameter
dari model untuk
data hasil pembangkitan dan model 2 adalah positif, negatif, dan positif.
Kemudian dilakukan uji Wald untuk masing-masing parameter dari model 2.
Hasil uji Wald menunjukkan bahwa semua parameter dari model 2 signifikan
pada tingkat α = 5%, yang berarti bahwa pengaruh yang diberikan oleh peubah
penjelas terhadap varibel respon nyata pada α = 5%. Jadi, dapat disimpulkan
bahwa model 2 mampu menggambarkan pola hubungan antara peubah penjelas
dengan peubah respon dengan baik.
Pengujian Parameter
Pada setiap model yang terbentuk dari proses simulasi pengambilan
contoh dilakukan uji Wald untuk mengetahui parameter model signifikan atau
tidak. Hipotesis yang digunakan yaitu H 0 :
lawan H 1 :
, i=1, 2, ..., p
Kemudian dihitung jumlah parameter yang memberikan hasil uji Wald yang
berbeda dengan hasil uji Wald bagi parameter model dari data hasil
pembangkitan. Setelah jumlah diketahui maka dihitung persentase jumlah
parameter yang memberikan kesimpulan yang berbeda dengan model untuk data
hasil pembangkitan. Selama proses simulasi dilakukan pengulangan, maka
diperoleh nilai rata-rata persentase jumlah parameter yang memberikan
kesimpulan yang berbeda denganmodel untuk data hasil pembangkitan.
Tabel 2 menunjukkan nilai rata-rata persentase jumlah parameter yang
memberikan kesimpulan yang berbeda dengan parameter dari model populasi
pada taraf α = 5%. Model yang digunakan adalah model variabel Y terhadap
peubah X 1 , X 2 , dan X 3 , karena pada saat dilakukan survei dengan beberapa tahap
pengambilan contoh model yang digunakan hanyalah model Y terhadap seluruh
peubah penjelas yang diamati (X 1 , X 2 , dan X 3 ).
Tabel 4 Nilai rata-rata persentase jumlah parameter yang memberikan kesimpulan
yang berbeda dari model data hasil pembangkitan untuk N=300
Kerangka
Jml contoh yang diambil di setiap pengambilan contoh
contoh
70%
75%
80%
85%
90%
95%
1
23.33
15.00
16.67
5.00
5.00
1.67
2
18.33
01.67
6.67
0.00
0.00
0.00
3
26.67
15.00
18.33
13.33
8.33
10.00
4
26.67
15.00
18.33
13.33
8.33
10.00
6
23.33
20.00
15.00
15.00
11.67
13.33
7
25.00
21.67
23.33
15.00
6.67
5.00
8
22.75
18.86
13.47
12.34
13.03
9.90
9
35.00
13.33
13.33
1.67
3.33
3.33
10
20.00
18.33
18.33
13.33
5.00
0.00
Rata-rata
24.56
15.43
15.94
9.89
6.82
5.92
Saat terjadi pengurangan jumlah contoh sebesar 30 % di masing-masing
tahap pengambilan contoh, maka persentase rata-rata jumlah parameter yang
berbeda dengan parameter model populasi sebesar 24.56 % (Tabel 4). Hal ini
berarti bahwa pada saat diambil contoh sebesar 49% dari jumlah keseluruhan
populasi, maka terdapat 24.56% parameter yang tidak menggambarkan hubungan
antar peubah yang sebenarnya. Apabila terjadi pengurangan jumlah contoh
sebesar 20% dan 25% di masing-masing tahap pengambilan contoh, maka ratarata persentase jumlah parameter yang tidak menggambarkan hubungan peubah
respon dengan peubah penjelas berkisar 15%. Nilai rata-rata persentase jumlah
parameter yang tidak mennggambarkan hubungan yang sebenarnya akan menurun
seiring dengan bertambahnya jumlah contoh yang digunakan.
Tanda positif atau negatif dari parameter memiliki peranan yang penting
dalam menggambarkan pola hubungan antara peubah respon dan peubah penjelas.
Tanda positif pada parameter menunjukkan kecenderungan yang lebih besar
daripada peubah pembandingnya. Tanda negatif menunjukkan kecenderungan
yang lebih kecil dari peubah pembandingnya. Hampir semua model yang
dibangun dari data hasil pengambilan contoh memberikan tanda positif atau
negatif yang sama dengan model dari data hasil pembangkitan. Tanda positif dan
negatif dari 600 model yang terbentuk, hanya 13 parameter dalam 13 model yang
berbeda dari model pembanding.
Tabel 5 Rata-rata persentase informasi hilang pada tahap kedua pengambilan
contoh untuk N=300
Kerangka
Jml contoh yang diambil di setiap pengambilan contoh
contoh
70%
75%
80%
85%
90%
95%
1
8.43
5.15
5.38
15.48
12.80
23.61
2
29.60
25.38
19.15
17.48
9.30
6.55
3
28.25
21.48
37.38
30.58
23.61
31.32
4
32.21
28.31
21.98
17.01
14.85
11.93
6
42.31
6.31
4.32
5.48
3.03
4.38
7
19.43
14.11
14.44
17.90
19.50
13.44
8
16.86
15.81
13.67
13.64
15.33
18.94
9
17.14
15.50
16.39
15.66
19.23
14.42
10
17.73
10.08
12.58
14.89
18.25
11.41
Rata-rata
23.55
15.79
16.14
16.46
15.10
15.11
Informasi yang Hilang
Model yang baik merupakan model yang mampu menggambarkan
keadaan populasi yang sebenarnya. Informasi akan hilang dalam setiap
pengurangan jumlah data. Pengurangan jumlah data pertama kali terjadi pada
tahap kedua proses pengambilan contoh. Besar rata-rata persentase informasi yang
hilang dapat dilihat pada Tabel 5.
Pengurangan contoh sebesar 30% mengakibatkan kehilangan informasi ratarata sebesar 23.55% (Tabel 5). Pengurangan jumlah contoh sebesar 5% sampai
25% maka akan kehilangan informasi sebesar 15% sampai 16%.
Gambar 2 menunjukkan rata-rata persentase informasi yang hilang pada
tahap kedua proses
KASUS-KONTROL DENGAN TIGA TAHAP PENGAMBILAN
CONTOH
RATNA CHRISTIANINGRUM
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
2011
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI
Dengan ini saya menyatakan bahwa tesis Kajian Model Regresi Logistik pada
Data Kasus-Kontrol dengan Tiga Tahap Pengambilan Contoh adalah karya saya
dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun
kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip
dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
tesis ini.
Bogor, Agustus 2011
Ratna Christianingrum
G151090191
ABSTRACT
RATNA CHRISTIANINGRUM. Logistic Regression Model Studies on
Case-Control Data with Three-Stage Sampling . Under direction of BUDI
SUSETYO, and KUSMAN SADIK
If the sample is taken by using multistage random sampling, through reducing
sample size in the next stage, then the ordinary logistic models can’t be used. This
data will be analyzed using logistic models with the additional intercept. This
research studied the application of addition intercept terms in logistic regression
for case control study used multi stage random sampling. Furthermore, this
research compared between the model which was formed and the model of
the frame sampling data. The addition intercept in logistic models was able to
describe the pattern of relationship explanatory variable with response variable.
Missing information decreases with increasing number of samples that observed.
Average of missing information in the third stage tends to be smaller than in the
second stage, because the third stage has more homogeneous sample units than the
second stage. The average of missing information is smaller than the average
reduction in the number of samples when using multi-stage random sampling, so
this sampling technique is also suitable for use in research aimed at predicting the
probability of case. Moreover the use of the sampling technique can reduce the
sampling cost.
Keywords: Additional Intercept, logistic model, multi-stage random sampling,
case-control
RINGKASAN
RATNA CHRISTIANINGRUM. Kajian Model Regresi Logistik pada Data
Kasus-Kontrol dengan Tiga Tahap Pengambilan Contoh. Dibimbing oleh BUDI
SUSETYO dan KUSMAN SADIK
Rancangan penelitian yang banyak digunakan dalam bidang epidemiologi
adalah rancangan penelitian kasus-kontrol. Dalam penelitian kasus-kontrol,
contoh kasus dan contoh kontrol diambil secara terpisah. Kasus merupakan unit
contoh yang memiliki karakteristik tertentu yang diamati, sedangkan kontrol
merupakan unit contoh yang tidak memiliki karakteristik tertentu yang diamati.
Teknik pengambilan contoh dengan beberapa tahap dapat digunakan untuk
mengambil contoh kasus dan kontrol.
Manfaat lain dari penggunaan teknik pengambilan contoh dengan beberapa
tahap yaitu dapat mengurangi biaya pengambilan contoh. Hal ini mungkin terjadi
apabila penelitian memiliki biaya pengamatan suatu peubah lebih mahal dari
peubah yang lain. Dengan menggunakan teknik pengambilan contoh dengan
beberapa tahap, peubah yang memiliki biaya pengamatan yang mahal diamati di
tahap terakhir pengambilan contoh dan hanya sebagian yang diamati.
Konsekuensi dari penggunaan teknik pengambilan contoh dengan beberapa
tahap adalah proses analisa data yang lebih komplek. Penelitian ini mengkaji
penerapan regresi logistik dengan penambahan konstanta pada penelitian kasuskontrol yang menggunakan teknik pengambilan contoh dengan beberapa tahap.
Selain itu akan membandingkan model yang terbentuk dengan model dari data
hasil pembangkitan.
Data yang digunakan merupakan data berpasangan yang diperoleh dari
proses pembangkitan. Terdapat tida peubah penjelas yang digunakan, yaitu X 1 ,
X 2 , dan X 3 . Peubah X 1 memiliki dua nilai yang mungkin (0, 1) dan dibangkitkan
secara acak dari distribusi binomial dengan n=1 dan p=0.3. Peubah X 2 memiliki
tiga nilai yang mungkin (0, 1, 2) yang dibangkitkan secara acak dari distribusi
multinomial dengan nilai peluang yang digunakan adalah 0.3, 0.2, dan 0,5 untuk
masing-masing nilai kategori secara berurutan. Peubah X 3 memiliki empat nilai
yang mungkin yaitu 0, 1, 2, dan 3. Peubah ini dibangkitkan secara acak dari
distribusi multinomial dengan nilai peluang yang digunakan adalah 0.1, 0.2, 0.3,
dan 0.4 untuk masing-masing nilai kategori secara berurutan. Peubah Y akan
bernilai 1 apabila nilai probabilitas > z dan bernilai 0 untuk lainnya. Nilai z
dibangkitkan secara acak dari distribusi uniform.
Model regresi logistik dengan penambahan konstanta dibangun dari data
contoh. Terdapat 2 macam model yang dibentuk, yaitu model regresi logistik
dengan satu konstanta tambahan dan model regresi logistik dengan dua konstanta
tambahan. Model regresi logistik dengan satu konstanta tambahan dibangun dari
data dengan dua tahap pengambilan contoh, sedangkan model lainnya dibangun
dari data dengan tiga tahap pengambilan contoh. Konstanta tambahan (α i ) tidak
hanya berfungsi untuk mengkoreksi β 0 , namun juga β i .
Hasil pengujian terhadap parameter dari model regresi logistik dengan
penambahan konstanta, hampir semua parameter yang dimiliki memberikan hasil
yang sama dengan parameter dari model untuk data hasil pembangkitan. Selain
itu, parameter ini memiliki tanda yang sama dengan parameter dari model untuk
data hasil pembangkitan. Jadi dapat disimpulkan bahwa regresi logistik dengan
penambahan konstanta mampu menggambarkan pola hubungan antara peubah
respon dengan peubah penjelas.
Informasi yang hilang akan menurun seiring dengan bertambahnya jumlah
contoh yang diamati. Rata-rata informasi yang hilang pada tahap ke-3 cenderung
lebih kecil dari rata-rata informasi yang hilang pada tahap ke-2. Hal ini
dikarenakan tahap ke-3 memiliki unit contoh yang lebih homogen dari tahap ke-2.
Kata kunci: Konstanta tambahan, model regresi logistik, tiga tahap pengambilan
contoh, penelitian kasus kontrol
© Hak Cipta milik IPB, tahun 2011
Hak Cipta dilindungi Undang-undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
yang wajar bagi IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh Karya tulis
dalam bentuk apa pun tanpa izin IPB
KAJIAN MODEL REGRESI LOGISTIK PADA DATA
KASUS-KONTROL DENGAN TIGA TAHAP PENGAMBILAN
CONTOH
RATNA CHRISTIANINGRUM
Tesis
Sebagai salah satu syarat untuk memperoleh gelar
Magister Sains pada
Program Studi Statistika
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2011
Penguji Luar Komisi pada Ujian Tesis : Dr. Ir. Aji Hamim Wigena, MSc
Judul Penelitian
: Kajian Model Regresi Logistik pada Data Kasus-Kontrol
dengan Tiga Tahap Pengambilan Contoh
Nama
: Ratna Christianingrum
NRP
: G151090191
Program Studi
: Statistika
Disetujui
Komisi Pembimbing
Dr. Ir. Budi Susetyo, MS
Ketua
Dr. Kusman Sadik, MSi
Anggota
Diketahui,
Ketua Program Studi S2 Statistika
Dekan Sekolah Pascasarjana IPB
Dr. Ir. Erfiani, MSi
Dr. Ir. Dahrul Syah, M.Sc. Agr.
Tanggal Ujian : 20 Agustus 2011
Tanggal Lulus :
PRAKATA
Puji dan syukur penulis panjatkan kepada Tuhan atas segala rahmat dan
karunia-Nya sehingga karya ilmiah ini dapat diselesaikan. Judul karya ilmiah ini
adalah “Kajian Model Regresi Logistik pada Data Kasus-Kontrol dengan Tiga
Tahap Pengambilan Contoh”.
Terima kasih penulis ucapkan kepada Dr. Ir. Budi Susetyo, M.S selaku
pembimbing I dan Dr. Kusman Sadik, M.Si selaku pembimbing II, terima kasih
atas bimbingan, saran dan waktunya. Disamping itu penulis juga mengucapkan
terima kasih kepada Dr. Ir. Aji Hamim Wigena, M.Sc. selaku penguji luar komisi
pada ujian tesis dan seluruh staf Program Studi Statistika.
Ungkapan terima kasih juga disampaikan kepada Bapak, Ibu dan adik serta
seluruh keluarga atas doa, dukungan dan kasih sayangnya. Terima kasih kepada
teman-teman Statistika angkatan 2009 atas bantuan dan kebersamaannya.
Semoga karya ilmiah ini dapat bermanfaat.
Bogor, Agustus 2011
Ratna Christianingrum
RIWAYAT HIDUP
Penulis dilahirkan di Semarang, pada tanggal 30 Juni 1987 sebagai anak
pertama dari pasangan Bapak Suparman, S.Pd dan Ibu Amini, S.Pd.
Tahun 2005 penulis menyelesaikan pendidikan di SMU Negeri 1 Salatiga dan
pada tahun yang sama lulus melalui SPMB pada Program Studi Statistika FMIPA
Universitas Diponegoro. Pada tahun 2009 penulis menyelesaikan kuliah dan pada
tahun yang sama penulis diterima di Program Studi Statistika Pasca Sarjana
Institut Pertanian Bogor.
DAFTAR ISI
Halaman
DAFTAR TABEL ........................................................................................ xii
DAFTAR GAMBAR ................................................................................... xii
DAFTAR LAMPIRAN ................................................................................ xiv
PENDAHULUAN
Latar Belakang .....................................................................................
Tujuan ..................................................................................................
1
2
TINJAUAN PUSTAKA
Pengertian .............................................................................................
Teknik Pengambilan Contoh .................................................................
Teknik Analisis .....................................................................................
3
4
6
METODOLOGI
Sumber Data .......................................................................................... 13
Metode Analisis .................................................................................... 13
HASIL DAN PEMBAHASAN
Model Regresi Logistik Biner untuk Data Hasil Pembangkitan .............
Model Regresi Logistik Biner dengan Penambahan Konstanta ..............
Pengujian Parameter .............................................................................
Informasi yang Hilang ...........................................................................
17
19
24
26
SIMPULAN DAN SARAN
Simpulan .............................................................................................. 31
Saran .................................................................................................... 31
DAFTAR PUSTAKA .................................................................................. 33
LAMPIRAN ................................................................................................. 35
DAFTAR TABEL
Halaman
1
Proses pengambilan contoh dengan tiga tahap .........................................
5
2
Nilai parameter model Y terhadap X 1 dan X 2 untuk N=300 ..................... 18
3
Nilai parameter model Y terhadap X 1 , X 2 , dan X 3 untuk N=300 .............. 19
4
Nilai rata-rata persentase jumlah parameter yang memberikan kesimpulan
yang berbeda dari model data hasil pembangkitan untuk N=300............... 24
5
Rata-rata persentase informasi hilang pada tahap kedua pengambilan
contoh untuk N=300............................................................................... 25
6
Rata-rata persentase total informasi yang hilang untuk N=300 ............... 27
DAFTAR GAMBAR
Halaman
1
Skema proses pengambilan contoh .....................................................
20
2
Rata-rata informasi hilang pada tahap kedua proses pengambilan
contoh ..................................................................................................
26
3
Rata-rata persentase total informasi hilang………...............................
28
4
Rata-rata persentase informasi hilang pada tahap kedua dan ketiga
dengan N=300 .....................................................................................
28
DAFTAR LAMPIRAN
Halaman
1
Program di SAS 6.2 .............................................................................
37
2
Program di Matlab ...............................................................................
39
3
Nilai parameter model Y terhadap X 1 dan X 2 untuk data hasil
pembangkitan
……………………………………………...........................................
44
4
Nilai parameter model Y terhadap X 1 , X 2 , dan X 3 untuk data hasil
pembangkitan ……………………………………………...................
46
5
Rata-rata persentase informasi hilang pada tahap kedua pengambilan
contoh ……………………………………………...............................
48
6
Rata-rata persentase total informasi hilang ..........................................
50
PENDAHULUAN
Latar Belakang
Rancangan penelitian kasus-kontrol merupakan rancangan penelitian yang
banyak digunakan dalam bidang epidemiologi. Rancangan ini digunakan untuk
menelusuri faktor resiko dari suatu penyakit. Rancangan ini memiliki hubungan
sebab-akibat yang lebih kuat daripada cross section. Breslow (1996) dalam Scott
(2006) menyatakan bahwa penelitian kasus-kontrol merupakan tulang belakang
dari epidemiologi.
Contoh kasus dan kontrol diambil secara terpisah dalam penelitian kasuskontrol. Kasus merupakan kumpulan unit contoh yang memiliki karakteristik
tertentu yang akan diamati, misalnya orang yang terjangkit penyakit tertentu.
Adapun kontrol merupakan kumpulan unit contoh yang tidak memiliki
karakteristik yang akan diamati. Proses pengambilan contoh, baik dalam kasus
maupun kontrol menggunakan teknik pengambilan contoh yang sederhana.
Teknik
pengambilan
contoh
tersebut
antara
lain
menggunakan
teknik
pengambilan contoh acak sederhana (simple random sampling) atau teknik
pengambilan contoh acak bersrata (stratified random sampling). Scott (2006)
lebih menyarankan penggunaan teknik pengambilan contoh yang lebih kompleks
daripada yang sederhana, yaitu teknik pengambilan contoh acak dengan beberapa
tahap.
Manfaat lain dari penggunaan teknik pengambilan contoh dengan beberapa
tahap yaitu dapat mengurangi biaya pengambilan contoh. Hal ini mungkin terjadi
apabila penelitian memiliki biaya pengamatan suatu peubah lebih mahal dari
peubah yang lain. Dengan menggunakan teknik pengambilan contoh dengan
beberapa tahap, peubah yang memiliki biaya pengamatan yang mahal diamati di
tahap terakhir pengambilan contoh dan hanya sebagian yang diamati.
Terdapat beberapa metode yang dapat digunakan untuk menganalisis data
kasus-kontrol, salah satunya dengan menggunakan regresi logistik. Regresi
logistik merupakan metode yang digunakan untuk menggambarkan hubungan
sebuah peubah respon dengan satu atau lebih peubah penjelas, dimana peubah
responnya diskrit yang mempunyai dua atau lebih nilai yang mungkin (Hosmer &
Lemeshow 2000). Apabila peubah respon yang digunakan merupakan data biner
maka disebut regresi logistik biner. Dalam regresi logistik terdapat asumsi yang
harus dipenuhi (Meyers, et al. 2006) yaitu:
1.
Tidak ada multikolinearitas yang sempurna
2.
Tidak terdapat kesalahan spesifikasi (semua prediktor yang relevan harus
disertakan, sedangkan prediktor yang tidak relevan dapat dihilangkan).
3.
Peubah bebas harus diukur pada tingkat skala respon sumatif, interval atau
rasio, meskipun peubah dikotomus diperbolehkan.
Data kasus-kontrol dapat dianalisis dengan regresi logisitik biner apabila
proses pengambilan contoh dilakukan dengan satu tahap pengambilan contoh.
Data kasus-kontrol yang diperoleh dengan menggunakan teknik pengambilan
contoh dengan beberapa tahap tidak dapat dianalisis menggunakan regresi logistik
biner. Contoh tersebut diambil dari distribusi bersyarat Y dan X yang telah
diamati di tahap sebelumnya. Akibatnya konstanta yang dihasilkan akan berbias.
Penambahan konstanta pada model regresi logistik dilakukan untuk mengatasi
permasalahan tersebut (Lee, et al. 2010)
Penelitian ini mengkaji penerapan regresi logistik dengan penambahan
konstanta pada penelitian kasus-kontrol yang menggunakan teknik penarikan
contoh acak dengan beberapa tahap. Selain itu akan membandingkan model yang
terbentuk dengan model dari data hasil pembangkitan.
Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk
1. Mengkaji penerapan regresi logistik dengan penambahan konstanta pada
penelitian kasus-kontrol yang menggunakan teknik pengambilan contoh acak
dengan beberapa tahap.
2. Membandingkan model yang terbentuk dari data contoh dengan model dari
data hasil pembangkitan-nya.
TINJAUAN PUSTAKA
Pengertian
Rancangan penelitian kasus-kontrol di bidang epidemiologi didefinisikan
sebagai rancangan epidemiologi yang mempelajari hubungan antara faktor
penelitian dengan penyakit, dengan cara membandingkan kelompok kasus dan
kelompok kontrol berdasarkan faktor penelitian yang diamati (Warti 2010). Kasus
merupakan unit pengamatan yang memiliki karakteristik tertentu, biasanya unit
pengamatan yang mengidap penyakit tertentu. Kontrol merupakan unit
pengamatan yang tidak memiliki karakteristik tertentu (Lee et al. 2010). Scott dan
Wild (1991) menyatakan bahwa epidemiologi digunakan untuk memprediksi
hubungan antara peubah penjelas, misalnya faktor-faktor resiko dari suatu
penyakit dan peubah respon yang diskrit.
Langkah awal dari penelitian kasus-kontrol yaitu pengidentifikasian
kelompok orang yang mengidap penyakit tertentu dan yang tidak untuk melihat
faktor resiko keduanya (Woodward 2005 dalam Warti 2010). Langkah selanjutnya
dilakukan penelusuran riwayat penyakit tersebut dengan rancangan penelitian
kasus-kontrol.
Rancangan
ini
memberikan
cara
yang
efisien
dalam
mengumpulkan faktor-faktor penelitian dari penyakit yang jarang terjadi.
Misalkan ada seorang peneliti yang akan mengidentifikasi faktor-faktor
yang dapat meningkatkan resiko seseorang terkena penyakit jantung pada usia
produktif, untuk pasien rumah sakit A yang datang dalam kurun waktu setahun
terakhir. Setelah mendapatkan kerangka contoh yang berupa daftar pasien
dilakukan identifikasi pasien yang mengindap penyakit jantung dan yang tidak.
Orang yang mengindap penyakit jantung dimasukkan dalam kelompok kasus,
sedangkan sisanya sebagai kontrol.
Contoh kasus dan kontrol diperoleh dengan menggunakan teknik
pengambilan contoh di masing-masing kelompok kasus dan kelompok kontrol.
Dalam penelitian tersebut, peubah yang diamati tahap pertama adalah jenis
kelamin, tekanan darah dan berat badan. Peubah-peubah ini diamati pada tahap
pertama proses penambilan contoh karena untuk mendapatkan nilai dari peubah
ini hampir tidak memerlukan biaya. Untuk mendapatkan nilai dari peubah,
peneliti hanya perlu mengunjungi rumah sakit. Peubah yang diamati di tahap
terakhir pengambilan contoh merupakan peubah yang berhubungan dengan
tingkah
laku
dan
kebiasaan,
misalkan
kebiasaan
merokok,
kebiasaan
mengkonsumsi alkohol, dan pola konsumsi makanan. Peubah-peubah ini
diletakkan di tahap terakhir proses pengambilan contoh, karena biaya memperoleh
nilai peubah-peubah tersebut relatif mahal. Peneliti harus mengunjungi langsung
orang yang terpilih sebagai contoh untuk mendapatkan nilai peubahnya.
Teknik Pengambilan Contoh
Teknik pengambilan contoh digunakan untuk memperoleh contoh yang
mampu menggambarkan keadaan sebenarnya dari populasi yang diamati.
Penelitian kasus-kontrol menggunakan teknik pengambilan contoh yang biasa
digunakan. Namun dalam penelitian ini, contoh untuk kasus dan kontrol diambil
secara terpisah. Teknik pengambilan contoh yang digunakan merupakan teknik
pengambilan contoh acak sederhana dan teknik pengambilan contoh acak bersrata.
Scott (2006) menyatakan bahwa lebih baik menggunakan rancangan pengambilan
contoh yang lebih kompleks yaitu rancangan pengambilan contoh yang terbagi
dalam beberapa tahap. Teknik pengambilan contoh tersebut dapat menurunkan
biaya pengambilan contoh dan mampu mengatasi data hilang.
Langkah awal proses pengambilan contoh dalam penelitian kasus-kontrol
adalah membagi populasi ke dalam dua kelompok berdasarkan status karakteristik
yang diamati. Kelompok pertama adalah kumpulan unit pengamatan yang
memiliki karakteristik tertentu dan kelompok ini disebut kasus. Kelompok kedua
adalah kumpulan unit pengamatan yang tidak memiliki karakteristik tertentu.
Kelompok ini disebut kontrol. Contoh kasus dan kontrol diambil secara terpisah di
masing-masing kelompok kasus dan kontrol. Teknik pengambilan contoh acak
sederhana digunakan untuk memperoleh contoh kasus ataupun kontrol.
Pada tahap pertama pengambilan contoh, unit contoh terbagi dalam
beberapa kelompok berdasarkan jumlah faktor penelitian dan taraf dari masingmasing faktor penelitian yang diamati. Misalkan pada tahap pertama terdapat dua
faktor penelitian yang diamati, di mana faktor pertama mempunyai tiga taraf dan
Tabel 1 Proses pengambilan contoh dengan tiga tahap
Populasi
Tahap pertama
Tahap kedua
N N0
n0
(Jumlah n01
(Jumlah
(jumlah
(jumlah unit dimana
dimana Y=0
keseluru contoh Y=0
dan
X(1) =
,
han
kontrol) X(1) =
)
=
)
kontrol)
(Jumlah
dimana Y=0
X(1) =
,
=
)
N1
(jumlah
keseluru
han
kasus)
n1
(jumlah
contoh
kasus)
Tahap ketiga
unit n011
dan
X(2)
unit n01b
dan
X(2)
(Jumlah n0a
unit dimana
Y=0
dan
(1)
X =
)
(Jumlah
dimana Y=0
X(1) =
,
=
)
unit n0a1
dan
X(2)
unit n0ab
dan
X(2)
(Jumlah n01
unit dimana
Y=1
dan
(1)
X =
)
(Jumlah
dimana Y=0
X(1) =
,
=
)
(Jumlah
dimana Y=1
X(1) =
,
=
)
(Jumlah n0a
unit dimana
Y=1
dan
(1)
X =
)
unit n111
dan
X(2)
(Jumlah
dimana Y=1
,
X(1) =
=
)
unit n11b
dan
X(2)
(Jumlah
dimana Y=1
X(1) =
,
=
)
unit n1a1
dan
X(2)
(Jumlah
dimana Y=1
X(1) =
,
=
)
unit n1ab
dan
X(2)
faktor kedua mempunyai dua taraf. Jumlah kelompok yang ada pada tahap
pertama ini adalah 2 x 3= 6 kelompok. Pada tahap pertama, faktor penelitian yang
diamati biasanya berupa data kategori.
Tahap kedua dimulai setelah unit pengamatan terbagi ke dalam beberapa
kelompok. Dari masing-masing kelompok diamati seluruh anggota kelompok atau
hanya sub-contohnya. Jika hanya diambil sub-contoh, maka proses pengambilan
contohnya menggunakan teknik pengambilan contoh acak sederhana. Selanjutnya
dilakukan pengukuran faktor penelitian yang akan diamati pada tahap ini.
Tahap ketiga pengambilan contoh dilakukan setelah tahap kedua. Cara
memperoleh contoh pada tahap ketiga dan tahap-tahap selanjutnya sama dengan
cara memperoleh contoh pada tahap kedua. Pada tahap terakhir pengambilan
contoh, data yang diamati dapat berupa data diskrit atau kontinu. Tabel proses
pengambilan contoh dengan menggunakan tiga tahap dapat dilihat pada Tabel 1.
Teknik Analisis
Metode yang banyak digunakan untuk menganalisis data kasus-kontrol
adalah regresi logistik. Regresi logistik merupakan suatu metode yang digunakan
untuk menggambarkan hubungan antara peubah respon yang berupa data kategori
dengan satu atau lebih peubah penjelas.
Model
Respon yang diamati dalam penelitian kasus-kontrol adalah status dari
karakteristik yang akan diamati, misalnya status penyakit. Unit yang berasal dari
kelompok kasus diberi nilai peubah respon Y=1. Unit yang berasal dari kelompok
kontrol diberi nilai peubah respon Y=0. Peubah penjelas yang dinyatakan dalam
bentuk vektor penjelas dituliskan dengan notasi X. Nilai peluang untuk kasus
dengan X = x adalah
(1)
Sedangkan nilai peluang untuk kontrol adalah
(2)
Model ini merupakan model regresi logistik biner. Namun model ini hanya dapat
digunakan pada rancangan penelitian kasus-kontrol dengan satu tahap.
Model regresi logistik biner yang biasa tidak dapat digunakan pada
rancangan kasus-kontrol dengan menggunakan dua tahap atau lebih dalam proses
pengambilan contoh. Hal ini dikarenakan konstanta dari model regresi logistik
biasa berbias. Untuk mengatasi permasalahan tersebut maka dilakukan modifikasi
terhadap model regresi logistik. Modifikasi yang dilakukan adalah dengan
menambahkan konstanta tambahan yang dinotasikan dengan α. Nilai α muncul
sebagai akibat penggunaan skema pengambilan contoh kasus kontrol yang dapat
dilihat di Tabel 1 (Scott & Wild 1997). Model baru yang terbentuk adalah sebagai
berikut:
•
Dua tahap
(3)
(4)
•
Tiga tahap
(5)
(6)
dengan
merupakan konstanta tambahan untuk strata ke-i yang terbentuk pada tahap
kedua (i = 1, 2, ..., a)
merupakan konstanta tambahan untuk strata ke-i yang terbentuk di tahap kedua
dan strata ke-j yang terbentuk dari tahap ke-3 (i = 1, 2, ..., a dan j=1, 2, ..., b)
merupakan vektor contoh acak bagi peubah penjelas
merupakan vektor parameter
Pendugaan Parameter
Berdasarkan skema pengambilan contoh, maka fungsi likelihood untuk
model dengan beberapa tahap pengambilan contoh tidak hanya bergantung pada
parameter β tetapi juga pada distribusi bersyarat dari X, yang diberikan oleh
X(1)=
, X(2)=
, ... untuk i = 1, ..., a dan j = 1, ..., b. Fungsi likelihood bagi
model dengan dua tahap pengambilan contoh adalah sebagai berikut:
(7)
Sedangkan fungsi likelihood bagi model dengan tiga tahap pengambilan contoh
adalah sebagai berikut:
(8)
dengan
C=
D=
dengan
Y
merupakan peubah respon
h
merupakan nilai dari peubah respon (h=0,1)
merupakan peubah penjelas yang diamati pada tahap pertama proses
pengambilan contoh
merupakan nilai dari peubah penjelas ke-i yang diamati pada tahap pertama
proses pengambilan contoh (i = 1, 2, ..., a)
merupakan peubah penjelas yang diamati pada tahap kedua proses
pengambilan contoh
merupakan nilai dari peubah penjelas ke-j yang diamati pada tahap kedua
proses pengambilan contoh (j = 1, 2, ..., b)
merupakan nilai dari peubah penjelas ke-k yang diamati pada tahap ketiga
proses pengambilan contoh dan berasal dari kelompok peubah respon ke-h,
kelompok peubah penjelas ke-i dan ke-j (i = 1, 2, ..., a dan j=1, 2, ..., b)
merupakan jumlah seluruh anggota kelompok yang memiliki nilai peubah
respon h dan nilai peubah penjelas yang diamati pada tahap pertama proses
pengambilan contoh
merupakan jumlah contoh yang diambil dari kelompok yang memiliki nilai
peubah respon h dan nilai peubah penjelas yang diamati pada tahap pertama
proses pengambilan contoh
merupakan jumlah seluruh anggota kelompok yang memiliki nilai peubah
respon h, nilai peubah penjelas yang diamati pada tahap pertama proses
pengambilan contoh
, dan nilai peubah penjelas yang diamati pada
tahap kedua proses pengambilan contoh
merupakan jumlah contoh yang diambil dari kelompok yang memiliki nilai
peubah respon h, nilai peubah penjelas yang diamati pada tahap pertama
proses pengambilan contoh
, dan nilai peubah penjelas yang diamati
pada tahap kedua proses pengambilan contoh
Secara umum proses pengambilan contoh dalam penelitian kasus kontrol,
contoh berukuran n i diambil dari
untuk setiap kategori respon i=1, 2, ...,
a. Peluang Y terpilih sebagai contoh adalah sebesar
sebesar
dan peluang x terpilih
. Sehingga persamaan (1) dapat ditulis kembali menjadi (Scot dan
Wild 1997):
(9)
dengan
merupakan perbandingan antara peluang individu terpilih sebagai contoh
pada kelompok ke-i dengan peluang individu terpilih dari populasi
merupakan jumlah anggota kelompok ke-i
n
merupakan jumlah keseluruhan data
Dalam penelitian kasus kontrol, respon yang diamati adalah ada atau
tidaknya karakteristik yang diamati, misalnya status penyakit. Sehingga peubah
responnya merupakan data biner. Apabila dilakukan pengambilan contoh dengan
tiga tahap pengambilan contoh, maka persamaan (9) dapat ditulis kembali
menjadi:
(10)
dengan
merupakan nilai pobabilitas contoh terpilih jika Y=h,
. t merupakan indek yang menunjukkan kelompok
yang terbentuk pada setiap tahap pengambilan contoh. Jika dilakukan dua tahap
pengambilan contoh, maka t dapat digantikan dengan i. Jika dilakukan tiga tahap
pengambilan contoh, maka t dapat digantikan dengan kombinasi i dan j (ij).
Berdasarkan model pada persamaan (9) dan (10) maka fungsi log
likelihood dapat ditulis sebagai berikut:
(11)
=
dengan
Persamaan (11) disebut juga sebagai pseudo-likelihood.
Pendugaan konstanta tambahan ( ) dari persamaan (3) dan (5) dapat dicari
dengan menggunakan metode Conditional Maximum Likelihood (CML). CML
memperlakukan α sebagai konstanta yang fix. Penduga
yang konsisten dapat
diperoleh dengan memaksimalkan persamaan (11) dan menggantikan
pada
persamaan (9) dengan penduga yang konsisten. Wild (1991) menyatakan bahwa
P(Y=h) dapat digantikan dengan
dan
dengan sampling fraksional
Sehingga
pada persamaan (9) dapat digantikan
.
dapat diduga dengan:
Berdasarkan model di persamaan (3) dan (5), maka t dapat digantikan dengan i
dan ij.Penduga
dengan menggunakan CML merupakan penduga yang konsisten.
Evaluasi Model
Pengujian parameter
secara parsial menggunakan uji Wald dengan
merasionalkan nilai dugaan parameter dengan simpangan bakunya. Hipotesis yang
akan diuji adalah:
H0 :
H1 :
, i=1, 2, ..., p
Statistik uji yang digunakan adalah
Jika H 0 benar, maka statistik W akan mengikuti sebaran normal baku
Proses pengambilan contoh dikatakan efisien apabila biaya yang diperlukan
untuk memperoleh contoh sekecil mungkin, namun contoh yang terambil mampu
memberikan informasi semaksimal mungkin. Besarnya informasi yang hilang
dapat dilihat dari besarnya simpangan.
dengan
P : nilai estimasi peluang dari model untuk data populasi
: nilai estimasi peluang dari model untuk data contoh
Apabila yang dilakukan adalah simulasi, maka ukuran kebaikan model tidak
cukup dengan menggunakan rataan simpangan, namun menggunakan rataan dari
rataan simpangan yang dicari dengan menggunakan rumus berikut:
METODOLOGI
Sumber Data
Sumber data yang digunakan dalam penelitian ini adalah data hasil simulasi.
Data yang dibangkitkan merupakan data berpasangan, yaitu Y, X 1 , X 2 , dan X 3 . Y
merupakan peubah respon yang berdistibusi binomial dan bersifat acak. Peubah
X 1 , X 2 , dan X 3 merupakan peubah penjelas yang berperan sebagai faktor
penelitian. Peubah X 1 merupakan faktor penelitian yang berupa data kategori
yang terdiri atas dua kategori. Peubah X 2 merupakan faktor penelitian yang
berupa data kategori yang terdiri atas tiga kategori, sedangkan X 3 merupakan
faktor penelitian yang berupa data kategori yang terdiri atas empat kategori.
Jumlah data yang dibangkitkan adalah 300, 500, 700, 900 dan 1000. Tiap
jumlah data diulang sebanyak 10 kali. Proses pembangkitan data dan estimasi
parameter β menggunakan SAS 9.2, dengan program yang terlampir di Lampiran
1. Proses pengambilan contoh, pendugaan nilai konstanta tambahan (α), dan
perhitungan besar informasi yang hilang menggunakan Matlab R2009a dengan
program yang terlampir di Lampiran 2. Asumsi yang digunakan dalam penelitian
ini yaitu peubah X 1 memiliki biaya pengamatan yang paling murah, peubah X 2
memiliki biaya pengamatan yang lebih mahal daripada peubah X 1 , namun masih
lebih murah daripada biaya pengamatan peubah X 3 dan peubah X 3 memiliki biaya
pengamatan peubah yang paling mahal.
Metode Analisis
Langkah-langkah analisis data yang dilakukan berkaitan dengan tujuan
penelitian terbagi menjadi lima tahap. Tahap-tahap tersebut yaitu:
Tahap Pertama
Langkah awal yang dilakukan adalah membangkitkan data secara acak.
Proses pembangkitan data sebagai berikut:
1. Menentukan nilai parameter model ( )
2. Membangkitkan nilai
yang berdistribusi binomial secara acak dengan n=1
dan p=0.3
3. Membangkitkan nilai
yang berdistribusi multinomial dengan tiga kategori
secara acak dengan nilai peluang yang digunakan adalah 0.3, 0.2, dan 0,5
untuk masing-masing nilai kategori secara berurutan
4. Membangkitkan nilai
yang berdistribusi berdistribusi multinomial dengan
empat kategori secara acak dengan nilai peluang yang digunakan adalah 0.1,
0.2, 0.3, dan 0.4 untuk masing-masing nilai kategori secara berurutan.
5. Membangkitkan nilai z yang berdistribusi uniform secara acak
6. Menghitung nilai probabilitas dengan menggunakan persamaan regresi
logisitik, yaitu:
=
dimana
7. Mencari nilai Y dengan kriteria sebagai berikut:
•
Y = 1 apabila
>z
•
Y = 0 apabila
≤z
Tahap Kedua
1. Memodelkan peubah Y terhadap peubah X 1 , X 2 , dan X 3 dengan regresi
logistik biner pada data hasil pembangkitan
2. Menghitung nilai peluang dengan menggunakan model yang terbentuk untuk
nilai-nilai peubah X 1 , X 2 , dan X 3 yang mungkin
3. Memodelkan peubah Y terhadap peubah X 1 dan X 2 dengan regresi logistik
biner pada data hasil pembangkitan
4. Menghitung nilai peluang dengan menggunakan model yang terbentuk untuk
nilai-nilai peubah X 1 dan X 2 yang mungkin
5. Melakukan uji signifikansi parameter dengan menggunakan uji Wald pada
model yang terbentuk di nomor 1
Tahap Ketiga
1. Mengelompokkan data hasil pembangkitan berdasarkan nilai peubah Y dan
nilai peubah X 1
2. Melakukan pengambilan contoh dengan menggunakan teknik pengambilan
contoh acak sederhana di tiap kelompok yang terbentuk di nomor 1 dengan
kriteria pengambilan contoh sebagai berikut:
•
Apabila jumlah anggota kelompok kurang dari atau sama dengan 5,
maka seluruh anggota kelompok diambil sebagai contoh
•
Apabila jumlah anggota kelompok lebih dari 5, maka jumlah contoh
yang diambil adalah sebesar 70 %, 75%, 80%, 85%, 90%, dan 95%
dari jumlah anggota kelompok
Proses pengambilan contoh ini akan diulang sebanyak 10 kali untuk setiap
persentase pengambilan contoh
3. Mengamati nilai peubah X 2
4. Mengelompokkan contoh yang terambil pada proses pengambilan contoh di
nomor 2 berdasarkan nilai peubah Y, X 1 , dan X 2
5. Melakukan pengambilan contoh dengan menggunakan teknik pengambilan
contoh acak sederhana di tiap kelompok yang terbentuk di nomor 4 dengan
kriteria pengambilan contoh dan besar presentase jumlah contoh yang diambil
sama dengan yang digunakan di nomor 2
6. Mengamati nilai peubah X 3
Tahap Keempat
1. Melakukan estimasi parameter menggunakan regresi logistik biner dengan
penambahan satu konstanta untuk contoh yang terambil pada proses
pengambilan contoh di tahap ketiga nomor 2
2. Mengestimasi nilai peluang untuk nilai peubah X 1 dan X 2 yang mungkin
dengan menggunakan model yang terbentuk pada nomor 1
3. Mencari nilai estimasi parameter dengan menggunakan regresi logistik
dengan penambahan dua konstanta untuk contoh yang diperoleh dari proses
pengambilan contoh pada tahap ketiga nomor 5
4. Mengestimasi nilai peluang untuk nilai peubah X 1 , X 2 , dan X 3 yang mungkin
dengan menggunakan model yang terbentuk di nomor 3
5. Melakukan uji signifikansi parameter dengan menggunakan uji Wald untuk
model yang terbentuk di nomor 3
Tahap Kelima
1. Menghitung besar informasi yang hilang pada tahap kedua proses
pengambilan contoh dengan cara membandingkan nilai peluang yang
diperoleh di tahap kedua nomor 4 dan nilai peluang yang diperoleh pada
tahap keempat nomor 2
2. Menghitung besar informasi yang hilang pada tahap ketiga proses
pengambilan contoh dengan cara membandingkan nilai peluang yang
diperoleh di tahap kedua nomor 2 dan nilai peluang yang diperoleh pada
tahap keempat nomor 4
3. Membandingkan hasil uji signifikansi parameter pada tahap kedua nomor 5
dengan hasil uji signifikansi parameter pada tahap keempat nomor 5
4. Menarik kesimpulan
HASIL DAN PEMBAHASAN
Model Regresi Logistik Biner untuk data Hasil Pembangkitan
Model regresi logistik digunakan untuk menggambarkan hubungan antara
peubah respon dan peubah penjelas pada data hasil pembangkitan. Model regresi
logistik biner yang dibangun ada dua macam, yaitu model regresi logistik Y
terhadap dua peubah (X 1 dan X 2 ) dan model regresi logistik Y terhadap tiga
peubah (X 1 , X 2 , dan X 3 ). Kedua model ini digunakan sebagai model pembanding
bagi model-model yang terbentuk dari data hasil pengambilan contoh.
Proses pembangkitan data diawali dengan menentukan model regresi yang
akan dibangkitkan. Model tersebut adalah sebagai berikut:
Data hasil pembangkitan dianggap sebagai kerangka contoh.
Model Y terhadap X 1 dan X 2
Model untuk peubah respon, X 1 dan X 2 yang terbentuk adalah sebagai
berikut:
dengan
Nilai parameter dari model peubah Y terhadap peubah X 1 dan X 2 untuk masingmasing kerangka contoh dapat dilihat di tabel 2.
Model dari data hasil pembangkitan pertama menunjukkan semua parameter
dalam model tersebut signifikan pada α = 5%. Hal ini berarti bahwa semua
peubah penjelas memberikan pengaruh yang nyata terhadap peubah respon. Setiap
parameter dari peubah X 2 yang bernilai 1 memiliki tanda negatif. Hal ini
menunjukkan bahwa peubah X 2 apabila bernilai 1 maka memiliki kecenderungan
untuk
menghasilkan
respon
kasus
yang
lebih
kecil
daripada
peubah
pembandingnya. Sedangkan peubah lainnya memberikan kecenderungan untuk
menghasilkan respon kasus yang lebih besar daripada peubah pembandingnya.
Tabel 2 Nilai parameter model Y terhadap X 1 dan X 2 untuk N=300
Kerangka
GB
GB
GB
Contoh
1
-1.4635 0.2072 0.6460 0.2062 0.8870 0.1949
2
-1.9009 0.3076 1.2736 0.3081 0.6911 0.2021
3
-1.4903 0.2165 0.7410 0.2163 0.6342 0.1947
4
-1.9505 0.3078 1.0435 0.3077 0.7227 0.2159
5
-2.0145 0.3678 1.3830 0.3682 0.6586 0.2091
6
-1.2473 0.1921 0.5251 0.1923 0.7721 0.2005
7
-1.4282 0.2271 0.9258 0.2292 0.4699 0.1991
8
-1.6445 0.2694 1.0149 0.2687 0.4589 0.2009
9
-1.4519 0.2290 0.7598 0.2269 0.4948 0.2022
10
-1.8188 0.3073 1.1658 0.3082 0.6379 0.2387
GB
-0.9334
-0.8760
-0.7128
-0.8475
-0.6747
-0.7764
-0.7175
-0.5733
-0.5426
-0.7992
GB = Galat Baku (standard error)
Model Y terhadap X 1 , X 2 , dan X 3
Model regresi logistik biner Y terhadap X 1 , X 2 , dan X 3 yang diperoleh
adalah sebagai berikut:
dengan
.
Nilai parameter dari model peubah Y terhadap peubah X 1 , X 2 dan X 3 untuk
masing-masing kerangka contoh dapat dilihat di Tabel 3.
Semua nilai parameter dalam
di kesepuluh model tersebut signifikan pada
taraf α = 5%. Model dari data hasil pembangkitan pertama menunjukkan semua
parameter dalam model tersebut signifikan pada α = 5%. Hal ini berarti bahwa
semua peubah penjelas memberikan pengaruh yang nyata terhadap peubah respon.
Setiap parameter dari peubah X 2 dan X 3 yang bernilai 1 memiliki tanda negatif.
Hal ini menunjukkan bahwa apabila nilai dari peubah X 2 dan X 3 adalah 1, maka
peubah X 2 dan X 3 memiliki kecenderungan untuk menghasilkan respon kasus
yang lebih kecil daripada peubah pembandingnya. Sedangkan peubah lainnya
memberikan kecenderungan untuk menghasilkan respon kasus yang lebih besar
daripada peubah pembandingnya.
Nilai parameter model regresi logistik biner untuk Y terhadap X 1 dan X 2
dari data hasil pembangkitan secara keseluruhan dapat dilihat di Lampiran 3. Nilai
0.2119
0.2016
0.1956
0.2137
0.1946
0.1908
0.1860
0.1884
0.1857
0.1995
parameter model regresi logistik biner untuk Y terhadap X 1 , X 2 , dan X 3 dari data
hasil pembangkitan secara keseluruhan dapat dilihat di Lampiran 4.
Apabila nilai parameter dari model Y terhadap X 1 , X 2 , dan X 3
dibandingkan dengan parameter model yang dibangkitkan, terlihat bahwa nilainilai parameter dari model Y terhadap X 1 , X 2 , dan X 3 berada di sekitar parameter
model yang dibangkitkan. Misalkan dilakukan perbandingan nilai
. Nilai
dari parameter model yang dibangkitkan adalah 1, sedangkan nilai
dari
model Y terhadap X 1 , X 2 , dan X 3 berada dalam rentang 0.5618 sampai 1.5154.
Nilai rata-rata dari parameter-parameter ini sebesar 1.0605 dengan ragam sebesar
0.0897.
Tabel 3 Nilai parameter model Y terhadap X 1 , X 2 dan X 3
Kerangka
contoh
1 Parameter -1.5297 0.8013 1.0778 -1.1948
GB
0.3021 0.2331 0.2388 0.2409
2 Parameter -1.8214 1.5154 0.9441 -1.1691
GB
0.3654 0.3335 0.2485 0.2427
3 Parameter -1.8437 1.0006 1.1479 -0.7900
GB
0.2883 0.2579 0.2675 0.2361
4 Parameter -1.8821 1.1717 0.8415 -0.9654
GB
0.3404 0.3203 0.2445 0.2343
5 Parameter -2.1577 1.5825 0.8243 -0.9001
GB
0.4060 0.3828 0.2567 0.2320
6 Parameter -1.2831 0.5618 0.9462 -0.8024
GB
0.2354 0.2094 0.2349 0.2108
7 Parameter -1.6128 1.0139 0.5053 -0.8573
GB
0.2824 0.2436 0.2309 0.2123
8 Parameter -1.5451 1.1800 0.8593 -0.8564
GB
0.3083 0.2818 0.2564 0.2259
9 Parameter -1.3830 0.8163 0.7934 -0.7343
GB
0.2656 0.2445 0.2475 0.2158
10 Parameter -1.5634 0.9611 0.8038 -0.8096
GB
0.2655 0.2498 0.2458 0.2148
untuk N=300
1.1054
0.3295
1.1557
0.3477
1.6660
0.2969
0.8639
0.2992
1.1429
0.3055
1.0170
0.2649
0.8584
0.2868
1.2157
0.2856
1.1668
0.2762
0.8107
0.2802
-2.2634
0.3919
-1.7595
0.3318
-1.7595
0.3227
-1.4424
0.3052
-1.7614
0.3314
-1.8485
0.3453
-1.5921
0.3313
-1.7827
0.3201
-1.6208
0.2978
-1.8169
0.3304
GB = Galat Baku (standard error)
Model Regresi Logistik Biner dengan Penambahan Konstanta
0.7132
0.2890
0.6406
0.2944
0.9785
0.2886
0.5752
0.2767
0.9520
0.2809
0.5312
0.2543
1.0884
0.2715
0.5578
0.2809
0.6511
0.2715
0.6102
0.2471
Pada sub-bab ini akan dilakukan pembahasan tentang model regresi
logistik dengan penambahan konstanta sebagai akibat penggunaan teknik
X1=0
N00=160
X1=0
n00=112
X2=0
N000=22
X2=0
N000=15
X2=1
N001=62
X2=1
N001=43
X2=2
N002=28
X2=2
N002=20
Y=0
N=222
X1=1
N01=62
X1=1
n01=43
Sampling
Frame
N= 300
X1=0
N10=59
X1=0
n10=42
X2=0
N010=15
X2=0
N010=11
X2=1
N011=21
X2=1
N011=15
X2=2
N012=7
X2=2
N012=5
X2=0
N100=16
X2=0
N100=11
X2=1
N101=14
X2=1
N101=10
X2=2
N102=12
X2=2
N102=8
X2=0
N110=4
X2=0
N110=4
X2=1
N111=1
X2=1
N111=1
X2=2
N112=1
X2=2
N112=1
Y=1
N=78
X1=0
N11=9
X1=0
n11=6
Gambar 1 Skema proses pengambilan contoh
pengambilan contoh dengan tiga tahap. Sebagai contoh pada kerangka contoh
pertama untuk jumlah data sebesar 300 data dengan jumlah contoh yang diambil
pada setiap proses pengambilan contoh sebesar 70% dari jumlah data yang ada.
Gambar 1 merupakan skema pengambilan contoh pada salah satu kasus
simulasi. Kasus simulasi yang digunakan adalah data pada kerangka contoh
pertama dengan jumlah contoh yang diambil adalah sebesar 70% pada setiap
pengambilan contoh pada ulangan pertama.
Model regresi logistik dengan konstanta berdasarkan skema pengambilan
contoh (Gambar 1) sebagai berikut:
Model 1 (Y terhadap X 1 dan X 2 )
dengan i = 0,1
Nilai untuk masing-masing α i adalah α 0 = -0.03198 dan α 1 = -0.03953.
Model 2 (Y terhadap X 1 , X 2 dan X 2 )
dengan
i = 0,1
j = 0, 1, 2
Nilai untuk masing-masing α i dan α ij adalah sebagai berikut:
= 0.0168
= -0.0395
= 0.0083
= 0.0295
= -0.06899
= 0.3102
= 0.3365
= 0.3365
Model peubah Y terhadap peubah X 1 dan X 2 dari kerangka contoh
pertama sebagai berikut:
Nilai α i merupakan konstanta untuk mengkoreksi nilai β 0 dan β 1(0) . Berdasarkan
skema pengambilan contoh
yang digunakan,
pembagian kelompok (i)
menggunakan nilai peubah X 1 . Misalkan pada saat X 1 = 0, maka nilai
untuk model dari data hasil pembangkitan adalah -0.8175. Sedangkan
nilai
untuk model 1 adalah -0.82478. Apabila dengan
menggunakan model 1 namun tanpa memasukkan nilai
, maka nilai
yang diperoleh sebesar -0.7928.
Dari contoh diatas dapat dilihat bahwa dengan menggunakan
nilai
lebih mendekati nilai
data hasil pembangkitan. Nilai parameter
nilai parameter
dan
, maka
dari model untuk
dan
dari model 1 mendekati
dari model model untuk data hasil pembangkitan.
Hal ini menunjukkan bahwa penambahan α mampu mengkoreksi model regresi
logistik yang biasa.
Selanjutnya dibandingkan tanda dari parameter model 1 dengan tanda dari
parameter model data hasil pembangkitan. Dari kedua model tersebut, tanda yang
dimiliki oleh parameternya sama. Misalkan untuk tanda dari
dan
model data hasil pembangkitan adalah positif dan negatif. Tanda dari
untuk
dan
dari model 1 juga positif dan negatif.
Apabila dilakukan uji Wald pada setiap parameter di model yang terbentuk
dari data hasil pembangkitan, maka semua parameternya signifikan pada tingkat
α = 5%, yang berarti bahwa semua peubah penjelas memberikan pengaruh yang
nyata terhadap peubah respon. Setiap parameter dari model 1 dilakukan uji Wald,
maka diperoleh bahwa semua parameter signifikan pada tingkat α = 5%, sehingga
dapat disimpulkan bahwa dengan menggunakan model 1 semua peubah bebas
memberikan pengaruh yang nyata terhadap peubah respon. Kesimpulan yang
dihasilkan oleh model 1 sama dengan kesimpulan yang dihasilkan oleh model dari
data hasil pembangkitan. Hal ini menunjukkan bahwa model 1 mampu
menggambarkan pola hubungan antara peubah respon dan peubah penjelas dengan
baik.
Model Y terhadap X 1 , X 2 , dan X 3 dari sampling frame pertama adalah
sebagai berikut:
dengan
Nilai
merupakan konstanta untuk mengkoreksi nilai
berfungsi untuk mengkoreksi nilai
,
,
dan
dan
, sedangkan
. Hal ini terjadi
sebagai akibat dari penggunaan teknik pengambilan contoh dengan tiga tahap.
Misalkan pada saat nilai x1 = 0 dan x 2 = 0, maka nilai
untuk model untuk data hasil pembangkitan adalah
0.3494.
Nilai
adalah
0.3276. Apabila dengan menggunakan model 2, namun tanpa memasukkan nilai
, maka nilai
sebesar
0.3024. Terlihat bahwa dengan menggunakan penambahan konstanta nilai
dari model 2 lebih
estimasi
mendekati nilai
hasil pembangkitan. Selain itu nilai
dari model untuk data
juga menunjukkan pengaruh interaksi
antara i dan j. Berdasarkan skema pengambilan contoh yang digunakan, i
terbentuk berdasarkan nilai X 1 sedangkan j terbentuk berdasarkan nilai X 2 .
Sehingga dapat dikatakan bahwa nilai-nilai
menggambarkan pengaruh
interaksi antara peubah X 1 dan X 2 .
Perbandingan tanda dari nilai estimasi parameter model 2 dengan model
dari data hasil pembangkitan, maka diperoleh bahwa tanda dari parameter di
kedua model sama. Tanda pada parameter
dari model untuk
data hasil pembangkitan dan model 2 adalah positif, negatif, dan positif.
Kemudian dilakukan uji Wald untuk masing-masing parameter dari model 2.
Hasil uji Wald menunjukkan bahwa semua parameter dari model 2 signifikan
pada tingkat α = 5%, yang berarti bahwa pengaruh yang diberikan oleh peubah
penjelas terhadap varibel respon nyata pada α = 5%. Jadi, dapat disimpulkan
bahwa model 2 mampu menggambarkan pola hubungan antara peubah penjelas
dengan peubah respon dengan baik.
Pengujian Parameter
Pada setiap model yang terbentuk dari proses simulasi pengambilan
contoh dilakukan uji Wald untuk mengetahui parameter model signifikan atau
tidak. Hipotesis yang digunakan yaitu H 0 :
lawan H 1 :
, i=1, 2, ..., p
Kemudian dihitung jumlah parameter yang memberikan hasil uji Wald yang
berbeda dengan hasil uji Wald bagi parameter model dari data hasil
pembangkitan. Setelah jumlah diketahui maka dihitung persentase jumlah
parameter yang memberikan kesimpulan yang berbeda dengan model untuk data
hasil pembangkitan. Selama proses simulasi dilakukan pengulangan, maka
diperoleh nilai rata-rata persentase jumlah parameter yang memberikan
kesimpulan yang berbeda denganmodel untuk data hasil pembangkitan.
Tabel 2 menunjukkan nilai rata-rata persentase jumlah parameter yang
memberikan kesimpulan yang berbeda dengan parameter dari model populasi
pada taraf α = 5%. Model yang digunakan adalah model variabel Y terhadap
peubah X 1 , X 2 , dan X 3 , karena pada saat dilakukan survei dengan beberapa tahap
pengambilan contoh model yang digunakan hanyalah model Y terhadap seluruh
peubah penjelas yang diamati (X 1 , X 2 , dan X 3 ).
Tabel 4 Nilai rata-rata persentase jumlah parameter yang memberikan kesimpulan
yang berbeda dari model data hasil pembangkitan untuk N=300
Kerangka
Jml contoh yang diambil di setiap pengambilan contoh
contoh
70%
75%
80%
85%
90%
95%
1
23.33
15.00
16.67
5.00
5.00
1.67
2
18.33
01.67
6.67
0.00
0.00
0.00
3
26.67
15.00
18.33
13.33
8.33
10.00
4
26.67
15.00
18.33
13.33
8.33
10.00
6
23.33
20.00
15.00
15.00
11.67
13.33
7
25.00
21.67
23.33
15.00
6.67
5.00
8
22.75
18.86
13.47
12.34
13.03
9.90
9
35.00
13.33
13.33
1.67
3.33
3.33
10
20.00
18.33
18.33
13.33
5.00
0.00
Rata-rata
24.56
15.43
15.94
9.89
6.82
5.92
Saat terjadi pengurangan jumlah contoh sebesar 30 % di masing-masing
tahap pengambilan contoh, maka persentase rata-rata jumlah parameter yang
berbeda dengan parameter model populasi sebesar 24.56 % (Tabel 4). Hal ini
berarti bahwa pada saat diambil contoh sebesar 49% dari jumlah keseluruhan
populasi, maka terdapat 24.56% parameter yang tidak menggambarkan hubungan
antar peubah yang sebenarnya. Apabila terjadi pengurangan jumlah contoh
sebesar 20% dan 25% di masing-masing tahap pengambilan contoh, maka ratarata persentase jumlah parameter yang tidak menggambarkan hubungan peubah
respon dengan peubah penjelas berkisar 15%. Nilai rata-rata persentase jumlah
parameter yang tidak mennggambarkan hubungan yang sebenarnya akan menurun
seiring dengan bertambahnya jumlah contoh yang digunakan.
Tanda positif atau negatif dari parameter memiliki peranan yang penting
dalam menggambarkan pola hubungan antara peubah respon dan peubah penjelas.
Tanda positif pada parameter menunjukkan kecenderungan yang lebih besar
daripada peubah pembandingnya. Tanda negatif menunjukkan kecenderungan
yang lebih kecil dari peubah pembandingnya. Hampir semua model yang
dibangun dari data hasil pengambilan contoh memberikan tanda positif atau
negatif yang sama dengan model dari data hasil pembangkitan. Tanda positif dan
negatif dari 600 model yang terbentuk, hanya 13 parameter dalam 13 model yang
berbeda dari model pembanding.
Tabel 5 Rata-rata persentase informasi hilang pada tahap kedua pengambilan
contoh untuk N=300
Kerangka
Jml contoh yang diambil di setiap pengambilan contoh
contoh
70%
75%
80%
85%
90%
95%
1
8.43
5.15
5.38
15.48
12.80
23.61
2
29.60
25.38
19.15
17.48
9.30
6.55
3
28.25
21.48
37.38
30.58
23.61
31.32
4
32.21
28.31
21.98
17.01
14.85
11.93
6
42.31
6.31
4.32
5.48
3.03
4.38
7
19.43
14.11
14.44
17.90
19.50
13.44
8
16.86
15.81
13.67
13.64
15.33
18.94
9
17.14
15.50
16.39
15.66
19.23
14.42
10
17.73
10.08
12.58
14.89
18.25
11.41
Rata-rata
23.55
15.79
16.14
16.46
15.10
15.11
Informasi yang Hilang
Model yang baik merupakan model yang mampu menggambarkan
keadaan populasi yang sebenarnya. Informasi akan hilang dalam setiap
pengurangan jumlah data. Pengurangan jumlah data pertama kali terjadi pada
tahap kedua proses pengambilan contoh. Besar rata-rata persentase informasi yang
hilang dapat dilihat pada Tabel 5.
Pengurangan contoh sebesar 30% mengakibatkan kehilangan informasi ratarata sebesar 23.55% (Tabel 5). Pengurangan jumlah contoh sebesar 5% sampai
25% maka akan kehilangan informasi sebesar 15% sampai 16%.
Gambar 2 menunjukkan rata-rata persentase informasi yang hilang pada
tahap kedua proses