Pengembangan Algoritma EM untuk Data Tidak Lengkap
Incomplete Data pada Model Log-Linear
Kusman Sadik Departemen Statistika, FMIPA IPB
Jl. Raya Dramaga, Kampus IPB Dramaga, Bogor e-mail : kusmansadikyahoo.com
Abstrak
Pada data kategori terkadang terdapat beberapa data yang tidak lengkap pada salah satu kategorinya, sehingga ringkasan dari data kategori dalam bentuk tabel kontingensinya
terbagi menjadi dua bagian yaitu tabel kontingensi data lengkap dan data tidak lengkap. Analisa yang dapat digunakan untuk kasus tersebut adalah dengan memodelkan data
lengkap mengunakan model log-linear. Kemudian dilakukan pendugaan data tidak lengkap menggunakan algoritma EM. Algoritma EM terdiri dari dari dua tahapan yaitu
tahapan M Maximization diperoleh dari pendugaan maksimum likelihood berupa nilai proporsi
setiap sel
pengamatan, tahapan
E Expectation
merupakan proses
pendistribusian data tidak lengkap berdasarkan proporsi yang telah ditentukan sehingga setiap nilai sel pengamatan mengalami penyesuaian nilai. Algoritma EM ini merupakan
proses iterasi yang terus berlangsung hingga diperoleh nilai yang konvergen. Data yang digunakan dalam penelitian ini adalah status kesehetan bayi setelah dilahirkan di dua
klinik yang berbeda. Data yang diamati adalah clinic C, prenatal care P dan survival S. Terdapat data tidak lengkap pada kategori clinic. Model Log-linear terbaik untuk
data lengkap adalah model SC,PC karena memiliki nilai uji kebaikan suai dan model ini cukup sederhana untuk mendistribusikan data tidak lengkap ke data lengkap
dibandingkan model lainnya. Model ini memberi gambaran hubungan antara peubah clinic C dengan peubah lainnya.
Kata kunci : incomplete data, EM algorithm, prenatal care, survival, maximum likelihood
1. Pendahuluan
1.1. Latar Belakang
Data kategori terkadang dapat berupa gabungan dari data-data yang tidak lengkap pada satu atau beberapa kategori. Tidak lengkapnya data dapat diakibatkan oleh nonresponse dari
subjek yang terobservasi, sehingga dianggap sebagai data missing atau data hilang. Kondisi seperti itu, data kategori yang tersedia masih dapat di ringkas dalam bentuk tabel kontingensi
Pengembangan Algoritma EM untuk Data ...
Bidang Statistika
423
dan di analisis menggunakan model loglinear Fuchs Camil,1992. Namun pemodelan yang sempurna untuk seluruh data dapat dilakukan apabila data tidak lengkap diduga terlebih
dahulu, karena kondisi tersebut tidak dapat diabaikan nonignorable terkait dengan nilai peluang di setiap sel kategori dan akan mempengaruhi pendugaan parameter di dalam model
Park Taesung dan Morton B.Brown,1994. Algoritma EM dapat dijadikan solusi di dalam pendugaan data tidak lengkap. Iterasi
dari algoritma tersebut dilakukan sehingga diperoleh nilai dugaan pada setiap sel pengamatan yang konvergen ke satu nilai,
Penentuan model terbaik yang dilakukan pada data tidak lengkap dapat di lihat dari nilai uji nisbah kemungkinan dari masing-masing model, nilai yang terbesar menunjukkan
bahwa model tersebut lebih baik dibandingkan model lainnya. Sebagai ilustrasi untuk memudahkan pemahaman algoritma EM, maka dalam
penelitian ini digunakan data kategori cross sectional berupa status keadaan bayi setelah dilahirkan pada dua klinik yang berbeda.
1.2. Tujuan
Penelitian ini bertujuan mempelajari pendugaan data tidak lengkap dengan algoritma EM pada model loglinear, dan menentukan pemodelan terbaik untuk data studi kasus status
keadaan bayi setelah dilahirkan pada dua klinik yang berbeda.
2. Tinjauan Pustaka
2.1. Model Loglinear pada Tabel Kontingensi
Data kategori merupakan jenis data dengan skala pengukuran nominal dan ordinal. Ringkasan dari data kategori ini dapat ditampilkan menggunakan tabel kontingensi, yang
berupa total dari seluruh obervasi setiap kategori atau persentasi dari total di setiap kategori Morgan dan Andrew F Siegel, 1996.
Analisis tabel kontingensi berdimensi besar dilakukan pada setiap pasangan peubah dalam tabel dua arah. Menurut Fienberg 1978 memiliki banyak kelemahan antara lain :
1. Mengaburkan hubungan marginal antara pasangan-pasangan peubah ketegori dengan peubah yang lainnya.
Kusman Sadik
Seminar Nasional Matematika-FKMS3MI 2008
424
2. Tidak dapat mengamati hubungan pasangan-pasangan peubah secara simultan. 3. Mengabaikan kemungkinan adanya interaksi tiga peubah dan interaksi yang lebih
tinggi lainnya. Oleh karena itu diperlukan analisis lain untuk tabel kontingensi berdimensi besar, diantaranya
menggunakan model loglinear. Model loglinear menggambarkan hubungan beberapa kategori, dengan pendekatan
loglinear ini dari model dapat dihitung nilai harapanm
ijk
setiap sel dalam tabel kontingensi, bentuk dari model loglinear dan interpretasi parameter-parameter dalam model sama dengan
ANOVAAgresti,1990.
2.2. Model Loglinear pada Tabel Kontingensi Tiga Arah