Data Missing

4. Data Missing

Sering, terdapat beberapa komponen dari sebuah vektor yang tidak tersedia. Hal ini bisa terjadi karena suatu kesalahan dalam perekaman atau karena keengganan responden menjawab item-item tertentu dalam sebuah kuesioner penelitian. Di dalam menangani observasi tak lengkap, atau data missing, tergantung pada luasnya tingkatan (extent), dalam konteks eksperimental. Jika data missing itu terkait erat dengan nilai respon, misalnya orang enggan menjawab survei tentang pendapatan (gaji), maka kesimpulannya mungkin akan sangat bias. Hingga sekarang belum ada teknik statistik yang telah dikembangkan untuk kasus ini. Namun, ada perlakukan situasi jika data missing secara random, yaitu, kasus di mana perubahan mekanisme untuk data missing tidak dipengaruhi oleh nilai variabel.

Seminar Nasional Matematika-FKMS3MI 2008

Analisis Komponen Utama Probabilistik ...

Di sini diberikan sebuah contoh aplikasi AKUP, yang merupakan suatu pendekatan alami untuk mengestimasi sumbu-sumbu utama dalam keadaan dengan beberapa, atau semua, vektor data t n = (t n1 ,t n2 , …, t nd ) yang memperlihatkan satu atau lebih data missing atau nilai- nilai yang hilang (secara random). Uraian mendasar untuk memaksimumkan fungsi likelihood dari suatu model Gaussian pada data missing (Little dan Rubin, 1987) dan algoritma EM untuk AKUP.

Pada pendekatan EM dalam memaksimumkan fungsi likelihood untuk AKUP, dipandang variabel laten {X n } data ‘missing’ dan data ‘lengkap’ yang meliputi observasi bersama dengan variabel-variabel laten. Hubungan log-likelihood data lengkap adalah

L C =  ln{ p ( t n , X n )}

di mana, dalam AKUP, dari (2),

 X n  p(t n ,X n ) = (2 ) exp 

  t n  WX n  μ 

 (19) 2 (2) exp   

2 -d/2

-q/2

  Pada tahap-E, diekspektasi L 2

C menurut distribusi p(X n |t n , W,  ): N  d

E(L C )=    ln(  )  tr( E ( X n X  n ))  2 ( t n  μ )  ( t n  μ )

2 tr ( W  W E ( X n X  n ))  , (20) 

dengan suku independen diabaikan dan

E(X -1

n )=M W(t n - ),

(22) sedangkan M = WW +  2

2 -1

n ) = M + E ( X n ) E ( X  n ) ,

I. Statistik ini dihitung menggunakan nilai-nilai parameter sekarang dan didasarkan pada distribusi (7).

C ) dimaksimumkan menurut W dan  yang memberikan estimasi parameter baru

Dalam tahap-M, E(L 2

(23)  n  1   n  1 

Bidang Statistika

Ismail Djakaria

  t n  μ  2 E ( X n )  W  ( t n  μ )  tr( E ( X n X  n ) W  W )  . (24)

Nd n  1 Kemudian untuk memaksimumkan likelihood, statistik cukup dari distribusi bersyarat dihitung dari (21) dan (22), setelah estimasi parameter yang diperoleh dari (23) dan (24). Empat persamaan ini diiterasi sedemikian hingga algoritmanya konvergen, atau hingga estimasi terakhir tidak terlalu berbeda dengan estimasi yang diperoleh pada iterasi sebelumnya.

Pemahaman yang mendalam yang diperoleh dalam pengoperasian algoritma EM dengan substitusi untuk E(X n ) dan E ( X n X  n ) dari (21) dan (22) ke dalam (23) dan (24).

Beberapa manipulasi lebih lanjut untuk kedua tahap, E dan M, dikombinasikan seperti

W -1 = SW( I+M WSW) ,

2 -1

~ 2 1 - 1  ~ = tr ( S  SWM W  ) ,

di mana S seperti pada (6), berikut

 ( t n  μ )( t n  μ )  .

S=

Uraian lengkap tentang algoritma EM secara umum dapat dibaca dalam Johnson dan Wichern (2002), serta contoh matematisnya.

(a) (b)

Gambar: Proyeksi data menggunakan AKU pada data penuh (a) dan AKUP dengan 108 data missing (b)

Seminar Nasional Matematika-FKMS3MI 2008

Analisis Komponen Utama Probabilistik ...

Gambar (a) menunjukkan proyeksi 38 sampel dari 18-dimensi data simulasi yang dibangkitkan dari data random normal, untuk mengilustrasikan AKU standar. Di sini disimulasikan data missing dengan memindahkan setiap nilai secara random pada sekumpulan data dengan probabilitas 15%. Gambar (b) menunjukkan suatu ekivalensi proyeksi AKUP yang diperoleh dengan menggunakan algoritma EM, di mana mean bersyarat juga telah dirata-ratakan terhadap distribusi bersyarat dari data missing, pada observasi yang diberikan. Ciri-ciri yang menonjol dari proses ini jelas, di samping fakta, bahwa seluruh vektor data diperoleh dari sedikitnya satu data missing.

Ilustrasi ini mirip dengan yang digambarkan Ripley (dalam Tipping dan Bishop, 1999) tentang data Tobamovirus dengan probabilitas 20%.