Data Missing

4. Data Missing

Sering, terdapat beberapa komponen dari sebuah vektor yang tidak tersedia. Hal ini bisa terjadi karena suatu kesalahan dalam perekaman atau karena keengganan responden menjawab item-item tertentu dalam sebuah kuesioner penelitian. Di dalam menangani observasi tak lengkap, atau data missing, tergantung pada luasnya tingkatan (extent), dalam konteks eksperimental. Jika data missing itu terkait erat dengan nilai respon, misalnya orang enggan menjawab survei tentang pendapatan (gaji), maka kesimpulannya mungkin akan sangat bias. Hingga sekarang belum ada teknik statistik yang telah dikembangkan untuk kasus ini. Namun, ada perlakukan situasi jika data missing secara random, yaitu, kasus di mana perubahan mekanisme untuk data missing tidak dipengaruhi oleh nilai variabel.

Seminar Nasional Matematika-FKMS3MI 2008

Analisis Komponen Utama Probabilistik ...

Di sini diberikan sebuah contoh aplikasi AKUP, yang merupakan suatu pendekatan alami untuk mengestimasi sumbu-sumbu utama dalam keadaan dengan beberapa, atau semua, vektor data t n = (t n1 ,t n2 , …, t nd ) yang memperlihatkan satu atau lebih data missing atau nilai- nilai yang hilang (secara random). Uraian mendasar untuk memaksimumkan fungsi likelihood dari suatu model Gaussian pada data missing (Little dan Rubin, 1987) dan algoritma EM untuk AKUP.

Pada pendekatan EM dalam memaksimumkan fungsi likelihood untuk AKUP, dipandang variabel laten {X n } data ‘missing’ dan data ‘lengkap’ yang meliputi observasi bersama dengan variabel-variabel laten. Hubungan log-likelihood data lengkap adalah

L C =  ln{ p ( t n , X n )}

di mana, dalam AKUP, dari (2),

 X n  p(t n ,X n ) = (2 ) exp 

  t n  WX n  μ 

 (19) 2 (2) exp   

2 -d/2

-q/2

  Pada tahap-E, diekspektasi L 2

C menurut distribusi p(X n |t n , W,  ): N  d

E(L C )=    ln(  )  tr( E ( X n X  n ))  2 ( t n  μ )  ( t n  μ )

2 tr ( W  W E ( X n X  n ))  , (20) 

dengan suku independen diabaikan dan

E(X -1

n )=M W(t n - ),

(22) sedangkan M = WW +  2

2 -1

n ) = M + E ( X n ) E ( X  n ) ,

I. Statistik ini dihitung menggunakan nilai-nilai parameter sekarang dan didasarkan pada distribusi (7).

C ) dimaksimumkan menurut W dan  yang memberikan estimasi parameter baru

Dalam tahap-M, E(L 2

(23)  n  1   n  1 

Bidang Statistika

Ismail Djakaria

  t n  μ  2 E ( X n )  W  ( t n  μ )  tr( E ( X n X  n ) W  W )  . (24)

Nd n  1 Kemudian untuk memaksimumkan likelihood, statistik cukup dari distribusi bersyarat dihitung dari (21) dan (22), setelah estimasi parameter yang diperoleh dari (23) dan (24). Empat persamaan ini diiterasi sedemikian hingga algoritmanya konvergen, atau hingga estimasi terakhir tidak terlalu berbeda dengan estimasi yang diperoleh pada iterasi sebelumnya.

Pemahaman yang mendalam yang diperoleh dalam pengoperasian algoritma EM dengan substitusi untuk E(X n ) dan E ( X n X  n ) dari (21) dan (22) ke dalam (23) dan (24).

Beberapa manipulasi lebih lanjut untuk kedua tahap, E dan M, dikombinasikan seperti

W -1 = SW( I+M WSW) ,

2 -1

~ 2 1 - 1  ~ = tr ( S  SWM W  ) ,

di mana S seperti pada (6), berikut

 ( t n  μ )( t n  μ )  .

Uraian lengkap tentang algoritma EM secara umum dapat dibaca dalam Johnson dan Wichern (2002), serta contoh matematisnya.

(a) (b)

Gambar: Proyeksi data menggunakan AKU pada data penuh (a) dan AKUP dengan 108 data missing (b)

Seminar Nasional Matematika-FKMS3MI 2008

Analisis Komponen Utama Probabilistik ...

Gambar (a) menunjukkan proyeksi 38 sampel dari 18-dimensi data simulasi yang dibangkitkan dari data random normal, untuk mengilustrasikan AKU standar. Di sini disimulasikan data missing dengan memindahkan setiap nilai secara random pada sekumpulan data dengan probabilitas 15%. Gambar (b) menunjukkan suatu ekivalensi proyeksi AKUP yang diperoleh dengan menggunakan algoritma EM, di mana mean bersyarat juga telah dirata-ratakan terhadap distribusi bersyarat dari data missing, pada observasi yang diberikan. Ciri-ciri yang menonjol dari proses ini jelas, di samping fakta, bahwa seluruh vektor data diperoleh dari sedikitnya satu data missing.

Ilustrasi ini mirip dengan yang digambarkan Ripley (dalam Tipping dan Bishop, 1999) tentang data Tobamovirus dengan probabilitas 20%.

Data Missing

4. Data Missing

Parts

Dokumen yang terkait

FREKUENSI KEMUNCULAN TOKOH KARAKTER ANTAGONIS DAN PROTAGONIS PADA SINETRON (Analisis Isi Pada Sinetron Munajah Cinta di RCTI dan Sinetron Cinta Fitri di SCTV)

DEKONSTRUKSI HOST DALAM TALK SHOW DI TELEVISI (Analisis Semiotik Talk Show Empat Mata di Trans 7)

ANALISIS ISI LIRIK LAGU-LAGU BIP DALAM ALBUM TURUN DARI LANGIT

APRESIASI IBU RUMAH TANGGA TERHADAP TAYANGAN CERIWIS DI TRANS TV (Studi Pada Ibu Rumah Tangga RW 6 Kelurahan Lemah Putro Sidoarjo)

FREKWENSI PESAN PEMELIHARAAN KESEHATAN DALAM IKLAN LAYANAN MASYARAKAT Analisis Isi pada Empat Versi ILM Televisi Tanggap Flu Burung Milik Komnas FBPI

SENSUALITAS DALAM FILM HOROR DI INDONESIA(Analisis Isi pada Film Tali Pocong Perawan karya Arie Azis)

MOTIF MAHASISWA BANYUMASAN MENYAKSIKAN TAYANGAN POJOK KAMPUNG DI JAWA POS TELEVISI (JTV)Studi Pada Anggota Paguyuban Mahasiswa Banyumasan di Malang

STRATEGI PEMERINTAH DAERAH DALAM MEWUJUDKAN MALANG KOTA LAYAK ANAK (MAKOLA) MELALUI PENYEDIAAN FASILITAS PENDIDIKAN

PERANAN ELIT INFORMAL DALAM PENGEMBANGAN HOME INDUSTRI TAPE (Studi di Desa Sumber Kalong Kecamatan Wonosari Kabupaten Bondowoso)

KEBIJAKAN BADAN PENGENDALIAN DAMPAK LINGKUNGAN DAERAH (BAPEDALDA) KOTA JAMBI DALAM UPAYA PENERTIBAN PEMBUANGAN LIMBAH PABRIK KARET

Dukungan

Links

Data Missing

4. Data Missing

Parts

Dokumen yang terkait

FREKUENSI KEMUNCULAN TOKOH KARAKTER ANTAGONIS DAN PROTAGONIS PADA SINETRON (Analisis Isi Pada Sinetron Munajah Cinta di RCTI dan Sinetron Cinta Fitri di SCTV)

DEKONSTRUKSI HOST DALAM TALK SHOW DI TELEVISI (Analisis Semiotik Talk Show Empat Mata di Trans 7)

ANALISIS ISI LIRIK LAGU-LAGU BIP DALAM ALBUM TURUN DARI LANGIT

APRESIASI IBU RUMAH TANGGA TERHADAP TAYANGAN CERIWIS DI TRANS TV (Studi Pada Ibu Rumah Tangga RW 6 Kelurahan Lemah Putro Sidoarjo)

FREKWENSI PESAN PEMELIHARAAN KESEHATAN DALAM IKLAN LAYANAN MASYARAKAT Analisis Isi pada Empat Versi ILM Televisi Tanggap Flu Burung Milik Komnas FBPI

SENSUALITAS DALAM FILM HOROR DI INDONESIA(Analisis Isi pada Film Tali Pocong Perawan karya Arie Azis)

MOTIF MAHASISWA BANYUMASAN MENYAKSIKAN TAYANGAN POJOK KAMPUNG DI JAWA POS TELEVISI (JTV)Studi Pada Anggota Paguyuban Mahasiswa Banyumasan di Malang

STRATEGI PEMERINTAH DAERAH DALAM MEWUJUDKAN MALANG KOTA LAYAK ANAK (MAKOLA) MELALUI PENYEDIAAN FASILITAS PENDIDIKAN

PERANAN ELIT INFORMAL DALAM PENGEMBANGAN HOME INDUSTRI TAPE (Studi di Desa Sumber Kalong Kecamatan Wonosari Kabupaten Bondowoso)

KEBIJAKAN BADAN PENGENDALIAN DAMPAK LINGKUNGAN DAERAH (BAPEDALDA) KOTA JAMBI DALAM UPAYA PENERTIBAN PEMBUANGAN LIMBAH PABRIK KARET

Dokumen yang Anda mencari sudah siap untuk unduhkan