Perumusan Masalah Tujuan Manfaat Kerangka Pemikiran

commit to user 2 Menurut Andersen [1], terdapat dua metode yang dapat digunakan untuk menyelasaikan estimasi maksimum likelihood pada model kelas laten, yaitu algoritma EM dan algoritma Newton Raphson. Haberman dalam Demster dkk. [4] berpendapat bahwa algoritma EM lebih lambat mencapai konvergen dibandingkan algoritma Newton Raphson, akan tetapi algoritma EM lebih sederhana karena tidak memerlukan matriks turunan kedua dari fungsi likelihood . Dalam analisis kelas laten augmented data dilakukan dengan memasangkan data dari variabel manifes dengan data dari variabel laten. Oleh karena itu, augmented data disebut sebagai data lengkap dan data terobservasi disebut data tidak lengkap karena data dari variabel laten sebagai pasangannya tidak terobservasi. Menurut Demster dkk. [4], algoritma EM digunakan untuk menentukan nilai estimasi maksimum likelihood dari parameter-parameter jika dalam model terdapat data yang tidak lengkap incomplete data . Menurut Linzer dan Lewis [10], model kelas laten adalah model campuran dengan distribusi komponennya berupa tabel kontingensi multinomial dengan semua variabelnya independen. Oleh karena itu, algoritma EM dapat dijalankan memalui pendekatan model campuran. Berdasarkan uraian tersebut, penelitian ini mengkaji ulang estimasi parameter model kelas laten menggunakan algoritma EM melalui pendekatan model campuran mixture model .

1.2 Perumusan Masalah

Berdasarkan latar belakang masalah yang telah diuraikan, disusun perumusan masalah yaitu bagaimana estimasi parameter model kelas laten menggunakan algoritma EM melalui pendekatan model campuran.

1.3 Tujuan

Tujuan yang ingin dicapai dari penelitian ini adalah mengkaji ulang estimasi parameter model kelas laten menggunakan algoritma EM melalui pendekatan model campuran. commit to user 3

1.4 Manfaat

Manfaat dari penelitian ini diharapkan dapat menambah wawasan mengenai analisis kelas laten sebagai metode klasifikasi jika dalam sebuah penelitian terdapat variabel yang tidak terobservasi atau tidak terukur variabel laten. Selain itu diharapkan dapat menambah wawasan mengenai metode estimasi parameter model kelas laten dengan algoritma EM melalui pendekatan model campuran. commit to user 4 BAB II LANDASAN TEORI Bab ini terdiri dari dua subbab, yaitu tinjauan pustaka dan kerangka pemikiran.

2.1 Tinjauan Pustaka

Pada tinjauan pustaka diberikan pengertian dasar yang diperlukan pada pembahasan, yaitu konsep probabilitas, teorema Bayes, metode maksimum likelihood , model campuran , ketidaksamaan Jensen, algoritma EM , dan metode pengali Lagrange.

2.1.1 Probabilitas

Dalam suatu eksperimen, S menotasikan ruang sampel dan menggambarkan kejadian-kejadian yang mungkin terjadi. Suatu fungsi himpunan yang menghubungkan nilai nyata dengan setiap kejadian disebut probabilitas fungsi himpunan dan disebut probabilitas dari jika memenuhi persyaratan 1 untuk setiap 2 3 ⋃ ∑ Jika adalah kejadian-kejadian yang mutually exlusive . Berikut diuraikan definisi mengenai konsep probabilitas. Definisi 2.1 Krewski dan Biks, [9] Misalkan suatu ruang sampel S terdiri dari himpunan-himpunan kejadian yang tidak kosong nonempty set Himpunan-himpunan tersebut dikatakan independen jika untuk sembarang dari kejadian berlaku ⋂ ∏ commit to user 5 Sebuah himpunan dikatakan mutually independent simply independent jika himpunan tersebut k x k independen untuk semua nilai k. Definisi 2.2 Krewski dan Biks, [9] Misalkan himpunan bagian dari S dan maka kejadian disebut exhaustive. Definisi 2.3 Bain dan Engelhardt, [2] Probabilitas kejadian A dengan syarat B didefinisikan sebagai | dengan

2.1.2 Teorema Bayes

Teorema 2.1 Bain dan Engelhardt, [2] Jika sembarang himpunan bagian dari dan adalah partisi dari . Untuk dan berlaku | | ∑ | Bukti: Misalkan merupakan partisi dari ruang sampel , dengan yang bersifat 1 2 Misalkan adalah sembarang kejadian yang merupakan himpunan bagian dari , yang bersifat . Kejadian dapat dipandang sebagai gabungan kejadian- kejadian yang saling terpisah satu sama lain sebagai Probabilitas kejadian dapat ditulis sebagai | | | commit to user 6 ∑ | Berdasarkan Definisi 2.3 diketahui bahwa | | Persamaan 2.1 disubstitusikan ke persamaan 2.2 diperoleh | | ∑ | Terbukti

2.1.3 Metode Estimasi Maksimum

Likelihood Estimasi titik adalah suatu nilai tunggal yang dihitung berdasarkan pengukuran dari sampel dan digunakan sebagai estimator dari nilai parameter populasi yang besarnya tidak diketahui. Definisi 2.4 Bain dan Engelhardt, [2]. Fungsi kepadatan bersama dari variabel random berukuran , yang diestimasi melalui adalah dan fungsi inilah yang didefinisikan sebagai fungsi likelihood. Untuk independen, fungsi likelihood adalah fungsi dari yang dinotasikan dengan yaitu ∏ Nilai yang memaksimumkan disebut sebagai estimator maksimum likelihood yang dinotasikan dengan ̂ . Nilai ̂ diperoleh dengan cara mendiferensialkan terhadap dan menyamakannya dengan 0. Untuk mempermudah perhitungan dalam mencari nilai ̂, dapat dimodifikasi ke dalam bentuk log karena fungsi log adalah monoton, oleh karena itu persamaan 2.3 dapat dimodifikasi menjadi commit to user 7 ∏ ∑

2.1.4 Model Campuran

Fungsi distribusi model campuran merupakan kombinasi linear dari dua atau lebih fungsi kepadatan probabilitas fkp. Kegunaan mendasar dari model campuran adalah dapat menggambarkan fkp yang rumit atau kompleks. Berikut diberikan dua definisi mengenai fkp model campuran dan fungsi log likelihood data lengkap yang diambil dari McLachlan dan Peel [12]. Definisi 2.5. Dimisalkan adalah sampel random berukuran , adalah vektor random berdimensi p dalam dengan fungsi kepadatan probabilitas dengan . Dimisalkan adalah sampel random terobservasi dengan adalah nilai terobservasi dari vektor random . Diasumsikan diskrit, fungsi kepadatan probabilitas dari dapat ditulis sebagai ∑ dengan dan ∑ . Parameter proporsi campuran dan adalah fungsi kepadatan campuran untuk komponen . Banyaknya komponen campuran biasanya telah diketahui, tetapi pada banyak kasus banyaknya komponen campuran tidak diketahui dan harus ditentukan menggunakan data terobservasi. Definisi 2.6. Data lengkap didefinisikan sebagai dengan adalah data dari variabel tidak terobservasi yang berpasangan satu-satu dengan sebagai data dari variabel yang terobservasi. Digunakan vektor indikator commit to user 8 dan untuk menentukan keanggotaan setiap individu dalam komponen model campuran dengan bernilai 1 jika berasal dari kelas dan bernilai 0 untuk yang lain, fungsi log likelihoodnya adalah ∑ ∑

2.1.5 Ketidaksamaan Jensen

Ketidaksamaan Jensen merupakan alat statistik yang sangat bermanfaat dalam perhitungan matematika yang sulit, seperti logaritma penjumlahan dalam analisis kelas laten. Aplikasi dari ketidaksamaan Jensen meliputi algoritma EM, metode estimasi Bayesian dan inferensi Bayesian. Berikut diberikan teorema dan definisi mengenai ketidaksamaan Jensen untuk fungsi cembung dan cekung yang diambil dari Harpaz dan Haralick [8]. Teorema 2.2. Ketidaksamaan Jensen menyatakan jika adalah suatu fungsi cembung dan suatu variabel random, berlaku Definisi 2.7. Suatu fungsi dikatakan sebagai fungsi cembung pada interval jika dan berlaku Teorema 2.3. Jika adalah fungsi cembung pada interval dan jika dan dengan ∑ maka ∑ ∑ commit to user 9 Bukti Teorema 2.3: Teorema 2.3 dibuktikan secara induksi matematika. Persamaan 2.4 benar untuk dan , diasumsikan benar untuk dan akan dibuktikan benar untuk , ∑ ∑ ∑ ∑ ∑ Terbukti Bukti Teorema 2.2: Jika adalah variabel random diskrit dengan sebagai probabilitasnya, maka persamaan 2.4 dapat ditulis kembali sebagai berikut dan jika benar-benar cembung strictly convex maka Terbukti Teorema 2.4. Jika diturunkan dua kali dalam dan maka disebut fungsi cembung dalam Bukti : Untuk membuktikan Teorema 2.4, digunakan deret Taylor orde dua yaitu ⁄ Jika maka Untuk dan diperoleh maka commit to user 10 + Dengan cara yang sama untuk diperoleh maka Dengan mengalikan terhadap persamaan 2.5 dan terhadap persamaan 2.6 kemudian dijumlahkan akan menunjukkan ketidaksamaan kecembungan sebagai berikut Terbukti Definisi 2.8. Fungsi benar-benar cekung strictly concave jika – adalah benar-benar cembung. Teorema 2.5. adalah benar-benar cembung dalam . Bukti: maka ⁄ untuk . Terbukti Berdasarkan Teorema 2.5 dan Definisi 2.8, diketahui bahwa adalah fungsi yang benar-benar cekung, sehingga untuk berlaku

2.1.6 Algoritma

EM Metode estimasi maksimum likelihood adalah metode klasik yang dapat digunakan secara praktis untuk mendapatkan estimator yang tidak bias dan bervariansi minimum atau uniformly minimum variance unbiased estimator UMVUE . Tetapi, dalam kasus statistik dengan permasalahan data yang akan dicari nilai estimasinya tidak memuat informasi yang dibutuhkan secara lengkap, commit to user 11 metode estimasi maksimum likelihood tidak bisa digunakan secara langsung. Solusi untuk permasalahan tersebut salah satunya adalah dengan algoritma EM . Dalam algoritma EM digunakan istilah data lengkap dan data tidak lengkap. Agar metode estimasi maksimum likelihood dapat digunakan secara lebih sederhana, perlu dilakukan modifikasi atau augmented data. Augmented data tersebut disebut sebagai data lengkap dan data yang tersedia sebagai data tidak lengkap. Suatu karakteristik utama dari algoritma EM adalah melakukan perhitungan secara iteratif berulang-ulang untuk mendapatkan estimator dengan adanya permasalahan data tidak lengkap. Menurut Demster dkk. [3], setiap iterasi dari algoritma EM terdiri dari dua tahap. 1 Tahap Ekspektasi atau Expectation Step E Step Pada tahap ekspektasi dicari fungsi yaitu ekspektasi dari fungsi likelihood data lengkap berdasarkan data terobservasi yang digunakan untuk mengganti keberadaan atau keanggotaan setiap individu pada setiap kelas laten yang tidak diketahui. Fungsi dinotasikan sebagai | | 2 Tahap Maksimisasi atau Maximization Step M Step Pada tahap maksimisasi dicari nilai estimator yang dapat memaksimumkan fungsi yang telah didefinisikan pada tahap ekspektasi. Nilai estimator dinotasikan sebagai dengan adalah estimator untuk parameter pada iterasi ke- . Kedua tahap tersebut akan dilakukan berulang-ulang hingga didapatkan estimator yang dapat memaksimumkan fungsi likelihood yang konvergen. Berikut ini dijelaskan mengenai prosedur algoritma EM menurut Harpaz dan Haralick [8] dan sifat kekonvergenannya. 1 Prosedur algoritma EM Dimisalkan adalah variabel manifes dan adalah data terobservasi sebagai data yang tidak lengkap dengan adalah vektor berdimensi commit to user 12 , . Dimisalkan adalah data lengkap dengan adalah variabel laten yang berkorespondensi satu-satu dengan dan adalah vektor data tidak terobservasi. Fungsi kepadatan bersama antara dan dinotasikan dengan | . Fungsi log likelihood data terobservasi didefinisikan sebagai | ∑ | Permasalahan dalam memaksimumkan persamaan 2.7 adalah adanya bentuk logaritma penjumlahan dan data variabel yang tidak terobservasi. Ide dari algoritma EM adalah membangun batas bawah lower bound untuk fungsi likelihood sehingga bentuk penjumlahan logaritma bisa diatasi. Dimisalkan adalah sembarang fungsi kepadatan probabilitas dari dengan ∑ , persamaan 2.7 dapat ditulis kembali sebagai ∑ | ∑ | Berdasarkan ketidaksamaan Jensen untuk fungsi cekung diperoleh ∑ | ∑ | ∑ adalah batas bawah dari fungsi likelihood . Berikut dicari untuk persamaan 2.8 sehingga menjadi batas yang optimum tight bound , ∑ | commit to user 13 | [ | | ] | | | | || | || | disebut Kullback-Leiber Distance yang memiliki sifat 1. || | 2. || | menjadi batas yang optimum atau sama dengan jika || | minimum yaitu ketika || | . Berikut ini dicari kondisi || | minimum, || | | kondisi persamaan 2.10 terjadi jika | Persamaan 2.11 disubstitusikan ke persamaan 2.8 diperoleh | ∑ | | ∑ | | dengan ∑ | | dan ∑ | | commit to user 14 disebut entropi dari | yang bernilai konstan. Dapat dibuktikan bahwa Bukti: ∑ | | ∑ | | ∑ | | | ∑ | | | [∑ | | | ] [∑ | ] Terbukti bahwa maka . Memaksimumkan | sama dengan memaksimumkan Tahap penentuan fungsi inilah yang disebut dengan tahap ekspektasi yang kemudian akan dicari nilai estimator yang memaksimumkan fungsi Q tersebut pada tahap maksimisasi. 2 Kekonvergenan algoritma EM Teorema 2.6 Dempster dkk. , [4] Fungsi likelihood berdasarkan data terobservasi tidak mengalami penurunan setelah iterasi EM Bukti: Pada saat || | , persamaan 2.9 menjadi commit to user 15 | dan Dari persamaan 2.12 diketahui bahwa . Pada tahap maksimisasi dicari nilai yang dapat memaksimumkan fungsi sehingga dari definisi tersebut diperoleh informasi bahwa . Kekonvergenan algoritma EM dapat dibuktikan sebagai Persamaan 2.13 menunjukkan bahwa fungsi log likelihood berdasarkan data terobservasi tidak mengalami penurunan setelah iterasi EM , maka demikian pula dengan fungsi likelihood nya. Terbukti

2.1.7 Metode Pengali Lagrange

Metode pengali Lagrange adalah sebuah teknik dalam menyelesaikan optimasi dengan kendala persamaan. Inti dari metode pengali Lagrange adalah mengubah persoalan titik ekstrim terkendala menjadi persoalan ekstrim bebas kendala. Fungsi yang terbentuk dari transformasi tersebut dinamakan fungsi Lagrange. Definisi 2.9 Gluss dan Wisstein, [5] Misalkan permasalahan yang dihadapi adalah memaksimumkan dengan kendala , maka fungsi Lagrangenya adalah dengan adalah pengali Lagrange. Kriteria yang harus dipenuhi untuk memperoleh nilai ekstrim adalah commit to user 16 atau Pada kasus variabel, jika fungsi objektifnya mempunyai bentuk dengan kendala , maka fungsi Lagrangenya adalah

2.1.8 Kriteria Pemilihan Model

Ada beberapa kriteria yang digunakan untuk memilih model terbaik dalam analisis kelas laten. Diantaranya adalah kriteria parsimony dan kriteria kecocokan model absolut. 1 Kriteria Parsimony Sifat parsimony adalah sifat yang menghubungkan antara kecocokan model dengan data dengan banyaknya perameter dalam model yang bersangkutan. Prinsip dari sifat parsimony adalah kesederhanaan yaitu model sederhana lebih baik daripada model kompleks. Kesederhanaan dalam sifat parsimony berarti banyaknya estimasi parameter lebih sedikit. Dua ukuran parsimony yang digunakan dalam analisis kelas laten adalah Akaike Information Criteria AIC dan Bayesian Information Criteria BIC yang didefinisikan sebagai dengan adalah maksimum log likelihood dan adalah jumlah parameter yang diestimasi. Nilai dan yang lebih kecil merepresentasikan keseimbangan optimum antara kecocokan model dengan banyaknya parameter, sehingga model yang lebih baik adalah model dengan nilai dan minimun. Namun menurut Lin dan Dayton dalam Linzer dan Lewis [10], lebih tepat digunakan commit to user 17 untuk model kelas laten karena kesederhanaannya. Dan menurut Posada dan Buckley [13], akan memilih model lebih sederhana daripada untuk . 2 Kriteria Kecocokan Model Absolut Kriteria kecocokan model absolut mengacu pada apakah model kelas laten merepresentasikan data dengan cukup baik atau model dapat dikatakan cocok dengan data tanpa membandingkan dengan model yang lain. Menurut Collins dan Lanza [2], terdapat dua statistik uji yang dapat digunakan untuk menguji hipotesis yang menyatakan kecocokan model dengan data yaitu statistik rasio likelihood dan uji kecocokan Chi-kuadrat . Dimisalkan terdapat variabel terobservasi variabel manifes dan setiap variabel terobservasi mempunyai kemungkinan outcome kategori dan tabel kontingensi yang dibentuk dari tabulasi silang variabel terobservasi memiliki sel sebanyak dengan ∏ . Frekuensi sel dilambangkan dengan dan ̂ adalah frekuensi harapan sel yang didefinisikan sebagai ̂ ∑ ∏ ∏ rasio likelihood dan uji kecocokan Chi-kuadratnya adalah ∑ ̂ ∑ ̂ ̂ Nilai dan dibandingkan dengan distribusi Chi-kuadrat yang sesuai dengan derajat bebas dalam model. Model dapat dikatakan cocok dengan data jika nilai dan lebih kecil dari . Derajat bebas yang bersesuaian dengan dan adalah commit to user 18 dengan adalah jumlah parameter yang diestimasi yaitu jumlah dari kelas laten dan probabilitas bersyarat yang diestimasi.

2.2 Kerangka Pemikiran

Mengacu pada tinjauan pustaka, dapat disusun suatu kerangka pemikiran yang mendasari penulisan skripsi ini. Dalam penelitian kadang terdapat variabel yang tidak dapat diukur secara langsung unosreved variable atau variabel tersebut tidak mempunyai ukuran kuantitatif, variabel tersebut disebut dengan variabel laten, sehingga diperlukan beberapa variabel terobservasi observed variable yang dapat dijadikan sebagai alat ukur tidak langsung dari variabel laten. Variabel-variabel tersebut sering dikenal sebagai variabel manifes atau variabel indikator indicator variable . Dan alat statistik yang digunakan untuk klasifikasi terhadap variabel lalen dengan variabel manifes sebagai indikatornya yang keduanya bertipe kategorik adalah analisis kelas laten atau latent class analysis LCA . Adanya variabel laten menyebabkan metode estimasi maksimum likelihood tidak bisa digunakan secara langsung untuk estimasi model kelas laten sehingga diperlukan modifikasi atau augmented data agar metode estimasi maksimum likelihood dapat digunakan secara lebih sederhana. Metode estimasi yang dapat digunakan untuk menyelasaikan estimasi maksimum likelihood dalam model kelas laten adalah algoritma EM dan algoritma Newton Raphson. Algoritma EM memiliki keunggulan lebih sederhana dan praktis digunakan dibandingkan dengan algoritma Newton Raphson. Dalam algoritma EM , augmented data disebut sebagai data lengkap dan data yang tersedia disebut sebagai data tidak lengkap. Skripsi ini mengkaji ulang estimasi parameter model kelas laten menggunakan algoritma EM dengan memandang kelas pada variabel laten sebagai komponen dari model campuran. commit to user 19 BAB III METODE PENELITIAN Metode yang digunakan dalam penulisan skripsi ini adalah studi literatur yaitu dengan mengumpulkan dan mempelajari referensi yang berupa buku dan jurnal yang berkaitan dengan materi algoritma EM dan model kelas laten. Berikut ini adalah langkah-langkah yang dilakukan dalam mengestimasi parameter model kelas laten. 1. Menentukan fungsi log likelihood data lengkap. 2. Mengestimasi parameter menggunakan algoritma EM dengan langkah- langkah sebagai berikut. a. Input : data dari variabel manifes. b. Menetapkan dan inisialisasi awal yaitu dan . c. Tahap ekspektasi Menghitung | dan menentukan . d. Tahap maksimisasi Menghitung . e. Menetapkan . Ulangi tahap ekspektasi dan maksimisasi hingga konvergen. f. Output : dan . 3. Memilih model terbaik berdasarkan 2.1.8. 4. Mengaplikasikan pada contoh kasus. commit to user 20 BAB IV PEMBAHASAN Pada bab ini dibicarakan tiga pokok bahasan yaitu model kelas laten, estimasi perameter model kelas laten, dan contoh kasus.

4.1 Model Kelas Laten