commit to user 24
Terdapat dua masalah dalam penentuan nilai maksimum fungsi log
likelihood
pada persamaan 4.10 yaitu adanya bentuk logaritma penjumlahan sebanyak
mengakibatkan penurunan secara
close form
tidak dapat dicapai dan jumlah kelas tidak diketahui, sehingga digunakan fungsi log
likelihood
data lengkap. Berdasarkan Definisi 2.6 fungsi log
likelihood
data lengkap adalah ∑ ∑
∏ ∏ dengan
adalah vektor indikator yang merepresentasikan keanggotaan
membership
individu pada kelas laten, bernilai 1 jika individu berasal dari
kelas dan 0 untuk yang lain.
Algoritma
EM
dimulai dengan pemilihan nilai awal untuk dan
yang diberi nama
dan kemudian melalui tahap ekspektasi dan maksimisasi
secara berulang-ulang hingga dicapai dan
yang konvergen.
4.2.1 Tahap Ekspektasi
Fungsi diperoleh dengan menentukan ekspektasi dari persamaan 4.11
berdasarkan variabel dengan syarat variabel . Fungsi ditentukan sebagai
|
[ ]
|
∑ ∑ ∏ ∏
∑ ∑
|
∏ ∏ Karena nilai dari
biner yaitu 0 dan 1, maka ekspektasinya adalah hanya pada saat
bernilai 1 yaitu ketika barasal dari kelas
sebagai
|
| | Dengan teorema Bayes diperoleh
|
| ∑
|
commit to user 25
∏ ∏
| ∑
∏ ∏
| Persamaan 4.7 dan persamaan 4.9 disubstitusikan ke persamaan 4.14
diperoleh
|
∏ ∏
∑ ∏
∏
∑ Substitusi nilai
dan pada persamaan 4.15 diperoleh nilai
probabilitas variabel pada kelas laten dengan syarat variabel dengan pola
. Dimisalkan terdapat dua kelas laten, nilai parameter
dan disubstitusikan ke persamaan 4.15, jika
| mendekati nilai 1 dan
| mendekati nilai 0 maka dapat disimpulkan data dengan pola
berasal dari kelas laten pertama. Jadi pada tahap ekspektasi ditentukan dari mana asal masing-masing data yang terobservasi, apakah dari kelas pertama, kedua, dan
seterusnya banyaknya kelas ditentukan oleh peneliti. Persamaan 4.13 disubstitusikan ke persamaan 4.12 diperoleh fungsi
sebagai ∑ ∑ |
∏ ∏
4.2.2 Tahap Maksimisasi
Dari persamaaan 4.5 diketahui ∑
, sehingga pemaksimumkan fungsi
dapat dilakukan menggunakan metode pengali Lagrange dengan kendala
∑ . Fungsi Lagrangenya adalah
∑
commit to user 26
∑ ∑ | ∏ ∏
∑ dengan
adalah pengali Lagrange. Berikut ini dicari nilai maksimum untuk
dengan cara menurunkan persamaan 4.16 terhadap
dan dan menyamakannya dengan 0,
∑ |
∑ Dari persamaan 4.17 diperoleh
∑ |
Persamaan 4.19 disubstitusikan ke persamaan 4.18 diperoleh ∑ ∑ |
Karena ∑
| maka dari persamaan 4.20 diperoleh
– . Dengan mensubstitusikan – ke persamaan 4.19 diperoleh sebagai estimator dari
sebagai ∑ |
sebagai estimator dari diperoleh dengan cara menyelesaikan
fungsi Lagrange dengan kendala ∑
sebagai ∑
commit to user 27
∑ ∑ | ∏ ∏
∑
Nilai maksimum untuk diperoleh dengan cara menurunkan persamaan
4.22 terhadap dan
dan menyamakannya dengan 0, ∑ |
∑ Dari persamaan 4.23 diperoleh
∑ |
Persamaan 4.25 disubstitusikan ke persamaan 4.24 diperoleh ∑ ∑ |
Karena bernilai 1 jika individu
berasal dari respon variabel manifes dan 0 untuk yang lain, maka
∑ . Persamaan 4.26 menjadi
∑ | Persamaan 4.27 disubstitusikan ke persamaan 4.25 diperoleh estimator
untuk yang diberi label
sebagai ∑ |
∑ | Pemilihan nilai awal dan kompleksitas model kelas laten kadang
menyebabkan fungsi log
likelihood
hanya mencapai maksimum lokal. Oleh karena itu lebih baik menjalankan algoritma lebih dari satu kali dengan nilai awal
commit to user 28
yang berbeda untuk memastikan fungsi log
likelihood
telah mencapai maksimum global
.
4.3 Contoh Kasus