3 Tabel kontigensi atau disebut juga tabel tabulasi silang atau crosstab merupakan
tabel yang disusun berdasarkan tabulasi data menurut 2 atau lebih kategori yang ditampilkan karena suatu unsur dengan unsur lainnya terdapat kesesuaian atau hubungan.
Dalam istilah lain dikenal sebagai confusion matrix, yaitu tata letak khusus yang memungkinkan visualisasi kinerja algoritma, biasanya supervised learning dalam unsupervised
learning biasanya disebut matriks pencocokan. Setiap kolom dari matriks merupakan contoh di kelas prediksi, sementara setiap baris mewakili contoh dalam kelas yang aktual sebenarnya.
Dimensi atau ukuran tabel kontingensi beraneka ragam, yang paling sederhana berdimensi 2, seperti contoh dibawah ini:
Tabel 2.1 Bentuk Tabel Kontingensi 2x2
Prediksi Total
1 2
Aktual 1
a b
a+b 2
c d
c+d Total
a+c b+d
a+b+c+d
Dimana a adalah jumlah prediksi yang benar dari kelas aktual 1 di prediksi ke kelompok 1, b adalah jumlah prediksi yang salah dari kelas aktual 1 di prediksi ke kelompok 2,
sedangkan c adalah jumlah yang salah prediksi dari kelas aktual 2 di prediksi ke kelompok 1, serta d adalah jumlah prediksi yang benar dari kelas aktual 2 diprediksi ke
kelompok 2.
Menurut Provost, dan Fawcett 1997 pengukuran kinerja algoritma yang dapat
diukur diantaranya adalah Akurasi AC. Adalah kebenaran keseluruhan model dan dihitung sebagai jumlah dari klasifikasi yang benar dibagi dengan jumlah total
klasifikasi. Merupakan proporsi jumlah prediksi yang benar. Hal ini ditentukan dengan menggunakan persamaan dari tabel kontingensi diatas:
=
...5
2.4 Metode Fuzzy C-Means Clustering FCM
FCM merupakan model pengelompokan yang didasarkan pada teori himpunan fuzzy. Berbeda dengan K-means yang menetapkan tiap obyek menjadi anggota dari suatu cluster
tertentu dengan batasan yang jelas, FCM memungkinkan keanggotaan tiap obyek terbagi pada beberapa cluster. Di sini diberlakukan kondisi
=
∈
[ 0; 1]
sebagai fungsi keanggotaan dari himpunan fuzzy
pada Y dimana ∑
= 1
untuk semua y
j
. Semakin besar nilai
menunjukkan semakin dekat obyek tersebut dengan titik pusat cluster tertentu. Algoritma iteratif FCM memerlukan kondisi agar dapat meminimumkan fungsi obyektif
J
FCM
seperti berikut:
= , , =
∑ ∑
− , ...6
dimana Y adalah matriks data berukuran n x p, c adalah banyaknya cluster, p adalah dimensi banyaknya variabel,
=
∈ adalah matriks partisi fuzzy berdimensi c x n,
= [ ,
, …, ]
adalah vektor dari c-pusat cluster berdimensi p, dan pangkat penimbang m 1 adalah indeks ke-fuzzy-an.
=
∑
...7
dan titik pusat cluster dihitung dengan:
=
∑ ∑
...8
4
Berikut ini algoritma dari FCM Babuska, 2009, dalam Ningrum 2012 untuk himpunan
data Y dengan jumlah cluster 1 i c, pangkat penimbang m
1, toleransi terminasi ε 0 dan menentukan inisiasi matriks partisi secara random dimana
∈ atau elemen matrik
∈ [0,1], adalah sebagai berikut: Ulangi untuk nilai l=1,2,...
1. Hitung matriks V
l
atau vektor pusat cluster berdasarkan Persamaan 8 untuk
≤ ≤ . 2.
Hitung ukuran jarak
, =
− dimana
≤ ≤
,
≤ ≤ 3.
Hitung kembali matriks partisi berdasarkan Persamaan 7 untuk ≤ ≤ jika
,
untuk semua nilai i. Jika terdapat suatu obyek mempunyai satu atau lebih nilai
, = 0
, maka untuk nilai
,
diberi keanggotaan nol dan sisanya gunakan batasan
∑
= 1.
4. Hentikan proses jika
− , dimana ε merupakan kriteria terminasi,
biasanya dapat menggunakan nilai 0,001 atau 0,01.
2.5 Latent Class Cluster Analysis LCCA
LCCA merupakan suatu model yang menghubungkan sejumlah variabel indikator yang bersifat kontinyu dengan variabel laten kategorik yang dibentuknya. Kelas-kelas
dari variabel laten LCCA adalah cluster. Misalkan Y
1
,Y
2
,…, Y
p
adalah variabel indikator
yang bersifat kontinyu dan membentuk vektor acak suatu variabel laten X yang bersifat kategorik dengan c kategori.
Model LCCA merupakan turunan dari model variabel laten yang diklasifikasikan berdasarkan jenis variabel yang digunakan. Untuk variabel indikator kontinyu dengan
variabel laten kategorik disebut Latent Profile Aanalysis LPA, tetapi menurut Vermunt 2002, hanya sebagian kecil yang menggunakan istilah LPA. Nama yang lebih umum
dikenal diantaranya mixture of normal components, mixture model clustering, model-based clustering, latent discriminant analysis, dan latent class clustering analysis
LCCA. Sehingga istilah LPA adalah sama dengan LCCA yang digunakan dalam penelitian ini.
Suatu individu akan memberikan respon untuk setiap variabel indikator. Misalkan y
ih
adalah respon individu ke-h terhadap variabel indikator Y
i
, h = 1, 2, ..., n; i = 1, 2, ..., p.
Baris vektor Y’
h
=Y
1h
, ..., Y
ph
disebut sebagai pola respon dari obyek ke-h sehingga distribusi dari masing-masing variabel indikatornya mengikuti sifat ke-2
distribusi multivariat normal, dirumuskan sebagai berikut:
, = 2
− −
...9 di mana
adalah parameter lokasi variabel kontinu Y
i
di kelas j dan adalah varians
dari variabel ke i. Tiap kelas memiliki vektor mean rata-rata, yaitu:
= …
,
= …
,
= …
= rata-rata dari variabel indikator ke-i pada kelas laten ke-j, i = 1, 2, ..., n; j = 1, 2, ..., c, dan juga memiliki matriks diagonal varians-kovarians:
= …
,
= …
,
= …
5 σ
ij
= varians dari variabel indikator ke-i pada kelas laten ke-j, i = 1, 2, ..., n; j = 1, 2, ..., c, nilai kovarians lainnya akan sama dengan nol.
Sehingga fungsi distribusi probabilitas bersama dari variabel yang diamati pada Persamaan 9 dapat dituliskan sebagai berikut:
=
∑ ∏
2
− −
...10 Dalam LCCA, untuk masing-masing kelas j memiliki probabiltas yang
bersesuaian, yang merupakan probabilitas prior untuk mengamati data Y. Distribusi
probabilitas bersama dari variabel yang diamati adalah:
=
∑
|
...11 Dengan
|
adalah fungsi distribusi dari variabel indikator. Sementara itu, untuk mengklasifikasikan suatu objek ke dalam suatu kelas j jika
diketahui y adalah probabilitas posterior yang merupakan distribusi bersyarat, ℎ
|
, dapat ditulis sebagai berikut:
ℎ
| =
|
...12
Dalam hal ini, adanya variabel laten X, yang tidak diketahuitersembunyi atau
hilangmissing mengarahkan pilihan pada teknik analisis numerik iteratif yaitu Algoritma Expectation Maximization EM.
Tiap iterasi dalam algoritma EM terdiri dari dua proses: E-Step dan M-step. Dalam tahap ekspektasi atau E-Step, dicari suatu fungsi yaitu ekspektasi dari fungsi likelihood data lengkap
berdasarkan data terobservasi yang digunakan untuk mengganti keberadaan atau keanggotaan setiap individu pada setiap kelas laten cluster yang tidak diketahui. Selengkapnya pada
Lampiran 1.
Dalam tahap M-Step, dicari nilai estimator yang dapat memaksimumkan fungsi likelihood yang telah didefinisikan pada tahap ekspektasi dibawah asumsi bahwa data hilang telah
diketahui.
Kedua tahap proses E-step dan M-step ini dilakukan terus secara berulang-ulang iteratif, hingga didapatkan estimator yang konvergen.
Estimasi probabilitas prior kelas:
̂
=
∑ |
...13
Estimasi probabilitas bersyarat bahwa y
i
=1 pada kelas j adalah:
̂
=
∑ |
...14 Dan varians pada setiap kelas:
=
∑ ∑
| ∑
∑ |
...15 Estimasi probabilitas posterior
ℎ
|
diperkirakan oleh: ℎ
| =
|
...16
Algoritma EM bekerja dimulai dengan memilih nilai awal untuk probabilitas posterior
ℎ
|
, sehingga dengan menggunakan Persamaan 13 sampai dengan Persamaan 15, didapatkan sebuah pendekatan pertama untuk parameter model.
Kemudian dengan menggunakan Persamaan 16 diperoleh perkiraan baru untuk ℎ
|
. Selanjutnya digunakan kembali Persamaan 13 sampai dengan Persamaan 15 sehingga diperoleh pendekatan kedua untuk parameter model. Demikian seterusnya
sampai tercapai konvergensi. Dengan
ℎ
|
seperti pada Persamaan 16 dengan
|
dan seperti
Persamaan 10 dengan menggunakan nilai estimasi dari masing-masing parameter maka diperoleh
ℎ
|
adalah MLE untuk .
6
2.6 Validitas Cluster