2 Dalam hal fungsi keanggotaan, ketidakpastian fuzzy dalam FCM secara
konseptual sama dengan term probabilitas peluangkemungkinan yang digunakan pada Latent Class Clustering Analysis LCCA Kaufman, dkk, 1990 dalam Vermunt, dan
Magidson, 2002.
Setelah menelaah adanya kemiripan dan keunggulan pada FCM dan LCCA, dan hingga kini belum ditemukan kajian yang membandingkan antara metode FCM dengan
LCCA. Maka penulis mencoba untuk menyajikannya dalam penelitian ini dengan menggunakan data simulasi hasil bangkitan dan mengimplementasikan hasilnya pada
data riil sebagai studi kasus. Terutama dalam proses pengelompokan obyek, tingkat akurasi hasil pengelompokan, dan validitas cluster.
Aplikasinya dalam pengelompokan kabupatenkota khususnya di wilayah Jawa-Bali berdasarkan 13 variabel indikator kontinyu yang umum digunakan dalam
mengevaluasi capaian pembangunan nasional, hal ini penulis yakini sangat relevan, penting, dan menemukan momentum yang tepat untuk disajikan.
2. Tinjauan Pustaka Pada bagian ini membahas bahan rujukan yang digunakan, meliputi:
2.1 Pengujian Distribusi Multivariat Normal Pengujian data berdistribusi normal multivariat di uji dengan membandingkan
jarak kuadrat Johnson dan Wichern, 2007:
=
− −
...1 dimana
= sampel random ke-h, h=1,2,…,n; = vektor rata-rata kolom;
= invers matrik varians-kovarians. Hipotesis yang digunakan adalah H
= data berasal dari distribusi normal multivariat, sedangkan H
1
=data tidak berdistribusi normal multivariat. H diterima jika sebaran data
menunjukan pola tertentu menyebar mengikuti bentuk suatu garis menurut plot antara nilai chi-square dengan jarak Mahalanobis yang telah diurutkan atau banyaknya nilai
2 2
, j
q
d
lebih dari 50.
2.2 Ukuran Kemiripan Similarity dan Jarak Dissimilarity
Beberapa pengukuran jarak yang tersedia ; 1.
Euclidean Distance, diartikan sebagai straight-line distance. Euclidean Distance adalah ukuran paling umum digunakan, merupakan jarak antara dua obyek misalnya y
i
ke y
j
berdimensi p dirumuskan sebagai:
=
∑ −
...2 2.
Jarak Euclidean juga sering dinyatakan dalam bentuk kuadrat disebut Squared Absolute Euclidean Distance.
=
∑ −
...3 3.
Mahalanobis Distance D
2
, generalisasi pengukuran jarak yang menghitung korelasi antara variabel dengan membagi bobot sama rata. Keberadaan interkorelasi baik secara
positif atau negatif antara variabel pengelompokan, pengukuran yang sering dipakai menggunakan jarak Mahalanobis, yang menstandarisasi data dan hubungan antar variabel
yang dinyatakan dalam matriks varians kovarians S, dirumuskan sebagai:
=
− −
...4
2.3 Tabel Kontingensi Cross Classification Table
3 Tabel kontigensi atau disebut juga tabel tabulasi silang atau crosstab merupakan
tabel yang disusun berdasarkan tabulasi data menurut 2 atau lebih kategori yang ditampilkan karena suatu unsur dengan unsur lainnya terdapat kesesuaian atau hubungan.
Dalam istilah lain dikenal sebagai confusion matrix, yaitu tata letak khusus yang memungkinkan visualisasi kinerja algoritma, biasanya supervised learning dalam unsupervised
learning biasanya disebut matriks pencocokan. Setiap kolom dari matriks merupakan contoh di kelas prediksi, sementara setiap baris mewakili contoh dalam kelas yang aktual sebenarnya.
Dimensi atau ukuran tabel kontingensi beraneka ragam, yang paling sederhana berdimensi 2, seperti contoh dibawah ini:
Tabel 2.1 Bentuk Tabel Kontingensi 2x2
Prediksi Total
1 2
Aktual 1
a b
a+b 2
c d
c+d Total
a+c b+d
a+b+c+d
Dimana a adalah jumlah prediksi yang benar dari kelas aktual 1 di prediksi ke kelompok 1, b adalah jumlah prediksi yang salah dari kelas aktual 1 di prediksi ke kelompok 2,
sedangkan c adalah jumlah yang salah prediksi dari kelas aktual 2 di prediksi ke kelompok 1, serta d adalah jumlah prediksi yang benar dari kelas aktual 2 diprediksi ke
kelompok 2.
Menurut Provost, dan Fawcett 1997 pengukuran kinerja algoritma yang dapat
diukur diantaranya adalah Akurasi AC. Adalah kebenaran keseluruhan model dan dihitung sebagai jumlah dari klasifikasi yang benar dibagi dengan jumlah total
klasifikasi. Merupakan proporsi jumlah prediksi yang benar. Hal ini ditentukan dengan menggunakan persamaan dari tabel kontingensi diatas:
=
...5
2.4 Metode Fuzzy C-Means Clustering FCM