Ukuran Kemiripan Similarity dan Jarak Dissimilarity Tabel Kontingensi Cross Classification Table

2 Dalam hal fungsi keanggotaan, ketidakpastian fuzzy dalam FCM secara konseptual sama dengan term probabilitas peluangkemungkinan yang digunakan pada Latent Class Clustering Analysis LCCA Kaufman, dkk, 1990 dalam Vermunt, dan Magidson, 2002. Setelah menelaah adanya kemiripan dan keunggulan pada FCM dan LCCA, dan hingga kini belum ditemukan kajian yang membandingkan antara metode FCM dengan LCCA. Maka penulis mencoba untuk menyajikannya dalam penelitian ini dengan menggunakan data simulasi hasil bangkitan dan mengimplementasikan hasilnya pada data riil sebagai studi kasus. Terutama dalam proses pengelompokan obyek, tingkat akurasi hasil pengelompokan, dan validitas cluster. Aplikasinya dalam pengelompokan kabupatenkota khususnya di wilayah Jawa-Bali berdasarkan 13 variabel indikator kontinyu yang umum digunakan dalam mengevaluasi capaian pembangunan nasional, hal ini penulis yakini sangat relevan, penting, dan menemukan momentum yang tepat untuk disajikan.

2. Tinjauan Pustaka Pada bagian ini membahas bahan rujukan yang digunakan, meliputi:

2.1 Pengujian Distribusi Multivariat Normal Pengujian data berdistribusi normal multivariat di uji dengan membandingkan jarak kuadrat Johnson dan Wichern, 2007: = − − ...1 dimana = sampel random ke-h, h=1,2,…,n; = vektor rata-rata kolom; = invers matrik varians-kovarians. Hipotesis yang digunakan adalah H = data berasal dari distribusi normal multivariat, sedangkan H 1 =data tidak berdistribusi normal multivariat. H diterima jika sebaran data menunjukan pola tertentu menyebar mengikuti bentuk suatu garis menurut plot antara nilai chi-square dengan jarak Mahalanobis yang telah diurutkan atau banyaknya nilai 2 2 , j q d    lebih dari 50.

2.2 Ukuran Kemiripan Similarity dan Jarak Dissimilarity

Beberapa pengukuran jarak yang tersedia ; 1. Euclidean Distance, diartikan sebagai straight-line distance. Euclidean Distance adalah ukuran paling umum digunakan, merupakan jarak antara dua obyek misalnya y i ke y j berdimensi p dirumuskan sebagai: = ∑ − ...2 2. Jarak Euclidean juga sering dinyatakan dalam bentuk kuadrat disebut Squared Absolute Euclidean Distance. = ∑ − ...3 3. Mahalanobis Distance D 2 , generalisasi pengukuran jarak yang menghitung korelasi antara variabel dengan membagi bobot sama rata. Keberadaan interkorelasi baik secara positif atau negatif antara variabel pengelompokan, pengukuran yang sering dipakai menggunakan jarak Mahalanobis, yang menstandarisasi data dan hubungan antar variabel yang dinyatakan dalam matriks varians kovarians S, dirumuskan sebagai: = − − ...4

2.3 Tabel Kontingensi Cross Classification Table

3 Tabel kontigensi atau disebut juga tabel tabulasi silang atau crosstab merupakan tabel yang disusun berdasarkan tabulasi data menurut 2 atau lebih kategori yang ditampilkan karena suatu unsur dengan unsur lainnya terdapat kesesuaian atau hubungan. Dalam istilah lain dikenal sebagai confusion matrix, yaitu tata letak khusus yang memungkinkan visualisasi kinerja algoritma, biasanya supervised learning dalam unsupervised learning biasanya disebut matriks pencocokan. Setiap kolom dari matriks merupakan contoh di kelas prediksi, sementara setiap baris mewakili contoh dalam kelas yang aktual sebenarnya. Dimensi atau ukuran tabel kontingensi beraneka ragam, yang paling sederhana berdimensi 2, seperti contoh dibawah ini: Tabel 2.1 Bentuk Tabel Kontingensi 2x2 Prediksi Total 1 2 Aktual 1 a b a+b 2 c d c+d Total a+c b+d a+b+c+d Dimana a adalah jumlah prediksi yang benar dari kelas aktual 1 di prediksi ke kelompok 1, b adalah jumlah prediksi yang salah dari kelas aktual 1 di prediksi ke kelompok 2, sedangkan c adalah jumlah yang salah prediksi dari kelas aktual 2 di prediksi ke kelompok 1, serta d adalah jumlah prediksi yang benar dari kelas aktual 2 diprediksi ke kelompok 2. Menurut Provost, dan Fawcett 1997 pengukuran kinerja algoritma yang dapat diukur diantaranya adalah Akurasi AC. Adalah kebenaran keseluruhan model dan dihitung sebagai jumlah dari klasifikasi yang benar dibagi dengan jumlah total klasifikasi. Merupakan proporsi jumlah prediksi yang benar. Hal ini ditentukan dengan menggunakan persamaan dari tabel kontingensi diatas: = ...5

2.4 Metode Fuzzy C-Means Clustering FCM