Indeks Validitas Cluster Data Simulasi

10 Dari tabel 4.3 diatas terlihat bahwa metode FCM untuk ukuran data sama juga memberikan tingkat akurasi hasil pengelompokan yang tepat untuk FCM 1-1 maupun FCM 2-2 masing-masing sebanyak 49 data dari 100 data pada pengulangan 500 kali. Pada pengulangan 5000 kali menjadi 51 dari 100 data. Hal ini relatif sama dengan kondisi sebelumnya untuk populasi yang berukuran beda. Hasil pengelompokan metode LCCA menunjukkan hasil yang lebih baik dari FCM, dimana LCCA 1-1 pada pengulangan 500 maupun 5000 kali mencapai ketepatan pengelompokan sebanyak 92 dari 100 data. Seperti analisis pada tipe A, untuk data simulasi tipe B juga diperoleh tabulasi data akurasi sebagai berikut ini: Tabel 4.4 Persentase Tingkat Akurasi Hasil Pengelompokan Data Simulasi Tipe B Pengulangan Jenis Data Simulasi Metode FCM Metode LCCA 1 2 3 4 500 B1 49 92 B2 50 96 B3 51 98 B4 49 99 1000 B1 50 91 B2 48 96 B3 49 98 B4 53 99 5000 B1 51 92 B2 50 96 B3 50 98 B4 50 99 Sumber: data diolah Lampiran 3. Dari tabel 4.4 diatas, menunjukkan tingkat akurasi hasil pengelompokan metode FCM relatif konstan pada angka 50. Dan tidak menunjukkan adanya pengaruh korelasi antar variabel. Sedangkan metode LCCA menunjukkan tambahan bukti adanya hubungan antara perubahan tingkat korelasi dengan peningkatan tingkat akurasi hasil pengelompokan. Hal ini berguna sebagai landasan pertimbangan dalam memilih metode clustering suatu data jika korelasi antar variabel indikator diketahui. Misalnya pada data-data di bidang sosial ekonomi, dimana umumnya antar variabel yang digunakan memiliki korelasi. Dari tabel 4.1 dan tabel 4.3 kecenderungan pengelompokan masing-masing metode FCM dan LCCA tidak sensitif terhadap banyaknya pengulangan. Baik metode FCM maupun LCCA dengan pengulangan 500, 1000, dan 5000 kali menunjukkan hasil alokasi pengelompokan relatif tetap tidak ada konvergensi. Tetapi karena adanya proses iterasi yang dimulai dengan ramdomisasi nilai inisiasi awal, maka dalam implementasi kedua metode tetap perlu dilakukan pengulangan. Meski banyaknya pengulangan bisa relatif sedikit misalnya 10 kali.

4.3 Indeks Validitas Cluster Data Simulasi

Selain dari tingkat akurasi pengelompokan, ukuran validitas cluster juga dapat digunakan untuk mengukur perbandingan kualitas metode FCM dan LCCA. Indeks validitas internal yang 11 umum digunakan diantaranya indeks Connectivity yang diharapkan nilai terkecil, indeks Dunn, dan indeks Silhouette semakin besar nilainya semakin baik. Dari output program R library clValid dengan pengulangan sebanyak 50, 100 dan 500 kali diperoleh rata-rata nilai indeks validitas cluster untuk setiap skenario data simulasi tipe A dengan perbedaan rasio ukuran cluster, 2:1. Selengkapnya sebagai berikut: Tabel 4.5 Indeks Validitas Internal Cluster Hasil Pengelompokan Data Simulasi Tipe A Pengulangan Jenis Data Simulasi Metode FCM Metode LCCA Con. Dunn Silh. Con. Dunn Silh. 1 2 3 4 5 6 7 8 50 A1 34.113 17.540 17.977 25.222 17.559 17.984 A2 31.118 17.550 17.987 21.640 17.593 17.998 A3 27.944 17.562 18.002 20.038 17.613 18.013 A4 23.072 17.594 18.020 17.895 17.678 18.027 100 A1 34.110 17.540 17.977 25.134 17.561 17.985 A2 31.458 17.548 17.986 21.854 17.589 17.998 A3 28.371 17.558 18.000 19.899 17.616 18.011 A4 23.054 17.595 18.021 17.915 17.678 18.028 500 A1 33.116 17.543 17.983 25.119 17.564 17.989 A2 30.812 17.550 17.989 21.947 17.589 18.000 A3 28.113 17.559 17.998 19.828 17.616 18.010 A4 23.494 17.595 18.019 17.962 17.677 18.026 Sumber: data diolah Lampiran 4. Ketiga ukuran indeks validitas internal cluster yang disajikan pada tabel 4.5 menunjukkan Connectivity yaitu kolom 6 lebih kecil nilainya dibanding kolom 3, indeks Dunn kolom 7 lebih besar dibanding kolom 4, serta indeks Silhouette kolom 8 lebih besar dari kolom 5 yang berarti hasil pengelompokan metode LCCA lebih baik dibanding metode FCM. Selain itu, dapat diketahui adanya pengaruh nilai korelasi terhadap nilai indeks validitas internal cluster. Baik metode FCM maupun metode LCCA menunjukkan hubungan positif, dimana semakin besar korelasi masing-masing nilai indeks semakin optimal indeks Connectivity semakin kecil, sementara indeks Dunn dan Silhouette semakin besar. Sedangkan untuk data simulasi tipe B, menunjukan hasil yang sedikit berbeda, pada setiap banyaknya pengulangan hasil pengukuran indeks validitas internal cluster menunjukkan indeks Connectivity, dan indeks Dunn, seluruhnya merujuk metode LCCA lebih baik dibanding metode FCM. Sementara indeks Silhouette pada data simulasi skenario korelasi =0 B1 dan korelasi=0,3 B2 mengindikasian metode FCM relatif lebih baik dari LCCA, dengan perbedaan nilai indeks sangat kecil. Kemudian pada data simulasi skenario dengan korelasi=0,5 B3 dan korelasi=0,7 B4 memberikan hasil yang sama baiknya antara metode FCM maupun metode LCCA. 12 Seperti pada tabel 4.6 berikut ini: Tabel 4.6 Indeks Validitas Internal Cluster Hasil Pengelompokan Data Simulasi Tipe B Pengulangan Jenis Data Simulasi Metode FCM Metode LCCA Con. Dunn Silh. Con. Dunn Silh. 1 2 3 4 5 6 7 8 50 B1 34.352 17.540 17.996 27.527 17.549 17.985 B2 30.084 17.547 18.000 22.634 17.569 17.998 B3 24.901 17.577 18.013 19.824 17.601 18.013 B4 19.927 17.630 18.027 17.797 17.662 18.027 100 B1 33.861 17.542 17.999 27.364 17.549 17.989 B2 30.235 17.545 18.001 22.755 17.569 17.999 B3 25.126 17.572 18.013 19.908 17.597 18.013 B4 19.672 17.630 18.024 17.850 17.654 18.025 500 B1 34.081 17.542 17.997 26.984 17.548 17.987 B2 30.337 17.549 18.001 23.018 17.567 17.999 B3 25.163 17.570 18.012 19.924 17.598 18.012 B4 20.046 17.629 18.027 17.885 17.657 18.027 Sumber: data diolah Lampiran 4. 4.4 Pengujian Normalitas Multivariat Data Riil Pemeriksaan distribusi multivariat normal dapat dilakukan dengan cara membuat q-q plot dari nilai jarak mahalanobis 2 j d Johson Wichern, 2007. Plot output program R diperoleh sebagai berikut: Sumber: data olah lampiran 5 Gambar 4.5 Q-Q Plot Hasil Pengujian Normalitas Multivariat Dari gambar diatas, menunjukkan sebaran data mengikuti pola tertentu berupa garis lurus, disisi lain diperoleh 62,81 persen data memiliki nilai 2 2 ;0.05 j n d   sehingga dapat disimpulkan bahwa data riil yang akan digunakan telah berdistribusi multivariat normal. Selain itu dapat dikenali indikasi adanya outlier pada data kabupatenkota tersebut. - 20.000 40.000 60.000 80.000 100.000 120.000 - 5.00 10.00 15.00 20.00 25.00 30.00 Q-Q Plot 13 Sumber: data olah lampiran 5 Gambar 4.6 Box Plot Data Riil Pada gambar Box Plot diatas, dapat diketahui bahwa 11 dari 13 variabel yang digunakan memiliki data yang berada di luar batas bawah dan batas atas whisker yang berpotensi sebagai pencilan outlier yang ditandai dengan lingkaran kecil. Dengan data riil yang telah berdistribusi multivariat normal, maka tahapan berikutnya adalah melakukan pengelompokan dengan mengunakan terpilih, yaitu LCCA. Jumlah cluster yang digunakan sebagai input adalah c=2 hingga c=6. Dengan melakukan 10 kali pengulangan, hasil selengkapnya disajikan berikut ini.

4.5 Pembentukan Cluster Optimal Data Riil