10 Dari tabel 4.3 diatas terlihat bahwa metode FCM untuk ukuran data sama juga
memberikan tingkat akurasi hasil pengelompokan yang tepat untuk FCM 1-1 maupun FCM 2-2 masing-masing sebanyak 49 data dari 100 data pada pengulangan 500 kali.
Pada pengulangan 5000 kali menjadi 51 dari 100 data. Hal ini relatif sama dengan kondisi sebelumnya untuk populasi yang berukuran beda.
Hasil pengelompokan metode LCCA menunjukkan hasil yang lebih baik dari FCM, dimana LCCA 1-1 pada pengulangan 500 maupun 5000 kali mencapai ketepatan
pengelompokan sebanyak 92 dari 100 data. Seperti analisis pada tipe A, untuk data simulasi tipe B juga diperoleh tabulasi
data akurasi sebagai berikut ini:
Tabel 4.4 Persentase Tingkat Akurasi Hasil Pengelompokan Data Simulasi Tipe B
Pengulangan Jenis Data Simulasi
Metode FCM Metode LCCA
1 2
3 4
500 B1
49 92
B2 50
96 B3
51 98
B4 49
99 1000
B1 50
91 B2
48 96
B3 49
98 B4
53 99
5000 B1
51 92
B2 50
96 B3
50 98
B4 50
99
Sumber: data diolah Lampiran 3. Dari tabel 4.4 diatas, menunjukkan tingkat akurasi hasil pengelompokan metode
FCM relatif konstan pada angka 50. Dan tidak menunjukkan adanya pengaruh korelasi antar variabel.
Sedangkan metode LCCA menunjukkan tambahan bukti adanya hubungan antara perubahan tingkat korelasi dengan peningkatan tingkat akurasi hasil pengelompokan. Hal
ini berguna sebagai landasan pertimbangan dalam memilih metode clustering suatu data jika korelasi antar variabel indikator diketahui. Misalnya pada data-data di bidang sosial
ekonomi, dimana umumnya antar variabel yang digunakan memiliki korelasi.
Dari tabel 4.1 dan tabel 4.3 kecenderungan pengelompokan masing-masing metode FCM dan LCCA tidak sensitif terhadap banyaknya pengulangan. Baik metode
FCM maupun LCCA dengan pengulangan 500, 1000, dan 5000 kali menunjukkan hasil alokasi pengelompokan relatif tetap tidak ada konvergensi. Tetapi karena adanya proses
iterasi yang dimulai dengan ramdomisasi nilai inisiasi awal, maka dalam implementasi kedua metode tetap perlu dilakukan pengulangan. Meski banyaknya pengulangan bisa
relatif sedikit misalnya 10 kali.
4.3 Indeks Validitas Cluster Data Simulasi
Selain dari tingkat akurasi pengelompokan, ukuran validitas cluster juga dapat digunakan untuk mengukur perbandingan kualitas metode FCM dan LCCA. Indeks validitas internal yang
11
umum digunakan diantaranya indeks Connectivity yang diharapkan nilai terkecil, indeks Dunn, dan indeks Silhouette semakin besar nilainya semakin baik.
Dari output program R library clValid dengan pengulangan sebanyak 50, 100 dan 500 kali diperoleh rata-rata nilai indeks validitas cluster untuk setiap skenario data simulasi tipe A
dengan perbedaan rasio ukuran cluster, 2:1. Selengkapnya sebagai berikut:
Tabel 4.5 Indeks Validitas Internal Cluster Hasil Pengelompokan Data Simulasi Tipe A
Pengulangan Jenis Data
Simulasi Metode FCM
Metode LCCA Con.
Dunn Silh.
Con. Dunn
Silh.
1 2
3 4
5 6
7 8
50 A1
34.113 17.540
17.977 25.222
17.559 17.984
A2 31.118
17.550 17.987
21.640 17.593
17.998 A3
27.944 17.562
18.002 20.038
17.613 18.013
A4 23.072
17.594 18.020
17.895 17.678
18.027 100
A1 34.110
17.540 17.977
25.134 17.561
17.985 A2
31.458 17.548
17.986 21.854
17.589 17.998
A3 28.371
17.558 18.000
19.899 17.616
18.011 A4
23.054 17.595
18.021 17.915
17.678 18.028
500 A1
33.116 17.543
17.983 25.119
17.564 17.989
A2 30.812
17.550 17.989
21.947 17.589
18.000 A3
28.113 17.559
17.998 19.828
17.616 18.010
A4 23.494
17.595 18.019
17.962 17.677
18.026
Sumber: data diolah Lampiran 4. Ketiga ukuran indeks validitas internal cluster yang disajikan pada tabel 4.5
menunjukkan Connectivity yaitu kolom 6 lebih kecil nilainya dibanding kolom 3, indeks Dunn kolom 7 lebih besar dibanding kolom 4, serta indeks Silhouette kolom 8 lebih besar
dari kolom 5 yang berarti hasil pengelompokan metode LCCA lebih baik dibanding metode FCM.
Selain itu, dapat diketahui adanya pengaruh nilai korelasi terhadap nilai indeks validitas internal cluster. Baik metode FCM maupun metode LCCA menunjukkan hubungan positif,
dimana semakin besar korelasi masing-masing nilai indeks semakin optimal indeks Connectivity semakin kecil, sementara indeks Dunn dan Silhouette semakin besar.
Sedangkan untuk data simulasi tipe B, menunjukan hasil yang sedikit berbeda, pada setiap banyaknya pengulangan hasil pengukuran indeks validitas internal cluster menunjukkan
indeks Connectivity, dan indeks Dunn, seluruhnya merujuk metode LCCA lebih baik dibanding metode FCM.
Sementara indeks Silhouette pada data simulasi skenario korelasi =0 B1 dan
korelasi=0,3 B2 mengindikasian metode FCM relatif lebih baik dari LCCA, dengan perbedaan nilai indeks sangat kecil. Kemudian pada data simulasi skenario dengan korelasi=0,5 B3 dan
korelasi=0,7 B4 memberikan hasil yang sama baiknya antara metode FCM maupun metode LCCA.
12
Seperti pada tabel 4.6 berikut ini:
Tabel 4.6 Indeks Validitas Internal Cluster Hasil Pengelompokan Data Simulasi Tipe B
Pengulangan Jenis Data
Simulasi Metode FCM
Metode LCCA Con.
Dunn Silh.
Con. Dunn
Silh.
1 2
3 4
5 6
7 8
50 B1
34.352 17.540
17.996 27.527
17.549 17.985
B2 30.084
17.547 18.000
22.634 17.569
17.998 B3
24.901 17.577
18.013 19.824
17.601 18.013
B4 19.927
17.630 18.027
17.797 17.662
18.027 100
B1 33.861
17.542 17.999
27.364 17.549
17.989 B2
30.235 17.545
18.001 22.755
17.569 17.999
B3 25.126
17.572 18.013
19.908 17.597
18.013 B4
19.672 17.630
18.024 17.850
17.654 18.025
500 B1
34.081 17.542
17.997 26.984
17.548 17.987
B2 30.337
17.549 18.001
23.018 17.567
17.999 B3
25.163 17.570
18.012 19.924
17.598 18.012
B4 20.046
17.629 18.027
17.885 17.657
18.027
Sumber: data diolah Lampiran 4. 4.4
Pengujian Normalitas Multivariat Data Riil
Pemeriksaan distribusi multivariat normal dapat dilakukan dengan cara membuat q-q plot dari nilai jarak mahalanobis
2 j
d Johson Wichern, 2007. Plot output program
R diperoleh sebagai berikut:
Sumber: data olah lampiran 5
Gambar 4.5 Q-Q Plot Hasil Pengujian Normalitas Multivariat
Dari gambar diatas, menunjukkan sebaran data mengikuti pola tertentu berupa garis lurus, disisi lain diperoleh 62,81 persen data memiliki nilai
2 2
;0.05 j
n
d
sehingga
dapat disimpulkan bahwa data riil yang akan digunakan telah berdistribusi multivariat normal. Selain itu dapat dikenali indikasi adanya outlier pada data kabupatenkota
tersebut.
- 20.000
40.000 60.000
80.000 100.000
120.000
- 5.00
10.00 15.00
20.00 25.00
30.00
Q-Q Plot
13 Sumber: data olah lampiran 5
Gambar 4.6 Box Plot Data Riil
Pada gambar Box Plot diatas, dapat diketahui bahwa 11 dari 13 variabel yang digunakan memiliki data yang berada di luar batas bawah dan batas atas whisker yang
berpotensi sebagai pencilan outlier yang ditandai dengan lingkaran kecil. Dengan data riil yang telah berdistribusi multivariat normal, maka tahapan
berikutnya adalah melakukan pengelompokan dengan mengunakan terpilih, yaitu LCCA. Jumlah cluster yang digunakan sebagai input adalah c=2 hingga c=6. Dengan melakukan
10 kali pengulangan, hasil selengkapnya disajikan berikut ini.
4.5 Pembentukan Cluster Optimal Data Riil