6
2.6 Validitas Cluster
Setiap cluster yang terbentuk memiliki seperangkat ukuran karakteristik. Diantaranya berupa nilai indeks validitas cluster Brock, G. dkk, 2008. Hal ini digunakan untuk menentukan
jumlah cluster optimal khususnya untuk data riil berdasarkan kemampuan kriteria indeks terpilih Pada penelitian ini penulis menggunakan 3 kriteria alternatif.
Pada paket program R library clValid dengan metode “fanny” untuk fuzzy
clustering dan “model” untuk mixture model atau Model-based clustring=LCCA, kriteria yang digunakan adalah indeks Connectivity, indeks Dunn dan indeks
Silhouette. Penjelasan masing-masing kriteria adalah sebagai berikut:
1. Connectivity, memiliki nilai antara 0 sampai tak hingga. Dengan kriteria terbaik adalah
yang paling minimum. Dirumuskan sebagai berikut:
=
∑ ∑
,
...17
Dimana adalah tetangga terdekat data ke-j dari data ke-i, jika dalam satu
cluster maka
,
bernilai 0 nol dan jika berbeda bernilai 1j. N banyaknya data observasi, L banyaknya cluster.
2. Dunn, adalah indeks yang menunjukkan rasio antara jarak terkecil data observasi di cluster
yang berbeda terhadap jarak terjauh didalam suatu cluster. Dirumuskan sebagai berikut:
=
, ,,
, ,
, ∈
,
,
∈
...18
Dimana adalah jarak maksimum antara data observasi pada cluster
. Nilai
indeks Dunn antara nol dan tak hingga dengan harapan semaksimal mungkin.
3. Silhouette, adalah rata-rata nilai silhouette ukuran dari derajat keyakinan pengclusteran
dari setiap data observasi. Untuk cluster terbaik bernilai 1 sedangkan yang terburuk -1. Dirumuskan sebagai berikut:
=
,
...19
Dimana adalah rata-rata jarak antara data i dengan seluruh data observasi
lainnya dalam cluster yang sama, adalah rata-rata jarak antara data i dengan data
observasi pada cluster lain yang terdekat.
2.7 Indikator Capaian Pembangunan Nasional
Untuk mengevaluasi pencapaian pembangunan secara langsung cukup sulit dalam penterjemahan, oleh karena itu dapat menggunakan indikator yang secara rutin dirilis
oleh BPS RI. Data riil yang digunakan merupakan data sekunder indikator kabupatenKota yang diperoleh dari publikasi Badan Pusat Statistik BPS tahun 2013.
Obyek dari penelitian ini sebanyak 121 kabupatenkota di wilayah Jawa-Bali tidak termasuk DKI.
Indikator tersebut diantaranya jangka pendek-menengah diantaranya: angka PDRB dan turunannya pro growth, angka ketenagakerjaan dan pengangguran pro job,
dan angka kemiskinan pro poor. Sedangkan indikator PDRB Hijau pro environmentgreen economy belum semua daerah menyusun dan mempublikasikannya.
Selain itu angka IPM dan komponen pembentuknya sebagai indikator jangka menengah-panjang juga relevan digunakan. Dalam peneilitian ini empat prinsip
pembangunan dirinci menjadi 13 indikator kontinyu, meliputi: - 4 dari aspek pro growth meliputi pertumbuhan ekonomi, kontribusi golongan primer,
sekunder dan tersier, - 3 dari aspek pro job meliputi tingkat partisipasi angkatan kerjaTPAK, tingkat
pengangguran terbukaTPT, dan rasio ketergantungan,
7 - 3 dari aspek pro poor meliputi angka kemiskinan absolutP0, indeks kedalamanP1,
dan indeks keparahanP2 - 3 dari IPM meliputi angka harapan hidupAHH, angka melek hurufAMH, dan rata-rata
lama sekolahRLS. 3 Metodologi Penelitian
Metodologi yang digunakan cakupannya meliputi: langkah-langkah algoritma cluster FCM dan LCCA, desain pemilihan metode terbaik dari data simulasi,
implementasi metode terpilih untuk pengelompokan data riil. Untuk memudahkan dalam tahapan yang lebih sederhana, data simulasi yang
digunakan dalam penelitian ini adalah dua populasi bivariat normal hasil bangkitan program R yang dirancang dengan ukuran cluster, nilai rata-rata, varians serta korelasi
antar variabel tertentu.
Desain simulasi tipe A dengan banyaknya data 150 memiliki rasio ukuran populasi yang tidak sama yaitu: 2:1, sedangkan tipe B banyaknya data 200 dengan rasio
cluster sama yaitu: 1:1. Masing-masing tipe A dan B memiliki empat 4 skenario yang mengindikasikan ukuran korelasi antar variabel. Selengkapnya desain simuasi
disajikan dalam tabel berikut ini:
Tabel 3.1 Desain Data Simulasi Bangkitan
No Parameter
Populasi 1 Populasi 2
Ukuran Cluster
Y1 Y2
Y1 Y2
Tipe A Tipe B
1 Mean
3 4
7 1
Selanjutnya disebut
Skenario A1 Selanjutnya
disebut Skenario B1
Varians 1
4 1
4 Korelasi
Rho=0 Rho=0
2 Mean
3 4
7 1
Selanjutnya disebut
Skenario A2 Selanjutnya
disebut Skenario B2
Varians 1
4 1
4 Korelasi
Rho=0.3 Rho=0.3
3 Mean
3 4
7 1
Selanjutnya disebut
Skenario A3 Selanjutnya
disebut Skenario B3
Varians 1
4 1
4 Korelasi
Rho=0.5 Rho=0.5
4 Mean
3 4
7 1
Selanjutnya disebut
Skenario A4 Selanjutnya
disebut Skenario B4
Varians 1
4 1
4 Korelasi
Rho=0.7 Rho=0.7
Kemudian setiap skenario data simulasi, dikelompokan menggunakkan metode FCM dan LCCA dengan pengulangan sebanyak K yaitu: 500, 1000 dan 5000 kali.
Aspek yang ditelaah adalah perbandingan pembentukan cluster setiap metode dengan penyajian data tabel kontigensi hasil pengelompokan masing-masing metode
algoritma FCM dan LCCA terhadap data simulasi untuk mengukur tingkat akurasi hasil atau performa masing-masing metode. Selain itu disajikan juga nilai validitas cluster.
8
4 Hasil dan Pembahasan 4.1 Pengelompoka Data Simulasi Tipe A
Dari output program R diperoleh rekap tabulasi sebagai berikut:
Tabel 4.1 Tabel Kontingensi Hasil Pengelompokan Data Simulasi Skenario A1
Pengulangan Awal
Cluster Metode FCM Cluster Metode LCCA
1 2
3 4
5 6
7 8
500 Pop0
1 2
Jumlah 1
2 Jumlah
1 52.07
47.93 100.00
89.92 10.08 100.00
2 23.75
26.25 50.00
5.57 44.34 49.91
Jumlah 75.82
74.18 150.00
95.49 54.42 149.91
1000 Pop0
1 2
Jumlah 1
2 Jumlah
1 47.40
52.60 100.00
89.65 10.35 100.00
2 26.44
23.56 50.00
5.72 44.18 49.91
Jumlah 73.84
76.16 150.00
95.38 54.53 149.90
5000 Pop0
1 2
Jumlah 1
2 Jumlah
1 49.82
50.18 100.00
88.97 11.01 99.98
2 25.06
24.95 50.00
6.02 43.88 49.89
Jumlah 74.87
75.13 150.00
94.98 54.88 149.87
Sum ber: Dat a diolah Lam piran 2.
Dari tabel diatas pengelompokan metode FCM memberikan hasil: dari 100 data populasi pertama pada pengulangan 500 kali menunjukkan banyaknya data
pengelompokan yang tepat akurat dari populasi 1 ke cluster 1 FCM 1-1 sebanyak 52,07 data. Sedangkan untuk populasi kedua dari 50 data 26, 25 diantaranya tepat
dikelompokan pada cluster 2 FCM 2-2. Masing-masing sel lainnya FCM 1-2 dan FCM 2-1 menunjukkan banyaknya data yang mengalami kesalahan pengelompokan.
Metode LCCA memperlihatkan hasil yang lebih baik dibanding metode FCM, dimana LCCA 1-1 pada pengulangan 500 kali menghasilkan ketepatan pengelompokan
sebanyak 89,92 dari 100 data. Dan LCCA 2-2 sebanyak 44,34 dari 50 data. Ketika pengulangan ditingkatkan menjadi 1000 kali dan 5000 kali,
kecenderungan akurasi hasil pengelompokan FCM 1-1 maupun FCM 2-2 masing-masing hanya berkisar pada angka 50 persen, sedangkan metode LCCA 1-1 dan LCCA 2-2
akurasinya mencapai 89 persen.
Di lihat dari ukuran cluster, FCM hanya membagi dua dengan proporsi hampir sama 1:1, sedangkan metode LCCA memberikan hasil lebih mendekati proporsi
populasi data awal yaitu 2:1. Dengan cara yang sama seperti analisis diatas, untuk data simulasi skenario A2,
A3, dan A4 diperoleh data persentase akurasi hasil pengelompokan yang diperoleh dari Persamaan 5 selengkapnya pada tabel sebagai berikut ini:
9
Tabel 4.2 Persentase Tingkat Akurasi Hasil Pengelompokan Data Simulasi Tipe A
Pengulangan Jenis Data Simulasi
Metode FCM Metode LCCA
1 2
3 4
500 A1
52 89
A2 49
97 A3
47 98
A4 51
99 1000
A1 47
89 A2
50 95
A3 50
98 A4
50 99
5000 A1
50 89
A2 50
95 A3
50 98
A4 50
99
Sumber: data diolah Lampiran 4. Tabel 4.2 diatas, menunjukkan tingkat akurasi metode FCM kolom 3 hampir
tidak mengalami perubahan dengan adanya perbedaan tingkat korelasi antar variabel, bahkan pada pengulangan sangat banyak diatas 1000 kali relatif konstan pada angka
50.
Sedangkan metode LCCA kolom 4 menunjukkan adanya hubungan positif searah antara perubahan tingkat korelasi dengan peningkatan tingkat akurasi hasil
pengelompokan.
4.2 Pengelompokan Data Simulasi Tipe B