Validitas Cluster Indikator Capaian Pembangunan Nasional

6

2.6 Validitas Cluster

Setiap cluster yang terbentuk memiliki seperangkat ukuran karakteristik. Diantaranya berupa nilai indeks validitas cluster Brock, G. dkk, 2008. Hal ini digunakan untuk menentukan jumlah cluster optimal khususnya untuk data riil berdasarkan kemampuan kriteria indeks terpilih Pada penelitian ini penulis menggunakan 3 kriteria alternatif. Pada paket program R library clValid dengan metode “fanny” untuk fuzzy clustering dan “model” untuk mixture model atau Model-based clustring=LCCA, kriteria yang digunakan adalah indeks Connectivity, indeks Dunn dan indeks Silhouette. Penjelasan masing-masing kriteria adalah sebagai berikut: 1. Connectivity, memiliki nilai antara 0 sampai tak hingga. Dengan kriteria terbaik adalah yang paling minimum. Dirumuskan sebagai berikut: = ∑ ∑ , ...17 Dimana adalah tetangga terdekat data ke-j dari data ke-i, jika dalam satu cluster maka , bernilai 0 nol dan jika berbeda bernilai 1j. N banyaknya data observasi, L banyaknya cluster. 2. Dunn, adalah indeks yang menunjukkan rasio antara jarak terkecil data observasi di cluster yang berbeda terhadap jarak terjauh didalam suatu cluster. Dirumuskan sebagai berikut: = , ,, , , , ∈ , , ∈ ...18 Dimana adalah jarak maksimum antara data observasi pada cluster . Nilai indeks Dunn antara nol dan tak hingga dengan harapan semaksimal mungkin. 3. Silhouette, adalah rata-rata nilai silhouette ukuran dari derajat keyakinan pengclusteran dari setiap data observasi. Untuk cluster terbaik bernilai 1 sedangkan yang terburuk -1. Dirumuskan sebagai berikut: = , ...19 Dimana adalah rata-rata jarak antara data i dengan seluruh data observasi lainnya dalam cluster yang sama, adalah rata-rata jarak antara data i dengan data observasi pada cluster lain yang terdekat.

2.7 Indikator Capaian Pembangunan Nasional

Untuk mengevaluasi pencapaian pembangunan secara langsung cukup sulit dalam penterjemahan, oleh karena itu dapat menggunakan indikator yang secara rutin dirilis oleh BPS RI. Data riil yang digunakan merupakan data sekunder indikator kabupatenKota yang diperoleh dari publikasi Badan Pusat Statistik BPS tahun 2013. Obyek dari penelitian ini sebanyak 121 kabupatenkota di wilayah Jawa-Bali tidak termasuk DKI. Indikator tersebut diantaranya jangka pendek-menengah diantaranya: angka PDRB dan turunannya pro growth, angka ketenagakerjaan dan pengangguran pro job, dan angka kemiskinan pro poor. Sedangkan indikator PDRB Hijau pro environmentgreen economy belum semua daerah menyusun dan mempublikasikannya. Selain itu angka IPM dan komponen pembentuknya sebagai indikator jangka menengah-panjang juga relevan digunakan. Dalam peneilitian ini empat prinsip pembangunan dirinci menjadi 13 indikator kontinyu, meliputi: - 4 dari aspek pro growth meliputi pertumbuhan ekonomi, kontribusi golongan primer, sekunder dan tersier, - 3 dari aspek pro job meliputi tingkat partisipasi angkatan kerjaTPAK, tingkat pengangguran terbukaTPT, dan rasio ketergantungan, 7 - 3 dari aspek pro poor meliputi angka kemiskinan absolutP0, indeks kedalamanP1, dan indeks keparahanP2 - 3 dari IPM meliputi angka harapan hidupAHH, angka melek hurufAMH, dan rata-rata lama sekolahRLS. 3 Metodologi Penelitian Metodologi yang digunakan cakupannya meliputi: langkah-langkah algoritma cluster FCM dan LCCA, desain pemilihan metode terbaik dari data simulasi, implementasi metode terpilih untuk pengelompokan data riil. Untuk memudahkan dalam tahapan yang lebih sederhana, data simulasi yang digunakan dalam penelitian ini adalah dua populasi bivariat normal hasil bangkitan program R yang dirancang dengan ukuran cluster, nilai rata-rata, varians serta korelasi antar variabel tertentu. Desain simulasi tipe A dengan banyaknya data 150 memiliki rasio ukuran populasi yang tidak sama yaitu: 2:1, sedangkan tipe B banyaknya data 200 dengan rasio cluster sama yaitu: 1:1. Masing-masing tipe A dan B memiliki empat 4 skenario yang mengindikasikan ukuran korelasi antar variabel. Selengkapnya desain simuasi disajikan dalam tabel berikut ini: Tabel 3.1 Desain Data Simulasi Bangkitan No Parameter Populasi 1 Populasi 2 Ukuran Cluster Y1 Y2 Y1 Y2 Tipe A Tipe B 1 Mean 3 4 7 1 Selanjutnya disebut Skenario A1 Selanjutnya disebut Skenario B1 Varians 1 4 1 4 Korelasi Rho=0 Rho=0 2 Mean 3 4 7 1 Selanjutnya disebut Skenario A2 Selanjutnya disebut Skenario B2 Varians 1 4 1 4 Korelasi Rho=0.3 Rho=0.3 3 Mean 3 4 7 1 Selanjutnya disebut Skenario A3 Selanjutnya disebut Skenario B3 Varians 1 4 1 4 Korelasi Rho=0.5 Rho=0.5 4 Mean 3 4 7 1 Selanjutnya disebut Skenario A4 Selanjutnya disebut Skenario B4 Varians 1 4 1 4 Korelasi Rho=0.7 Rho=0.7 Kemudian setiap skenario data simulasi, dikelompokan menggunakkan metode FCM dan LCCA dengan pengulangan sebanyak K yaitu: 500, 1000 dan 5000 kali. Aspek yang ditelaah adalah perbandingan pembentukan cluster setiap metode dengan penyajian data tabel kontigensi hasil pengelompokan masing-masing metode algoritma FCM dan LCCA terhadap data simulasi untuk mengukur tingkat akurasi hasil atau performa masing-masing metode. Selain itu disajikan juga nilai validitas cluster. 8 4 Hasil dan Pembahasan 4.1 Pengelompoka Data Simulasi Tipe A Dari output program R diperoleh rekap tabulasi sebagai berikut: Tabel 4.1 Tabel Kontingensi Hasil Pengelompokan Data Simulasi Skenario A1 Pengulangan Awal Cluster Metode FCM Cluster Metode LCCA 1 2 3 4 5 6 7 8 500 Pop0 1 2 Jumlah 1 2 Jumlah 1 52.07 47.93 100.00 89.92 10.08 100.00 2 23.75 26.25 50.00 5.57 44.34 49.91 Jumlah 75.82 74.18 150.00 95.49 54.42 149.91 1000 Pop0 1 2 Jumlah 1 2 Jumlah 1 47.40 52.60 100.00 89.65 10.35 100.00 2 26.44 23.56 50.00 5.72 44.18 49.91 Jumlah 73.84 76.16 150.00 95.38 54.53 149.90 5000 Pop0 1 2 Jumlah 1 2 Jumlah 1 49.82 50.18 100.00 88.97 11.01 99.98 2 25.06 24.95 50.00 6.02 43.88 49.89 Jumlah 74.87 75.13 150.00 94.98 54.88 149.87 Sum ber: Dat a diolah Lam piran 2. Dari tabel diatas pengelompokan metode FCM memberikan hasil: dari 100 data populasi pertama pada pengulangan 500 kali menunjukkan banyaknya data pengelompokan yang tepat akurat dari populasi 1 ke cluster 1 FCM 1-1 sebanyak 52,07 data. Sedangkan untuk populasi kedua dari 50 data 26, 25 diantaranya tepat dikelompokan pada cluster 2 FCM 2-2. Masing-masing sel lainnya FCM 1-2 dan FCM 2-1 menunjukkan banyaknya data yang mengalami kesalahan pengelompokan. Metode LCCA memperlihatkan hasil yang lebih baik dibanding metode FCM, dimana LCCA 1-1 pada pengulangan 500 kali menghasilkan ketepatan pengelompokan sebanyak 89,92 dari 100 data. Dan LCCA 2-2 sebanyak 44,34 dari 50 data. Ketika pengulangan ditingkatkan menjadi 1000 kali dan 5000 kali, kecenderungan akurasi hasil pengelompokan FCM 1-1 maupun FCM 2-2 masing-masing hanya berkisar pada angka 50 persen, sedangkan metode LCCA 1-1 dan LCCA 2-2 akurasinya mencapai 89 persen. Di lihat dari ukuran cluster, FCM hanya membagi dua dengan proporsi hampir sama 1:1, sedangkan metode LCCA memberikan hasil lebih mendekati proporsi populasi data awal yaitu 2:1. Dengan cara yang sama seperti analisis diatas, untuk data simulasi skenario A2, A3, dan A4 diperoleh data persentase akurasi hasil pengelompokan yang diperoleh dari Persamaan 5 selengkapnya pada tabel sebagai berikut ini: 9 Tabel 4.2 Persentase Tingkat Akurasi Hasil Pengelompokan Data Simulasi Tipe A Pengulangan Jenis Data Simulasi Metode FCM Metode LCCA 1 2 3 4 500 A1 52 89 A2 49 97 A3 47 98 A4 51 99 1000 A1 47 89 A2 50 95 A3 50 98 A4 50 99 5000 A1 50 89 A2 50 95 A3 50 98 A4 50 99 Sumber: data diolah Lampiran 4. Tabel 4.2 diatas, menunjukkan tingkat akurasi metode FCM kolom 3 hampir tidak mengalami perubahan dengan adanya perbedaan tingkat korelasi antar variabel, bahkan pada pengulangan sangat banyak diatas 1000 kali relatif konstan pada angka 50. Sedangkan metode LCCA kolom 4 menunjukkan adanya hubungan positif searah antara perubahan tingkat korelasi dengan peningkatan tingkat akurasi hasil pengelompokan.

4.2 Pengelompokan Data Simulasi Tipe B