Kajian Metode Penggerombolan Dua Tahap untuk Data yang Mengandung Pencilan

KAJIAN METODE PENGGEROMBOLAN DUA TAHAP
UNTUK DATA YANG MENGANDUNG PENCILAN

ARNI NURWIDA

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI SKRIPSI DAN SUMBER
INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Kajian Metode
Penggerombolan Dua Tahap untuk Data yang Mengandung Pencilan adalah benar
karya saya dengan arahan dari komisi pembimbing dan belum pernah diajukan
dalam bentuk apa pun kepada perguruan tinggi atau lembaga mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.

Bogor, Maret 2014
Arni Nurwida
NIM G14080022

ABSTRAK

ARNI NURWIDA. Kajian Metode Penggerombolan Dua Tahap untuk Data yang
Mengandung Pencilan. Dibimbing oleh KUSMAN SADIK dan INDAHWATI.
Analisis gerombol seringkali ditemui dalam berbagai penelitian. Analisis
gerombol klasik, seperti metode penggerombolan berhierarki dan k-rataan tidak
dapat menangani peubah penggerombolan yang bertipe kategorik maupun
campuran dari numerik dan kategorik. Selain itu, penentuan banyaknya gerombol
optimal masih tergantung dari subjektivitas peneliti serta tidak dapat menangani
data yang berukuran sangat besar, yaitu lebih besar dari 500. Salah satu
pendekatan untuk menangani masalah ini adalah dengan menggunakan metode
penggerombolan dua tahap. Keakuratan metode penggerombolan dua tahap
dalam menduga banyaknya gerombol yang dihasilkan serta dalam
pengklasifikasian keanggotaan gerombol khususnya pada data yang mengandung

pencilan merupakan hal yang penting untuk dikaji. Pada data yang mengandung
pencilan kecil (1%), metode ini memberikan hasil yang lebih akurat dibandingkan
dengan data yang mengandung pencilan besar (5% atau 15%). Penggunaan
besaran penanganan pencilan pada data yang mengandung pencilan harus lebih
besar daripada besaran pencilannya itu sendiri. Metode penggerombolan dua
tahap sangat akurat dalam menghasilkan banyaknya gerombol yang sesuai
dengan banyaknya gerombol populasi sebenarnya pada data yang tidak
mengandung pencilan, khususnya pada peubah yang sebagian besar bertipe
numerik dan sisanya kategorik. Penggerombolan Desa/Kelurahan di Indonesia
berdasarkan faktor kemajuan dan ketertinggalan desa dengan menggunakan
metode penggerombolan dua tahap menghasilkan 7 gerombol optimal.
Kata kunci: analisis gerombol, data pencilan, metode penggerombolan dua
tahap

ABSTRACT

ARNI NURWIDA. Assessment Method for Two-Step Clustering Data Containing
Outliers. Supervised by KUSMAN SADIK and INDAHWATI.
Cluster analysis is often encountered in various studies. Analysis of
classical clusters, such as hierarchical clustering method and k-means clustering

cannot handle categorical variables or a mixture of numerical and categorical. In
addition, the determination of the optimal number of clusters are still dependent
on the subjectivity of the researcher and cannot handle very large datasets, which
is larger than 500. One approach to addressing this problem is to use a two-step
clustering method. The accuracy of the two-step clustering method of predicting
the number of clusters generated as well as the classification of cluster
membership, especially in the data containing outliers is important to be studied.
Outliers in the data containing a small (1%), this method provides more accurate
compared with the results of data containing a large outliers (5% or 15%). Scale
use of outliers handling in the data containing outliers must be greater than the
amount of outliers itself. Two-step clustering method is very accurate in
producing a number of clusters associated with the actual number of population
clusters that do not contain data outliers, especially in the most variable of type
numeric and categorical rest. Clustering villages in Indonesia by a factor of
progress and backwardness villages using a two-step clustering method generates
optimal cluster 7.
Key words: cluster analysis, data outliers, two-step clustering method

KAJIAN METODE PENGGEROMBOLAN DUA TAHAP
UNTUK DATA YANG MENGANDUNG PENCILAN


ARNI NURWIDA

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Statistika
pada
Departemen Statistika

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014

Judul Skripsi: Kajian Metode Penggerombolan Dua Tahap untuk Data yang
Mengandung Pencilan
Nama
: Arni Nurwida
NIM

: G14080022

Disetujui oleh

Dr. Ir. Kusman Sadik, M.Si
Pembimbing I

Dr. Ir. Indahwati, M.Si
Pembimbing II

Diketahui oleh

Dr. Anang Kurnia, M.Si.
Ketua Departemen

Tanggal Lulus:

Judul Skripsi: Kajian Metode Penggerombolan Dna Tahap untuk Data yang
a
Mengandung Pencil an


Nam

: Ami Nurwida

NlM

: G 14080022

Disetujui oleh

Dr. Ir. Kusman Sadik, M.Si
Pembimbing I

Dr. Jr. Indahwati, M.Si
Pembimbing II

Diketahui o]eh
,_":-::""


,

.. .
2

Dr. Anang K 'a, M.Si.
pKetua Departemen

Tanggal Lulus:

0 3 HAR 2U14

.l

PRAKATA

Alhamdulillah, segala puji penulis panjatkan kehadirat Allah SWT atas
rahmat dan karunia-Nya sehingga karya ilmiah ini dapat diselesaikan. Shalawat
serta salam penulis haturkan kepada nabi besar Muhammad SAW serta kepada
para keluarga, sahabat dan umatnya yang senantiasa istiqomah hingga akhir

zaman. Karya ilmiah yang disusun sejak bulan Desember 2012 sampai dengan
Maret 2013 ini berjudul Metode Penggerombolan Dua Tahap untuk Peubah
Bertipe Campuran.
Penulis menyampaikan terima kasih kepada semua pihak yang telah
membantu, antara lain kepada Bapak Dr. Ir. Kusman Sadik, M.Si dan Ibu Dr. Ir.
Indahwati, M.Si selaku komisi pembimbing yang telah memberikan bimbingan,
arahan, serta masukan selama proses penulisan karya ilmiah ini. Bapak, Ibu,
Mbak Ayis, Rathi dan Mas Hasnan atas doa, semangat, bantuan, dan kasih sayang
yang diberikan kepada penulis. Bapak Dr. Ir. Hari Wijayanto, M.Si. beserta
seluruh staf pengajar Departemen Statistika Institut Pertanian Bogor yang telah
memberikan berbagai bekal ilmu selama penulis melaksanakan studi di
Departemen Statistika. Seluruh staf administrasi dan karyawan Departemen
Statistika yang selalu siap membantu penulis dalam menyelesaikan berbagai
keperluan terkait penyelesaian karya ilmiah ini. Aci, Ami, Dania, Ai, Nurul dan
Didin atas segala masukan, diskusi dan motivasinya. Mba Dwi, Ika, Pujul, Sumi,
Muti, Risa, Kak Ery, Kak Kindy, Kak Arjun, Kak Miftah, Mbak Endang, Abas,
Titi, Iril, Adit, Yekti, Hepi, Tika, Nopi, Eka, Fathia, Ida, Yuyun, Arbi, Endah,
Herlin, Ririn, Dina, Rida, Eka, Chanifah, Neng, Rey, Riza, Nyama, Fika, Gita,
Yusti, Suci, Zaiful, Ita, Sonia, Nahdhi, Aini, Nurul, Dian, Banu, Fatul, Andi, Aziz,
Hendi, Ridho, Agit, Winda, Anggun, Ririn, Euis, Salsa, Indah, Yasin, Okta,

Hamdan, Faiz, Aldi, Wulan, Nada, Carissa, Sarah, Sunny, Sarah, Andri, Nova,
Gita, Hesti, Indri, dan Nita atas segala motivasi dan dukungannya. Kakak-kakak
STK 44 serta adik-adik STK 46 dan STK 47. Serta seluruh pihak yang telah
memberikan dukungan, do’a dan motivasi dalam penyelesaian karya ilmiah ini.
Semoga segala kebaikannya dibalas oleh Allah SWT dan semoga karya
ilmiah ini bermanfaat bagi semua orang yang membacanya.

Bogor, Maret 2014
Arni Nurwida

DAFTAR ISI

DAFTAR TABEL
DAFTAR GAMBAR
DAFTAR LAMPIRAN
PENDAHULUAN
Latar Belakang
Tujuan
TINJAUAN PUSTAKA
Desa/Kelurahan Tertinggal

Analisis Gerombol
Metode Berhirarki
Metode Tak Berhirarki
Metode Penggerombolan Dua Tahap
Tahap Pertama: Pembentukan Gerombol Awal
Penanganan Pencilan
Tahap Kedua: Pembentukan Gerombol Optimal
METODOLOGI
Data
Metode Penelitian
Metode Pembangkitan Data
Penerapan pada Data Riil
HASIL DAN PEMBAHASAN
Kajian pada Kasus Data Khusus
Penerapan pada Data Riil
Deskripsi Data
Pereduksian Data
Penggerombolan dengan Metode Penggerombolan Dua
Tahap
Karakteristik Gerombol Desa/Kelurahan

KESIMPULAN DAN SARAN
Kesimpulan
Saran
DAFTAR PUSTAKA
LAMPIRAN

viii
viii
viii
1
1
2
2
2
2
2
2
3
3
4
5
6
6
7
7
9
9
9
11
11
11
12
13
16
16
16
17
18

DAFTAR TABEL

1
2
3
4
5
6
7
8
9
10
11

Kriteria 2 model peubah campuran
Kombinasi data simulasi
Pembangkitan ukuran data gerombol dan proporsi pencilan
Kriteria nilai transformasi untuk peubah kategorik
Ilustrasi salah klasifikasi
Persentase salah banyaknya gerombol yang dihasilkan dengan
banyaknya gerombol populasi sebenarnya
Persentase salah klasifikasi gerombol yang dihasilkan dengan
banyaknya gerombol populasi sebenarnya
Penggerombolan Dua Tahap dengan kriteria penggerombolan BIC
Distribusi hasil penggerombolan
Frekuensi dan persentase peubah kategorik pada setiap gerombol
Rentang nilai pada setiap peubah numerik

6
7
7
8
9
10
10
12
12
13
15

DAFTAR GAMBAR
1 Grafik tingkat kepentingan peubah kategorik �2 pada setiap gerombol
2 Grafik tingkat kepentingan peubah kategorik �5 pada setiap gerombol

14
14

DAFTAR LAMPIRAN
1
2
3
4
5
6

Daftar peubah penggerombolan sebelum dilakukan pereduksian
Diagram alir metode pembangkitan data
Diagram alir metode penggerombolan dua tahap pada data riil
Grafik tingkat kepentingan peubah numerik pada setiap gerombol
Tingkat rataan nilai peubah numerik pada setiap gerombol
Karakteristik pada setiap gerombol

18
19
21
22
23
25

PENDAHULUAN

Latar Belakang
Analisis gerombol adalah salah satu analisis peubah ganda yang bertujuan
untuk menggerombolkan objek (individu atau amatan) menjadi beberapa
gerombol berdasarkan pengukuran kemiripan atau ketakmiripan. Permasalahan
utama dalam penerapan analisis gerombol adalah peubah penggerombolan bertipe
kategorik maupun campuran dari numerik dan kategorik. Algoritma analisis
gerombol klasik seperti metode penggerombolan berhierarki dikembangkan untuk
peubah numerik berskala interval atau rasio saja, walaupun telah tersedia pilihan
berbagai konsep jarak untuk peubah biner. Sementara itu, metode k-rataan (kmeans) mensyaratkan peubah penggerombolan berskala rasio, interval, atau biner.
Permasalahan lainnya adalah banyaknya objek yang ingin digerombolkan
relatif sangat besar, yaitu lebih besar dari 500 dan penentuan banyaknya gerombol
optimal membutuhkan uji statistik. Penggerombolan berhierarki dikembangkan
untuk banyaknya objek yang relatif kecil, yaitu umumnya kurang dari 250 dan
penggerombolan k-rataan dikembangkan untuk banyaknya objek yang relatif
besar yaitu lebih besar dari 200 (Garson 2012). Di samping itu, pada
penggerombolan berhierarki maupun k-rataan, penentuan banyaknya gerombol
optimal sangat ditentukan oleh subjektivitas peneliti dan tidak terdapat uji statistik
untuk mengetahui ketepatan banyaknya gerombol optimal sehingga hasil
penggerombolan sangat bergantung pada pengetahuan, pengalaman, serta
subjektivitas peneliti (Hair et al. 2010).
Metode Penggerombolan Dua Tahap (Two Step Clustering) dapat mengatasi
peubah bertipe kategorik maupun campuran dari numerik dan kategorik (Chiu et
al. 2001). Selain itu, dapat mengatasi data yang berukuran sangat besar, yaitu
lebih besar dari 500 dan penentuan banyaknya gerombol optimal dilakukan
melalui uji statistik (Bacher et al. 2004).
Selanjutnya keakuratan metode penggerombolan dua tahap dalam menduga
banyaknya gerombol yang dihasilkan maupun dalam pengklasifikasian
keanggotaan gerombol khususnya pada data yang mengandung pencilan
merupakan hal yang penting untuk dikaji. Hal ini disebabkan karena banyak data
yang ditemui di lapang merupakan data yang mengandung pencilan dan pencilan
tersebut merupakan data atau amatan berpengaruh yang tidak mungkin
dihilangkan sehingga perlu diikutkan dalam proses analisisnya.
Kudsiati (2006) telah melakukan penelitian, yaitu mengkaji keakuratan
metode penggerombolan dua tahap dalam menentukan banyaknya gerombol
namun hanya sebatas pada data yang tidak mengandung pencilan. Oleh sebab itu,
penelitian ini ingin mengkaji metode penggerombolan dua tahap pada data yang
mengandung pencilan, kemudian melakukan penggerombolan desa/kelurahan di
Indonesia berdasarkan faktor kemajuan atau ketertinggalan desa yang terdapat
dalam data Podes tahun 2011 dengan menggunakan metode penggerombolan dua
tahap.

2

Tujuan
Tujuan penelitian ini adalah mengkaji metode penggerombolan dua tahap
untuk data yang mengandung pencilan dalam hal (1) menduga banyaknya
gerombol yang dihasilkan dibandingkan banyaknya gerombol populasi
sebenarnya, dan (2) pengklasifikasian keanggotaan gerombol.
TINJAUAN PUSTAKA

Desa/Kelurahan Tertinggal
RUU PDT (Rancangan Undang-Undang Pembangunan Daerah Tertinggal)
dalam Bab I Pasal 1 Nomor 2 menjelaskan bahwa desa tertinggal adalah desa
yang berdasarkan kriteria ditetapkan sebagai desa tertinggal. Beberapa faktor
diduga menjadi penyebab kemajuan atau ketertinggalan suatu desa, yaitu (1)
faktor alam/lingkungan, (2) faktor kelembagaan, (3) faktor sarana, prasarana dan
akses, serta (4) faktor sosial ekonomi penduduk.
Analisis Gerombol
Analisis gerombol adalah analisis statistik peubah ganda yang digunakan
untuk mencari pola dari suatu gugus data dengan mengelompokkan n objek yang
mempunyai p peubah ke dalam k gerombol. Tujuannya adalah untuk menemukan
penggerombolan optimal dimana objek-objek yang berada dalam satu gerombol
adalah mirip sedangkan yang berada dalam gerombol-gerombol yang berbeda
adalah tidak mirip (Rencher 2002), dan penggerombolannya dilakukan
berdasarkan basis kemiripan atau ketakmiripan (Johnsons dan Wichern 2007).
Menurut Hair et al. (2010) terdapat tiga metode dalam analisis gerombol,
yaitu (1) metode berhierarki, (2) metode tak berhierarki dan (3) penggabungan
kedua metode penggerombolan tersebut. Dengan rumitnya masalah yang dihadapi
dalam menggerombolkan gugus data berukuran sangat besar, mendorong
berkembangnya teknik-teknik penggerombolan baru yang prosesnya dilakukan
secara bertahap, salah satunya adalah metode penggerombolan dua tahap.
Metode Berhierarki
Metode penggerombolan berhierarki digunakan jika banyaknya gerombol
yang akan dibentuk belum diketahui sebelumnya. Menurut Garson (2012), metode
ini cocok untuk ukuran data yang relatif kecil, yaitu kurang dari 250.
Metode berhierarki dibedakan menjadi dua, yaitu metode penggabungan dan
metode pemisahan (Hair et al. 2010). Jenis peubah yang dapat digerombolkan
dengan metode berhierarki adalah peubah numerik (rasio dan interval) serta fungsi
jarak yang umum digunakan adalah jarak Euclidean atau jarak Mahalanobis.
Metode Tak Berhierarki
Metode peggerombolan tak berhierarki digunakan jika banyaknya gerombol
yang akan dibentuk sudah diketahui sebelumnya. Contoh dari metode tak

3

berhierarki adalah k-rataan. Garson (2012) mengemukakan bahwa metode krataan cocok digunakan pada data yang berukuran besar, yaitu lebih besar dari 200
serta menggunakan konsep jarak Euclidean sehingga peubah kriteria
penggerombolannya haruslah semuanya berskala rasio atau interval.
Metode Penggerombolan Dua Tahap
Algoritma metode penggerombolan dua tahap dikembangkan oleh Chiu et
al. (2001). Metode penggerombolan dua tahap relatif baru, dan seperti yang
dikemukakan oleh Hair et al. (2010), metode ini dikembangkan untuk menangani
peubah bertipe campuran dari numerik dan kategorik serta untuk data yang
berukuran sangat besar, yaitu lebih besar dari 500.
Fungsi jarak yang digunakan adalah jarak Euclidean atau jarak loglikelihood (Bacher et al. 2004). Jarak Euclidean hanya dapat digunakan apabila
semua peubah yang digunakan bertipe numerik. Dimisalkan ada dua gerombol,
yaitu gerombol j dan s, dan dari p peubah maka jarak Euclidean antara kedua
gerombol dapat didefinisikan sebagai berikut:
d(j,s) = {

=1

2 1 2

� −�

}

Dimana d(j,s) menunjukkan jarak antara gerombol j dengan s, � adalah
nilai tengah gerombol ke-j, � adalah nilai tengah gerombol ke-s, dan p adalah
banyaknya peubah penggerombolan.
Sedangkan jarak log-likelihood digunakan untuk peubah bertipe campuran
dari numerik dan kategorik. Jarak antara gerombol j dan s didefinisikan sebagai
berikut:
d(j,s) = � + � − �( , ) , dimana:
� =−�

=1

� =−

log ⁡
(� 2 +� 2 )
2


=1 �

+

log





=1 �

Selanjutnya, (j,s) adalah indeks gerombol yang dibentuk dari
menggabungkan gerombol j dengan s, � adalah jumlah objek di gerombol j,
adalah jumlah peubah bertipe numerik,
adalah jumlah peubah bertipe
kategorik, � 2 adalah ragam dari peubah numerik ke-k di dalam keseluruhan gugus
data, � 2 adalah ragam dari peubah numerik ke-k di dalam gerombol j,
adalah
jumlah kategori untuk peubah kategorik ke-k, dan � adalah jumlah objek di
dalam gerombol j untuk peubah kategorik ke-k dengan kategori ke-l.
Ukuran jarak log-likelihood didasarkan pada tiga asumsi, yaitu peubah
penggerombolannya saling bebas, peubah kategorik diasumsikan berdistribusi
multinomial, dan peubah numerik diasumsikan berdistribusi normal. Metode
penggerombolan dua tahap cukup kekar (robust) terhadap asumsi kebebasan dan
asumsi distribusi tersebut (Norusis 2010).
Tahap Pertama: Pembentukan Gerombol Awal
Tahap pertama dari penggerombolan dua tahap adalah pembentukan
gerombol awal (pre-clustering) yang menggunakan pendekatan penggerombolan
secara sekuensial (Li dan Sun 2011). Pendekatan ini diimplementasikan dengan
membentuk Pohon Ciri Gerombol (Cluster Feature Tree/ CF Tree) (Zhang et al.
1996).

4

Pohon ciri gerombol terdiri dari beberapa tingkatan cabang (nodes) dan
masing-masing cabang berisikan objek yang dientrikan (entries). Apabila
dimisalkan sebuah pohon maka tingkatan cabang tersebut terdiri dari batang
pohon, dahan dan daun. Pada pohon ciri gerombol, tingkatan daun yang terdapat
pada cabang dinamakan daun entri (Leaf Entry) atau entrain pada cabang daun
yang merepresentasikan hasil akhir anak gerombol atau sub gerombol
(subcluster).
Algoritma pertama pada pohon ciri gerombol adalah memasukkan objek
satu per satu secara acak (SPSS Technical Report 2001). Objek yang masuk
dihitung jaraknya pada daun entri yang telah ada dengan menggunakan ukuran
jarak yang telah ditentukan. Apabila jarak tersebut kurang dari kriteria ukuran
penerimaan (threshold distance) maka objek tersebut masuk ke dalam daun entri
yang telah ada, tetapi jika sebaliknya maka objek membentuk daun entri baru.
Jika suatu cabang daun tidak lagi memiliki ruang untuk menambah daun
entri baru maka cabang daun tersebut akan dipecah menjadi dua. Apabila
dimisalkan pada sebuah pohon, dari satu dahan kemudian membelah menjadi dua
dahan. Berlaku pula untuk cabang dahan membelah menjadi dua grup (pohon).
Proses ini berlanjut sampai semua objek selesai dimasukkan.
Jika pohon ciri gerombol berkembang melewati batas ukuran maksimum
ruang maka pohon ciri gerombol yang telah ada akan dibangun ulang dengan cara
meningkatkan kriteria ukuran penerimaan. Pohon ciri gerombol yang melewati
batas ukuran maksimum biasanya dikarenakan pada saat proses algoritma pohon
ciri gerombol dijalankan, terbentuk daun entri yang beranggotakan pencilan.
Pencilan pada metode penggerombolan dua tahap adalah data yang tidak dapat
dimasukkan ke dalam gerombol manapun sehingga dimasukkan ke dalam satu
gerombol yang baru. Pada saat pohon ciri gerombol akan dibangun ulang maka
akan diperiksa daun entri yang berpotensi sebagai pencilan.
Pencilan diasumsikan menyebar mengikuti sebaran seragam. Ketika
mendeteksi, suatu objek dinyatakan sebagai pencilan atau tidak, dilakukan
perhitungan jarak log-likelihood dari objek yang bersangkutan ke daun entri
terdekat yang bukan merupakan pencilan (closest non noise cluster). Objek yang
diduga sebagai pencilan dimasukkan ke dalam daun entri terdekat yang bukan
merupakan pencilan bilamana jarak log-likelihood lebih kecil dari titik kritis:
C = log (V), dimana
V = ∏� ∏
Selanjutnya, � menunjukkan range dari peubah kontinu ke-k dan
adalah
banyaknya kategori untuk peubah kategori ke-m.
Selain itu, Bacher (2000) dalam Kudsiati (2006) menjelaskan bahwa bila
terjadi tumpang tindih antara dua gerombol yang saling berdekatan akan
memungkinkan terjadinya penduga yang bias bagi profil gerombol. Kelompok
data yang dapat mengakibatkan terjadinya bias dalam penetapan keanggotaan
gerombol disebut sebagai pencilan atau gangguan (noise). Mengatasi hal ini,
Bacher (2004) menyarankan agar pengguna SPSS menentukan nilai opsi
penanganan pencilan, misalnya sebesar 5 (=5%).
Algoritma pohon ciri gerombol yang digunakan sesuai dengan standar
program SPSS, yaitu banyaknya tingkat cabang maksimum (depth) adalah 3 dan

5

banyaknya objek per cabang maksimum adalah 8. Dengan demikian, banyaknya
dahan daun maksimum sebanyak 83 = 512 anak gerombol (Bacher et al. 2004).
Tahap Kedua: Pembentukan Gerombol Optimal
Tahap kedua adalah pembentukan gerombol akhir yang ditandai dengan
terbentuknya gerombol optimal. Daun entri dari pohon ciri gerombol hasil tahap
pertama dan tanpa mengikutsertakan pencilan digerombolkan menggunakan
metode penggerombolan berhierarki penggabungan (Norusis 2010), yaitu dimulai
dengan mengasumsikan bahwa setiap objek merupakan satu gerombol, dan
selanjutnya secara bertahap dilakukan penggabungan pada objek-objek yang
paling dekat (Hair et al. 2010).
Pada tahap kedua ini, penentuan jumlah gerombol optimal ditentukan secara
otomatis dengan melalui dua langkah (Li dan Sun 2011). Langkah pertama adalah
menghitung nilai Kriteria Informasi Bayes/Akaike (Bayesian/Akaike Information
Criterion/ BIC/AIC) untuk setiap gerombol. Kriteria informasi BIC dan AIC untuk
j buah gerombol dirumuskan sebagai berikut:
= −2
= −2
=J 2

+

=1 �

=1 �

−1

=1

+
+2

log �

, dimana:

dan N adalah jumlah total data.

Kontribusi dari masing-masing peubah dalam pembentukan setiap gerombol
dilakukan melalui uji t-Student untuk peubah numerik dan uji khi-kuadrat untuk
peubah kategorik (Schiopu 2010).
=

� −�

�2 =

=1

/�







−1

1 2

2

Dimana � adalah estimasi rataan dari peubah numerik ke-k di dalam
keseluruhan gugus data, dan � adalah estimasi rataan dari peubah numerik ke-k
di dalam gerombol j. Hipotesis nol ( 0 ) menyatakan bahwa peubah tidak
berpengaruh pada pembentukan gerombol. � adalah jumlah objek di dalam
keseluruhan gugus data untuk peubah kategorik ke-k dengan kategori ke-l. Derajat
bebas uji t-Student adalah � dan uji khi-kuadrat adalah
dengan kasus dua arah.
Di dalam Bacher et al. (2004), Chiu et al. (2001) mengemukakan
atau
menghasilkan penduga awal yang baik bagi banyaknya gerombol
maksimum. Banyaknya gerombol maksimum ditentukan sama dengan banyaknya
gerombol yang memiliki rasio perubahan BIC (Ratio of BIC Change)
/
yang pertama kali lebih kecil dari 1 (SPSS menetapkan 1 = 0.04 yang
didasarkan atas studi simulasi) (SPSS Technical Report 2001).
Selanjutnya dalam langkah kedua, digunakan nilai rasio ukuran jarak (Ratio
of Distance Measure) untuk j buah gerombol, yaitu R(j) = −1 / . Dimana −1
adalah jarak jika j buah gerombol digabungkan menjadi j-1 gerombol. Jarak
dapat diperoleh dari hasil perhitungan = −1 − , dimana:


=(�
= (2 � −





� ) 2 atau
� ) 2, untuk v = j, j − 1

6

Banyaknya gerombol diperoleh berdasarkan ketentuan ditemukannya
perbedaan yang nyata pada rasio perubahan gerombol. Rasio ukuran jarak untuk
dua nilai terbesar dari R(j) (j = 1,2,…,
�;
� didapatkan dari langkah
pertama) dihitung dengan �( 1 )/�( 2 ).
Jika rasio perubahan lebih besar daripada nilai batas 2 (SPSS menetapkan
nilai 2 = 1.15 berdasarkan studi simulasi), banyaknya gerombol ditetapkan sama
dengan 1 , selainnya banyak gerombol sama dengan maksimum  1 , 2 .
METODOLOGI

Data
Data yang digunakan dalam penelitian ini adalah data simulasi dan data riil.
Data simulasi didapatkan melalui pembangkitan data dengan menggunakan
perangkat lunak statistika, sedangkan data riil didapatkan dari data Podes tahun
2011 khususnya pada peubah-peubah yang menjadi kriteria kemajuan atau
ketertinggalan suatu desa. Peubah-peubah tersebut dapat dilihat pada Lampiran 1.
Data Podes 2011 terdiri atas 77961 objek desa/kelurahan di Indonesia.
Data simulasi yang dibangkitkan merupakan data dengan kasus khusus.
Data bangkitan berasal dari data yang menyebar Normal (i , � 2 = 1) yang
kemudian disebut sebagai data populasi dengan i = gerombol 1, 2, dan 3. Data
populasi ini beranggotakan 3 gerombol yang saling tumpang tindih satu sama lain
(overlap) atau tidak terpisah secara tegas. Peubah yang dibangkitkan merupakan
peubah campuran numerik dan kategorik dengan asumsi saling bebas, model
komposisi peubahnya disajikan pada Tabel 1.

Peubah
V1
V2

Tabel 1 Kriteria 2 model peubah campuran
Kriteria
Peubah campuran dengan sebagian besar bertipe numerik (10)
dan sisanya kategorik (3)
Peubah campuran dengan sebagian besar bertipe kategorik (10)
dan sisanya numerik (3)

Setiap peubah numerik pada gerombol 1 dibangkitkan dari sebaran yang
sama, yaitu menyebar Normal (1 ,1), begitu pula untuk setiap peubah numerik
pada gerombol 2 dibangkitkan dari sebaran yang sama, yaitu menyebar Normal
(2 ,1) dan setiap peubah numerik pada gerombol 3 dibangkitkan dari sebaran
yang sama pula, yaitu menyebar Normal (3 ,1).
Data populasi ini diberikan pencilan dengan pencilan ditempatkan secara
sistematik dengan pembagian yang sama pada setiap peubah numerik serta pada
objek yang sama. Banyaknya pencilan data yang dibangkitkan terdiri atas 0%,
1%, 5%, dan 15% dari keseluruhan data bangkitan. Ukuran data (N) yang
dibangkitkan terdiri atas 100, 500, dan 1000 data bangkitan. Kombinasi data
simulasi pada penelitian ini dapat dilihat pada Tabel 2.
Rancangan faktorial lengkap digunakan untuk mengkombinasikan berbagai
kemungkinan dari setiap faktor yang dievaluasi, yaitu terdapat 24 (1x2x3x4)

7

kombinasi data. Setiap kombinasi akan diulang sebanyak 30 kali sehingga
diperlukan data bangkitan untuk dianalisis sebanyak 720 gugus data.
Tabel 2 Kombinasi data simulasi
Model peubah campuran
Ukuran data Pencilan data (%)
100
0, 1, 5, 15
V1
500
0, 1, 5, 15
1000
0, 1, 5, 15
100
0, 1, 5, 15
V2
500
0, 1, 5, 15
1000
0, 1, 5, 15
Metode Penelitian
Metode Pembangkitan Data
Metode pembangitan data yang ditampilkan adalah untuk model peubah
campuran V1, ukuran data sebesar 500 dan banyaknya pencilan sebesar 5%.
1. Menetapkan parameter 1 , 2 , 3 , 1 , 2 dan 3 dimana 1 = −6, 2 = 0, 3 =
6, 1 = −70, 2 = 70, 3 = 90 dan ragam � 2 = 1.
2. Membangkitkan
× 1 ~N(1 ,1),
× 2 ~N(2 ,1) dan
× 3 ~N(3 ,1) untuk
data peubah numerik gerombol 1, gerombol 2 dan gerombol 3 dengan n1 =
30% × N, n2 = 35% × N, n3 = 35% × N, N = 475 dan p atau jumlah peubah
= 10. Setiap peubah (�1 ,…,�10 ) dari gerombol 1 memiliki sebaran yang sama,
yaitu N(μ1,1), begitu pula untuk setiap peubah (�1 ,…,�10 ) dari gerombol 2
Tabel 3 Pembangkitan ukuran data gerombol dan proporsi pencilan
N=100
N=500
N=1000
n1 =30,
n1 =150,
n1 =300,
n2 =35,
n2 =175,
n2 =350,
Pencilan
Kelompok
n3 =35
n3 =175
n3 =350
n
n*
n
n*
n
n*
1
30
0
150
0 300
0
0%
2
35
0
175
0 350
0
3
35
0
175
0 350
0
1
30
0
148
2 297
3
1%
2
35
0
173
2 346
4
3
35
0
173
2 346
4
1
28
2
142
8 285 15
5%
2
33
2
166
9 332 18
3
33
2
166
9 332 18
1
25
5
127 23 255 45
15%
2
30
5
149 26 297 53
3
30
5
149 26 297 53
n1 = 30% × N, n2 = 35% × N, n3 = 35% × N; n: jumlah amatan,
n*: jumlah amatan pencilan.

8

3.

4.

memiliki sebaran yang sama, yaitu N(μ2,1) dan setiap peubah (�1 ,…,�10 ) dari
gerombol 3 memiliki sebaran yang sama pula, yaitu N(μ3,1). Lalu
menggabungkan data peubah yang sama dari setiap gerombol menjadi satu
gugus data peubah tersebut. Lebih jelasnya dapat dilihat pada Tabel 3.
Membangkitkan × 1 ~N(1 ,1), × 2 ~N(2 ,1) dan × 3 ~N(3 ,1) sebagai
sumber data peubah kategorik gerombol 1, gerombol 2 dan gerombol 3
dengan n1 = 30% × N, n2 = 35% × N, n3 = 35% × N, N = 500 dan p = 3
seperti pada Tabel 3.
Mentrasformasi data Y yang diperoleh dari langkah 3 menjadi data bertipe
kategorik seperti ditunjukkan pada Tabel 4. Cara ini hanyalah salah satu cara
metode membuat data peubah kategorik.

Peubah
Kategori
11

12

13

5.

Tabel 4 Kriteria nilai transformasi untuk peubah kategorik
Kriteria nilai transformasi peubah Y keJumlah
Nilai
Kategori
Kategori
1
2
3
1
x > -6
x>0
x>6
2 Kategori
2
x ≤ -6
x≤0
x≤6
1
x > -4
x>2
x>8
2
-8 < x ≤ -4
-2 < x ≤ 2
4 -4
x>2
x>8
2
-6 < x ≤ -4
0