dilakukan untuk mempermudah dalam menganalisa data berukuran besar.
Metode penggerombolan yang dilakukan dengan dua tahapan diantaranya adalah :
1. Analisis gerombol Hibrid Hybrid
Clustering
Metode Hibrid merupakan penggabungan dari metode gerombol berhirarki dengan tak
ber hirarki. Tahap pertama yaitu menggerombolkan objek-objek ke dalam k
gerombol menggunakan metode K-means . Kedua, menggerombolkan gerombol yang
diperoleh pada tahapan pertama dengan menggunakan metode pautan tunggal single-
linkage sebagai ukuran jarak antar gerombol, dan jarak Euclidean sebagai ukuran jarak antar
obyeknya. Metode ini dapat digunakan pada data dengan jumlah amatan yang besar dan
jumlah gerombol yang diinginkan tidak diketahui. Pada metode ini, peubah yang
digunakan bertipe numerik.
2. BIRCH Balanced Iterative Reducing and
Clustering using Hierarchies
BIRCH merupakan salah satu penerapan dari metode gerombol berhirarki untuk peubah
yang berskala pengukuran interval dan rasio. Teknik yang dilakukan pada tahap awal sama
dengan yang dilakukan metode Two Step Cluster pada tahap pertama, yaitu
pembentukkan CF Tree. Tahapan selanjutnya adalah pengambilan contoh secara acak dari
data tersebut. Jarak antar gerombol yang dapat digunakan pada metode ini adalah jarak
Euclidean dan jarak Manhattan.
3. Analisis gerombol dua langkah Two Step
Cluster Analysis
Metode ini dapat mengatasi masalah skala pengukuran yang tidak sama, dalam hal ini
bertipe kontinu dan kategorik, serta memiliki jumlah objek amatan relatif besar. Metode ini
masih memiliki kelemahan yaitu sensitif terhadap data yang berupa urutan atau
tingkatan, sehingga masih tidak mampu dalam menangani data ordinal. Apabila terdapat
peubah yang bertipe ordinal, maka sebelum dianalisis peubah tersebut harus
ditransformasi terlebih dahulu.
Jarak antara dua gerombol didefinisikan sebagai jarak antar pusat dari masing-masing
gerombol tersebut. Pusat dari suatu gerombol adalah vektor dari rataan masing-masing
peubahnya. Jarak yang digunakan dalam metode Two Step Cluster adalah jarak Log-
Likelihood dan jarak Euclidean.
Prosedur penggerombolan objek dalam metode Two Step Cluster dilakukan melalui
dua tahapan SPSS, 2004; Bacher et al., 2004, yaitu tahap pembentukan gerombol
awal dan tahap pembentukan gerombol optimal.
• Tahap 1 : Pembentukan gerombol awal
Tahapan ini bertujuan untuk meminimalisasi jumlah amatan yang relatif
besar. Yang dilakukan pada tahapan ini adalah pembentukan Cluster Feature CF Tree . CF
Tree terdiri dari beberapa Cluster Feature CF. Pada CF Tree, data diamati satu persatu
secara random. Berdasarkan kriteria jarak, data tersebut ditentukan apakah digabungkan
dengan gerombol sebelumny a atau membentuk gerombol baru.
Pencilan merupakan data yang tidak sesuai apabila dimasukkan kedalam gerombol yang
tersedia. Setelah dibentuk CF-tree, diperiksa kembali apakah pencilan dapat dimasukkan ke
dalam gerombol yang sudah ada tanpa harus membuat CF baru.
Setelah itu gerombol yang ada diamati dan dilakukan perhitungan jarak log-likelihood
untuk gerombol yang terdapat pencilan dan gerombol tanpa pencilan. Gerombol yang
memiliki jarak terbesar dikatakan memiliki pencilan jika jarak antara gerombol tersebut
lebih besar dari titik kritis C, dengan rumusnya sebagai berikut :
C=logV
dimana :
m m
k k
L R
V ∏
∏ =
k
R
= range dari peubah kontinu ke-k
m
L
= jumlah kategori untuk peubah kategori ke-m
Pada jarak Euclidean, data yang memuat pencilan memiliki prosedur yang sama dengan
jarak Log-Likelihood. Dikatakan pencilan jika jarak Euclidean terbesar antara gerombol
tersebut lebih besar dari titik kritis C, dengan rumus C sebagai berikut :
2 1
1 2
ˆ 2
=
∑
=
A
K i
A kl
K C
σ
dimana :
k
R
= range dari peubah kontinu ke-k
A
K
= jumlah total peubah kontinu
2
ˆ
kl
σ
= ragam dugaan untuk peubah kontinu ke-
l
dalam gerombol k. Pembentukan CF Tree terdiri dari dua
tahapan. Tahap pertama yaitu tahap
penyisipan inserting dan tahapan yang kedua adalah tahap pembentukan kembali
rebuilding. Pada tahap inserting, secara random
dipilih satu objek lalu diukur jaraknya dengan objek yang lain. Jika jarak tersebut kurang
dari jarak maksimum, maka objek tersebut dimasukkan ke dalam satu gerombol. Tetapi
jika jarak tersebut melebihi jarak maksimum, maka objek tersebut dianggap pencilan dan
begitu seterusnya untuk objek selanjutnya.
Dari pencilan tersebut akan dibuat suatu gerombol yang baru. Tahap ini merupakan
tahap rebuilding. Batas jarak maksimum harus ditingkatkan sehingga dapat memasukkan
lebih banyak objek. Peningkatan jarak ini dapat mengakibatkan objek-objek yang
tadinya berasal dari gerombol yang berbeda bergabung menjadi satu gerombol CF,
sehingga menghasilkan
CF Tree yang berukuran lebih kecil dari semula.
• Tahap 2 : Pembentukan gerombol optimal
Suatu gerombol dikatakan optimal apabila memiliki jarak antar gerombolnya paling jauh
dan jarak antar objek dalam gerombol tersebut paling dekat. Semakin dekat jarak antar objek
maka semakin besar kemiripan antar obyek dalam satu gerombol. Pada tahapan ini, hasil
dari tahap pertama yaitu Cluster Feature CF digerombolkan menggunakan analisis
gerombol berhirarki dengan metode penggabu ngan.
Dalam penentuan jumlah gerombol optimal, ada dua langkah yang harus
dilakukan. Langkah yang pertama yaitu menghitung BIC Bayesian Information
Criterion atau AIC Akaike’s Information Criterion untuk tiap -tiap gerombol.
Kemudian hasil perhitungan
tersebut digunakan untuk menduga jumlah gerombol.
Langkah yang kedua yaitu mencari peningkatan jarak terbesar antara dua
gerombol terdekat pada masing-masing tahapan penggerombolan.
Rumus BIC dan AIC untuk Gerombol j adalah sebagai berikut :
BIC J =
-2
∑
=
+
J j
j j
N m
1
log ξ
AIC J =
-2
∑
=
+
J j
j j
m
1
ξ
dimana :
− +
=
∑
=
B
K k
K A
j
L K
J m
1
1 2
A
K
= jumlah total peubah kontinu B
K
= jumlah total peubah kategorik
K
L
= jumlah kategori untuk peubah kategorik ke-k
N
= jumlah total data Solusi gerombol yang terbaik memiliki
BIC terkecil, tetapi ada beberapa kasus dalam penggerombolan dimana BIC akan terus
menurun nilainya bila jumlah gerombol semakin meningkat. Maka dalam situasi
tersebut, ratio BIC Changes rasio perubahan BICdan ratio of Distance Measure Changes
rasio perubahan jarak mengidentifikasi solusi gerombol terbaik. Solusi akan memiliki
rasio BIC changes dan rasio distance measure yg besar.
Jumlah gerombol yang terbentuk dapat diketahui dengan menggunakan perbandingan
antar jarak untuk k gerombol, dengan rumus perbandingannya sebagai berikut :
Rk = d
k-1
d
k
d
k
= l
k-1
- l
k
dimana :
l
v
= r
v
log n - BIC
v
2
atau
l
v
= 2r
v
- AIC
v
2 v = k, k-1
d
k-1
=
jarak jika k gerombol digabungkan dengan k-1 gerombol
Gambar 1. Tahapan Proses Two Step Cluster
Ukuran Jarak
Ukuran kemiripan dan ketakmiripan yang digunakan dalam analisis gerombol adalah
jarak antar objek dan jarak antar gerombol. Fungsi jarak yang sering digunakan
diantaranya : 1. Jarak Euclidean
Jarak Euclidean paling sering digunakan hampir di berbagai metode analisis gerombol,
Tahap1: Pembentukan gerombol awal Tahap2: Pembentukan gerombol optimal
Data
Gerombol optimal
tetapi hanya dapat digunakan apabila semua peubah yang digunakan adal ah kontinu.
Jarak Euclidean antara gerombol ke-i dan gerombol ke-j dari p peubah didefinisikan :
dimana : di,j = jarak antara objek i ke objek j
= nilai tengah pada gerombol ke-i = nilai tengah pada gerombol ke-j
p = banyaknya peubah yang
diamati 2. Jarak Manhattan
Ukuran jarak ini dapat dikatakan sebagai bentuk yang lebih bersifat umum dari jarak
Euclidean. Fungsi jaraknya adalah sebagai berikut :
dimana : di,j = jarak antara objek i ke objek j
= nilai tengah pada gerombol ke-i = nilai tengah pada gerombol ke-j
p = banyaknya peubah yang diamati
Jika dipilih k=2, mak a akan menghasilkan jarak Euclidean.
3. Jarak Mahalanobis
Jarak Mahalanobis sangat berguna dalam menghilangkan atau mengurangi perbedaan
skala pada masing-masing komponen. Pada permasalahan tertentu, pada saat menentukan
jarak, perlu juga dipertimbangkan ragam dan peragam. Jarak Mahalanobis didefinisikan
sebagai berikut :
dimana : di,j = jarak antara objek i ke objek j
= nilai tengah pada gerombol ke-i = nilai tengah pada gerombol ke-j
S
-1
= matriks ragam-peragam gabungan antara
dan .
4. Jarak Log-Likelihood Jarak Log-Likelihood dapat digunakan
untuk peubah kontinu maupun kategorik. Jarak antara gerombol j dan s didefinisikan
sebagai berikut:
− +
=
s j
s j
s j
d
,
, ξ
ξ ξ
dimana:
+ +
− =
∑ ∑
= =
A B
K k
K k
jk jk
k j
E N
1 1
2 2
ˆ ˆ
ˆ log
2 1
σ σ
ξ
∑
=
− =
k
L l
j jkl
j jkl
jk
N N
N N
E
1
log ˆ
N... = jumlah total data.
jkl
N
= jumlah data di gerombol j untuk peubah kategorik ke-k den gan
kategori ke-l
2
ˆ
jk
σ
= ragam dugaan untuk peubah kontinu ke-k dalam gerombol j.
A
K
= jumlah total peubah kontinu B
K
= jumlah total peubah kategorik
m
L
= jumlah kat egori untuk kategori ke-k
dj,s
= jarak antara gerombol j dan s .
j,s
= indeks kombinasi gerombol j dan s.
BAHAN DAN METODE
Data yang digunakan sebagai studi kasus dalam metode penggerombolan ini adalah
data Podes Sensus Ekonomi tahun 2003 untuk wilayah Jawa Barat. Data populasi tersebut
digunakan karena dianggap jumlah amatannya cukup besar, dan terdiri dari peubah-peubah
yang bertipe campuran.
Satuan pengamatan adalah populasi desakelurahan dengan jumlah amatan
sebanyak 5758 desa. Data tersebut t erdiri atas peubah-peubah yang bertipe campuran
kategorik dan kontinu. Peubah-peubah yang digunakan yaitu mengenai profil tentang desa
atau kelurahan, kependudukan, ekonomi, komunikasi dan informasi dan penggunaan
lahan. Keterangan selanjutnya dapat dilihat pada Tabel 1.
Tabel 1 Peubah-peubah yang digunakan dalam analisis gerombol
Peubah Keterangan satuan
X
1
desa 0:Pedesaan, 1:Perkotaan X
2
Lokasi 0:Non Pesisir, 1:Pesisir X
3
Keterpencilan 0:Non Terpencil, 1:Terpencil
X
4
Jumlah penduduk X
5
Jumlah rumah tangga
j
X
i
X
j
X
i
X
[ ]
2 1
1
,
j i
j i
X X
S X
X j
i d
− −
=
− j
X
i
X
k p
i k
j i
X X
j i
d
1 1
,
−
=
∑
=
j
X
i
X
2 1
1 2
,
−
=
∑
= p
i j
i
X X
j i
d
X
6
Jumlah industri kecil X
7
Jumlah industri kerajinan dan pengolahan
X
8
Jarak desa-kecamatan km X
9
Jarak desa-kota terdekat km X
10
Persentase rumah tangga pertanian
X
11
Persentase RT sejahtera I dan prasejahtera
X
12
Persentase RT pengguna listrik X
13
Persentase penduduk menganggur
X
14
Persentase rumah tangga yang memiliki TV
X
15
Persentase rumah tangga yang berlangganan telepon
X
16
Pendapatan Asli Desa Rp X
17
Pengeluaran Anggaran Rutin Rp
X
18
Luas lahan sawah ha X
19
Luas ladangtegalanhuma ha X
20
Luas perkebunan ha X
21
Luas hutan rakyat ha Dalam hal ini, status keterpencilan dilihat
dari jarak desa tersebut terhadap lokasi sarana dan prasarana umum, selain itu juga akses
kendaraan beroda empat menuju ke sarana dan prasarana umum tersebut. Jarak desa dengan
kota terdekat diukur dari panjang jalan yang menghubungkan antara desa dengan
kecamatan atau kota terdekatnya dalam satuan kilometer.
Dari data tersebut, dilakukan analisis gerombol menggunakan metode Two Step
Cluster . Perangkat lunak yang digunakan adalah SPSS 13 for Windows dan Ms Excel.
Beberapa tahapan yang dilakukan adalah : •
Pengkat egorian peubah berdasarkan skala pengukurannya .
• Standarisasi peubah kontinu.
• An alisis Two Step Cluster.
D ari hasil gerombol-gerombol yang terbentuk diamati karakteristiknya masing-
masing. •
Dilakukan uji Chi-Square untuk peubah kategorik dan uji t-Student untuk peubah
kontinu. Uji ini dilakukan untuk mengetahui
karakteristik penting pada masing-masing gerombol. Yang digunakan pada uji Chi-
Square adalah proporsi individuobjek antar kategorik dalam satu gerombol. Sedangkan
pada uji t-Student adalah rataan dari karakteristik didalam gerombol terhadap
rataan umum. •
Tahap verifikasi Kabupaten Bogor pada masing-masing gerombolnya, dengan cara
mengunjungi kantor kelurahan daerah tersebut.
HASIL DAN PEMBAHASAN
Deskripsi Data
Di wilayah Jawa Barat, total desa yang berstatus pedesaan sebanyak 3932 dan desa
yang berstatus perkotaan sebanyak 1826. Desakelurahan yang berada di Jawa Barat
berlokasi di daerah non pesisir sebanyak 5539 dan yang berada di daerah pesisir sebanyak
219. Total desakelurahan yang termasuk non terpencil sebanyak 5724 dan yang termasuk
terpencil hanya sebanyak 34 desa.
Tabel 2 memperlihatkan jumlah desakelurahan berdasarkan peubah kategorik,
yaitu status desa X
1
, lokasi X
2
dan keterpencilan X
3
. Tabel 2. Jumlah desakelurahan berdasarkan
peubah kategorik X
1,
X
2,
X
3
X
1
X
2
X
3
pedesaan perkotaan
Total non
pesisir non
terpencil 3728
1781 5509
terpencil 30
30 3758
1781 5539
pesisir non
terpencil 170
45 215
terpencil 4
4 174
45 219
Total 3932
1826 5758
Lampiran 1 menampilkan tabulasi rataan dari peubah X
4
sampai X
21
berdasarkan peubah X
1
, X
2
dan X
3
. Dapat dilihat, peubah- peubah yang menonjol untuk daerah
perkotaan adalah jumlah penduduk, jumlah rumah tangga, persentase pengguna listrik,
persentase penduduk menganggur, persentase rumah tangga yang memiliki televisi,
persentase rumah tangga yang berlangganan telepon, pendapatan asli desa dan pengeluaran
anggaran rutin. Peubah yang menonjol untuk pedesaan adalah jumlah industri, persentase
rumah tangga pertanian, persentase rumah tangga sejahtera I dan prasejahtera, serta luas
lahan sawah, luas ladang, luas perkebunan dan luas hutan. Berdasarkan lokasi, peubah-
peubah yang terlihat menonjol untuk daerah pesisir adalah persentase rumah tangga
sejahtera I dan prasejahtera, pendapatan asli
desa dan pengeluaran anggaran rutin, luas lahan sawah, luas ladang, luas perkebunan dan
luas hutan. Sedangkan peubah yang terlihat menonjol pada daerah non pesisir adalah
jumlah penduduk, jumlah industri, persentase rumah tangga pengguna listrik, persentase
rumah tangga yang memiliki televisi, dan persentase rumah tangga yang berlangganan
telepon . Dari hasil tabulasi dengan peubah X
3,
peubah-peubah yang menonjol untuk daerah terpencil adalah persentase rumah tangga
pertanian, persentase rumah tangga sejahtera I dan prasejahtera, pendapatan asli desa, luas
lahan sawah, luas ladang, luas perkebunan dan luas hutan. Pada daerah non terpencil, peubah
yang menonjol adalah jumlah penduduk, jumlah rumah tangga, jumlah industri,
persentase rumah tangga pengguna listrik, persentase penduduk menganggur, persentase
rumah tangga yang memiliki televisi, persentase rumah tangga yang berlangganan
telepon dan pengeluaran anggaran rutin.
Berdasarkan hasil ini, maka dilakukan identifikasi lebih lanjut mengenai gerombol-
gerombol yang terbentuk dari karakteristik tersebut.
Penggerombolan DesaKelurahan dengan Metode
Two Step Cluster
Sebelum dilakukan penggerombolan, peubah yang bertipe kontinu perlu dilakukan
standarisasi dari data awal ke bentuk baku Z untuk mengurangi keragaman yang
disebabkan oleh satuan pengukuran yang tidak sama. Pada kasus ini, ada 18 peubah yang
distandarisasi. Peubah-peubah tersebut adalah X
4
, X
5
, X
6
, X
7
, X
8
, X
9
, X
10
, X
1 1
, X
1 2
, X
13
, X
14
, X
15
, X
16
, X
1 7
, X
18
, X
19
, X
20
, X
21
. Ukuran jarak yang digunakan adalah jarak
Log Likelihood, karena data yang digunakan bertipe kategorik dan kontinu. Dalam
penentuan jumlah gerombol, yang digunakan adalah perhitungan BIC. Hal ini ditentukan
secara subjektif, karena perhitungan BIC dan AIC memberikan hasil tidak terlalu berbeda.
Kriteria gerombol di lihat dari masing- masing BIC yang didapat. Semakin kecil nilai
BIC maka semakin bagus. Gerombol yang dihasilkan pada tahap pertama sebanyak 8
gerombol. Hal ini dilihat dari rasio BIC
k
BIC
l
pada gerombol 8, yaitu sebesar 0.04, bernilai sama dengan konstanta c
1
c
1
=0.04, didapat dari simulasi penelitian yang dilakukan oleh
Tatara et al. , penulis dari SPSS Two Step Clustering pada tahun 2004. Jumlah
gerombol didapat dari solusi yang memiliki ratio change
terbesar. Ratio change
merupakan perbandingan antara dua Rk yang terbesar. Dari simulasi penelitian yang
dilakukan sebelumnya, yang juga dilakukan oleh Tatara et al. didapat suatu batas c
2
= 1.15. Jadi, jika hasil perbandingannya lebih
besar dari batas c
2
, maka jumlah gerombol tersebut merupakan solusi akhir.
Pada Lampiran 2, dua nilai Rk terbesar adalah
untuk tiga gerombol Rk = 2.446 dan lima gerombol Rk = 1.938. Rasio antara kedua
nilai tersebut adalah 1.262 dan lebih besar dari batas nilai konstanta 1.15. Oleh karena
itu, dalam kasus ini tiga gerombol merupakan solusi optimal.
Distribusi anggota dari masing-masing gerombol yang terbentuk untuk lebih jelasnya
dapat dilihat pada Tabel 3. Dari 5758 desakelurahan yang berada di Jawa Barat,
sebanyak 185 berasal dari gerombol 1, 3820 dari gerombol 2, dan 1753 berasal dari
gerombol 3.
Tabel 3. Distribusi Hasil Penggerombolan DesaKelurahan
Distribusi Gerombol
N Total
Gerombol 1
185 3.2
2 3820
66.3 3
1753 30.4
Total 5758
100.0
Karakteristik Gerombol DesaKelurahan
Berdasarkan hasil -hasil gerombol yang didapat, gerombol satu tidak dapat dikatakan
sebagai suatu gerombol, karena anggota- anggota didalamnya merupakan objek-objek
yang memencil ekstrim dan tidak dapat dimasukkan ke dalam gerombol lainnya.
Anggota dari gerombol ini hanya sebanyak 3.2 dari keseluruhan populasi. Selanjutnya
gerombol ini disebut gerombol desakelurahan ekstrim, sedangkan gerombol lainnya disebut
gerombol desakelurahan non ekstrim.
Gerombol ekstrim adalah gerombol yang anggota-anggotanya merupakan objek-objek
yang memencil ekstrim dan tidak dapat dimasukkan ke dalam gerombol lainnya.
Sedangkan gerombol non ekstrim adalah gerombol yang anggota-anggotanya memiliki
kemiripan karakteristik Gerombol desakelurahan ekstrim
Gerombol yang termasuk ke dalam gerombol desakelurahan ekstrim adalah
gerombol satu. Pada Lampiran 3, dilihat dari
status desa, desakelurahan ekstrim yang berstatus pedesaan sebanyak 3.5 dan yang
berstatus perkotaan sebanyak 2.6 . Berdasarkan lokasi, yang berasal dari daerah
non pesisir sebanyak 3.2 dan dari daerah pesisir sebanyak 4.1 . Dari status
keterpencilan, terdapat sebanyak 3,2 yang berasal dari daerah non terpencil dan 2.9
berasal dari daerah terpencil. Desakelurahan yang termasuk desa terpencil adalah desa
Sedari di kabupaten Karawang.
Pada Lampiran 5 dan 6, dapat dilihat selang kepentingan dari peubah kategorik dan
kontinu untuk masing-masing gerombol. Peubah kategorik menggunakan uji Chi-
Square dan peubah kontinu menggunakan uji t-Student sebagai statistik uji. Garis lurus
vertikal merupakan nilai kritis untuk tiap peubah. Apabila terdapat peubah-peubah yang
memiliki statistik uji lebih besar dari nilai kritis, maka dapat disimpulkan bahwa peubah -
peubah itu berpengaruh pada pembentukan gerombol tersebut.
Pada desakelurahan yang memiliki karakteristik ekstrim, semua peubah kategorik
tidak signifikan, karena anggotanya memiliki karakteristik yang berbeda-beda. Sehingga
dapat disimpulkan bahwa dalam pembentukan gerombol satu tidak berdasarkan pada peubah -
peubah kategorik yang digunakan. Sedangkan untuk peubah kontinu, yang memiliki statistik
uji lebih besar dari titik kritis hanya peubah X
6
, X
7
, X
11
, X
16
, X
17
. Sebagai ilustrasi, desakelurahan yang
ekstrim di bidang industri adalah desa Dramaga di Kabupaten Bogor Kecamatan
Dramaga. Desa ini memiliki tingkat industri yang jauh lebih maju bila dibandingkan desa
lainnya.
Gerombol desakelurahan non ekstrim
Gerombol dua dan gerombol tiga termasuk ke dalam gerombol desakelurahan non
ekstrim. Pada Lampiran 3, berdasarkan status desa, sebagian besar gerombol dua berstatus
pedesaan, yait u sebesar 96.5 . Desa yang berada di gerombol tiga sebanyak 95.9
berstatus perkotaan. Pada gerombol tiga, desa yang berstatus pedesaan hanya sebanyak satu
desa, yaitu desa Wadas Kabupaten Karawang.
Desakelurahan di wilayah Jawa Barat mayoritas berloka si di daerah non pesisir,
pada gerombol dua sebanyak 65.5 berlokasi di daerah non pesisir dan 87.7 anggotanya
berada di daerah pesisir. Pada gerombol tiga, sebanyak 31.3 berlokasi di daerah non
pesisir dan hanya 8.2 anggotanya berada di daerah pesisir.
Berdasarkan status keterpencilan, sebanyak 66.2 desakelurahan yang
termasuk pada gerombol dua merupakan daerah non terpencil. Pada gerombol tiga,
seluruh anggotanya merupakan daerah non terpencil.
Karakteristik peubah-peubah kontinu untuk tiap gerombol yang terbentuk dapat
dilihat pada Lampiran 4. Desakelurahan yang merupakan gerombol tiga memiliki jarak yang
paling dekat dengan kecamatan dan kota terdekat
dibanding gerombol lainnya. Gerombol dua memiliki persentase rumah
tangga pertanian serta persentase rumah tangga sejahtera I dan prasejahtera terbanyak,
tetapi memiliki persentase terkecil untuk rumah tangga yang menggunakan listrik,
televisi dan berlangganan telepon. Tingkat penduduk yang menganggur paling tinggi
berada di gerombol tiga. Gerombol dua mempunyai pendapatan asli daerah dan
pengeluaran anggaran terendah. Desakelurahan yang merupakan gerombol
tiga memiliki luas lahan sawah, ladang, perkebunan dan hutan yang paling kecil. Hal
ini disebabkan oleh anggota gerombol tiga yang mayoritas
berstatus perkotaan. Gerombol dua memiliki jumlah industri yang
paling sedikit. Berdasarkan pada Lampiran 5, peubah
kategorik yang berpengaruh pada pembentukan gerombol dua dan gerombol
tiga adalah status desa. Peubah lokasi dan keterpencilan memiliki nilai statistik uji yang
kurang dari nilai kritis. Hal ini menyebabkan hasil gerombol dua dan gerombol tiga
cenderung terpisah menurut status desa. Desa yang merupakan anggota gerombol dua
mayoritas berstatus pedesaan dan gerombol tiga mayoritas berstatus perkotaan.
Pada Lampiran 6, peubah kontinu yang tidak berpengaruh pada pembentukan
gerombol dua adalah luas perkebunan, luas hutan rakyat dan persentase penduduk
menganggur. Pada gerombol tiga, peubah kontinu yang tidak berpengaruh adalah
persentase penduduk menganggur, pengeluaran anggaran rutin dan pendapatan
asli desa.
Verifikasi Gerombol DesaKelurahan di Wilayah Kabupaten Bogor
Tahapan verifikasi dilakukan untuk memastikan bahwa desakelurahan yang
berada pada masing-masing gerombol yang
terbentuk memang memiliki karakteristik gerombol tersebut. Pada tahapan ini, diamati
kecamatan Dramaga yang berada di wilayah kabupaten Bogor yang memiliki 10 desa,
dengan 1 desa berada pada gerombol pertama, 5 desa pada gerombol kedua dan 4 desa di
gerombol ketiga. Pemilihan kecamatan ini ditentukan secara subjektif .
Lampiran 7 menampilkan profil desa yang berada di Kecamatan dramaga. Desa Dramaga
yang berstatus perkotaan merupakan anggota gerombol satu. Desa ini termasuk desa yang
memiliki tingkat industri yang berkembang. Industri yang berkembang pada desa ini
adalah industri kerajinan, industri pakaian, industri rumah tangga, industri bahan
bangunan, industri alat pertanian dan perdagangan. Tingkat perkembangan industri
desa Dramaga jauh lebih tinggi dibanding desa lainnya. Ini merupakan faktor yang
menyebabkan desa tersebut masuk ke gerombol ini.
Desa yang tergabung pada gerombol dua berada jauh dari kecamatan dan kota terdekat
dan berstatus pedesaan. Desa di gerombol ini memiliki luas lahan sawah yang luas,
sehingga dapat ditingkatkan potensinya dengan pemanfaatan lahan tersebut.
Desakelurahan tersebut memiliki kelemahan di bidang komunikasi dan informasi.
Desa yang termasuk pada gerombol tiga merupakan desa yang berstatus perkotaan.
Diantara desakelurahan yang berada di
Kecamatan Dramaga, desakelurahan pada gerombol tiga cukup maju dalam komunikasi
dan informasi.
KESIMPULAN DAN SARAN
Kesimpulan
Dari hasil penggerombolan dengan metode Two Step Cluster, gerombol awal yang
dihasilkan pada tahap pertama adalah sebanyak delapan gerombol, sedangkan
gerombol optimal yang dihasilkan pada tahap dua adalah sebanyak tiga gerombol.
Gerombol satu merupakan
gerombol khusus yang memiliki karakteristik ekstrim.
Anggota dari gerombol ini merupakan kumpulan dari desakelurahan yang memiliki
karakteristik yang sangat menonjol atau ekstrim, sehingga tidak dapat dilihat
karakteristik spesifik mengenai gerombol ini.
Desakelurahan yang termasuk gerombol dua memiliki karakteristik pedesaan.
Desakelurahan tersebut memiliki lahan terluas, jumlah rumah tangga pertanian
terbanyak namun belum berkembang dalam bidang industri serta komunikasi dan
informasi. Sehingga untuk meningkatkan potensi desa pada gerombol ini, yang harus
diperhatikan adalah peubah-peubah yang tingkat perkembangannya masih rendah.
Sebaliknya, gerombol tiga memiliki karakteristik desa yang berstatus perkotaan.
Desakelurahan pada gerombol ini memiliki jarak terdekat ke pusat kota, cukup maju
dalam bidang industri, komunikasi dan informasi, namun memiliki angka
pengangguran tertinggi.
Saran
Saran untuk penelitian selanjutnya adalah membandingkan antara metode Two Step
Cluster dengan pendekatan analisis gerombol lain dalam masalah skala pengukuran yang
berbeda.
DAFTAR PUSTAKA
Anderberg, M.R. 1973. Cluster Analysis for Application. New York: Academic Press.
Bacher J, Wenzig K, Vogler M . 2004. SPSS Two Step Cluster - A First Evaluation.
[terhubung berkala]. http:www.statisticalinnovations.compro
ductsTwo Step .pdf . [10 Juni 2005].
[BPS] Badan Pusat Statistik. 2003. Jawa Barat dalam Angka 2003 . BPS, Jakarta.
Chan YH. 2005. Cluster analysis. Singapore Med J 2005; 46 supl 4: 153-159.
Johnson RA, Wichern DW. 2002. Applied Multivariate Statis tical Analysis. Ed ke-5.
New Jersey: Prentice-Hall. Muenchen B. 2002. Discover Depth and
Flexibility with Two Step Cluster
Analysis. [terhubung berkala].
http:www.spss.compdfsS115ad8- 1202A.pdf
. [20 Mei 2005]. Sartono B. et al. 2003. Modul Teori Analisis
Peubah Ganda. Bogor: Departemen
Statistika FMIPA IPB. Zhang T, Ramakrishnan R, Livny M. 1996.
BIRCH: An Efficient Data Clustering Method for Very Large Databases . Di
dalam: Proceedings of the 1996 ACM SIGMOD International Conference on
Management of Data ; Montreal, 4- 6 Jun 1996. Canada: ACM Press. hlm 103-114
LAMPIRAN
Lampiran 1. Rataan peubah X
4
– X
21
menurut peubah X
1 ,
X
2,
X
3
X1 Peubah
pedesaan perkotaan
Rataan umum Jumlah penduduk
X4 4625.74
9186.40 6072.04
Jumlah rumah tangga X5
1247.97 2272.82
1572.97 Jumlah industri kecil
X6 6.50
4.35 5.82
Jumlah industri kerajinan dan pengolahan X7
24.69 23.80
24.41 Jarak desa-kecamatan km
X8 6.61
3.44 5.61
Jarak desa-kota terdekat km X9
37.43 18.83
31.53 Persentase rumah tangga pertanian
X10 73.33
37.31 61.91
Persentase RT sejahtera I dan prasejahtera X11
40.88 32.73
38.29 Persentase RT pengguna listrik
X12 67.14
81.90 71.82
Persentase penduduk menganggur X13
6.97 7.28
7.07 Persentase rumah tangga yang memiliki TV
X14 39.36
59.69 45.81
Persentase rumah tangga yang berlangganan telepon X15
1.53 16.73
6.35 Pendapatan Asli Desa Rp
X16 85378.52
98707.47 89605.45
Pengeluaran Anggaran Rutin Rp X17
37310.47 41396.03
38606.10 Luas lahan sawah ha
X18 256.35
174.75 230.47
Luas ladangtegalanhuma ha X19
200.01 46.44
151.31 Luas perkebunan ha
X20 87.54
9.80 62.89
Luas hutan rakyat ha X21
44.62 25.72
38.62
X3 Peubah
non terpencil
terpencil Rataan
umum X4
6085.84 3747.97
6072.04 X5
1575.84 1091.00
1572.97 X6
5.84 3.26
5.82 X7
24.48 12.47
24.41 X8
5.51 22.61
5.61 X9
31.19 89.14
31.53 X10
61.79 82.18
61.91 X11
38.25 45.37
38.29 X12
72.04 34.05
71.82 X13
7.08 5.02
7.07 X14
45.99 15.52
45.81 X15
6.39 0.10
6.35 X16
89536.43 101224.20
89605.45 X17
38658.09 29853.59
38606.10 X18
229.98 313.40
230.47 X19
148.70 590.40
151.31 X20
62.39 146.34
62.89 X21
38.14 120.14
38.62 X2
Peubah non
pesisir pesisir
Rataan umum
X4 6081.70
5827.59 6072.04
X5 1572.92
1574.25 1572.97
X6 5.91
3.58 5.82
X7 24.77
15.19 24.41
X8 5.57
6.60 5.61
X9 30.50
57.51 31.53
X10 61.56
70.77 61.91
X11 37.98
46.22 38.29
X12 72.28
60.27 71.82
X13 7.05
7.49 7.07
X14 46.31
33.16 45.81
X15 6.47
3.43 6.35
X16 89002.56
104853.90 89605.45
X17 37998.61
53971.03 38606.10
X18 227.54
304.62 230.47
X19 140.59
422.56 151.31
X20 60.37
126.45 62.89
X21 38.10
51.96 38.62
Lampiran 2. Tabel BIC Bayesian Information Criterion
Auto-Clustering
73625.428 53402.884
-20222.544 1.000
1.887 42826.244
-10576.640 .523
2.446 38681.605
-4144.639 .205
1.505 36028.812
-2652.793 .131
1.934 34803.230
-1225.582 .061
1.088 33701.870
-1101.361 .054
1.246 32878.212
-823.658 .041
1.243 32275.170
-603.042 .030
1.062 31724.961
-550.210 .027
1.060 31222.785
-502.175 .025
1.010 30728.800
-493.986 .024
1.289 30413.401
-315.398 .016
1.083 30145.320
-268.081 .013
1.115 29935.978
-209.342 .010
1.122 Number of Clusters
1 2
3 4
5 6
7 8
9 10
11 12
13 14
15 Schwarzs
Bayesian Criterion BIC
BIC Change
a
Ratio of BIC Changes
b
Ratio of Distance
Measures
c
The changes are from the previous number of clusters in the table. a.
The ratios of changes are relative to the change for the two cluster solution. b.
The ratios of distance measures are based on the current number of clusters against the previous number of clusters.
c.
Lampiran 3. Frekuensi Peubah Kategorik
StatusDesa
137 3.5
48 2.6
3794 96.5
26 1.4
1 .0
1752 95.9
3932 100.0
1826 100.0
1 2
3 Combined
Cluster Frequency
Percent Frequency
Percent pedesaan
perkotaan
Lokasi
176 3.2
9 4.1
3628 65.5
192 87.7
1735 31.3
18 8.2
5539 100.0
219 100.0
1 2
3 Combined
Cluster Frequency
Percent Frequency
Percent non pesisir
pesisir
Keterpencilan
184 3.2
1 2.9
3787 66.2
33 97.1
1753 30.6
.0 5724
100.0 34
100.0 1
2 3
Combined Cluster
Frequency Percent
Frequency Percent
non terpencil terpencil
Lampiran 4. Karakteristik Gerombol
Centroids
Cluster 1
2 3
Combined jarakDesaKecamatan
Mean 19.45351
6.23856 2.770051
5.607173 Std. Deviation
83.76451 5.604248
3.077199 16.02647
jarakDesaKotaTerdekat Mean
36.01946 37.34615
18.37867 31.52895
Std. Deviation 30.31981
28.14697 16.90186
26.78864 PersenRTpertanian
Mean 60.91892
73.51099 36.72904
61.9083 Std. Deviation
23.97913 14.53956
28.56458 26.25513
PersentaseRTsejahteraIdanPrasejahtera Mean
32.63831 41.13891
32.68664 38.29253
Std. Deviation 19.71319
21.97388 21.07459
21.99688 PersentaseRTpenggunaListrik
Mean 71.72152
67.08488 82.14738
71.81957 Std. Deviation
26.17346 24.26604
19.72373 24.04696
PersentasePendudukMenganggur Mean
6.128549 6.997158
7.318722 7.067149
Std. Deviation 6.826575
7.668786 8.154359
7.796712 PersentaseRTygMemilikiTv
Mean 42.06873
39.42265 60.11815
45.80833 Std. Deviation
25.91594 23.4588
25.22058 25.8836
PersentaseRTygBerlanggananTelp Mean
5.011998 1.526205
17.01104 6.352496
Std. Deviation 12.08142
3.818552 21.65974
14.39501 PendapatanAsliDaerah
Mean 267186.9
81095.48 89408.93
89605.45 Std. Deviation
650211.4 89317.02
115376.6 154651
PengeluaranAnggaranRutin Mean
101246.4 35976.08
37726.59 38606.1
Std. Deviation 221930.7
27792.15 35592.89
51019.86 LuasLahanSawah
Mean 1982.981
209.9212 90.30981
230.473 Std. Deviation
14750.69 184.1857
106.0455 2661.78
LuasLadang Mean
420.5449 187.2169
44.65476 151.3111
Std. Deviation 1810.237
276.1511 95.23802
405.872 LuasPerkebunan
Mean 465.9768
67.86644 9.492641
62.88574 Std. Deviation
3987.623 203.7497
68.53921 737.0835
luasHutanRakyat Mean
410.7519 36.04707
4.965716 38.62345
Std. Deviation 2947.817
114.5777 30.41699
539.9255 jumlahIndustriKecil
Mean 173.4
8.724869 10.58243
14.58128 Std. Deviation
223.6468 21.47051
22.81715 53.8613
JumlahIndustriMenengah Mean
432.6216 20.56518
21.96634 34.23081
Std. Deviation 422.701
44.99353 50.50927
114.4553
Lampiran 5. Tingkat Kepentingan Peubah Kategorik
StatusDesa Lokasi
Keterpencilan
Variable
6 5
4 3
2 1
Chi-Square
Test Statistic Critical Value
Bonferroni Adjustment Applied
TwoStep Cluster Number = 1
StatusDesa Lokasi
Keterpencilan
Variable
Chi-Square
Test Statistic Critical Value
Bonferroni Adjustment Applied
TwoStep Cluster Number = 2
S t a t u s D e s a L o k a s i
K e t e r p e n c i l a n
Variable
4 , 0 0 0 3 , 0 0 0
2 , 0 0 0 1 , 0 0 0
Chi-Square
T e s t S t a t i s t i c C r i t i c a l V a l u e
B o n f e r r o n i A d j u s t m e n t A p p l i e d
TwoStep Cluster Number = 3
JumlahIndustriMenengah jumlahIndustriKecil
PersentaseRTsejahteraIdanPras... PengeluaranAnggaranRutin
PendapatanAsliDaerah jarakDesaKecamatan
jarakDesaKotaTerdekat PersentaseRTygMemilikiTv
PersentasePendudukMenganggur PersentaseRTygBerlanggananT...
PersenRTpertanian PersentaseRTpenggunaListrik
15 10
5 -5
Students t
Test Statistic Critical Value
Bonferroni Adjustment Applied
TwoStep Cluster Number = 1
PersenRTpertanian PersentaseRTygBerlanggananT...
JumlahIndustriMenengah jumlahIndustriKecil
PersentaseRTygMemilikiTv jarakDesaKotaTerdekat
PersentaseRTpenggunaListrik L u a s L a d a n g
PersentaseRTsejahteraIdanPras... jarakDesaKecamatan
PendapatanAsliDaerah PengeluaranAnggaranRutin
PersentasePendudukMenganggur
60 40
20 -20
-40 -60
-80
Students t
Test Statistic Critical Value
Bonferroni Adjustment Applied
TwoStep Cluster Number = 2
Lampiran 6. Tingkat Kepentingan Peubah Kontinu
LuasLahan LuasLadang
luasHutanRakyat jarakDesaKecamatan
PersenRTpertanian LuasPerkebunan
jarakDesaKotaTerdekat PersentaseRTygMemilikiTv
PersentaseRTpenggunaListrik PersentaseRTygBerlanggananT...
PersentaseRTsejahteraIdanPra... JumlahIndustriMenengah
jumlahIndustriKecil PersentasePendudukMenganggur
PengeluaranAnggaranRutin PendapatanAsliDaerah
Variable
20 -20
-40 -60
Students t
Test Statistic Critical Value
Bonferroni Adjustment Applied
TwoStep Cluster Number = 3
Lampiran 7. Profil Desa Kecamatan Dramaga
Lampiran 8. Jumlah desa untuk tiap kabupaten di Jawa Barat
Nama Desa Jumlah
industri kecil
Jumlah industri
kerajinan dan
pengolahan Jarak
desa-kota terdekat
km Luas
lahan sawah
ha Persentase
rumah tangga yang
berlangganan telepon
gerombol
Dramaga 74
74 20.2
5 33.3
1 Purwasari
1 5
28.1 160
3.3 2
Petir 8
28 35.4
160 1.94
2 Sukadamai
4 28
25.9 136
2.1 2
Sukawening 2
18 23.9
100 3.81
2 Cikarawang
5 5
27.3 154
4.3 2
Neglasari 4
4 22.1
75.5 29.97
3 Sinar Sari
3 3
21.7 50
10.17 3
Ciherang 11
19 21.4
101 61.69
3 Babakan
3 7
21.7 6
89.11 3
Kabupaten di Jawa Barat Jumlah
desa
Bogor 425
Sukabumi 339
Cianjur 341
Bandung 436
Garut 407
Tasikmalaya 345
Ciamis 363
Kuningan 370
Cirebon 424
Majalengka 331
Sumedang 269
Indramayu 310
Subang 251
Purwakarta 192
Karawang 307
Bekasi 187
Kota Bogor 68
Kota Sukabumi 33
Kota Bandung 139
Kota Cirebon 22
Kota Bekasi 52
Kota Depok 63
Kot a Cimahi 15
Kota Tasik 69
5758
Lampiran 9. Beberapa desa yang memencil ekstrim untuk masing-masing peubah X
4
– X
21
Peubah desakabupaten
Jumlah penduduk KawungluwukCianjur, CikituBandung
Jumlah rumah tangga KahiyanganKuningan, SakambangPurwakarta
Jumlah industri kecil TanjungsariCiamis, TegalwangiCirebon,
Jumlah industri kerajinan dan pengolahan BojonggedangBogor, NaringgulCianjur,
NgamprahBandung, SukakaryaGarut Jarak desa-kecamatan km
Tapos 2Bogor,NaringgulCianjur Jarak desa-kota terdekat km
KarangwangiCianjur, NaringgulCianjur, Perbutulan, Cirebon
Persentase rumah tangga pertanian JatijajarDepok, BinongBandung
Persentase RT sejahtera I dan prasejahtera
CicindeKarawang, TugujayaTasikmalaya Persentase RT pengguna listrik
BanyuwangiSukabumi, SukahuripCiamis Persentase penduduk menganggur
BudiharjaBandung Persentase rumah tangga yang memiliki
T V Tanjung SariTasikmalaya, KahiyanganKuningan,
WanasukaBandung Persentase rumah tangga yang
berlangganan telepon BojonggedangBogor, BatununggalBandung
Pendapatan Asli Desa Rp SukajadiBandung, SindanglakaBandung, MustikaBekasi
Pengeluaran Anggaran Rutin Rp CimpaeunDepok, Sumur BatuBekasi, Muara DuaSukabumi
Luas lahan sawah ha LinggajatiTasikmalaya, CipawitraTasikmalaya
Luas ladangtegalanhuma ha JatiwangiGarut, CipawitraTasikmalaya
Luas perkebunan ha CipawitraTasikmalaya, neglawangi Bandung
Luas hutan rakyat ha SirnaresmiSukabumi, MalasariBogor,
LinggajatiTasikmalaya
PENERAPAN METODE TWO STEP CLUSTER DALAM
ANALISIS GEROMBOL
Studi kasus : data Potensi Desa Sensus Ekonomi 2003 wilayah Jawa Barat
Oleh : Windy Dwi Yuliany Putri
G14101040
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR 2005
PENDAHULUAN
Latar Belakang
Penggerombolan adalah proses mengelompokkan objek ke dalam kelompok -
kelompok yang memiliki kemiripan. Saat ini, metode penggerombolan yang digunakan
secara luas adalah metode penggerombolan berhirarki dan metode penggerombolan tak
berhirarki. Kedua metode ini berbasis pada data yang berskala interval atau rasio.
Beberapa analisis yang sering dijumpai dalam analisis gerombol yaitu skala
pengukuran peubah tidak sama dan jumlah objek besar serta jumlah gerombol tidak
diketahui. Salah satu pendekatan untuk menangani masalah ini adalah dengan
memilih tipe skala pengukuran tertentu, dan mentransformasikan peubah-peubahnya
sehingga memiliki tipe skala pengukuran yang sama An derberg 1973.
Metode Two Step cluster merupakan suatu metode penggerombolan yang dapat
mengatasi masalah skala pengukuran, khususnya untuk data berukuran besar dengan
peubah yang memiliki tipe data kategorik dan kontinu Bacher. 2004, serta mengetahui
gerombol optimal yang terbentuk. Gerombol optimal memiliki jarak antar gerombol yang
paling jauh, dan jarak antar obyek yang paling dekat.
Tujuan
Tujuan penelitian ini adalah penerapan metode
Two Step cluster untuk menggerombolkan desakelurahan di wilay ah
Jawa Barat.
TINJAUAN PUSTAKA
Potensi Desa
Potensi Desa Podes adalah kemampuan yang memiliki kemungkinan untuk
dikembangkan dalam wilayah otonomi desa. Data podes merupakan satu-satunya data yang
berurusan dengan wilayah atau tata ruang dengan basis desa atau kelurahan BPS, 2003.
Salah satu tujuan pengumpulan data Podes ini adalah tersedianya data potensi atau
keadaan pembangunan di desa dan perkembangannya meliputi keadaan sosial,
ekonomi, sarana dan prasarana, serta potensi yang ada di desakelurahan.
Yang menjadi responden dari data Podes adalah Kepala Desa atau Lurah, staf yang
ditunjuk atau narasumber lain yang relevan. Metode pengumpulan datanya dilakukan
dengan cara sensus complete enumeration terhadap desakelurahan di wilayah Indonesia.
Pencacahan dilakukan melalui wawancara langsung oleh petugas pencacah.
Pengumpulan data Podes selalu diintegrasikan dengan kegiatan sensus dan mendahului satu
tahun sebelum sensus.
Analisis Gerombol
Analisis gerombol merupakan suatu metode peubah ganda
untuk mengelompokkan n objek ke dalam m
gerombol m n
berdasarkan karakter- karakternya Johnsons Winchern, 2002.
Tujuan dari penggerombolan ini adalah menemukan gerombol alamiah dari
sekumpulan unit pengamatan, dengan harapan keragaman unit-unit pengam atan dalam suatu
gerombol lebih homogen daripada keragaman antar gerombol sehingga dapat dianalisa lebih
lanjut Chan, 2005.
Ada dua metode dalam analisis gerombol satu tahapan, yaitu :
1. Metode berhirarki.