Modified Method of Selection Initial Centroid in K-Means Clustering
MODIFIKASI METODE PEMILIHAN TITIK PUSAT AWAL
DARI METODE GEROMBOL K-RATAAN
ROSE MAWATI
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul Modifikasi Metode
Pemilihan Titik Pusat Awal dari Metode Gerombol K-Rataan adalah benar karya
saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk
apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau
dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Maret 2014
Rose Mawati
NRP G151110051
RINGKASAN
ROSE MAWATI. Modifikasi Metode Pemilihan Titik Pusat Awal dari Metode
Gerombol K-Rataan. Dibimbing oleh I MADE SUMERTAJAYA dan FARIT
MOCHAMAD AFENDI.
Analisis gerombol merupakan salah satu teknik peubah ganda, yang tujuan
utamanya adalah mengelompokkan objek berdasarkan kemiripan atau
ketidakmiripan karakteristik-karakteristiknya sehingga pengamatan-pengamatan
yang terdapat di dalam suatu gerombol memiliki kesamaan yang tinggi sesuai
dengan kriteria pemilihan yang ditentukan. Metode penggerombolan memiliki dua
pendekatan, yaitu metode hirarki dan metode tidak berhirarki. Penentuan jumlah
gerombol yang terbentuk untuk dua metode ini dilakukan sesuai dengan keinginan
peneliti atau berdasarkan literatur.
Salah satu metode dalam gerombol tak berhirarki yaitu metode k-rataan. Krataan merupakan metode gerombol yang paling sederhana dan umum.
Karakteristik k-rataan yaitu kinerja komputasi yang baik, serta cepat dalam
proses penggerombolan, tetapi k-rataan sangat sensitif pada pembangkitan titik
pusat awal secara acak sehingga hasil penggerombolan dengan k-rataan bersifat
tidak unik.
Pada penelitian ini, k-rataan dibandingkan dengan metode modifikasi
pemilihan titik pusat awal dari k-rataan. Menurut Sona dan Sujatha (2013) metode
ini difokuskan untuk memilih titik pusat awal dalam meningkatkan kinerja dari
algoritma penggerombolan k-rataan. Kinerja penggerombolan metode modifikasi
pemilihan titik pusat dari k-rataan ini akan dibandingkan melalui data simulasi,
dan selanjutnya menerapkan metode modifikasi pemilihan titik pusat awal dari krataan pada penggerombolan desa di Provinsi Bengkulu.
Data yang digunakan dalam penelitian ini terdiri dari dua sumber yaitu data
simulasi dan data sekunder. Data simulasi berupa data bangkitan dari sebaran
normal ganda (μ,Ʃ ) yang berguna untuk mengukur kinerja metode modifikasi
titik pusat awal dari k-rataan dan metode k-rataan dalam mengelompokkan
objek/pengamatan. Data sekunder yang digunakan dalam penelitian ini berupa
dokumentasi tertulis data Potensi Desa (Podes) yang diperoleh dari BPS untuk
Provinsi Bengkulu tahun 2011.
Data simulasi yang digunakan dalam penelitian ini merupakan data dengan
sebaran normal ganda, dan tipe data numerik yang terdiri dari tiga gerombol, dan
masing-masing gerombol terdiri dari tiga peubah. Pembangkitan data simulasi
yang digunakan terbagi dalam tiga kondisi jarak antar pusat gerombol. Kondisi
jarak antar pusat gerombol yang digunakan yaitu pusat antar gerombol
berdekatan, pusat antar gerombol memiliki jarak sedang, dan pusat antar
gerombol jauh. Setiap kasus diterapkan untuk data ukuran kecil (n=300), sedang
(n=900), dan besar (n=1500).
Metode modifikasi pemilihan titik pusat awal dari k-rataan jauh lebih
unggul dibandingkan dengan metode k-rataan berdasarkan jumlah iterasi yang
terbentuk, apabila tidak ada lagi anggota dari masing-masing gerombol yang
berpindah posisi (konvergen). Jumlah iterasi pada metode modifikasi dari
pemilihan titik pusat k-rataan akan meningkat apabila keragaman dari data
semakin besar.
Hasil penggerombolan data dengan metode modifikasi ini ditentukan
berdasarkan tujuan penggerombolan yang menggunakan data potensi desa, dalam
melihat kelengkapan sarana dan prasarana di desa pada Provinsi Bengkulu.
Penggerombolan ini ditetapkan menjadi tiga gerombol, yaitu: desa yang memiliki
sarana dan prasarana yang memadai; gerombol yang anggotanya adalah desa
dengan sarana dan prasarana yang kurang memadai; dan gerombol ketiga
beranggotakan desa memiliki sarana prasarana cukup memadai.
Kata kunci: k-rataan, modifikasi titik pusat awal, penggerombolan, Provinsi
Bengkulu
SUMMARY
ROSE MAWATI. Modified Method of Selection Initial Centroid in K-Means
Clustering. Supervised by I MADE SUMERTAJAYA and FARIT MOCHAMAD
AFENDI.
Cluster analysis is one of multivariate technique, clustering is a process of
classifying object into groups which have similarity. The result of clustering will
show that objects in one cluster will be more homogeneous than others. There are
two methods in classic clustering analysis i.e. hierarchical clusters method and
non-hierarchical cluster method. Determination of the number of clusters which
formed by them is done subjectively or based on literature.
One of the non-hierarchical cluster method is k-means clustering.
Characteristics of k-means clustering is a good computational performance, but kmeans clustering is very sensitive to select initial centroid because k-means
method select initial centroid random from data so that the results of the k-means
clustering are not unique.
In this research, k-means method was compared with modified method of
selection initial centroid in k-means. According to Sona and Sujatha (2013), the
method of centroid selection is focused on improving performance of k-means
clustering algorithm. Performance of modification method in selecting initial
centroid will be compared in simulation data, and then apply the modified method
in secondary data.
The data in this research consist of two sources i.e. simulated data and
secondary data. Simulated data were generated data multivariate normal
distribution (μ,Ʃ ) which useful to measure the performance of modified method
of selection initial centroid in k-means and k-means method. Secondary data
which used in this research, BPS’s data in Bengkulu province was village
potential data in 2011.
Simulation data were the generated data numeric type which consisted of
three clusters, and each cluster consist of three variables. Simulation data is
divided into three conditions i.e a). distance between each centroid near, b).
distance between each centroid medium, c). distance between each centroid far.
Every data condition applied in small (n=300), medium (n=900), and lagre
number (n=1500).
Modification method of selection initial centroid in k-means has better
performance than k-means clustering method. It is based on number iterations is
formed, there is no member of each clusters that switch positions (convergent).
The number of iterations on the modified method of selection initial centroid in kmeans method will increase if the variance from data is enhanced.
The results of modified method of seletion initial centroid in k-means
method is determined into three clusters. It is based on purpose of clustering by
village potential data for view infrastructure and facilities in Bengkulu province.
This clustering is villages with adequate infrastructure, villages with inadequate
infrastructure, and villages with lack adequate infrastructure.
Keywords: Bengkulu province, clustering, k-means, modified selection initial
centroid
© Hak Cipta Milik IPB, Tahun 2014
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB
i
MODIFIKASI METODE PEMILIHAN TITIK PUSAT AWAL DARI METODE
GEROMBOL K-RATAAN
ROSE MAWATI
Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
pada
Program Studi Statistika
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014
ii
Penguji Luar Komisi pada Ujian Tesis: Dr. Ir. Indahwati, M.Si.
iii
Judul Tesis : Modifikasi Metode Pemilihan Titik Pusat Awal dari Metode
Gerombol K-Rataan
Nama
: Rose Mawati
NRP
: G151110051
Disetujui oleh
Komisi Pembimbing
Dr Ir I Made Sumertajaya, MSi
Ketua
Dr Farit M Afendi, SSi, MSi
Anggota
Diketahui oleh
Ketua Program Studi
Statistika
Dekan Sekolah Pascasarjana
Dr Ir Anik Djuraidah, MS
Dr Ir Dahrul Syah, MScAgr
Tanggal Ujian: 28 Februari 2014
Tanggal Lulus:
Judul Tesis : Modifikasi Metode Pemilihan Titik Pusat Awal dari Metode
Gerombol K-Rataan
Nama
: Rose Mawati
NIM
: G1 511 10051
Disetujui oleh
Komisi Pembimbing
C?"'t
_ I /"
Dr Farit M Mendi, SSi MSi
Anggota
Dr Ir I Made Sumertajaya, MSi
Ketua
Diketahui oleh
Ketua Program Studi
Statistika
Dr Ir Anik Djuraidah, MS
Tanggal Ujian: 28 Februari 201 4
Tanggal Lulus:
2 8 MAR 2014
iv
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah yang berjudul Modifikasi Metode
Pemilihan Titik Pusat Awal dari Metode Gerombol K-Rataan berhasil
diselesaikan.
Terima kasih penulis ucapkan kepada
1. Bapak Dr. Ir. I Made Sumertajaya, M.Si selaku pembimbing I dan
ketua program studi Pascasarjana Statistika dan Bapak Dr. Farit M
Afendi, S.Si, M.Si selaku pembimbing II, yang telah banyak
memberikan bimbingan dan saran dalam penyusunan karya ilmiah ini.
2. Penguji luar komisi ibu Dr. Ir. Indahwati, M.Si pada ujian tesis, yang
telah memberikan kritik dan saran dalam perbaikan penyusunan karya
ilmiah ini.
3. Kedua orangtua, papa dan mama, serta seluruh keluarga, atas segala
doa dan kasih sayangnya.
4. Sahabat mahasiswa pascasarjana Statistika dan Statistika Terapan IPB
2011 atas kebersamaannya.
Semoga karya ilmiah ini bermanfaat.
Bogor, Maret 2014
Rose Mawati
v
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vii
DAFTAR LAMPIRAN
viii
1 PENDAHULUAN
Latar Belakang
Tujuan Penelitian
1
1
2
2 METODE PENELITIAN
Data
Data Simulasi
Skenario Simulasi
Metode Simulasi
Data Sekunder
Metode Analisis
Penerapan metode modifikasi pemilihan titik pusat awal dari k-rataan
pada data sekunder
2
2
3
3
4
5
6
8
3 HASIL DAN PEMBAHASAN
8
Kondisi jarak antar pusat gerombol dekat
9
Kondisi jarak antar pusat gerombol sedang
12
Kondisi jarak antar pusat gerombol jauh
16
Penerapan metode modifikasi titik pusat awal k-rataan pada data sekunder17
Hasil penggerombolan desa dengan metode modifikasi titik pusat awal 18
4 SIMPULAN DAN SARAN
Simpulan
Saran
20
20
20
DAFTAR PUSTAKA
21
LAMPIRAN
22
RIWAYAT HIDUP
26
vi
DAFTAR TABEL
1
2
3
4
5
6
7
Kombinasi data simulasi
Indikator kelengkapan sarana dan prasarana di desa
Perbandingan jumlah iterasi pada jarak antar pusat gerombol dekat
Perbandingan jumlah iterasi pada jarak antar pusat gerombol sedang
Perbandingan jumlah iterasi pada jarak antar pusat gerombol jauh
Nilai koefisien korelasi antar peubah
Eksplorasi peubah tiap gerombol
4
5
12
16
17
18
19
vii
DAFTAR GAMBAR
1 Plot skor dua komponen utama hasil klasifikasi pada jarak antar
pusat gerombol dekat (a) ragam kecil tidak ada korelasi, (b) ragam
kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam kecil
korelasi tinggi
2 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat
gerombol dekat (a) ragam sedang tidak ada korelasi, (b) ragam sedang
korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam sedang
korelasi tinggi
3 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat
gerombol dekat (a) ragam besar tidak ada korelasi, (b) ragam besar
korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam besar
korelasi tinggi
4 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat
gerombol sedang (a) ragam kecil tidak ada korelasi, (b) ragam kecil
korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam kecil
korelasi tinggi
5 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat
gerombol sedang (a) ragam sedang tidak ada korelasi, (b) ragam
sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam
sedang korelasi tinggi
6 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat
gerombol sedang (a) ragam besar tidak ada korelasi, (b) ragam besar
korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam besar
korelasi tinggi
9
10
11
13
14
15
viii
DAFTAR LAMPIRAN
1 Plot skor dua komponen utama hasil klasifikasi pada jarak antar
pusat gerombol jauh (a) ragam kecil tidak ada korelasi, (b) ragam
kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam
kecil korelasi tinggi
2 Plot skor dua komponen utama hasil klasifikasi pada jarak antar
pusat gerombol jauh (a) ragam sedang tidak ada korelasi, (b) ragam
sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam
sedang korelasi tinggi
3 Plot skor dua komponen utama hasil klasifikasi pada jarak antar
pusat gerombol jauh (a) ragam besar tidak ada korelasi, (b) ragam
besar korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam
besar korelasi tinggi
4 Perbandingan tingkat kebaikan klasifikasi pada jarak antar pusat
gerombol dekat
5 Perbandingan tingkat kebaikan klasifikasi pada jarak antar pusat
gerombol sedang
6 Perbandingan tingkat kebaikan klasifikasi pada jarak antar pusat
gerombol jauh
22
22
23
24
24
25
1
PENDAHULUAN
Latar Belakang
Analisis gerombol merupakan salah satu teknik peubah ganda, yang tujuan
utamanya adalah mengelompokkan objek berdasarkan kemiripan karakteristik
dari pengamatan, sehingga dalam suatu gerombol memiliki kesamaan
karakteristik yang tinggi sesuai dengan kriteria penggerombolan yang ditentukan
(Hair et al. 1998). Pengamatan tersebut akan diklasifikasikan dalam satu atau
beberapa gerombol sehingga pengamatan yang berada dalam gerombol yang
sama akan mempunyai kemiripan satu dengan yang lain. Hasil dari
penggerombolan akan menunjukkan bahwa pengamatan yang berada dalam satu
gerombol akan lebih homogen dibandingkan antar gerombol.
Menurut Johnson dan Wichern (2007), dalam metode penggerombolan
dikenal dua pendekatan, yaitu metode hirarki dan metode tidak berhirarki.
Metode penggerombolan hirarki digunakan jika banyaknya gerombol yang akan
dibentuk belum diketahui sebelumnya. Sedangkan metode penggerombolan
tidak berhirarki digunakan jika banyaknya gerombol yang akan dibentuk sudah
diketahui sebelumnya. Salah satu metode dalam gerombol tak berhirarki yaitu
metode k-rataan. K-rataan merupakan metode gerombol yang paling sederhana
dan umum. K-rataan ini menggerombolkan objek berdasarkan kedekatan ukuran
jarak terhadap titik pusat masing-masing gerombol (Anderberg 1973).
Karakteristik k-rataan yaitu kinerja komputasi yang baik, serta cepat
dalam proses penggerombolan, tetapi k-rataan sangat sensitif pada pembangkitan
titik pusat awal secara acak sehingga hasil penggerombolan dengan k-rataan
bersifat tidak unik (selalu berubah-ubah), terkadang baik, terkadang jelek dan
memungkinkan suatu gerombol tidak mempunyai anggota (Andayani 2007).
Penentuan nilai pusat yang dibangkitkan secara acak ini menghasilkan
gerombol yang tidak optimal. Alternatif dari permasalahan tersebut diperlukan
suatu rancangan atau modifikasi cara pemilihan titik pusat dari metode k-rataan
(Bhatia dan Khurana 2013).
Metode dengan memodifikasi pemilihan titik pusat awal pada k-rataan ini
digunakan untuk meningkatkan kinerja dari metode k-rataan, dengan
memperbaiki kekurangan metode k-rataan dalam pemilihan titik pusat awal
secara acak. Metode ini dibagi dalam dua tahapan, tahap pertama digunakan
untuk menentukan titik pusat awal, dan tahapan kedua digunakan untuk
menentukan anggota dari pengamatan pada masing-masing gerombol.
Modifikasi dari metode k-rataan dapat cepat mencapai konvergensi sehingga
waktu komputasi relatif lebih cepat dan akurat dalam hasil penggerombolan
dibandingkan dengan metode k-rataan.
Beberapa penelitian yang menggunakan k-rataan dan modifikasi
penentuan titik pusat awal dari k-rataan dalam penggerombolan objek,
diantaranya Nazeer dan Sebastian (2009) menggunakan metode modifikasi
pemilihan titik pusat awal dari k-rataan dalam menggerombolkan data terapan,
yaitu data bunga Iris dan penyakit jantung. Penelitian lain yang mengunakan
modifikasi pemilihan titik pusat awal untuk penggerombolan adalah Sona dan
Sujatha (2013), metode modifikasi pemilihan titik pusat awal dibandingkan
2
dengan metode k-rataan, dan metode pemilihan titik pusat awal dengan
mempartisi data dengan keragaman terbesar, metode ini juga diterapkan pada
data bunga Iris.
Pada penelitian ini akan dibandingkan kinerja penggerombolan metode krataan dan metode modifikasi dalam penentuan titik pusat awal dari k-rataan
melalui data simulasi, dan selanjutnya diterapkan pada data potensi desa yang
ada di provinsi Bengkulu sebagai data sekunder dengan menggunakan metode
modifikasi pemilihan titik pusat awal dari k-rataan.
Tujuan Penelitian
Berdasarkan latar belakang diatas, tujuan dari penelitian ini, yaitu:
1. Mengevaluasi dan membandingkan metode penggerombolan k-rataan, dan
metode modifikasi dalam pemilihan titik pusat awal dari k-rataan pada
data simulasi dengan beberapa kondisi jarak antar pusat gerombol.
2. Menerapkan metode modifikasi pemilihan titik pusat awal k-rataan pada
data potensi desa yang ada di provinsi Bengkulu.
2
METODE PENELITIAN
Data
Data yang digunakan dalam penelitian ini terdiri dari dua sumber yaitu
data simulasi dan data sekunder. Data sekunder yang digunakan dalam penelitian
ini berupa dokumentasi tertulis data Potensi Desa (Podes) yang diperoleh dari
BPS untuk Provinsi Bengkulu tahun 2011.
Data Simulasi
Data yang digunakan dalam penelitian ini terdiri dari dua sumber yaitu
data simulasi dan data sekunder. Data simulasi berupa data bangkitan dari
sebaran normal ganda (μ,Ʃ ) yang berguna untuk mengukur kinerja waktu
komputasi melalui proses iterasi dari metode modifikasi pemilihan titik pusat
awal dari k-rataan dan metode k-rataan.
Skenario Simulasi
Pembangkitan data simulasi yang digunakan terbagi dalam tiga kondisi
jarak antar pusat gerombol mengacu pada Anggriyani (2011). Kondisi jarak
antar pusat gerombol yang digunakan yaitu pusat antar gerombol berdekatan,
pusat antar gerombol memiliki jarak sedang, dan pusat antar gerombol jauh.
Setiap gerombol terdiri atas 3 peubah yaitu X1, X2, dan X3. Gugus data yang
dibangkitkan dalam tiga jumlah amatan yaitu nk=100, nk=300 dan nk=500 untuk
3
masing-masing gerombol k=1,2,3, sehingga Ʃ k nk = n. Penggunaan jumlah
amatan yang berbeda bertujuan untuk mengetahui efektifitas analisis gerombol
pada jumlah amatan kecil, sedang, dan besar. Setiap kasus simulasi dilakukan
hanya satu kali ulangan.
Data simulasi yang dibangkitkan merupakan data dari sebaran normal
ganda, dengan menggunakan metode Singular Value Decomposition (SVD).
Data ini terlebih dahulu dibangkitkan dari p peubah acak normal baku yang
saling bebas, yaitu Z ~ Np(0,I). Peubah X tersebut kemudian ditransformasi
menjadi peubah X = ZQ + 1µT ~ N(µ,Ʃ ). Matriks Q dapat diperoleh melalui
metode SVD, yaitu dengan menyatakan Ʃ sebagai
Ʃ =UDVT
dengan
= matriks ragam peragam berukuran pxp
Ʃ
U = matriks orthogonal yang kolom-kolomnya merupakan vektor ciri dari
T
D = matriks diagonal yang unsur-unsur diagonalnya merupakan akar ciri
dari matriks
V = matriks orthogonal yang kolom-kolomnya merupakan vektor ciri dari
T
Hasil dekomposisi matriks Ʃ tersebut digunakan untuk memperoleh matriks
Q=UD1/2VT.
Guna melihat pengaruh tingkat korelasi antara peubah terhadap hasil akhir
penggerombolan, dicobakan empat tingkat korelasi yaitu tidak ada korelasi (0),
korelasi rendah (0,3), korelasi sedang (0,5), dan korelasi tinggi (0,8). Selain
melihat pengaruh korelasi antar peubah, dalam penelitian ini dilihat juga
pengaruh dari keragamannya. Keragaman memiliki pengaruh besar terhadap
pola penyebaran dari data, semakin besar keragaman yang ditetapkan maka pola
penyebaran data akan semakin acak atau saling tumpang tindih. Keragaman
yang ditetapkan dalam penelitian ini dibagi menjadi tiga tingkat yaitu keragaman
kecil, keragaman sedang, dan keragaman besar. Skenario simulasi ini merupakan
kombinasi dari tiga kondisi jarak antar pusat gerombol, dengan ukuran korelasi
yang berbeda, serta kombinasi dari tiga keragaman. Kombinasi data yang
digunakan dalam kajian simulasi ditunjukkan pada Tabel 1.
Metode Simulasi
Tahapan yang dilakukan dalam membangkitkan data simulasi adalah
sebagai berikut:
1. Menentukan banyak gerombol (k=3), banyak peubah (p=3) dan banyak
amatan setiap gerombol (n1=n2=n3=100), dan setiap peubah dalam gerombol
bersebaran normal ganda.
2. Menentukan parameter sebaran masing-masing gerombol, yaitu vektor
rataan (µ1,µ2,µ3), dan matriks peragam (1,2, 3). Matriks peragam tersebut
diperoleh dengan cara:
a. Menentukan matriks Sk1/2 yang merupakan matriks diagonal dengan
elemen diagonalnya adalah simpangan baku masing-masing peubah,
berdimensi 3x3.
4
b. Menentukan matriks Rk yang merupakan matriks korelasi antar
peubah.
c. Menghitung matriks peragam k = Sk1/2 Rk Sk1/2.
Jarak
Dekat
Sedang
Jauh
Tabel 1 Kombinasi data simulasi
Ukuran data
Ragam
Korelasi
(nk)
0
Kecil
0,3
0,5
0,8
0
100
Sedang
0,3
300
0,5
500
0,8
0
0,3
Besar
0,5
0,8
0
Kecil
0,3
0,5
0,8
0
100
Sedang
0,3
300
0,5
500
0,8
0
0,3
Besar
0,5
0,8
0
Kecil
0,3
0,5
0,8
0
100
Sedang
0,3
300
0,5
500
0,8
0
0,3
Besar
0,5
0,8
Kasus
Simulasi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
5
3. Membangkitkan peubah acak normal baku Z1, Z2, dan Z3, dengan
Zk~N3(0,1), untuk k=1, 2, 3 berturut-turut sebanyak n1, n2, dan n3.
4. Menguraikan setiap matriks k dengan metode SVD. Penguraian matriks
tersebut akan menghasilkan matriks U, D, dan V, dengan langkah-langkah
sebagai berikut (Jia 2013):
a. Menentukan matriks othogonal U yang kolom-kolomnya merupakan
vektor ciri dari matriks T.
U = [eu1, eu2, …, eup]
b. Menentukan matriks orthogonal V yang kolom-kolomnya
merupakan vektor ciri dari matriks T.
V = [ev1, ev2, …, evp]
c. Menentukan matriks diagonal D yang unsur-unsur diagonalnya
merupakan akar ciri dari matriks .
D = diag[λ1, λ2, …, λp]
5. Menentukan matriks Q yang diperoleh dari hasil dekomposisi pada langkah
4 dengan formula:
Q=UD1/2VT
6. Membangkitkan peubah acak normal ganda G1 sebanyak n1 untuk gerombol
1, dengan G1 ~ Np(µ1,1) dengan rumus:
G1=Z1Q+1µT
7. Membangkitkan peubah acak normal ganda G2 sebanyak n2 untuk gerombol
2, dengan G2 ~ Np(µ2,2) dengan rumus:
G2=Z2Q+1µT
8. Membangkitkan peubah acak normal ganda G3 sebanyak n3 untuk gerombol
3, dengan G3 ~ Np(µ3,3) dengan rumus:
G3=Z3Q+1µT
9. Menggabungkan ketiga gerombol tersebut menjadi sebuah kasus simulasi.
10. Ulangi tahap 2 – 9 untuk kondisi penggerombolan yang telah ditentukan.
Data Sekunder
Data sekunder yang digunakan dalam penelitian ini berupa dokumentasi
tertulis dari data Potensi Desa (Podes) yang diperoleh dari BPS untuk Provinsi
Bengkulu tahun 2011. Indikator yang digunakan untuk melihat kelengkapan
fasilitas dan sarana prasarana yang terdapat di desa disajikan pada Tabel 2.
Pengumpulan data Podes dilakukan dengan cara sensus (complete
enumeration). Pencacahan dilakukan melalui wawancara langsung oleh petugas
pencacah terhadap Kepala Desa/Lurah. Cakupan wilayah pencacahan Podes
dilakukan terhadap seluruh desa/kelurahan, termasuk unit permukiman
transmigrasi dan permukiman masyarakat tertinggal (BPS 2006).
6
Tabel 2 Indikator demografi dan fasilitas sarana prasarana yang terdapat di desa
Faktor
Indikator
Satuan
X1 Jumlah Keluarga
Keluarga
Kependudukan
X2 Jumlah Keluarga Tani
Keluarga
dan
X3 Jumlah Keluarga Buruh Tani
Keluarga
ketenagakerjaan
X4 Jumlah Warga yang Bekerja sebagai TKI
Orang
Perumahan dan X5 Jumlah Keluarga Pengguna Listrik
Keluarga
Lingkungan
Hidup
X6 Jumlah Fasilitas Pendidikan
Unit
X7 Jumlah Sarana Kesehatan
Unit
X8 Jumlah Tenaga Kesehatan
Orang
X9 Jumlah Penderita Wabah Penyakit
Orang
Pendidikan dan X10 Jumlah Penderita Gizi Buruk
Orang
Kesehatan
X11 Jumlah Kematian Balita (usia dibawah 5 Orang
tahun)
X12 Jumlah Kematian Ibu pada Masa Orang
Kehamilan/Persalinan
X13 Jumlah Warga Penerima JAMKESMAS
Orang
Ekonomi
X14 Jumlah Industri Kecil dan Mikro
Unit
Metode Analisis
Metode penelitian dibagi ke dalam beberapa tahapan yang dilakukan
berkaitan dengan tujuan penelitian yaitu eksplorasi dan deskriptif data
bangkitan, analisis gerombol dengan modifikasi pemilihan titik pusat dari krataan dan metode k-rataan, serta analisis tingkat kebaikan klasifikasi pada
masing-masing metode penggerombolan.
1.
Eksplorasi data
Membuat plot dua komponen utama pada setiap kasus simulasi, guna
melihat pola data dan mengidentifikasi penggerombolan objek. Selain itu,
juga untuk menunjukkan sebaran data bangkitan, tingkat kekonsistenan
rataan, korelasi, dan ragam-peragam data bangkitan.
2.
Penggerombolan dengan metode k-rataan
Penggerombolan data dengan menggunakan metode k-rataan dengan
langkah-langkah (Mattjik dan Sumertajaya 2011):
i. Menentukan sebanyak gerombol yang ingin dibentuk sebagai titik
pusat awal secara acak dari keseluruhan pengamatan.
ii. Menempatkan setiap data atau objek ke gerombol terdekat.
Kedekatan dua objek ditentukan berdasarkan jarak. Jarak yang
umum dipakai pada algoritma k-rataan adalah jarak Euclid, yaitu:
7
(1)
dengan
d(i,j)
= jarak antara pengamatan i ke pengamatan j
Xik
= nilai pengamatan i pada gerombol ke-k
Xjk
= nilai pengamatan j pada gerombol ke-k
p
= banyaknya peubah yang diamati
iii. Menghitung kembali pusat gerombol dengan keanggotaan gerombol
yang baru. Pusat gerombol merupakan rata-rata dari seluruh data
dalam gerombol tertentu.
iv. Menugaskan kembali setiap objek dengan menggunakan pusat
gerombol yang baru. Jika pusat gerombol sudah tidak berubah lagi,
maka proses penggerombolan selesai. Atau kembali lagi ke langkah
iii sampai pusat gerombol tidak berubah.
3. Penggerombolan data dengan menggunakan metode modifikasi
pemilihan titik pusat awal dari k-rataan terdiri dari dua tahapan (Sujatha
dan Sona 2013):
a. Tahap 1: menentukan titik pusat awal gerombol dengan
menggunakan algoritma 1.
Masukkan:
L = {l1, l2,…, ln} (titik pengamatan sejumlah n)
k = jumlah gerombol yang ingin dibentuk.
n = banyaknya pengamatan.
Hasil: titik pusat untuk setiap gerombol.
Proses:
1. Menentukan jumlah gerombol k yang ingin dibentuk sebanyak
Am (1
DARI METODE GEROMBOL K-RATAAN
ROSE MAWATI
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul Modifikasi Metode
Pemilihan Titik Pusat Awal dari Metode Gerombol K-Rataan adalah benar karya
saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk
apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau
dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Maret 2014
Rose Mawati
NRP G151110051
RINGKASAN
ROSE MAWATI. Modifikasi Metode Pemilihan Titik Pusat Awal dari Metode
Gerombol K-Rataan. Dibimbing oleh I MADE SUMERTAJAYA dan FARIT
MOCHAMAD AFENDI.
Analisis gerombol merupakan salah satu teknik peubah ganda, yang tujuan
utamanya adalah mengelompokkan objek berdasarkan kemiripan atau
ketidakmiripan karakteristik-karakteristiknya sehingga pengamatan-pengamatan
yang terdapat di dalam suatu gerombol memiliki kesamaan yang tinggi sesuai
dengan kriteria pemilihan yang ditentukan. Metode penggerombolan memiliki dua
pendekatan, yaitu metode hirarki dan metode tidak berhirarki. Penentuan jumlah
gerombol yang terbentuk untuk dua metode ini dilakukan sesuai dengan keinginan
peneliti atau berdasarkan literatur.
Salah satu metode dalam gerombol tak berhirarki yaitu metode k-rataan. Krataan merupakan metode gerombol yang paling sederhana dan umum.
Karakteristik k-rataan yaitu kinerja komputasi yang baik, serta cepat dalam
proses penggerombolan, tetapi k-rataan sangat sensitif pada pembangkitan titik
pusat awal secara acak sehingga hasil penggerombolan dengan k-rataan bersifat
tidak unik.
Pada penelitian ini, k-rataan dibandingkan dengan metode modifikasi
pemilihan titik pusat awal dari k-rataan. Menurut Sona dan Sujatha (2013) metode
ini difokuskan untuk memilih titik pusat awal dalam meningkatkan kinerja dari
algoritma penggerombolan k-rataan. Kinerja penggerombolan metode modifikasi
pemilihan titik pusat dari k-rataan ini akan dibandingkan melalui data simulasi,
dan selanjutnya menerapkan metode modifikasi pemilihan titik pusat awal dari krataan pada penggerombolan desa di Provinsi Bengkulu.
Data yang digunakan dalam penelitian ini terdiri dari dua sumber yaitu data
simulasi dan data sekunder. Data simulasi berupa data bangkitan dari sebaran
normal ganda (μ,Ʃ ) yang berguna untuk mengukur kinerja metode modifikasi
titik pusat awal dari k-rataan dan metode k-rataan dalam mengelompokkan
objek/pengamatan. Data sekunder yang digunakan dalam penelitian ini berupa
dokumentasi tertulis data Potensi Desa (Podes) yang diperoleh dari BPS untuk
Provinsi Bengkulu tahun 2011.
Data simulasi yang digunakan dalam penelitian ini merupakan data dengan
sebaran normal ganda, dan tipe data numerik yang terdiri dari tiga gerombol, dan
masing-masing gerombol terdiri dari tiga peubah. Pembangkitan data simulasi
yang digunakan terbagi dalam tiga kondisi jarak antar pusat gerombol. Kondisi
jarak antar pusat gerombol yang digunakan yaitu pusat antar gerombol
berdekatan, pusat antar gerombol memiliki jarak sedang, dan pusat antar
gerombol jauh. Setiap kasus diterapkan untuk data ukuran kecil (n=300), sedang
(n=900), dan besar (n=1500).
Metode modifikasi pemilihan titik pusat awal dari k-rataan jauh lebih
unggul dibandingkan dengan metode k-rataan berdasarkan jumlah iterasi yang
terbentuk, apabila tidak ada lagi anggota dari masing-masing gerombol yang
berpindah posisi (konvergen). Jumlah iterasi pada metode modifikasi dari
pemilihan titik pusat k-rataan akan meningkat apabila keragaman dari data
semakin besar.
Hasil penggerombolan data dengan metode modifikasi ini ditentukan
berdasarkan tujuan penggerombolan yang menggunakan data potensi desa, dalam
melihat kelengkapan sarana dan prasarana di desa pada Provinsi Bengkulu.
Penggerombolan ini ditetapkan menjadi tiga gerombol, yaitu: desa yang memiliki
sarana dan prasarana yang memadai; gerombol yang anggotanya adalah desa
dengan sarana dan prasarana yang kurang memadai; dan gerombol ketiga
beranggotakan desa memiliki sarana prasarana cukup memadai.
Kata kunci: k-rataan, modifikasi titik pusat awal, penggerombolan, Provinsi
Bengkulu
SUMMARY
ROSE MAWATI. Modified Method of Selection Initial Centroid in K-Means
Clustering. Supervised by I MADE SUMERTAJAYA and FARIT MOCHAMAD
AFENDI.
Cluster analysis is one of multivariate technique, clustering is a process of
classifying object into groups which have similarity. The result of clustering will
show that objects in one cluster will be more homogeneous than others. There are
two methods in classic clustering analysis i.e. hierarchical clusters method and
non-hierarchical cluster method. Determination of the number of clusters which
formed by them is done subjectively or based on literature.
One of the non-hierarchical cluster method is k-means clustering.
Characteristics of k-means clustering is a good computational performance, but kmeans clustering is very sensitive to select initial centroid because k-means
method select initial centroid random from data so that the results of the k-means
clustering are not unique.
In this research, k-means method was compared with modified method of
selection initial centroid in k-means. According to Sona and Sujatha (2013), the
method of centroid selection is focused on improving performance of k-means
clustering algorithm. Performance of modification method in selecting initial
centroid will be compared in simulation data, and then apply the modified method
in secondary data.
The data in this research consist of two sources i.e. simulated data and
secondary data. Simulated data were generated data multivariate normal
distribution (μ,Ʃ ) which useful to measure the performance of modified method
of selection initial centroid in k-means and k-means method. Secondary data
which used in this research, BPS’s data in Bengkulu province was village
potential data in 2011.
Simulation data were the generated data numeric type which consisted of
three clusters, and each cluster consist of three variables. Simulation data is
divided into three conditions i.e a). distance between each centroid near, b).
distance between each centroid medium, c). distance between each centroid far.
Every data condition applied in small (n=300), medium (n=900), and lagre
number (n=1500).
Modification method of selection initial centroid in k-means has better
performance than k-means clustering method. It is based on number iterations is
formed, there is no member of each clusters that switch positions (convergent).
The number of iterations on the modified method of selection initial centroid in kmeans method will increase if the variance from data is enhanced.
The results of modified method of seletion initial centroid in k-means
method is determined into three clusters. It is based on purpose of clustering by
village potential data for view infrastructure and facilities in Bengkulu province.
This clustering is villages with adequate infrastructure, villages with inadequate
infrastructure, and villages with lack adequate infrastructure.
Keywords: Bengkulu province, clustering, k-means, modified selection initial
centroid
© Hak Cipta Milik IPB, Tahun 2014
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB
i
MODIFIKASI METODE PEMILIHAN TITIK PUSAT AWAL DARI METODE
GEROMBOL K-RATAAN
ROSE MAWATI
Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
pada
Program Studi Statistika
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014
ii
Penguji Luar Komisi pada Ujian Tesis: Dr. Ir. Indahwati, M.Si.
iii
Judul Tesis : Modifikasi Metode Pemilihan Titik Pusat Awal dari Metode
Gerombol K-Rataan
Nama
: Rose Mawati
NRP
: G151110051
Disetujui oleh
Komisi Pembimbing
Dr Ir I Made Sumertajaya, MSi
Ketua
Dr Farit M Afendi, SSi, MSi
Anggota
Diketahui oleh
Ketua Program Studi
Statistika
Dekan Sekolah Pascasarjana
Dr Ir Anik Djuraidah, MS
Dr Ir Dahrul Syah, MScAgr
Tanggal Ujian: 28 Februari 2014
Tanggal Lulus:
Judul Tesis : Modifikasi Metode Pemilihan Titik Pusat Awal dari Metode
Gerombol K-Rataan
Nama
: Rose Mawati
NIM
: G1 511 10051
Disetujui oleh
Komisi Pembimbing
C?"'t
_ I /"
Dr Farit M Mendi, SSi MSi
Anggota
Dr Ir I Made Sumertajaya, MSi
Ketua
Diketahui oleh
Ketua Program Studi
Statistika
Dr Ir Anik Djuraidah, MS
Tanggal Ujian: 28 Februari 201 4
Tanggal Lulus:
2 8 MAR 2014
iv
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah yang berjudul Modifikasi Metode
Pemilihan Titik Pusat Awal dari Metode Gerombol K-Rataan berhasil
diselesaikan.
Terima kasih penulis ucapkan kepada
1. Bapak Dr. Ir. I Made Sumertajaya, M.Si selaku pembimbing I dan
ketua program studi Pascasarjana Statistika dan Bapak Dr. Farit M
Afendi, S.Si, M.Si selaku pembimbing II, yang telah banyak
memberikan bimbingan dan saran dalam penyusunan karya ilmiah ini.
2. Penguji luar komisi ibu Dr. Ir. Indahwati, M.Si pada ujian tesis, yang
telah memberikan kritik dan saran dalam perbaikan penyusunan karya
ilmiah ini.
3. Kedua orangtua, papa dan mama, serta seluruh keluarga, atas segala
doa dan kasih sayangnya.
4. Sahabat mahasiswa pascasarjana Statistika dan Statistika Terapan IPB
2011 atas kebersamaannya.
Semoga karya ilmiah ini bermanfaat.
Bogor, Maret 2014
Rose Mawati
v
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vii
DAFTAR LAMPIRAN
viii
1 PENDAHULUAN
Latar Belakang
Tujuan Penelitian
1
1
2
2 METODE PENELITIAN
Data
Data Simulasi
Skenario Simulasi
Metode Simulasi
Data Sekunder
Metode Analisis
Penerapan metode modifikasi pemilihan titik pusat awal dari k-rataan
pada data sekunder
2
2
3
3
4
5
6
8
3 HASIL DAN PEMBAHASAN
8
Kondisi jarak antar pusat gerombol dekat
9
Kondisi jarak antar pusat gerombol sedang
12
Kondisi jarak antar pusat gerombol jauh
16
Penerapan metode modifikasi titik pusat awal k-rataan pada data sekunder17
Hasil penggerombolan desa dengan metode modifikasi titik pusat awal 18
4 SIMPULAN DAN SARAN
Simpulan
Saran
20
20
20
DAFTAR PUSTAKA
21
LAMPIRAN
22
RIWAYAT HIDUP
26
vi
DAFTAR TABEL
1
2
3
4
5
6
7
Kombinasi data simulasi
Indikator kelengkapan sarana dan prasarana di desa
Perbandingan jumlah iterasi pada jarak antar pusat gerombol dekat
Perbandingan jumlah iterasi pada jarak antar pusat gerombol sedang
Perbandingan jumlah iterasi pada jarak antar pusat gerombol jauh
Nilai koefisien korelasi antar peubah
Eksplorasi peubah tiap gerombol
4
5
12
16
17
18
19
vii
DAFTAR GAMBAR
1 Plot skor dua komponen utama hasil klasifikasi pada jarak antar
pusat gerombol dekat (a) ragam kecil tidak ada korelasi, (b) ragam
kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam kecil
korelasi tinggi
2 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat
gerombol dekat (a) ragam sedang tidak ada korelasi, (b) ragam sedang
korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam sedang
korelasi tinggi
3 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat
gerombol dekat (a) ragam besar tidak ada korelasi, (b) ragam besar
korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam besar
korelasi tinggi
4 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat
gerombol sedang (a) ragam kecil tidak ada korelasi, (b) ragam kecil
korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam kecil
korelasi tinggi
5 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat
gerombol sedang (a) ragam sedang tidak ada korelasi, (b) ragam
sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam
sedang korelasi tinggi
6 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat
gerombol sedang (a) ragam besar tidak ada korelasi, (b) ragam besar
korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam besar
korelasi tinggi
9
10
11
13
14
15
viii
DAFTAR LAMPIRAN
1 Plot skor dua komponen utama hasil klasifikasi pada jarak antar
pusat gerombol jauh (a) ragam kecil tidak ada korelasi, (b) ragam
kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam
kecil korelasi tinggi
2 Plot skor dua komponen utama hasil klasifikasi pada jarak antar
pusat gerombol jauh (a) ragam sedang tidak ada korelasi, (b) ragam
sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam
sedang korelasi tinggi
3 Plot skor dua komponen utama hasil klasifikasi pada jarak antar
pusat gerombol jauh (a) ragam besar tidak ada korelasi, (b) ragam
besar korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam
besar korelasi tinggi
4 Perbandingan tingkat kebaikan klasifikasi pada jarak antar pusat
gerombol dekat
5 Perbandingan tingkat kebaikan klasifikasi pada jarak antar pusat
gerombol sedang
6 Perbandingan tingkat kebaikan klasifikasi pada jarak antar pusat
gerombol jauh
22
22
23
24
24
25
1
PENDAHULUAN
Latar Belakang
Analisis gerombol merupakan salah satu teknik peubah ganda, yang tujuan
utamanya adalah mengelompokkan objek berdasarkan kemiripan karakteristik
dari pengamatan, sehingga dalam suatu gerombol memiliki kesamaan
karakteristik yang tinggi sesuai dengan kriteria penggerombolan yang ditentukan
(Hair et al. 1998). Pengamatan tersebut akan diklasifikasikan dalam satu atau
beberapa gerombol sehingga pengamatan yang berada dalam gerombol yang
sama akan mempunyai kemiripan satu dengan yang lain. Hasil dari
penggerombolan akan menunjukkan bahwa pengamatan yang berada dalam satu
gerombol akan lebih homogen dibandingkan antar gerombol.
Menurut Johnson dan Wichern (2007), dalam metode penggerombolan
dikenal dua pendekatan, yaitu metode hirarki dan metode tidak berhirarki.
Metode penggerombolan hirarki digunakan jika banyaknya gerombol yang akan
dibentuk belum diketahui sebelumnya. Sedangkan metode penggerombolan
tidak berhirarki digunakan jika banyaknya gerombol yang akan dibentuk sudah
diketahui sebelumnya. Salah satu metode dalam gerombol tak berhirarki yaitu
metode k-rataan. K-rataan merupakan metode gerombol yang paling sederhana
dan umum. K-rataan ini menggerombolkan objek berdasarkan kedekatan ukuran
jarak terhadap titik pusat masing-masing gerombol (Anderberg 1973).
Karakteristik k-rataan yaitu kinerja komputasi yang baik, serta cepat
dalam proses penggerombolan, tetapi k-rataan sangat sensitif pada pembangkitan
titik pusat awal secara acak sehingga hasil penggerombolan dengan k-rataan
bersifat tidak unik (selalu berubah-ubah), terkadang baik, terkadang jelek dan
memungkinkan suatu gerombol tidak mempunyai anggota (Andayani 2007).
Penentuan nilai pusat yang dibangkitkan secara acak ini menghasilkan
gerombol yang tidak optimal. Alternatif dari permasalahan tersebut diperlukan
suatu rancangan atau modifikasi cara pemilihan titik pusat dari metode k-rataan
(Bhatia dan Khurana 2013).
Metode dengan memodifikasi pemilihan titik pusat awal pada k-rataan ini
digunakan untuk meningkatkan kinerja dari metode k-rataan, dengan
memperbaiki kekurangan metode k-rataan dalam pemilihan titik pusat awal
secara acak. Metode ini dibagi dalam dua tahapan, tahap pertama digunakan
untuk menentukan titik pusat awal, dan tahapan kedua digunakan untuk
menentukan anggota dari pengamatan pada masing-masing gerombol.
Modifikasi dari metode k-rataan dapat cepat mencapai konvergensi sehingga
waktu komputasi relatif lebih cepat dan akurat dalam hasil penggerombolan
dibandingkan dengan metode k-rataan.
Beberapa penelitian yang menggunakan k-rataan dan modifikasi
penentuan titik pusat awal dari k-rataan dalam penggerombolan objek,
diantaranya Nazeer dan Sebastian (2009) menggunakan metode modifikasi
pemilihan titik pusat awal dari k-rataan dalam menggerombolkan data terapan,
yaitu data bunga Iris dan penyakit jantung. Penelitian lain yang mengunakan
modifikasi pemilihan titik pusat awal untuk penggerombolan adalah Sona dan
Sujatha (2013), metode modifikasi pemilihan titik pusat awal dibandingkan
2
dengan metode k-rataan, dan metode pemilihan titik pusat awal dengan
mempartisi data dengan keragaman terbesar, metode ini juga diterapkan pada
data bunga Iris.
Pada penelitian ini akan dibandingkan kinerja penggerombolan metode krataan dan metode modifikasi dalam penentuan titik pusat awal dari k-rataan
melalui data simulasi, dan selanjutnya diterapkan pada data potensi desa yang
ada di provinsi Bengkulu sebagai data sekunder dengan menggunakan metode
modifikasi pemilihan titik pusat awal dari k-rataan.
Tujuan Penelitian
Berdasarkan latar belakang diatas, tujuan dari penelitian ini, yaitu:
1. Mengevaluasi dan membandingkan metode penggerombolan k-rataan, dan
metode modifikasi dalam pemilihan titik pusat awal dari k-rataan pada
data simulasi dengan beberapa kondisi jarak antar pusat gerombol.
2. Menerapkan metode modifikasi pemilihan titik pusat awal k-rataan pada
data potensi desa yang ada di provinsi Bengkulu.
2
METODE PENELITIAN
Data
Data yang digunakan dalam penelitian ini terdiri dari dua sumber yaitu
data simulasi dan data sekunder. Data sekunder yang digunakan dalam penelitian
ini berupa dokumentasi tertulis data Potensi Desa (Podes) yang diperoleh dari
BPS untuk Provinsi Bengkulu tahun 2011.
Data Simulasi
Data yang digunakan dalam penelitian ini terdiri dari dua sumber yaitu
data simulasi dan data sekunder. Data simulasi berupa data bangkitan dari
sebaran normal ganda (μ,Ʃ ) yang berguna untuk mengukur kinerja waktu
komputasi melalui proses iterasi dari metode modifikasi pemilihan titik pusat
awal dari k-rataan dan metode k-rataan.
Skenario Simulasi
Pembangkitan data simulasi yang digunakan terbagi dalam tiga kondisi
jarak antar pusat gerombol mengacu pada Anggriyani (2011). Kondisi jarak
antar pusat gerombol yang digunakan yaitu pusat antar gerombol berdekatan,
pusat antar gerombol memiliki jarak sedang, dan pusat antar gerombol jauh.
Setiap gerombol terdiri atas 3 peubah yaitu X1, X2, dan X3. Gugus data yang
dibangkitkan dalam tiga jumlah amatan yaitu nk=100, nk=300 dan nk=500 untuk
3
masing-masing gerombol k=1,2,3, sehingga Ʃ k nk = n. Penggunaan jumlah
amatan yang berbeda bertujuan untuk mengetahui efektifitas analisis gerombol
pada jumlah amatan kecil, sedang, dan besar. Setiap kasus simulasi dilakukan
hanya satu kali ulangan.
Data simulasi yang dibangkitkan merupakan data dari sebaran normal
ganda, dengan menggunakan metode Singular Value Decomposition (SVD).
Data ini terlebih dahulu dibangkitkan dari p peubah acak normal baku yang
saling bebas, yaitu Z ~ Np(0,I). Peubah X tersebut kemudian ditransformasi
menjadi peubah X = ZQ + 1µT ~ N(µ,Ʃ ). Matriks Q dapat diperoleh melalui
metode SVD, yaitu dengan menyatakan Ʃ sebagai
Ʃ =UDVT
dengan
= matriks ragam peragam berukuran pxp
Ʃ
U = matriks orthogonal yang kolom-kolomnya merupakan vektor ciri dari
T
D = matriks diagonal yang unsur-unsur diagonalnya merupakan akar ciri
dari matriks
V = matriks orthogonal yang kolom-kolomnya merupakan vektor ciri dari
T
Hasil dekomposisi matriks Ʃ tersebut digunakan untuk memperoleh matriks
Q=UD1/2VT.
Guna melihat pengaruh tingkat korelasi antara peubah terhadap hasil akhir
penggerombolan, dicobakan empat tingkat korelasi yaitu tidak ada korelasi (0),
korelasi rendah (0,3), korelasi sedang (0,5), dan korelasi tinggi (0,8). Selain
melihat pengaruh korelasi antar peubah, dalam penelitian ini dilihat juga
pengaruh dari keragamannya. Keragaman memiliki pengaruh besar terhadap
pola penyebaran dari data, semakin besar keragaman yang ditetapkan maka pola
penyebaran data akan semakin acak atau saling tumpang tindih. Keragaman
yang ditetapkan dalam penelitian ini dibagi menjadi tiga tingkat yaitu keragaman
kecil, keragaman sedang, dan keragaman besar. Skenario simulasi ini merupakan
kombinasi dari tiga kondisi jarak antar pusat gerombol, dengan ukuran korelasi
yang berbeda, serta kombinasi dari tiga keragaman. Kombinasi data yang
digunakan dalam kajian simulasi ditunjukkan pada Tabel 1.
Metode Simulasi
Tahapan yang dilakukan dalam membangkitkan data simulasi adalah
sebagai berikut:
1. Menentukan banyak gerombol (k=3), banyak peubah (p=3) dan banyak
amatan setiap gerombol (n1=n2=n3=100), dan setiap peubah dalam gerombol
bersebaran normal ganda.
2. Menentukan parameter sebaran masing-masing gerombol, yaitu vektor
rataan (µ1,µ2,µ3), dan matriks peragam (1,2, 3). Matriks peragam tersebut
diperoleh dengan cara:
a. Menentukan matriks Sk1/2 yang merupakan matriks diagonal dengan
elemen diagonalnya adalah simpangan baku masing-masing peubah,
berdimensi 3x3.
4
b. Menentukan matriks Rk yang merupakan matriks korelasi antar
peubah.
c. Menghitung matriks peragam k = Sk1/2 Rk Sk1/2.
Jarak
Dekat
Sedang
Jauh
Tabel 1 Kombinasi data simulasi
Ukuran data
Ragam
Korelasi
(nk)
0
Kecil
0,3
0,5
0,8
0
100
Sedang
0,3
300
0,5
500
0,8
0
0,3
Besar
0,5
0,8
0
Kecil
0,3
0,5
0,8
0
100
Sedang
0,3
300
0,5
500
0,8
0
0,3
Besar
0,5
0,8
0
Kecil
0,3
0,5
0,8
0
100
Sedang
0,3
300
0,5
500
0,8
0
0,3
Besar
0,5
0,8
Kasus
Simulasi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
5
3. Membangkitkan peubah acak normal baku Z1, Z2, dan Z3, dengan
Zk~N3(0,1), untuk k=1, 2, 3 berturut-turut sebanyak n1, n2, dan n3.
4. Menguraikan setiap matriks k dengan metode SVD. Penguraian matriks
tersebut akan menghasilkan matriks U, D, dan V, dengan langkah-langkah
sebagai berikut (Jia 2013):
a. Menentukan matriks othogonal U yang kolom-kolomnya merupakan
vektor ciri dari matriks T.
U = [eu1, eu2, …, eup]
b. Menentukan matriks orthogonal V yang kolom-kolomnya
merupakan vektor ciri dari matriks T.
V = [ev1, ev2, …, evp]
c. Menentukan matriks diagonal D yang unsur-unsur diagonalnya
merupakan akar ciri dari matriks .
D = diag[λ1, λ2, …, λp]
5. Menentukan matriks Q yang diperoleh dari hasil dekomposisi pada langkah
4 dengan formula:
Q=UD1/2VT
6. Membangkitkan peubah acak normal ganda G1 sebanyak n1 untuk gerombol
1, dengan G1 ~ Np(µ1,1) dengan rumus:
G1=Z1Q+1µT
7. Membangkitkan peubah acak normal ganda G2 sebanyak n2 untuk gerombol
2, dengan G2 ~ Np(µ2,2) dengan rumus:
G2=Z2Q+1µT
8. Membangkitkan peubah acak normal ganda G3 sebanyak n3 untuk gerombol
3, dengan G3 ~ Np(µ3,3) dengan rumus:
G3=Z3Q+1µT
9. Menggabungkan ketiga gerombol tersebut menjadi sebuah kasus simulasi.
10. Ulangi tahap 2 – 9 untuk kondisi penggerombolan yang telah ditentukan.
Data Sekunder
Data sekunder yang digunakan dalam penelitian ini berupa dokumentasi
tertulis dari data Potensi Desa (Podes) yang diperoleh dari BPS untuk Provinsi
Bengkulu tahun 2011. Indikator yang digunakan untuk melihat kelengkapan
fasilitas dan sarana prasarana yang terdapat di desa disajikan pada Tabel 2.
Pengumpulan data Podes dilakukan dengan cara sensus (complete
enumeration). Pencacahan dilakukan melalui wawancara langsung oleh petugas
pencacah terhadap Kepala Desa/Lurah. Cakupan wilayah pencacahan Podes
dilakukan terhadap seluruh desa/kelurahan, termasuk unit permukiman
transmigrasi dan permukiman masyarakat tertinggal (BPS 2006).
6
Tabel 2 Indikator demografi dan fasilitas sarana prasarana yang terdapat di desa
Faktor
Indikator
Satuan
X1 Jumlah Keluarga
Keluarga
Kependudukan
X2 Jumlah Keluarga Tani
Keluarga
dan
X3 Jumlah Keluarga Buruh Tani
Keluarga
ketenagakerjaan
X4 Jumlah Warga yang Bekerja sebagai TKI
Orang
Perumahan dan X5 Jumlah Keluarga Pengguna Listrik
Keluarga
Lingkungan
Hidup
X6 Jumlah Fasilitas Pendidikan
Unit
X7 Jumlah Sarana Kesehatan
Unit
X8 Jumlah Tenaga Kesehatan
Orang
X9 Jumlah Penderita Wabah Penyakit
Orang
Pendidikan dan X10 Jumlah Penderita Gizi Buruk
Orang
Kesehatan
X11 Jumlah Kematian Balita (usia dibawah 5 Orang
tahun)
X12 Jumlah Kematian Ibu pada Masa Orang
Kehamilan/Persalinan
X13 Jumlah Warga Penerima JAMKESMAS
Orang
Ekonomi
X14 Jumlah Industri Kecil dan Mikro
Unit
Metode Analisis
Metode penelitian dibagi ke dalam beberapa tahapan yang dilakukan
berkaitan dengan tujuan penelitian yaitu eksplorasi dan deskriptif data
bangkitan, analisis gerombol dengan modifikasi pemilihan titik pusat dari krataan dan metode k-rataan, serta analisis tingkat kebaikan klasifikasi pada
masing-masing metode penggerombolan.
1.
Eksplorasi data
Membuat plot dua komponen utama pada setiap kasus simulasi, guna
melihat pola data dan mengidentifikasi penggerombolan objek. Selain itu,
juga untuk menunjukkan sebaran data bangkitan, tingkat kekonsistenan
rataan, korelasi, dan ragam-peragam data bangkitan.
2.
Penggerombolan dengan metode k-rataan
Penggerombolan data dengan menggunakan metode k-rataan dengan
langkah-langkah (Mattjik dan Sumertajaya 2011):
i. Menentukan sebanyak gerombol yang ingin dibentuk sebagai titik
pusat awal secara acak dari keseluruhan pengamatan.
ii. Menempatkan setiap data atau objek ke gerombol terdekat.
Kedekatan dua objek ditentukan berdasarkan jarak. Jarak yang
umum dipakai pada algoritma k-rataan adalah jarak Euclid, yaitu:
7
(1)
dengan
d(i,j)
= jarak antara pengamatan i ke pengamatan j
Xik
= nilai pengamatan i pada gerombol ke-k
Xjk
= nilai pengamatan j pada gerombol ke-k
p
= banyaknya peubah yang diamati
iii. Menghitung kembali pusat gerombol dengan keanggotaan gerombol
yang baru. Pusat gerombol merupakan rata-rata dari seluruh data
dalam gerombol tertentu.
iv. Menugaskan kembali setiap objek dengan menggunakan pusat
gerombol yang baru. Jika pusat gerombol sudah tidak berubah lagi,
maka proses penggerombolan selesai. Atau kembali lagi ke langkah
iii sampai pusat gerombol tidak berubah.
3. Penggerombolan data dengan menggunakan metode modifikasi
pemilihan titik pusat awal dari k-rataan terdiri dari dua tahapan (Sujatha
dan Sona 2013):
a. Tahap 1: menentukan titik pusat awal gerombol dengan
menggunakan algoritma 1.
Masukkan:
L = {l1, l2,…, ln} (titik pengamatan sejumlah n)
k = jumlah gerombol yang ingin dibentuk.
n = banyaknya pengamatan.
Hasil: titik pusat untuk setiap gerombol.
Proses:
1. Menentukan jumlah gerombol k yang ingin dibentuk sebanyak
Am (1