358 | Proceeding for Call Paper PEKAN ILMIAH DOSEN FEB – UKSW, 14 DESEMBER 2012
ekonomi bawah. Pada penelitian ini data yang digunakan terbatas pada data Susenas
dan pebuatan program dilakukan dengan program matlab R2009a.
Program ini
berdasarkan pada
metode k-means clustering. K-means merupakan salah satu metode clustering
non hirarki yang berusaha mempartisi data ke dalam satu atau lebih cluster kelompok
berdasarkan
jarak minimal
data ke
centroid. Metode ini mempartisi data, dimana data yang memiliki karakteristik
yang mirip dikelompokkan ke dalam cluster yang sama Agusta 2007; Santoso
2007.
2. Analisis
Cluster
Analisis cluster merupakan metode pengolahan data yang bertujuan untuk
mengelompokkan data kedalam kelompok- kelompok dimana data-data yang berada
dalam
kelompok yang
sama akan
mempunyai sifat yang mirip Agusta 2007; Santoso 2007.
2.1. K-means
K-means merupakan metode cluster berbasis jarak yang membagi data ke
dalam k-cluster, dan algoritma ini hanya bekerja pada data numerik. Pada awalnya
algoritma ini mengambil sebanyak k- centroid secara random dari data, namun
dalam penelitian ini penentuan centroid pertama kali diambil dari mean data
sebanyak k-centroid. Hitung jarak setiap data terhadap masing-masing centroid,
dalam
hal ini
penghitungan jarak
digunakan rumus euclidean. Alokasikan data ke cluster yang memiliki jarak
minimum ke centroid. Lakukan langkah tersebut hingga cluster stabil tidak
berubah.
2.2. Euclidean Distance
Untuk menghitung jarak antara data dengan centroid digunakan euclidean
disatnce. Jarak dihitung menggunakan persamaan satu Santoso 2007; Supranto
2004 :
‖ ‖
√∑ 1
dimana : dimensi data
2.3. Menilai Kualitas Cluster
Metode yang
digunakan untuk
menilai kualitas cluster dianggap ideal adalah batasan variance, yaitu dengan
menghitung kepadatan cluster berupa variance within cluster
dan variance between cluster
Cluster yang ideal memiliki
minimum yang
mempresentasikan internal homogenity dan
maksimum yang
mempresentasikan external homogenity Saepulloh 2010.
2 Menghitung nilai variance tiap cluster
dapat dilakukan menggunakan persamaan tiga :
∑ ̅̅̅
3 dimana
: variance pada cluster ke- ,
, : banyaknya cluster
: banyaknya data pada cluster ke- : data ke-
pada cluster ke- ̅̅̅ : rata-rata dari data pada cluster ke-
Selanjutnya untuk menghitung variance within cluster Vw dapat dihitung dengan
persamaan empat :
∑ 4
dimana : variance dalam cluster
APLIKASI K-MEANS... Tinus Septioko, Hanna Arini Parhusip, Tundjung Mahatma
359
: banyaknya data Variance between cluster Vb dihitung
menggunakan persamaan lima : ∑
̅̅̅ ̅ 5
dimana ̅ : rata-rata
̅̅̅ .
3. Metode Penelitian