K-means Euclidean Distance Menilai Kualitas Cluster

358 | Proceeding for Call Paper PEKAN ILMIAH DOSEN FEB – UKSW, 14 DESEMBER 2012 ekonomi bawah. Pada penelitian ini data yang digunakan terbatas pada data Susenas dan pebuatan program dilakukan dengan program matlab R2009a. Program ini berdasarkan pada metode k-means clustering. K-means merupakan salah satu metode clustering non hirarki yang berusaha mempartisi data ke dalam satu atau lebih cluster kelompok berdasarkan jarak minimal data ke centroid. Metode ini mempartisi data, dimana data yang memiliki karakteristik yang mirip dikelompokkan ke dalam cluster yang sama Agusta 2007; Santoso 2007.

2. Analisis

Cluster Analisis cluster merupakan metode pengolahan data yang bertujuan untuk mengelompokkan data kedalam kelompok- kelompok dimana data-data yang berada dalam kelompok yang sama akan mempunyai sifat yang mirip Agusta 2007; Santoso 2007.

2.1. K-means

K-means merupakan metode cluster berbasis jarak yang membagi data ke dalam k-cluster, dan algoritma ini hanya bekerja pada data numerik. Pada awalnya algoritma ini mengambil sebanyak k- centroid secara random dari data, namun dalam penelitian ini penentuan centroid pertama kali diambil dari mean data sebanyak k-centroid. Hitung jarak setiap data terhadap masing-masing centroid, dalam hal ini penghitungan jarak digunakan rumus euclidean. Alokasikan data ke cluster yang memiliki jarak minimum ke centroid. Lakukan langkah tersebut hingga cluster stabil tidak berubah.

2.2. Euclidean Distance

Untuk menghitung jarak antara data dengan centroid digunakan euclidean disatnce. Jarak dihitung menggunakan persamaan satu Santoso 2007; Supranto 2004 : ‖ ‖ √∑ 1 dimana : dimensi data

2.3. Menilai Kualitas Cluster

Metode yang digunakan untuk menilai kualitas cluster dianggap ideal adalah batasan variance, yaitu dengan menghitung kepadatan cluster berupa variance within cluster dan variance between cluster Cluster yang ideal memiliki minimum yang mempresentasikan internal homogenity dan maksimum yang mempresentasikan external homogenity Saepulloh 2010. 2 Menghitung nilai variance tiap cluster dapat dilakukan menggunakan persamaan tiga : ∑ ̅̅̅ 3 dimana : variance pada cluster ke- , , : banyaknya cluster : banyaknya data pada cluster ke- : data ke- pada cluster ke- ̅̅̅ : rata-rata dari data pada cluster ke- Selanjutnya untuk menghitung variance within cluster Vw dapat dihitung dengan persamaan empat : ∑ 4 dimana : variance dalam cluster APLIKASI K-MEANS... Tinus Septioko, Hanna Arini Parhusip, Tundjung Mahatma 359 : banyaknya data Variance between cluster Vb dihitung menggunakan persamaan lima : ∑ ̅̅̅ ̅ 5 dimana ̅ : rata-rata ̅̅̅ .

3. Metode Penelitian