17
2.2. K-Means Clustering
K Means clustering merupakan metode yang populer digunakan untuk
mendapatkan deskripsi dari sekumpulan data dengan cara mengungkapkan kecenderungan setiap individu data untuk berkelompok dengan individu-
individu data lainnya. Kecenderungan pengelompokan tersebut didasarkan pada kemiripan karakteristik tiap individu data yang ada. Ide dasar dari
metode ini adalah menemukan pusat dari setiap kelompok data yang mungkin ada untuk kemudian mengelompokkan setiap data individu
kedalam salah satu dari kelompok-kelompok tersebut berdasarkan jaraknya Turban dkk., 2005. Semakin dekat jarak data individual, sebut saja X1
dengan salah satu pusat dari kelompok yang ada , sebut saja A, maka semakin jelas bahwa X1 tersebut merupakan anggota dari kelompok yang
berpusat di A dan semakin jelas pula bahwa X1 bukan anggota dari kelompok-kelompok yang lainnya ilustrasi dapat dilihat pada gambar 2.2.
Secara kuantitatif hal ini ditunjukkan melalui fakta bahwa d1A yaitu jarak dari X1 ke A mempunyai nilai yang paling kecil jika dibandingankan
dengan d1B dan d1C.
18
Gambar 2.2 Ilustrasi Penentuan Keanggotaan Kelompok Berdasarkan Jarak Turban dkk., 2005
Cara untuk menemukan pusat yang paling sesuai sebagai upaya merepresentasikan posisi dari sebuah kelompok data terhadap kelompok
data yang lainnya dilakukan sebuah proses perulangan. Proses perulangan ini dimulai dengan menentukan secara sembarang posisi dari pusat-pusat
kelompok yang telah ditetapkan. Selanjutnya ditentukan keanggotaan setiap individu data berdasarkan jarak terpendek terhadap pusat-pusat tersebut.
Pada iterasi kedua dan seterusnya dilakukan pembaharuan posisi pusat untuk semua kelompok. Langkah selanjutnya dilakukan pembaharuan keanggotaan
untuk setiap kelompok.
19
2.2.1. Langkah Algoritma K-Means clustering
Langkah-langkah dalam algoritma K-means clustering adalah Agusta, 2007 :
1. Tentukan k sebagai jumlah cluster yang di bentuk. Untuk menentukan banyaknya cluster k dilakukan dengan beberapa
pertimbangan seperti pertimbangan teoritis dan konseptual yang mungkin diusulkan untuk menentukan berapa banyak cluster.
2. Bangkitkan k Centroid titik pusat cluster awal secara random. Penentuan centroid awal dilakukan secara randomacak dari objek-objek
yang tersedia sebanyak k cluster, kemudian untuk menghitung centroid cluster
ke-i berikutnya,
digunakan rumus sebagai berikut :
2.9 dimana;
: centroid pada cluster : objek ke-i
n : banyaknya objekjumlah objek yang menjadi anggota cluster
3. Hitung jarak setiap objek ke masing-masing centroid dari masing-masing cluster.
Untuk menghitung jarak antara objek dengan centroid penulis menggunakan Euclidian Distance.
2.10 dimana ; xi : objek x ke-i