Normalisasi ZScore Variance Initialization

17

2.2. K-Means Clustering

K Means clustering merupakan metode yang populer digunakan untuk mendapatkan deskripsi dari sekumpulan data dengan cara mengungkapkan kecenderungan setiap individu data untuk berkelompok dengan individu- individu data lainnya. Kecenderungan pengelompokan tersebut didasarkan pada kemiripan karakteristik tiap individu data yang ada. Ide dasar dari metode ini adalah menemukan pusat dari setiap kelompok data yang mungkin ada untuk kemudian mengelompokkan setiap data individu kedalam salah satu dari kelompok-kelompok tersebut berdasarkan jaraknya Turban dkk., 2005. Semakin dekat jarak data individual, sebut saja X1 dengan salah satu pusat dari kelompok yang ada , sebut saja A, maka semakin jelas bahwa X1 tersebut merupakan anggota dari kelompok yang berpusat di A dan semakin jelas pula bahwa X1 bukan anggota dari kelompok-kelompok yang lainnya ilustrasi dapat dilihat pada gambar 2.2. Secara kuantitatif hal ini ditunjukkan melalui fakta bahwa d1A yaitu jarak dari X1 ke A mempunyai nilai yang paling kecil jika dibandingankan dengan d1B dan d1C. 18 Gambar 2.2 Ilustrasi Penentuan Keanggotaan Kelompok Berdasarkan Jarak Turban dkk., 2005 Cara untuk menemukan pusat yang paling sesuai sebagai upaya merepresentasikan posisi dari sebuah kelompok data terhadap kelompok data yang lainnya dilakukan sebuah proses perulangan. Proses perulangan ini dimulai dengan menentukan secara sembarang posisi dari pusat-pusat kelompok yang telah ditetapkan. Selanjutnya ditentukan keanggotaan setiap individu data berdasarkan jarak terpendek terhadap pusat-pusat tersebut. Pada iterasi kedua dan seterusnya dilakukan pembaharuan posisi pusat untuk semua kelompok. Langkah selanjutnya dilakukan pembaharuan keanggotaan untuk setiap kelompok. 19

2.2.1. Langkah Algoritma K-Means clustering

Langkah-langkah dalam algoritma K-means clustering adalah Agusta, 2007 : 1. Tentukan k sebagai jumlah cluster yang di bentuk. Untuk menentukan banyaknya cluster k dilakukan dengan beberapa pertimbangan seperti pertimbangan teoritis dan konseptual yang mungkin diusulkan untuk menentukan berapa banyak cluster. 2. Bangkitkan k Centroid titik pusat cluster awal secara random. Penentuan centroid awal dilakukan secara randomacak dari objek-objek yang tersedia sebanyak k cluster, kemudian untuk menghitung centroid cluster ke-i berikutnya, digunakan rumus sebagai berikut : 2.9 dimana; : centroid pada cluster : objek ke-i n : banyaknya objekjumlah objek yang menjadi anggota cluster 3. Hitung jarak setiap objek ke masing-masing centroid dari masing-masing cluster. Untuk menghitung jarak antara objek dengan centroid penulis menggunakan Euclidian Distance. 2.10 dimana ; xi : objek x ke-i