Gambar 2.4 Ilustrasi prosedur linkage dari dua cluster Izenman, 2008
2.5. Algoritma K-Means
K-Means merupakan salah satu algoritma unsupervised learning yang paling sederhana untuk menyelesaikan masalah clustering. Prosedur ini dengan sederhana
dan mudah mengklasifikasikan kumpulan data tertentu melalui jumlah cluster tertentu k cluster yang sebelumnya telah ditetapkan MacQueen, 1967.
K-Means merupakan salah satu metode data clustering non hirarki yang mempartisi data ke dalam cluster sehingga data yang memiliki karakteristik yang
sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok lain sehingga data
yang berada dalam satu clusterkelompok memiliki tingkat variasi yang kecil Agusta, 2007.
Tujuan dari data clustering adalah meminimalisasikan objective function yang diset dalam proses clustering, yang pada umumnya berusaha meminimalisasikan
variasi di dalam suatu cluster dan memaksimalkan variasi antar cluster. Penggunaan algoritma untuk proses clustering tergantung pada data yang ada
dan konklusi yang ingin dicapai. Sehingga digunakan algoritma K-Means karena algoritma ini memuat aturan bahwa jumlah cluster perlu diinputkan dan anya
memiliki atribut bertipe numerik.
Universitas Sumatera Utara
Langkah awal, centroid dipilih secara acak dari k buah data. Lalu, dengan menggunakan Euclidean Distance dilakukan penghitungan jarak antara data dan
centroid. Data ditempatkan dalam cluster yang terdekat, yang dihitung dari titik tengah cluster. Jika semua data telah ditempatkan dalam cluster terdekat maka
centroid baru akan ditentukan. Proses penentuan centroid dan penempatan data dalam cluster diulangi sampai nilai centroid konvergen centroid dari semua cluster tidak
berubah lagi.
2.6. Penelitian Terdahulu
Pada bagian ini akan dijabarkan beberapa penelitian terdahulu. Hierarchical K-Means telah digunakan untuk beberapa penelitian seperti yang dilakukan oleh Widyasari pada
penelitian “Analisis Penerapan Metode Single Linkage dan K-Means untuk Pewilayahan Pola Hujan Provinsi Sumatera Selatan Berbasis Arc View
”. Penelitian lain dilakukan oleh Tahta Alfina, dkk pada tahun 2012 dengan judul “Analisa
Perbandingan Metode Hierarchical Clustering, K-means dan Gabungan Keduanya dalam Cluster Data Studi kasus : Problem Kerja Praktek Jurusan Teknik Industri
ITS”. Rendy Handoyo pada tahun 2014 juga melakukan penelitian dengan judul “Perbandingan Metode Clustering Menggunakan Metode Single Linkage Dan K -
Means Pada Pengelompokan Dokumen ”. Dan Kohei Arai dan Ali Ridho Barakbah
melakukan penelitian dengan judul “Hierarchical K-means: an algorithm for centroids initialization for K-means
” Untuk lebih jelasnya, pada tabel 2.1 akan dijelaskan penelitian - penelitian
yang telah dilakukan sebelumnya.
Tabel 2.1. Penelitian Terdahulu No
Judul Penelitian Tahun
Keterangan
1 Analisis Penerapan Metode
Single Linkage dan K-Means untuk Pewilayahan Pola Hujan
Provinsi Sumatera Selatan Berbasis Arc View
2013 Perwilayahan di provinsi
Sumatera Selatan dibagi menjadi 7 cluster
Hasil cluster dan analisis baik
Universitas Sumatera Utara
2 Analisa Perbandingan Metode
Hierarchical Clustering, K- means dan Gabungan
Keduanya dalam Cluster Data Studi kasus : Problem Kerja
Praktek Jurusan Teknik Industri ITS
2012 Kombinasi algoritma
hierarchical clustering dan K-Means menghasilkan
pengelompokan data yang lebih baik jika
dibandingkan dengan K- Means dalam semua
pengujian
3 Perbandingan Metode
Clustering Menggunakan Metode Single Linkage Dan K -
Means Pada Pengelompokan Dokumen
2014 Performansi metode Single
Linkage lebih baik daripada
metode K-means
Jumlah cluster memberikan pengaruh
Tabel 2.1. Penelitian Terdahulu Lanjutan
terhadap nilai silhouette dan
Purity
Jumlah dokumen memberikan pengaruh terhadap nilai
Silhouette Coefficient
4 Hierarchical K-means: an
algorithm for centroids initialization for K-means
2007 Menghasilkan waktu komputasi
yang lebih singkat dibandingkan dengan algoritma lain yang
digunakan seperti Single Linkage, Centroid Linkage,
Complete Linkage, Average Linkage, Fuzzy c-means,dan K-
means using random init.
Universitas Sumatera Utara
BAB 3 ANALISIS DAN PERANCANGAN SISTEM