Algoritma K-Means Penelitian Terdahulu

Gambar 2.4 Ilustrasi prosedur linkage dari dua cluster Izenman, 2008

2.5. Algoritma K-Means

K-Means merupakan salah satu algoritma unsupervised learning yang paling sederhana untuk menyelesaikan masalah clustering. Prosedur ini dengan sederhana dan mudah mengklasifikasikan kumpulan data tertentu melalui jumlah cluster tertentu k cluster yang sebelumnya telah ditetapkan MacQueen, 1967. K-Means merupakan salah satu metode data clustering non hirarki yang mempartisi data ke dalam cluster sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok lain sehingga data yang berada dalam satu clusterkelompok memiliki tingkat variasi yang kecil Agusta, 2007. Tujuan dari data clustering adalah meminimalisasikan objective function yang diset dalam proses clustering, yang pada umumnya berusaha meminimalisasikan variasi di dalam suatu cluster dan memaksimalkan variasi antar cluster. Penggunaan algoritma untuk proses clustering tergantung pada data yang ada dan konklusi yang ingin dicapai. Sehingga digunakan algoritma K-Means karena algoritma ini memuat aturan bahwa jumlah cluster perlu diinputkan dan anya memiliki atribut bertipe numerik. Universitas Sumatera Utara Langkah awal, centroid dipilih secara acak dari k buah data. Lalu, dengan menggunakan Euclidean Distance dilakukan penghitungan jarak antara data dan centroid. Data ditempatkan dalam cluster yang terdekat, yang dihitung dari titik tengah cluster. Jika semua data telah ditempatkan dalam cluster terdekat maka centroid baru akan ditentukan. Proses penentuan centroid dan penempatan data dalam cluster diulangi sampai nilai centroid konvergen centroid dari semua cluster tidak berubah lagi.

2.6. Penelitian Terdahulu

Pada bagian ini akan dijabarkan beberapa penelitian terdahulu. Hierarchical K-Means telah digunakan untuk beberapa penelitian seperti yang dilakukan oleh Widyasari pada penelitian “Analisis Penerapan Metode Single Linkage dan K-Means untuk Pewilayahan Pola Hujan Provinsi Sumatera Selatan Berbasis Arc View ”. Penelitian lain dilakukan oleh Tahta Alfina, dkk pada tahun 2012 dengan judul “Analisa Perbandingan Metode Hierarchical Clustering, K-means dan Gabungan Keduanya dalam Cluster Data Studi kasus : Problem Kerja Praktek Jurusan Teknik Industri ITS”. Rendy Handoyo pada tahun 2014 juga melakukan penelitian dengan judul “Perbandingan Metode Clustering Menggunakan Metode Single Linkage Dan K - Means Pada Pengelompokan Dokumen ”. Dan Kohei Arai dan Ali Ridho Barakbah melakukan penelitian dengan judul “Hierarchical K-means: an algorithm for centroids initialization for K-means ” Untuk lebih jelasnya, pada tabel 2.1 akan dijelaskan penelitian - penelitian yang telah dilakukan sebelumnya. Tabel 2.1. Penelitian Terdahulu No Judul Penelitian Tahun Keterangan 1 Analisis Penerapan Metode Single Linkage dan K-Means untuk Pewilayahan Pola Hujan Provinsi Sumatera Selatan Berbasis Arc View 2013  Perwilayahan di provinsi Sumatera Selatan dibagi menjadi 7 cluster  Hasil cluster dan analisis baik Universitas Sumatera Utara 2 Analisa Perbandingan Metode Hierarchical Clustering, K- means dan Gabungan Keduanya dalam Cluster Data Studi kasus : Problem Kerja Praktek Jurusan Teknik Industri ITS 2012  Kombinasi algoritma hierarchical clustering dan K-Means menghasilkan pengelompokan data yang lebih baik jika dibandingkan dengan K- Means dalam semua pengujian 3 Perbandingan Metode Clustering Menggunakan Metode Single Linkage Dan K - Means Pada Pengelompokan Dokumen 2014  Performansi metode Single Linkage lebih baik daripada metode K-means  Jumlah cluster memberikan pengaruh Tabel 2.1. Penelitian Terdahulu Lanjutan terhadap nilai silhouette dan Purity  Jumlah dokumen memberikan pengaruh terhadap nilai Silhouette Coefficient 4 Hierarchical K-means: an algorithm for centroids initialization for K-means 2007 Menghasilkan waktu komputasi yang lebih singkat dibandingkan dengan algoritma lain yang digunakan seperti Single Linkage, Centroid Linkage, Complete Linkage, Average Linkage, Fuzzy c-means,dan K- means using random init. Universitas Sumatera Utara

BAB 3 ANALISIS DAN PERANCANGAN SISTEM