Konsep Dasar K-means Clustering

unsupervised mengacu pada situasi di mana tujuannya adalah untuk membangun keputusan batas permukaan klasifikasi berdasarkan data set training berlabel. Sampel dalam set data hanya memiliki dimensi input, dan proses pembelajaran diklasifikasikan sebagai tanpa pengawasan Mehmed Kantardzic, 2011: 250-255.

2.4.2 Konsep Dasar K-means Clustering

K-means clustering, salah satu yang tertua dan paling banyak digunakan pada algoritma clustering. Penelitian tentang K-menas dapat ditelusuri kembali ke tengah abad terakhir, yang dilakukan oleh berbagai peneliti di seluruh disiplin ilmu yang berbeda, sebagian besar terutama Lloyd 1957, 1982, Forgey 1965, Friedman dan Rubin 1967 dan MacQueen 1967. Jain dan Dubes 1988 memberikan sejarah rinci K-means bersama dengan deskripsi dari beberapa variasi. Gray dan Neuhoff 1998 menempatkan K-means dalam konteks yang lebih besar. Secara singkat, K-means berbasis prototipe, algoritma klasterisasi partisional sederhana yang mencoba untuk menemukan kelompok yang tidak saling tumpang tindih. Kelompok ini diwakili oleh centroid centroid cluster biasanya rata-rata poin dalam cluster. Proses pengelompokan K-means adalah sebagai berikut: Pertama, K-initial centroid yang dipilih, di mana ditentukan oleh pengguna dan menunjukkan jumlah kelompok yang diinginkan. Setiap titik data ini kemudian ditugaskan ke pusat centroid terdekat, dan setiap titik yang ada ditugaskan untuk membentuk cluster. Centroid masing-masing cluster kemudian diperbarui berdasarkan titik yang ditugaskan untuk cluster. Proses ini diulang sampai tidak ada titik perubahan cluster Junjie, 2011: 7. K-Means adalah salah satu algoritma clustering yang sangat popular karena kesederhanaan dan kemampuannya dalam menangani data dengan skala besar. Namun demikian algoritma ini sangat sensitif terhadap centroid awal. Perbedaan centroid awal akan memberikan perbedaan hasil clustering dan apabila centroid awal yang diberikan adalah centroid yang tidak baik maka dapat dipastikan hasil clustering juga tidak baik Achmad, Wahyu, 2014: 1. K-means memiliki beberapa keuntungan yang berbeda dibandingkan dengan algoritma pengelompokan lainnya. Artinya, K-means merupakan algoritma yang sangat sederhana dan kuat, sangat efisien, dan dapat digunakan untuk berbagai macam jenis data. Selain itu, K-means memiliki kelemahan mengenai optimasi yang masih memiliki beberapa teori tantangan, misalnya masalah generalisasi jarak centroid. Muncul dalam data dengan sifat yang rumit, seperti skala besar, tinggi dimensi, dan kelas ketidakseimbangan, juga perlu beradaptasi klasik K-means untuk skenario data yang berbeda. Beberapa kerugian dari K-means, seperti berkinerja buruk untuk non-globular clusters, dan menjadi sensitif terhadap outlier, sering didominasi oleh keuntungan, dan sebagian dikoreksi oleh varian baru yang diusulkan. Dengan metode pengelompokan berdasarkan jarak, teknik K-means yang dianggap sebagai metode pengelompokan klasik Jain et al., 1999: 264 –323 . Salah satu fitur utama yang membuat Kmeans berguna dalam penelitian ini adalah kemungkinan menentukan terlebih dahulu berapa banyak cluster yang sedang dicari. Jumlah ini mengacu pada parameter K di sini mengacu pada jumlah cluster. Dari jumlah ini, poin K dipilih dalam cluster random sebagai pusat cluster. Semua variabel ditugaskan ke pusat cluster terdekat mereka sesuai dengan metrik jarak Euclidean. Langkah selanjutnya adalah menghitung centroid dari mean dari contoh di setiap cluster. Kemudian centroid ini diambil untuk menjadi nilai-nilai pusat baru. Hasil algoritma K-means diterapkan pada set data. K-means merupakan teknik sederhana dan efektif, memberikan hasil yang diverifikasi dan berguna. Berdasarkan hasil observasi dan wawancara dengan kepala unit kecelakaan lalu lintas Polrestabes Semarang, jumlah cluster ditentukan menjadi tiga cluster diantaranya: cluster 1 yaitu cluster dengan tingkat kecelakaan rendah hati-hati, cluster 2 merupakan cluster dengan tingkat kecelakaan sedang waspada, dan cluster 3 merupakan cluster dengan tingkat kecelakaan tertinggi berbahaya. AKP Slamet selaku kepala unit kecelakaan lalu lintas mengatakan bahwa pembagian kategori tingkat kecelakaan berdasarkan umur tersebut menjadi tiga kategori bertujuan untuk memudahkan dalam melakukan tindakan penyelesaian masalah apabila hasil dari penelitian telah didapatkan.

2.5. Penelitian Terdahulu