unsupervised mengacu pada situasi di mana tujuannya adalah untuk membangun keputusan batas permukaan klasifikasi berdasarkan data set training berlabel.
Sampel dalam set data hanya memiliki dimensi input, dan proses pembelajaran diklasifikasikan sebagai tanpa pengawasan Mehmed Kantardzic, 2011: 250-255.
2.4.2 Konsep Dasar K-means Clustering
K-means clustering, salah satu yang tertua dan paling banyak digunakan pada algoritma clustering. Penelitian tentang K-menas dapat ditelusuri kembali ke
tengah abad terakhir, yang dilakukan oleh berbagai peneliti di seluruh disiplin ilmu yang berbeda, sebagian besar terutama Lloyd 1957, 1982, Forgey 1965,
Friedman dan Rubin 1967 dan MacQueen 1967. Jain dan Dubes 1988 memberikan sejarah rinci K-means bersama dengan deskripsi dari beberapa variasi.
Gray dan Neuhoff 1998 menempatkan K-means dalam konteks yang lebih besar. Secara singkat, K-means berbasis prototipe, algoritma klasterisasi
partisional sederhana yang mencoba untuk menemukan kelompok yang tidak saling tumpang tindih. Kelompok ini diwakili oleh centroid centroid cluster biasanya
rata-rata poin dalam cluster. Proses pengelompokan K-means adalah sebagai berikut: Pertama, K-initial centroid yang dipilih, di mana ditentukan oleh pengguna
dan menunjukkan jumlah kelompok yang diinginkan. Setiap titik data ini kemudian ditugaskan ke pusat centroid terdekat, dan setiap titik yang ada ditugaskan untuk
membentuk cluster. Centroid masing-masing cluster kemudian diperbarui berdasarkan titik yang ditugaskan untuk cluster. Proses ini diulang sampai tidak ada
titik perubahan cluster Junjie, 2011: 7.
K-Means adalah salah satu algoritma clustering yang sangat popular karena kesederhanaan dan kemampuannya dalam menangani data dengan skala
besar. Namun demikian algoritma ini sangat sensitif terhadap centroid awal. Perbedaan centroid awal akan memberikan perbedaan hasil clustering dan apabila
centroid awal yang diberikan adalah centroid yang tidak baik maka dapat dipastikan hasil clustering juga tidak baik Achmad, Wahyu, 2014: 1.
K-means memiliki beberapa keuntungan yang berbeda dibandingkan dengan algoritma pengelompokan lainnya. Artinya, K-means merupakan algoritma
yang sangat sederhana dan kuat, sangat efisien, dan dapat digunakan untuk berbagai macam jenis data. Selain itu, K-means memiliki kelemahan mengenai optimasi
yang masih memiliki beberapa teori tantangan, misalnya masalah generalisasi jarak centroid. Muncul dalam data dengan sifat yang rumit, seperti skala besar, tinggi
dimensi, dan kelas ketidakseimbangan, juga perlu beradaptasi klasik K-means untuk skenario data yang berbeda. Beberapa kerugian dari K-means, seperti
berkinerja buruk untuk non-globular clusters, dan menjadi sensitif terhadap outlier, sering didominasi oleh keuntungan, dan sebagian dikoreksi oleh varian baru yang
diusulkan. Dengan metode pengelompokan berdasarkan jarak, teknik K-means yang
dianggap sebagai metode pengelompokan klasik Jain et al., 1999: 264
–323 . Salah
satu fitur utama yang membuat Kmeans berguna dalam penelitian ini adalah kemungkinan menentukan terlebih dahulu berapa banyak cluster yang sedang
dicari. Jumlah ini mengacu pada parameter K di sini mengacu pada jumlah cluster. Dari jumlah ini, poin K dipilih dalam cluster random sebagai pusat cluster. Semua
variabel ditugaskan ke pusat cluster terdekat mereka sesuai dengan metrik jarak
Euclidean. Langkah selanjutnya adalah menghitung centroid dari mean dari contoh di setiap cluster. Kemudian centroid ini diambil untuk menjadi nilai-nilai pusat
baru. Hasil algoritma K-means diterapkan pada set data. K-means merupakan teknik sederhana dan efektif, memberikan hasil yang diverifikasi dan berguna.
Berdasarkan hasil observasi dan wawancara dengan kepala unit kecelakaan lalu lintas Polrestabes Semarang, jumlah cluster ditentukan menjadi tiga cluster
diantaranya: cluster 1 yaitu cluster dengan tingkat kecelakaan rendah hati-hati, cluster 2 merupakan cluster dengan tingkat kecelakaan sedang waspada, dan
cluster 3 merupakan cluster dengan tingkat kecelakaan tertinggi berbahaya. AKP Slamet selaku kepala unit kecelakaan lalu lintas mengatakan bahwa pembagian
kategori tingkat kecelakaan berdasarkan umur tersebut menjadi tiga kategori bertujuan untuk memudahkan dalam melakukan tindakan penyelesaian masalah
apabila hasil dari penelitian telah didapatkan.
2.5. Penelitian Terdahulu