2.4. Algoritma K-Means
K-Means MacQueen, 1967 adalah salah satu dari algoritma unsupervised learning yang paling sederhana untuk menyelesaikan masalah clustering yang telah dikenal.
Prosedur ini mengikuti cara sederhana dan mudah untuk mengklasifikasikan kumpulan data tertentu melalui jumlah cluster tertentu menganggap k cluster yang
telah ditetapkan sebelumnya.
Gagasan utama adalah mendefinisikan centroid k, satu untuk setiap cluster. Centroid ini harus ditempatkan dengan cara yang cerdik karena lokasi yang berbeda
menyebabkan hasil yang berbeda. Oleh karena itu, pilihan terbaik adalah menempatkan mereka sejauh mungkin dari satu dengan yang lain. Langkah berikutnya
adalah mengambil setiap point yang termasuk pada kumpulan data tertentu dan menghubungkannya dengan centroid yang terdekat. Apabila tidak ada point yang
menantikan, maka langkah pertama diselesaikan dan groupage secara dini dilakukan. Pada point ini kita perlu mengkalkulasi kembali centroid baru k dari cluster yang
berasal dari langkah sebelumnya. Setelah kita memiliki centroid baru k ini, pengikatan baru harus dilakukan antara point-point kumpulan data yang sama dan centroid baru
terdekat. Sebuah loop telah dihasilkan. Karena loop ini, maka kita dapat mengetahui bahwa centroid k mengubah lokasi mereka langkah demi langkah hingga tidak ada
lagi perubahan yang dilakukan. Dengan kata lain, centroid tidak bergerak lagi. Akhirnya, algoritma ini membantu meminimalkan fungsi objektif, dalam hal ini
sebuah fungsi kesalahan kuadrat.
Dari beberapa teknik clustering yang paling sederhana dan umum dikenal adalah clustering k-means Santosa, 2007. K-Means merupakan salah satu metode
data clustering non hirarki yang mempartisi data ke dalam cluster sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama
dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok lain Agusta, 2007. Adapun tujuan dari data clustering ini adalah untuk
meminimalisasikan objective function yang diset dalam proses clustering, yang pada
umumnya berusaha meminimalisasikan variasi di dalam suatu cluster dan memaksimalkan variasi antar cluster
.
Pada dasarnya penggunaan algoritma dalam melakukan proses clustering tergantung dari data yang ada dan konklusi yang ingin dicapai. Untuk itu digunakan
algoritma K-Means yang didalamnya memuat aturan sebagai berikut:
1. Jumlah cluster perlu diinputkan.
2. Hanya memiliki atribut bertipe numerik.
Untuk tahap awal, algoritma k-means memilih secara acak k buah data sebagai centroid. Kemudian, jarak antara data dan centroid dihitung dengan menggunakan
Euclidean Distance. Data ditempatkan dalam cluster yang terdekat, dihitung dari titik tengah cluster. Centroid baru akan ditentukan bila semua data telah ditempatkan
dalam cluster terdekat. Proses penentuan centroid dan penempatan data dalam cluster diulangi sampai nilai centroid konvergen centroid dari semua cluster tidak berubah
lagi.
Algoritma K-Means pada dasarnya melakukan dua proses, yaitu proses pendeteksian lokasi pusat tiap cluster dan proses pencarian anggota dari tiap-tiap
cluster. Cara kerja algoritma K-Means:
1. Tentukan k sebagai jumlah cluster yang ingin dibentuk.
2. Bangkitkan k centroid titik pusat cluster awal secara random.
3. Hitung jarak setiap data ke masing-masing centroid.
4. Setiap data memilih centroid yang terdekat.
5. Tentukan posisi centroid yang baru dengan cara menghitung nilai rata-rata
dari data yang terletak pada centroid yang sama. 6.
Kembali ke langkah 3 jika posisi centroid baru dengan centroid yang lama tidak sama.
2.5. Market Basket Analysis