Algoritma k-Means Tinjauan Teoritis .1 Analisis Berbasis Cluster

dissimilarity. Artinya, data-data dengan ketidakmiripan jarak yang kecildekat maka lebih besar kemungkinannya untuk bergabung dalam satu cluster. Metrik yang umum digunakan untuk ketidakmiripannya adalah Euclidean. Prasetyo, 2014:190 Prasetyo menyatakan, pada saat data sudah dihitung ketidakmiripan terhadap setiap centroid, maka selanjutnya dipilih ketidakmiripan yang paling kecil sebagai cluster yang akan diikuti sebagai relokasi data pada cluster di sebuah iterasi. Relokasi sebuah data dalam cluster yang diikuti dapat dinyatakan dengan nilai keanggotaan a yang bernilai 0 atau 1. Nilai 0 jika tidak menjadi anggota sebuah data cluster, hanya satu yang bernilai 1, sedangkan lainnya 0 seperti dinyatakan oleh persamaan berikut = { , arg min{ , } , .........................................6.3.1 dx i ,c j menyatakan ketidakmiripan jarak dri data ke-i ke cluster c j . Sementara relokasi centroid untuk mendapatkan titik centroid C didapatkan dengan menghitung rata-rata setiap fitur dari semua data yang tergabung dalam setiap cluster. Rata-rata sebuah fitur dari semua data dalam sebuah cluster dinyatakan oleh persamaan berikut: C = ∑ X NK = ……………………………… 6.3.2 Nk adalah jumlah data yang tergabung dalam cluster. Jika diperhatikan dari langkahnya yang selalu memilih cluster terdekat, maka sebenarnya K=-Means berusaha untuk meminimalkan fungsi objektiffungsi biaya non-negatif, seperti dinyatakan oleh persamaan berikut: = ∑ ∑ , � = = …………………6.3.3 Algoritma clustering dengan k-Means Prasetyo, 2014:191 1. Insialisasi: tentukan nilai k sebagai jumlah cluster yang diinginkan dan metric ketidakmiripan jarak yang diinginkan. Jika perlu, tetapkan ambang batas perubahan fungsi objektif fungsi dan ambang batas perubahan posisi centroid. 2. Pilih K data dari set data X sebagai centroid. 3. Alokasikan semua data ke centroid terdekat dengan metric jarak yang sudah ditetapkan memperbarui cluster ID setiap data. 4. Hitung kembali centroid C berdasarkan data yang mengikuti clusteri masing- masing. 5. Ulangi langkah 3 dan 4 hingga kondisi konvergen tercapai, yaitu a perubahan fungsi objektif sudah di bawah ambang batas yang diinginkan; atau b tidak ada data yang berindah cluster; atau c perubahan posisi centroid sudah di bawah ambang batas yang ditetapkan. Algoritma k-means disajikan pada Algoritma k-means mengelompokkan set data x dalam langkah iterative. Berikut dua langkah utamanya, yaitu 1 penentua kembali ID cluster dari semua titik data dalam X, da 2 memperbarui representasi cluster centroid berdasarkan titik data dalam setiap cluster.Algoritma bekerja sebagai berikut: Pertama, representasi cluster diinisialisasi dengan memilih k data daa ℜ secara acak.Selanjutnya, secara iterative melakukan dua langkah berikut sampai tercapai kondisi konvergen. Langkah 1: Data assignment. Setiap data ditetapkan ke centroid terdekat dengan pemecahan hubungan apa adanya. Hasilnya berupa data yang terpartisipasi. Langkah 2: Relocation of “means”. Setiap representasi cluster direlokasi ke pusat center dengan rata-rata aritmetika dari semua data yang ditetapkan masuk ke dalamnya. Rasionalnya langkah ini didasarkan pada observasi bahwa dalam memberikan set titik, representasi tunggal yang terbaik untuk set tersebut dalam hal meminimalkan jumlah kuadrat jarak Euclidean diantara setiap titik data dan representative adalah dari rata-rata dari titik data. Hal ini jugalah yang menyebabkan metode ini sering disebut dengan cluster mean atau cluster mean atau cluster centroid, seperti nama yang dimiliki. Algoritma k-Means mencapai kondisi konvergen ketika pengalokasian kembai titik data dan juga lokasi centroid c 1 tidak lagi berubah. Proses dari iterasi higga dicapai kondisi konvergen juga dapat diamati dari nilai fungsi obyektif yang didapatkan. Pada kondisi yang semakin konvergen dapat diamati bahwa nilai fungsi objekti akan semakin menurun.

2.1.4 Algoritma k-Modes

Algoritma k-Means hanya dapat bekerja dengan baik untuk set data yang tipe data nya numerik interval atau rasio, namun tidak dapat digunakan untuk fitur kategorikal nominal atau ordinal. Untuk menyelesaikan masalah tersebut, k- Modes melakukan modifikasi pada k-Means sebagai berikut Prasetyo, 2014 : 1. Menggunakan ukuran pencocokan ketidakmiripan sederhana pada fitur data bertipe kategorikal. 2. Mengganti mean cluster dengan modus nilai yang paling sering muncul. 3. Menggunakan metode berbasis frekuensi untuk mencari modus dari sekumpulan nilai. Andaikan X dan Y adalah dua data dengan fitur bertipe kategorikal. Ukuran ketidakmiripan di antara X dan Y dapat diukur dengan jumlah ketidakcocokan nilai dari fitur yang berkorespondensi dari dua data. Semakin keil nilai ketidakcocokan, maka semakin mirip dua data tersebut. Metrik seperti ini sering disebut dengan pencocokan sederhana simple matching yang diusulkan oleh Kaufman dan Rousseeuw 1990 pada Prasetyo, 2014. Formula yang digunakan seperti pada persamaan berikut: , = ∑ ∈ � = , …………… 2.2.4.1 r adalah jumlah fitur, sedangkan  adalah nilai pencocokan seperti pada persamaan berikut: ∈ x , y = { = ≠ ……………. 2.2.4.2 Misalkan X adalah set data yang nilai fiturnya bertipe kategorikal, A 1 , A 2 , ...A n ,maka modus dari X = X 1 , X 2 ,…….. X n adalah data Q = q 1 , q 2 ,…….. q n yang meminimalkan nilai seperti pada persamaan : , = ∑ = , …………… 2.2.4.4 Untuk persamaan 6.4.4, vector Q merupakan vector yang bukan bagian dari X. Andaikan , adalah jumlah objek yang dimiliki oleh kategori ke-k pada atribut A j dan f r A j = |X= � adalah frekuensi relatif kategori , dalam X. Maka fungsi DX,Q akan minimal jika f r A j = � |X f r A j = |X untuk q j ≠ untuk semua j= 1, ….., r. Yang perlu ditekankan dalam masalah modus adalah bahwa modus dari set data X tidak bersifat unik. Misalnya modus dari set {[a,b], [a,c], [c,b], [b,c]} bisa didapat [a,b] atau [a,c]. Fungsi objektif yang digunakan dalam K-Modes seperti pada persamaan berikut: = ∑ ∑ ∑ , ∈ , , � , � = = = ……….2.2.4.5 ∈ adalah nilai pencocokan seperti pada persamaan 8.15 antara vector dengan modus cluster yang diikuti, sedangkan , ∈ adalah nilai keanggotaan data dapat setiap cluster. , ∈ memiliki nilai [0,1] yang didapatkan dari persamaan w , { , , � , = , … , , = , … , ≠ ……………2.2.4.6 k adalah jumlah cluster, sedangkan n adalah jumlah data dalam cluster. Adapun algoritma k-Modes Prasetyo, 2014. 1. Pilih k data sebagai inisialisasi centroid modus, satu untuk setiap cluster. 2. Alokasikan data ke cluster dengan modusnya terdekat menggunakan persamaan 6.4.1. 3. Perbarui modus sebagai centroid dari setiap cluster dengan nilai kategori yang sering muncul pada setiap cluster. Ulangi langkah 2 dan 3 selama masih memenuhi syarat: 1 masih ada data yang berpindah cluster, atau 2 perubahan nilai fungsi objektif masih di bawah ambang batas yang ditentukan.