Algoritma K-Means Clustering K-Means Clustering Algorithm

merupakan hasil dalam ruang orisinal, maka isu-isu yang berhubungan dengan masalah dimensi dapat dihindari . 2.7.4 Algoritma-algoritma Representatif 2.7.4.1 Pendahuluan Sub Bab ini merupakan sebuah bagian metodologi dari penelitian ini. Dimulai dengan penjelasan-penjelasan menenai algoritma-algoritma representatif detail yang akan digunakan dalam penelitian ini. Diberikan sebuah kajian singkat mengenai konsep dasar dari algoritma K-Means clustering dan memperluas pada algoritma Kernel K-Means clustering.

2.7.4.2 Algoritma K-Means Clustering K-Means Clustering Algorithm

K-Means MacQueen, 1967 adalah salah satu dari algoritma unsupervised learning yang paling sederhana untuk menyelesaikan masalah clustering yang telah dikenal. Prosedur ini mengikuti cara sederhana dan mudah untuk mengklasifikasikan kumpulan data tertentu melalui jumlah cluster tertentu menganggap k cluster yang telah ditetapkan sebelumnya. Gagasan utama adalah mendefinisikan centroid k, satu untuk setiap cluster. Centroid ini harus ditempatkan dengan cara yang cerdik karena lokasi yang berbeda menyebabkan hasil yang berbeda. Oleh karena itu, pilihan terbaik adalah menempatkan mereka sejauh mungkin dari satu dengan yang lain. Langkah berikutnya adalah mengambil setiap point yang termasuk pada kumpulan data tertentu dan menghubungkannya dengan centroid yang terdekat. Apabila tidak ada point yang menantikan, maka langkah pertama diselesaikan dan groupage secara dini dilakukan. Pada point ini kita perlu mengkalkulasi kembali centroid baru k dari cluster yang berasal dari langkah sebelumnya. Setelah kita memiliki centroid baru k ini, pengikatan baru harus dilakukan antara point-point kumpulan data yang sama dan centroid baru terdekat. Sebuah loop telah dihasilkan. Karena loop ini, maka kita Universitas Sumatera Utara dapat mengetahui bahwa centroid k mengubah lokasi mereka langkah demi langkah hingga tidak ada lagi perubahan yang dilakukan. Dengan kata lain, centroid tidak bergerak lagi. Akhirnya, algoritma ini membantu meminimalkan fungsi objektif, dalam hal ini sebuah fungsi kesalahan kuadrat. Sekumpulan vektor n x j , j = 1, … n, akan dibagi ke dalam kelompok- kelompok c G i, i=1,… c. Fungsi biaya didasarkan pada jarak Euclidean antara vektor- vektor x k dalam kelompok j dan pusat-pusat cluster c i � = ∑ � � � �=1 = ∑ ∑ || �,� � ∈ � � � �=1 � � − � � || 2 2.12 yang sesuai, dapat didefinisikan melalui: Dimana j i Kelompok-kelompok yang dibagi didefinisikan oleh matriks keanggotaan biner c x n, U, dimana elemen u = ∑ || �,� � ∈ � � � � − � � || 2 adalah fungsi biaya dalam kelompok i. ij adalah 1 jika point data ke-j x j termasuk pada kelompok i dan 0 atau sebaliknya. Begitu pusat cluster c i ditetapkan, peminimalan u ij 1, �� ||� � − � � || 2 ≤ |�� � − � � �| 2 , ��� ���ℎ � ≠ � 2.13 0, ��ℎ������ untuk Persamaan 2.11 dapat diperoleh sebagai berikut: Yang berarti bahwa x j termasuk pada kelompok i jika c i adalah pusat terdekat diantara semua pusat. Sebaliknya, jika matriks keanggotaan ditetapkan, yakni jika u ij ditetapkan, maka pusat optimal c i yang meminimalkan persamaan 2.12 adalah � � � | � � | ∑ � � �,� � ∈� � R k rata- rata dari semua vektor dalam kelompok i : 2.14 Dimana| G i | adalah ukuran dari G i, Algoritma dipresentasikan dengan kumpulan data x or| � � | = ∑ � � �=1 R ij i , i = 1,…, n ; kemudian menentukan pusat cluster c i dan matriks keanggotaan U secara iteratif dengan menggunakan langkah berikut: Universitas Sumatera Utara Algoritma 2.1 Langkah 1 Menginisialisasikan pusat cluster, c i Ini biasanya dilakukan melalui pemilihan secara acak point- point c diantara semua point-point data. , i=1,…,c. Langkah 2 Menentukan matriks keanggotaan U melalui persamaan 2.11. Langkah 3 Menghitung fungsi biaya menurut persamaan 2.10. Hentikan jika berada dibawah nilai toleransi tertentu atau perbaikannya terhadap iterasi sebelumnya adalah dibawah batas ambang tertentu. Langkah 4 Perbaharui pusat-pusat cluster menurut persamaan 6.12. Lanjutkan ke langkah 2. Walaupun dapat dibuktikan bahwa prosedur tersebut akan selalu berakhir, algoritma k-means tidak perlu mencari konfigurasi yang paling optimal, yang sesuai dengan minimum fungsi objektif global. Algoritma ini juga secara signifikan sensitif terhadap pusat-pusat cluster yang dipilih secara acak pada awalnya. Algoritma k- means dapat dijalankan beberapa kali untuk mengurangi efek ini.

2.7.4.3 Kernel K-Means Clustering