Kernel K-Means Clustering Algoritma-algoritma Representatif .1 Pendahuluan

Algoritma 2.1 Langkah 1 Menginisialisasikan pusat cluster, c i Ini biasanya dilakukan melalui pemilihan secara acak point- point c diantara semua point-point data. , i=1,…,c. Langkah 2 Menentukan matriks keanggotaan U melalui persamaan 2.11. Langkah 3 Menghitung fungsi biaya menurut persamaan 2.10. Hentikan jika berada dibawah nilai toleransi tertentu atau perbaikannya terhadap iterasi sebelumnya adalah dibawah batas ambang tertentu. Langkah 4 Perbaharui pusat-pusat cluster menurut persamaan 6.12. Lanjutkan ke langkah 2. Walaupun dapat dibuktikan bahwa prosedur tersebut akan selalu berakhir, algoritma k-means tidak perlu mencari konfigurasi yang paling optimal, yang sesuai dengan minimum fungsi objektif global. Algoritma ini juga secara signifikan sensitif terhadap pusat-pusat cluster yang dipilih secara acak pada awalnya. Algoritma k- means dapat dijalankan beberapa kali untuk mengurangi efek ini.

2.7.4.3 Kernel K-Means Clustering

Metode kernel pertama dan barangkali yang paling tepat adalah Support Vector Machine SVM Burges, 1998, yang mengopotimalkan kriteria margin maksimum dalam ruang fitur kernel. Algoritma k-means barangkali telah menjadi teknik clustering populer sejak diperkenalkan dalam era 1960an. Ini memaksimalkan jarak Euclidean kuadrat antara pusat-pusat cluster. Meskipun demikian, telah diketahui bahwa ini hanya optimal untuk yang dapat dipisahkan secara linear cluster terdistribusi Gaussian. Metode yang berbeda untuk melaksanakan algoritma ini dalam ruang kernel yakni kernel k-means telah diperoleh. Dalam Zang Alexander, 2006 teknik optimisasi stochastic dikembangkan dengan menggunakan Universitas Sumatera Utara kernel trick, sedangkan dalam Girolami, 2002 pemetaan data aktual diperkirakan melalui eigenvector dari apa yang disebut matriks kernel. Secara eksperimental, penelitian-penelitian ini memperlihatkan bahwa keterbatasan k-means biasa telah teratasi, dan hasil yang baik dicapai juga untuk kumpulan-kumpulan data yang memiliki batasan-batasan cluster nonlinear. Motivasi untuk keinginan melaksanakan K-means dalam ruang fitur kernel dinyatakan secara longgar sebagai “masalah kemampuan memisahkan nonlinear yang dapat dielakkan oleh kelas melalui pemetaan data yang diamati pada ruang data berdimensi yang lebih tinggi dengan cara nonlinear sehingga setiap cluster untuk setiap kelas membentang ke dalam bentuk sederhana”. Meskipun demikian, tidak jelas bagaimana kernel K-means berhubungan dengan sebuah operasi pada kumpulan data ruang input. Juga tidak jelas cara menghubungkan lebar kernel dengan sifat- sifat kumpulan data input. Beberapa pemikiran yang disebutkan pada point-point ini telah dibuat dalam Girolami, 2002; Cristianini Taylor, 2000. Biasanya perluasan dari k - means ke kernel k - means direalisasi melalui pernyataan jarak dalam bentuk fungsi kernel Girolami, 2002; Muller et al 2003 Anggaplah kumpulan data memiliki N . Meskipun demikian, implementasi tersebut mengalami masalah serius seperti biaya clustering tinggi karena kalkulasi yang berulang dari nilai-nilai kernel, atau memori yang tidak cukup untuk menyimpan matriks kernel, yang membuatnya tidak dapat sesuai untuk corpora yang besar. sampel x 1 , x 2 ,… x N . Algoritma K - means bertujuan untuk membagi sampel N ke dalam cluster K, C 1 , C 2 , …, C K, dan kemudian mengembalikan pusat dari setiap cluster, m 1 , m 2 , …., m K sebagai representatif dari kumpulan data. Selanjutnya kumpulan data N-point dipadatkan ke dalam “code book” point K. Algoritma K - means clustering mode batch yang menggunakan jarak Euclidean bekerja sebagai berikut: Universitas Sumatera Utara Algoritma 2.2 Langkah 1 Pilih awal pusat K: m 1 , m 2 , …., m Langkah 2 Menentukan setiap sample x K i 1 ≤ i ≤ N pada pusat terdekat, yang membentuk cluster K. Yaitu, menghitung nilai fungsi indikator δ x i , C k , 1 ≤ k ≤ K . �, � � � , � � ��� � , � � ���� ��� � ≠ � �, ��ℎ������ Langkah 3 Hitunglah pusat baru m k untuk setiap cluster C k � � = � | � � | ∑ � � �=� � � , � � � � Dimana │C k │adalah jumlah sampel dalam C │C k k Langkah 4 Ulangi langkah 2 dan 3 hingga bertemu. │= ∑ � � �=� � � , � � � � Langkah 5 Menghasilkan m k 1 ≤ k ≤ K Isu utama yang memperluas k - means tradisional ke kernel k-means adalah adalah penghitungan jarak dalam ruang baru. Anggaplah u i = Φx i menunjukkan transformasi x i . Jarak Euclidean antara u i dan u j ditulis sebagai D : 2 u i ,u j = ║ Φx i – Φx j ║ = Φ 2 2 x i -2 Φx i Φx j + Φ 2 x j = H x i , x i - 2 H x i , x i + Hx j , x j Anggaplah z 2.15 k � � = � | � � | ∑ � � �=� � � , � � � � 2.16 adalah pusat cluster dalam ruang yang ditransformasikan dimana, Dimana �� � , � � adalah fungsi indikator. Jarak antara u i dan z k D dinyatakan sebagai berikut: 2 u i ,z k = ║ u i – 1 | c k | ∑ δ N i=1 u i , C k u i ║ 2 Universitas Sumatera Utara = H x i , x i + f x i , C k + g C k Dimana, 2.17 � � � , � � = 2 | � � | ∑ � �� � , � � � �� � , � � � �=1 2.18 g C k = 2 | � � | 2 ∑ ∑ � � �=� � �=� �� � , � � ��� � , � � �� � , � � 2.19 Perbedaan utama antara kernel k-means dengan versi tradisional k-means ada di langkah 5, dalam algoritma Kernel K-means. Karena cluster dalam ruang yang ditransformasikan tidak dapat dinyatakan secara eksplisit, maka harus memilih pseudo centre. Dengan menggunakan 2.15 pada tradisional k -means , diperoleh kernel berdasarkan algoritma K - Means sebagai berikut Algoritma 2.3 : Langkah 1 Tentupkan �� � , � � 1 ≤ i ≤ N , 1 ≤ k ≤ K dengan nilai awal, yang membentuk cluster initial K C 1 , C 2 , … , C Langkah 2 Untuk setiap cluster C K. k , hitunglah |C k | dan gC k Langkah 3 Untuk setiap sample latihan x . i dan cluster C k , hitunglah fx i , C k dan kemudian tentukan x i 1, �� � , � � + � � � � �� � , � � � + � �� � � ��� ��� � ≠ � 0, ��ℎ������ pada cluster terdekat. �� � , � � Langkah 4 Ulangi langkah 2 dan 3 hingga bertemu. Langkah 5 Untuk setiap cluster C k, , pilih sample yang terdekat dengan pusat sebagai representatif dari C k ., m k = Arg min DΦ x i , z k . X i , dimana δX i , C k = 1 Dalam Persamaan 2.5 faktor H x i , x i diabaikan karena tidak berkontribusi untuk menentukan cluster terdekat. Perbedaan utama antara kernel k- means dan versi tradisionalnya ada dalam langkah 5. Universitas Sumatera Utara

2.8 Riset-riset Terkait