Fungsi Kernel KERNEL K-MEANS CLUSTERING

1995. Metode-metode kernel yang sangat disupervisi telah dikembangkan untuk menyelesaikan masalah-masalah klasifikasi dan regresi. K-means adalah algoritma unsupervised learning yang membagi kumpulan data ke dalam sejumlah cluster yang dipilih dibawah beberapa ukuran-ukuran optimisasi. Sebagai contoh, kita sering ingin meminimalkan jumlah kuadrat dari jarak Euclidean antara sampel dari centroid. Asumsi di belakang ukuran ini adalah keyakinan bahwa ruang data terdiri dari daerah elliptical yang terisolasi. Meskipun demikian, asumsi tersebut tidak selalu ada pada aplikasi spesifik. Untuk menyelesaikan masalah ini, sebuah gagasan meneliti ukuran-ukuran lain, misalnya kesamaan kosinus yang digunakan dalam pencarian informasi. Gagasan lain adalah memetakan data pada ruang baru yang memenuhi persyaratan untuk ukuran optimasi. Dalam hal ini, fungsi kernel merupakan pilihan yang baik.

2.6 Fungsi Kernel

Ada kalanya tidak cukup bagi machine learning untuk bekerja dalam ruang input karena asumsi di belakang mesin tidak menyesuaikan pola riil dari data. Sebagai contoh, SVM support vector machine dan Perceptron memerlukan data yang tidak dapat dipisahkan secara linier, sedangkan K-means dengan jarak Euclidean mengharapkan data terdistribusi ke dalam daerah elliptical. Ketika asumsi tersebut tidak digunakan, maka kita dapat menggunakan beberapa jenis transformasi pada data, dengan memetakan mereka pada ruang baru dimana machine learning dapat digunakan. Fungsi Kernel memberikan kepada kita sebuah alat untuk mendefenisikan transformasi. Universitas Sumatera Utara Anggaplah kita diberikan sekumpulan sampel x 1 , x 2 , x 3 ,…, x N , dimana x i ɛ R D , dan fungsi pemetaan Φ yang memetakan x 1 dari ruang input R D k x pada ruang baru Q. Fungsi kernel didefenisikan sebagai dot product dalam ruang baru Q : i , x j = Φx i . Φx j 2.2 Sebuah fakta penting mengenai fungsi kernel adalah bahwa fungsi ini dibangun tanpa mengetahui bentuk kong krit dari Φ, yaitu transformasi yang didefinisikan secara implicit. Tiga fungsi kernel yang secara umum tercantum di bawah ini : Polynomial k x i , x j = x i . x j + 1 d Radial k x 2.3 i , x j = exp -r || x i – x j || 2 Neural k x 2.4 i , x j = tanh ax i . x j Kelemahan utama dari fungsi Kernel meliputi, pertama beberapa sifat dari ruang baru hilang, misalnya, dimensionalitas dan tingkatan nilainya, sehingga kekurangan bentuk eksplisit untuk Φ. Kedua, penentuan bentuk kernel yang tepat untuk kumpulan data tertentu harus diwujudkan melalui eksperimen-eksperimen. + b 2.5 Bahkan, biaya penghitungan dan penyimpanan meningkat menurut margin luas. Prinsip ini menjamin bahwa fungsi kernel dapat selalu diexpresikan sebagi dot product diantara dua input vector dalam beberapa ruang dimensi yang tinggi. Universitas Sumatera Utara Gambar 2.2. Proses Pemetaan Kernel

2.7. KERNEL K-MEANS CLUSTERING

Clustering adalah salah satu metode yang terkenal dalam data mining, yang digunakan untuk mendapatkan kelompok-kelompok dari data, dimana setiap objek data akan dikelompokkan kedalam satu kelompok berdasarkan kemiripannya, dan yang lainnya akan dikelompokan pada kelompok yang lain. Han,J. and Kamber,M, 2006 K-Means Clustering merupakan teknik dalam klaster data yang sangat terkenal karena kecepatannya dalam mengklasterkan data. Akan tetapi K-Means Clustering memiliki kelemahan didalam memproses data yang berdimensi banyak. Khususnya untuk masukan yang bersifat non-linierly separable. K-Means clustering juga tidak mampu mengrupkan data yang bertipe kategorikal dan juga data campuran numeric dan kategorikal. Kenyataan didunia nyata data yang tersedia atau yang diperoleh memiliki dimensi yang banyak dan juga bersifat campuran. Untuk mengatasi permasalahan ini, telah banyak diusulkan oleh para peneliti metode-metode yang dapat mengatasi kelemahan ini, salah satu diantaranya adalah Kernel K-Means Clustering L.S Dhillon, et. al, 2005. Input Space Feature Space , 2 1 2 1 x x x x k Φ • Φ = Universitas Sumatera Utara Kernel K-Means Clustering, pada prinsipnya mirip dengan K-Means tradisional, letak perbedaan yang mendasar ada pada perubahan masukannya. Dalam Kernel K-Means data point akan dipetakan pada dimensi baru yang lebih tinggi menggunakan fungsi non-linier sebelum dilakukan proses clustering Cristianini N, Taylor,J.S.2000 Kemudian Kernel K-Means akan mempartisi data menggunakan linier separator pada space yang baru. Metode kernel pertama dan barangkali yang paling tepat adalah Support Vector Machine SVM Burges, 1998, yang mengoptimalkan kriteria margin maksimum dalam ruang fitur kernel. Algoritma k-means barangkali telah menjadi teknik clustering popular sejak diperkenalkan dalam era 1960an. Ini memaksimalkan jarak Euclidean kuadrat antara pusat-pusat cluster. Meskipun demikian, telah diketahui bahwa ini hanya optimal untuk yang dapat dipisahkan secara linear cluster terdistribusi Gaussian. Metode yang berbeda untuk melaksanakan algoritma ini dalam ruang kernel yakni kernel k-means telah diperoleh. Dalam Zang dan Alexander, 2006 teknik optimasi stochastic dikembangkan dengan menggunakan kernel trick, sedangkan dalam Girolami, 2002 pemetaan data actual diperkirakan melalui eigenvector dari apa yang disebut matriks kernel. Secara eksperimental, penelitian-penelitian ini memperlihatkan bahwa keterbatasan k-means bisa telah teratasi, dan hasil yang baik dicapai juga untuk kumpulan-kumpulan data yang memiliki batasan-batasan cluster nonlinear. Motivasi untuk keinginan melaksanakan K-means dalam ruang fitur kernel dinyatakan secara longgar sebagai “masalah kemampuan memisahkan nonlinear Universitas Sumatera Utara yang dapat dielakkan oleh kelas melalui pemetaan data yang diamati pada ruang data berdimensi yang lebih tinggi dengan cara nonlinear sehingga setiap cluster untuk setiap kelas membentang ke dalam bentuk sederhana”. Meskipun demikian, tidak jelas bagaimana kernel K-means berhubungan dengan sebuah operasi pada kumpulan data ruang input. Juga tidak jelas cara menghubungkan lebar kernel dengan sifat-sifat kumpulan data input. Beberapa pemikiran yang disebutkan pada point-point ini telah dibuat dalam Girolami, 2002; Cristianini Taylor, 2000. Biasanya perluasan dari k-means ke kernel k-means direalisasi melalui pernyataan jarak dalam bentuk fungsi kernel Girolami, 2002; Muller et al 2003. Meskipun demikian, implementasi tersebut mengalami masalah seris seperti biaya clustering tinggi karena kalkulasi yang berulang dari nilai-nilai kernel, atau memori yang tidak cukup untuk menyimpan matriks kernel, yang membuatnya tidak dapat sesuai untuk corpora yang besar. Anggaplah kumpulan data memiliki N sampel x 1 , x 2 ,…x N . Algoritma K- means bertujuan untuk membagi sampel N ke dalam cluster K, C 1 , C 2 , …, C K , dan kemudian mengembalikan pusat dari setiap cluster, m 1 , m 2 ,…,m k sebagai representative dari kumpulan data. Selanjutnya kumpulan data N-point dipadatkan ke dalam “code book” point K. Algoritma K-means clustering mode batch yang menggunakan jarak Euclidean bekerja sebagai berikut : Algoritma 1 Langkah 1 Pilih awal pusat K : m 1 , m 2 , …. m Langkah 2 Menentukan setiap sampel x K 1 1 I N pada pusat Universitas Sumatera Utara terdekat, yang membentuk cluster K. yaitu menghitung nil ai fungsi indicator δ x i , C k , 1 k K. δ x i , c k    ≠ otherwise k j all for m x D m x D j i k i , , , , 1 = Langkah 3 Hitunglah pusat baru m k untuk setiap cluster C M k k ∑ = n i i k i k x C x c 1 , 1 δ = Dimana k C adalah jumlah sampel dalam C k k C = ∑ = n i i k i x C x 1 , δ Langkah 4 menghasilkan m k Isu utama yang memperluas k-means tradisional ke kernel k-means adalah penghitungan jarak dalam ruang baru. Anggaplah u 1 k K i = Φ x i menunjukkan transformasi x 1 . Jarak Euclidean antara u i dan u j D ditulis sebagai : 2 u i , u j = || Φ x i – Φ x j || = Φ 2 2 x i -2 Φ x i Φ x j + Φ 2 x j = k x i , x i -2 k x i , x i + k x j , x j Anggaplah z 2.6 k Z adalah pusat cluster dalam ruang yang ditransformasikan dimana, k ∑ = N i i k i k u C u c 1 , 1 δ = 2.7 Dimana , k i C u δ adalah fungsi indikator. Jarak antara u i dan z k D dinyatakan sebagai berikut : 2 {u i ,z k 2 1 , 1 ∑ = − N i i k i k i u C u c u δ } = Universitas Sumatera Utara = k x i , x i + f x i , C k + g C k Dimana, f x i , C k ∑ = N i j i k j k x x k C u c 1 , , 2 δ = 2.8 Perbedaan utama antara kernel k-means dengan versi tradisional k-means ada di langkah 4, dalam algoritma Kernel K-means. Karena cluster dalam ruang yang ditransformasikan tidak dapat dinyatakan secara eksplisit, maka harus memilih pseudo centre. Dengan menggunakan Jarak Euclidean pada tradisional k- means, diperoleh kernel berdasarkan algoritma k-means sebagai berikut : Algoritma 2 Langkah 1 Tentukan δ x i , C k 1 I N, 1 k K dengan nilai awal, yang membentuk cluster initial K C 1 , C 2 ,…, C Langkah 2 Untuk setiap cluster C k k hitunglah |C k | dan g C k Langkah 3 Untuk setiap sampel latihan x i dan cluster C k , hitunglah fx i , C k dan kemudian tentukan x i δ x pada cluster terdekat i , C k =      ≠ + + lain yang k j untuk C g C x f C g C x f j j i k k i , , , , 1 Langkah 4 Untuk setiap cluster C k , pilih sampel yang terdekat dengan pusat sebagai representative dari C k , m k = arc min D δ x i ,z k . x i , dimana δ x 19 , C k = 1 Universitas Sumatera Utara Dalam persamaan faktor k x i , x j diabaikan karena tidak berkontribusi untuk menentukan cluster terdekat. Perbedaan utama antara kernel k-means dan versi tradisionalnya ada dalam langkah 4.

2.8. DECISION TREE