Latar Belakang Visualisasi Data Berkelompok dengan Analisis Komponen Utama Kernel

3 2 TINJAUAN PUSTAKA

2.1 Fungsi Kernel

Fungsi kernel dapat diartikan sebagai hasil kali dalam baku dari objek data pada ruang fitur. Misalkan    x adalah fungsi yang memetakan objek data dari ruang asal ke ruang fitur, maka fungsi kernel dapat dituliskan sebagai           , , . i j i j T i j        x x x x x x Dua sifat yang harus dipenuhi oleh fungsi kernel ialah: 1. Simetrik             , , , ,          x z x z z x z x 2. Memenuhi ketaksamaan Cauchy-Schwarz                       2 2 2 2 , , , , , ,                x z x z x z x x z z x x z z Fungsi-fungsi kernel umumnya dibagi menjadi dua kelompok Nielsen Canty 2008. Pertama, fungsi kernel stasioner yang hanya bergantung pada hasil kali dalam antarobjek di ruang asal. Sebagai contoh, fungsi-fungsi kernel yang tergolong fungsi kernel stasioner ialah 1. kernel linear :   , T i j i j   x x x x 2. kernel pangkat :     , p T i j i j   x x x x 3. kernel polinomial :     , p T i j i j h    x x x x Kedua, fungsi kernel homogen atau Radial Basic Function RBF yang hanya bergantung pada jarak Euclid antarobjek pada ruang asal. Sebagai contoh, fungsi- fungsi kernel yang tergolong RBF ialah 1. kernel multikuadratik :     1 2 2 2 , i j i j h     x x x x 2. kernel invers multikuadratik :     1 2 2 2 , i j i j h      x x x x 3. kernel Gauss :       2 2 , exp 2 i j i j h     x x x x dengan h adalah parameter yang harus dipilih. Pemilihan parameter ini sangat menentukan hasil pemetaan dari ruang asal ke ruang fitur. Oleh karena itu, pemilihan parameter h menentukan pula hasil pereduksian peubah dengan menggunakan AKU Kernel. 2 3 4 4 Salah satu fungsi yang sering digunakan dalam AKU Kernel adalah fungsi kernel Gauss. Banyak metode telah digunakan untuk memilih parameter h pada fungsi kernel Gauss ini. Sebagai contoh misalkan diberikan data dengan p peubah dan n observasi maka Rathi et al. 2006 menggunakan 2 2 1 min ; 1, 2, , p i j i j i c h j p p       x x dengan c adalah parameter kontrol. Widjaja et al. 2012 memilih nilai parameter h pada interval 2 2 2 ˆ ˆ 100 100 h     ; dengan 2 2 1 ˆ p i i n s p     di mana 2 i s adalah varians data peubah ke-i, kemudian memilih nilai  pada interval 6 yang memaksimumkan perbedaan antara nilai eigen pertama dengan jumlah nilai eigen lainnya. Yang terbaru, Alam Fukumizu 2014 menggunakan metode Leave One Out Cross Validation untuk memilih parameter h yang meminimumkan jarak Euclid antara objek x dengan pre-image ˆ. x Wang 2014a menggunakan 1 n NN i i c h d n    dengan NN i d adalah jarak Euclid terdekat dari objek data i x ke objek data terdekatnya. Metode-metode tersebut memiliki objektivitas yang berbeda-beda sesuai masalah pada penelitiannya masing-masing. Karena itu, nilai h yang diberikan pun berbeda-beda, meskipun terkadang digunakan untuk objektivitas yang sama.

2.2 Analisis Komponen Utama Kernel

Misalkan diberikan matriks data   1 2 , , , , T n p n  X x x x dengan i x adalah vektor objek data yang berdimensi . p Diberikan pula fungsi    x sebagai fungsi yang digunakan untuk memetakan vektor objek data ke ruang fitur yang berdimensi , F p sehingga diperoleh matriks data pada ruang fitur sebagai berikut         1 2 , , , . F T n p n     Φ x x x Vektor rataan pada ruang fitur ialah   1 1 . n i i n      x Dengan demikian, vektor objek data yang terkoreksi terhadap nilai tengahnya pada ruang fitur ialah     . i i      x x Matriks kovarians pada ruang fitur untuk data yang telah terkoreksi terhadap nilai tengah kemudian didefinisikan sebagai     1 1 1 n T i i i n       C x x 8 9 10 11 5 6 7