Analisis Komponen Utama Kernel

6             1 1 1 1 , , , 1 n n n mk j i k i m mk j k i k k n                  x x x x x x             1 1 1 1 , , , 1 n n n mk i k j i m mk j k i k k n                  x x x x x x . Didefinisikan K sebagai matriks Kernel atau matriks Gram yang berukuran n n  di mana                           2 1 1 1 1 , , , , , , , 1 1 1 , , , , . ij i j i j i j i i i j n n n n i j i j i j i j j i i j n n n                                         K x x x x x x x x x x x x x x x x x x Bishop 2006. Dengan menggunakan persamaan 16, persamaan 15 dapat ditulis dalam bentuk persamaan eigen kernel sebagai 2 1 1 m m m n    K α Kα yang ekuivalen dengan 1 1 m m m n    K α α di mana   1 2 , , , . T m m m mn     α Komponen utama diperoleh melalui hasil kali dalam antara vektor eigen yang telah dinormalisasi dengan vektor objek data pada ruang fitur. Karena matriks C bersifat simetri, maka vektor eigen m v bersifat ortogonal. Dengan demikian, vektor eigen m v akan bersifat ortonormal apabila memenuhi                         1 1 1 1 1 1 , 1 , 1 1 , , , , , , , , 1 1 , 1 . m m n n mi i mj j i j n n mi i mj j i j n n mi mj i j i j n mi mj i j i j n mi mj i j i j m m m m m m m m m n n n                                                   v v x x x x x x x x x x α Kα α α α α Dengan demikian, vektor eigen m v yang telah ortonormal dapat ditulis sebagai 15 16 17 18 19 7       1 1 1 1 n m mi i i m n mi i i n             v x x di mana     1 2 1 . mi mi m n      Koefisien proyeksi pada vektor eigen m v untuk vektor uji x ialah             1 1 1 , , , , n m mk k k n mk k k n mk k k                   v x x x x x x x Schӧlkopf et al.1998 sehingga komponen utama taklinearnya dapat ditulis sebagai ,  ΦV KA di mana   1 2 , , , F p r r  V v v v dan   1 2 , , , n r r  A α α α Nielsen Canty 2008, sedangkan komponen utama taklinear untuk data yang tidak terkoreksi pada nilai tengah pada ruang fitur dapat ditulis sebagai  ΦV KA di mana   , ij i j   K x x .

2.3 Analisis Diskriminan Linear Fisher

Analisis diskriminan adalah bagian dari statistika peubah ganda yang bertujuan untuk menggambarkan ciri-ciri suatu pengamatan dari bermacam-macam populasi yang diketahui, baik secara grafis maupun aljabar dengan membentuk fungsi diskriminan. Dengan kata lain, analisis diskriminan digunakan untuk mengklasifikasikan individu ke dalam salah satu dari dua kelompok atau lebih. Dalam hal ini, mengklasifikasikan vektor input x dan menempatkannya ke dalam salah satu dari K kelompok data ; k  1, 2, , . k K  Umumnya, kelompok- kelompok tersebut dibuat terpisah sehingga setiap input hanya boleh berada dalam salah satu kelompok saja. Kelompok-kelompok tersebut dipisahkan oleh bidang pembatas yang berdimensi   1 p  untuk input yang berdimensi . p Bidang pembatas yang dibentuk dari sebuah fungsi linear disebut bidang hiper. Misalkan diberikan n objek data latih   1 2 , , , , T n  X x x x p i  x dan terdiri atas K kelompok data. Untuk setiap kelompok data didefinisikan   k f x = fungsi kepadatan peluang untuk data pada kelompok k  k p = peluang sebarang objek x tergolong ke dalam kelompok k  20 21 22 23 8   | c k i = biaya sebarang objek x pada kelompok i  yang kemudian dikelompokkan ke dalam kelompok . k  Untuk , k i  maka   | c i i  k R = daerah yang diklasifikasikan ke dalam kelompok k    | P i k = peluang sebarang objek pada kelompok k  yang kemudian dikelompokkan ke dalam kelompok i  =   i k R f d  x x dengan     1 | 1 | i k K i P i i P i k      . Ekspektasi biaya salah klasifikasi ECM, Expected Cost of Misclassification sebarang objek pada kelompok k  yang kemudian dikelompokkan ke dalam kelompok 1 2 , , , , , atau i K     untuk i k  ialah           1 1 ECM | | | i k i i k K i K k i R k P i k c i k c i k f d          x x sedangkan total ekspektasi biaya salah klasifikasi TECM dapat dihitung sebagai           1 1 1 1 1 TECM ECM | | . i i k i i k K k k K K k k k i R K K k k k i R p k p c i k f d p c i k f d                  x x x x Pengklasifikasian dipilih berdasarkan daerah 1 2 , , , K R R R yang meminimumkan TECM Johnson Wichern 2007. Dalam Anderson 2003, karena   i f x adalah fungsi kepadatan peluang sehingga   0; i f   x x , maka pengklasifikasian pada persamaan 25 ekuivalen dengan mengalokasikan setiap objek x ke dalam kelompok k  yang memenuhi     1 1,2, , argmin | i k K k i i k K k p f c i k      x . Persamaan 26 ekuivalen dengan memilih k  , i k   yang berlaku         | | k k i i p f c i k p f c k i  x x atau             ln | ln | k k i i p f c i k p f c k i  x x . Jika data latih yang diberikan nilai i p dan   | c k i tidak diketahui, maka kedua nilai tersebut dapat diasumsikan bernilai sama untuk setiap kelompok data, sehingga pemilihan sebarang objek x untuk digolongkan ke dalam kelompok k  dapat dipilih berdasarkan kelompok k  yang memenuhi     k i f f  x x ; i k   24 25 26 27 9 atau     ln ln k i f f  x x ; i k   . Dalam statistika terapan, untuk pengklasifikasian, umumnya populasi diasumsikan berdistribusi normal karena kesederhanaan dan keakuratan dari distribusi ini yang cukup tinggi pada berbagai model populasi. Karena itu, untuk setiap data latih yang tidak diketahui distribusi data kelompoknya, maka data kelompok tersebut diasumsikan berdistribusi normal dengan vektor rataan yang berbeda-beda untuk setiap kelompoknya, sehingga fungsi kepadatan peluang untuk setiap kelompok data dapat ditulis sebagai         1 2 2 1 1 1 exp 2 2 p T k k k k k f             x x μ Σ x μ Σ ; 1, 2, , , k K  dengan k μ dan k Σ adalah vektor rataan dan matriks kovarians kelompok k  yang kemudian diestimasi dengan menggunakan penaksir maximum likelihood k x dan k S . k S merupakan matriks kovarians kelompok k  yang anggotanya adalah     1 1 ; 1, 2, , ; 1, 2, , , 1 m ij ki i kj j k s x x x x i p j p m          di mana m adalah banyaknya objek pada kelompok . k  Fungsi diskriminan kelompok k  dapat diperoleh melalui                 1 2 2 1 1 ln 1 1 ln exp 2 2 1 1 ln 2 ln . 2 2 2 p Q k k T k k k k T k k k d f p                                    x x x μ Σ x μ Σ Σ x μ Σ x μ Karena suku       2 ln 2 p   bernilai sama untuk setiap kelompok data, maka nilai tersebut dapat diabaikan sehingga persamaan 31 dapat ditulis sebagai         1 1 1 1 1 1 1 1 1 ln 2 2 1 1 1 ln 2 2 2 1 1 1 ln . 2 2 2 T Q k k k k k T T T k k k k k k k T T T k k k k k k k d                              x Σ x μ Σ x μ x Σ x μ Σ x μ Σ μ Σ x Σ x μ Σ x μ Σ μ Σ Untuk data yang keragaman setiap kelompoknya sama   ; , k j j k    Σ Σ Σ maka nilai       1 1 2 1 2 ln T k k    x Σ x Σ juga dapat diabaikan karena bernilai sama untuk setiap kelompok data sehingga diperoleh fungsi diskriminan linear     1 1 1 2 , T T k k k k T k k d w              x μ Σ x μ Σ μ w x dengan Σ adalah matriks kovarians gabungan yang diestimasi dengan 28 29 31 32 33 30 2