6
1 1
1
1 ,
, ,
1
n n
n mk
j i
k i
m mk
j k
i k
k
n
x x
x x
x x
1 1
1
1 ,
, ,
1
n n
n mk
i k
j i
m mk
j k
i k
k
n
x x
x x
x x
.
Didefinisikan K sebagai matriks Kernel atau matriks Gram yang berukuran n n
di mana
2 1
1 1
1
, ,
, ,
, ,
, 1
1 1
, ,
, ,
.
ij i
j i
j i
j i
i i
j n
n n
n i
j i
j i
j i
j j
i i
j
n n
n
K x x
x x
x x
x x
x x
x x x x
x x x x
Bishop 2006. Dengan menggunakan persamaan 16, persamaan 15 dapat ditulis dalam bentuk persamaan eigen kernel sebagai
2
1 1
m m
m
n
K α
Kα
yang ekuivalen dengan 1
1
m m
m
n
K α
α
di mana
1 2
, ,
, .
T m
m m
mn
α
Komponen utama diperoleh melalui hasil kali dalam antara vektor eigen yang telah dinormalisasi dengan vektor objek data pada ruang fitur. Karena matriks C bersifat
simetri, maka vektor eigen
m
v bersifat ortogonal. Dengan demikian, vektor eigen
m
v akan bersifat ortonormal apabila memenuhi
1 1
1 1
1 1
, 1
, 1
1 ,
, ,
, ,
, ,
, 1
1 ,
1 .
m m
n n
mi i
mj j
i j
n n
mi i
mj j
i j
n n
mi mj
i j
i j
n mi
mj i
j i j
n mi
mj i
j i j
m m
m m
m m
m m
m
n n
n
v v
x x
x x
x x
x x
x x α Kα
α
α α
α
Dengan demikian, vektor eigen
m
v yang telah ortonormal dapat ditulis sebagai
15
16
17
18
19
7
1 1
1 1
n m
mi i
i m
n mi
i i
n
v x
x
di mana
1 2
1 .
mi mi
m
n
Koefisien proyeksi pada vektor eigen
m
v untuk
vektor uji
x
ialah
1 1
1
, ,
, ,
n m
mk k
k n
mk k
k n
mk k
k
v x
x x
x x
x x
Schӧlkopf et al.1998 sehingga komponen utama taklinearnya dapat ditulis sebagai
,
ΦV KA
di mana
1 2
, ,
,
F
p r
r
V
v v v
dan
1 2
, ,
,
n r
r
A
α α α Nielsen Canty 2008,
sedangkan komponen utama taklinear untuk data yang tidak terkoreksi pada nilai tengah pada ruang fitur dapat ditulis sebagai
ΦV KA
di mana
,
ij i
j
K
x x .
2.3 Analisis Diskriminan Linear Fisher
Analisis diskriminan adalah bagian dari statistika peubah ganda yang bertujuan untuk menggambarkan ciri-ciri suatu pengamatan dari bermacam-macam
populasi yang diketahui, baik secara grafis maupun aljabar dengan membentuk fungsi diskriminan. Dengan kata lain, analisis diskriminan digunakan untuk
mengklasifikasikan individu ke dalam salah satu dari dua kelompok atau lebih. Dalam hal ini, mengklasifikasikan vektor input
x
dan menempatkannya ke dalam salah satu dari K kelompok data
;
k
1, 2, , .
k K
Umumnya, kelompok-
kelompok tersebut dibuat terpisah sehingga setiap input hanya boleh berada dalam salah satu kelompok saja. Kelompok-kelompok tersebut dipisahkan oleh bidang
pembatas yang berdimensi
1 p
untuk input yang berdimensi
. p Bidang
pembatas yang dibentuk dari sebuah fungsi linear disebut bidang hiper. Misalkan diberikan n objek data latih
1 2
, ,
, ,
T n
X
x x x
p i
x
dan terdiri atas K kelompok data. Untuk setiap kelompok data didefinisikan
k
f x
= fungsi kepadatan peluang untuk data pada kelompok
k
k
p = peluang sebarang objek x tergolong ke dalam kelompok
k
20
21 22
23
8
| c k i
= biaya sebarang objek
x
pada kelompok
i
yang kemudian dikelompokkan ke dalam kelompok
.
k
Untuk ,
k i
maka
| c i i
k
R = daerah yang diklasifikasikan ke dalam kelompok
k
| P i k = peluang sebarang objek pada kelompok
k
yang kemudian dikelompokkan ke dalam kelompok
i
=
i
k R
f d
x x
dengan
1
| 1
|
i k
K i
P i i P i k
. Ekspektasi biaya salah klasifikasi ECM, Expected Cost of Misclassification
sebarang objek pada kelompok
k
yang kemudian dikelompokkan ke dalam kelompok
1 2
, ,
, ,
, atau
i K
untuk i k
ialah
1 1
ECM |
| |
i k i
i k
K i
K k
i R
k P i k c i k
c i k f
d
x x
sedangkan total ekspektasi biaya salah klasifikasi TECM dapat dihitung sebagai
1 1
1 1
1
TECM ECM
| |
.
i i k
i i k
K k
k K
K k
k k
i R
K K
k k
k i
R
p k
p c i k
f d
p c i k f
d
x x
x x
Pengklasifikasian dipilih berdasarkan daerah
1 2
, ,
,
K
R R R yang meminimumkan
TECM Johnson Wichern 2007. Dalam Anderson 2003, karena
i
f x adalah
fungsi kepadatan peluang sehingga
0;
i
f
x x , maka pengklasifikasian pada
persamaan 25 ekuivalen dengan mengalokasikan setiap objek x ke dalam kelompok
k
yang memenuhi
1 1,2, ,
argmin |
i k
K k
i i
k K
k p f
c i k
x
. Persamaan 26 ekuivalen dengan memilih
k
, i k
yang berlaku
| |
k k
i i
p f c i k
p f c k i
x x
atau
ln |
ln |
k k
i i
p f c i k
p f c k i
x x
. Jika data latih yang diberikan nilai
i
p dan
| c k i tidak diketahui, maka kedua
nilai tersebut dapat diasumsikan bernilai sama untuk setiap kelompok data, sehingga pemilihan sebarang objek x untuk digolongkan ke dalam kelompok
k
dapat dipilih berdasarkan kelompok
k
yang memenuhi
k i
f f
x x ; i
k
24
25
26
27
9 atau
ln ln
k i
f f
x x ; i
k .
Dalam statistika terapan, untuk pengklasifikasian, umumnya populasi diasumsikan berdistribusi normal karena kesederhanaan dan keakuratan dari
distribusi ini yang cukup tinggi pada berbagai model populasi. Karena itu, untuk setiap data latih yang tidak diketahui distribusi data kelompoknya, maka data
kelompok tersebut diasumsikan berdistribusi normal dengan vektor rataan yang berbeda-beda untuk setiap kelompoknya, sehingga fungsi kepadatan peluang untuk
setiap kelompok data dapat ditulis sebagai
1 2
2
1
1 1
exp 2
2
p
T k
k k
k k
f
x x
μ Σ x μ
Σ ;
1, 2, ,
, k
K
dengan
k
μ dan
k
Σ adalah vektor rataan dan matriks kovarians kelompok
k
yang kemudian diestimasi dengan menggunakan penaksir maximum likelihood
k
x dan
k
S .
k
S merupakan matriks kovarians kelompok
k
yang anggotanya adalah
1
1 ;
1, 2, , ;
1, 2, , ,
1
m ij
ki i
kj j
k
s x
x x
x i
p j p
m
di mana m adalah banyaknya objek pada kelompok .
k
Fungsi diskriminan kelompok
k
dapat diperoleh melalui
1 2
2
1
1
ln 1
1 ln
exp 2
2 1
1 ln 2
ln .
2 2
2
p
Q k
k T
k k
k k
T k
k k
d f
p
x x
x μ
Σ x μ Σ
Σ x μ
Σ x μ
Karena suku
2 ln 2 p
bernilai sama untuk setiap kelompok data, maka
nilai tersebut dapat diabaikan sehingga persamaan 31 dapat ditulis sebagai
1 1
1 1
1 1
1
1 1
ln 2
2 1
1 1
ln 2
2 2
1 1
1 ln
. 2
2 2
T Q
k k
k k
k T
T T
k k
k k
k k
k T
T T
k k
k k
k k
k
d
x Σ
x μ Σ x μ
x Σ x μ Σ x
μ Σ μ Σ
x Σ x μ Σ x
μ Σ μ Σ
Untuk data yang keragaman setiap kelompoknya sama
; ,
k j
j k
Σ
Σ Σ
maka nilai
1
1 2 1 2 ln
T k
k
x Σ x
Σ juga dapat diabaikan karena bernilai
sama untuk setiap kelompok data sehingga diperoleh fungsi diskriminan linear
1 1
1 2
,
T T
k k
k k
T k
k
d w
x μ Σ x
μ Σ μ w x
dengan
Σ adalah matriks kovarians gabungan yang diestimasi dengan
28
29
31
32
33 30
2