Analisis Diskriminan Linear Fisher
9 atau
ln ln
k i
f f
x x ; i
k .
Dalam statistika terapan, untuk pengklasifikasian, umumnya populasi diasumsikan berdistribusi normal karena kesederhanaan dan keakuratan dari
distribusi ini yang cukup tinggi pada berbagai model populasi. Karena itu, untuk setiap data latih yang tidak diketahui distribusi data kelompoknya, maka data
kelompok tersebut diasumsikan berdistribusi normal dengan vektor rataan yang berbeda-beda untuk setiap kelompoknya, sehingga fungsi kepadatan peluang untuk
setiap kelompok data dapat ditulis sebagai
1 2
2
1
1 1
exp 2
2
p
T k
k k
k k
f
x x
μ Σ x μ
Σ ;
1, 2, ,
, k
K
dengan
k
μ dan
k
Σ adalah vektor rataan dan matriks kovarians kelompok
k
yang kemudian diestimasi dengan menggunakan penaksir maximum likelihood
k
x dan
k
S .
k
S merupakan matriks kovarians kelompok
k
yang anggotanya adalah
1
1 ;
1, 2, , ;
1, 2, , ,
1
m ij
ki i
kj j
k
s x
x x
x i
p j p
m
di mana m adalah banyaknya objek pada kelompok .
k
Fungsi diskriminan kelompok
k
dapat diperoleh melalui
1 2
2
1
1
ln 1
1 ln
exp 2
2 1
1 ln 2
ln .
2 2
2
p
Q k
k T
k k
k k
T k
k k
d f
p
x x
x μ
Σ x μ Σ
Σ x μ
Σ x μ
Karena suku
2 ln 2 p
bernilai sama untuk setiap kelompok data, maka
nilai tersebut dapat diabaikan sehingga persamaan 31 dapat ditulis sebagai
1 1
1 1
1 1
1
1 1
ln 2
2 1
1 1
ln 2
2 2
1 1
1 ln
. 2
2 2
T Q
k k
k k
k T
T T
k k
k k
k k
k T
T T
k k
k k
k k
k
d
x Σ
x μ Σ x μ
x Σ x μ Σ x
μ Σ μ Σ
x Σ x μ Σ x
μ Σ μ Σ
Untuk data yang keragaman setiap kelompoknya sama
; ,
k j
j k
Σ
Σ Σ
maka nilai
1
1 2 1 2 ln
T k
k
x Σ x
Σ juga dapat diabaikan karena bernilai
sama untuk setiap kelompok data sehingga diperoleh fungsi diskriminan linear
1 1
1 2
,
T T
k k
k k
T k
k
d w
x μ Σ x
μ Σ μ w x
dengan
Σ adalah matriks kovarians gabungan yang diestimasi dengan
28
29
31
32
33 30
2
10
1 1
1
K k
k k
gab K
k k
n n
K
S S
;
k
S
matriks kovarians kelompok
k
. Persamaan 33 kemudian dikenal dengan nama Fungsi Diskriminan Linear Fisher.
Berdasarkan persamaan 28, maka pengalokasian untuk sebarang vektor objek
x
ke dalam kelompok
k
dapat dipilih berdasarkan
1,2, ,
argmax
k k
K
k d
x
sedangkan fungsi bidang hiper yang memisahkan antara kelompok
j
dan ,
k
, j
k
ialah
k j
d d
x x
T k
j k
j
w w
w w
x
1 1
1 1
1 1
2 2
T T
T T
k j
k k
j j
μ Σ μ Σ x
μ Σ μ μ Σ μ
1 1
1 2
T T
k j
k j
k j
μ μ Σ x
μ μ Σ μ μ
1
1 2
T k
j k
j
μ μ Σ x
μ μ
. Fungsi bidang hiper pada persamaan 36 dikenal dengan nama fungsi
pengklasifikasian Anderson. Data input yang terpisah oleh bidang hiper disebut data yang terpisah secara linear.
34
35
36
11
3 METODE PENELITIAN
Langkah-langkah yang digunakan untuk membahas permasalahan yang diambil dalam penelitian dibahas pada bab ini. Di bagian ini juga disebutkan
metode yang digunakan untuk melakukan pereduksian data berkelompok menjadi dua komponen utama atau visualisasi data dengan menggunakan AKU dan AKU
Kernel.
Penelitian ini
menggunakan studi
literatur dan
kemudian mengimplementasikan AKU dan AKU Kernel untuk memvisualisasikan data
berkelompok ke dalam program komputer menggunakan software Matlab yang meminimumkan total proporsi salah klasifikasi. Untuk pengklasifikasian,
digunakan analisis diskriminan linear Fisher guna melihat keterpisahan data secara linear. Pada AKU Kernel, sebelum melakukan visualisasi terhadap data
berkelompok, pertama-tama dibuatkan sebuah algoritma untuk menentukan nilai parameter
untuk fungsi Kernel Gauss. Parameter ini kemudian digunakan dalam melakukan pereduksian data dengan AKU Kernel. Selain itu pada penelitian ini,
metode visualisasi data dengan AKU dan AKU Kernel juga diterapkan pada beberapa data sekunder berkelompok yang populer dan sering digunakan sebagai
contoh dalam pengklasifikasian data. Tujuan dari langkah ini adalah untuk mengetahui apakah dengan menggunakan nilai
yang tepat, AKU Kernel dapat memberikan visualisasi yang lebih baik jika dibandingkan dengan AKU
berdasarkan total proporsi salah klasifikasi yang dihasilkan. Total proporsi salah klasifikasi AER, Apparent Error Rate yang digunakan
sebagai evaluasi pada penelitian ini merupakan perbandingan banyaknya objek yang memperoleh kelompok prediksi yang berbeda dengan kelompok asal terhadap
banyaknya objek data. Salah klasifikasi untuk setiap kelompok data dapat diperoleh melalui Tabel 3.1
Tabel 3.1 Salah klasifikasi data Kelompok
asal Kelompok prediksi
Total
1
2
K
1
11
n
12
n
1K
n
1
n
21
n
22
n
2 K
n
2
n
K
1 K
n
2 K
n
KK
n
K
n Total
1
n
2
n
K
n n
n
di mana
jk
n
adalah banyaknya anggota kelompok
j
yang kemudian diklasifikasikan ke dalam kelompok
k
. Dengan demikian, total salah klasifikasi SK dapat ditulis sebagai
1
SK
K kk
k
n n
sedangkan total proporsi salah klasifikasi AER dapat ditulis sebagai 37
12
1
AER
K kk
k
n n
n
sehingga total persentase salah klasifikasi data dapat diperoleh melalui AER 100
.