Klasifikasi Data dengan Data Asal dan Data Tereduksi

KLASIFIKASI DATA DENGAN DATA ASAL DAN DATA
TEREDUKSI

SIFA LUSIANA

DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Data dengan
Data Asal dan Data Tereduksi adalah benar karya saya dengan arahan dari komisi
pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi
manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan
maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan
dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.

Bogor, Agustus 2015

Sifa Lusiana
NIM G54110006

ABSTRAK
SIFA LUSIANA. Klasifikasi Data dengan Data Asal dan Data Tereduksi.
Dibimbing oleh SISWADI dan TONI BAKHTIAR.
Analisis Komponen Utama Kernel (AKUK) merupakan perluasan dari
Analisis Komponen Utama (AKU) biasa yang dapat digunakan untuk
menyelesaikan permasalahan data yang takterpisah secara linear. Dua kelompok
data, yaitu data pengenalan anggur dan data breast tissue digunakan dalam studi
ini. Pengklasifikasian pada data asal dan data terstandardisasi dilakukan dengan
jarak Euclid dan Mahalanobis. Salah klasifikasi yang diperoleh dengan jarak
Mahalanobis lebih besar dibandingkan dengan jarak Euclid. Fungsi kernel Gauss
dengan parameter � digunakan dalam AKUK. Salah klasifikasi yang diperoleh
dengan AKUK dari kedua kelompok data lebih kecil dibandingkan dengan AKU,
pengklasifikasian langsung pada data asal, dan data terstandardisasi dengan
menggunakan jarak Euclid. Salah klasifikasi yang diperoleh dari data pengenalan
anggur langsung dengan data asal, data terstandardisasi, AKU, dan AKUK pada

�=
masing-masing ialah 27.53%, 2.25%, 2.81%, dan 1.12%. Sedangkan, salah
klasifikasi yang diperoleh dari data breast tissue langsung dengan data asal, data
terstandardisasi, AKU, dan AKUK pada � = masing-masing ialah 31.37%,
13.73%, 13.73%, dan 3.92%.
Kata kunci: salah klasifikasi, jarak Euclid, jarak Mahalanobis, analisis komponen
utama, analisis komponen utama kernel

ABSTRACT
SIFA LUSIANA. Data Classification with Original Data and Reduced Data.
Supervised by SISWADI and TONI BAKHTIAR.
Kernel Principal Component Analysis (KPCA) is an extension of ordinary
Principal Component Analysis (PCA) which can be used to resolve the problem of
linearly unseparated data. Two groups of data, namely wine recognition data and
breast tissue data are used in this study. The classification on original data and
standardized data is performed by using Euclidean and Mahalanobis distances.
Misclassification obtained by using Mahalanobis distance is greater compared to
that of Euclidean distance. Gaussian kernel function with parameter � is used in
KPCA. Misclassification obtained by KPCA from the two data groups is smaller
than those of PCA, direct classification with original data, and standardized data

using Euclidean distance. Misclassification obtained from wine recognition data on
direct classification with original data, standardized data, PCA, and KPCA on � =
respectively are 27.53%, 2.25%, 2.81%, and 1.12%. Meanwhile,
misclassification obtained from breast tissue data on direct classification with
original data, standardized data, PCA, and KPCA on � = respectively are
31.37%, 13.73%, 13.73% and 3.92%.
Keywords: misclassification, Euclidean distance, Mahalanobis distance, principal
component analysis, kernel principal component analysis

KLASIFIKASI DATA DENGAN DATA ASAL DAN DATA
TEREDUKSI

SIFA LUSIANA

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Sains
pada
Departemen Matematika


DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

Judul Skripsi : Klasifikasi Data dengan Data Asal dan Data Tereduksi
Nama
: Sifa Lusiana
NIM
: G54110006

Disetujui oleh

Prof Dr Ir Siswadi, MSc
Pembimbing I

Dr Toni Bakhtiar, MSc
Pembimbing II


Diketahui oleh

Dr Toni Bakhtiar, MSc
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan
karunia-Nya serta sholawat dan salam kepada Nabi Muhammad SAW sehingga
karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang
dilaksanakan sejak bulan Januari 2015 ini ialah analisis data, dengan judul
Klasifikasi Data dengan Data Asal dan Data Tereduksi. Penyusunan karya ilmiah
ini juga tidak lepas dari bantuan beberapa pihak. Untuk itu, penulis mengucapkan
terima kasih yang sebesar-besarnya kepada :
1. Prof Dr Ir Siswadi, MSc selaku dosen Pembimbing I yang telah
memberikan ilmu, motivasi, bimbingan, kesabaran, saran, dan
bantuannya selama penulisan skripsi ini.
2. Dr Toni Bakhtiar, MSc selaku dosen Pembimbing II yang telah
memberikan ilmu, motivasi, bimbingan, kesabaran, dan saran selama

penulisan skripsi ini.
3. Ir Ngakan Komang Kutha Ardana, MSc selaku dosen penguji yang telah
memberikan ilmu dan sarannya.
4. Keluarga tercinta Ayah, Mama, Nabillah, dan keluarga besar yang selalu
memberikan doa, dukungan, semangat, bimbingan, dan motivasi yang tak
henti-hentinya.
5. Aditya Darmawan yang selalu memberikan semangat, dukungan, doa,
motivasi, dan senantiasa mendengarkan curahan hati selama penulisan
skripsi ini.
6. Habibah, Elvira, Menisa, Chrysta, Vini, Ronny selaku sahabat SMA yang
selalu memberikan semangat dan doanya.
7. Ayu Kharisma, Intan, Kio, Riefdah, Atikah, Alfi, Resty, Putri, Lidya,
Febiyana, Andini, Hanna selaku sahabat yang menemani penulis selama
masa kuliah, yang telah mendengarkan curahan hati selama penulisan
skripsi ini, dan sahabat seperjuangan di tingkat akhir yang selalu
memberikan motivasi, semangat, doa, serta dukungannya.
8. Teman-teman Matematika Angkatan 48 yang selalu memberikan
dukungan, doa, bantuan, dan keceriaannya.
9. Kakak-kakak Matematika Angkatan 47, adik-adik Matematika Angkatan
49, dan semua teman-teman saya IPB Angkatan 48 yang telah

memberikan doa, semangat, dan dukungannya.
Semoga karya ilmiah ini dapat bermanfaat bagi dunia ilmu pengetahuan
khususnya Matematika dan menjadi inspirasi bagi penelitian-penelitian
selanjutnya.
Bogor, Agustus 2015
Sifa Lusiana

DAFTAR ISI
DAFTAR TABEL

vii

DAFTAR GAMBAR

vii

DAFTAR LAMPIRAN

viii


PENDAHULUAN

1

Latar Belakang
Tujuan Penelitian

1
1

TINJAUAN PUSTAKA

2

Jarak Euclid dan Jarak Mahalanobis
Analisis Komponen Utama
Analisis Komponen Utama Kernel
Fungsi Kernel Gauss
Studi Lain


2
2
6
10
10

METODE PENELITIAN

11

Sumber Data
Prosedur Analisis Data

11
12

HASIL DAN PEMBAHASAN

14


KESIMPULAN

26

DAFTAR PUSTAKA

27

LAMPIRAN

28

RIWAYAT HIDUP

40

DAFTAR TABEL
1
2
3

4
5
6
7
8
9
10
11

Klasifikasi kelompok
Deskripsi data pengenalan anggur
Matriks kovarians data pengenalan anggur
Matriks korelasi data pengenalan anggur
Hasil salah klasifikasi (SK) data asal, data terstandardisasi, dan hasil AKU
pada data pengenalan anggur
Hasil salah klasifikasi (SK) fungsi Gauss pada data pengenalan anggur
Deskripsi data pengenalan breast tissue
Matriks kovarians data pengenalan breast tissue
Matriks korelasi data pengenalan breast tissue
Hasil salah klasifikasi (SK) data asal, data terstandardisasi, dan hasil AKU
pada data pengenalan breast tissue
Hasil salah klasifikasi (SK) fungsi Gauss pada data pengenalan breast
tissue

13
15
15
16
19
19
21
21
22
24
24

DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

Ide dasar AKUK (Sugiyama 2013)
Ide utama metode kernel: pemetaan data asal ke ruang fitur
Fungsi kernel Gauss untuk nilai parameter σ = , , , dan
Alkohol dengan Asam Malat
Alkohol dengan Proanthosianin
Alkali pada Abu dengan Magnesium
Abu dengan Flavonoid
Magnesium dengan OD
Total Fenol dengan Intensitas Warna
Plot pencar dua komponen utama AKU
AKUK fungsi Gauss dengan parameter σ = 1
AKUK fungsi Gauss dengan parameter σ = 2
AKUK fungsi Gauss dengan parameter σ = 3
AKUK fungsi Gauss dengan parameter σ = 4
AKUK fungsi Gauss dengan parameter σ = 5
AKUK fungsi Gauss dengan parameter σ = 6
AKUK fungsi Gauss dengan parameter σ = 7
AKUK fungsi Gauss dengan parameter σ = 8
AKUK fungsi Gauss dengan parameter σ = 9
AKUK fungsi Gauss dengan parameter σ = 10
AKUK fungsi Gauss dengan parameter σ = 11
AKUK fungsi Gauss dengan parameter σ = 12
AKUK fungsi Gauss dengan parameter σ = 13
AKUK fungsi Gauss dengan parameter σ = 14
AKUK fungsi Gauss dengan parameter σ = 15
AKUK fungsi Gauss dengan parameter σ = 16
AKUK fungsi Gauss dengan parameter σ = 17

6
7
10
14
14
14
14
14
14
16
16
17
17
17
17
17
17
17
17
18
18
18
18
18
18
18
18

28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46

HFS dengan DA
A/DA dengan MAX IP
DA dengan AREA
DR dengan P
PA500 dengan A/DA
PA500 dengan HFS
Plot pencar dua komponen utama AKU
AKUK fungsi Gauss dengan parameter σ = 1
AKUK fungsi Gauss dengan parameter σ = 2
AKUK fungsi Gauss dengan parameter σ = 3
AKUK fungsi Gauss dengan parameter σ = 4
AKUK fungsi Gauss dengan parameter σ = 5
AKUK fungsi Gauss dengan parameter σ = 6
AKUK fungsi Gauss dengan parameter σ = 7
AKUK fungsi Gauss dengan parameter σ = 8
AKUK fungsi Gauss dengan parameter σ = 9
AKUK fungsi Gauss dengan parameter σ = 10
AKUK fungsi Gauss dengan parameter � = 11
AKUK fungsi Gauss dengan parameter � = 12

20
20
20
20
20
20
22
22
22
22
23
23
23
23
23
23
23
23
24

DAFTAR LAMPIRAN
1 Data pengenalan anggur
2 Data pengenalan breast tissue
3 Fungsi yang digunakan untuk mendapatkan matriks komponen utama
menggunakan metode AKU Kernel pada data pengenalan anggur dengan
software Matlab 2010
4 Fungsi yang digunakan untuk mendapatkan matriks komponen utama
menggunakan metode AKU Kernel pada data pengenalan breast tissue
dengan software Matlab 2010
5 Hasil pengklasifikasian kelompok data pengenalan anggur
6 Hasil pengklasifikasian kelompok data pengenalan breast tissue

28
32

34

35
36
38

PENDAHULUAN
Latar Belakang
Pengamatan lebih dari satu peubah pada suatu objek diharapkan dapat
memberikan informasi yang lebih daripada dilakukan oleh masing-masing peubah
secara terpisah. Namun dalam kenyataannya, sulit untuk merepresentasikan amatan
atau data dengan banyak peubah dan objek. Dalam statistika, analisis peubah ganda
dapat digunakan untuk menganalisis data dengan lebih dari satu peubah. Analisis
peubah ganda mampu menganalisis peubah-peubah yang diamati pada satu objek
secara bersamaan. Salah satu analisis peubah ganda yang dapat diterapkan untuk
mengatasi hal tersebut adalah Analisis Komponen Utama (AKU). AKU pertama
kali diperkenalkan oleh Karl Pearson pada tahun 1901. AKU sering digunakan
untuk mereduksi dimensi dari suatu matriks data yang terdiri atas sejumlah besar
peubah yang saling berkorelasi dengan tetap mempertahankan sebanyak mungkin
informasi yang terkandung dalam matriks data asalnya menjadi sejumlah kecil
peubah dan tidak saling berkorelasi yang merupakan kombinasi linear dari peubahpeubah asalnya dan beragam terurut (Jolliffe 2002). Peubah baru ini disebut
komponen utama. Namun, pada kenyataannya AKU tidak dapat mengatasi data
yang taklinear. Oleh karena itu diperlukan suatu metode untuk mengatasi masalah
tersebut yaitu dengan menggunakan AKU Kernel (AKUK).
Fungsi kernel memetakan data ke dimensi yang lebih tinggi dan
membangun fungsi pemisah dalam ruang yang terpisahkan. Hal ini dilakukan
dengan menghitung fungsi kernel yang memberikan nilai hasil kali dalam pada
ruang fitur tanpa menunjukkan pemetaan secara eksplisit (Nielsen dan Canty 2008).
Fungsi kernel yang dapat memetakan hasil yang jelas di ruang fitur adalah fungsi
kernel polinom. Bila peubah asal memiliki ragam yang jauh berbeda, maka akan
mengakibatkan adanya peubah yang akan memberikan kontribusi varians yang
dominan dalam menentukan komponen utama. Oleh karena itu, data asal harus
distandardisasi atau dibakukan. Data yang digunakan pada karya ilmiah ini adalah
data yang objeknya telah dikelompokkan. Akan tetapi setelah divisualisasikan,
objek-objeknya bercampur membentuk suatu gerombol. Oleh karena itu, dalam
karya ilmiah ini akan dilakukan pengklasifikasian objek ke dalam suatu kelompok
dengan menggunakan AKU dan AKUK yang diharapkan dapat memberikan salah
klasifikasi yang lebih kecil dibandingkan dengan pengklasifikasian langsung pada
data asal dan data asal yang distandardisasi.
Tujuan Penelitian

1.
2.

3.

Tujuan dari penelitian ini adalah
Membandingkan hasil salah klasifikasi dengan jarak Euclid dan jarak
Mahalanobis pada data asal dan data yang telah distandardisasi.
Menyelesaikan permasalahan data yang takterpisah secara linear dan
mengklasifikasikan objek ke dalam suatu kelompok dengan menggunakan
AKU dan AKUK dengan fungsi Kernel Gauss.
Menelusuri hasil salah klasifikasi pada data asal, data yang distandardisasi,
hasil AKU dan AKUK.

2

TINJAUAN PUSTAKA
Jarak Euclid dan Jarak Mahalanobis
Misalkan matriks �×� = [� , � , … , �� ] merupakan matriks data amatan n
objek dari p peubah acak dengan matriks kovarians �. Jarak Euclid antara dua objek
� , � dari matriks

��

adalah �� � , �

= √(� − �

jarak Mahalanobis antara dua objek � , � dari matriks
√(� − �

�− � − �

� −�

��

. Sedangkan

adalah �� � , �

=

. Jarak Mahalanobis merupakan jarak Euclid yang

diboboti oleh invers dari matriks kovarians (Rencher 2002).
Misalkan
adalah rata-rata objek kelompok ke-k dan � adalah matriks
kovarians kelompok ke-k. Jarak Euclid antara objek � dengan rataan setiap
� −
=√ � −
kelompok
adalah � � � ,
. Sedangkan jarak
Mahalanobis antara objek � dengan rataan setiap kelompok
adalah


=√ � −
� � −
� �,
(Wölfel dan Ekenel 2005).
Analisis Komponen Utama

AKU merupakan teknik statistika tertua yang dikembangkan untuk
mereduksi dimensi data. AKU tidak hanya memungkinkan untuk reduksi data saja,
tetapi hasil yang diperoleh dari AKU juga dapat digunakan untuk menyelesaikan
teknik-teknik lain dalam metode statistika peubah ganda, misalnya Analisis Varians
dan Analisis Regresi (Raykov dan Marcoulides 2008). AKU pertama kali
dikenalkan oleh Karl Pearson pada awal tahun 1900-an kemudian oleh Hotelling
pada tahun 1933 dan Rao tahun 1964. Dalam AKU, data berdimensi besar dengan
p peubah yang saling berkorelasi ditransformasikan menjadi data baru dengan
sejumlah peubah yang lebih sedikit dan tidak saling berkorelasi yang disebut
dengan komponen utama (Timm 2002).
Misalkan diberikan vektor peubah acak × � = [X1, X2, . . . , Xp] dengan ratarata � dan matriks kovarians � yang memunyai pangkat
�i� �, . Tujuan
dasar AKU yaitu membentuk sejumlah peubah baru yang disebut komponen utama
atau varians utama. Komponen utama ini merupakan kombinasi linear dari peubahpeubah vektor X yang tidak berkorelasi dan memiliki varians terbesar (Timm 2002).
Meskipun dibutuhkan p komponen untuk menunjukkan keseluruhan variasi data,
seringkali variasi ini dapat diwakili oleh k komponen utama, dengan
(Jollife
2002). Misalkan matriks kovarians � memunyai nilai eigen
� >
= � = . Kombinasi linear
dari vektor X merupakan kombinasi
�+ =
linear yang memiliki varians terbesar pertama, dengan
merupakan vektor eigen
yang bersesuaian dengan
dan vektor konstanta � , � , … , � � , sehingga
kombinasi linearnya adalah
= � � + � � + + � � �� = ∑�= � � .

3
Selanjutnya,
adalah kombinasi linear kedua yang tidak berkorelasi
dengan kombinasi linear pertama
yang memiliki varians terbesar, dan
seterusnya, sehingga kombinasi linear ke-k yaitu
memiliki varians terbesar kek yang tidak berkorelasi dengan
,
, . . . , − . Kombinasi linear ke-k,
merupakan komponen utama ke-k.
Matriks kovarians � dari matriks X yang berelemen � merupakan varians
elemen ke-j saat i=j, sedangkan saat i ≠ disebut dengan kovarians elemen ke-i
dan elemen ke-j. Untuk kasus yang lebih realistis, jika � tidak diketahui, maka
� digantikan dengan matriks kovarians contoh S. Untuk menentukan komponen
utama, lihat kombinasi linear
dan
merupakan vektor eigen yang
memaksimumkan var[
] = � i.
Berikut akan ditunjukkan bahwa var[
] = � i . Misalkan nilai harapan
X adalah E[X] maka kovarians dari X adalah
cov[X] = E [(X – E [X]) − �[ ] ]
sehingga var[
] adalah sebagai berikut
]
] ]
var[
] = �[
− �[
− �[
= �[ − �[ ]
− �[ ] ]
]
= cov[
= � .
Skor komponen utama pertama merupakan kombinasi linear
dan
merupakan vektor eigen yang memaksimumkan var[
] sehi�gga var[
]=
� . Var[
] = � akan maksimum ketika diberikan kendala
= .
Kondisi ketika
= diperlukan untuk memastikan keunikan komponen
utamanya (Timm 2002). Kendala
= berarti bahwa jumlah kuadrat elemen
sama dengan satu. Untuk memaksimumkan var[
] = � dengan kendala
= dapat diselesaikan menggunakan persamaan Lagrange berikut

= � −
− ,
max ℒ
,
dengan
merupakan pengganda Lagrange. Turunan pertama persamaan
terhadap
dilakukan untuk menemukan titik
pengganda Lagrange ℒ
,
kritis. Turunan pertamanya diberikan sebagai berikut
�ℒ
= � −
=

⇔� −
=
⇔ (� −



= ,

sehingga dan
adalah nilai eigen dan vektor eigen yang bersesuaian dengan
nilai eigen
dari matriks kovarians � dengan � merupakan matriks identitas
berukuran p × p. Untuk menentukan p vektor eigen yang membuat kombinasi
linear pertama
memiliki varians yang maksimum, maka bobot yang harus
dimaksimumkan adalah
� =
=
= ,
akibatnya merupakan nilai eigen terbesar pertama untuk dapat memaksimumkan
var[
]. Dengan demikian,
merupakan vektor eigen yang berpadanan dengan
nilai eigen terbesar pertama dari matriks kovarians �.
Selanjutnya untuk menentukan komponen utama kedua, yaitu kombinasi
linear
. Maksimumkan var[
] = � dengan kendala yang sama dengan

4
komponen utama pertama, yaitu
= dan cov(
,
= atau dengan
kata lain tidak ada korelasi antara
dan
. Cov( , menyatakan kovarians
antara peubah acak a dan peubah acak b. Sehingga diperoleh
]= � = � =
cov[
,
=
=
(1)
karena haruslah cov(
,
= dan pasti nilai eigen ≠ , maka
= 0,
= , � = , atau � = dapat digunakan untuk spesifikasi bahwa
tidak ada korelasi antara
dan
.
Persamaan Lagrange digunakan kembali untuk memaksimumkan � .
Fungsi Lagrange untuk memaksimumkan � adalah sebagai berikut
max ℒ ∗
− −�
− ,

, ,� =

dengan dan � adalah konstanta pengganda Lagrange. Turunan pertama terhadap
dilakukan untuk mencari titik kritis sehingga diperoleh
�ℒ ∗



= �



−�

= .

(2)

Persamaan (2) dikalikan dengan
di sebelah kiri, maka persamaan menjadi
� −
−�
= .
(3)
Persamaan (1) membuat
= 0, � = , dan karena terdapat kendala
= maka pada persamaan (3) haruslah nilai � = . Oleh karena itu,
persamaan (2) dapat dituliskan sebagai berikut
� −
=
atau ekuivalen dengan
(� −
= .

Persamaan di atas merupakan persamaan eigen untuk matriks kovarians �
dengan
dan
berturut-turut adalah nilai eigen dan vektor eigen yang
bersesuaian dengan
. Untuk menentukan p vektor eigen yang membuat
kombinasi linear
memiliki varians yang maksimum, maka bobot yang harus
dimaksimumkan adalah
� =
=
= .
Asumsikan bahwa � tidak memiliki nilai eigen yang berulang, sehingga

. Jika hal itu terjadi, maka
= , hal ini melanggar kendala yang dihasilkan
oleh persamaan (1), yaitu
= .
Berdasarkan penjelasan di atas, dapat ditunjukkan komponen utama ketiga,
keempat, hingga ke-p, dengan vektor koefisien , , … , � merupakan vektor
eigen yang berpadanan dengan nilai eigen , , … , � , ketiga dan keempat
terbesar, ... , dan terkecil, berturut-turut. Secara umum dapat disimpulkan bahwa
komponen utama ke-k dari X adalah kombinasi linear
dan
var[
]=
untuk k = 1, 2, 3, ... , p,
dengan
adalah nilai eigen terbesar ke-k dan
adalah vektor eigen yang
berpadanan dengan
dari matriks kovarians � (Jolliffe 2002).
Dalam beberapa kasus, ditemukan perbedaan satuan pengukuran pada
masing-masing peubah yang diamati dan terdapat pula perbedaan varians yang
cukup besar pada beberapa peubah. Hal ini dapat memicu peubah yang memiliki
varians lebih besar dibanding peubah lain menjadi peubah yang dominan dalam
menentukan komponen utama. Untuk mengatasi hal tersebut, dilakukan pembakuan
peubah sehingga data yang digunakan adalah data yang telah dibakukan atau yang

5
bersesuaian dengan matriks korelasi � dari matriks data yang telah dibakukan.
Apabila peubah telah dibakukan sebagai berikut
� −�[ ]

=

√�
� −�[ ]

=



√�

(�� −�[ ]

=

√���

,

,
,

dengan ��� merupakan ragam peubah ke-p, maka komponen utama dari
=
[ , , … , � ] adalah kombinasi linear dari p peubah baku
=�
+�
+ + � � � dengan = , , … , .
i
, … , ( � , � adalah pasangan nilai eigen dan
,
,
Dalam kasus ini
,
vektor eigen untuk matriks korelasi � = � − ⁄ �� − ⁄ , dengan � − ⁄ =
diag σ ,
, … , σ dan
= �= .
� > �+ =
σ




√ pp

Apabila matriks kovarians populasi � dan matriks korelasi dari populasi �
tidak diketahui, maka keduanya dapat diduga dengan matriks kovarians contoh =
− ⁄
⁄ �−
dan matriks korelasi contoh = − ⁄
dengan − ⁄ =
diag (

√s

,

√s

,…,

√s��

) yang berukuran

×

dengan s�� adalah ragam contoh

peubah p. Matriks X yang digunakan dalam kasus ini merupakan matriks data yang
sudah terkoreksi nilai tengahnya.
Proporsi varians yang dijelaskan oleh komponen utama pertama adalah

= � +� + …+ � ×
%.


Secara umum proporsi varians yang dijelaskan oleh k komponen utama pertama
adalah
� +� + …+�
×
%, dengan k
(Raykov dan Marcoulides 2008).
=
� +� + …+ ��

Formulasi

primal

dari

permasalahan

nilai

eigen

dapat

dianalisis

�� �

∑�= � � yang
=
menggunakan matriks varians dan kovarians S =
�−
�−
berukuran × . Jika
memiliki pangkat r min(n, p), ini akan menghasilkan
sebanyak r nilai eigen taknol dan memiliki vektor eigen yang ortogonal dari
permasalahan nilai eigen sebagai berikut


=
,
dengan merupakan nilai eigen dan merupakan vektor eigen yang berpadanan
dengan . Formulasi primal baik digunakan ketika ukuran matriks �
. Selain
formulasi primal, permasalahan nilai eigen juga dapat diselesaikan dengan
formulasi dualnya. Formulasi dual baik digunakan ketika �
. Formulasi dual
dapat dianalisis menggunakan
/ �−
dengan ukuran matriks � × �.
Formulasi dual dari permasalahan nilai eigen adalah
�−



=
,
Jika persamaan di atas dikalikan dengan di sisi kiri, maka persamaan di atas
menjadi
�−

�−

=

6





�−

=

,

(4)

dengan
proporsional dengan
, atau dapat dilambangkan dengan

.
Kemudian persamaan (4) dikalikan dengan
dari sisi kiri, sehingga persamaan
(4) menjadi


=

.
Untuk menunjukkan bahwa

yang merupakan vektor eigen dari
matriks S dengan nilai eigen . Dalam hal ini, formulasi primal dan formulasi dual
dari permasalahan nilai eigen, nilai eigen taknol yang diperoleh untuk kedua
formulasi tersebut adalah sama dan diasumsikan (1=

= �−
)
= 1) sehingga diperoleh
=
.
�−

Jika

memunyai pangkat

√ �− �

�i� �,

,



�−



dan �− memunyai r nilai
=

eigen taknol dan vektor eigennya saling berelasi yaitu
⁄√ � −
dan =
(Nielsen dan Canty 2008).

⁄√ � −

Analisis Komponen Utama Kernel
AKU sebagai teknik statistika linear, tidak dapat mendeskripsikan dengan
akurat untuk semua jenis struktur suatu data, khususnya pada struktur data yang
taklinear. Analisis Komponen Utama Kernel (AKUK) dapat digunakan untuk
mengatasi kelemahan AKU tersebut atau dengan kata lain AKUK dapat
menunjukkan bentuk taklinear dari AKU. AKUK memetakan data dari ruang asal
ke ruang fitur melalui transformasi taklinearnya. Bukannya mereduksi dimensi data
secara langsung di ruang asal, AKUK bekerja di dimensi yang lebih tinggi di ruang
fitur dengan membentuk hasil kali dalam yang berasal dari transformasi fungsi Φ
(Shen 2007). Gambar 1 mengilustrasikan transformasi dari data taklinear di ruang
asal menjadi data linear di ruang fitur.



Gambar 1 Ide dasar AKUK (Sugiyama 2013)
Kernel merupakan suatu fungsi yang didefinisikan sebagai hasil kali dalam
vektor-vektor hasil pemetaan data taklinear secara implisit pada ruang fitur. Secara
matematis fungsi kernel merupakan fungsi k yang untuk setiap x, z ϵ � memenuhi
(Shen 2007)
�, � = Φ x ,Φ z .

7
Kemudian akan diformulasikan metode kernel. Misalkan ruang Hilbert ℋ
merupakan ruang fitur, pemetaan data taklinear dari ruang asal ke ruang fitur ℋ
(Schö lkopf dan Smola 2002), yaitu
Φ: � → ℋ
� → Φ x ϵ ℋ.
Fungsi kernel memetakan data yang taklinear dari ruang asal ke ruang fitur yang
berdimensi tinggi. Gambar 2 menjelaskan transformasi dari data takterpisah dan
taklinear di ruang asal � menjadi data linear terpisah di ruang fitur ℋ.




Φ

Gambar 2 Ide utama metode kernel: pemetaan data asal ke ruang fitur
Misalkan diberikan ilustrasi pemetaan ke ruang fitur sebagai berikut

Φ ∶ � = � , � → Φ � = (� , � , √ � � , √ � , √ � , .
Pemetaan Φ mengambil data dari ruang asal berdimensi dua kemudian
memetakannya ke ruang fitur berdimensi enam. Misalkan diberikan dua titik �i =
� , � ′ dan �j = � , � ′, maka hasil kali dalam dari pemetaan pada ruang fitur
adalah sebagai berikut
(� , � = Φ � , Φ(�
= (� , � , √ � � , √ � , √ � , (� , � , √ � � , √ � , √ � ,
=� � +� � + � � � � + � � + � � +
=( +� � +� �

= ( + � ′� .
sehingga fungsi kernel (� , �

adalah

(� , � = ( + � ′� .
Hasil pemetaan fungsi kernel di atas merupakan sebuah fungsi kernel polinom
pangkat dua dengan ℋ sebagai ruang fitur yang bersesuaian. Ini artinya dapat
menghitung hasil kali dalam antara proyeksi dari dua titik ke dalam ruang fitur
tanpa mengevaluasi ruang fitur � secara eksplisit.
Secara umum pemetaan data ke ruang fitur dengan menggunakan fungsi
kernel polinom �, � ∗ = � � ∗ + � dengan vektor 2 dimensi � = [� � ] dan
� ∗ = [� ∗ � ∗ ]. Diperoleh sebagai berikut
�, � ∗ = � � ∗ + �
= � � ∗+� � ∗+�
= � � ∗ + � � ∗ + � + � � ∗� � ∗ + � � ∗� + � � ∗�
= [� √ �� √ �� � �
√ � � ]×
[� √ ��



√ ��











√ � ∗�



]

8
= � � � �∗ .
Terlihat bahwa secara umum fungsi kernel polinom di atas memetakan vektor dua
dimensi ke vektor enam dimensi (Nielsen dan Canty 2008). Fungsi kernel polinom
merupakan fungsi kernel yang dapat diketahui pemetaannya di ruang fitur,
sedangkan untuk fungsi kernel yang lain, sulit untuk mengetahui bagaimana bentuk
pemetaannya di ruang fitur. Oleh karena itu, dalam metode kernel terdapat ‘kernel
trick’, yaitu suatu cara yang memberikan kemudahan karena hanya dengan
mengetahui fungsi kernel yang digunakan tanpa harus mengetahui bentuk
pemetaannya di ruang fitur.
Berikut merupakan fungsi kernel populer yang sering digunakan:

1. Polinom: (� , � = � � +
2. Eksponensial: (� , � = exp(−β‖� − � ‖
3. Gauss: (� , �

= exp −

‖� −� ‖
σ

4. Eksponensial berpangkat: (� , �

= exp (−

‖� −� ‖
σ

β

)

5. Sigmoid: (� , � = ta�h β� � ,
dengan σ, β merupakan parameter dan , adalah bilangan bulat (Liu et al. 2005).
Misalkan diberikan sebuah kernel dan suatu matriks data
=
[� , � , … , � � ] dengan � = (� , � , … , � � , yang dapat membentuk matriks
Gram (G), yang berisi evaluasi dari fungsi kernel pada semua pasang titik data.
Matriks Gram G didefinisikan sebagai matriks berukuran � × � yang berelemen
� . Sehingga digunakan fungsi kernel k untuk mengevaluasi hasil kali dalam pada
ruang fitur dengan pemetaan fitur Φ, dihubungkan dengan matriks Gram G yang
berelemen
� = Φ � , Φ(� = (� , � .
Dalam kasus ini matriks G disebut juga sebagai matriks kernel K. Lambang standar
untuk menggambarkan matriks kernel K adalah sebagai berikut

=

� ,�
� ,�

�� , �

� ,�
� ,�

�� , �



� , ��
� , ��

�� , ��

).

Pemetaan X oleh fungsi Φ mungkin taklinear dan tidak dapat dijelaskan
secara eksplisit, sehingga fungsi Φ memetakan X yang terdiri atas n objek dan p
peubah menjadi Φ yang berisi n objek dan q peubah dengan
menghasilkan
matriks data seperti berikut:
� �
.
Φ= � �
[� � � ]
Data dalam ruang fitur diasumsikan memunyai rata-rata nol. Di dalam
dimensi yang lebih tinggi di ruang fitur matriks kovariansnya adalah =

9
Φ Φ⁄ � −
= ⁄ � − ∑�= � � � � dan untuk AKU di ruang fitur,
formulasi primal dari permasalahan nilai eigen adalah sebagai berikut:
Φ� Φ

=
,
dengan simbol dan digunakan kembali sebagai nilai eigen dan vektor eigen
secara berturut-turut dalam ruang fitur ℋ. Sedangkan untuk formulasi dual dari
permasalahan nilai eigennya adalah
�−

ΦΦ�

=
,
dan menggunakan kembali simbol dan sebagai nilai eigen dan vektor eigen
secara berturut-turut. Kemudian nilai eigen taknol yang diperoleh dari formulasi
primal dan dual memberikan nilai yang sama dan vektor eigen dari kedua formulasi
tersebut dapat dihubungkan oleh
=
Φ
dan
=
Φ .
�−

√ �− �

√ �− �

Formulasi dual ΦΦ diketahui bersesuaian dengan matriks Gram dan memiliki
ukuran yang sama atau matriks kernel yang berisi elemen dari fungsi kernel.
Untuk nilai eigen taknol
dan vektor eigen yang bersesuaian
pada
formulasi dual, produk hasil kali dalam � � �(� dalam ΦΦ diganti dengan
sebuah fungsi kernel (� , � =
yang berasal dari beberapa pemetaan Φ yang
tidak ditentukan, sehingga diperoleh
= �−
,
(5)
dengan = ΦΦ merupakan matriks berukuran � × � dengan elemen-elemen
(� , � . Untuk memastikan bahwa fungsi (� , � valid di beberapa ruang fitur,
maka perlu diketahui bahwa fungsi kernel harus simetrik, memenuhi ketaksamaan
Cauchy-Schwarz, dan semi-definit positif.
1. Fungsi kernel harus simetrik
(� , � = Φ � , Φ(� = Φ(� , Φ � = (� , � .

2. Memenuhi ketaksamaan Cauchy-Schwarz
�, � = Φ � , Φ �
‖Φ � ‖ ‖Φ � ‖
= Φ � ,Φ � Φ � ,Φ �
= �, � �, � .
Permasalahan nilai eigen pada persamaan (5), pada umumnya diformulasikan
tanpa faktor � − sehingga menjadi
=
, akibatnya dapat memberikan
semua solusi dari vektor eigen dan � −
dari nilai eigen. Sehingga dalam
kasus ini = Φ /√ dan = Φ /√ .
Skor komponen utama pada AKUK juga diperoleh dari permasalahan nilai
eigen, proyeksikan pemetaan x atas vektor eigen primal sebagai berikut
= � � Φ /√
� �
= � � [� � � � … � � � ] /√
= [� � � � � � � � … � � � � � ] /√
�, � … �, � � ] /√ .
= [ �, �
(Nielsen dan Canty 2008)
Pada kenyataannya tidak dapat diasumsikan bahwa data pada ruang fitur
memiliki rataan nol atau sudah terkoreksi terhadap nilai tengah. Oleh karena itu
agar matriks Gram K terkoreksi terhadap nilai tengah gunakan ∗ =
dengan

10

H = � − � , � = � � , � adalah matriks identitas berukuran � × �, dan

vektor satu yang berukuran n (Shen 2007).



Fungsi Kernel Gauss
Fungsi kernel Gauss yang bergantung pada jarak � dan � (Genton 2001),

yaitu (� , �

= exp −

‖� −� ‖


. Visualisasi fungsi Gauss untuk beberapa nilai

parameter � akan diberikan pada gambar di bawah ini.
Keterangan
�=
�=
�=
�=

Gambar 3 Fungsi kernel Gauss untuk nilai parameter � = , , , dan

Fungsi Gauss mewakili fungsi isotropik lainnya dengan grafik fungsi yang
ujung-ujung sumbunya relatif landai. Dapat dilihat pada Gambar 3 bahwa semakin
besar nilai parameter yang digunakan, grafik fungsi kernel Gauss akan semakin
membesar. Kemudian, pemilihan parameter � pada fungsi kernel didasarkan
dengan mencoba-coba beberapa nilai yang berbeda dan dipilih parameter dengan
hasil yang lebih baik. Karena pada dasarnya belum ada ketentuan nilai parameter
untuk setiap fungsi kernel.
Studi Lain
Ustaza (2014) telah melakukan pengklasifikasian data populasi tanaman iris
dan data pengenalan anggur. Pengklasifikasian data tersebut dilakukan
menggunakan AKUK dengan fungsi linear dan Gauss. Parameter fungsi kernel
Gauss yang digunakan untuk data pengenalan anggur, yaitu � = , . , . , … , .
Sedangkan untuk data tanaman iris, yaitu � = .
√ . Untuk data pengenalan
anggur, fungsi kernel Gauss memberikan salah klasifikasi yang paling kecil pada
� = . dengan salah klasifikasi sebesar 17.42%. Karena pada penelitiannya
didapatkan hasil salah klasifikasi yang masih cukup besar, oleh karena itu penelitian
ini dilanjutkan oleh Kharismahadi (2014).

11
Kharismahadi (2014) melakukan analisis dan pengklasifikasian pada data
yang sama, yaitu data pengenalan anggur dengan menggunakan AKUK dengan
fungsi kernel linear dan isotropik. Fungsi kernel isotropik yang digunakan adalah
fungsi kernel Gauss dan Gelombang. Fungsi kernel linear memberikan salah
klasifikasi sebesar 6.74%. Untuk fungsi kernel Gauss, parameter yang digunakan
adalah � = , , , … , . Salah klasifikasi paling kecil pada AKUK dengan fungsi
kernel Gauss diberikan oleh parameter � =
dengan salah klasifikasi sebesar
2.25%. Sedangkan untuk fungsi kernel Gelombang parameter yang digunakan
adalah � = , , , … ,
dan parameter yang memberikan salah klasifikasi paling
kecil, yaitu � = dengan salah klasifikasi sebesar 7.30%.
Data pengenalan anggur yang digunakan oleh Ustaza (2014) dan
Kharismahadi (2014) terdapat perbedaan dengan data aslinya. Perbedaan data
pengenalan anggur ini terletak pada objek ke-17 peubah kadar asam malat dan objek
ke-128 peubah kadar fenol yang bukan flavonoid.

METODE PENELITIAN
Sumber Data
Data yang digunakan dalam penulisan karya ilmiah ini merupakan data
sekunder yang diunduh melalui internet, yaitu data pengenalan anggur (Forina
1991) dan data pengenalan breast tissue (Marques 2010). Data pengenalan anggur
adalah hasil analisis kimia terhadap anggur yang tumbuh di daerah yang sama di
Italia dan berasal dari tiga budidaya/kultivar (kelompok) yang berbeda. Matriks
data pengenalan anggur terdiri atas 178 objek dan 13 peubah, yaitu kadar alkohol,
kadar asam malat, banyaknya abu, banyaknya alkali pada abu, kadar magnesium,
kadar fenol, kadar flavonoid, kadar fenol yang bukan flavonoid, kadar
proanthosianin, dan kadar prolina, intensitas warna dan warna berdasarkan tingkat
kecerahannya, dan anggur yang diencerkan pada OD280/OD315 berdasarkan nilai
serapannya. Sejumlah 178 objek tersebut terbagi ke dalam 3 kelompok anggur di
mana setiap kelompok terdiri atas 59, 71, dan 48 objek untuk kelompok budidaya
1, 2, dan 3 secara berturut-turut.
Data pengenalan breast tissue adalah data hasil pengukuran impedansi listrik
pada sampel yang dipotong dari jaringan dada. Matriks data terdiri atas 106 objek
dan 9 peubah, yaitu I0 (Impedivity pada frekuensi 0), PA500 (fase sudut di 500
KHz), HFS (fase sudut pada frekuensi tinggi), DA (impedansi jarak antara ujung
spektrum), AREA (daerah di bawah spektrum), A/DA (area yang dinormalisasi
oleh DA), MAX IP (maksimal spektrum), DR (jarak antara I0 dan bagian real dari
titik frekuensi maksimal) dan P (panjang dari kurva spektrum). Sejumlah 106 objek
tersebut berasal dari 6 kelompok yang digunakan untuk pengukuran impedansi
listrik, yaitu jaringan karsinoma, jaringan fibro-adenoma, jaringan mastopathy,
kelenjar, jaringan ikat, jaringan adiposa. Namun, yang digunakan dalam karya
ilmiah ini hanya tiga kelompok yang terdiri atas 51 objek. Tiga kelompok tersebut
adalah jaringan karsinoma (kelompok 1), kelenjar (kelompok 2), dan jaringan ikat
(kelompok 3) dengan masing-masing kelompok terdiri atas 21, 16, dan 14 objek.

12

Prosedur Analisis Data
Data asal yang digunakan pada karya ilmiah ini merupakan data sekunder
yang berasal dari data pengenalan anggur dan data pengenalan breast tissue.
Analisis data dilakukan melalui dua tahap berikut:
I.
Mengamati plot pencar antarpeubah yang dihasilkan kemudian data asal
distandardisasi. Pengklasifikasian kelompok pada data asal dan data yang
telah distandardisasi dilakukan dengan menggunakan jarak Euclid dan
jarak Mahalanobis untuk ruang dimensi dua dengan menghitung jarak
terdekat antara objek dengan rataan dari setiap kelompok. Kemudian
bandingkan hasil salah klasifikasi antara jarak Euclid dan jarak
Mahalanobis.
II.
Penyelesaian permasalahan data yang takterpisah secara linear dilakukan
dengan menggunakan AKU dan AKUK. Matriks data yang telah
distandardisasi
dianalisis
menggunakan
AKU.
Selanjutnya
visualisasikan plot pencar dua komponen utama pertama. Kemudian
AKUK diterapkan menggunakan satu fungsi kernel yaitu kernel Gauss,
dengan
matriks
kernel
fungsi
Gauss
(� , � =
exp −

‖� −� ‖


dengan parameter � = , , … ,

untuk data

pengenalan anggur, dan parameter � = , , … ,
untuk data
pengenalan breast tissue.
Berikut merupakan tiga langkah yang dilakukan untuk AKUK:
1. Menentukan fungsi kernel yang akan digunakan dalam hal ini adalah
Gauss, kemudian menghitung hasil kali dalam matriks kernel =
dengan
= (� , � = � � , �(� .
2. Mengoreksi matriks kernel terhadap nilai tengah sehingga diperoleh

=
dengan H = � − � dan � = � � .

3. Menyelesaikan permasalahan nilai eigen dan vektor eigen dari matriks

dengan persamaan ∗ =
. Kemudian dipilih dua nilai eigen
terbesar dan vektor eigen yang bersesuaian. Dua nilai eigen ini adalah
varians maksimum dari komponen utama 1 dan komponen utama 2
secara berturut-turut.
4. Untuk menemukan skor komponen utama kernel dari permasalahan nilai
eigen, proyeksikan pemetaan x atas vektor eigen primal .
⁄√
=� � Φ
� �

�, � � ] ⁄√ .
�, �
= [ �, �
Kemudian visualisasikan plot pencar dua komponen utama pertama dari
setiap parameter �.
Pengklasifikasian kelompok pada AKU dan AKUK dilakukan hanya
menggunakan jarak Euclid, sedangkan pengklasifikasian kelompok untuk data asal
dan data asal yang distandardisasi menggunakan jarak Mahalanobis dan jarak
Euclid. Berikut merupakan jarak Euclid dan jarak Mahalanobis untuk ruang
dimensi dua dengan menghitung jarak terdekat antara objek dengan rataan dari
setiap kelompok

13
� � = � � , x̅ = [ � − x̅
� − x̅ ] / ,


� = � � , x̅ = [ � − x̅ � � − x̅ ] / ,
dengan � merupakan objek pada skor komponen utama, x̅ merupakan rata-rata
skor komponen utama pada setiap kelompok dan � − merupakan invers dari
matriks kovarians kelompok k. Objek � masuk ke dalam kelompok k jika ��
{�� , � � , � � } dan �� {�� , �� , � � } . Evaluasi hasil dapat diperoleh dengan
menghitung jumlah salah klasifikasi dari semua kelompok seperti yang diberikan
pada Tabel 1.
Tabel 1 Klasifikasi kelompok
Kelompok prediksi (j)

Kelompok
asal (k)
1
2
.
.
.
k
Total

1


k

2




Total


.

.

















�.

Salah klasifikasi (SK) = (

�.

n−∑ = �
n



�.

.

n = n..

%, dengan � = banyaknya

anggota kelompok k yang diklasifikasikan ke dalam kelompok j.

14

HASIL DAN PEMBAHASAN
Analisis pertama dilakukan terhadap data pengenalan anggur. Gambar 4
sampai 9 memvisualisasikan plot pencar dari beberapa pasang peubah pada data
pengenalan anggur, diambil beberapa pasang peubah karena dimensi data yang
cukup besar.

Gambar 4 Alkohol dengan Asam Malat

Gambar 6 Alkali pada Abu dengan
Magnesium

Gambar 8 Magnesium dengan OD

Gambar 5 Alkohol dengan Proanthosianin

Gambar 7 Abu dengan Flavonoid

Gambar 9 Total Fenol dengan Intensitas
Warna

Pada gambar di atas dapat dilihat bahwa plot pencar beberapa peubah dari
data asal yang berisi baik kelompok 1, 2, dan 3 bercampur membentuk satu
gerombol yang tidak dapat dipisahkan dan bentuk yang taklinear. Hal ini tidak

15
cukup baik bila digunakan dalam menganalisis struktur pada data. Oleh karena itu,
data distandardisasi kemudian dianalisis menggunakan AKU dan AKUK yang
diharapkan dapat digunakan untuk menyelesaikan permasalahan ini sehingga
menghasilkan salah klasifikasi yang lebih kecil.
Berikut ini merupakan tabel deskripsi data pengenalan anggur secara ringkas.
Tabel ini menggambarkan nilai maksimum, nilai minimum, rata-rata dan
simpangan baku (SB) dari masing-masing peubah. Nilai rata-rata dan simpangan
baku setiap peubah digunakan untuk standardisasi data.
Tabel 2 Deskripsi data pengenalan anggur
No
1

Peubah
Alkohol (Al)

2

Asam malat (AM)

3

Abu (Ab)

Minimum

Rata-rata

Maksimum

SB

11.030

13.004

14.830

0.809

0.740

2.342

5.800

1.119

1.360

2.366

3.230

0.274

Alkali pada abu (AA)

10.000

19.439

30.000

3.414

5

Magnesium (Mg)

70.000

99.714

162.000

14.279

6

Total fenol (Tf)

0.130

2.289

3.880

0.642

7

Flavonoid (FI)

0.090

2.024

5.080

1.007

Fenol yang bukan

0.130

0.363

0.660

0.124

4

8

flavonoid (FF)
9

Proanthosianin (Pa)

0.410

1.591

3.580

0.572

10

Intensitas warna (IW)

1.280

5.058

13.000

2.318

0.958

1.710

0.229

12

Warna (Wa)
Anggur yang diencerkan pada
OD280/OD315 (OD)

0.480
1.270

2.612

4.000

0.710

13

Prolina (Pr)

278.000

746.893

1680.000

314.908

11

Pada karya ilmiah ini, pengklasifikasian data dilakukan pada data asal, data
asal yang distandardisasi, analisis data menggunakan AKU dan AKUK dengan
fungsi kernel Gauss. AKU dan AKUK dilakukan dengan menggunakan data yang
telah distandardisasi karena terdapat varians peubah yang cukup besar dari peubah
lainnya yang dapat menyebabkan peubah yang memiliki varians besar tersebut akan
dominan dalam menentukan komponen utamanya. Tabel 3 dan Tabel 4 menjelaskan
matriks kovarians dan matriks korelasi dari data pengenalan anggur.
Tabel 3 Matriks kovarians data pengenalan anggur
No Peubah
1
2
3
4
5
6
7
8
9
10
11
12
13

Al
AM
Ab
AA
Mg
TF
Fl
FF
Pa
IW
Wa
OD
Pr

Al

AM

0.656
0.089
0.047
-0.852
3.180
0.141
0.198
-0.015
0.062
1.022
-0.012
0.041
163.394

1.252
0.052
1.052
-0.780
-0.246
-0.455
0.040
-0.143
0.645
-0.143
-0.287
-64.452

Ab

AA

Mg

TF

Fl

0.075
0.406 11.657
1.104 -5.209 203.900
0.023 -0.655
2.003
0.412
0.029 -1.107
2.628
0.554 1.013
0.006
0.141
-0.453 -0.036 -0.065
0.001 -0.370
1.941
0.222 0.374
0.164 -0.095
6.675 -0.090 -0.385
-0.005 -0.189
0.176
0.063 0.124
0.001 -0.600
0.665
0.317 0.560
19.193 -468.616 1775.845 99.648 156.148

FF

Pa

IW

Wa

OD

Pr

0.015
-0.026 0.328
0.037 -0.034 5.374
-0.007 0.039 -0.276 0.052
-0.044 0.211 -0.706 0.092 0.504
-12.044 59.554 230.767 16.999 69.923 99166.717

16
Tabel 4 Matriks korelasi data pengenalan anggur
No Peubah

Al

AM

Ab

AA

Mg

TF

Fl

FF

Pa

IW

Wa

OD

1

Al

1.000

2

AM

0.098

1.000

3

Ab

0.214

0.169

1.000

4

AA

-0.308 0.275

0.433

5

Mg

0.275 -0.049

0.282 -0.107 1.000

6

TF

0.271 -0.342

0.128 -0.299 0.218

1.000

7

Fl

0.243 -0.404

0.106 -0.322 0.183

0.858

1.000

8

FF

-0.153 0.291

0.190

0.332 -0.255

-0.447

-0.520

1.000

9

Pa

0.133 -0.223

0.008 -0.189 0.237

0.605

0.648

-0.359

1.000

10

IW

0.544

0.258 -0.012 0.202

-0.061

-0.165

0.130

-0.025

1.000

11

Wa

-0.064 -0.558 -0.075 -0.242 0.054

0.430

0.539

-0.255

0.296

-0.522

1.000

12

OD

0.071 -0.361

0.003 -0.248 0.066

0.695

0.784

-0.498

0.519

-0.429

0.565

1.000

13

Pr

0.641 -0.183

0.222 -0.436 0.395

0.493

0.493

-0.308

0.330

0.316

0.236

0.313

0.249

Pr

1.000

Analisis data menggunakan AKU cukup baik memisahkan antarkelompok
dengan menggunakan dua komponen utama pertama walaupun masih ada objek
antarkelompok yang bercampur dan masih sedikit menunjukkan bentuk yang
taklinear. Plot pencar dua komponen utama akan diberikan pada Gambar 10. Bila
dilihat dari visualisasi dua komponen utama pertama dengan parameter tertentu,
AKUK lebih baik dalam memisahkan objek dibandingkan dengan plot pencar
beberapa pasang peubah dan visualisasi dua komponen utama AKU. Pada dasarnya
belum ada ketentuan nilai parameter untuk setiap fungsi kernel, oleh karena pada
karya ilmiah ini pemilihan parameter pada AKUK dilakukan dengan cara mencobacoba dengan nilai yang berbeda-beda dan dipilih parameter dengan salah klasifikasi
yang kecil. Dalam karya ilmiah ini menggunakan peranti lunak MATLAB untuk
mendapatkan dua komponen utama dari AKUK dengan fungsi kernel Gauss. Pada
data pengenalan anggur ini, fungsi kernel Gauss digunakan dengan parameter � =
, , … , . Gambar 11 sampai 27 memvisualisasikan plot pencar dua komponen
utama pertama dari masing-masing parameter .

Gambar 10 Plot pencar dua komponen utama Gambar 11 AKUK fungsi Gauss dengan
AKU
parameter � = 1

1.000

17

Gambar 12 AKUK fungsi Gauss dengan
parameter � = 2

Gambar 13 AKUK fungsi Gauss dengan
parameter � = 3

Gambar 14 AKUK fungsi Gauss dengan Gambar 15 AKUK fungsi Gauss dengan
parameter � = 5
parameter � = 4

Gambar 16 AKUK fungsi Gauss dengan
parameter � = 6

Gambar 17 AKUK fungsi Gauss dengan
parameter � = 7

Gambar 18 AKUK fungsi Gauss dengan
parameter � = 8

Gambar 19 AKUK fungsi Gauss dengan
parameter � = 9

18

Gambar 20 AKUK fungsi Gauss dengan
parameter � = 10

Gambar 22 AKUK fungsi Gauss dengan
parameter � = 12

Gambar 24 AKUK fungsi Gauss dengan
parameter � = 14

Gambar 26 AKUK fungsi Gauss dengan
parameter � = 16

Gambar 21 AKUK fungsi Gauss dengan
parameter � = 11

Gambar 23 AKUK fungsi Gauss dengan
parameter � = 13

Gambar 25 AKUK fungsi Gauss dengan
parameter � = 15

Gambar 27 AKUK fungsi Gauss dengan
parameter � = 17

19
Terlihat dari gambar di atas, AKU dan AKUK dapat memisahkan
antarkelompok dengan baik dibandingkan dengan plot pencar antarpeubah.
Meskipun AKUK lebih baik dalam menyelesaikan permasalahan data yang tak
terpisah dan taklinear, tetapi gambar di atas menunjukkan masih ada objek yang
bercampur ke kelompok lain. Selanjutnya akan dibahas pengklasifikasian
kelompok pada data asal dan data asal yang distandardisasi dengan jarak Euclid dan
jarak Mahalanobis, serta pengklasifikasian kelompok menggunakan AKU dan
AKUK. Tabel 5 akan menjelaskan jumlah salah klasifikasi (nSK) untuk
pengklasifikasian data asal, data asal yang distandardisasi, dan analisis
menggunakan AKU. Sedangkan Tabel 6 menjelaskan jumlah salah klasifikasi (nSK)
menggunakan AKU Kernel dengan fungsi Gauss.
Tabel 5 Hasil salah klasifikasi (SK) data asal, data terstandardisasi, dan hasil
AKU pada data pengenalan anggur
Data asal



K

SK

Data terstandardisasi

AKU

Jarak
Euclid

Jarak
Mahalanobis

Jarak Euclid

Jarak
Mahalanobis

Jarak Euclid

49

69

4

54

5

27.53%

38.76%

2.25%

30.34%

2.81%

Tabel 6 Hasil salah klasifikasi (SK) fungsi Gauss pada data pengenalan anggur


1

2

3

4

5

6

7

8

9

68

15

12

8

5

4

4

4

4

SK

38.20%

8.43%

6.74%

4.49%

2.28%

2.25%

2.25%

2.25%

2.25%



10

11

12

13

14

15

16

17

3

3

2

3

3

4

4

4

SK

1.69%

1.69%

1.12%

1.69%

1.69%

2.25%

2.25%

2.25%




K

K

Hasil salah klasifikasi (SK) dari data asal dan data yang distandardisasi
terlihat bahwa pengklasifikasian kelompok pada data yang distandardisasi
memberikan salah klasifikasi yang lebih baik meskipun perbedaannya tidak terlalu
banyak, yaitu 2.25% untuk jarak Euclid dan 30.34% untuk jarak Mahalanobis,
dibandingkan dengan pengklasifikasian kelompok pada data asal dengan salah
klasifikasi sebesar 27.53% untuk jarak Euclid dan 38.76% untuk jarak Mahalanobis.
Kemudian jika dibandingkan pengklasifikasian data dengan jarak Euclid dan jarak
Mahalanobis, maka berdasarkan hasil yang telah diperoleh, jarak Mahalanobis
memberikan salah klasifikasi yang lebih besar dibandingkan dengan jarak Euclid.
Karena pada dasarnya jarak Mahalanobis mempertimbangkan korelasi antarpeubah.
Jadi mungkin saja untuk masalah ini dengan data pengenalan anggur jarak
Mahalanobis memberikan salah klasifikasi yang lebih besar daripada jarak Euclid.

20

AKU memberikan salah klasifikasi yang cukup kecil dibandingkan dengan
pengklasifikasian kelompok pada data asal dan data yang distandardisasi, yaitu
sebesar 2.81%. Meskipun hasil salah klasifikasi pada data yang distandardisasi
dengan jarak Euclid lebih kecil sedikit dibanding AKU, yaitu sebesar 2.25%, tetapi
AKU cukup memberikan hasil yang baik untuk data pengenalan anggur ini.
Begitupun dengan AKUK, AKUK dapat memisahkan antarkelompok dengan salah
klasifikasi yang lebih kecil dibandingkan dengan pengklasifikasian pada data asal,
data terstandardisasi, dan analisis menggunakan AKU. Pada AKUK, parameter �
= 12 memperoleh SK yang minimum di antara parameter yang lain, yaitu sebesar
1.12%. AKUK dengan fungsi kernel Gauss memberikan hasil pemisahan
antarkelompok yang lebih baik dibandingkan plot pencar antarpeubah dan plot dua
komponen utama AKU.
Analisis kedua dilakukan pada data pengenalan breast tissue. Gambar di
bawah ini merupakan plot pencar dari beberapa pasang peubah data pengenalan
breast tissue.

Gambar 28 HFS dengan DA

Gambar 30 DA dengan AREA

Gambar 32 PA500 dengan A/DA

Gambar 29 A/DA dengan MAX IP

Gambar 31 DR dengan P

Gambar 33 PA500 dengan HFS

21

Plot pencar di atas merupakan plot pencar beberapa pasang peubah dari data
asal. Terlihat dari Gambar 28 sampai 33 hubungan antarpeubah tak terpisahkan
untuk setiap kelompok. Hal ini juga tidak cukup baik untuk menganalisis struktur
data dan sulit untuk pengklasifikasian objek ke suatu kelompok. Sama halnya
dengan data pengenalan anggur, AKU dan AKUK dengan fungsi kernel Gauss
diharapkan dapat menyelesaikan permasalahan ini. Berikut ini merupakan tabel
deskripsi data pengenalan breast tissue secara ringkas. Tabel 7 ini juga
menggambarkan nilai maksimum, nilai minimum, rata-rata dan simpangan baku
(SB) dari masing-masing peubah. Nilai rata-rata dan simpangan baku setiap peubah
digunakan untuk standardisasi data.
Tabel 7 Deskripsi data pengenalan breast tissue
No

Peubah

Minimum

Rata-rata

Maksimum

SB

103.000

570.039

1