11
2.4. Principal Component Analysis
Principal Component Analysis PCA merupakan teknik statistika untuk
mentransformasi himpunan sekumpulan variabel menjadi himpunan variabel dengan jumlah yang lebih kecil, tetapi tetap mampu merepresentasikan informasi yang
terdapat pada himpunan variabel sebelum ditransformasi. Adapun tujuan mengurangi dimensionalitas dari data asli menggunakan PCA adalah agar data lebih mudah
dimengerti dan lebih mudah diproses Dunteman, 1989. Apabila diketahui X = {x
n
R
d
| n = 1, 2, ..., N} yang merepresentasikan sebuah dataset
dengan dimensi d, dari dataset X tersebut, PCA akan menghasilkan dataset Z, dimana Z = {z
n
R
k
| n = 1, 2, ..., N} dengan dimensi k, dimana nilai k adalah lebih kecil dari d. Langkah-langkah yang dilakukan dalam PCA terdiri atas Jolliffe, 2002:
1. Normalisasi setiap dimensi data dengan menggunakan rumus normalisasi Z-score:
A i
i
A v
v
2.5 Setelah melalui proses ini, dataset akan memiliki nilai mean atau rata-rata nol.
2. Cari matriks kovarian menggunakan rumus:
X X
m
T
1
2.6 , dimana
adalah matriks kovarian; m merupakan banyak data pada dataset asli;
X adalah dataset asli yang disusun dalam bentuk matriks dengan setiap kolom merupakan fitur, dan setiap baris merupakan kumpulan fitur untuk satu objek; X
T
merupakan transpos dari matriks X. Hasil matriks kovarian adalah matriks dengan ukuran dxd, dimana d merupakan dimensi dari X.
3. Hitung nilai eigenvalue serta eigenvector dari matriks kovarian, dengan
melakukan Single Value Decomposition pada matriks kovarian. Eigenvalue dan eigenvector
merupakan vektor-vektor yang mengkarakterisasikan dataset X. Apabila dimiliki data awal dengan dimensi d, maka akan didapatkan eigenvector
sebanyak d. 4.
Urutkan eigenvector sesuai dengan nilai eigenvalue yang dimiliki secara menurun, dimana eigenvector dengan nilai eigenvalue yang lebih tinggi berada pada sisi kiri
matriks dan eigenvector dengan nilai eigenvalue yang lebih rendah berada pada sisi kanan matriks.
Universitas Sumatera Utara
12
5. Pilih eigenvector sebanyak k untuk membentuk vektor fitur U, dimana dari vektor
fitur U akan dihasilkan data hasil PCA dengan dimensi k. Pemilihan eigenvector dilakukan berdasarkan nilai eigenvalue dari eigenvector. Akan dipilih eigenvector
dengan nilai eigenvalue tinggi, sehingga informasi data asli tetap akan terjaga pada data hasil PCA. Hal ini dikarenakan eigenvector dengan eigenvalue tinggi
menunjukkan data yang direpresentasikan eigenvector tersebut adalah signifikan. Penentuan nilai dimensi k untuk dataset hasil PCA ditentukan berdasarkan
retain rate. Retain rate adalah persentase informasi yang yang tetap terjaga pada
data hasil PCA dari dataset asli. Pemilihan nilai dimensi k pada umumnya dipilih dengan menjaga retain rate pada nilai 99, yakni memenuhi persamaan 2.7. Hal
ini dilakukan agar seluruh informasi pada dataset asli tetap dapat direpresentasikan oleh dataset hasil PCA.
99 ,
1 1
m i
k i
i
Si S
2.7 S
i
adalah eigenvalue pada posisi ke-i. Seluruh nilai dari eigenvector yang dipilih kemudian disusun sebagai kolom sebuah matriks vektor fitur U.
6. Hasil dataset PCA dihasilkan menggunakan rumus:
X U
Z
T
2.8 , dimana Z merupakan matriks dataset hasil PCA; U adalah matriks vektor hasil
pemilihan eigenvector yang didapatkan pada tahap sebelumnya; X adalah matriks dataset
asli. Metode PCA menghasilkan dataset yang mampu mendeskripsikan dataset asli
dengan tetap menjaga informasi yang tersimpan sebanyak mungkin Amirani, et al. 2008.
2.5. Artificial Neural Network