Principal Component Analysis LANDASAN TEORI

11

2.4. Principal Component Analysis

Principal Component Analysis PCA merupakan teknik statistika untuk mentransformasi himpunan sekumpulan variabel menjadi himpunan variabel dengan jumlah yang lebih kecil, tetapi tetap mampu merepresentasikan informasi yang terdapat pada himpunan variabel sebelum ditransformasi. Adapun tujuan mengurangi dimensionalitas dari data asli menggunakan PCA adalah agar data lebih mudah dimengerti dan lebih mudah diproses Dunteman, 1989. Apabila diketahui X = {x n  R d | n = 1, 2, ..., N} yang merepresentasikan sebuah dataset dengan dimensi d, dari dataset X tersebut, PCA akan menghasilkan dataset Z, dimana Z = {z n  R k | n = 1, 2, ..., N} dengan dimensi k, dimana nilai k adalah lebih kecil dari d. Langkah-langkah yang dilakukan dalam PCA terdiri atas Jolliffe, 2002: 1. Normalisasi setiap dimensi data dengan menggunakan rumus normalisasi Z-score: A i i A v v    2.5 Setelah melalui proses ini, dataset akan memiliki nilai mean atau rata-rata nol. 2. Cari matriks kovarian menggunakan rumus: X X m T 1   2.6 , dimana  adalah matriks kovarian; m merupakan banyak data pada dataset asli; X adalah dataset asli yang disusun dalam bentuk matriks dengan setiap kolom merupakan fitur, dan setiap baris merupakan kumpulan fitur untuk satu objek; X T merupakan transpos dari matriks X. Hasil matriks kovarian adalah matriks dengan ukuran dxd, dimana d merupakan dimensi dari X. 3. Hitung nilai eigenvalue serta eigenvector dari matriks kovarian, dengan melakukan Single Value Decomposition pada matriks kovarian. Eigenvalue dan eigenvector merupakan vektor-vektor yang mengkarakterisasikan dataset X. Apabila dimiliki data awal dengan dimensi d, maka akan didapatkan eigenvector sebanyak d. 4. Urutkan eigenvector sesuai dengan nilai eigenvalue yang dimiliki secara menurun, dimana eigenvector dengan nilai eigenvalue yang lebih tinggi berada pada sisi kiri matriks dan eigenvector dengan nilai eigenvalue yang lebih rendah berada pada sisi kanan matriks. Universitas Sumatera Utara 12 5. Pilih eigenvector sebanyak k untuk membentuk vektor fitur U, dimana dari vektor fitur U akan dihasilkan data hasil PCA dengan dimensi k. Pemilihan eigenvector dilakukan berdasarkan nilai eigenvalue dari eigenvector. Akan dipilih eigenvector dengan nilai eigenvalue tinggi, sehingga informasi data asli tetap akan terjaga pada data hasil PCA. Hal ini dikarenakan eigenvector dengan eigenvalue tinggi menunjukkan data yang direpresentasikan eigenvector tersebut adalah signifikan. Penentuan nilai dimensi k untuk dataset hasil PCA ditentukan berdasarkan retain rate. Retain rate adalah persentase informasi yang yang tetap terjaga pada data hasil PCA dari dataset asli. Pemilihan nilai dimensi k pada umumnya dipilih dengan menjaga retain rate pada nilai 99, yakni memenuhi persamaan 2.7. Hal ini dilakukan agar seluruh informasi pada dataset asli tetap dapat direpresentasikan oleh dataset hasil PCA. 99 , 1 1      m i k i i Si S 2.7 S i adalah eigenvalue pada posisi ke-i. Seluruh nilai dari eigenvector yang dipilih kemudian disusun sebagai kolom sebuah matriks vektor fitur U. 6. Hasil dataset PCA dihasilkan menggunakan rumus: X U Z T  2.8 , dimana Z merupakan matriks dataset hasil PCA; U adalah matriks vektor hasil pemilihan eigenvector yang didapatkan pada tahap sebelumnya; X adalah matriks dataset asli. Metode PCA menghasilkan dataset yang mampu mendeskripsikan dataset asli dengan tetap menjaga informasi yang tersimpan sebanyak mungkin Amirani, et al. 2008.

2.5. Artificial Neural Network