Principal Component Analysis Pengenalan pola keberhasilan seminaris dengan menggunakan agglomerative hierarchical clustering, sebuah studi kasus atas keberhasilan studi para seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang.

1912 sesuai dengan izin resmi dari tahta suci Roma untuk memulai lembaga pendidikan calon imam di Indonesia. Seminari Menengah Mertoyudan memiliki visi untuk menjadi komunitas pendidikan calon imam tingkat menengah yang handal dan berkompeten dalam mengembangkan sanctitas kesucian, sanitas kesehatan, dan scientia pengetahuan ke arah imamat yang tanggap terhadap kebutuhan zaman. Seminari Menengah Mertoyudan bertujuan untuk mendampingi seminaris dalam mengolah hidup rohani, panggilan, kegerejaan dan kemasyarakatan, agar mampu mengambil keputusan sesuai dengan panggilan hidupnya. Pendampingan bagi seminaris juga tertuju pada mengembangkan diri menjadi pribadi yang sehat secara fisik maupun psikis, dewasa secara manusiawi maupun kristiani, sehingga seminaris memiliki kesiapsiagaan untuk menanggapi panggilan Tuhan. Seminari Menengah Mertoyudan melaksanakan kegiatan pendidikan dan pembelajaran secara efektif dan efisien agar kompetensi seminaris berkembang secara optimal sehingga seminaris memiliki bekal yang memadai untuk melanjutkan ke jenjang pendidikan imamat berikutnya. Bidang pendidikan ini mendapat tekanan yang sangat penting di seminari ini. Data dari hasil perolehan nilai dalam bidang pendidikan ini yang akan digunakan sebagai bahan penelitian tulisan ini.

2.2 Principal Component Analysis

Sebelum melangkah ke proses dengan menggunakan agglomerative hierarchical clustering, data perolehan dari seminari akan melalui proses feature extraction 21 dengan menggunakan principal component analysis PCA. PCA menghasilkan kombinasi linear dari variabel-variabel yang diperoleh dari mereduksi variabel asli yang banyak. Di dalam proses mereduksi, diperoleh variabel yang lebih sedikit. Namun demikian variabel-variabel yang dihasilkan masih mengandung informasi yang termuat dalam data asli 22 . Dari sisi teknis, PCA dapat dimengerti sebagai suatu teknik mereduksi data multivariat multivariable yang mengubah mentranformasi suatu matriks data asli menjadi kombinasi linier yang lebih sedikit, tetapi menyerap sebagian besar jumlah varian dari data asli tersebut. Atau secara singkat dapat dikatakan bahwa tujuan PCA adalah menjelaskan sebanyak mungkin jumlah varian data asli dengan menggunakan komponen utama principal component atau vektor sesedikit mungkin. Untuk dapat menggunakan PCA dengan tepat, diperlukan pengetahuan dasar tentang perhitungan matematika. Hal ini dibutuhkan karena dalam perhitungan, PCA berkaitan dengan statistik dan aljabar matriks. Berikut ini adalah algoritma dalam penggunaan PCA 23 : 1. Matriks X adalah hasil pengurangan rata-rata dari setiap dimensi data pada matriks data. 2. Matriks adalah covariance matrix dari matriks X. 3. Hitung eigenvector dan eigenvalue dari . 21 Ekstraksi fitur adalah proses pembentukan satu set fitur baru dari fitur asli melalui beberapa pemetaan fungsional. Tujuan ekstraksi fitur ini adalah untuk mencari satu set fitur baru yang minimum melalui beberapa transformasi menurut beberapa ukuran kinerja Nong Ye, Ed, “The Handbook of Data Mining”, Lawrence Erlbaum Associates, New Jersey, 2003, hal. 411. 22 Ibid. hal. 412. 23 Lindsay I Smith, “A Tutorial on Principal Component Analysis”. Available at: http:www.ce.yildiz. edu.trpersonalsongulfile1097principal_components.pdf [Diakses tanggal 5 Juli 2014]. 4. Pilih component dan bentuk vector feature dan principal component dari eigenvector yang memiliki eigenvalue paling besar diambil. 5. Menurunkan data set yang baru. Sebagai contoh, terdapat data seperti pada tabel 2.1 di bawah ini. Data teks tersebut akan diproses dengan menggunakan PCA. Tabel 2.1 Contoh data untuk PCA Data X Y a 87 89 b 84 76 c 83 70 d 80 74 e 82 83 Data yang sudah dipersiapkan ini akan dihitung dengan mengurangi setiap data dengan rata-ratanya. Ini dilakukan karena PCA memerlukan masukan data yang mempunyai sifat zero-mean pada setiap fiturnya. Set data X dengan dimensi MxN, dimana M adalah jumlah data dan N adalah jumlah fitur, akan tampak sebagai berikut: � = [ … … … … ] Untuk fitur ke- , semua nilai pada kolom tersebut dikurangi rata-ratanya. Rumus yang digunakan adalah 24 : ′ = − ̅ 2.1 24 Eko Prasetyo, “Data Mining: Konsep Dan Aplikasi Menggunakan Matlab”, Andi, Yogyakarta, 2012, hal. 37. Keterangan:  = , , … , � dan adalah kolom ke- . Rumus ini menerangkan bahwa ′ pada adalah hasil dari pengurangan data dengan rata-rata data di setiap kolom ̅ . Dengan cara ini, total nilai baik itu kolom maupun adalah 0. Hasil yang didapat dari contoh data pada langkah 1 di atas algoritma PCA adalah sebagai berikut: Tabel 2.2 Zero-mean untuk PCA Data X Y a 3.8 10.6 b 0.8 -2.4 c -0.2 -8.4 d -3.2 -4.4 e -1.2 4.6 Data dari hasil perhitungan zero-mean matriks X dihitung untuk mendapatkan covariance, yaitu . Rumus yang digunakan adalah 25 : = � � � 2.2 Keterangan:  : covariance matrix  � : jumlah data  � � : transpose matriks � Kembali pada contoh data yang telah dihitung di atas, apabila dihitung covariance matrix-nya maka data hasilnya adalah sebagai berikut: 25 Ibid. Tabel 2.3 Covariance untuk PCA X Y X 5.36 9.72 Y 9.72 45.84 Matriks memiliki ciri-ciri sebagai berikut 26 : 1. adalah matriks simetris bujur sangkar yang berukuran NxN. 2. Bagian diagonal utama dari kiri atas ke kanan bawah adalah nilai varian masing-masing fitur sesuai indeks kolomnya. 3. Bagian selain diagonal utama adalah kovarian di antara pasangan dua fitur yang bersesuaian. Dengan demikian, matriks mengandung kovarian di antara semua pasangan yang mungkin dari fitur data matriks �. Nilai kovarian merefleksikan noise dan redundansi pada fitur 27 : 1. Dalam diagonal utama diasumsi bahwa nilai tinggi berkorelasi dengan struktur data yang penting. 2. Selain diagonal utama, nilai jarak yang besar menandakan redundansi yang tinggi. Mengingat kembali tujuan PCA adalah 1 untuk meminimalkan redudansi yang diukur oleh nilai jarak dari kovarian, dan 2 memaksimalkan nilai pemetaan keluaran yang diukur dengan varian, maka jika � adalah matriks data hasil pemetaan dan adalah matriks kovarian dari �, yang diharapkan dari PCA adalah 28 : 26 Ibid. 27 Ibid. 28 Ibid. hal. 38. 1. Semua elemen selain diagonal utama dalam harus nol. harus berbentuk matriks diagonal. Hal ini juga berarti bahwa � adalah matriks terdekorelasi. 2. Peletakan dimensi dalam � dari kiri ke kanan diturunkan menurun descending. Harapan � dapat dicapai dengan menghitung eigenvector dan eigenvalue dari covariance matriks . Yang dimaksud dengan eigenvalue adalah sebuah bilangan skalar dan eigenvector adalah sebuah matriks yang keduanya dapat mendefinisikan matriks A. Jika A adalah matriks m x m , maka setiap skalar λ memenuhi persamaan: = 2.3 untuk vektor ≠ , disebut eigenvalue dari A. Vektor x disebut eigenvector dari A yang berhubungan dengan eigenvalue , dan persamaan 2.3 diatas disebut persamaan eigenvalue-eigenvector A. Kadang-kadang eigenvalue dan eigenvector juga dinyatakan sebagai latents root and vectors atau karekteristik roots dan vektor. Persamaan 2.3 dapat juga dituliskan sebagai − � = 2.4 Setiap nilai eigenvalue harus memenuhi persamaan determinan, | − �| = 2.5 yang dikenal sebagai persamaan karakteristik A. Kembali pada data covariance yang telah ditemukan dari contoh di atas maka dapat di cari eugenvalue-nya. Hasil covariance pada tabel 2.4 dianggap sebagai matriks A. = [ . . . . ] Karakteristik determinan dari matriks A adalah: | − �| = | . − . . . − | Karena persamaan karakteristik | − �| = maka: ∴ . − . − − . ∗ . = ∴ . − . − . + − . = ∴ . − . + − . = ∴ − . − . = Sampai pada tahap ini kemudian dapat dicari nilai eigenvalue-nya dari nilai . Namun dengan perhitungan manual tentu akan mengalami kesulitan. Dalam tulisan ini akan digunakan program Matlab sebagai alat bantu perhitungan. Dengan menggunakan Matlab maka ditemukan eigenvector dan eigenvalue dari data pada tabel 3 di atas, yaitu: Gambar 2.1 Hasil eigenvector dan eigenvalue dengan Matlab Dari perhitungan dengan menggunakan Matlab ini diketahui: � � = [− . . . . ] � = [ . . ] Sampai pada tahap ini telah ditemukan eigenvalue dan eigenvector. Selanjutnya dapat dilakukan feature vector. Pembentukan feature vector-nya adalah dengan mengambil diagonal utama dari � dengan urutan dari besar ke kecil descending. Kemudian, nilai eigenvector disusun mengikuti indeks eigenvalue yang telah di-sort secara descending. Hasilnya adalah feature vector, yaitu [ .. ]. Pada tahap terakhir, berdasarkan feature vector yang telah didapat, diturunkan data set yang baru. Caranya adalah feature vector tersebut dikalikan dengan data matriks � Tabel 2.3 Zero-mean untuk PCA. � = � � � � 2.6 Hasil data set yang baru adalah sebagai berikut: Tabel 2.4 Data final untuk contoh PCA Data Z a 11.1786 b -2.1624 c -8.2344 d -5.0004 e 4.2186

2.3 Agglomerative Hierarchical Clustering