1912 sesuai dengan izin resmi dari tahta suci Roma untuk memulai lembaga pendidikan calon imam di Indonesia.
Seminari Menengah Mertoyudan memiliki visi untuk menjadi komunitas pendidikan calon imam tingkat menengah yang handal dan berkompeten dalam
mengembangkan sanctitas kesucian, sanitas kesehatan, dan scientia pengetahuan ke arah imamat yang tanggap terhadap kebutuhan zaman. Seminari
Menengah Mertoyudan bertujuan untuk mendampingi seminaris dalam mengolah hidup rohani, panggilan, kegerejaan dan kemasyarakatan, agar mampu mengambil
keputusan sesuai dengan panggilan hidupnya. Pendampingan bagi seminaris juga tertuju pada mengembangkan diri menjadi pribadi yang sehat secara fisik maupun
psikis, dewasa secara manusiawi maupun kristiani, sehingga seminaris memiliki kesiapsiagaan untuk menanggapi panggilan Tuhan.
Seminari Menengah Mertoyudan melaksanakan kegiatan pendidikan dan pembelajaran secara efektif dan efisien agar kompetensi seminaris berkembang
secara optimal sehingga seminaris memiliki bekal yang memadai untuk melanjutkan ke jenjang pendidikan imamat berikutnya. Bidang pendidikan ini
mendapat tekanan yang sangat penting di seminari ini. Data dari hasil perolehan nilai dalam bidang pendidikan ini yang akan digunakan sebagai bahan penelitian
tulisan ini.
2.2 Principal Component Analysis
Sebelum melangkah ke proses dengan menggunakan agglomerative hierarchical clustering, data perolehan dari seminari akan melalui proses feature
extraction
21
dengan menggunakan principal component analysis PCA. PCA menghasilkan kombinasi linear dari variabel-variabel yang diperoleh dari
mereduksi variabel asli yang banyak. Di dalam proses mereduksi, diperoleh variabel yang lebih sedikit. Namun demikian variabel-variabel yang dihasilkan
masih mengandung informasi yang termuat dalam data asli
22
. Dari sisi teknis, PCA dapat dimengerti sebagai suatu teknik mereduksi data
multivariat multivariable yang mengubah mentranformasi suatu matriks data asli menjadi kombinasi linier yang lebih sedikit, tetapi menyerap sebagian besar jumlah
varian dari data asli tersebut. Atau secara singkat dapat dikatakan bahwa tujuan PCA adalah menjelaskan sebanyak mungkin jumlah varian data asli dengan menggunakan
komponen utama principal component atau vektor sesedikit mungkin. Untuk dapat menggunakan PCA dengan tepat, diperlukan pengetahuan
dasar tentang perhitungan matematika. Hal ini dibutuhkan karena dalam perhitungan, PCA berkaitan dengan statistik dan aljabar matriks. Berikut ini adalah
algoritma dalam penggunaan PCA
23
: 1. Matriks X adalah hasil pengurangan rata-rata dari setiap dimensi data pada
matriks data. 2. Matriks
adalah covariance matrix dari matriks X. 3. Hitung eigenvector dan eigenvalue dari
.
21
Ekstraksi fitur adalah proses pembentukan satu set fitur baru dari fitur asli melalui beberapa pemetaan fungsional. Tujuan ekstraksi fitur ini adalah untuk mencari satu set fitur baru
yang minimum melalui beberapa transformasi menurut beberapa ukuran kinerja Nong Ye, Ed, “The Handbook of Data Mining”, Lawrence Erlbaum Associates, New Jersey, 2003, hal. 411.
22
Ibid. hal. 412.
23
Lindsay I Smith, “A Tutorial on Principal Component Analysis”. Available at:
http:www.ce.yildiz. edu.trpersonalsongulfile1097principal_components.pdf [Diakses tanggal 5 Juli 2014].
4. Pilih component dan bentuk vector feature dan principal component dari eigenvector yang memiliki eigenvalue paling besar diambil.
5. Menurunkan data set yang baru. Sebagai contoh, terdapat data seperti pada tabel 2.1 di bawah ini. Data teks
tersebut akan diproses dengan menggunakan PCA.
Tabel 2.1 Contoh data untuk PCA
Data X
Y a
87 89
b 84
76
c
83 70
d 80
74
e
82 83
Data yang sudah dipersiapkan ini akan dihitung dengan mengurangi setiap data dengan rata-ratanya. Ini dilakukan karena PCA memerlukan masukan data
yang mempunyai sifat zero-mean pada setiap fiturnya. Set data X dengan dimensi MxN, dimana M adalah jumlah data dan N adalah jumlah fitur, akan tampak sebagai
berikut:
� = [ … …
… … ]
Untuk fitur ke- , semua nilai pada kolom tersebut dikurangi rata-ratanya. Rumus yang digunakan adalah
24
: ′ =
− ̅ 2.1
24
Eko Prasetyo, “Data Mining: Konsep Dan Aplikasi Menggunakan Matlab”, Andi, Yogyakarta, 2012, hal. 37.
Keterangan:
= , , … , � dan adalah kolom ke- . Rumus ini menerangkan bahwa
′ pada adalah hasil dari pengurangan data
dengan rata-rata data di setiap kolom ̅ . Dengan cara ini, total nilai
baik itu kolom maupun adalah 0. Hasil yang didapat dari contoh data pada langkah 1 di atas algoritma PCA adalah sebagai berikut:
Tabel 2.2 Zero-mean untuk PCA
Data X
Y a
3.8 10.6
b 0.8
-2.4
c
-0.2 -8.4
d -3.2
-4.4
e -1.2
4.6
Data dari hasil perhitungan zero-mean matriks X dihitung untuk mendapatkan covariance, yaitu
. Rumus yang digunakan adalah
25
: = �
�
� 2.2
Keterangan:
: covariance matrix � : jumlah data
�
�
: transpose matriks �
Kembali pada contoh data yang telah dihitung di atas, apabila dihitung covariance matrix-nya maka data hasilnya adalah sebagai berikut:
25
Ibid.
Tabel 2.3 Covariance untuk PCA
X Y
X
5.36 9.72
Y 9.72
45.84
Matriks memiliki ciri-ciri sebagai berikut
26
: 1.
adalah matriks simetris bujur sangkar yang berukuran NxN. 2.
Bagian diagonal utama dari kiri atas ke kanan bawah adalah nilai varian masing-masing fitur sesuai indeks kolomnya.
3. Bagian selain diagonal utama adalah kovarian di antara pasangan dua fitur yang
bersesuaian. Dengan demikian, matriks
mengandung kovarian di antara semua pasangan yang mungkin dari fitur data matriks
�. Nilai kovarian merefleksikan noise dan redundansi pada fitur
27
: 1.
Dalam diagonal utama diasumsi bahwa nilai tinggi berkorelasi dengan struktur data yang penting.
2. Selain diagonal utama, nilai jarak yang besar menandakan redundansi yang tinggi.
Mengingat kembali tujuan PCA adalah 1 untuk meminimalkan redudansi yang diukur oleh nilai jarak dari kovarian, dan 2 memaksimalkan nilai pemetaan
keluaran yang diukur dengan varian, maka jika �
adalah matriks data hasil pemetaan dan
adalah matriks kovarian dari �, yang diharapkan dari PCA
adalah
28
:
26
Ibid.
27
Ibid.
28
Ibid. hal. 38.
1. Semua elemen selain diagonal utama dalam harus nol. harus berbentuk
matriks diagonal. Hal ini juga berarti bahwa �
adalah matriks terdekorelasi. 2.
Peletakan dimensi dalam � dari kiri ke kanan diturunkan menurun
descending. Harapan
� dapat dicapai dengan menghitung eigenvector dan eigenvalue dari
covariance matriks . Yang dimaksud dengan eigenvalue adalah sebuah
bilangan skalar dan eigenvector adalah sebuah matriks yang keduanya dapat mendefinisikan matriks A. Jika A adalah matriks m x m
, maka setiap skalar λ memenuhi persamaan:
= 2.3
untuk vektor ≠ , disebut eigenvalue dari A. Vektor x disebut eigenvector
dari A yang berhubungan dengan eigenvalue , dan persamaan 2.3 diatas disebut
persamaan eigenvalue-eigenvector A. Kadang-kadang eigenvalue dan eigenvector juga dinyatakan sebagai latents root and vectors atau karekteristik roots dan
vektor. Persamaan 2.3 dapat juga dituliskan sebagai − � =
2.4 Setiap nilai eigenvalue harus memenuhi persamaan determinan,
| − �| = 2.5
yang dikenal sebagai persamaan karakteristik A. Kembali pada data covariance yang telah ditemukan dari contoh di atas
maka dapat di cari eugenvalue-nya. Hasil covariance pada tabel 2.4 dianggap sebagai matriks A.
= [ . .
. . ]
Karakteristik determinan dari matriks A adalah: | − �| = | . −
. .
. − |
Karena persamaan karakteristik | − �| = maka:
∴ . − . −
− . ∗ . =
∴ . − .
− .
+ −
. =
∴ . − . +
− .
= ∴
− . − . =
Sampai pada tahap ini kemudian dapat dicari nilai eigenvalue-nya dari nilai . Namun dengan perhitungan manual tentu akan mengalami kesulitan. Dalam
tulisan ini akan digunakan program Matlab sebagai alat bantu perhitungan. Dengan menggunakan Matlab maka ditemukan eigenvector dan eigenvalue dari data pada
tabel 3 di atas, yaitu:
Gambar 2.1 Hasil eigenvector dan eigenvalue dengan Matlab
Dari perhitungan dengan menggunakan Matlab ini diketahui: �
� = [− . .
. .
] �
= [ . .
] Sampai pada tahap ini telah ditemukan eigenvalue dan eigenvector.
Selanjutnya dapat dilakukan feature vector. Pembentukan feature vector-nya adalah dengan mengambil diagonal utama dari
� dengan urutan dari
besar ke kecil descending. Kemudian, nilai eigenvector disusun mengikuti indeks eigenvalue yang telah di-sort secara descending. Hasilnya adalah feature vector,
yaitu [ .. ].
Pada tahap terakhir, berdasarkan feature vector yang telah didapat, diturunkan data set yang baru. Caranya adalah feature vector tersebut dikalikan
dengan data matriks � Tabel 2.3 Zero-mean untuk PCA.
� = �
� � �
2.6 Hasil data set yang baru adalah sebagai berikut:
Tabel 2.4 Data final untuk contoh PCA
Data Z
a
11.1786
b -2.1624
c
-8.2344
d -5.0004
e
4.2186
2.3 Agglomerative Hierarchical Clustering