36
3 BAB III
METODOLOGI
Berdasar pada landasan teori yang telah disampaikan pada bab kedua di atas, pada bab ini akan dibahas metodologi yang digunakan dalam tulisan ini. Bab
ketiga akan dipaparkan tentang metode yang digunakan untuk pengumpulan data, teknik analisa data, rancangan desain user interface, dan spesifikasi software dan
hardware yang digunakan dalam implementasi.
3.1 Metode Pengumpulan Data
Sekumpulan data yang diterima dari Seminari Mertoyudan diperoleh dari arsip nilai yang ada di seminari tersebut. Selain itu juga data didapat berdasarkan
hasil wawancara dengan para pembina di seminari, termasuk karyawan bagian pengarsipan. Dengan demikian akan diketahui dengan pasti keakuratan data
tersebut. Berikut ini adalah penjelasan lebih lanjut tentang metode pengumpulan data yang telah dilaksanakan:
1. Studi Kepustakaan Studi kepustakaan diperlukan untuk mencari informasi tentang dunia
pendidikan, khususnya pendidikan di seminari menengah. Selain itu, informasi tentang data mining terutama agglomerative hierarchical clustering sangat
dibutuhkan sehingga dapat membentuk suatu sistem yang dapat digunakan.
2. Wawancara Metode wawancara berkaitan dengan dunia pendidikan di seminari
dilakukan beberapakali kepada pembina di seminari, terutama rektor seminari. Selain itu, wawancara juga dilakukan dengan karyawan yang bertugas untuk
menyimpan arsip penilaian studi para seminaris. Wawancara ini sangat membantu untuk mengerti secara benar tentang dunia pembinaan di seminari terutama dari sisi
scientia-nya. Juga, wawancara berguna untuk mengerti tentang pengolahan data nilai para seminaris.
3. Pengumpulan Data Setelah menerima izin secara lisan dari rektor seminari, arsip data nilai yang
ada di Seminari Mertoyudan dikumpulkan. Teknik pengumpulan data dilakukan bersama karyawan seminari bagian arsip data. Data nilai yang ada dipilah-pilah dan
kemudian data yang dianggap relevan dikumpulkan dan diolah.
3.2 Teknik Analisis Data
Data yang telah diperoleh dari hasil pengumpulan data selanjutnya mulai dianalisa. Berkaitan dengan tahap-tahap teknik analisis dan jalannya program
digambarkan dengan block diagram sebagai berikut:
Data Preprocessing
Perhitungan Jarak
AHC Output
Dendrogram Single
Average Complete
Akurasi PCA
Gambar 3.1 Block diagram proses program
1. Data
Data yang digunakan untuk penelitian dalam tulisan ini adalah data yang diperoleh dari Seminari Menengah Mertoyudan. Data ini merupakan daftar nilai
hasil belajar rapor para seminaris yang dikumpulkan. Daftar nilai ini bersifat sangat penting karena menunjukkan kemampuan intelektual para seminaris dalam
mengikuti mata pelajaran yang disajikan dan diikutinya. Berdasarkan hasil penilaian ini juga para pembina seminari dapat mengetahui kemampuan dan
perkembangan anak-anak didiknya. Daftar nilai ini juga menjadi bahan pertimbangan bagi para pembina seminari untuk mengambil keputusan terhadap
seorang seminaris apakah ia akan dapat melanjutkan pendidikan di seminari, atau diberi pembinaan tambahan, atau diminta untuk keluar dari seminari.
Data yang akan digunakan adalah daftar nilai hasil semester satu dan dua dari dua kelompok yang seangkatan, yaitu yang mengalami pendidikan di seminari
periode tahun 2009 sampai dengan 2013 dan periode tahun 2010 sampai dengan 2014. Data yang digunakan adalah mulai dari kelas KPP Kelas Persiapan Pertama
sampai kelas XII kelas 3 SMA. Kurun waktu empat tahun pelajaran ini diambil karena selama masa pendidikan ini para seminari dibina dan akhirnya harus
diputuskan oleh pembina seminari apakah seminaris yang bersangkutan layak utuk melanjutkan ke seminari tinggi. Dalam pembinaan di Seminari Mertoyudan, masa
pendidikan empat tahun ini dapat dibagi menjadi tiga bagian, yaitu: a.
KPP. Masa KPP ini merupakan tahap awal di mana setiap seminari yang berasal dari berbagai daerah, dengan latar belakang keluarga dan budaya yang berbeda
harus mengalami penyesuaian dengan pola kehidupan dan pembinaan di
seminari. Motivasi panggilan untuk menjadi seorang imam mulai dimurnikan dan diarahkan. Keberanian untuk mengolah kerohanian, kepribadian, dan
intelektual ditekankan. Hal ini diterapkan dengan berbagai mata pelajaran yang disajikan, misalnya mata pelajaran Metode Belajar dan Sidang Akademi guna
menumbuhkan keberanian mengolah gagasan pengetahuan dan berpendapat. Hal ini terkait erat dengan pengolahan kepribadian dan intelektual. Selain itu
ada juga mata pelajaran Agama, Liturgi, dan Sejarah Gereja yang mengarah pada pengetahuan rohani para seminaris.
b. Kelas X dan Kelas XI. Masa perkenalan para seminaris terhadap kehidupan
seminari dianggap telah dilalui. Di kelas X dan XI para seminaris mengalami pembinaan lanjutan. Di bangku sekolah, sisi scientia disetarakan dengan
pendidikan SMA umum, namun tidak meninggalkan mata pelajaran yang dibutuhkan untuk pembinaan seorang calon imam. Masa dua tahun ini menjadi
masa pembinaan yang sangat ketat dan menentukan. Hal ini terkait erat dengan putusan final yang akan diterima setiap seminaris di penghujung kelas XI. Di
Seminari Mertoyudan, penghujung kelas XI menjadi masa penentuan apakah seorang seminaris layak atau tidak untuk melanjutkan ke seminari tinggi.
Artinya, apabila seorang seminaris sudah masuk ke kelas XII, hal ini berarti ia sudah layak untuk melanjutkan ke seminari tinggi atau masuk ke kongregasi
tertentu sebagai bruder. c.
Kelas XII. Para seminaris yang berada di kelas XII berarti sudah layak untuk melanjutkan pendidikannya ke jenjang yang lebih tinggi. Hal ini berarti setiap
seminaris harus sudah memantapkan diri bukan lagi untuk masuk dalam
golongan laikus awam atau klerus imam di dalam Gereja Katolik, melainkan siap untuk membuat lamaran guna bergabung ke keuskupan atau kongregasi
tertentu. Total data yang digunakan berjumlah 137 orang siswa dengan 186 mata
pelajaran yang ada di seminari mulai dari KPP sampai kelas XII. Dimensi data ini berasal dari dua angkatan seminaris, yaitu 2009 dan 2010. Dari 137 data yang ada,
memuat data seminaris dalam ketiga bagian di atas. Dengan dimensi data yang demikian kiranya dapat diketahui pola keberhasilan seminaris.
2. Preprocessing
Data yang sudah didapat dan dikumpulkan selanjutnya diolah dalam tahap preprocessing. Pada tahap ini akan dilakukan data cleaning, data integration, data
selection dan data transformation. Data yang di dapat, baik itu dari hasil scanner, maupun berupa file berformat Excel dikumpulkan. Data yang berkaitan diambil dan
dikumpulkan. Mengingat bahwa ada jurusan IPA dan IPS pada masa pendidikan tersebut, maka nilai mata pelajaran seminaris jurusan IPA pada jurusan IPS mendapat
rata-rata dari nilai mata pelajaran seminaris jurusan IPS per mata pelajarannya. Sama halnya yang dilakukan untuk nilai mata pelajaran seminaris jurusan IPS di jurusan
IPA. Hal ini dilakukan setara dengan penanganan kesalahan data dengan menghitung rata-rata berdasarkan nilai yang tersedia untuk fitur tersebut, kemudian hasilnya
digunakan untuk mengganti nilai fitur yang salah pada setiap vektor.
35
Apabila seminaris keluar dari seminari, nilai mata pelajaran selanjutnya diberi nilai 0.
35
Budi Santosa, “Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis”, Graha
Ilmu, Yogyakarta, 2007, hal. 20.
Dalam praktek, sering ditemukan fitur dengan jangkauan nilai yang berbeda. Hal ini mengakibatkan fitur dengan nilai yang lebih besar dapat pengaruh
yang lebih besar pula. Apabila dalam proses ini ditemukan jarak nilai yang berjauhan, maka akan dilakukan proses normalisasi. Normalisasi yang digunakan
adalah Z-Score dengan persamaan
36
: ̂ =
− ̅ σ
3.1 Keterangan:
̂ adalah nilai Z-Score setiap data di indeks
adalah data di indeks ̅ adalah rata-rata data di indeks
σ adalah standar deviasi data di indeks Di samping itu, principal component analysis PCA akan diterapkan dalam
tahap preprocessing ini. PCA dilakukan untuk mengurangi dimensi data yang besar, namun tidak menghilangkan informasi yang penting yang terkandung di dalam data.
3. Perhitungan jarak
Setelah data melewati tahap preprocessing, tahap selanjutnya adalah mengukur jarak setiap data. Pengukuran jarak digunakan euclidean distance,
sebagaimana yang telah dipaparkan pada bab kedua dalam tulisan ini. Dengan menggunakan perhitungan euclidean distance akan didapat jarak antardata dalam
sebuah matriks. Matriks ini kemudian akan digunakan untuk tahap selanjutnya,
36
Eko Prasetyo, “… Menjadi Informasi…”, op. cit. hal. 19.
yaitu clustering dengan menggunakan AHC. Berikut ini adalah contoh data yang akan digunakan untuk perhitungan jarak dengan euclidean distance:
Tabel 3.1 Data sampel perhitungan jarak
Data X
Y a
87 89
b 84
76
c 83
70
d 80
74
e
82 83
f 81
92
Dengan menggunakan perhitungan euclidean distance, data sampel pada tabel 3.1 didapat matriks jarak sebagai berikut:
Tabel 3.2 Hasil euclidean distance dari data sampel
a b
c d
e f
a 0 13.34166 19.41649 16.55295
7.81025 6.708204
b
13.34166 0 6.082763 4.472136
7.28011 16.27882
c 19.41649 6.082763
5 13.0384 22.09072
d 16.55295 4.472136
5 0 9.219544 18.02776
e 7.81025
7.28011 13.0384 9.219544
0 9.055385
f 6.708204 16.27882 22.09072 18.02776 9.055385
4. AHC
AHC adalah agglomerative hierarchical clustering. Dalam tahap ini matriks jarak data yang telah dihasilkan dengan euclidean distance akan digunakan.
Masing-masing data akan dikelompokkan berdasarkan karakteristik kedekatannya. Proses pengelompokan tersebut akan menggunakan tiga perhitungan yaitu, single
linkage, average linkage, dan complete linkage. Langkah-langkah perhitungannya seperti yang dapat dilihat dalam bab ke dua di dalam tulisan ini. Dengan
menggunakan Matlab, data sampel yang digunakan pada tabel 3.1 dihasilkan dendrogram sebagai berikut ini:
Gambar 3.2 Dendrogram single linkage
Gambar 3.3 Dendrogram average linkage
Gambar 3.4 Dendrogram complete linkage
Berikut ini adalah source code yang digunakan dalam Matlab yang menghasilkan ketiga dendrogram di atas:
5. Cluster
Proses AHC akan menghasilkan dendrogram dari masing-masing perhitungan, baik itu dari single linkage, average linkage, maupun complete
linkage. Dari hasil dendrogram tersebut dapat ditentukan cluster yang diinginkan. Proses pembentukan cluster tersebut adalah dengan proses cut-off pada jarak
ketinggian tertentu dari dendrogram yang telah terbentuk. Dengan menggunakan function cluster yang ada di Matlab, cluster ini juga dapat dilakukan.
Tabel 3.3 Contoh cluster hasil cut-off 3 single linkage Kelompok 1
Kelompok 2 Kelompok 3
2 5
1 3
6 4
Tabel 3.4 Contoh cluster hasil cut-off 3 average linkage Kelompok 1
Kelompok 2 Kelompok 3
2 1
5 4
6 3
Data sampel data=[87 89; 84 76; 83 70; 80 74; 82 83; 81 92];
Single Linkage single=linkagedata,
single ,
euclidean ;
setfigure, name
, Single Linkage
, numbertitle
, off
dendrogramsingle Average Linkage
average=linkagedata, average
, euclidean
; setfigure,
name ,
Average Linkage ,
numbertitle ,
off dendrogramaverage
Complete Linkage complete=linkagedata,
complete ,
euclidean ;
setfigure, name
, Complete Linkage
, numbertitle
, off
dendrogramcomplete
Tabel 3.5 Contoh cluster hasil cut-off 3 complete linkage Kelompok 1
Kelompok 2 Kelompok 3
2 1
5 4
6 3
6. Perhitungan akurasi
Tulisan ini menggunakan SSE untuk menghitung akurasi di setiap pembentukan cluster-nya. Dengan demikian ada sejumlah percobaan pembentukan
cluster yang akan dihitung SSE-nya. SSE dengan nilai yang paling rendah mengindikasikan bahwa cluster yang terbentuk adalah yang paling baik. Akan
dilakukan percobaan pembentukan cluster antara 2 sampai 10. Namun demikian tidak menutup kemungkinan bahwa percobaan yang dilakukan bisa lebih atau
kurang dari 10. Hal ini tinggal tergantung kebutuhan yang ada. Dengan percobaan yang dilakukan, akan terbentuk grafik yang menggambarkan hasil setiap
perhitungan dari setiap percobaan pembentukan cluster.
3.3 Desain User Interface