36
3 BAB III
METODOLOGI
Berdasar  pada  landasan  teori  yang  telah  disampaikan  pada  bab  kedua  di atas, pada bab ini akan dibahas metodologi yang digunakan dalam tulisan ini. Bab
ketiga akan dipaparkan tentang metode yang digunakan untuk pengumpulan data, teknik analisa data, rancangan desain user interface, dan spesifikasi  software dan
hardware yang digunakan dalam implementasi.
3.1 Metode Pengumpulan Data
Sekumpulan  data  yang  diterima  dari  Seminari  Mertoyudan  diperoleh  dari arsip nilai yang ada di seminari tersebut. Selain itu juga  data didapat berdasarkan
hasil  wawancara  dengan  para  pembina  di  seminari,  termasuk  karyawan  bagian pengarsipan.  Dengan  demikian  akan  diketahui  dengan  pasti  keakuratan  data
tersebut.  Berikut  ini  adalah  penjelasan  lebih  lanjut  tentang  metode  pengumpulan data yang telah dilaksanakan:
1.  Studi Kepustakaan Studi  kepustakaan  diperlukan  untuk  mencari  informasi  tentang  dunia
pendidikan,  khususnya  pendidikan  di  seminari  menengah.  Selain  itu,  informasi tentang  data  mining  terutama  agglomerative  hierarchical  clustering  sangat
dibutuhkan sehingga dapat membentuk suatu sistem yang dapat digunakan.
2.  Wawancara Metode  wawancara  berkaitan  dengan  dunia  pendidikan  di  seminari
dilakukan  beberapakali  kepada  pembina  di  seminari,  terutama  rektor  seminari. Selain  itu,  wawancara  juga  dilakukan  dengan  karyawan  yang  bertugas  untuk
menyimpan arsip penilaian studi para seminaris. Wawancara ini sangat membantu untuk mengerti secara benar tentang dunia pembinaan di seminari terutama dari sisi
scientia-nya.  Juga,  wawancara  berguna  untuk  mengerti  tentang  pengolahan  data nilai para seminaris.
3.  Pengumpulan Data Setelah menerima izin secara lisan dari rektor seminari, arsip data nilai yang
ada  di  Seminari  Mertoyudan  dikumpulkan.  Teknik  pengumpulan  data  dilakukan bersama karyawan seminari bagian arsip data. Data nilai yang ada dipilah-pilah dan
kemudian data yang dianggap relevan dikumpulkan dan diolah.
3.2 Teknik Analisis Data
Data  yang  telah  diperoleh  dari  hasil  pengumpulan  data  selanjutnya  mulai dianalisa.  Berkaitan  dengan  tahap-tahap  teknik  analisis  dan  jalannya  program
digambarkan dengan block diagram sebagai berikut:
Data Preprocessing
Perhitungan Jarak
AHC Output
Dendrogram Single
Average Complete
Akurasi PCA
Gambar 3.1 Block diagram proses program
1. Data
Data  yang  digunakan  untuk  penelitian  dalam  tulisan  ini  adalah  data  yang diperoleh  dari  Seminari  Menengah  Mertoyudan.  Data  ini  merupakan  daftar  nilai
hasil  belajar  rapor  para  seminaris  yang  dikumpulkan.  Daftar  nilai  ini  bersifat sangat penting karena menunjukkan kemampuan intelektual para seminaris dalam
mengikuti  mata  pelajaran  yang  disajikan  dan  diikutinya.  Berdasarkan  hasil penilaian  ini  juga  para  pembina  seminari  dapat  mengetahui  kemampuan  dan
perkembangan  anak-anak  didiknya.  Daftar  nilai  ini  juga  menjadi  bahan pertimbangan  bagi  para  pembina  seminari  untuk  mengambil  keputusan  terhadap
seorang seminaris apakah ia akan dapat melanjutkan pendidikan di seminari, atau diberi pembinaan tambahan, atau diminta untuk keluar dari seminari.
Data yang akan digunakan adalah daftar nilai  hasil  semester satu dan dua dari dua kelompok yang seangkatan, yaitu yang mengalami pendidikan di seminari
periode tahun  2009  sampai  dengan  2013  dan  periode tahun  2010  sampai  dengan 2014. Data yang digunakan adalah mulai dari kelas KPP Kelas Persiapan Pertama
sampai kelas XII kelas 3 SMA. Kurun waktu empat tahun pelajaran ini diambil karena  selama  masa  pendidikan  ini  para  seminari  dibina  dan  akhirnya  harus
diputuskan oleh pembina seminari apakah seminaris yang bersangkutan layak utuk melanjutkan ke seminari tinggi. Dalam pembinaan di Seminari Mertoyudan, masa
pendidikan empat tahun ini dapat dibagi menjadi tiga bagian, yaitu: a.
KPP. Masa KPP ini merupakan tahap awal di mana setiap seminari yang berasal dari berbagai daerah, dengan latar belakang keluarga dan budaya yang berbeda
harus  mengalami  penyesuaian  dengan  pola  kehidupan  dan  pembinaan  di
seminari.  Motivasi panggilan untuk menjadi seorang  imam  mulai dimurnikan dan  diarahkan.  Keberanian  untuk  mengolah  kerohanian,  kepribadian,  dan
intelektual ditekankan. Hal ini diterapkan dengan berbagai mata pelajaran yang disajikan, misalnya mata pelajaran Metode Belajar dan Sidang Akademi guna
menumbuhkan  keberanian  mengolah  gagasan  pengetahuan  dan  berpendapat. Hal  ini terkait erat  dengan pengolahan kepribadian dan  intelektual. Selain  itu
ada  juga  mata  pelajaran  Agama,  Liturgi,  dan  Sejarah  Gereja  yang  mengarah pada pengetahuan rohani para seminaris.
b. Kelas  X  dan  Kelas  XI.  Masa  perkenalan  para  seminaris  terhadap  kehidupan
seminari dianggap telah dilalui. Di kelas X dan XI para seminaris  mengalami pembinaan  lanjutan.  Di  bangku  sekolah,  sisi  scientia  disetarakan  dengan
pendidikan  SMA  umum,  namun  tidak  meninggalkan  mata  pelajaran  yang dibutuhkan untuk pembinaan seorang calon imam. Masa dua tahun ini menjadi
masa pembinaan yang sangat ketat dan menentukan. Hal ini terkait erat dengan putusan final yang akan diterima setiap seminaris di penghujung kelas XI. Di
Seminari  Mertoyudan,  penghujung  kelas  XI  menjadi  masa  penentuan  apakah seorang  seminaris  layak  atau  tidak  untuk  melanjutkan  ke  seminari  tinggi.
Artinya, apabila seorang seminaris sudah masuk ke kelas XII, hal ini berarti ia sudah  layak  untuk  melanjutkan  ke  seminari  tinggi  atau  masuk  ke  kongregasi
tertentu sebagai bruder. c.
Kelas XII. Para seminaris yang berada di kelas XII berarti sudah layak untuk melanjutkan pendidikannya ke jenjang yang lebih tinggi. Hal ini berarti setiap
seminaris  harus  sudah  memantapkan  diri  bukan  lagi  untuk  masuk  dalam
golongan laikus awam atau klerus imam di dalam Gereja Katolik, melainkan siap  untuk  membuat  lamaran  guna  bergabung  ke  keuskupan  atau  kongregasi
tertentu. Total  data  yang  digunakan  berjumlah  137  orang  siswa  dengan  186  mata
pelajaran yang ada di seminari mulai dari KPP sampai kelas XII. Dimensi data ini berasal dari dua angkatan seminaris, yaitu 2009 dan 2010. Dari 137 data yang ada,
memuat  data  seminaris  dalam  ketiga  bagian  di  atas.  Dengan  dimensi  data  yang demikian kiranya dapat diketahui pola keberhasilan seminaris.
2. Preprocessing
Data  yang  sudah  didapat  dan dikumpulkan  selanjutnya  diolah  dalam  tahap preprocessing. Pada tahap ini akan dilakukan data cleaning, data integration, data
selection  dan data transformation. Data yang di dapat, baik  itu dari hasil  scanner, maupun berupa file berformat Excel dikumpulkan. Data yang berkaitan diambil dan
dikumpulkan.  Mengingat  bahwa  ada  jurusan  IPA  dan  IPS  pada  masa  pendidikan tersebut, maka nilai mata pelajaran seminaris jurusan IPA pada jurusan IPS mendapat
rata-rata dari nilai mata pelajaran seminaris jurusan IPS per mata pelajarannya. Sama halnya yang dilakukan untuk nilai  mata pelajaran seminaris jurusan IPS di jurusan
IPA. Hal ini dilakukan setara dengan penanganan kesalahan data dengan menghitung rata-rata  berdasarkan  nilai  yang  tersedia  untuk  fitur  tersebut,  kemudian  hasilnya
digunakan  untuk  mengganti  nilai  fitur  yang  salah  pada  setiap  vektor.
35
Apabila seminaris keluar dari seminari, nilai mata pelajaran selanjutnya diberi nilai 0.
35
Budi Santosa, “Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis”, Graha
Ilmu, Yogyakarta, 2007, hal. 20.
Dalam  praktek,  sering  ditemukan  fitur  dengan  jangkauan  nilai  yang berbeda. Hal ini mengakibatkan fitur dengan nilai yang lebih besar dapat pengaruh
yang  lebih  besar  pula.  Apabila  dalam  proses  ini  ditemukan  jarak  nilai  yang berjauhan, maka akan dilakukan proses normalisasi. Normalisasi yang  digunakan
adalah Z-Score dengan persamaan
36
: ̂ =
− ̅ σ
3.1 Keterangan:
  ̂  adalah nilai Z-Score setiap data   di indeks 
adalah data   di indeks   ̅  adalah rata-rata data   di indeks
  σ  adalah standar deviasi data   di indeks Di samping itu, principal component analysis PCA akan diterapkan dalam
tahap preprocessing ini. PCA dilakukan untuk mengurangi dimensi data yang besar, namun tidak menghilangkan informasi yang penting yang terkandung di dalam data.
3. Perhitungan jarak
Setelah  data  melewati  tahap  preprocessing,  tahap  selanjutnya  adalah mengukur  jarak  setiap  data.  Pengukuran  jarak  digunakan  euclidean  distance,
sebagaimana  yang  telah  dipaparkan  pada  bab  kedua  dalam  tulisan  ini.  Dengan menggunakan perhitungan euclidean distance akan didapat jarak antardata dalam
sebuah  matriks.  Matriks  ini  kemudian  akan  digunakan  untuk  tahap  selanjutnya,
36
Eko Prasetyo, “… Menjadi Informasi…”, op. cit. hal. 19.
yaitu  clustering  dengan  menggunakan AHC.  Berikut  ini adalah contoh data yang akan digunakan untuk perhitungan jarak dengan euclidean distance:
Tabel 3.1 Data sampel perhitungan jarak
Data X
Y a
87 89
b 84
76
c 83
70
d 80
74
e
82 83
f 81
92
Dengan  menggunakan  perhitungan  euclidean  distance,  data  sampel  pada tabel 3.1 didapat matriks jarak sebagai berikut:
Tabel 3.2 Hasil euclidean distance dari data sampel
a b
c d
e f
a 0  13.34166  19.41649  16.55295
7.81025  6.708204
b
13.34166 0  6.082763  4.472136
7.28011  16.27882
c 19.41649  6.082763
5 13.0384  22.09072
d 16.55295  4.472136
5 0  9.219544  18.02776
e 7.81025
7.28011 13.0384  9.219544
0  9.055385
f 6.708204  16.27882  22.09072  18.02776  9.055385
4. AHC
AHC  adalah  agglomerative  hierarchical  clustering.  Dalam  tahap  ini matriks jarak data yang telah dihasilkan dengan euclidean distance akan digunakan.
Masing-masing data akan dikelompokkan berdasarkan karakteristik kedekatannya. Proses pengelompokan tersebut akan menggunakan tiga perhitungan yaitu,  single
linkage, average linkage, dan complete linkage. Langkah-langkah perhitungannya seperti  yang  dapat  dilihat  dalam  bab  ke  dua  di  dalam  tulisan  ini.  Dengan
menggunakan  Matlab,  data  sampel  yang  digunakan  pada  tabel  3.1  dihasilkan dendrogram sebagai berikut ini:
Gambar 3.2 Dendrogram single linkage
Gambar 3.3 Dendrogram average linkage
Gambar 3.4 Dendrogram complete linkage
Berikut  ini  adalah  source  code  yang  digunakan  dalam  Matlab  yang menghasilkan ketiga dendrogram di atas:
5. Cluster
Proses  AHC  akan  menghasilkan  dendrogram  dari  masing-masing perhitungan,  baik  itu  dari  single  linkage,  average  linkage,  maupun  complete
linkage. Dari hasil dendrogram tersebut dapat ditentukan cluster yang diinginkan. Proses  pembentukan  cluster  tersebut  adalah  dengan  proses  cut-off  pada  jarak
ketinggian  tertentu  dari  dendrogram  yang  telah  terbentuk.  Dengan  menggunakan function cluster yang ada di Matlab, cluster ini juga dapat dilakukan.
Tabel 3.3 Contoh cluster hasil cut-off 3 single linkage Kelompok 1
Kelompok 2 Kelompok 3
2 5
1 3
6 4
Tabel 3.4 Contoh cluster hasil cut-off 3 average linkage Kelompok 1
Kelompok 2 Kelompok 3
2 1
5 4
6 3
Data sampel data=[87 89; 84 76; 83 70; 80 74; 82 83; 81 92];
Single Linkage single=linkagedata,
single ,
euclidean ;
setfigure, name
, Single Linkage
, numbertitle
, off
dendrogramsingle Average Linkage
average=linkagedata, average
, euclidean
; setfigure,
name ,
Average Linkage ,
numbertitle ,
off dendrogramaverage
Complete Linkage complete=linkagedata,
complete ,
euclidean ;
setfigure, name
, Complete Linkage
, numbertitle
, off
dendrogramcomplete
Tabel 3.5 Contoh cluster hasil cut-off 3 complete linkage Kelompok 1
Kelompok 2 Kelompok 3
2 1
5 4
6 3
6. Perhitungan akurasi
Tulisan  ini  menggunakan  SSE  untuk  menghitung  akurasi  di  setiap pembentukan cluster-nya. Dengan demikian ada sejumlah percobaan pembentukan
cluster  yang  akan  dihitung  SSE-nya.  SSE  dengan  nilai  yang  paling  rendah mengindikasikan  bahwa  cluster  yang  terbentuk  adalah  yang  paling  baik.  Akan
dilakukan  percobaan  pembentukan  cluster  antara 2  sampai  10.  Namun  demikian tidak  menutup  kemungkinan  bahwa  percobaan  yang  dilakukan  bisa  lebih  atau
kurang dari 10. Hal ini tinggal tergantung kebutuhan yang ada. Dengan percobaan yang  dilakukan,  akan  terbentuk  grafik  yang  menggambarkan  hasil  setiap
perhitungan dari setiap percobaan pembentukan cluster.
3.3 Desain User Interface