3. Hasil Proses AHC dan Akurasi
Setelah tombol Proses dipilih, selain Tabel Data menampilkan hasil proses PCA,  akan  tampil  juga  diagram  dendrogram  dan  cluster  hasil  proses  AHC  dan
grafik akurasi dari perhitungan SSE untuk setiap cluster-nya. Dendrogram, baik itu hasil dari single linkage, average linkage, maupun complete linkage, ditampilkan
bersama  label  dari  masing-masing  leaf  node  dalam  bentuk  tabel.  Cluster ditampilkan  bersama  dengan  jumlah  masing-masing  cluster.  Grafik  SSE
menampilkan  nilai SSE dari  masing-masing  cluster. Grafik SSE  ini dapat dipilih untuk merubah tampilan Dendrogram dan panel Cluster sesuai dengan cluster yang
dipilih dalam grafik SSE.
Gambar 3.8 Desain hasil proses AHC dan akurasi
3.4 Spesifikasi Software dan Hardware
Untuk  proses  implementasi  digunakan  spesifikasi  software  dan  hardware sebagai berikut:
1.  Software: a.  Sistem Operasi : Microsoft Windows 7 ultimate 64-bit
b.  Bahasa pemrograman : Matlab version 8.0.0.783 R2012b 2.  Hardware:
a.  Processor : IntelR CoreTM i5-2500K CPU  3.30GHz b.  Memory: 4 GB
c.  Harddisk: 1 TB
50
4 BAB IV
IMPLEMENTASI DAN ANALISIS HASIL
Metodologi yang telah dipaparkan pada bab sebelumnya diimplementasikan pada bab ini. Implementasi tersebut berkaitan dengan pengolahan data mulai dari
preprocessing  menggunakan principal component analysis PCA sampai dengan uji akurasi dengan menggunakan sum of squares error SSE atas hasil proses data
dengan  menggunakan  agglomerative  hierarchical  clustering  AHC.  Pada  tahap selanjutnya,  hasil  implementasi  tersebut  dianalisis.  Analisis  hasil  implementasi
disajikan  dalam  dua  bagian,  yaitu  analisis  hasil  secara  global  dan  analisis  hasil secara parsial.
4.1 Implementasi
Landasan  teori  dan  metodologi  yang  telah  disampaikan  berkurang manfaatnya  jika  tidak  disertakan  dengan  implementasi.  Implementasi  dipaparkan
dalam dua  bagian besar, yaitu berkaitan dengan proses pengolahan data dan  user interface atas sistem yang telah dibuat guna pengolah data tersebut.
4.1.1 Pengolahan Data
Data  yang  digunakan  dalam  penelitian  pengenalan  pola  tulisan  ini berjumlah 137 data. Sejumlah data tersebut merupakan obyek primer penelitian ini.
Obyek primer tersebut adalah nilai dari sisi scientia berupa nilai rapor yang bersifat
kognitif dari 137 siswa angkatan 2009 dan angkatan 2010 di Seminari Menengah St. Petrus Canisius, Mertoyudan
– Magelang. Nilai dari sisi scientia yang digunakan dalam tulisan ini adalah data dari dua
angkatan  siswa  seminari  yang  dimulai  dari  Kelas  Persiapan  Pertama  KPP.  Di Seminari  Mertoyudan,  pendidikan  dilalui  selama  empat  tahun.  Jenjang  pendidikan
empat tahun tersebut serta jumlah seminarisnya dapat dilihat dalam tabel berikut ini.
Tabel 4.1 Jenjang kelas dan jumlah seminaris
Angkatan  KPP Kelas X
Kelas XI Kelas XII
IPS IPA
IPS IPA
2009
66 59
29 26
15 11
2010 71
69 33
25 22
14
Jumlah 137
128 62
51 37
25
Berkaitan dengan pembinaan kognitif di seminari, mata pelajaran di setiap jenjang  kelas  tidak  dapat  dilepaskan.  Di  dalam  tulisan  ini,  mata  pelajar  menjadi
atribut atau fitur dalam pengolahan data. Adapun mata pelajaran yang diikuti oleh para seminaris adalah seperti yang tampak pada tabel berikut ini.
Tabel 4.2 Mata pelajaran
KPP Kelas X
Semester 1 Semester2
Semester 1 Semester2
Pendidikan Agama  Pendidikan Agama  Pendidikan Agama Pendidikan Agama
PKS PKS
Pendidikan Kewarganegaraan
Pendidikan Kewarganegaraan
Liturgi Liturgi
Bahasa Indonesia Bahasa Indonesia
Sejarah Gereja Sejarah Gereja
Bahasa Inggris Bahasa Inggris
Bahasa Indonesia Bahasa Indonesia
Matematika Matematika
Bahasa Inggris Bahasa Inggris
Fisika Fisika
Bahasa Latin Bahasa Latin
Biologi Biologi
Bahasa Daerah Bahasa Daerah
Kimia Kimia
Matematika Matematika
Sejarah Sejarah
IPA IPA
Geografi Geografi
IPS IPS
Ekonomi Ekonomi
Pendidikan Seni Pendidikan Seni
Sosiologi Sosiologi
Komputer Komputer
Cantus Cantus
Metode Belajar Metode Belajar
Menggambar Menggambar
Sidang Akademi Sidang Akademi
Penjaskes Penjaskes
TIK TIK
Bahasa Daerah Bahasa Daerah
Bahasa Latin Bahasa Latin
Kitab Suci Kitab Suci
Kelas XI IPS
IPA Semester 1
Semester2 Semester 1
Semester2
Pendidikan Agama  Pendidikan Agama  Pendidikan Agama Pendidikan Agama
Pendidikan Kewarganegaraan
Pendidikan Kewarganegaraan
Pendidikan Kewarganegaraan
Pendidikan Kewarganegaraan
Bahasa Indonesia Bahasa Indonesia
Bahasa Indonesia Bahasa Indonesia
Bahasa Inggris Bahasa Inggris
Bahasa Inggris Bahasa Inggris
Matematika Matematika
Matematika Matematika
Sejarah Sejarah
Fisika Fisika
Geografi Geografi
Kimia Kimia
Ekonomi Ekonomi
Biologi Biologi
Sosiologi Sosiologi
Sejarah Sejarah
Seni Musik Seni Musik
Cantus Cantus
Penjaskes Penjaskes
Seni Lukis Seni Lukis
T I K T I K
Penjaskes Penjaskes
Bahasa Daerah Bahasa Daerah
TIK TIK
Bahasa Latin Bahasa Latin
Bahasa Daerah Bahasa Daerah
Kitab Suci Kitab Suci
Bahasa Latin Bahasa Latin
Kitab Suci Kitab Suci
Kelas XII IPS
IPA Semester 1
Semester2 Semester 1
Semester2
Pendidikan Agama  Pendidikan Agama  Pendidikan Agama Pendidikan Agama
Pendidikan Kewarganegaraan
Pendidikan Kewarganegaraan
Pendidikan Kewarganegaraan
Pendidikan Kewarganegaraan
Bahasa Indonesia Bahasa Indonesia
Bahasa Indonesia Bahasa Indonesia
Bahasa Inggris Bahasa Inggris
Bahasa Inggris Bahasa Inggris
Matematika Matematika
Matematika Matematika
Sejarah Sejarah
Fisika Fisika
Geografi Geografi
Biologi Biologi
Ekonomi Ekonomi
Kimia Kimia
Sosiologi Sosiologi
Sejarah Sejarah
Penjaskes Penjaskes
Penjaskes Penjaskes
T I K T I K
TIK TIK
Bahasa Daerah Bahasa Daerah
Bahasa Daerah Bahasa Daerah
Bahasa Latin Bahasa Latin
Bahasa Latin Bahasa Latin
Kitab Suci Kitab Suci
Kitab Suci Kitab Suci
Data  sejumlah  137  dengan  atribut  berjumlah  186  ini  yang  akan  diproses melalui tahap  preprocessing, clustering, dan akhirnya perhitungan  akurasi  secara
internal Internal evaluation dalam clustering yang coba dibentuk.
4.1.1.1 Preprocessing
Sebelum  dilakukan  proses  data  mining  dengan  menggunakan  clustering, data  yang  digunakan  terlebih  dahulu  melalui  tahap  preprocessing.  Hal  ini  perlu
dilakukan guna  mengatasi  masalah-masalah  yang mungkin timbul seperti  jumlah populasi  data  yang  terlalu  besar,  banyak  data  yang  menyimpang  anomali  data,
dimensi yang terlalu tinggi, banyaknya fitur yang tidak berkontribusi besar, dan lain sebagainya. Tahap-tahap processing yang dilakukan adalah:
1. Data cleaning
Data  yang  ditemukan  merupakan  data  leger
37
para  siswa  Seminari Mertoyudan dari  berbagai tahun angkatan.  Leger tersebut  berupa hasil print teks,
file bertipe .jpg hasil scan teks, dan file bertipe .xls atau .xlsx. Kemudian dari sejumlah data  yang didapat dilakukan proses  cleaning  dengan  memisahkan  leger
para seminaris angkatan tahun 2009 dan 2010. Data yang dipisahkan ini berjumlah
37
Leger  adalah  daftar  nilai  asli  siswa  sebelum  dipindahkan  ke  dalam  buku laporan pendidikan Kamus Besar Bahasa Indonesia. Available at: http:kbbi.web.idleger [Diakses tanggal
6 April 2015].
137 dari ratusan data yang didapatkan. 137 data ini yang akan digunakan di dalam tulisan ini.
2. Data integration
Leger  yang  dipisahkan  ini  kemudian  dikelola  dan  digabungkan  dengan menggunakan Microsoft Excel dan disimpan dalam sebuah file bertipe .xlsx. Data
para seminaris angkatan tahun 2009 dan 2010 digabung menjadi satu. Nomor induk seminaris NIS menjadi identitas setiap data. Seminaris yang hanya sampai KPP
diberi NIS tersendiri. Hal ini dilakukan guna mempermudah proses clustering untuk mengindektifikasi seminaris tertentu dalam menganalisis data.
3. Data transformation
Data  yang  telah  digabungkan  dalam  satu  tempat  file  bertipe  .xlsx  ini merupakan data matriks yang berisikan tipe yang sama, yaitu nilai numerik. Secara
umum,  data  setiap  seminaris  pada  kelas  dan  jurusan  tertentu  apabila  ia  masih menjalani  pendidikan  diseminari,  rentang  nilai  yang  ada  adalah  50-100.  Namun,
apabila ia sudah keluar dari seminari sebelum menyelesaikan masa pendidikannya, maka  selanjutnya  akan  diberi  nilai  0.  Mata  pelajaran  yang  semua  seminaris
mendapatkan nilai 0 dibuang, karena dianggap bahwa mata pelajaran tersebut tidak diadakan.
Transformasi data juga dilakukan terhadap nilai seminaris kelas XI dan XII. Pada kelas ini para seminaris telah masuk pada jurusan tertentu, baik IPA atau IPS.
Transformasi  yang  dilakukan  terhadap  data  adalah  nilai  mata  pelajaran  seminaris jurusan IPA pada jurusan IPS mendapat rata-rata dari nilai mata pelajaran seminaris
jurusan  IPS  per  mata  pelajarannya.  Sama  halnya  yang  dilakukan  untuk  nilai  mata
pelajaran  seminaris  jurusan  IPS  di  jurusan  IPA.  Hal  ini  dilakukan  setara  dengan penanganan  kesalahan  data.  Pada  tahap  ini  juga  dimungkinkan  untuk  dilakukan
normalisasi. Normalisasi yang digunakan adalah Z-Score. 4.
Data  reduction Pada  tahap  ini,  data  masuk  pada  tahap  reduksi  dimensionalitas
dimensionality  reduction.  Metode  reduksi  dimensionalitas  data  bekerja  dengan cara  tertentu  untuk  menangkap  karakteristik  data  dengan  memetakan  data  dari
dimensi awal ke dimensi yang baru yang relatif lebih kecil. Proses ini menghasilkan komponen utama principal compnent yang kemudian dapat dijadikan fitur yang
baru yang mempunyai pengaruh yang besar pada data. fitur yang berpengaruh kecil atau bahkan tidak berpengaruh dapat dibuang. Untuk proses yang demikian dalam
tulisan ini digunakan metode reduksi Principal Component Analysis PCA seperti yang telah diterangkan dan diberi contoh hasil pada bab II Landasan Teori di atas.
4.1.1.2 Clustering dan Akurasi
Pengelompokkan  data  yang  didasarkan  hanya  pada  informasi  yang ditemukan dalam data obyek  yang menggambarkan data tersebut dan hubungan
di  antaranya  disebut  analisis  kelompok  clustering  analysis
38
.  Hal  ini  dilakukan supaya  data  yang  berhubungan  dalam  sebuah  kelompok  merupakan  obyek  yang
mirip atau memiliki hubungan satu dengan yang lain atau dengan kata lain memiliki similaritas yang tinggi. Ini juga berarti obyek dalam satu kelompok tersebut berbeda
atau tidak berhubungan dengan kelompok yang lain pula. Untuk mengetahui sejauh
38
Eko Prasetyo, “… Konsep Dan Aplikasi …”, op. cit. hal. 173.
mana pengelompokan yang dilakukan adalah baik dapat dilakukan uji akurasi dari setiap proses pembentukan kelompok dengan internal evaluation.
Di  dalam  tulisan  ini,  pengelompokan  digunakan  dengan  agglomerative hierarchical  clustering  AHC.  Setelah  data  melalui  tahap  preprocessing
selanjutnya  data  diproses  dengan  menggunakan  AHC.  Data  para  seminaris sejumlah  137  dengan  fitur  186  yang  digunakan  diproses  dengan  menggunakan
AHC  sehingga  terbentuk  kelompok-kelompok.  Setiap  proses  pembentukan kelompok tersebut diuji dengan menggunakan sum of squares error SSE. Proses
ini dilakukan dengan menggunakan sistem yang telah dibuat. Sistem  yang  dibentuk  dapat  melakukan  proses  AHC  dalam  tiga  metode,
yaitu  single  linkage,  average  linkage,  dan  complete  linkage,  dengan  setiap metodenya  menggunakan  perhitungan  jarak  euclidean.  Hasil  setiap  perhitungan
ditampilkan  dalam  tabel,  dendrogram,  dan  visualisasi  pengelompokan  supaya secara visual tergambar pengelompokan obyek dan jarak antar kelompoknya.
Sejalan dengan proses AHC tersebut, SSE dihitung. Hasil perhitungan SSE setiap  pembentukan  kelompok,  baik  itu  dengan  metode  single  linkage,  average
linkage,  maupun  complete  linkage  ditampilkan  dalam  bentuk  grafik  dengan masing-masing  nilai  SSE-nya.  Berdasarkan  grafik  yang  dihasilkan  dapat  dilihat
nilai  SSE  dari  masing-masing  pembentukan  kelompok.  Pembentukan  kelompok yang  memiliki  nilai  SSE  rendah  dapat  dikatakan  bahwa  pengelompokan  tersebut
similaritas yang tinggi. Dengan kata lain, nilai SSE dari grafik yang dapat diambil adalah    nilai  ekstrim  minimum  dari  kurva  parabola  pertama.  Berikut  ini  adalah
contoh hasil dari proses tersebut.
1. Single Linkage
Gambar 4.1 Implementasi – Grafik SSE single linkage
Proses  pembentukan  kelompok  dengan  menggunakan  metode  single linkage  menunjukkan  bahwa  SSE terendah  bernilai  50.  SSE terendah  ini  didapat
pada  percobaan  kedua  menggunakan  normalisasi  dengan  jumlah  clustering  3. Dendrogram single linkage terendah ini adalah seperti tampak pada gambar 4.2.
Gambar 4.2 Implementasi – Dendrogram single linkage nilai SSE terkecil
2. Average Linkage
Gambar 4.3 Implementasi – Grafik SSE average linkage
Dari  gambar  4.3  dapat  dilihat  bahwa  percobaan  8  dan  9  dengan menggunakan  normalisasi  memberikan nilai SSE terendah  yang sama,  yaitu 125.
Pada  percobaan  ini  kelompok  yang  terbentuk  berjumlah  9  dan  10.  Apabila dibutuhkan  kelompok  yang  lebih  sedikit  dari  9,  percobaan  ketiga  dengan
normalisasi untuk pembentukan 4 kelompok dengan nilai SSE 130 dapat menjadi pilihan.  Dendrogram  average  linkage  pembentukan  4  kelompok  adalah  seperti
tampak pada gambar 4.4 .
Gambar 4.4 Implementasi – Dendrogram average linkage dengan 4 kelompok
3. Complete Linkage
Gambar 4.5 Implementasi – Grafik SSE complete linkage
Pembentuk  kelompok  dengan  menggunakan  metode  complete  linkage memberikan hasil seperti tampak pada gambar 4.5. Dari grafik tersebut dapat dilihat
bahwa nilai SSE terendah di dapat dalam pembentukan kelompok berjumlah 5 dan
6.  Masing-masing  nilai  SSE  tersebut  sama,  yaitu  149.  Adapun  dendrogram  dari nilai  SSE  terendah  dalam  metode  complete  linkage  seperti  yang  tampak  pada
gambar di bawah ini.
Gambar 4.6 Implementasi – Dendrogram complete linkage dengan 5 kelompok
Gambar 4.7 Implementasi – Dendrogram complete linkage dengan 6 kelompok
4.1.2 User Interface
Matlab version 8.0.0.783 R2012b menjadi sarana untuk pembuatan sistem pengenalan  pola  keberhasilan  seminaris  dengan  menggunakan  agglomerative
hierarchical clustering  ini. Desain user interface yang telah dipaparkan pada bab sebelumnya  diimplementasikan  dan  digunakan  sebagai  sarana  untuk  melakukan
preprocessing sampai untuk mengetahui akurasi dari pengelompokan data dengan AHC. Sistem yang dibentuk dapat langsung menampilkan hasil keseluruhan proses.
User  interface  ini  tersimpan  dalam  file  yang  bernama  Main.m  dan  Main.fig lampiran 1 dan 2.  Gambar  4.8  adalah  contoh tampilan keseluruhan sistem  yang
telah dibentuk.
Gambar 4.8 Contoh tampilan keseluruhan sistem
Dari gambar 4.8 dapat dilihat bahwa pada bagian paling atas sistem terdapat nama  sistem,  yaitu  Pengenalan  Pola  Seminari  Mertoyudan.  Pada  bagian  menu
terdapat menu utama Tutup yang berfungsi untuk menutup sistem. Untuk menutup sistem digunakan code
close all
force
. Selain itu ada menu utama juga yang diikuti dengan submenu  Manual dan Tentang. Submenu Manual  berfungsi untuk
menampilkan file yang berekstensi .pdf yang berisi cara penggunaan sistem. Nama file tersebut adalah
Manual.pdf
dengan code
winopen Manual.pdf
. Gambar 4.9 adalah halaman awal tampilan manual sistem.
Gambar 4.9 Manual sistem
Submenu  Tentang  apabila  diklik,  maka  akan  menampilkan  keterangan tentang  sistem  ini.  Tampilan  Tentang  yang  tampak  pada  gambar  4.10  tersimpan
dalam file Tentang.m dan Tentang.fig lampiran 4 dan 5.
Gambar 4.10 Tentang sistem
Setelah bagian menu, terdapat header berisikan judul tulisan ini yang diapit dengan logo Universitas Sanata Dharma dan logo Seminari Menengah Mertoyudan.
Bagian selanjutnya adalah bagian inti dari tampilan  user interface  ini, yaitu  input data sampai hasil akurasi. Selanjutnya bagian paling bawah sistem terdapat footer
yang berisi koordinat posisi mouse dan keterangan singkat nama pembuat sistem. Pada  prakteknya,  ketika  sistem  dijalankan  akan  menampilkan  tahap  demi
tahap proses yang dilalui. Tahap tampilan tersebut adalah input data, informasi dan tabel  data,  dan  yang  terakhir  adalah  hasil  proses  AHC  dan  akurasi.  Proses  PCA,
AHC, dan SSE dilakukan dalam file yang bernama funcPPola.m lampiran 3. 1.
Input Data Sesaat  setelah sistem dijalankan, sistem  hanya  menampilkan  bagian  input
data  sebagai  tahap  awal  untuk  memproses  data.  Tombol  input  berfungsi  untuk
menginputkan  data  yang  akan  diproses.  File  yang  dapat  diproses  hanyalah  yang berekstensi  .xls  atau  .xlsx.  Setelah  data  diinputkan,  fungsi  lain  yang  terdapat
dalam  bagian  yang  diberi  judul  Principal  Component  Analysis  ini  akan  aktif. Batasan data dapat  ditentukan  dengan  memilih  kedua pop-up menu  Data.  Atribut
juga  dapat  dibatasi  dengan  memilih  kedua  pop-up  menu  Atribut.  Normalisasi dengan Z-Score dapat digunakan atau tidak dengan  mengklik check box Z-Score.
Sesuai  dengan  judul  bagian  input  data  ini,  principal  component  PC  dapat ditentukan  jumlahnya.  Pada  bagian  selanjutnya  adalah  penentuan  jumlah  cluster
yang  akan  diproses  dalam  program  dengan  menggunakan  AHC,  dan  masing- masing  pembentukan  cluster  akan  otomatis  dihitung  SSE-nya.  Untuk  memulai
proses, disediakan tombol Proses. Pada bagian input data ini juga disediakan tombol Reset  yang  berfungsi  untuk  mengembalikan  sistem  pada  posisi  awal  saat
dijalankan. Gambar 4.11 adalah tampilan implementasi input data saat awal di mana file belum diinputkan.
Gambar 4.11 Implementasi – Input data
2. Informasi Dan Tabel Data
Sesaat setelah data diinputkan, sistem akan menampilkan informasi tentang data dan isi data di dalam tabel. Pada bagian ini ditampilkan tentang nama file yang
diinputkan,  jumlah  data  dan  feature  fituratribut  yang  dimiliki  oleh  data.  Tabel data berisi semua data yang terdapat di dalam file inputan. Nama kolom merupakan
nama mata pelajaran. Nama baris adalah NIS dari setiap seminaris.
Gambar 4.12 Implementasi – Informasi data dan tabel
Ketika  tombol  Proses  pada  bagian  input  data  dipilih  diklik,  tabel  data menampilkan  hasil  proses  PCA.  Namun  dengan  bantuan  pop-up  menu  yang  ada,
data  awal,  hasil  single  linkage,  average  linkage,  dan  complete  linkage  dapat ditampilkan  pada  tabel.  Setiap  data  yang  ditampilkan  pada  tabel  dapat  disimpan
dengan memilih tombol Simpan.
3. Hasil Proses AHC Dan Akurasi
User interface dari implementasi hasil proses AHC dan akurasi dapat dilihat pada gambar 4.13.
Gambar 4.13 Implementasi – Hasil proses AHC dan akurasi
Secara berurutan dari kiri ke kanan dari gambar tersebut adalah: a.
tabel label dari dendrogram yang merupakan NIS dari masing-masing metode AHC.
b. Dendrogram hasil perhitungan masing-masing metode AHC.
c. Tabel jumlah obyek per kelompoknya.
d. Visualisasi pengelompokkan.
e. Grafik hasil perhitungan akurasi dengan SSE dari masing-masing metode AHC.
Di  bagian  kanan  atas  terdapat  toolbar  yang  dapat  membantu  untuk menganalisis hasil proses. Secara berurutan dari kiri ke kanan dari toolbar tersebut
adalah: a.
Slider yang berfungsi untuk merubah warna background dari putih ke hitam dan sebaliknya untuk semua axes.
b. Zoom in untuk tampilan dendrogram dan grafik hasil SSE.
c. Zoom out untuk tampilan dendrogram dan grafik hasil SSE.
d. Pan berfungsi untuk menggeser tampilan dendrogram dan grafik hasil SSE.
e. Rotate yang berfungsi untuk merotasi axes.
f. Data  cursor  dapat  digunakan  pada  seluruh  axes  guna  melihat  nilai  oyek
tertentu. g.
Grid  yang  berfungsi untuk  menampilkan garis  grid  hanya untuk  axes  grafik hasil SSE.
h. Tombol simpan untuk menyimpan seluruh hasil proses AHC dan akurasi.
4.2 Analisis Hasil
Implementasi  yang  telah  dipaparkan  di  atas  membantu  analisis  terhadap pengenalan pola keberhasilan seminaris sebagaimana judul dari tulisan ini. Analisis
ini dilakukan terhadap seluruh kelas dari dua angkatan seminaris tahun 2009 dan 2010.  Dengan  demikian  diharapkan  akan  dapat  diketahui  dengan  baik  pola
keberhasilan yang telah dilalui dari dua angkatan tersebut. Perlu diingat kembali bahwa pembinaan bidang intelektual scientia yang
telah dilalui para seminaris di Seminari Menengah Mertoyudan merupakan satu dari tiga jenis pembinaan yang harus dilalui. Pembinaan ini memberikan nilai kognitif
terhadap para seminaris. Penilaian perkembangan intelektual dapat dilihat melalui setiap perolehan nilai setiap mata pelajaran yang diikuti. Nilai tersebut dimasukkan
ke dalam leger penilaian rapor pada setiap akhir semester. Hal ini menunjukkan
bahwa  nilai  yang  terdapat  dalam  rapor  setiap  seminaris  menggambarkan keberhasilan perkembangan intelektualnya.
Daftar  seluruh  nilai  rapor  yang  telah  dikumpulkan  diolah  melalui  tahap preprocessing data dengan Principal Component Analysis PCA. Melewati tahap
preprocessing,  data  masuk  dalam  tahap  pengelompokan  dengan  Agglomerative hierarchical clustering AHC dalam tiga metode single linkage, average linkage,
dan  complete  linkage.  Masing-masing  metode  menggunakan  euclidean  distance untuk perhitungan jarak. Sejalan dengan proses AHC, setiap pengelompokan diuji
dengan Sum of Squares Error SSE. Dalam seluruh proses ini, dimungkinkan juga untuk menggunakan normalisasi Z-Score atau tidak.
Sebelum  memasuki  tahap  proses  pengelompokan,  pertama-tama  dapat dilihat  dari  sisi  preprocessing  data  dengan  menggunakan  PCA.  Dengan  melalui
tahap  data    reduction,  dapat  diketahui  atribut  atau  fitur  yang  penting  terhadap pembinaan  intelektual  para  seminaris.  Seperti  yang  terlihat  dalam  hasil  PCA,
gambar  4.14,  mata  pelajaran  Kitab  Suci  mendapat  tempat  yang  pertama,  disusul dengan  Bahasa  Latin,  Bahasa  Daerah,  dan  seterusnya.  Hal  ini  mengindikasikan
bahwa  mata  pelajaran  tersebut  mendapat  prioritas  yang  tinggi  dalam  pendidikan intelektual di Seminari Mertoyudan.
Gambar 4.14 Fitur hasil PCA
Dalam proses pengelompokan dengan AHC, fitur yang digunakan dari hasil PCA berjumlah 85 principal component PC. Hal ini dipilih karena dengan 85 PC
memberikan akurasi yang paling baik dibandingkan dengan jumlah PC yang lain. Percobaan  pengelompokan  dari  137  data  untuk  setiap  metodenya  dilakukan
sebanyak  9  kali.,  yaitu  mulai  dengan  pembentukan  2  kelompok  sampai  10 kelompok. Dari setiap proses pembentukan ini dihitung SSE-nya. Nilai SSE yang
dihasilkan juga sebanyak 9 nilai. Berikut ini adalah hasil dari proses tersebut. 1.
Single linkage Pengelompokan  data  dengan  metode  single  linkage,  baik  menggunakan
normalisasi  atau  tidak  memberikan  hasil  seperti  yang  dapat  dilihat  pada  tabel berikut ini.
Tabel 4.3 Analisis – Hasil single linkage
Percobaan Jumlah
Clustering SSE
Tanpa Z-Score
Dengan Z-Score
1 2
27341.54 829.44
2 3
29223.46 49.97
3 4
29223.46 95.79
4 5
29223.46 126.23
5 6
29223.46 172.76
6 7
22154.02 172.76
7 8
14872.74 172.76
8 9
14872.74 172.76
9 10
10835.45 138.07
Tabel  ini  menunjukkan  bahwa  nilai  akurasi  terkecil  dengan  menggunakan  SSE terdapat  pada  percobaan  kedua  dengan  jumlah  kelompok  sebanyak  3.  Pada
percobaan kedua  ini  nilai  akurasinya adalah 49.97.  Secara keseluruhan  nilai SSE dengan  data  yang  dinormalisasi  ditunjukkan  dengan  grafik  seperti  yang  dapat
dilihat  pada  gambar  4.15.  Secara  grafik,  dapat  dilihat  dengan  jelas  bahwa pembentukan kelompok sebayak 3 berada pada koordinat yang paling rendah.
Gambar 4.15 Analisis – Grafik SSE single linkage
Jumlah  obyek  data  setiap  cluster  dalam  pembentukan  3  kelompok  adalah sebagai berikut: cluater 1 berjumlah 128 obyek, cluster 2 berjumlah 8 obyek, dan
cluster 3 berjumlah 1 obyek. Jumlah obyek data per cluster ini dapat dilihat dalam tabel 4.4 berikut ini.
Tabel 4.4 Analisis – Jumlah obyek, SSE terkecil single linkage
Cluster Jumlah
Obyek
1 128
2 8
3 1
Jika dilihat dari sisi keseimbangan jumlah obyek untuk setiap cluster kiranya jauh  dari  ideal.  Artinya  bahwa  cluster  yang  terbentuk  tidak  seimbang.
Ketidakseimbangan  tersebut  dapat  dilihat  secara  jelas  dari  dendrogram  yang dihasilkan gambar 4.16. Jika keseimbangan pembentukan dendrogram ingin dicapai
maka jumlah cluster sebanyak 5 dengan SSE bernilai 126.23 dapat menjadi pilihan.
Gambar 4.16 Analisis – Dendrogram single linkage nilai SSE terkecil
Jika  dilihat  lebih  jauh,  sebagai  contoh  obyek  cluster  3  adalah  data  yang memiliki label NIS 29681. Seminaris yang memiliki NIS ini ternyata satu-satunya
seminaris  yang  tidak  melanjutkan  pendidikannya  setelah  semester  satu  di  KPP Kelas  Persiapan  Pertama.  Dari  sisi  ketepatan  sehubungan  dengan  data  dapat
dikatakan  bahwa  pengelompokkan  dengan  AHC  secara  khusus  metode  single linkage dapat memberikan akurasi yang tinggi. Tingginya akurasi ini dapat dilihat
juga dengan perbandingan hasil SSE, metode single linkage memberikan nilai SSE terendah daripada kedua metode lainnya.
2. Average linkage
AHC dengan metode average linkage memberikan daftar nilai akurasi SSE seperti yang tampak pada tabel 4.5 berikut ini.
Tabel 4.5 Analisis – Hasil average linkage
Percobaan Jumlah
Clustering SSE
Tanpa Z-Score
Dengan Z-Score
1 2
27146.71 2051.27
2 3
24882.63 142.82
3 4
23140.97
130.14
4 5
32806.01 142.22
5 6
32806.01 195.73
6 7
26298.93 195.73
7 8
24384.68 195.73
8 9
16179.64 125.50
9 10
11569.15 125.50
Dari tabel tersebut dapat diketahui bahwa nilai SSE terkecil ada pada percobaan 8 dan 9 yang masing-masing memberikan nilai SSE yang sama, yaitu 125.50. Namun
demikian, apabila dibutuhkan pengelompokkan yang lebih kecil, percobaan ketiga dengan  jumlah  cluster  4 dapat  menjadi pilihan, dengan  nilai SSE 130.14.  Secara
grafik, deretan nilai hasil SSE dengan data yang dinormalisasi dari metode average linkage dapat dilihat pada gambar 4.17.
Gambar 4.17 Analisis – Grafik SSE average linkage
Jumlah obyek data untuk pembentukan 4 kelompok dengan average linkage terdapat dalam tabel 4.6. Cluster 1 memiliki obyek 15, cluster 2 sebanyak 8, cluster
3 berjumlah 113, dan cluster 4 memiliki 1 obyek. Tabel 4.6 Analisis
– Jumlah obyek, clustering 4 average linkage
Cluster Jumlah
Obyek
1 15
2 8
3 113
4 1
Jika dibandingkan dengan hasil single linkage seperti yang telah dijelaskan di atas kiranya tidak jauh berbeda. Hasil yang ditunjukkan dendrogram juga tampak
belum seimbang gambar 4.18. Jika tekanan pada keseimbangan dendrogram maka cluster  yang dibentuk  adalah sebanyak  5 cluster. Namun,  jika dibentuk dengan 5
cluster nilai SSE akan sedikit lebih besar, yaitu 142.22.
Gambar 4.18 Analisis – Dendrogram average linkage jumlah clustering 4
3. Complete linkage
Proses  pembentukan  kelompok  dengan  metode  complete  linkage memberikan nilai SSE seperti yang tampak pada tabel berikut ini.
Tabel 4.7 Analisis – Hasil complete linkage
Percobaan Jumlah
Clustering SSE
Tanpa Z-Score
Dengan Z-Score
1 2
35962.84 191.71
2 3
25835.27 179.37
3 4
24082.54 179.37
4 5
34348.24 149.42
5 6
34348.24 149.42
6 7
25274.71 163.32
7 8
28687.19 163.32
8 9
23121.24 163.32
9 10
22213.79 157.50
Tabel  4.7  menunjukkan  bahwa  nilai  SSE  terkecil  ada  pada  pembentukan cluster berjumlah 5 dan 6, dengan nilai SSE yang sama yaitu 149.42. Secara grafik
dapat dilihat pada gambar 4.19. Dari grafik SSE hasil complete linkage dapat dilihat bahwa nilai SSE pembentukan cluster berjumlah 5 dan 6 berada pada posisi yang
paling rendah.
Gambar 4.19 Analisis – Grafik SSE complete linkage
Jumlah  obyek  dalam  5  cluster  adalah  cluster  1  sebanyak  62,  cluster  2 berjumlah  51,  cluster  3  ada  15  oyek,  cluster  4  sebanyak  8,  dan  cluster  5
beranggotakan 1 obyek data. Dengan jelas jumlah ini dapat dilihat pada tabel 4.8. Untuk jumlah masing-masing obyek pembentukan 6 cluster dapat dilihat di tabel
4.9. Perbedaan antara 5  cluster  dengan 6  cluster  terletak pada  cluster  pertama di cluster 5 dibagi dua untuk 6 cluster.
Tabel 4.8 Analisis – Jumlah obyek, clustering 5 complete linkage
Cluster Jumlah
Obyek
1 62
2 51
3 15
4 8
5 1
Tabel 4.9 Analisis – Jumlah obyek, clustering 6 complete linkage
Cluster Jumlah
Obyek
1 45
2 17
3 51
4 15
5 8
6 1
Dendrogram  yang  dihasilkan  dari  pembentukan  5  gambar  4.20  dan  6 cluster  gambar  4.21  dengan  metode  complete  linkage  tampaknya  lebih  baik
daripada hasil single linkage dan average linkage. Kendati demikian, dari sisi nilai SSE, single linkage dan average linkage lebih unggul.
Gambar 4.20 Analisis – Dendrogram complete linkage jumlah clustering 5
Gambar 4.21 Analisis – Dendrogram complete linkage jumlah clustering 6
Kemampuan  intelektual  yang  dipetakan  secara  keseluruhan  dengan menggunakan AHC, baik dengan metode single linkage, average linkage, maupun
complete linkage, menghasilkan pengelompokan seperti yang telah dipaparkan di atas. Supaya lebih jelas pemetaan tersebut dapat dilihat pada tabel berikut ini.
Tabel 4.10 Analisis – Hasil analisis SSE terkecil
Metode SSE
Terkecil Jumlah
Clustering Dendrogram
Seimbang Jumlah Obyek Per Cluster
1 2
3 4
5 6
Single linkage
49.97 3
Tidak 128
8 1
- -
-
Average linkage
130.14 4
Tidak 15
8 113
1 -
-
Complete linkage
149.42 5
Ya 62
51 15
8 1
149.42 6
Ya 45
17 51
15 8
1
Tabel 4.10  merupakan  hasil analisis dengan tekanan pada pemilihan  nilai SSE  yang  terkecil  dari  setiap  pembentukan  kelompok.  Lebih  jauh,  dari  hasil
percobaan  yang  dilakukan,  ada  kemungkinan  pengelompokkan  lain  yang  dapat dipilih. Kemungkinan tersebut dapat dilihat pada tabel berikut.
Tabel 4.11 Analisis – Hasil analisis keseimbangan dendrogram
Metode SSE
Jumlah Clustering
Dendrogram Seimbang
Jumlah Obyek Per Cluster
1 2
3 4
5 Single
linkage 126.23
5 Ya
62 51
15 8
1
Average linkage
142.22 5
Ya 62
51 15
8 1
Complete linkage
149.42 5
Ya 62
51 15
8 1
Kendati nilai SSE yang dipilih bukanlah nilai SSE terkecil untuk metode single linkage  dan  average linkage, namun  kemungkinan  lain seperti pada tabel
4.11 menjadikan dendrogram relatif lebih seimbang lihat gambar 4.22, 4.23, dan 4.24.  Selain  itu,  hasil  pengelompokan,  baik  single  linkage,  average  linkage,
maupun  complete  linkage  memiliki  jumlah  obyek  yang  sama  per  cluster-nya. Kemungkinan  tambahan,  jika  dilihat  hasil  pengelompokkan  ini,  karena  cluster  5
hanya beranggotakan 1, tampaknya juga bisa tidak digunakan.
Gambar 4.22 Analisis – Dendrogram relatif seimbang single linkage
Gambar 4.23 Analisis – Dendrogram relatif seimbang average linkage
Gambar 4.24 Analisis – Dendrogram relatif seimbang complete linkage
Dengan  tetap  mempertahankan  pembentukan  5  cluster,  lebih  jauh,  label node dendrogram hasil setiap metode coba untuk dibandingkan. Perbandingan yang
dilakukan  adalah  antara  obyek  per  cluster  dengan  melihat  label  node-nya  antara dendrogram hasil  single linkage  dengan  average linkage  SL-AL,  single linkage
dengan complete linkage SL-CL, dan average linkage dengan  complete linkage AL-CL.  Label  node  yang  sama  pada  cluster  yang  sama  antara  masing-masing
dendrogram  dijumlahkan.  Kemudian  hasilnya  dikurangkan  dengan  jumlah  data, didapatkan  selisih.  Dengan  cara  ini  akan  diketahui  selisih  sebagai  jumlah  obyek
yang  tidak  berada  pada  cluster  yang  sama  antar  setiap  dendrogram.  Hasil  dari perbandingan ini dapat dilihat dalam tabel berikut ini.
Tabel 4.12 Analisis – Perbandingan label node
SL-AL, SL-CL, dan AL-CL
SL-AL SL-CL
AL-CL Cluster
Jumlah Obyek Sama
Jumlah Obyek Sama
Jumlah Obyek Sama
1 61
59 58
2 50
48 47
3 15
15 15
4 8
8 8
5 1
1 1
Total 135
131 129
Data 137
137 137
Selisih 2
6 8
Tabel 4.12 menunjukkan bahwa perbandingan posisi obyek di setiap cluster antara  single  linkage  dengan  average  linkage  memiliki  selisih  yang  paling  kecil,
yaitu  2.  Jika  dibandingkan  dengan  jumlah  data  keseluruhan  137,  selisih  2  ini tergolong kecil. Karena selisih ini tergolong kecil dan merupakan jumlah label node
dendrogram  yang  tidak  terletak  pada  posisi  yang  sama,  maka  dapat  dikatakan bahwa  cluster  yang  terbentuk  dengan  5  cut-off  antara  dendrogram  hasil  single
linkage  dan  average  linkage  sangat  mirip.  Hal  ini  menunjukkan  bahwa  dalam penggunaan ke depan,  sebagai data model  misalnya, sudah dapat  diprediksi  hasil
yang akan diberikan antara hasil penggunaan pengelompokan single linkage akan tidak  jauh  berbeda,  cenderung  sama,  dengan  hasil  penggunaan  pengelompokan
average  linkage.  Bahkan  jika  dilihat  secara  keseluruhan  dari  nilai  selisih  hasil perbandingan setiap dendrogram tersebut, yang relatif kecil, dapat dikatakan baik
penggunaan hasil single linkage, average linkage, maupun complete linkage, akan memberikan hasil yang tidak jauh berbeda.
Usaha  pengenalan  pola  keberhasilan  seminaris  dari  sisi  intelektual  ini dipetakan  dengan  pengelompokan  data  nilai  rapor  menggunakan  alggomerative
hierarchical  clustering  dengan  metode  single  linkage,  average  linkage,  dan complete  linkage.  Dari  hasil  usaha  pemetaan  tersebut  dapat  dilihat  dari  dua  sisi.
Pertama, apabila pengelompokan yang dipilih adalah dari sisi nilai sum of squares error yang paling kecil, maka hasil pengelompokan data yang telah melalui proses
normalisasi dan dikelompokkan dengan metode single linkage berjumlah cluster 3 adalah yang paling baik, yaitu bernilai SSE sebesar 49.97. Pembentukan 3 cluster
ini sejalan dengan untuk  mengetahui kelompok seminaris  yang  memang  berhasil dari sisi intelektual, yang gagal, atau yang kemungkinan membutuhkan pembinaan
khusus.  Namun  dengan  pengelompokan  obyek  data  ke  dalam  3  cluster menggunakan metode single linkage ini akan terbentuk ketimpangan yang jauh dari
sisi jumlah data per kelompoknya.
Kedua,  jika  tekanan  pada  jumlah  pengelompokan  yang  relatif  seimbang dengan tetap mengusahakan untuk berada pada nilai SSE yang relatif kecil, maka
hasil  pengelompokan  data  yang  telah  melalui  proses  normalisasi  dan dikelompokkan,  baik  dengan  metode  single  linkage,  average  linkage,  maupun
complete linkage yang masing-masing berjumlah cluster 5 dapat dipertimbangkan untuk menjadi pilihan.
Namun  demikian,  perlu  tetap  diingat  bahwa  penilaian  terhadap  seorang seminaris sebagai calon imam Katolik tidak hanya melulu dari sisi intelektual saja.
Di  Seminari  Menengah  Mertoyudan,  seorang  seminaris  layak  dinyatakan  lulus apabila  ia  memiliki  kemampuan  yang  baik  terhadap  intelektual  scientia,
kesehatan  sanitas  yang  baik,  dan  harus  memiliki  kesucian  hidup  sanctitas. Pengenalan pola dalam tulisan ini tidak menyertakan  sisi kesehatan dan kesucian
hidup. Harus diakui bahwa pengenalan pola terhadap keberhasilan studi seminaris ini  belum  secara  holistik.  Kemungkinan,  hal  ini  juga  yang  menyebabkan
ketidakseimbangan jumlah obyek data dalam pembentukan 3 cluster dengan nilai SSE terendah sesuai dengan tujuan dari tulisan ini.
79
5 BAB V
PENUTUP
Bab akhir tulisan ini berisikan tentang kesimpulan dan saran. Kesimpulan berisi  tentang  hal-hal  yang  berkaitan  dengan  pengelompokan  keberhasilan  para