Pengenalan pola keberhasilan seminaris dengan menggunakan agglomerative hierarchical clustering, sebuah studi kasus atas keberhasilan studi para seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang.
ABSTRAK
PENGENALAN POLA KEBERHASILAN SEMINARIS DENGAN MENGGUNAKAN
AGGLOMERATIVE HIERARCHICAL CLUSTERING Sebuah Studi Kasus atas Keberhasilan Studi para Seminaris Di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang
ABSTRAK
Pembinaan di seminari menengah merupakan pembinaan formal awal bagi para seminaris, calon imam Katolik. Sebagai tempat pembinaan, seminari memiliki tiga kriteria penilaian terhadap para seminarisnya. Ketiga kriteria tersebut adalah sisi intelektual (scientia), kesehatan (sanitas), dan kesucian hidup (sanctitas). Tulisan ini terfokus hanya pada pengelompokan guna pengenalan pola keberhasilan studi para seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang. Pengelompokan yang dibuat kiranya akan berguna bagi seminari untuk analisis lebih lanjut berkaitan dengan kemampuan scientia para seminaris.
Nilai rapor para seminaris menjadi acuan utama sebagai sumber data yang akan dikelompokkan. Nilai rapor tersebut bersumber dari nilai hasil studi 186 mata pelajaran yang diikuti oleh 137 seminaris angkatan tahun 2009 dan 2010 mulai dari kelas KPP (Kelas Persiapan Pertama) sampai kelas XII. Sebelum dikelompokkan, data scientia yang diperoleh dari seminari masuk tahap preprocessing. Pada tahap ini, dilakukan data cleaning, data integration, data transformation, dan data
reduction. Pada tahap data reduction digunakan principal component analysis.
Berkaitan dengan proses pengelompkan, ada tiga metode kedekatan yang digunakan dalam tulisan ini, yaitu single linkage, average linkage, dan complete linkage. Masing-masing teknik ini menggunakan euclidean distance sebagai parameter jarak kedekatannya. Dilakukan 9 kali percobaan untuk masing-masing metode kedekatan. Setiap percobaan pengelompokan ini dihitung juga nilai sum of square error (SSE).
Dari percobaan pengelompokan yang dilakukan ditemukan pembentukan tiga kelompok metode single linkage memberikan hasil 49,97. Hasil ini merupakan nilai SSE terkecil dan terbaik dari seluruh percobaan pembentukan kelompok sebanyak 27 kali. Pembentukan tiga kelompok ini juga sesuai dengan tujuan yang ingin dicapai dalam tulisan ini, yaitu kelompok seminaris yang berhasil, seminaris yang membutuhkan pembinaan khusus, dan seminaris yang gagal dalam studinya.
(2)
ABSTRACT
RECOGNIZING SUCCESS PATTERN OF SEMINARIANS BY USING
AGGLOMERATIVE HIERARCHICAL CLUSTERING A Case Study of The Rate of Educational Completion of Seminarians At The Minor Seminary of Saint Peter Canisius, Mertoyudan, Magelang
ABSTRACT
The minor seminary designed as initial formal guidance for seminarians. As a Catholic guidance institutions, it has three criteria for assessment the seminarians, those are intellectual (scientia), health (sanitation) and sanctity of life (sanctitas). This paper only focuses on agglomeration to recognize intellectual development and success studies pattern of the seminarians at St. Petrus Canisius Seminary, Mertoyudan, Magelang. Hopefully, this agglomeration can be used for further analysis regarding to the scientia ability of seminarians.
The main reference as data source is the grades of seminarians that comes from the values of 186 subjects were followed by 137 seminarians class of 2009 and 2010, range of class from KPP (Kelas Persiapan Pertama) up to XII. Prepocessing process of scientia data by clean, integrate, transform and reduce the data. Principal component analysis is used in the data reduction phase. There are three methods to measure similarity in this paper : single-linkage, average-linkage and complete-linkage. Each of these method use euclidean distance as parameter of distance proximity. There are 9 experiments for each of these method. In each of the agglomerate experiments also calculate the sum of square error (SSE).
The formation of three groups founded by single-linkage methods with 49.97 accuracy from the experiments that was conducted. This accuracy result is the smallest value of SSE and be the best accuracy from acuracy result of 27 experiments. This formation of three groups is also accordance with the objectives to be achieved in this paper: seminarians who succes, seminarians who need special guidance and seminarians who failed in his studies.
(3)
i
HALAMAN JUDUL
PENGENALAN POLA KEBERHASILAN SEMINARIS
DENGAN MENGGUNAKAN
AGGLOMERATIVE HIERARCHICAL CLUSTERING
Sebuah Studi Kasus atas Keberhasilan Studi para Seminaris Di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Disusun oleh:
Poldo Andreas Situmorang 115314093
PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA YOGYAKARTA
(4)
ii
HALAMAN JUDUL (English)
RECOGNIZING SUCCESS PATTERN OF SEMINARIANS
BY USING
AGGLOMERATIVE HIERARCHICAL CLUSTERING
A Case Study of The Rate of Educational Completion of Seminarians At The Minor Seminary of Saint Peter Canisius, Mertoyudan, Magelang
A Thesis
Presented as Partial Fulfillment of The Requirements To Obtain Sarjana Komputer Degree
In Informatics Engineering Study Program
Written by:
Poldo Andreas Situmorang 115314093
INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY
YOGYAKARTA 2015
(5)
iii
(6)
iv
HALAMAN PENGESAHAN
(7)
v
HALAMAN PERSEMBAHAN
“… όπως εγώ σας χω αγαπ σει.”( ω ννης 15:12 ) “… sicut dilexi vos.”(Ioannes 15:12)
“… as I have loved you” (John 15:12)
“… seperti Aku telah mengasihi kamu.” (Yohanes 15:12)
Skripsi ini dipersembahkan untuk: Allah Bapa di surga, Mereka yang terkasih.
(8)
vi
PERNYATAAN KEASLIAN KARYA
(9)
vii
(10)
viii
ABSTRAK
PENGENALAN POLA KEBERHASILAN SEMINARIS DENGAN MENGGUNAKAN
AGGLOMERATIVE HIERARCHICAL CLUSTERING Sebuah Studi Kasus atas Keberhasilan Studi para Seminaris Di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang
ABSTRAK
Pembinaan di seminari menengah merupakan pembinaan formal awal bagi para seminaris, calon imam Katolik. Sebagai tempat pembinaan, seminari memiliki tiga kriteria penilaian terhadap para seminarisnya. Ketiga kriteria tersebut adalah sisi intelektual (scientia), kesehatan (sanitas), dan kesucian hidup (sanctitas). Tulisan ini terfokus hanya pada pengelompokan guna pengenalan pola keberhasilan studi para seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang. Pengelompokan yang dibuat kiranya akan berguna bagi seminari untuk analisis lebih lanjut berkaitan dengan kemampuan scientia para seminaris.
Nilai rapor para seminaris menjadi acuan utama sebagai sumber data yang akan dikelompokkan. Nilai rapor tersebut bersumber dari nilai hasil studi 186 mata pelajaran yang diikuti oleh 137 seminaris angkatan tahun 2009 dan 2010 mulai dari kelas KPP (Kelas Persiapan Pertama) sampai kelas XII. Sebelum dikelompokkan, data scientia yang diperoleh dari seminari masuk tahap preprocessing. Pada tahap ini, dilakukan data cleaning, data integration, data transformation, dan data
reduction. Pada tahap data reduction digunakan principal component analysis.
Berkaitan dengan proses pengelompkan, ada tiga metode kedekatan yang digunakan dalam tulisan ini, yaitu single linkage, average linkage, dan complete linkage. Masing-masing teknik ini menggunakan euclidean distance sebagai parameter jarak kedekatannya. Dilakukan 9 kali percobaan untuk masing-masing metode kedekatan. Setiap percobaan pengelompokan ini dihitung juga nilai sum of square error (SSE).
Dari percobaan pengelompokan yang dilakukan ditemukan pembentukan tiga kelompok metode single linkage memberikan hasil 49,97. Hasil ini merupakan nilai SSE terkecil dan terbaik dari seluruh percobaan pembentukan kelompok sebanyak 27 kali. Pembentukan tiga kelompok ini juga sesuai dengan tujuan yang ingin dicapai dalam tulisan ini, yaitu kelompok seminaris yang berhasil, seminaris yang membutuhkan pembinaan khusus, dan seminaris yang gagal dalam studinya.
(11)
ix
ABSTRACT
RECOGNIZING SUCCESS PATTERN OF SEMINARIANS BY USING
AGGLOMERATIVE HIERARCHICAL CLUSTERING A Case Study of The Rate of Educational Completion of Seminarians At The Minor Seminary of Saint Peter Canisius, Mertoyudan, Magelang
ABSTRACT
The minor seminary designed as initial formal guidance for seminarians. As a Catholic guidance institutions, it has three criteria for assessment the seminarians, those are intellectual (scientia), health (sanitation) and sanctity of life (sanctitas). This paper only focuses on agglomeration to recognize intellectual development and success studies pattern of the seminarians at St. Petrus Canisius Seminary, Mertoyudan, Magelang. Hopefully, this agglomeration can be used for further analysis regarding to the scientia ability of seminarians.
The main reference as data source is the grades of seminarians that comes from the values of 186 subjects were followed by 137 seminarians class of 2009 and 2010, range of class from KPP (Kelas Persiapan Pertama) up to XII. Prepocessing process of scientia data by clean, integrate, transform and reduce the data. Principal component analysis is used in the data reduction phase. There are three methods to measure similarity in this paper : single-linkage, average-linkage and complete-linkage. Each of these method use euclidean distance as parameter of distance proximity. There are 9 experiments for each of these method. In each of the agglomerate experiments also calculate the sum of square error (SSE).
The formation of three groups founded by single-linkage methods with 49.97 accuracy from the experiments that was conducted. This accuracy result is the smallest value of SSE and be the best accuracy from acuracy result of 27 experiments. This formation of three groups is also accordance with the objectives to be achieved in this paper: seminarians who succes, seminarians who need special guidance and seminarians who failed in his studies.
(12)
x
KATA PENGANTAR
(13)
xi DAFTAR ISI
1
HALAMAN JUDUL ... i
HALAMAN JUDUL (English) ... ii
HALAMAN PESETUJUAN ... iii
HALAMAN PENGESAHAN ... iv
HALAMAN PERSEMBAHAN ... v
PERNYATAAN KEASLIAN KARYA ... vi
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI ... vii
ABSTRAK ... viii
ABSTRACT ... ix
KATA PENGANTAR ... x
DAFTAR ISI ... xi
DAFTAR GAMBAR ...xiii
DAFTAR TABEL ... xv
BAB I PENDAHULUAN ... 1
1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 6
1.3 Tujuan... 6
1.4 Batasan Masalah ... 7
BAB II LANDASAN TEORI ... 8
2.1 Seminari Menengah St. Petrus Canisius ... 8
2.2 Principal Component Analysis ... 10
2.3 Agglomerative Hierarchical Clustering ... 17
2.4 Uji Akurasi Data ... 33
BAB III METODOLOGI ... 36
3.1 Metode Pengumpulan Data ... 36
(14)
xii
3.3 Desain User Interface ... 45
3.4 Spesifikasi Software dan Hardware ... 48
BAB IV IMPLEMENTASI DAN ANALISIS HASIL ... 50
4.1 Implementasi ... 50
4.1.1 Pengolahan Data ... 50
4.1.2 User Interface ... 59
4.2 Analisis Hasil ... 65
BAB V PENUTUP ... 79
5.1 Kesimpulan ... 79
5.2 Saran ... 80
DAFTAR PUSTAKA ... 82
LAMPIRAN ... 83
(15)
xiii
DAFTAR GAMBAR
Gambar 2.1 Hasil eigenvector dan eigenvalue dengan Matlab ... 16
Gambar 2.2 Dendrogram ... 22
Gambar 2.3 Cluster hasil AHC ... 23
Gambar 2.4 Dendrogram single linkage untuk 5 obyek data ... 27
Gambar 2.5 Dendrogram average linkage untuk 5 obyek data ... 30
Gambar 2.6 Dendrogram complete linkage untuk 5 obyek data ... 32
Gambar 2.7 Contoh pemotongan dendrogram single linkage ... 33
Gambar 3.1 Block diagram proses program ... 37
Gambar 3.2 Dendrogram single linkage ... 43
Gambar 3.3 Dendrogram average linkage ... 43
Gambar 3.4 Dendrogram complete linkage ... 43
Gambar 3.5 User interface ... 46
Gambar 3.6 Desain input data ... 47
Gambar 3.7 Desain informasi dan tabel data ... 47
Gambar 3.8 Desain hasil proses AHC dan akurasi ... 48
Gambar 4.1 Implementasi – Grafik SSE single linkage ... 57
Gambar 4.2 Implementasi – Dendrogram single linkage nilai SSE terkecil ... 57
Gambar 4.3 Implementasi – Grafik SSE average linkage... 57
Gambar 4.4 Implementasi – Dendrogram average linkage dengan 4 kelompok .. 58
Gambar 4.5 Implementasi – Grafik SSE complete linkage ... 58
Gambar 4.6 Implementasi – Dendrogram complete linkage dengan 5 kelompok 59 Gambar 4.7 Implementasi – Dendrogram complete linkage dengan 6 kelompok 59 Gambar 4.8 Contoh tampilan keseluruhan sistem ... 60
Gambar 4.9 Manual sistem ... 60
Gambar 4.10 Tentang sistem ... 61
Gambar 4.11 Implementasi – Input data ... 62
Gambar 4.12 Implementasi – Informasi data dan tabel ... 63
(16)
xiv
Gambar 4.14 Fitur hasil PCA ... 66
Gambar 4.15 Analisis – Grafik SSE single linkage ... 68
Gambar 4.16 Analisis – Dendrogram single linkage nilai SSE terkecil ... 69
Gambar 4.17 Analisis – Grafik SSE average linkage ... 70
Gambar 4.18 Analisis – Dendrogram average linkage jumlah clustering 4 ... 71
Gambar 4.19 Analisis – Grafik SSE complete linkage ... 72
Gambar 4.20 Analisis – Dendrogram complete linkage jumlah clustering 5 ... 73
Gambar 4.21 Analisis – Dendrogram complete linkage jumlah clustering 6 ... 73
Gambar 4.22 Analisis – Dendrogram relatif seimbang single linkage ... 75
Gambar 4.23 Analisis – Dendrogram relatif seimbang average linkage ... 75
Gambar 4.24 Analisis – Dendrogram relatif seimbang complete linkage ... 75
(17)
xv
DAFTAR TABEL
Tabel 2.1 Contoh data untuk PCA ... 12
Tabel 2.2 Zero-mean untuk PCA ... 13
Tabel 2.3 Covariance untuk PCA ... 14
Tabel 2.4 Data final untuk contoh PCA ... 17
Tabel 2.5 Contoh data perhitungan AHC ... 24
Tabel 2.6 Similarity matrix ... 25
Tabel 2.7 Matriks jarak ... 25
Tabel 2.8 Matriks jarak pertama single linkage ... 26
Tabel 2.9 Matriks jarak kedua single linkage... 26
Tabel 2.10 Matriks jarak ketiga single linkage ... 27
Tabel 2.11 Matriks jarak pertama average linkage ... 28
Tabel 2.12 Matriks jarak kedua average linkage ... 29
Tabel 2.13 Matriks jarak ketiga average linkage ... 29
Tabel 2.14 Matriks jarak pertama complete linkage... 31
Tabel 2.15 Matriks jarak kedua complete linkage ... 31
Tabel 2.16 Matriks jarak ketiga complete linkage... 32
Tabel 3.1 Data sampel perhitungan jarak ... 42
Tabel 3.2 Hasil euclidean distance dari data sampel ... 42
Tabel 3.3 Contoh cluster hasil cut-off 3 single linkage ... 44
Tabel 3.4 Contoh cluster hasil cut-off 3 average linkage... 44
Tabel 3.5 Contoh cluster hasil cut-off 3 complete linkage ... 45
Tabel 4.1 Jenjang kelas dan jumlah seminaris ... 51
Tabel 4.2 Mata pelajaran ... 51
Tabel 4.3 Analisis – Hasil single linkage ... 67
Tabel 4.4 Analisis – Jumlah obyek, SSE terkecil single linkage ... 68
Tabel 4.5 Analisis – Hasil average linkage ... 69
Tabel 4.6 Analisis – Jumlah obyek, clustering 4 average linkage ... 70
(18)
xvi
Tabel 4.8 Analisis – Jumlah obyek, clustering 5 complete linkage ... 72
Tabel 4.9 Analisis – Jumlah obyek, clustering 6 complete linkage ... 73
Tabel 4.10 Analisis – Hasil analisis SSE terkecil ... 74
Tabel 4.11 Analisis – Hasil analisis keseimbangan dendrogram ... 74
Tabel 4.12 Analisis – Perbandingan label node SL-AL, SL-CL, dan AL-CL ... 76
(19)
1
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Kaum Beriman Kristiani ialah mereka yang karena melalui baptis
diinkorporasi pada Kristus. Melalui baptis, mereka dibentuk menjadi umat Allah
yang dikenal dengan Gereja. Gereja yang berada di dunia ini dibentuk dan ditata
sebagai masyarakat, berada di dalam Gereja Katolik yang dipimpin oleh pengganti
Petrus (Paus) dan para Uskup dalam persekutuan dengannya.1 Menyangkut Gereja universal, tugas untuk memaklumkan Injil dipercayakan terutama kepada Paus dan
kepada Kolegium Para Uskup.2 Sejauh menyangkut Gereja partikular yang
dipercayakan, tugas ini dilaksanakan oleh masing-masing Uskup.3 Uskup dibantu oleh imam dalam melaksanakan tugasnya. Sebagai rekan kerja Uskup, dalam
persekutuan dengannya dan presbiteriumnya4 imam berkewajiban mengabdi umat Allah dalam pelayanan sabda dan menguduskan umat Allah melalui tujuh sakramen
dalam Gereja Katolik. 5
1Kanon 204, pasal 2, “Kitab Hukum Kanonik (Codex Iuris Canonici)”, Edisi Resmi Bahasa
Indonesia, Grafika Mardi Yuana, 2006, hal. 80.
2 Kanon 756, pasal 1, hal. 221. 3 Kanon 756, pasal 2, hal. 221.
4 Presbiterium dalam Kamus Besar Bahasa Indonesia (KBBI) berarti orang tua-tua suatu
jemaat; para imam.
5 Sakramen-sakramen yang dimaksud adalah “Sakramen-sakramen Perjanjian Baru, yang
diadakan oleh Kristus Tuhan dan dipercayakan kepada Gereja, sebagai tindakan-tindakan Kristus dan Gereja, merupakan tanda dan sarana yang mengungkapkan dan menguatkan iman, mempersembahkan penghormatan kepada Allah serta menghasilkan pengudusan manusia…” (Kanon 840, KHK, hal. 241).
(20)
2
Karena pentingnya tugas yang diemban seorang imam, umat Katolik sangat
membutuhkan kehadiran para imam. Namun demikian, sejarah membuktikan
bahwa ada banyak calon imam atau seminaris6 di Indonesia, tetapi biasanya hanya sedikit yang sampai pada jenjang imamat. Pembinaan dan pendidikan di seminari
sering berjalan ketat dan selektif. Pendidikan dengan seleksi yang demikian sangat
diperlukan, namun sekaligus mengakibatkan banyaknya seminaris yang tidak
melanjutkan pendidikan ke seminari tinggi, sehingga sedikit pula yang menjadi
imam.
Seseorang harus memenuhi berbagai syarat untuk menjadi seorang imam
Gereja Katolik. Ia wajib mengikuti serangkaian pembinaan. Seminari menengah7 menjadi tempat formal pertama untuk pembinaan seseorang dalam proses untuk
menjadi seorang imam. Di seminari, secara khusus diselenggarakan pendidikan
keagamaan dan pendidikan humaniora serta ilmu pengetahuan ilmiah.8 Kemampuan intelektual (scientia) menjadi salah satu syarat penting. Selain itu,
kesehatan (sanitas) yang baik juga menjadi syarat yang harus dimiliki oleh seorang
calon imam. Selain itu, yang penting harus dimiliki adalah kesucian hidup
(sanctitas). Berbagai macam potensi baik yang ada pada setiap seminaris
6 Seminaris adalah siswa si seminari sebagai seorang calon imam/paderi. (Kamus Besar
Bahasa Indonesia. Available at: http://kbbi.web.id/seminaris [Diakses tanggal 05 Juni 2014]).
7 Kata seminari berasal dari kata Latin “semen”, artinya adalah “benih” atau “bibit”. Lebih
lanjut, seminari juga dari “seminarium” yang berarti “tempat pembibitan” atau “tempat pesemaian benih-benih”. Maka, seminari berarti: sebuah tempat (tepatnya sebuah sekolah yang bergabung dengan asrama: tempat belajar dan tempat tinggal), di mana benih-benih panggilan imam yang terdapat dalam diri anak-anak muda, disemaikan, secara khusus, untuk jangka waktu tertentu, dengan tatacara hidup dan pelajaran yang khas, dengan dukungan bantuan para staf pengajar dan pembina, biasanya terdiri dari para imam dan biarawan. “Seminaris” menunjuk pada para siswa yang belajar di seminari.
8 Kanon 234, pasal 1, KHK, hal. 87.
(21)
dikembangkan guna menunjang terpenuhinya syarat-syarat tersebut. Kesemua
syarat tersebut harus terintegrasi secara utuh dalam pribadi calon imam.
Dibutuhkan pengamatan dan penilaian untuk mengetahui apakah
syarat-syarat tersebut terpenuhi dalam diri seorang calon imam. Rektor seminari dan para
pendamping yang bertugas di seminari perlu mengenal setiap seminaris sejak awal
masuk seminari. Pengenalan awal ini sangat berguna agar para seminaris dapat
mengikuti pembinaan dengan baik. Selama perjalanan pembinaan di seminari,
setiap seminaris juga perlu dievaluasi secara berkala, sejauh mana syarat-syarat
untuk menjadi seorang imam sudah terintegrasi di dalam dirinya. Pada saat
evaluasi, para pembina, berdasarkan pengamatan mereka, memaparkan penilaian
terhadap setiap seminaris binaan mereka. Apabila ditemukan seminaris yang dinilai
kurang memenuhi syarat, pada waktu evaluasi tersebut akan dibicarakan secara
khusus. Rektor seminari berdasarkan pertimbangan para pembina dan juga karena
pengenalannya sendiri atas seminaris, memberikan putusan apakah seminaris yang
bersangkutan akan dikeluarkan atau perlu mendapat pembinaan khusus. Dengan
demikian, kebijakan yang tepat dalam proses dapat diupayakan secara obyektif.
Tujuan kebijakan dalam pembinaan tersebut adalah supaya banyak seminaris yang
siap untuk menjadi imam.
Secara umum, pengenalan terhadap seminaris dilakukan secara manual dan
bahkan terkadang berdasar intuisi para pembina. Metode ini terkadang sangat
menyulitkan mengingat banyaknya aspek yang harus dinilai dari setiap seminaris,
ditambah lagi kalau jumlah seminarisnya banyak. Obyektivitas penilaian dapat
(22)
4
sistem analisis terhadap data yang telah dimiliki oleh para pembina. Dengan
demikian akan diketahui keakuratan penilaian tersebut berhadapan dengan kriteria
penilaian yang harus tercapai. Sebuah sistem analisa membutuhkan data yang telah
diolah dengan baik. Dibutuhkan metode yang dapat mendukung proses analisis
tersebut. Dengan mempertimbangkan jumlah data seminaris dan sistem penilaian
di seminari, maka diperlukan adanya analisa pengelompokan data (cluster
analysis).
Ada berbagai metode pengelompokan data, di antaranya adalah metode
k-means (k-k-means clustering) dan metode hirarki (hierarchical clustering). Metode
pengelompokan data baik k-means maupun hirarki telah banyak diterapkan dalam
berbagai tulisan. Sebagai contoh, metode k-means dapat digunakan untuk
pengelompokan hasil evaluasi pembelajaran.9 Metode yang sama juga dapat
digunakan untuk memprediksi nilai mahasiswa.10 Untuk menilai tingkat kedisiplinan juga dapat menggunakan metode k-means ini.11 Seperti k-means,
metode pengelompokan hirarki juga telah digunakan sebagai metode di beberapa
tulisan. Sebagai contoh, pengelompokan hirarki juga dapat digunakan sebagai
mesin pencari gambar geometri bangunan datar.12 Selain itu ada juga yang
menggunakannya untuk mengidentifikasi penyakit hepatitis.13 Bukan hanya di
9Hertartik Clarasita Devy, “Pengelompokan Hasil Evaluasi Pembelajaran Menggunakan
Metode Klastering K-Means Studi Kasus: di Fakultas Sains dan Teknologi Universitas Sanata Dharma”, Skripsi, USD.
10 Tri Rahayu Widiarti, “Implementasi Algoritma K-Means untuk Memprediksi Nilai
Mahasiswa Studi Kasus: Mahasiswa Teknik Informatika USD”, Skripsi, USD.
11 Ihya Ulumuddin, “Penggunaan Algoritma K-Means Untuk Menentukan Nilai
Kedisiplinan Siswa”, Skripsi, Universitas Islam Negeri, 2012.
12 Astriana Krisma Risky, “Mesin Pencari Gambar Geometri Bangun Datar Menggunakan
Agglomerattive Hierarchical Clustering”, Skripsi, USD.
13 Christina Wienda Asrini, “Identifikasi Penyakit Hepatitis dengan Pendekatan
Agglomerative Hierarchical Clustering”, Skripsi, USD.
(23)
bidang teknik dan kesehatan, metode hierarchical juga digunakan pada bidang
sosial ekonomi. Pengelompokan hirarki digunakan juga untuk penaksiran proporsi
kemiskinan14. Beberapa contoh dalam tulisan ini menunjukkan bahwa metode pengelompokan data dengan k-means dan hirarki dapat digunakan di berbagai
bidang penelitian. Oleh sebab itu kedua metode tersebut kiranya juga mumpuni
untuk digunakan pada pengenalan data dan akhirnya kemudian pembentukan sistem
rekomendasi bagi rektor dan para pembina di seminari.
Berkaitan dengan data yang dibutuhkan, Seminari Menengah St. Petrus
Canisius, Mertoyudan, Magelang menjadi pilihan penulis. Seminari ini telah berdiri
selama lebih kurang 102 tahun. Di seminari ini ada data historis seminaris yang
kiranya dapat diolah. Berdasarkan analisis yang dibuat akan diketahui keberhasilan
atau kegagalan seorang seminaris, atau kebutuhan pembinaan lebih lanjut terutama
dari sisi intelektualnya. Hal ini akan sangat berguna bagi rektor dan proses
pembinaan di seminari. Dari pengelompokan data tersebut akan diketahui kriteria
para seminaris yang berhasil untuk melanjutkan ke jenjang seminari tinggi. Selain
yang berhasil, dapat juga diketahui kriteria seminaris yang akan gagal, atau
kemungkinan yang memerlukan pembinaan lebih lanjut.
Sisi intelektual (scientia) menjadi fokus utama dalam penelitian ini. Hal ini
dikarenakan dalam pembinaan seminaris, sisi intelektual mendapat porsi yang lebih
banyak. Selain itu, berkaitan juga dengan kapasitas ketersediaan data yang ada di
Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang. Potensi-potensi
14Yuridunis Saidah, “Penaksiran Proporsi Kemiskinan di Kabupaten Gersik Menggunakan
Metode Hierarhical Bayes pada Small Area Estimation (SAE)”, Skripsi, Universitas Indonesia, 2010.
(24)
6
scientia yang ada pada seminaris dapat diketahui dan dikembangkan. Dengan
demikian, upaya ini dapat membantu pembinaan dan pengambilan keputusan bagi
keberhasilan para seminaris. Dengan memperhatikan hal-hal tersebut, maka tulisan
ini diberi judul “Pengenalan Pola Keberhasilan Seminaris Menggunakan
Agglomerative Hierarchical Clustering, Studi Kasus atas Keberhasilan Studi para
Seminaris Di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang”.
1.2 Rumusan Masalah
Dari latar belakang yang telah dipaparkan, dapat dikemukakan perumusan
masalah dalam tulisan ini. Rumusan masalah tersebut adalah: sejauh mana metode
agglomerative hierarchical clustering mampu mengelompokkan keberhasilan studi
para seminaris dengan baik. Bertolak dari kriteria scientia pengelompokan tersebut
mencoba melihat kelompok seminaris manakah yang berhasil untuk melanjutkan
ke jenjang seminari tinggi, atau yang gagal, serta kelompok mana yang mungkin
membutuhkan pembinaan khusus.
1.3 Tujuan
Tujuan penulisan ini adalah mendapatkan hasil analisis pengelompokan atas
nilai scientia yang diperoleh para seminaris. Kriteria pengelompokan yang
diharapkan adalah kriteria seminaris yang berhasil menyelesaikan studinya, yang
gagal, dan seminaris yang mungkin membutuhkan pembinaan khusus. Lebih jauh
dari pengelompokan yang dihasilkan, akan dapat diketahui pola keberhasilan
(25)
seminaris yang menyelesaikan studinya. Pengelompokan ini kiranya akan sangat
berguna dikemudian hari untuk membentuk suatu sistem rekomendasi.
1.4 Batasan Masalah
Supaya tulisan ini memiliki titik fokus, maka perlu diberikan
batasan-batasan masalah yang akan diteliti dan dibahas dalam tulisan ini.
1. Variabel respon dalam tulisan ini adalah penilaian terhadap seminaris oleh para
pembina seminari bagi seminaris dengan melihat perkembangan intelektual
(scientia) yang ada di dalam diri seminaris tersebut.
2. Data penilaian terhadap kriteria potensi intelektual formal yang ada di dalam
diri setiap seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan,
Magelang guna memenuhi syarat keberhasilan scientia seminaris adalah
variabel-variabel pendukung (auxiliary variable) untuk metode agglomerative
(26)
8
2
BAB II
LANDASAN TEORI
Pembahasan atas suatu topik penelitian tentu membutuhkan landasan teori
yang tepat. Agar sebuah penelitian dapat berhasil dibutuhkan referensi sebagai
landasan teorinya. Landasan teori tersebut berisi tentang Seminari Menengah St.
Petrus Canisius, Mertoyudan, Magelang sebagai tempat sumber data penelitian,
Principal Component Analysis untuk pemilihan variabel dari data set yang ada, dan Agglomerative Hierarchical Clustering sebagai algoritma yang digunakan untuk
pengelompokan data dari variabel yang telah dipilih. Selanjutnya pada bagian akhir
bab ini akan dipaparkan tentang Uji Akurasi Data.
2.1 Seminari Menengah St. Petrus Canisius
Setiap calon imam Gereja Katolik, berkewajiban untuk mengikuti
serangkaian pembinaan. Seminari menengah menjadi tempat formal pertama
pembinaan seseorang dalam proses menjadi seorang imam. Di seminari,
diselenggarakan pendidikan keagamaan khusus bersama dengan pendidikan
humaniora dan ilmiah dalam konteks pembinaan panggilan.15 Dalam Gereja
Katolik, seminari-seminari yang didirikan secara legitim, menurut hukum,
mempunyai status badan hukum dalam Gereja.16 Sebagai tempat pembinaan,
15 Kanon 234, pasal 1, KHK, hal. 87. 16 Kanon 238, pasal 1, KHK, hal. 88.
(27)
seminari dikepalai oleh seorang rektor. Selain rektor, ada juga wakil rektor jika
diperlukan, ekonom, dan para pengajar yang memberikan berbagai pelajaran yang
terkoordinasi secara tepat.17 Untuk pembinaan spiritual, di seminari ada seorang direktur spiritual18 dan bapa pengakuan19.
Di Indonesia, secara umum dikenal seminari menengah untuk tingkat
Sekolah Menengah Atas (SMA).20 Di seminari menengah ini, setiap calon imam dibina dan dididik, baik dari sisi intelektual, mental, sosial, dan spiritualnya.
Kriteria tertentu ditetapkan guna mengukur keberhasilan dan kelayakan seorang
seminaris untuk melanjutkan ke jenjang berikutnya. Setiap pembina seminari
berhak memberikan penilaian, melihat dan mengamati perkembangan seminaris
binaannya. Penilaian diberikan berdasarkan kriteria yang ada. Catatan-catatan
khusus dibuat sebagai bahan pertimbangan kelayakan perkembangan seorang
seminaris. Pada saat yang telah ditentukan bersama, ditetapkan apakah seorang
seminaris layak atau tidak untuk melanjutkan ke jenjang berikutnya, atau
diperlukan pembinaan khusus.
Salah satu seminari menengah yang ada di Indonesia adalah Seminari
Menengah St. Petrus Canisius, Mertoyudan – Magelang (sering dikenal dengan nama Seminari Menengah Mertoyudan). Seminari ini telah didirikan sejak 30 Mei
17 Kanon 239, pasal 1, KHK, hal. 88. 18 Kanon 239, pasal 2, KHK, hal. 88. 19 Kanon 240, pasal 1, KHK, hal. 88.
20 Seminari menengah dapat digolongkan menjadi tiga, yaitu seminari menengah tingkat
SMP, seminari menengah tingkat SMA, dan seminari menengah KPA (Kelas Persiapan Atas). Seminari menengah KPA adalah bagi mereka yang memutuskan untuk menjadi calon imam setelah tamat SMA, biasanya dilaksanakan selama satu atau dua tahun.
(28)
10
1912 (sesuai dengan izin resmi dari tahta suci Roma untuk memulai lembaga
pendidikan calon imam di Indonesia).
Seminari Menengah Mertoyudan memiliki visi untuk menjadi komunitas
pendidikan calon imam tingkat menengah yang handal dan berkompeten dalam
mengembangkan sanctitas (kesucian), sanitas (kesehatan), dan scientia
(pengetahuan) ke arah imamat yang tanggap terhadap kebutuhan zaman. Seminari
Menengah Mertoyudan bertujuan untuk mendampingi seminaris dalam mengolah
hidup rohani, panggilan, kegerejaan dan kemasyarakatan, agar mampu mengambil
keputusan sesuai dengan panggilan hidupnya. Pendampingan bagi seminaris juga
tertuju pada mengembangkan diri menjadi pribadi yang sehat secara fisik maupun
psikis, dewasa secara manusiawi maupun kristiani, sehingga seminaris memiliki
kesiapsiagaan untuk menanggapi panggilan Tuhan.
Seminari Menengah Mertoyudan melaksanakan kegiatan pendidikan dan
pembelajaran secara efektif dan efisien agar kompetensi seminaris berkembang
secara optimal sehingga seminaris memiliki bekal yang memadai untuk
melanjutkan ke jenjang pendidikan imamat berikutnya. Bidang pendidikan ini
mendapat tekanan yang sangat penting di seminari ini. Data dari hasil perolehan
nilai dalam bidang pendidikan ini yang akan digunakan sebagai bahan penelitian
tulisan ini.
2.2 Principal Component Analysis
Sebelum melangkah ke proses dengan menggunakan agglomerative
hierarchical clustering, data perolehan dari seminari akan melalui proses feature
(29)
extraction21 dengan menggunakan principal component analysis (PCA). PCA menghasilkan kombinasi linear dari variabel-variabel yang diperoleh dari
mereduksi variabel asli yang banyak. Di dalam proses mereduksi, diperoleh
variabel yang lebih sedikit. Namun demikian variabel-variabel yang dihasilkan
masih mengandung informasi yang termuat dalam data asli22.
Dari sisi teknis, PCA dapat dimengerti sebagai suatu teknik mereduksi data
multivariat (multivariable) yang mengubah (mentranformasi) suatu matriks data asli
menjadi kombinasi linier yang lebih sedikit, tetapi menyerap sebagian besar jumlah
varian dari data asli tersebut. Atau secara singkat dapat dikatakan bahwa tujuan PCA
adalah menjelaskan sebanyak mungkin jumlah varian data asli dengan menggunakan
komponen utama (principal component) atau vektor sesedikit mungkin.
Untuk dapat menggunakan PCA dengan tepat, diperlukan pengetahuan
dasar tentang perhitungan matematika. Hal ini dibutuhkan karena dalam
perhitungan, PCA berkaitan dengan statistik dan aljabar matriks. Berikut ini adalah
algoritma dalam penggunaan PCA23:
1. Matriks X adalah hasil pengurangan rata-rata dari setiap dimensi data pada
matriks data.
2. Matriks adalah covariance matrix dari matriks X.
3. Hitung eigenvector dan eigenvalue dari .
21 Ekstraksi fitur adalah proses pembentukan satu set fitur baru dari fitur asli melalui
beberapa pemetaan fungsional. Tujuan ekstraksi fitur ini adalah untuk mencari satu set fitur baru yang minimum melalui beberapa transformasi menurut beberapa ukuran kinerja (Nong Ye, (Ed), “The Handbook of Data Mining”, Lawrence Erlbaum Associates, New Jersey, 2003, hal. 411).
22 Ibid. hal. 412.
23 Lindsay I Smith, “A Tutorial on Principal Component Analysis”. Available at:
http://www.ce.yildiz. edu.tr/personal/songul/file/1097/principal_components.pdf [Diakses tanggal 5 Juli 2014].
(30)
12
4. Pilih component dan bentuk vector feature dan principal component dari
eigenvector yang memiliki eigenvalue paling besar diambil.
5. Menurunkan data set yang baru.
Sebagai contoh, terdapat data seperti pada tabel 2.1 di bawah ini. Data teks
tersebut akan diproses dengan menggunakan PCA.
Tabel 2.1 Contoh data untuk PCA Data X Y
a 87 89 b 84 76 c 83 70 d 80 74 e 82 83
Data yang sudah dipersiapkan ini akan dihitung dengan mengurangi setiap
data dengan rata-ratanya. Ini dilakukan karena PCA memerlukan masukan data
yang mempunyai sifat zero-mean pada setiap fiturnya. Set data X dengan dimensi
MxN, dimana M adalah jumlah data dan N adalah jumlah fitur, akan tampak sebagai
berikut:
� = [
… …
… … ]
Untuk fitur ke- , semua nilai pada kolom tersebut dikurangi rata-ratanya. Rumus
yang digunakan adalah24:
′ = − ̅ (2.1)
24 Eko Prasetyo, “Data Mining: Konsep Dan Aplikasi Menggunakan Matlab”, Andi,
Yogyakarta, 2012, hal. 37.
(31)
Keterangan:
= , , … , � dan adalah kolom ke- .
Rumus ini menerangkan bahwa ′ pada adalah hasil dari pengurangan data dengan rata-rata data di setiap kolom ( ̅ ). Dengan cara ini, total nilai baik itu kolom maupun adalah 0. Hasil yang didapat dari contoh data pada
langkah 1 di atas (algoritma PCA) adalah sebagai berikut:
Tabel 2.2 Zero-mean untuk PCA Data X Y
a 3.8 10.6 b 0.8 -2.4 c -0.2 -8.4 d -3.2 -4.4 e -1.2 4.6
Data dari hasil perhitungan zero-mean (matriks X) dihitung untuk
mendapatkan covariance, yaitu . Rumus yang digunakan adalah25:
= ��� (2.2)
Keterangan:
: covariance matrix
� : jumlah data
�� : transpose matriks �
Kembali pada contoh data yang telah dihitung di atas, apabila dihitung
covariance matrix-nya maka data hasilnya adalah sebagai berikut:
(32)
14
Tabel 2.3 Covariance untuk PCA X Y
X 5.36 9.72 Y 9.72 45.84
Matriks memiliki ciri-ciri sebagai berikut26:
1. adalah matriks simetris bujur sangkar yang berukuran NxN.
2. Bagian diagonal utama (dari kiri atas ke kanan bawah) adalah nilai varian
masing-masing fitur sesuai indeks kolomnya.
3. Bagian selain diagonal utama adalah kovarian di antara pasangan dua fitur yang
bersesuaian.
Dengan demikian, matriks mengandung kovarian di antara semua
pasangan yang mungkin dari fitur data matriks �. Nilai kovarian merefleksikan noise dan redundansi pada fitur27:
1. Dalam diagonal utama diasumsi bahwa nilai tinggi berkorelasi dengan struktur
data yang penting.
2. Selain diagonal utama, nilai jarak yang besar menandakan redundansi yang tinggi.
Mengingat kembali tujuan PCA adalah (1) untuk meminimalkan redudansi
yang diukur oleh nilai jarak dari kovarian, dan (2) memaksimalkan nilai pemetaan
keluaran yang diukur dengan varian, maka jika � adalah matriks data hasil pemetaan dan adalah matriks kovarian dari �, yang diharapkan dari PCA adalah28:
26 Ibid. 27 Ibid. 28 Ibid. hal. 38.
(33)
1. Semua elemen selain diagonal utama dalam harus nol. harus berbentuk
matriks diagonal. Hal ini juga berarti bahwa � adalah matriks terdekorelasi. 2. Peletakan dimensi dalam � dari kiri ke kanan diturunkan menurun
(descending).
Harapan � dapat dicapai dengan menghitung eigenvector dan eigenvalue dari
covariance (matriks ). Yang dimaksud dengan eigenvalue adalah sebuah
bilangan skalar dan eigenvector adalah sebuah matriks yang keduanya dapat
mendefinisikan matriks A. Jika A adalah matriks m x m, maka setiap skalar λ memenuhi persamaan:
= (2.3)
untuk vektor ≠ , disebut eigenvalue dari A. Vektor x disebut eigenvector dari A yang berhubungan dengan eigenvalue , dan persamaan (2.3) diatas disebut
persamaan eigenvalue-eigenvector A. Kadang-kadang eigenvalue dan eigenvector
juga dinyatakan sebagai (latents root and vectors) atau karekteristik roots dan
vektor. Persamaan (2.3) dapat juga dituliskan sebagai
− � = (2.4)
Setiap nilai eigenvalue harus memenuhi persamaan determinan,
| − �| = (2.5)
yang dikenal sebagai persamaan karakteristik A.
Kembali pada data covariance yang telah ditemukan dari contoh di atas
maka dapat di cari eugenvalue-nya. Hasil covariance pada tabel 2.4 dianggap
sebagai matriks A.
(34)
16
Karakteristik determinan dari matriks A adalah:
| − �| = | . −. . − |.
Karena persamaan karakteristik | − �| = maka:
∴ . − . − − . ∗ . =
∴ . − . − . + − . =
∴ . − . + − . =
∴ − . − . =
Sampai pada tahap ini kemudian dapat dicari nilai eigenvalue-nya dari nilai
. Namun dengan perhitungan manual tentu akan mengalami kesulitan. Dalam
tulisan ini akan digunakan program Matlab sebagai alat bantu perhitungan. Dengan
menggunakan Matlab maka ditemukan eigenvector dan eigenvalue dari data pada
tabel 3 di atas, yaitu:
Gambar 2.1 Hasil eigenvector dan eigenvalue dengan Matlab
(35)
Dari perhitungan dengan menggunakan Matlab ini diketahui:
� � = [− .. .. ]
� = [ . . ]
Sampai pada tahap ini telah ditemukan eigenvalue dan eigenvector.
Selanjutnya dapat dilakukan feature vector. Pembentukan feature vector-nya
adalah dengan mengambil diagonal utama dari � dengan urutan dari besar ke kecil (descending). Kemudian, nilai eigenvector disusun mengikuti indeks
eigenvalue yang telah di-sort secara descending. Hasilnya adalah feature vector,
yaitu [ .. ].
Pada tahap terakhir, berdasarkan feature vector yang telah didapat,
diturunkan data set yang baru. Caranya adalah feature vector tersebut dikalikan
dengan data matriks � (Tabel 2.3 Zero-mean untuk PCA).
� = � � � � (2.6)
Hasil data set yang baru adalah sebagai berikut:
Tabel 2.4 Data final untuk contoh PCA Data Z
a 11.1786 b -2.1624 c -8.2344 d -5.0004 e 4.2186
2.3 Agglomerative Hierarchical Clustering
Seminari Menegah Mertoyudan adalah tempat penelitian ini. Dengan
(36)
18
seminari tersebut, tulisan ini dibuat. Data perolehan dari seminari menjadi sumber
tulisan ini. Data yang diperoleh diolah terlebih dahulu supaya dapat dipergunakan
dengan baik. Berkaitan dengan pengolahan data, di dalam data mining ada beberapa
metode yang dapat digunakan. Satu di antara metode yang ada adalah clustering.
Metode clustering ini yang akan digunakan dalam pengolahan data tersebut.
Clustering dapat dimengerti sebagai metode yang digunakan untuk
pengelompokan obyek yang sama menjadi satu kelompok (cluster), sedangkan
obyek yang berbeda di cluster yang berbeda pula. Cluster bertujuan untuk
menemukan kemiripan (similarity) antara data. Kemiripan yang dimaksud
berkaitan dengan karakteristik yang ditemukan di dalam data tersebut. Dengan
demikian akan terbentuk kelompok-kelompok data di mana masing-masing
kelompok mengandung data yang memiliki kedekatan karakteristik.29
Dapat dikatakan ada dua jenis pendekatan dengan menggunakan clustering,
yaitu partition clustering dan hierarchical clustering. Dengan menggunakan
pendekatan partition clustering, pertama ditentukan lebih dulu jumlah cluster,
kemudian data dipisahkan ke dalam cluster-cluster tersebut berdasarkan
kemiripannya. Algoritma yang menggunakan pendekatan partition clustering
contohnya adalah k-means.
Sejalan dengan partition clustering, hierarchical clustering juga membuat
pengelompokkan data. Namun, sesuai dengan namanya, pendekatan hierarchical
clustering, pengelompokan data dibuat berdasarkan tingkatannya. Dengan cara ini
29 Jiawei Han, Micheline Kamber, “Data mining Concepts and Techniques”, Morgan
Kaufmann, USA, 2011, hal. 20.
(37)
dapat dihasilkan suatu kumpulan partisi yang berurutan dengan visualisasi
dendogram. Obyek dengan tingkat similarity atau kemiripan yang tinggi akan
menjadi satu kelompok, begitu juga dengan data-data lain yang memiliki tingkat
kemiripan tinggi akan dijadikan satu kelompok. Secara singkat dapat dikatakan
bahwa metode hierarchical clustering bekerja untuk mengelompokkan obyek data
ke dalam struktur cluster berdasarkan tingkat kemiripannya. Pengelompokan ini
bertujuan untuk menentukan kemiripan antar data yang memiliki karakteristik yang
serupa. Sehingga, dengan menggunakan hierarchical clustering data yang memiliki
kemiripan berada pada hierarki yang sama, yang berbeda pada hierarki yang
berbeda pula.
Metode hierarchical clustering terbagi dalam dua bagian, yaitu
agglomerative (bottom-up) dan divisive (top-down). Namun yang dipilih dalam
penelitian ini adalah pendekatan agglomerative hierarchical clustering. Pemilihan
ini berdasarkan pada; pertama algoritma penggunaan hierarchical clustering
tampaknya sederhana. Kedua, pengelompokan data dapat dilihat dengan
menggunakan dendogram. Ketiga, penentuan jumlah cluster di awal tidak
diperlukan. Selain itu, alasan yang terakhir adalah karena agglomerative
hierarchical clustering menggunakan desain bottom-up sehingga pengelompokkan
data dimulai dari yang kecil ke arah pengelompokan yang besar. Desain ini sangat
membantu untuk proses pengenalan similaritas dan pengelompokan data.
Metode agglomerative hierarchical clustering (AHC) menggunakan
strategi desain bottom-up yang dimulai dengan meletakkan setiap obyek sebagai
(38)
20
cluster – atomic cluster tersebut menjadi cluster yang lebih besar dan lebih besar lagi sampai akhirnya semua obyek menyatu dalam sebuah cluster atau proses
berhenti jika telah mencapai batasan kondisi tertentu. Dengan pengertian lain,
agglomerative melakukan proses clustering dari n cluster menjadi satu kesatuan cluster. Dengan pengertian ini, setiap data pada awalnya dapat dianggap sebagai
sebuah cluster (atomic cluster). Ini berarti jika terdapat jumlah data sebanyak n, dan
k dianggap sebagai jumlah cluster, maka besarnya n = k. Pada langkah selanjutnya,
dihitung jarak antar cluster-nya.
Sebelum pembentukan sebuah cluster perlu dihitung jarak kemiripan antara
obyek data. Ada beberapa cara untuk mengetahui kemiripan data. Satu di antara
cara yang ada adalah similarity matrix dengan perhitungan euclidean distance.
Euclidean distance didevinisikan sebagai berikut:
, = √ | − | + | − | + | − | + … + | − |
(2.6)
atau dapat disingkat dengan30:
, = √∑ −
� =
(2.7)
Keterangan:
adalah jumlah atribut atau dimensi
dan adalah data
30
Eko Prasetyo, “…Konsep Dan Aplikasi …”, op. cit. hal. 216.
(39)
Dalam hierarchical clustering ada beberapa metode untuk perhitungan jarak
antar cluster, di antaranya adalah single linkage, average linkage, dan complete
linkage.31 Berikut ini adalah pendefinisian perhitungan jarak-jarak tersebut. 1. Single Linkage
Perhitungan dengan teknik single linkage adalah untuk mencari jarak
minimum antar cluster. Dengan single linkage jarak antara dua cluster
didefinisikan sebagai berikut:
, = min� , ∈ {� , }
(2.8)
Keterangan:
{� , } adalah jarak antara data dan y dari masing-masing cluster A dan B. 2. Average Linkage
Untuk menghitung jarak rata-rata antar cluster digunakan teknik average
linkage. Teknik ini didefinisikan sebagai:
, = ∑ ∑ �{ , }
∈ ∈
(2.9)
Keterangan:
dan adalah banyaknya data dalam cluster A dan B. 3. Complete Linkage
31 Eko Prasetyo, “Data Mining: Pengolahan Data Menjadi Informasi Menggunakan
(40)
22
Dengan menggunakan teknik complete linkage akan diketahui jarak
maksimum antar cluster, didefinisikan sebagai berikut:
, = max∈ , ∈ {� , }
(2.10)
Keterangan:
{� , } adalah jarak antara data dan y dari masing-masing cluster A dan B. Dengan menggunakan formula perhitungan-perhitungan di atas akan
diketahui jarak antar cluster. Jarak minimum antar data yang ditemukan pertama akan
menjadi cluster yang pertama pula. Perhitungan selanjutnya juga akan dilakukan
untuk pembentukan cluster selanjutnya. Masing-masing perhitungan dapat
menghasilkan dendrogram. Pada penelitian ini yang akan digunakan adalah single
linkage.
J
a
r
a
k
0 1 2
0,5 1,5
a b c e d f
D a t a
Gambar 2.2 Dendrogram
Dari penjelasan yang telah dipaparkan di atas, maka secara singkat AHC
dapat dimengerti sebagai metode yang dimulai dengan setiap n cluster yang
membentuk cluster masing-masing. Kemudian dua cluster dengan jarak terdekat
bergabung. Selanjutnya cluster yang lama akan bergabung dengan cluster yang
(41)
sudah ada dan membentuk cluster baru.Hal ini tetap memperhitungkan jarak
kedekatan antar cluster. Proses akan berulang hingga akhirnya terbentuk satu
cluster yang memuat keseluruhan cluster.
a b
c d
e f
a b
c d
e
Gambar 2.3 Cluster hasil AHC
Penggunaan algoritma agglomerative hierarchical clustering untuk
mengelompokkan n obyek data adalah sebagai berikut32 :
1. Hitung matriks jarak antar data.
2. Ulangi langkah 3 dan 4 hingga hanya satu kelompok yang tersisa.
3. Gabungkan dua kelompok terdekat berdasarkan parameter kedekatan yang
ditentukan.
4. Ubah matriks jarak antar data untuk merepresentasikan kedekatan di antara
kelompok baru dan kelompok yang masih tersisa.
5. Selesai.
32 Pang-Ning Tan, Michael Steinbach, Vipin Kumar, “Introduction to Data Mining”,
(42)
24
Sebagai contoh, terdapat beberapa data seperti dapat dilihat pada tabel 2.6 di
bawah ini. Data ini akan dibentuk dengan menggunakan AHC dengan perhitungan
kemiripan obyek data menggunakan euclidean distance dan perhitungan jarak cluster
dengan single linkage, average linkage, dan complate linkage.
Tabel 2.5 Contoh data perhitungan AHC Data X Y
a 1 1 b 4 1 c 1 2 d 3 4 e 5 4
Dengan menggunakan euclidean distance setiap obyek data tersebut
dihitung similaritasnya sebagai berikut:
, = √ | − | + | − | =
, = √ | − | + | − | =
, = √ | − | + | − | = ,
, = √ | − | + | − | =
, = √ | − | + | − | = ,
, = √ | − | + | − | = ,
, = √ | − | + | − | = ,
, = √ | − | + | − | = ,
, = √ | − | + | − | = ,
, = √ | − | + | − | =
(43)
Berdasarkan perhitungan tersebut dapat dibentuk similarity matrix seperti
seperti pada tabel 2.7. Berdasarkan perhitungan euclidean distance, similarity
matrix ini bersifat positif, simetris, dan triangle inequality.
Tabel 2.6 Similarity matrix
a b c d e
a 0 3 1 3.61 5 b 3 0 3.16 3.16 3.16 c 1 3.16 0 2.83 4.47 d 3.61 3.16 2.83 0 2 e 5 3.16 4.47 2 0
Karena similarity matrix ini bersifat simetris, matriks ini dapat juga
dituliskan seperti pada tabel 2.8 berikut dan menjadi matriks jarak.
Tabel 2.7 Matriks jarak
a b c d e
a 0 3 1 3.61 5 b 0 3.16 3.16 3.16
c 0 2.83 4.47
d 0 2
e 0
1. Single Linkage
Selanjutnya dari tabel 2.8 dapat dilihat jarak obyek data yang paling dekat,
yaitu a dan c, berjarak 1. Kedua obyek data ini menjadi satu cluster pertama.
Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari
sisa yang ada (b, d, e) dan berada paling dekat dengan cluster (ac). Untuk pencarian
jarak ini pertama digunakan single linkage.
(44)
26
= min{ , } = min{ . , . } = .
= min{ , } = min{ , . } = .
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster (ac),
sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.8 Matriks jarak pertama single linkage ac b d e ac 0 3 2.83 4.47
b 0 3.16 3.16
d 0 2
e 0
Berdasar pada matriks jarak pertama (tabel 2.9), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2.
Kemudian dihitung jarak dengan cluster yang tersisa, (ac), dan b.
= min{ , , , } = min{ . , . , , . } = ,
= min{ , } = min{ . , . } = .
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster (de),
sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.9 Matriks jarak kedua single linkage ac b de ac 0 3 2.83
b 0 3.16
de 0
(45)
Berdasar pada matriks jarak kedua (tabel 2.10), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (acde) yang paling dekat, yaitu bernilai
2.83. Kemudian dihitung jarak dengan cluster yang tersisa, yaitu b.
= min{ , , , } = min{ , , , . , . } =
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster (ac) dan (de) dihapus dan ditambahkan baris dan kolom untuk
cluster (acde), sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.10 Matriks jarak ketiga single linkage acde b
acde 0 3
b 0
Dengan demikian proses iterasi perhitungan jarak untuk pembentukan
cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster (acde) dan (b)
digabung menjadi satu, yaitu cluster (acdeb) dengan jarak terdekat adalah 3. Berikut
ini adalah hasil dendrogram hasil AHC dengan single linkage:
(46)
28
2. Average Linkage
Menggunakan average linkage akan dicari jarak antar cluster dengan
menghitung nilai rata-rata pasangan setiap cluster. Dengan tetap menggunakan
tabel matriks jarak (tabel 2.8), perhitungan average linkage ini dilakukan. Pada
awal perhitungan, cluster (ac) tetap digunakan sebagai cluster pertama karena jarak
antar obyek yang paling dekat. Berikut ini akan dilakukan perhitungan jarak antara
cluster (ac) dengan b, d, dan e.
= average{ , } = average{ , . } = + . = .
= average{ , } = average{ . , . } = . + . = .
= average{ , } = average{ , , } = + . = .
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster (ac),
sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.11 Matriks jarak pertama average linkage ac b d e ac 0 3.08 3.22 4.73
b 0 3.16 3.16
d 0 2
e 0
Berdasar pada matriks jarak pertama (tabel 2.12), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2.
Kemudian dihitung jarak dengan cluster yang tersisa, (ac), dan b.
(47)
= average{ , , , } = average{ . , . , , . } =
. + . + + . = .
= average{ , } = average{ . , . } = . + . = .
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster (de),
sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.12 Matriks jarak kedua average linkage ac b de
ac 0 3.08 3.97
b 0 3.16
de 0
Berdasar pada matriks jarak kedua (Tabel 2.13), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (ac) dengan b yang paling dekat, yaitu
bernilai 3.08. Kemudian dihitung jarak dengan cluster yang tersisa, (de).
= average{ , , , , , } =
average{ . , , . , . , . , . } = . + + . + . + . + . = .
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster (ac) dan b dihapus dan ditambahkan baris dan kolom untuk cluster
(acb), sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.13 Matriks jarak ketiga average linkage acb de
acb 0 3.7
(48)
30
Dengan demikian proses iterasi perhitungan jarak untuk pembentukan
cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster (acb) dan (de)
digabung menjadi satu, yaitu cluster (acbde) dengan jarak rata-rata adalah 3.7.
Berikut ini adalah hasil dendrogram hasil AHC dengan single linkage:
Gambar 2.5 Dendrogram average linkage untuk 5 obyek data
3. Complete Linkage
Penghitungan jarak dengan complete linkage akan dicari jarak antar cluster
dengan yang paling jauh. Dengan tetap menggunakan tabel matriks jarak (tabel
2.8), perhitungan complete linkage ini dilakukan. Pada awal perhitungan, cluster
(ac) tetap digunakan sebagai cluster pertama karena jarak antar obyek yang paling
dekat, yaitu 1. Berikut ini akan dilakukan perhitungan jarak antara cluster (ac)
dengan b, d, dan e.
= max{ , , } = max{ , . } = .
= max{ , , } = max{ . , . } = .
= max{ , , } = max{ , . } =
(49)
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster (ac),
sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.14 Matriks jarak pertama complete linkage ac b d e ac 0 3.16 3.61 5
b 0 3,16 3,16
d 0 2
e 0
Berdasar pada matriks jarak pertama (tabel 2.15), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2.
Kemudian dihitung jarak dengan cluster yang tersisa, (ac), dan b.
= max{ , , , } = max{ . , . , , . } =
= max{ , } = max{ . , . } = .
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster (de),
sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.15 Matriks jarak kedua complete linkage ac b de
ac 0 3.16 5
b 0 3,16
de 0
Berdasar pada matriks jarak kedua (tabel 2.16), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (acb) dan cluster (deb), yaitu bernilai 3.16.
(50)
32
antaranya. Dipilih cluster (deb). Kemudian dihitung jarak dengan cluster yang
tersisa, (ac).
= max{ , , , , , } =
max{ . , . , , . , , . } =
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster (ac) dan b dihapus dan ditambahkan baris dan kolom untuk cluster
(acb), sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.16 Matriks jarak ketiga complete linkage acb de
acb 0 5
de 0
Dengan demikian proses iterasi perhitungan jarak untuk pembentukan
cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster (acb) dan (de)
digabung menjadi satu, yaitu cluster (acbde) dengan jarak maksimum adalah 5.
Berikut ini adalah hasil dendrogram hasil AHC dengan complete linkage:
Gambar 2.6 Dendrogram complete linkage untuk 5 obyek data
(51)
Pada bagian akhir AHC, setelah perhitungan pembentukan dendrogram,
jumlah cluster dapat ditentukan dengan memotong (cut off) bagian tertentu dari
dendrogram yang terbentuk pada jarak tertentu. Misalnya pada gambar 2.4,
dendrogram dipotong pada jarak 2,5. Dengan pemotongan ini akan terbentuk 3
cluster, yaitu (ac), (de), dan (b) dengan masing-masing obyek datanya.
Gambar 2.7 Contoh pemotongan dendrogram single linkage
2.4 Uji Akurasi Data
Data intelektual yang telah diperoleh dari Seminari Menengah Mertoyudan
dan direduksi dengan menggunakan PCA serta hasilnya diolah dengan AHC perlu
diuji akurasinya supaya diketahui validitas data tersebut. Ada beberapa teknik untuk
uji akurasi data tersebut. Karena yang digunakan adalah Metode Clustering dapat
digunakan dua jenis uji akurasi, yaitu Internal Evaluation dan External Evaluation.33 1. Internal evaluation
Internal evaluation atau yang dikenal juga dengan unsupervised validation
merupakan pengujian data cluster demi validitasnya tanpa informasi dari luar.
(52)
34
Validasi ini contohnya adalah cohesion, separation, silhouette coefficient, dan sum
of square error (SSE).
2. External evaluation
Dengan menggunakan external evaluation akan diketahui kedekatan antara
label cluster terbentuk dengan class yang disediakan. External evaluation ini dapat
dilakukan dengan confusion matrix, entropy, dan purity.
Pada tulisan ini yang akan digunakan untuk uji akurasi adalah internal
evaluation, secara khusus dengan menggunakan sum of square error (SSE). Setiap
percobaan cut-off untuk pembentukan cluster akan dihitung SSE-nya. Dengan cara
demikian akan didapatkan nilai SSE untuk masing-masing percobaan cutt-off dalam
pembentukan cluster. Semakin kecil nilai SSE menunjukkan bahwa cluster yang
dibentuk semakin baik pula. Formulasi SSE yang digunakan adalah sebagai
berikut34:
�� = ∑ ∑ || − ||
∀��∈ �
� =
(2.11)
Keterangan:
adalah jarak data di indeks
adalah rata-rata semua jarak data di cluster
Formulasi ini dapat dilakukan dengan langkah-langkah berikut ini:
1. Tentukan matriks K yang akan dihitung menggunakan SSE
34 Lior Rokach, “Data Mining And Knowledge Discovery Handbook, Chapter 15: Clustering
Methods”. Available at: http://www.ise.bgu.ac.il/faculty/liorr/hbchap15.pdf [Diakses tanggal 25 Januari 2015].
(53)
adalah data set dari cluster
cluster adalah anggota dari matriks K
2. Jika =
3. Hitung rata-rata cluster ( ) … a
4. Lakukan langkah 5 dan 7 untuk setiap data
5. Kurangkan a dengan data di indeks ( || − || )… b
6. Hitung … c
7. c dijumlahkan untuk setiap cluster … d
8. Jumlahkan total d di matriks K
(54)
36
3
BAB III
METODOLOGI
Berdasar pada landasan teori yang telah disampaikan pada bab kedua di
atas, pada bab ini akan dibahas metodologi yang digunakan dalam tulisan ini. Bab
ketiga akan dipaparkan tentang metode yang digunakan untuk pengumpulan data,
teknik analisa data, rancangan desain user interface, dan spesifikasi software dan
hardware yang digunakan dalam implementasi.
3.1 Metode Pengumpulan Data
Sekumpulan data yang diterima dari Seminari Mertoyudan diperoleh dari
arsip nilai yang ada di seminari tersebut. Selain itu juga data didapat berdasarkan
hasil wawancara dengan para pembina di seminari, termasuk karyawan bagian
pengarsipan. Dengan demikian akan diketahui dengan pasti keakuratan data
tersebut. Berikut ini adalah penjelasan lebih lanjut tentang metode pengumpulan
data yang telah dilaksanakan:
1. Studi Kepustakaan
Studi kepustakaan diperlukan untuk mencari informasi tentang dunia
pendidikan, khususnya pendidikan di seminari menengah. Selain itu, informasi
tentang data mining terutama agglomerative hierarchical clustering sangat
dibutuhkan sehingga dapat membentuk suatu sistem yang dapat digunakan.
(55)
2. Wawancara
Metode wawancara berkaitan dengan dunia pendidikan di seminari
dilakukan beberapakali kepada pembina di seminari, terutama rektor seminari.
Selain itu, wawancara juga dilakukan dengan karyawan yang bertugas untuk
menyimpan arsip penilaian studi para seminaris. Wawancara ini sangat membantu
untuk mengerti secara benar tentang dunia pembinaan di seminari terutama dari sisi
scientia-nya. Juga, wawancara berguna untuk mengerti tentang pengolahan data
nilai para seminaris.
3. Pengumpulan Data
Setelah menerima izin secara lisan dari rektor seminari, arsip data nilai yang
ada di Seminari Mertoyudan dikumpulkan. Teknik pengumpulan data dilakukan
bersama karyawan seminari bagian arsip data. Data nilai yang ada dipilah-pilah dan
kemudian data yang dianggap relevan dikumpulkan dan diolah.
3.2 Teknik Analisis Data
Data yang telah diperoleh dari hasil pengumpulan data selanjutnya mulai
dianalisa. Berkaitan dengan tahap-tahap teknik analisis dan jalannya program
digambarkan dengan block diagram sebagai berikut:
Data Preprocessing Perhitungan
Jarak AHC Output Dendrogram
Single Average Complete Akurasi
PCA
(56)
38
1. Data
Data yang digunakan untuk penelitian dalam tulisan ini adalah data yang
diperoleh dari Seminari Menengah Mertoyudan. Data ini merupakan daftar nilai
hasil belajar (rapor) para seminaris yang dikumpulkan. Daftar nilai ini bersifat
sangat penting karena menunjukkan kemampuan intelektual para seminaris dalam
mengikuti mata pelajaran yang disajikan dan diikutinya. Berdasarkan hasil
penilaian ini juga para pembina seminari dapat mengetahui kemampuan dan
perkembangan anak-anak didiknya. Daftar nilai ini juga menjadi bahan
pertimbangan bagi para pembina seminari untuk mengambil keputusan terhadap
seorang seminaris apakah ia akan dapat melanjutkan pendidikan di seminari, atau
diberi pembinaan tambahan, atau diminta untuk keluar dari seminari.
Data yang akan digunakan adalah daftar nilai hasil semester satu dan dua
dari dua kelompok yang seangkatan, yaitu yang mengalami pendidikan di seminari
periode tahun 2009 sampai dengan 2013 dan periode tahun 2010 sampai dengan
2014. Data yang digunakan adalah mulai dari kelas KPP (Kelas Persiapan Pertama)
sampai kelas XII (kelas 3 SMA). Kurun waktu empat tahun pelajaran ini diambil
karena selama masa pendidikan ini para seminari dibina dan akhirnya harus
diputuskan oleh pembina seminari apakah seminaris yang bersangkutan layak utuk
melanjutkan ke seminari tinggi. Dalam pembinaan di Seminari Mertoyudan, masa
pendidikan empat tahun ini dapat dibagi menjadi tiga bagian, yaitu:
a. KPP. Masa KPP ini merupakan tahap awal di mana setiap seminari yang berasal
dari berbagai daerah, dengan latar belakang keluarga dan budaya yang berbeda
harus mengalami penyesuaian dengan pola kehidupan dan pembinaan di
(57)
seminari. Motivasi panggilan untuk menjadi seorang imam mulai dimurnikan
dan diarahkan. Keberanian untuk mengolah kerohanian, kepribadian, dan
intelektual ditekankan. Hal ini diterapkan dengan berbagai mata pelajaran yang
disajikan, misalnya mata pelajaran Metode Belajar dan Sidang Akademi guna
menumbuhkan keberanian mengolah gagasan pengetahuan dan berpendapat.
Hal ini terkait erat dengan pengolahan kepribadian dan intelektual. Selain itu
ada juga mata pelajaran Agama, Liturgi, dan Sejarah Gereja yang mengarah
pada pengetahuan rohani para seminaris.
b. Kelas X dan Kelas XI. Masa perkenalan para seminaris terhadap kehidupan
seminari dianggap telah dilalui. Di kelas X dan XI para seminaris mengalami
pembinaan lanjutan. Di bangku sekolah, sisi scientia disetarakan dengan
pendidikan SMA umum, namun tidak meninggalkan mata pelajaran yang
dibutuhkan untuk pembinaan seorang calon imam. Masa dua tahun ini menjadi
masa pembinaan yang sangat ketat dan menentukan. Hal ini terkait erat dengan
putusan final yang akan diterima setiap seminaris di penghujung kelas XI. Di
Seminari Mertoyudan, penghujung kelas XI menjadi masa penentuan apakah
seorang seminaris layak atau tidak untuk melanjutkan ke seminari tinggi.
Artinya, apabila seorang seminaris sudah masuk ke kelas XII, hal ini berarti ia
sudah layak untuk melanjutkan ke seminari tinggi atau masuk ke kongregasi
tertentu sebagai bruder.
c. Kelas XII. Para seminaris yang berada di kelas XII berarti sudah layak untuk
melanjutkan pendidikannya ke jenjang yang lebih tinggi. Hal ini berarti setiap
(58)
40
golongan laikus (awam) atau klerus (imam) di dalam Gereja Katolik, melainkan
siap untuk membuat lamaran guna bergabung ke keuskupan atau kongregasi
tertentu.
Total data yang digunakan berjumlah 137 orang siswa dengan 186 mata
pelajaran yang ada di seminari mulai dari KPP sampai kelas XII. Dimensi data ini
berasal dari dua angkatan seminaris, yaitu 2009 dan 2010. Dari 137 data yang ada,
memuat data seminaris dalam ketiga bagian di atas. Dengan dimensi data yang
demikian kiranya dapat diketahui pola keberhasilan seminaris.
2. Preprocessing
Data yang sudah didapat dan dikumpulkan selanjutnya diolah dalam tahap
preprocessing. Pada tahap ini akan dilakukan data cleaning, data integration, data selection dan data transformation. Data yang di dapat, baik itu dari hasil scanner,
maupun berupa file berformat Excel dikumpulkan. Data yang berkaitan diambil dan
dikumpulkan. Mengingat bahwa ada jurusan IPA dan IPS pada masa pendidikan
tersebut, maka nilai mata pelajaran seminaris jurusan IPA pada jurusan IPS mendapat
rata-rata dari nilai mata pelajaran seminaris jurusan IPS per mata pelajarannya. Sama
halnya yang dilakukan untuk nilai mata pelajaran seminaris jurusan IPS di jurusan
IPA. Hal ini dilakukan setara dengan penanganan kesalahan data dengan menghitung
rata-rata berdasarkan nilai yang tersedia untuk fitur tersebut, kemudian hasilnya
digunakan untuk mengganti nilai fitur yang salah pada setiap vektor.35 Apabila seminaris keluar dari seminari, nilai mata pelajaran selanjutnya diberi nilai 0.
35 Budi Santosa, “Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis”, Graha
Ilmu, Yogyakarta, 2007, hal. 20.
(59)
Dalam praktek, sering ditemukan fitur dengan jangkauan nilai yang
berbeda. Hal ini mengakibatkan fitur dengan nilai yang lebih besar dapat pengaruh
yang lebih besar pula. Apabila dalam proses ini ditemukan jarak nilai yang
berjauhan, maka akan dilakukan proses normalisasi. Normalisasi yang digunakan
adalah Z-Score dengan persamaan36:
̂ = σ− ̅
(3.1)
Keterangan:
̂ adalah nilai Z-Score setiap data di indeks
adalah data di indeks
̅ adalah rata-rata data di indeks
σ adalah standar deviasi data di indeks
Di samping itu, principal component analysis (PCA) akan diterapkan dalam
tahap preprocessing ini. PCA dilakukan untuk mengurangi dimensi data yang besar,
namun tidak menghilangkan informasi yang penting yang terkandung di dalam data.
3. Perhitungan jarak
Setelah data melewati tahap preprocessing, tahap selanjutnya adalah
mengukur jarak setiap data. Pengukuran jarak digunakan euclidean distance,
sebagaimana yang telah dipaparkan pada bab kedua dalam tulisan ini. Dengan
menggunakan perhitungan euclidean distance akan didapat jarak antardata dalam
sebuah matriks. Matriks ini kemudian akan digunakan untuk tahap selanjutnya,
(60)
42
yaitu clustering dengan menggunakan AHC. Berikut ini adalah contoh data yang
akan digunakan untuk perhitungan jarak dengan euclidean distance:
Tabel 3.1 Data sampel perhitungan jarak Data X Y
a 87 89 b 84 76 c 83 70 d 80 74 e 82 83 f 81 92
Dengan menggunakan perhitungan euclidean distance, data sampel pada
tabel 3.1 didapat matriks jarak sebagai berikut:
Tabel 3.2 Hasil euclidean distance dari data sampel
a b c d e f
a 0 13.34166 19.41649 16.55295 7.81025 6.708204 b 13.34166 0 6.082763 4.472136 7.28011 16.27882 c 19.41649 6.082763 0 5 13.0384 22.09072 d 16.55295 4.472136 5 0 9.219544 18.02776 e 7.81025 7.28011 13.0384 9.219544 0 9.055385 f 6.708204 16.27882 22.09072 18.02776 9.055385 0
4. AHC
AHC adalah agglomerative hierarchical clustering. Dalam tahap ini
matriks jarak data yang telah dihasilkan dengan euclidean distance akan digunakan.
Masing-masing data akan dikelompokkan berdasarkan karakteristik kedekatannya.
Proses pengelompokan tersebut akan menggunakan tiga perhitungan yaitu, single
linkage, average linkage, dan complete linkage. Langkah-langkah perhitungannya
seperti yang dapat dilihat dalam bab ke dua di dalam tulisan ini. Dengan
(61)
menggunakan Matlab, data sampel yang digunakan pada tabel 3.1 dihasilkan
dendrogram sebagai berikut ini:
Gambar 3.2 Dendrogram single linkage
Gambar 3.3 Dendrogram average linkage
(1)
for k=1:length(find(Ck==j)) if x(k,1)==j
ss(n,1)=(x(k,2)-rerata)^2;
% ss(n,1)=power((dat(k,2)-rerata),2);
n=n+1; end
end end
dataSSE(i)=sum(ss,1); % Perjumlah SSE untuk tiap cluster percobaan
urutanCluster(i)=cutoff; % Jumlah cluster untuk tampilan urutan di plot
cutoff=cutoff+1; % Penambahan jumlah cluster 1 dari tiap cluster sebelumnya
else
msgbox('Jumlah cluster awal minimal 2.'); end
end
clusterSSE=[urutanCluster dataSSE];
tampilSSE(urutanCluster,jmlPercobaanCutoff,dataSSE,clusterAwal,clu sterAkhir);
end
% Tampil SSE
function tampilSSE(urutanCluster,... jmlPercobaanCutoff,...
dataSSE,... clusterAwal,... clusterAkhir)
plot(urutanCluster,dataSSE,'-s',... 'LineWidth',1,...
'MarkerSize',5,...
'MarkerEdgeColor','auto',... 'MarkerFaceColor','auto'); for i=1:jmlPercobaanCutoff Y=int2str(dataSSE(i));
text(urutanCluster(i)+0.1,dataSSE(i),Y,
'HorizontalAlignment','left','VerticalAlignment','bottom','FontSiz e', 8);
end
x1=clusterAwal-1; x2=clusterAkhir+1; y1=min(dataSSE); y2=max(dataSSE);
if y1 > 1000 && y2 > 1000 y1=y1-1000;
y2=y2+3000;
elseif y1 > 100 && y2 > 100 y1=y1-100;
y2=y2+300; else
(2)
y1=y1-10; y2=y2+30; end
xlim([x1,x2]); ylim([y1,y2]);
set(gca,'XColor',[0.4,0.4,0.4],'YColor',[0.4,0.4,0.4]);
% xlabel('Clustering'); % ylabel('Nilai SSE');
% title('\fontsize{16}\color{red}Sum Squared Error');
end
%%
% Penanganan kesalahan input
function [hasil]=penangananError(JmlPCStr,... cls1Str,...
cls2Str,... featureAwal,... anggota,... error,err) if error==0
tampilPesanError(err) else
hasil=false;
ex1=isnan(str2double(JmlPCStr)); ex2=isnan(str2double(cls1Str)); ex3=isnan(str2double(cls2Str)); ex4=strfind(JmlPCStr,','); ex5=strfind(JmlPCStr,'.'); ex6=strfind(JmlPCStr,'-'); ex7=strfind(cls1Str,','); ex8=strfind(cls1Str,'.'); ex9=strfind(cls1Str,'-'); ex10=strfind(cls2Str,','); ex11=strfind(cls2Str,'.'); ex12=strfind(cls2Str,'-');
exA=ex1 || ex2 || ex3...
|| ~isempty(ex4) || ~isempty(ex5)... || ~isempty(ex6) || ~isempty(ex7)... || ~isempty(ex8) || ~isempty(ex9)... || ~isempty(ex10) || ~isempty(ex11)... || ~isempty(ex12);
if exA
tampilPesanError(2); else
JmlPCStrNum=str2double(JmlPCStr); cls1Num=str2double(cls1Str); cls2Num=str2double(cls2Str);
exB=JmlPCStrNum > 0 ... && JmlPCStrNum < 3 ...
(3)
|| cls1Num < 2 ... || cls1Num > cls2Num... || cls2Num > anggota;
if exB
tampilPesanError(2); else
hasil=true; end
end end end
% Tampil kesalahan
function tampilPesanError(err) if err==0
uiwait(msgbox({'Ada kesalahan pada pembatasan atribut.'
'1. Jika batasan awal 0 maka batasan akhir harus 0,'
' begitu juga sebaliknya'
'2. Batas atribut akhir harus lebih besar dari'
' batas atribut awal.'
'3. Minimal jumlah atribut yang digunakan = 3'},... 'Kesalahan','error','modal'));
elseif err==1
uiwait(msgbox({'Ada kesalahan pada pembatasan data.'
'1. Jika batasan awal 0 maka batasan akhir harus 0,'
' begitu juga sebaliknya'
'2. Jumlah data minimal sama dengan jumlah'
' cluster akhir (minimal 2)'},... 'Kesalahan','error','modal'));
else
uiwait(msgbox({'Anda kemungkinan melalukan satu pelanggaran'
'atau lebih dari beberapa aturan berikut:'
' 1. Semua inputan berupa bilangan cacah tanpa titik (.)'
' atau koma (,)'
' 2. Jumlah principal component minimal 3'
' dan tidak lebih dari jumlah feature data input'
' 3. Jumlah cluster awal minimal 2,'
' maksimal sama dengan cluster akhir'
' 4. Jumlah cluster akhir minimal sama dengan cluster awal,'
' maksimal sama dengan banyaknya data'},... 'Kesalahan','error','modal'));
end end
(4)
4.
Tentang.fig
5.
Tentang.m
function varargout = Tentang(varargin)
% TENTANG MATLAB code for Tentang.fig
% TENTANG, by itself, creates a new TENTANG or raises the existing
% singleton*. %
% H = TENTANG returns the handle to a new TENTANG or the handle to
% the existing singleton*. %
% TENTANG('CALLBACK',hObject,eventData,handles,...) calls the local
% function named CALLBACK in TENTANG.M with the given input arguments.
%
% TENTANG('Property','Value',...) creates a new TENTANG or raises the
% existing singleton*. Starting from the left, property value pairs are
% applied to the GUI before Tentang_OpeningFcn gets called. An
% unrecognized property name or invalid value makes property application
% stop. All inputs are passed to Tentang_OpeningFcn via varargin.
(5)
%
% *See GUI Options on GUIDE's Tools menu. Choose "GUI allows only one
% instance to run (singleton)". %
% See also: GUIDE, GUIDATA, GUIHANDLES
% Edit the above text to modify the response to help Tentang
% Last Modified by GUIDE v2.5 14-Dec-2014 15:20:45
% Begin initialization code - DO NOT EDIT
gui_Singleton = 1;
gui_State = struct('gui_Name', mfilename, ... 'gui_Singleton', gui_Singleton, ...
'gui_OpeningFcn', @Tentang_OpeningFcn, ... 'gui_OutputFcn', @Tentang_OutputFcn, ... 'gui_LayoutFcn', [] , ...
'gui_Callback', []); if nargin && ischar(varargin{1})
gui_State.gui_Callback = str2func(varargin{1}); end
if nargout
[varargout{1:nargout}] = gui_mainfcn(gui_State, varargin{:}); else
gui_mainfcn(gui_State, varargin{:}); end
% End initialization code - DO NOT EDIT
% --- Executes just before Tentang is made visible.
function Tentang_OpeningFcn(hObject, eventdata, handles, varargin)
% This function has no output args, see OutputFcn. % hObject handle to figure
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA) % varargin command line arguments to Tentang (see VARARGIN)
% Choose default command line output for Tentang
handles.output = hObject; axes(handles.axLogoUSD); imshow('Images\LogoUSD.jpg'); axes(handles.axLogoSM);
imshow('Images\LogoSM.jpg');
% Update handles structure
guidata(hObject, handles);
% UIWAIT makes Tentang wait for user response (see UIRESUME) % uiwait(handles.figure1);
(6)
% --- Outputs from this function are returned to the command line.
function varargout = Tentang_OutputFcn(hObject, eventdata, handles)
% varargout cell array for returning output args (see VARARGOUT); % hObject handle to figure
% eventdata reserved - to be defined in a future version of MATLAB
% handles structure with handles and user data (see GUIDATA) % Get default command line output from handles structure