Spesifikasi Software dan Hardware Analisis Hasil

3. Hasil Proses AHC dan Akurasi Setelah tombol Proses dipilih, selain Tabel Data menampilkan hasil proses PCA, akan tampil juga diagram dendrogram dan cluster hasil proses AHC dan grafik akurasi dari perhitungan SSE untuk setiap cluster-nya. Dendrogram, baik itu hasil dari single linkage, average linkage, maupun complete linkage, ditampilkan bersama label dari masing-masing leaf node dalam bentuk tabel. Cluster ditampilkan bersama dengan jumlah masing-masing cluster. Grafik SSE menampilkan nilai SSE dari masing-masing cluster. Grafik SSE ini dapat dipilih untuk merubah tampilan Dendrogram dan panel Cluster sesuai dengan cluster yang dipilih dalam grafik SSE. Gambar 3.8 Desain hasil proses AHC dan akurasi

3.4 Spesifikasi Software dan Hardware

Untuk proses implementasi digunakan spesifikasi software dan hardware sebagai berikut: 1. Software: a. Sistem Operasi : Microsoft Windows 7 ultimate 64-bit b. Bahasa pemrograman : Matlab version 8.0.0.783 R2012b 2. Hardware: a. Processor : IntelR CoreTM i5-2500K CPU 3.30GHz b. Memory: 4 GB c. Harddisk: 1 TB 50 4 BAB IV IMPLEMENTASI DAN ANALISIS HASIL Metodologi yang telah dipaparkan pada bab sebelumnya diimplementasikan pada bab ini. Implementasi tersebut berkaitan dengan pengolahan data mulai dari preprocessing menggunakan principal component analysis PCA sampai dengan uji akurasi dengan menggunakan sum of squares error SSE atas hasil proses data dengan menggunakan agglomerative hierarchical clustering AHC. Pada tahap selanjutnya, hasil implementasi tersebut dianalisis. Analisis hasil implementasi disajikan dalam dua bagian, yaitu analisis hasil secara global dan analisis hasil secara parsial.

4.1 Implementasi

Landasan teori dan metodologi yang telah disampaikan berkurang manfaatnya jika tidak disertakan dengan implementasi. Implementasi dipaparkan dalam dua bagian besar, yaitu berkaitan dengan proses pengolahan data dan user interface atas sistem yang telah dibuat guna pengolah data tersebut.

4.1.1 Pengolahan Data

Data yang digunakan dalam penelitian pengenalan pola tulisan ini berjumlah 137 data. Sejumlah data tersebut merupakan obyek primer penelitian ini. Obyek primer tersebut adalah nilai dari sisi scientia berupa nilai rapor yang bersifat kognitif dari 137 siswa angkatan 2009 dan angkatan 2010 di Seminari Menengah St. Petrus Canisius, Mertoyudan – Magelang. Nilai dari sisi scientia yang digunakan dalam tulisan ini adalah data dari dua angkatan siswa seminari yang dimulai dari Kelas Persiapan Pertama KPP. Di Seminari Mertoyudan, pendidikan dilalui selama empat tahun. Jenjang pendidikan empat tahun tersebut serta jumlah seminarisnya dapat dilihat dalam tabel berikut ini. Tabel 4.1 Jenjang kelas dan jumlah seminaris Angkatan KPP Kelas X Kelas XI Kelas XII IPS IPA IPS IPA 2009 66 59 29 26 15 11 2010 71 69 33 25 22 14 Jumlah 137 128 62 51 37 25 Berkaitan dengan pembinaan kognitif di seminari, mata pelajaran di setiap jenjang kelas tidak dapat dilepaskan. Di dalam tulisan ini, mata pelajar menjadi atribut atau fitur dalam pengolahan data. Adapun mata pelajaran yang diikuti oleh para seminaris adalah seperti yang tampak pada tabel berikut ini. Tabel 4.2 Mata pelajaran KPP Kelas X Semester 1 Semester2 Semester 1 Semester2 Pendidikan Agama Pendidikan Agama Pendidikan Agama Pendidikan Agama PKS PKS Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Liturgi Liturgi Bahasa Indonesia Bahasa Indonesia Sejarah Gereja Sejarah Gereja Bahasa Inggris Bahasa Inggris Bahasa Indonesia Bahasa Indonesia Matematika Matematika Bahasa Inggris Bahasa Inggris Fisika Fisika Bahasa Latin Bahasa Latin Biologi Biologi Bahasa Daerah Bahasa Daerah Kimia Kimia Matematika Matematika Sejarah Sejarah IPA IPA Geografi Geografi IPS IPS Ekonomi Ekonomi Pendidikan Seni Pendidikan Seni Sosiologi Sosiologi Komputer Komputer Cantus Cantus Metode Belajar Metode Belajar Menggambar Menggambar Sidang Akademi Sidang Akademi Penjaskes Penjaskes TIK TIK Bahasa Daerah Bahasa Daerah Bahasa Latin Bahasa Latin Kitab Suci Kitab Suci Kelas XI IPS IPA Semester 1 Semester2 Semester 1 Semester2 Pendidikan Agama Pendidikan Agama Pendidikan Agama Pendidikan Agama Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Bahasa Indonesia Bahasa Indonesia Bahasa Indonesia Bahasa Indonesia Bahasa Inggris Bahasa Inggris Bahasa Inggris Bahasa Inggris Matematika Matematika Matematika Matematika Sejarah Sejarah Fisika Fisika Geografi Geografi Kimia Kimia Ekonomi Ekonomi Biologi Biologi Sosiologi Sosiologi Sejarah Sejarah Seni Musik Seni Musik Cantus Cantus Penjaskes Penjaskes Seni Lukis Seni Lukis T I K T I K Penjaskes Penjaskes Bahasa Daerah Bahasa Daerah TIK TIK Bahasa Latin Bahasa Latin Bahasa Daerah Bahasa Daerah Kitab Suci Kitab Suci Bahasa Latin Bahasa Latin Kitab Suci Kitab Suci Kelas XII IPS IPA Semester 1 Semester2 Semester 1 Semester2 Pendidikan Agama Pendidikan Agama Pendidikan Agama Pendidikan Agama Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Bahasa Indonesia Bahasa Indonesia Bahasa Indonesia Bahasa Indonesia Bahasa Inggris Bahasa Inggris Bahasa Inggris Bahasa Inggris Matematika Matematika Matematika Matematika Sejarah Sejarah Fisika Fisika Geografi Geografi Biologi Biologi Ekonomi Ekonomi Kimia Kimia Sosiologi Sosiologi Sejarah Sejarah Penjaskes Penjaskes Penjaskes Penjaskes T I K T I K TIK TIK Bahasa Daerah Bahasa Daerah Bahasa Daerah Bahasa Daerah Bahasa Latin Bahasa Latin Bahasa Latin Bahasa Latin Kitab Suci Kitab Suci Kitab Suci Kitab Suci Data sejumlah 137 dengan atribut berjumlah 186 ini yang akan diproses melalui tahap preprocessing, clustering, dan akhirnya perhitungan akurasi secara internal Internal evaluation dalam clustering yang coba dibentuk.

4.1.1.1 Preprocessing

Sebelum dilakukan proses data mining dengan menggunakan clustering, data yang digunakan terlebih dahulu melalui tahap preprocessing. Hal ini perlu dilakukan guna mengatasi masalah-masalah yang mungkin timbul seperti jumlah populasi data yang terlalu besar, banyak data yang menyimpang anomali data, dimensi yang terlalu tinggi, banyaknya fitur yang tidak berkontribusi besar, dan lain sebagainya. Tahap-tahap processing yang dilakukan adalah: 1. Data cleaning Data yang ditemukan merupakan data leger 37 para siswa Seminari Mertoyudan dari berbagai tahun angkatan. Leger tersebut berupa hasil print teks, file bertipe .jpg hasil scan teks, dan file bertipe .xls atau .xlsx. Kemudian dari sejumlah data yang didapat dilakukan proses cleaning dengan memisahkan leger para seminaris angkatan tahun 2009 dan 2010. Data yang dipisahkan ini berjumlah 37 Leger adalah daftar nilai asli siswa sebelum dipindahkan ke dalam buku laporan pendidikan Kamus Besar Bahasa Indonesia. Available at: http:kbbi.web.idleger [Diakses tanggal 6 April 2015]. 137 dari ratusan data yang didapatkan. 137 data ini yang akan digunakan di dalam tulisan ini. 2. Data integration Leger yang dipisahkan ini kemudian dikelola dan digabungkan dengan menggunakan Microsoft Excel dan disimpan dalam sebuah file bertipe .xlsx. Data para seminaris angkatan tahun 2009 dan 2010 digabung menjadi satu. Nomor induk seminaris NIS menjadi identitas setiap data. Seminaris yang hanya sampai KPP diberi NIS tersendiri. Hal ini dilakukan guna mempermudah proses clustering untuk mengindektifikasi seminaris tertentu dalam menganalisis data. 3. Data transformation Data yang telah digabungkan dalam satu tempat file bertipe .xlsx ini merupakan data matriks yang berisikan tipe yang sama, yaitu nilai numerik. Secara umum, data setiap seminaris pada kelas dan jurusan tertentu apabila ia masih menjalani pendidikan diseminari, rentang nilai yang ada adalah 50-100. Namun, apabila ia sudah keluar dari seminari sebelum menyelesaikan masa pendidikannya, maka selanjutnya akan diberi nilai 0. Mata pelajaran yang semua seminaris mendapatkan nilai 0 dibuang, karena dianggap bahwa mata pelajaran tersebut tidak diadakan. Transformasi data juga dilakukan terhadap nilai seminaris kelas XI dan XII. Pada kelas ini para seminaris telah masuk pada jurusan tertentu, baik IPA atau IPS. Transformasi yang dilakukan terhadap data adalah nilai mata pelajaran seminaris jurusan IPA pada jurusan IPS mendapat rata-rata dari nilai mata pelajaran seminaris jurusan IPS per mata pelajarannya. Sama halnya yang dilakukan untuk nilai mata pelajaran seminaris jurusan IPS di jurusan IPA. Hal ini dilakukan setara dengan penanganan kesalahan data. Pada tahap ini juga dimungkinkan untuk dilakukan normalisasi. Normalisasi yang digunakan adalah Z-Score. 4. Data reduction Pada tahap ini, data masuk pada tahap reduksi dimensionalitas dimensionality reduction. Metode reduksi dimensionalitas data bekerja dengan cara tertentu untuk menangkap karakteristik data dengan memetakan data dari dimensi awal ke dimensi yang baru yang relatif lebih kecil. Proses ini menghasilkan komponen utama principal compnent yang kemudian dapat dijadikan fitur yang baru yang mempunyai pengaruh yang besar pada data. fitur yang berpengaruh kecil atau bahkan tidak berpengaruh dapat dibuang. Untuk proses yang demikian dalam tulisan ini digunakan metode reduksi Principal Component Analysis PCA seperti yang telah diterangkan dan diberi contoh hasil pada bab II Landasan Teori di atas.

4.1.1.2 Clustering dan Akurasi

Pengelompokkan data yang didasarkan hanya pada informasi yang ditemukan dalam data obyek yang menggambarkan data tersebut dan hubungan di antaranya disebut analisis kelompok clustering analysis 38 . Hal ini dilakukan supaya data yang berhubungan dalam sebuah kelompok merupakan obyek yang mirip atau memiliki hubungan satu dengan yang lain atau dengan kata lain memiliki similaritas yang tinggi. Ini juga berarti obyek dalam satu kelompok tersebut berbeda atau tidak berhubungan dengan kelompok yang lain pula. Untuk mengetahui sejauh 38 Eko Prasetyo, “… Konsep Dan Aplikasi …”, op. cit. hal. 173. mana pengelompokan yang dilakukan adalah baik dapat dilakukan uji akurasi dari setiap proses pembentukan kelompok dengan internal evaluation. Di dalam tulisan ini, pengelompokan digunakan dengan agglomerative hierarchical clustering AHC. Setelah data melalui tahap preprocessing selanjutnya data diproses dengan menggunakan AHC. Data para seminaris sejumlah 137 dengan fitur 186 yang digunakan diproses dengan menggunakan AHC sehingga terbentuk kelompok-kelompok. Setiap proses pembentukan kelompok tersebut diuji dengan menggunakan sum of squares error SSE. Proses ini dilakukan dengan menggunakan sistem yang telah dibuat. Sistem yang dibentuk dapat melakukan proses AHC dalam tiga metode, yaitu single linkage, average linkage, dan complete linkage, dengan setiap metodenya menggunakan perhitungan jarak euclidean. Hasil setiap perhitungan ditampilkan dalam tabel, dendrogram, dan visualisasi pengelompokan supaya secara visual tergambar pengelompokan obyek dan jarak antar kelompoknya. Sejalan dengan proses AHC tersebut, SSE dihitung. Hasil perhitungan SSE setiap pembentukan kelompok, baik itu dengan metode single linkage, average linkage, maupun complete linkage ditampilkan dalam bentuk grafik dengan masing-masing nilai SSE-nya. Berdasarkan grafik yang dihasilkan dapat dilihat nilai SSE dari masing-masing pembentukan kelompok. Pembentukan kelompok yang memiliki nilai SSE rendah dapat dikatakan bahwa pengelompokan tersebut similaritas yang tinggi. Dengan kata lain, nilai SSE dari grafik yang dapat diambil adalah nilai ekstrim minimum dari kurva parabola pertama. Berikut ini adalah contoh hasil dari proses tersebut. 1. Single Linkage Gambar 4.1 Implementasi – Grafik SSE single linkage Proses pembentukan kelompok dengan menggunakan metode single linkage menunjukkan bahwa SSE terendah bernilai 50. SSE terendah ini didapat pada percobaan kedua menggunakan normalisasi dengan jumlah clustering 3. Dendrogram single linkage terendah ini adalah seperti tampak pada gambar 4.2. Gambar 4.2 Implementasi – Dendrogram single linkage nilai SSE terkecil 2. Average Linkage Gambar 4.3 Implementasi – Grafik SSE average linkage Dari gambar 4.3 dapat dilihat bahwa percobaan 8 dan 9 dengan menggunakan normalisasi memberikan nilai SSE terendah yang sama, yaitu 125. Pada percobaan ini kelompok yang terbentuk berjumlah 9 dan 10. Apabila dibutuhkan kelompok yang lebih sedikit dari 9, percobaan ketiga dengan normalisasi untuk pembentukan 4 kelompok dengan nilai SSE 130 dapat menjadi pilihan. Dendrogram average linkage pembentukan 4 kelompok adalah seperti tampak pada gambar 4.4 . Gambar 4.4 Implementasi – Dendrogram average linkage dengan 4 kelompok 3. Complete Linkage Gambar 4.5 Implementasi – Grafik SSE complete linkage Pembentuk kelompok dengan menggunakan metode complete linkage memberikan hasil seperti tampak pada gambar 4.5. Dari grafik tersebut dapat dilihat bahwa nilai SSE terendah di dapat dalam pembentukan kelompok berjumlah 5 dan 6. Masing-masing nilai SSE tersebut sama, yaitu 149. Adapun dendrogram dari nilai SSE terendah dalam metode complete linkage seperti yang tampak pada gambar di bawah ini. Gambar 4.6 Implementasi – Dendrogram complete linkage dengan 5 kelompok Gambar 4.7 Implementasi – Dendrogram complete linkage dengan 6 kelompok

4.1.2 User Interface

Matlab version 8.0.0.783 R2012b menjadi sarana untuk pembuatan sistem pengenalan pola keberhasilan seminaris dengan menggunakan agglomerative hierarchical clustering ini. Desain user interface yang telah dipaparkan pada bab sebelumnya diimplementasikan dan digunakan sebagai sarana untuk melakukan preprocessing sampai untuk mengetahui akurasi dari pengelompokan data dengan AHC. Sistem yang dibentuk dapat langsung menampilkan hasil keseluruhan proses. User interface ini tersimpan dalam file yang bernama Main.m dan Main.fig lampiran 1 dan 2. Gambar 4.8 adalah contoh tampilan keseluruhan sistem yang telah dibentuk. Gambar 4.8 Contoh tampilan keseluruhan sistem Dari gambar 4.8 dapat dilihat bahwa pada bagian paling atas sistem terdapat nama sistem, yaitu Pengenalan Pola Seminari Mertoyudan. Pada bagian menu terdapat menu utama Tutup yang berfungsi untuk menutup sistem. Untuk menutup sistem digunakan code close all force . Selain itu ada menu utama juga yang diikuti dengan submenu Manual dan Tentang. Submenu Manual berfungsi untuk menampilkan file yang berekstensi .pdf yang berisi cara penggunaan sistem. Nama file tersebut adalah Manual.pdf dengan code winopen Manual.pdf . Gambar 4.9 adalah halaman awal tampilan manual sistem. Gambar 4.9 Manual sistem Submenu Tentang apabila diklik, maka akan menampilkan keterangan tentang sistem ini. Tampilan Tentang yang tampak pada gambar 4.10 tersimpan dalam file Tentang.m dan Tentang.fig lampiran 4 dan 5. Gambar 4.10 Tentang sistem Setelah bagian menu, terdapat header berisikan judul tulisan ini yang diapit dengan logo Universitas Sanata Dharma dan logo Seminari Menengah Mertoyudan. Bagian selanjutnya adalah bagian inti dari tampilan user interface ini, yaitu input data sampai hasil akurasi. Selanjutnya bagian paling bawah sistem terdapat footer yang berisi koordinat posisi mouse dan keterangan singkat nama pembuat sistem. Pada prakteknya, ketika sistem dijalankan akan menampilkan tahap demi tahap proses yang dilalui. Tahap tampilan tersebut adalah input data, informasi dan tabel data, dan yang terakhir adalah hasil proses AHC dan akurasi. Proses PCA, AHC, dan SSE dilakukan dalam file yang bernama funcPPola.m lampiran 3. 1. Input Data Sesaat setelah sistem dijalankan, sistem hanya menampilkan bagian input data sebagai tahap awal untuk memproses data. Tombol input berfungsi untuk menginputkan data yang akan diproses. File yang dapat diproses hanyalah yang berekstensi .xls atau .xlsx. Setelah data diinputkan, fungsi lain yang terdapat dalam bagian yang diberi judul Principal Component Analysis ini akan aktif. Batasan data dapat ditentukan dengan memilih kedua pop-up menu Data. Atribut juga dapat dibatasi dengan memilih kedua pop-up menu Atribut. Normalisasi dengan Z-Score dapat digunakan atau tidak dengan mengklik check box Z-Score. Sesuai dengan judul bagian input data ini, principal component PC dapat ditentukan jumlahnya. Pada bagian selanjutnya adalah penentuan jumlah cluster yang akan diproses dalam program dengan menggunakan AHC, dan masing- masing pembentukan cluster akan otomatis dihitung SSE-nya. Untuk memulai proses, disediakan tombol Proses. Pada bagian input data ini juga disediakan tombol Reset yang berfungsi untuk mengembalikan sistem pada posisi awal saat dijalankan. Gambar 4.11 adalah tampilan implementasi input data saat awal di mana file belum diinputkan. Gambar 4.11 Implementasi – Input data 2. Informasi Dan Tabel Data Sesaat setelah data diinputkan, sistem akan menampilkan informasi tentang data dan isi data di dalam tabel. Pada bagian ini ditampilkan tentang nama file yang diinputkan, jumlah data dan feature fituratribut yang dimiliki oleh data. Tabel data berisi semua data yang terdapat di dalam file inputan. Nama kolom merupakan nama mata pelajaran. Nama baris adalah NIS dari setiap seminaris. Gambar 4.12 Implementasi – Informasi data dan tabel Ketika tombol Proses pada bagian input data dipilih diklik, tabel data menampilkan hasil proses PCA. Namun dengan bantuan pop-up menu yang ada, data awal, hasil single linkage, average linkage, dan complete linkage dapat ditampilkan pada tabel. Setiap data yang ditampilkan pada tabel dapat disimpan dengan memilih tombol Simpan. 3. Hasil Proses AHC Dan Akurasi User interface dari implementasi hasil proses AHC dan akurasi dapat dilihat pada gambar 4.13. Gambar 4.13 Implementasi – Hasil proses AHC dan akurasi Secara berurutan dari kiri ke kanan dari gambar tersebut adalah: a. tabel label dari dendrogram yang merupakan NIS dari masing-masing metode AHC. b. Dendrogram hasil perhitungan masing-masing metode AHC. c. Tabel jumlah obyek per kelompoknya. d. Visualisasi pengelompokkan. e. Grafik hasil perhitungan akurasi dengan SSE dari masing-masing metode AHC. Di bagian kanan atas terdapat toolbar yang dapat membantu untuk menganalisis hasil proses. Secara berurutan dari kiri ke kanan dari toolbar tersebut adalah: a. Slider yang berfungsi untuk merubah warna background dari putih ke hitam dan sebaliknya untuk semua axes. b. Zoom in untuk tampilan dendrogram dan grafik hasil SSE. c. Zoom out untuk tampilan dendrogram dan grafik hasil SSE. d. Pan berfungsi untuk menggeser tampilan dendrogram dan grafik hasil SSE. e. Rotate yang berfungsi untuk merotasi axes. f. Data cursor dapat digunakan pada seluruh axes guna melihat nilai oyek tertentu. g. Grid yang berfungsi untuk menampilkan garis grid hanya untuk axes grafik hasil SSE. h. Tombol simpan untuk menyimpan seluruh hasil proses AHC dan akurasi.

4.2 Analisis Hasil

Implementasi yang telah dipaparkan di atas membantu analisis terhadap pengenalan pola keberhasilan seminaris sebagaimana judul dari tulisan ini. Analisis ini dilakukan terhadap seluruh kelas dari dua angkatan seminaris tahun 2009 dan 2010. Dengan demikian diharapkan akan dapat diketahui dengan baik pola keberhasilan yang telah dilalui dari dua angkatan tersebut. Perlu diingat kembali bahwa pembinaan bidang intelektual scientia yang telah dilalui para seminaris di Seminari Menengah Mertoyudan merupakan satu dari tiga jenis pembinaan yang harus dilalui. Pembinaan ini memberikan nilai kognitif terhadap para seminaris. Penilaian perkembangan intelektual dapat dilihat melalui setiap perolehan nilai setiap mata pelajaran yang diikuti. Nilai tersebut dimasukkan ke dalam leger penilaian rapor pada setiap akhir semester. Hal ini menunjukkan bahwa nilai yang terdapat dalam rapor setiap seminaris menggambarkan keberhasilan perkembangan intelektualnya. Daftar seluruh nilai rapor yang telah dikumpulkan diolah melalui tahap preprocessing data dengan Principal Component Analysis PCA. Melewati tahap preprocessing, data masuk dalam tahap pengelompokan dengan Agglomerative hierarchical clustering AHC dalam tiga metode single linkage, average linkage, dan complete linkage. Masing-masing metode menggunakan euclidean distance untuk perhitungan jarak. Sejalan dengan proses AHC, setiap pengelompokan diuji dengan Sum of Squares Error SSE. Dalam seluruh proses ini, dimungkinkan juga untuk menggunakan normalisasi Z-Score atau tidak. Sebelum memasuki tahap proses pengelompokan, pertama-tama dapat dilihat dari sisi preprocessing data dengan menggunakan PCA. Dengan melalui tahap data reduction, dapat diketahui atribut atau fitur yang penting terhadap pembinaan intelektual para seminaris. Seperti yang terlihat dalam hasil PCA, gambar 4.14, mata pelajaran Kitab Suci mendapat tempat yang pertama, disusul dengan Bahasa Latin, Bahasa Daerah, dan seterusnya. Hal ini mengindikasikan bahwa mata pelajaran tersebut mendapat prioritas yang tinggi dalam pendidikan intelektual di Seminari Mertoyudan. Gambar 4.14 Fitur hasil PCA Dalam proses pengelompokan dengan AHC, fitur yang digunakan dari hasil PCA berjumlah 85 principal component PC. Hal ini dipilih karena dengan 85 PC memberikan akurasi yang paling baik dibandingkan dengan jumlah PC yang lain. Percobaan pengelompokan dari 137 data untuk setiap metodenya dilakukan sebanyak 9 kali., yaitu mulai dengan pembentukan 2 kelompok sampai 10 kelompok. Dari setiap proses pembentukan ini dihitung SSE-nya. Nilai SSE yang dihasilkan juga sebanyak 9 nilai. Berikut ini adalah hasil dari proses tersebut. 1. Single linkage Pengelompokan data dengan metode single linkage, baik menggunakan normalisasi atau tidak memberikan hasil seperti yang dapat dilihat pada tabel berikut ini. Tabel 4.3 Analisis – Hasil single linkage Percobaan Jumlah Clustering SSE Tanpa Z-Score Dengan Z-Score 1 2 27341.54 829.44 2 3 29223.46 49.97 3 4 29223.46 95.79 4 5 29223.46 126.23 5 6 29223.46 172.76 6 7 22154.02 172.76 7 8 14872.74 172.76 8 9 14872.74 172.76 9 10 10835.45 138.07 Tabel ini menunjukkan bahwa nilai akurasi terkecil dengan menggunakan SSE terdapat pada percobaan kedua dengan jumlah kelompok sebanyak 3. Pada percobaan kedua ini nilai akurasinya adalah 49.97. Secara keseluruhan nilai SSE dengan data yang dinormalisasi ditunjukkan dengan grafik seperti yang dapat dilihat pada gambar 4.15. Secara grafik, dapat dilihat dengan jelas bahwa pembentukan kelompok sebayak 3 berada pada koordinat yang paling rendah. Gambar 4.15 Analisis – Grafik SSE single linkage Jumlah obyek data setiap cluster dalam pembentukan 3 kelompok adalah sebagai berikut: cluater 1 berjumlah 128 obyek, cluster 2 berjumlah 8 obyek, dan cluster 3 berjumlah 1 obyek. Jumlah obyek data per cluster ini dapat dilihat dalam tabel 4.4 berikut ini. Tabel 4.4 Analisis – Jumlah obyek, SSE terkecil single linkage Cluster Jumlah Obyek 1 128 2 8 3 1 Jika dilihat dari sisi keseimbangan jumlah obyek untuk setiap cluster kiranya jauh dari ideal. Artinya bahwa cluster yang terbentuk tidak seimbang. Ketidakseimbangan tersebut dapat dilihat secara jelas dari dendrogram yang dihasilkan gambar 4.16. Jika keseimbangan pembentukan dendrogram ingin dicapai maka jumlah cluster sebanyak 5 dengan SSE bernilai 126.23 dapat menjadi pilihan. Gambar 4.16 Analisis – Dendrogram single linkage nilai SSE terkecil Jika dilihat lebih jauh, sebagai contoh obyek cluster 3 adalah data yang memiliki label NIS 29681. Seminaris yang memiliki NIS ini ternyata satu-satunya seminaris yang tidak melanjutkan pendidikannya setelah semester satu di KPP Kelas Persiapan Pertama. Dari sisi ketepatan sehubungan dengan data dapat dikatakan bahwa pengelompokkan dengan AHC secara khusus metode single linkage dapat memberikan akurasi yang tinggi. Tingginya akurasi ini dapat dilihat juga dengan perbandingan hasil SSE, metode single linkage memberikan nilai SSE terendah daripada kedua metode lainnya. 2. Average linkage AHC dengan metode average linkage memberikan daftar nilai akurasi SSE seperti yang tampak pada tabel 4.5 berikut ini. Tabel 4.5 Analisis – Hasil average linkage Percobaan Jumlah Clustering SSE Tanpa Z-Score Dengan Z-Score 1 2 27146.71 2051.27 2 3 24882.63 142.82 3 4 23140.97 130.14 4 5 32806.01 142.22 5 6 32806.01 195.73 6 7 26298.93 195.73 7 8 24384.68 195.73 8 9 16179.64 125.50 9 10 11569.15 125.50 Dari tabel tersebut dapat diketahui bahwa nilai SSE terkecil ada pada percobaan 8 dan 9 yang masing-masing memberikan nilai SSE yang sama, yaitu 125.50. Namun demikian, apabila dibutuhkan pengelompokkan yang lebih kecil, percobaan ketiga dengan jumlah cluster 4 dapat menjadi pilihan, dengan nilai SSE 130.14. Secara grafik, deretan nilai hasil SSE dengan data yang dinormalisasi dari metode average linkage dapat dilihat pada gambar 4.17. Gambar 4.17 Analisis – Grafik SSE average linkage Jumlah obyek data untuk pembentukan 4 kelompok dengan average linkage terdapat dalam tabel 4.6. Cluster 1 memiliki obyek 15, cluster 2 sebanyak 8, cluster 3 berjumlah 113, dan cluster 4 memiliki 1 obyek. Tabel 4.6 Analisis – Jumlah obyek, clustering 4 average linkage Cluster Jumlah Obyek 1 15 2 8 3 113 4 1 Jika dibandingkan dengan hasil single linkage seperti yang telah dijelaskan di atas kiranya tidak jauh berbeda. Hasil yang ditunjukkan dendrogram juga tampak belum seimbang gambar 4.18. Jika tekanan pada keseimbangan dendrogram maka cluster yang dibentuk adalah sebanyak 5 cluster. Namun, jika dibentuk dengan 5 cluster nilai SSE akan sedikit lebih besar, yaitu 142.22. Gambar 4.18 Analisis – Dendrogram average linkage jumlah clustering 4 3. Complete linkage Proses pembentukan kelompok dengan metode complete linkage memberikan nilai SSE seperti yang tampak pada tabel berikut ini. Tabel 4.7 Analisis – Hasil complete linkage Percobaan Jumlah Clustering SSE Tanpa Z-Score Dengan Z-Score 1 2 35962.84 191.71 2 3 25835.27 179.37 3 4 24082.54 179.37 4 5 34348.24 149.42 5 6 34348.24 149.42 6 7 25274.71 163.32 7 8 28687.19 163.32 8 9 23121.24 163.32 9 10 22213.79 157.50 Tabel 4.7 menunjukkan bahwa nilai SSE terkecil ada pada pembentukan cluster berjumlah 5 dan 6, dengan nilai SSE yang sama yaitu 149.42. Secara grafik dapat dilihat pada gambar 4.19. Dari grafik SSE hasil complete linkage dapat dilihat bahwa nilai SSE pembentukan cluster berjumlah 5 dan 6 berada pada posisi yang paling rendah. Gambar 4.19 Analisis – Grafik SSE complete linkage Jumlah obyek dalam 5 cluster adalah cluster 1 sebanyak 62, cluster 2 berjumlah 51, cluster 3 ada 15 oyek, cluster 4 sebanyak 8, dan cluster 5 beranggotakan 1 obyek data. Dengan jelas jumlah ini dapat dilihat pada tabel 4.8. Untuk jumlah masing-masing obyek pembentukan 6 cluster dapat dilihat di tabel 4.9. Perbedaan antara 5 cluster dengan 6 cluster terletak pada cluster pertama di cluster 5 dibagi dua untuk 6 cluster. Tabel 4.8 Analisis – Jumlah obyek, clustering 5 complete linkage Cluster Jumlah Obyek 1 62 2 51 3 15 4 8 5 1 Tabel 4.9 Analisis – Jumlah obyek, clustering 6 complete linkage Cluster Jumlah Obyek 1 45 2 17 3 51 4 15 5 8 6 1 Dendrogram yang dihasilkan dari pembentukan 5 gambar 4.20 dan 6 cluster gambar 4.21 dengan metode complete linkage tampaknya lebih baik daripada hasil single linkage dan average linkage. Kendati demikian, dari sisi nilai SSE, single linkage dan average linkage lebih unggul. Gambar 4.20 Analisis – Dendrogram complete linkage jumlah clustering 5 Gambar 4.21 Analisis – Dendrogram complete linkage jumlah clustering 6 Kemampuan intelektual yang dipetakan secara keseluruhan dengan menggunakan AHC, baik dengan metode single linkage, average linkage, maupun complete linkage, menghasilkan pengelompokan seperti yang telah dipaparkan di atas. Supaya lebih jelas pemetaan tersebut dapat dilihat pada tabel berikut ini. Tabel 4.10 Analisis – Hasil analisis SSE terkecil Metode SSE Terkecil Jumlah Clustering Dendrogram Seimbang Jumlah Obyek Per Cluster 1 2 3 4 5 6 Single linkage 49.97 3 Tidak 128 8 1 - - - Average linkage 130.14 4 Tidak 15 8 113 1 - - Complete linkage 149.42 5 Ya 62 51 15 8 1 149.42 6 Ya 45 17 51 15 8 1 Tabel 4.10 merupakan hasil analisis dengan tekanan pada pemilihan nilai SSE yang terkecil dari setiap pembentukan kelompok. Lebih jauh, dari hasil percobaan yang dilakukan, ada kemungkinan pengelompokkan lain yang dapat dipilih. Kemungkinan tersebut dapat dilihat pada tabel berikut. Tabel 4.11 Analisis – Hasil analisis keseimbangan dendrogram Metode SSE Jumlah Clustering Dendrogram Seimbang Jumlah Obyek Per Cluster 1 2 3 4 5 Single linkage 126.23 5 Ya 62 51 15 8 1 Average linkage 142.22 5 Ya 62 51 15 8 1 Complete linkage 149.42 5 Ya 62 51 15 8 1 Kendati nilai SSE yang dipilih bukanlah nilai SSE terkecil untuk metode single linkage dan average linkage, namun kemungkinan lain seperti pada tabel 4.11 menjadikan dendrogram relatif lebih seimbang lihat gambar 4.22, 4.23, dan 4.24. Selain itu, hasil pengelompokan, baik single linkage, average linkage, maupun complete linkage memiliki jumlah obyek yang sama per cluster-nya. Kemungkinan tambahan, jika dilihat hasil pengelompokkan ini, karena cluster 5 hanya beranggotakan 1, tampaknya juga bisa tidak digunakan. Gambar 4.22 Analisis – Dendrogram relatif seimbang single linkage Gambar 4.23 Analisis – Dendrogram relatif seimbang average linkage Gambar 4.24 Analisis – Dendrogram relatif seimbang complete linkage Dengan tetap mempertahankan pembentukan 5 cluster, lebih jauh, label node dendrogram hasil setiap metode coba untuk dibandingkan. Perbandingan yang dilakukan adalah antara obyek per cluster dengan melihat label node-nya antara dendrogram hasil single linkage dengan average linkage SL-AL, single linkage dengan complete linkage SL-CL, dan average linkage dengan complete linkage AL-CL. Label node yang sama pada cluster yang sama antara masing-masing dendrogram dijumlahkan. Kemudian hasilnya dikurangkan dengan jumlah data, didapatkan selisih. Dengan cara ini akan diketahui selisih sebagai jumlah obyek yang tidak berada pada cluster yang sama antar setiap dendrogram. Hasil dari perbandingan ini dapat dilihat dalam tabel berikut ini. Tabel 4.12 Analisis – Perbandingan label node SL-AL, SL-CL, dan AL-CL SL-AL SL-CL AL-CL Cluster Jumlah Obyek Sama Jumlah Obyek Sama Jumlah Obyek Sama 1 61 59 58 2 50 48 47 3 15 15 15 4 8 8 8 5 1 1 1 Total 135 131 129 Data 137 137 137 Selisih 2 6 8 Tabel 4.12 menunjukkan bahwa perbandingan posisi obyek di setiap cluster antara single linkage dengan average linkage memiliki selisih yang paling kecil, yaitu 2. Jika dibandingkan dengan jumlah data keseluruhan 137, selisih 2 ini tergolong kecil. Karena selisih ini tergolong kecil dan merupakan jumlah label node dendrogram yang tidak terletak pada posisi yang sama, maka dapat dikatakan bahwa cluster yang terbentuk dengan 5 cut-off antara dendrogram hasil single linkage dan average linkage sangat mirip. Hal ini menunjukkan bahwa dalam penggunaan ke depan, sebagai data model misalnya, sudah dapat diprediksi hasil yang akan diberikan antara hasil penggunaan pengelompokan single linkage akan tidak jauh berbeda, cenderung sama, dengan hasil penggunaan pengelompokan average linkage. Bahkan jika dilihat secara keseluruhan dari nilai selisih hasil perbandingan setiap dendrogram tersebut, yang relatif kecil, dapat dikatakan baik penggunaan hasil single linkage, average linkage, maupun complete linkage, akan memberikan hasil yang tidak jauh berbeda. Usaha pengenalan pola keberhasilan seminaris dari sisi intelektual ini dipetakan dengan pengelompokan data nilai rapor menggunakan alggomerative hierarchical clustering dengan metode single linkage, average linkage, dan complete linkage. Dari hasil usaha pemetaan tersebut dapat dilihat dari dua sisi. Pertama, apabila pengelompokan yang dipilih adalah dari sisi nilai sum of squares error yang paling kecil, maka hasil pengelompokan data yang telah melalui proses normalisasi dan dikelompokkan dengan metode single linkage berjumlah cluster 3 adalah yang paling baik, yaitu bernilai SSE sebesar 49.97. Pembentukan 3 cluster ini sejalan dengan untuk mengetahui kelompok seminaris yang memang berhasil dari sisi intelektual, yang gagal, atau yang kemungkinan membutuhkan pembinaan khusus. Namun dengan pengelompokan obyek data ke dalam 3 cluster menggunakan metode single linkage ini akan terbentuk ketimpangan yang jauh dari sisi jumlah data per kelompoknya. Kedua, jika tekanan pada jumlah pengelompokan yang relatif seimbang dengan tetap mengusahakan untuk berada pada nilai SSE yang relatif kecil, maka hasil pengelompokan data yang telah melalui proses normalisasi dan dikelompokkan, baik dengan metode single linkage, average linkage, maupun complete linkage yang masing-masing berjumlah cluster 5 dapat dipertimbangkan untuk menjadi pilihan. Namun demikian, perlu tetap diingat bahwa penilaian terhadap seorang seminaris sebagai calon imam Katolik tidak hanya melulu dari sisi intelektual saja. Di Seminari Menengah Mertoyudan, seorang seminaris layak dinyatakan lulus apabila ia memiliki kemampuan yang baik terhadap intelektual scientia, kesehatan sanitas yang baik, dan harus memiliki kesucian hidup sanctitas. Pengenalan pola dalam tulisan ini tidak menyertakan sisi kesehatan dan kesucian hidup. Harus diakui bahwa pengenalan pola terhadap keberhasilan studi seminaris ini belum secara holistik. Kemungkinan, hal ini juga yang menyebabkan ketidakseimbangan jumlah obyek data dalam pembentukan 3 cluster dengan nilai SSE terendah sesuai dengan tujuan dari tulisan ini. 79 5 BAB V PENUTUP Bab akhir tulisan ini berisikan tentang kesimpulan dan saran. Kesimpulan berisi tentang hal-hal yang berkaitan dengan pengelompokan keberhasilan para