Uji Akurasi Data Pengenalan pola keberhasilan seminaris dengan menggunakan agglomerative hierarchical clustering, sebuah studi kasus atas keberhasilan studi para seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang.

Pada bagian akhir AHC, setelah perhitungan pembentukan dendrogram, jumlah cluster dapat ditentukan dengan memotong cut off bagian tertentu dari dendrogram yang terbentuk pada jarak tertentu. Misalnya pada gambar 2.4, dendrogram dipotong pada jarak 2,5. Dengan pemotongan ini akan terbentuk 3 cluster, yaitu ac, de, dan b dengan masing-masing obyek datanya. Gambar 2.7 Contoh pemotongan dendrogram single linkage

2.4 Uji Akurasi Data

Data intelektual yang telah diperoleh dari Seminari Menengah Mertoyudan dan direduksi dengan menggunakan PCA serta hasilnya diolah dengan AHC perlu diuji akurasinya supaya diketahui validitas data tersebut. Ada beberapa teknik untuk uji akurasi data tersebut. Karena yang digunakan adalah Metode Clustering dapat digunakan dua jenis uji akurasi, yaitu Internal Evaluation dan External Evaluation. 33 1. Internal evaluation Internal evaluation atau yang dikenal juga dengan unsupervised validation merupakan pengujian data cluster demi validitasnya tanpa informasi dari luar. 33 Eko Prasetyo, “… Menjadi Informasi …”, op. cit. hal. 278. Validasi ini contohnya adalah cohesion, separation, silhouette coefficient, dan sum of square error SSE. 2. External evaluation Dengan menggunakan external evaluation akan diketahui kedekatan antara label cluster terbentuk dengan class yang disediakan. External evaluation ini dapat dilakukan dengan confusion matrix, entropy, dan purity. Pada tulisan ini yang akan digunakan untuk uji akurasi adalah internal evaluation, secara khusus dengan menggunakan sum of square error SSE. Setiap percobaan cut-off untuk pembentukan cluster akan dihitung SSE-nya. Dengan cara demikian akan didapatkan nilai SSE untuk masing-masing percobaan cutt-off dalam pembentukan cluster. Semakin kecil nilai SSE menunjukkan bahwa cluster yang dibentuk semakin baik pula. Formulasi SSE yang digunakan adalah sebagai berikut 34 : �� = ∑ ∑ || − || ∀ �� ∈ � � = 2.11 Keterangan:  adalah jarak data di indeks  adalah rata-rata semua jarak data di cluster Formulasi ini dapat dilakukan dengan langkah-langkah berikut ini: 1. Tentukan matriks K yang akan dihitung menggunakan SSE 34 Lior Rokach, “Data Mining And Knowledge Discovery Handbook, Chapter 15: Clustering Methods ”. Available at: http:www.ise.bgu.ac.ilfacultyliorrhbchap15.pdf [Diakses tanggal 25 Januari 2015].  adalah data set dari cluster  cluster adalah anggota dari matriks K 2. Jika = 3. Hitung rata-rata cluster … a 4. Lakukan langkah 5 dan 7 untuk setiap data 5. Kurangkan a dengan data di indeks || − || … b 6. Hitung … c 7. c dijumlahkan untuk setiap cluster … d 8. Jumlahkan total d di matriks K 9. Selesai 36 3 BAB III METODOLOGI Berdasar pada landasan teori yang telah disampaikan pada bab kedua di atas, pada bab ini akan dibahas metodologi yang digunakan dalam tulisan ini. Bab ketiga akan dipaparkan tentang metode yang digunakan untuk pengumpulan data, teknik analisa data, rancangan desain user interface, dan spesifikasi software dan hardware yang digunakan dalam implementasi.

3.1 Metode Pengumpulan Data