Pada bagian akhir AHC, setelah perhitungan pembentukan dendrogram, jumlah cluster dapat ditentukan dengan memotong cut off bagian tertentu dari
dendrogram yang terbentuk pada jarak tertentu. Misalnya pada gambar 2.4, dendrogram dipotong pada jarak 2,5. Dengan pemotongan ini akan terbentuk 3
cluster, yaitu ac, de, dan b dengan masing-masing obyek datanya.
Gambar 2.7 Contoh pemotongan dendrogram single linkage
2.4 Uji Akurasi Data
Data intelektual yang telah diperoleh dari Seminari Menengah Mertoyudan dan direduksi dengan menggunakan PCA serta hasilnya diolah dengan AHC perlu
diuji akurasinya supaya diketahui validitas data tersebut. Ada beberapa teknik untuk uji akurasi data tersebut. Karena yang digunakan adalah Metode Clustering dapat
digunakan dua jenis uji akurasi, yaitu Internal Evaluation dan External Evaluation.
33
1. Internal evaluation
Internal evaluation atau yang dikenal juga dengan unsupervised validation merupakan pengujian data cluster demi validitasnya tanpa informasi dari luar.
33
Eko Prasetyo, “… Menjadi Informasi …”, op. cit. hal. 278.
Validasi ini contohnya adalah cohesion, separation, silhouette coefficient, dan sum of square error SSE.
2. External evaluation
Dengan menggunakan external evaluation akan diketahui kedekatan antara label cluster terbentuk dengan class yang disediakan. External evaluation ini dapat
dilakukan dengan confusion matrix, entropy, dan purity. Pada tulisan ini yang akan digunakan untuk uji akurasi adalah internal
evaluation, secara khusus dengan menggunakan sum of square error SSE. Setiap percobaan cut-off untuk pembentukan cluster akan dihitung SSE-nya. Dengan cara
demikian akan didapatkan nilai SSE untuk masing-masing percobaan cutt-off dalam pembentukan cluster. Semakin kecil nilai SSE menunjukkan bahwa cluster yang
dibentuk semakin baik pula. Formulasi SSE yang digunakan adalah sebagai berikut
34
: �� = ∑ ∑ || − ||
∀
��
∈
�
� =
2.11 Keterangan:
adalah jarak data di indeks
adalah rata-rata semua jarak data di cluster
Formulasi ini dapat dilakukan dengan langkah-langkah berikut ini: 1. Tentukan matriks K yang akan dihitung menggunakan SSE
34
Lior Rokach, “Data Mining And Knowledge Discovery Handbook, Chapter 15: Clustering
Methods ”. Available at: http:www.ise.bgu.ac.ilfacultyliorrhbchap15.pdf [Diakses tanggal 25
Januari 2015].
adalah data set dari cluster
cluster adalah anggota dari matriks K 2. Jika
= 3. Hitung rata-rata cluster
… a 4. Lakukan langkah 5 dan 7 untuk setiap data
5. Kurangkan a dengan data di indeks || − || … b
6. Hitung … c
7. c dijumlahkan untuk setiap cluster … d
8. Jumlahkan total d di matriks K 9. Selesai
36
3 BAB III
METODOLOGI
Berdasar pada landasan teori yang telah disampaikan pada bab kedua di atas, pada bab ini akan dibahas metodologi yang digunakan dalam tulisan ini. Bab
ketiga akan dipaparkan tentang metode yang digunakan untuk pengumpulan data, teknik analisa data, rancangan desain user interface, dan spesifikasi software dan
hardware yang digunakan dalam implementasi.
3.1 Metode Pengumpulan Data