16
Hasil akhir dari
agglomerative hierarchical clustering
adalah dendrogram dan jumlah
cluster
ditentukan pada potongan
cut
-
off
pada dendrogram perpotongan pada jarak. Dan penulis memotoh dendrogram
single linkage
pada jarak 2.6 maka akan dihasilkan tiga
cluster
, yaitu : 13, 45 dan 2.
2.4. Uji Akurasi
Hasil
clustering
yang telah didapatkan perlu diuji akurasi agar dapat diketahui validasi dari data tersebut. Karena proses yang digunakan adalah
metode
agglomerative hierarchical
clustering
maka untuk mengukur Gambar 2.4 Hasil Dendrogram
complete linkage
Gambar 2.5 Contoh perpotongan dendrogram
complete linkage
17
validasi data dapat menggunakan Validasi Internal dan Validasi Eksternal Prasetyo E, 2012.
1. Validasi Internal
Validasi Internal atau
unsuspervised
merupakan uji akurasi data
cluster
tanpa membutuhkan informasi eksternal. Dan contoh paling umum adalah SSE
sum of
square error
. 2.
Validasi Eksternal Validasi Eksternal dilakukan dengan mengukur tingkat kedekatan
antara label
cluster
dengan label kelas. Validasi Eksternal dapat dilakukan dengan
entropy
,
purity
,
precision
,
recall
, dan
F
-
measure
. Dalam tulisan ini, penulis menggunakan Validasi Internal yaitu SSE
sum of squsred error
untuk melakukan uji akurasi. Setiap percobaan
cut
-
off
akan diuji akurasi menggunakan SSE. Jadi setiap
cut
-
off
akan didapatkan nilai SSE. Dan dalam SSE, semakin kecil nilai SSE maka akan semakin baik
pula dalam pembentukan
cluster
-nya. Rumus yang digunakan sebagai berikut :
��� = ∑ ∑
||� − � ||
∀� ∈ �
=
…………………… 2.4 Keterangan :
� ℎ
�
�
ℎ −
�
2.5.
Silhouette Index
Silhouette index
SI metode untuk mengukur validasi baik sebuah data,
cluster
tunggal atau keseluaruhan
cluster
. Untuk menghitung nilai SI dari data ke-
i
, terdapat dua komponen yaitu a
i
dan b
i.
a
i
adalah jarak dari data ke-
i
terhadap semua data dalam
cluster
yang sama. Sedangkan b
i
adalah hasil rata-rata jarak data ke-
i
terhadap semua data dari
cluster
lain Prasetyo E, 2012.
Berikut meruapak rumus yang digunakan untuk menghitung a
i
:
j
=
−
∑ � , �
�
�=1 �≠
……………………..……… 2.5 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
� , �
�
merupakan jarak data ke-
i
dengan data ke-
r
dalam satu
cluster,
sedangkan m
j
adalah jumlah data dalam satu
cluster
. Berikut rumus b
i
: = min{
�
∑ � , �
�
�=1 �≠
} ……………… 2.6
Untuk menghitung SI data ke-
i
menggunakan persamaan :
�� =
− max{ , }
………………………… 2.7 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
BAB III METODOLOGI PENELITIAN