Uji Akurasi LANDASAN TEORI

16 Hasil akhir dari agglomerative hierarchical clustering adalah dendrogram dan jumlah cluster ditentukan pada potongan cut - off pada dendrogram perpotongan pada jarak. Dan penulis memotoh dendrogram single linkage pada jarak 2.6 maka akan dihasilkan tiga cluster , yaitu : 13, 45 dan 2.

2.4. Uji Akurasi

Hasil clustering yang telah didapatkan perlu diuji akurasi agar dapat diketahui validasi dari data tersebut. Karena proses yang digunakan adalah metode agglomerative hierarchical clustering maka untuk mengukur Gambar 2.4 Hasil Dendrogram complete linkage Gambar 2.5 Contoh perpotongan dendrogram complete linkage 17 validasi data dapat menggunakan Validasi Internal dan Validasi Eksternal Prasetyo E, 2012. 1. Validasi Internal Validasi Internal atau unsuspervised merupakan uji akurasi data cluster tanpa membutuhkan informasi eksternal. Dan contoh paling umum adalah SSE sum of square error . 2. Validasi Eksternal Validasi Eksternal dilakukan dengan mengukur tingkat kedekatan antara label cluster dengan label kelas. Validasi Eksternal dapat dilakukan dengan entropy , purity , precision , recall , dan F - measure . Dalam tulisan ini, penulis menggunakan Validasi Internal yaitu SSE sum of squsred error untuk melakukan uji akurasi. Setiap percobaan cut - off akan diuji akurasi menggunakan SSE. Jadi setiap cut - off akan didapatkan nilai SSE. Dan dalam SSE, semakin kecil nilai SSE maka akan semakin baik pula dalam pembentukan cluster -nya. Rumus yang digunakan sebagai berikut : ��� = ⁡∑ ∑ ||� − � || ∀� ∈ � = …………………… 2.4 Keterangan : � ⁡ ℎ⁡ ⁡ ⁡�⁡ ⁡ ⁡ � ⁡ ℎ⁡ − ⁡ ⁡ ⁡ ⁡� ⁡⁡ ⁡ ⁡ 2.5. Silhouette Index Silhouette index SI metode untuk mengukur validasi baik sebuah data, cluster tunggal atau keseluaruhan cluster . Untuk menghitung nilai SI dari data ke- i , terdapat dua komponen yaitu a i dan b i. a i adalah jarak dari data ke- i terhadap semua data dalam cluster yang sama. Sedangkan b i adalah hasil rata-rata jarak data ke- i terhadap semua data dari cluster lain Prasetyo E, 2012. Berikut meruapak rumus yang digunakan untuk menghitung a i : j = − ∑ � , � � �=1 �≠ ……………………..……… 2.5 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 18 � , � � merupakan jarak data ke- i dengan data ke- r dalam satu cluster, sedangkan m j adalah jumlah data dalam satu cluster . Berikut rumus b i : = min⁡{ � ∑ � , � � �=1 �≠ } ……………… 2.6 Untuk menghitung SI data ke- i menggunakan persamaan : �� = − max⁡{ , } ………………………… 2.7 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 19

BAB III METODOLOGI PENELITIAN