K-Means Clustering Diagram Block

45 Setelah mendapatkan nilai dari variance, maka mencari variance terbesar, lalu sort dokumen berdasarkan variance terbesar. Pada data diatas, variance terbesar berada pada kata : bendera didokumen 3 dan 4, serta teman didokumen 7 dan 8, sebagai acuan diambil pada kata bendera didokumen 3, maka sort dokumen 3 yang memiliki variance terbesar. Lihat tabel 3.14. Tabel 3.14. Tabel Sort Lirik Cinta bendera tuhan teman Dokumen 3 -0.5 1.5 -0.5 -0.5 Dokumen 4 -0.5 1.5 -0.5 -0.5 Dokumen 1 1.5 -0.5 -0.5 -0.5 Dokumen 2 1.5 -0.5 -0.5 -0.5 Dokumen 6 -0.5 -0.5 1.5 -0.5 Dokumen 7 -0.5 -0.5 -0.5 1.5 Dokumen 8 -0.5 -0.5 -0.5 1.5 Dokumen 5 0.31404 -0.79612 1.278192 -0.79612 Selanjutnya untuk mencari centroid langkahnya adalah bagi jumlah data dokumen menjadi empat bagian, lalu cari rata-rata mean pada tiap-tiap bagian, maka itulah centroid awal yang didapat. Lihat Tabel 3.15. Tabel 3.15. Tabel Centroid cinta bendera tuhan teman Dokumen 3 -0.5 1.5 -0.5 -0.5 Dokumen 4 -0.5 1.5 -0.5 -0.5 Dokumen 1 1.5 -0.5 -0.5 -0.5 Dokumen 2 1.5 -0.5 -0.5 -0.5 Dokumen 6 -0.5 -0.5 1.5 -0.5 Dokumen 7 -0.5 -0.5 -0.5 1.5 Dokumen 8 -0.5 -0.5 -0.5 1.5 Dokumen 5 0.31404 -0.79612 1.278192 -0.79612 C1 -0.5 1.5 -0.5 -0.5 C2 1.5 -0.5 -0.5 -0.5 C3 -0.5 -0.5 0.5 0.5 C4 -0.09298 -0.64806 0.389096 0.351942 46 Setelah menemukan centroid awal menggunakan variance initializaion, selanjutnya mencari jarak antara centroid dengan dokumen menggunakan kedekatan Euclidean Distance. Maka terbentuklah empat cluster.Lihat Tabel 3.16. Tabel 3.16. Tabel Jarak Terdekat Euclidean Distance C1 C2 C3 C4 Jarak Terdekat Dokumen 1 2.828427125 2.44949 2.018862 C2 Dokumen 2 2.828427125 2.44949 2.018862 C2 Dokumen 3 2.93737E-16 2.828427 2.44949 2.509206 C1 Dokumen 4 2.22045E-16 2.828427 2.44949 2.509206 C1 Dokumen 5 3.030588336 2.178035 1.742368 1.515294 C4 Dokumen 6 2.828427125 2.828427 1.414214 1.465435 C3 Dokumen 7 2.828427125 2.828427 1.414214 1.515294 C3 Dokumen 8 2.828427125 2.828427 1.414214 1.515294 C3 Setelah mendapatkan jarak terdekat maka centroid baru di cek kembali dengan dokumen hingga centroid tidak berubah lagi.

3.3.1.3. Pengujian Akurasi

Pada pengujian akurasi menggunakan confusion matrix. Confusion Matrix digunakan untuk mengetahui seberapa besar keberhasilan sistem. Langkahnya adalah membuat kelompok kelas, yaitu kelas aktual dan kelas prediksi. Kelas aktual merupakan kelas yang akan dicek terhadap kelas prediksi. Tabel 3.17. Tabel hasil cluster Cls1 1; 2; 3; 4; 5; 7; 8; 13; 17; 20; Cls2 6 ;9; 10 Cls3 11;12;14;15; Cls4 16;18;19 47 Pada Tabel 3.17. merupakan tabel permisalan hasil cluster yang telah diproses oleh sistem, terdapat kelompok data pada tiap tiap cluster. Data dokumen lagu ada sebanyak 20 dokumen, dimana dokumen 1-5 merupakan cluster 1, dokumen 6-10 merupakan cluster 2, dokumen 11-12 merupakan cluster 3, dokumen 16-20 merupakan cluster 4. Tetapi pada tabel diatas yang terjadi, cluster 1 terdapat berbagai dokumen, maka itu untuk melihat keakuratan sistem maka dihitung menggunakan confusion matrix. Rumus dari confusion matrix yang tercantum pada Tabel 2.4: Tabel 2.4 . Tabel Confusion Matrix Untuk menghitung jumlah prediksi yang benar, maka menggunakan Persamaan 2.11 2.11

3.4. Desain Interface

Gambar 3.18 merupakan desain interface yang akan dibuat pada sistem ini. 48 Gambar 3.18. Desain Interface

3.5. Spesifikasi Software dan Hardware

Untuk proses membuat sistem dan data digunakan software dan hardware sebagai berikut : 1. Software a Sistem Operasi : Windows 7 Ultimate32-bit b Bahasa Pemprograman : Matlab version 8.0.0.783 R2012b 2. Hardware a Processor : IntelR CoreTM i3-2350M CPU 2.30GHz b Memory : 2 GB c Hardisk : 500 GB Button Preprocessing Button Proses Clustering Akurasi Tabel Prepro- cessing Tabel Centroid Tabel Confusion Matrix Hasil Cluster Batas Bawah : Batas Atas : Jumlah Data: Input file Nama File : Masuk Cluster: Text Lagu