Data Deskripsi Sistem METODOLOGI
26
Pada gambar 3.1. proses clustering dimulai dari input data yang berupa lirik lagu, kemudian dilanjutkan dengan text operation, pada proses ini
terdapat beberapa tahapan yaitu tokenizing untuk pemisahan kata, stopword untuk menghilangkan kata-kata yang tidak mengandung makna, stemming
untuk menghilangkan kata berimbuhan, dan pembobotan untuk proses memberi index atau frekuensi yang terdapat pada kata hasil akhir dari proses
stemming, selanjutnya masuk ke proses penggabungan kata sinonim,
apabila terdapat kata berbeda tetapi memiliki makna yang sama, maka sistem dapat menggabungkan bersama dengan frekuensinya, lalu kata hasil
pembobotan melakukan proses normalisasi menggunakan Z-Score membandingkan kata yang satu dengan lainnya. Tahapan selanjutnya yaitu
tahapan K-Means yang terdiri dari Variance Initialization proses ini digunakan untuk mencari variance terbesar sehingga penentuan nilai awal
centroid, selanjutnya proses K-Means, dicari kedekatan antara centroid yang telah didapat dengan data menggunakan kedekatan Euclidean Distance.
Selanjutnya untuk output terdiri dari hasil cluster, dimana terdapat pembagian data dalam empat cluster berdasarkan centroid terdekat. Untuk
pengujian menggunakan Confusion Matrix, dimana jumlah prediksi yang benar dibagi dengan total seluruh data. Setelah menemukan hasil akurasi,
maka sistem menambahkan data baru untuk menemukan hasil klasifikasi data baru berdasarkan data yang diolah melalui proses clustering.
27