Data Deskripsi Sistem METODOLOGI

26 Pada gambar 3.1. proses clustering dimulai dari input data yang berupa lirik lagu, kemudian dilanjutkan dengan text operation, pada proses ini terdapat beberapa tahapan yaitu tokenizing untuk pemisahan kata, stopword untuk menghilangkan kata-kata yang tidak mengandung makna, stemming untuk menghilangkan kata berimbuhan, dan pembobotan untuk proses memberi index atau frekuensi yang terdapat pada kata hasil akhir dari proses stemming, selanjutnya masuk ke proses penggabungan kata sinonim, apabila terdapat kata berbeda tetapi memiliki makna yang sama, maka sistem dapat menggabungkan bersama dengan frekuensinya, lalu kata hasil pembobotan melakukan proses normalisasi menggunakan Z-Score membandingkan kata yang satu dengan lainnya. Tahapan selanjutnya yaitu tahapan K-Means yang terdiri dari Variance Initialization proses ini digunakan untuk mencari variance terbesar sehingga penentuan nilai awal centroid, selanjutnya proses K-Means, dicari kedekatan antara centroid yang telah didapat dengan data menggunakan kedekatan Euclidean Distance. Selanjutnya untuk output terdiri dari hasil cluster, dimana terdapat pembagian data dalam empat cluster berdasarkan centroid terdekat. Untuk pengujian menggunakan Confusion Matrix, dimana jumlah prediksi yang benar dibagi dengan total seluruh data. Setelah menemukan hasil akurasi, maka sistem menambahkan data baru untuk menemukan hasil klasifikasi data baru berdasarkan data yang diolah melalui proses clustering. 27

3.3.1.1. Text Operation

Langkah kerja serta penjelasan mengenai Text Operation adalah sebagai berikut: 3.3.1.1.1.Tokenizing Pada proses tokenizing proses yang terjadi adalah pemenggalan kalimat menjadi tiap-tiap kata, kata diubah menjadi huruf kecil dan menghilangkan karakter yang bukan termasuk kata. Maka dibawah ini merupakan contoh lirik lagu dari tema perjuangan, religi, percintaan dan persahabatan yang mengalami proses tokenizing. Dokumen pertama perjuangan : Garuda pancasila Akulah pendukungmu Patriot proklamasi Sedia berkorban untukmu Pancasila dasar negara Rakyat adil makmur sentosa Pribadi bangsaku Ayo maju maju Ayo maju maju Ayo maju maju garuda rakyat pancasila adil akulah makmur pendukungmu sentosa patriot pribadi proklamasi bangsaku sedia ayo berkorban maju untukmu maju pancasila ayo dasar maju negara maju ayo maju maju Gambar 3.2 Tokenizing dokumen pertama Pada gambar 3.2 merupakan contoh lirik lagu yang mengalami proses tokenizing, lirik lagu yang digunakan pada gambar diatas adalah contoh lirik lagu dengan tema perjuangan.