24
BAB III METODOLOGI
Bab ini menjelaskan tentang perancangan penelitian yang akan dibuat oleh penulis, yang berisi data, deskripsi sistem, model analisis serta desain
interface . Penjelasannya sebagai berikut:
3.1. Data
Data yang digunakan adalah data lagu yang bersumber dari Radio Masdha Yogyakarta, langkah selanjutnya mencari lirik lagu berdasarkan
data lagu yang diperoleh dari Radio Masdha Yogyakarta, selanjutnya data lirik lagu untuk diolah hanya diambil pada bagian refrain.
3.2. Deskripsi Sistem
Sistem ini digunakan untuk mengetahui tingkat akurasi penggolongan tema berdasarkan lirik lagu dengan menggunakan metode K-Means
clustering. Langkahnya adalah melalui data lirik lagu yang berekstensi .txt,
teks akan mengalami tahapan preprocessing yang terdiri dari tokenizing, stopword
dan stemming. Tahap kedua yaitu tahapan pembobotan kata menggunakan TF-IDF untuk menentukan nilai frekuensi dari dokumen, serta
melakukan penggabungan kata sinonim, apabila terdapat kata yang berbeda namun makna sama, maka gabungkan menjadi satu kata, setelah
mendapatkan bobot, maka hasil pembobotan di normalisasi menggunakan z- score
, supaya dapat membandingkan bobot pada kata satu terhadap kata lainnya. Tahapan ketiga adalah Variance Initialization digunakan untuk
25
menemukan centroid awal yang akan diproses pada tahapan K-Means clustering.
Tahap selanjutnya yaitu menentukan kedekatan atau kemiripan data pada centroid yaitu tema percintaan, perjuangan, religi dan
persahabatan dengan metode K-Means Clustering menggunakan Euclidean Distance
. Tahap terakhir adalah proses penghitungan akurasi menggunakan Confusion Matrix
. Setelah menemukan hasil akurasi serta pengelompokkan selanjutnya
sistem melakukan proses input data baru, yang berfungsi untuk mengetahui data baru termasuk dalam tema yang mana. Maka data baru dapat
dikategorikan termasuk salah satu dari tema yang ada.
3.3. Model Analisis
Pada bagian model analisis berisi diagram block yang terdiri dari text operation, K-means clustering,
pengujian akurasi serta input data baru. Penjelasannya sebagai berikut:
3.3.1. Diagram Block
Dibawah ini merupakan proses sistem menggunakan Diagram Block:
Input
Data
Information Retrieval
Tokenizing Stopword
Pembobotan Stemming
K-Means
Variance Initialization K-Means
Output
Hasil Cluster
Akurasi
Confusion Matrix
Penggabungan Kata Normalisasi Z-Score
Input Data Baru
Hasil Klasifikasi Data Baru
Gambar 3.1 Diagram Block
26
Pada gambar 3.1. proses clustering dimulai dari input data yang berupa lirik lagu, kemudian dilanjutkan dengan text operation, pada proses ini
terdapat beberapa tahapan yaitu tokenizing untuk pemisahan kata, stopword untuk menghilangkan kata-kata yang tidak mengandung makna, stemming
untuk menghilangkan kata berimbuhan, dan pembobotan untuk proses memberi index atau frekuensi yang terdapat pada kata hasil akhir dari proses
stemming, selanjutnya masuk ke proses penggabungan kata sinonim,
apabila terdapat kata berbeda tetapi memiliki makna yang sama, maka sistem dapat menggabungkan bersama dengan frekuensinya, lalu kata hasil
pembobotan melakukan proses normalisasi menggunakan Z-Score membandingkan kata yang satu dengan lainnya. Tahapan selanjutnya yaitu
tahapan K-Means yang terdiri dari Variance Initialization proses ini digunakan untuk mencari variance terbesar sehingga penentuan nilai awal
centroid, selanjutnya proses K-Means, dicari kedekatan antara centroid yang telah didapat dengan data menggunakan kedekatan Euclidean Distance.
Selanjutnya untuk output terdiri dari hasil cluster, dimana terdapat pembagian data dalam empat cluster berdasarkan centroid terdekat. Untuk
pengujian menggunakan Confusion Matrix, dimana jumlah prediksi yang benar dibagi dengan total seluruh data. Setelah menemukan hasil akurasi,