Confusion Matrix LANDASAN TEORI

24

BAB III METODOLOGI

Bab ini menjelaskan tentang perancangan penelitian yang akan dibuat oleh penulis, yang berisi data, deskripsi sistem, model analisis serta desain interface . Penjelasannya sebagai berikut:

3.1. Data

Data yang digunakan adalah data lagu yang bersumber dari Radio Masdha Yogyakarta, langkah selanjutnya mencari lirik lagu berdasarkan data lagu yang diperoleh dari Radio Masdha Yogyakarta, selanjutnya data lirik lagu untuk diolah hanya diambil pada bagian refrain.

3.2. Deskripsi Sistem

Sistem ini digunakan untuk mengetahui tingkat akurasi penggolongan tema berdasarkan lirik lagu dengan menggunakan metode K-Means clustering. Langkahnya adalah melalui data lirik lagu yang berekstensi .txt, teks akan mengalami tahapan preprocessing yang terdiri dari tokenizing, stopword dan stemming. Tahap kedua yaitu tahapan pembobotan kata menggunakan TF-IDF untuk menentukan nilai frekuensi dari dokumen, serta melakukan penggabungan kata sinonim, apabila terdapat kata yang berbeda namun makna sama, maka gabungkan menjadi satu kata, setelah mendapatkan bobot, maka hasil pembobotan di normalisasi menggunakan z- score , supaya dapat membandingkan bobot pada kata satu terhadap kata lainnya. Tahapan ketiga adalah Variance Initialization digunakan untuk 25 menemukan centroid awal yang akan diproses pada tahapan K-Means clustering. Tahap selanjutnya yaitu menentukan kedekatan atau kemiripan data pada centroid yaitu tema percintaan, perjuangan, religi dan persahabatan dengan metode K-Means Clustering menggunakan Euclidean Distance . Tahap terakhir adalah proses penghitungan akurasi menggunakan Confusion Matrix . Setelah menemukan hasil akurasi serta pengelompokkan selanjutnya sistem melakukan proses input data baru, yang berfungsi untuk mengetahui data baru termasuk dalam tema yang mana. Maka data baru dapat dikategorikan termasuk salah satu dari tema yang ada.

3.3. Model Analisis

Pada bagian model analisis berisi diagram block yang terdiri dari text operation, K-means clustering, pengujian akurasi serta input data baru. Penjelasannya sebagai berikut:

3.3.1. Diagram Block

Dibawah ini merupakan proses sistem menggunakan Diagram Block: Input Data Information Retrieval Tokenizing Stopword Pembobotan Stemming K-Means Variance Initialization K-Means Output Hasil Cluster Akurasi Confusion Matrix Penggabungan Kata Normalisasi Z-Score Input Data Baru Hasil Klasifikasi Data Baru Gambar 3.1 Diagram Block 26 Pada gambar 3.1. proses clustering dimulai dari input data yang berupa lirik lagu, kemudian dilanjutkan dengan text operation, pada proses ini terdapat beberapa tahapan yaitu tokenizing untuk pemisahan kata, stopword untuk menghilangkan kata-kata yang tidak mengandung makna, stemming untuk menghilangkan kata berimbuhan, dan pembobotan untuk proses memberi index atau frekuensi yang terdapat pada kata hasil akhir dari proses stemming, selanjutnya masuk ke proses penggabungan kata sinonim, apabila terdapat kata berbeda tetapi memiliki makna yang sama, maka sistem dapat menggabungkan bersama dengan frekuensinya, lalu kata hasil pembobotan melakukan proses normalisasi menggunakan Z-Score membandingkan kata yang satu dengan lainnya. Tahapan selanjutnya yaitu tahapan K-Means yang terdiri dari Variance Initialization proses ini digunakan untuk mencari variance terbesar sehingga penentuan nilai awal centroid, selanjutnya proses K-Means, dicari kedekatan antara centroid yang telah didapat dengan data menggunakan kedekatan Euclidean Distance. Selanjutnya untuk output terdiri dari hasil cluster, dimana terdapat pembagian data dalam empat cluster berdasarkan centroid terdekat. Untuk pengujian menggunakan Confusion Matrix, dimana jumlah prediksi yang benar dibagi dengan total seluruh data. Setelah menemukan hasil akurasi,