37
Pada Gambar 3.1 proses indexing menghasilkan kumpulan kata beserta nilai frekuensi kata dari masing - masing yang telah diseleksi. Kumpulan kata ini akan
diolah menggunakan metode Multinomial Naïve Bayes sehingga menghasilkan model yang digunakan untuk proses klasifikasi.
Proses klasifikasi, akan melalui proses indexing yang sama pada proses training tanpa diketahui kelas atau kategorinya yang menghasilkan kumpulan kata.
Hasil kumpulan kata digunakan untuk proses matching agar mendapatkan daftar kata yang sama pada kumpulan kata dan data model. Hasil proses matching
digunakan untuk melakukan klasifikasi menggunakan metode Multinomial Naïve Bayes.
3.2 Teknik Analisis Data
3.2.1 Metode Pengumpulan Data
Data yang diperoleh merupakan data yang melalui beberapa tahapan. Adapaun tahapan yang dilalui untuk melakukan pengumpulan data dalam penelitian
ini sebagai berikut: 1.
Studi Pustaka Penggunaan studi pustaka pada penelitian ini adalah untuk mencari sumber
– sumber mengenai metode Multinomia Naive Bayes untuk mengklasifikasikan
data teks. 2.
Observasi Penggunaan observasi pada penelitian adalah untuk melakukan pencarian
data teks lirik lagu dari berbagai macam situs website.
38
3. Wawancara
Metode wawancara digunakan untuk pengelompokan data sebagai acuan pemberian label terhadap data dari seorang ahli. Dalam kasus penelitian ahli
dipilih dari dosen psikologi untuk menentukan klasifikasi data yang baik dan tidak baik untuk anak.
3.2.1 Pengolahan Data
Dalam penelitian data yang digunakan sebanyak 500. Data yang digunakan diperoleh melalui beberapa situs website. Pembagian data dapat dilihat pada tabel
3.1 berikut:
Tabel 3.1 Tabel Data Training dan Testing Jumlah Data
Data Training Data Testing
Klasifikasi Lagu Baik
200 50
Lagu Tidak Baik
200 50
Total
400 100
Sebanyak 400 data sebagai data training akan melalui tahap preprocessing untuk mendapatkan sebuah model dan 100 data sebagai data testing akan melalui
tahap preprocessing untuk mencocokan data testing dengan model untuk mengetahui hasil klasifikasi. Sampai pada akhirnya perhitungan akurasi dengan
menggunakan confusion matrix.
39
3.2.2 Preprocessing Data
Preprocessing akan dilalui oleh data sebelum proses klasifikasi. Proses ini dilakukan untuk meminimalisir permasalahan yang timbul dalam data diantaranya
mengurangi jumlah kata yang tidak berarti atau tidak memiliki makna dalam data dalam dokumen. Proses yang berlangsung pada setiap data dilakukan melalui
tahapan sebagai berikut : 1
Tokenizing Tahapan ini, menghilangkan karakter yang tidak memiliki arti pada kumpulan
kata. 2
Normalization Tahapan ini, mengembalikan bentuk kata dari huruf besar menjadi huruf kecil.
3 Stop Word
Tahapan ini, menghilangkan kata yang tidak memiliki arti atau tidak mempengaruhi pemerolehan informasi.
4 Stemming
Tahapan ini, mengembalikan bentuk kata menjadi bentuk kata dasar 5
Sorting dan Grouping Tahapan ini, mengurutkan kata dari abjad a sampai z serta menggabungkan kata
yang sama.
40
3.2.3 Klasifikasi Data