36
3. BAB III
PERANCANGAN SISTEM
3.1 Gambaran Umum Sistem
Sistem yang dibangun dalam penelitian ini adalah sistem pengujian akurasi dari penggunaan metode Multinomial Naïve Bayes pada klasifikasi data teks lirik
lagu. Lirik lagu yang digunakan adalah lirik lagu dari beberapa situs website salah satunya adalah lirik.kapanlagi.com dan liriklaguanak.com. Proses klasifikasi yang
akan dilakukan pada sistem ini menggunakan metode Multinomial Naïve Bayes sebagai klasifikasi.
User dalam sistem ini adalah pihak yang menggunakan sistem. Data yang digunakan dalam penelitian adalah data dengan format ekstensi .txt yang diimport
dari direktori kemudian hasil teks akan dieksekusi kedalam proses indexing. Proses klasifikasi tersebut dapat dilihat pada Gambar 3.1.
Data Training Tentukan Kategori
Tokenazing Normalization
Stop Word Stemming
Sorting dan Grouping
Indexing Hitung Prior
Porbabilitas Hitung Conditional
Probabilites Laplace Smoothing
Training
Data Testing Tokenazing
Normalization Stop Word
Stemming Sorting dan
Grouping Indexing
Matching Pangkatkan Nilai
Conditional Probabilites
Hitung Probabilitas Tiap Kelas
Testing Hasil Klasifikasi
Model
Index Index
Classification Modelling
Gambar 3.1 Diagram Block Proses Klasifikasi
37
Pada Gambar 3.1 proses indexing menghasilkan kumpulan kata beserta nilai frekuensi kata dari masing - masing yang telah diseleksi. Kumpulan kata ini akan
diolah menggunakan metode Multinomial Naïve Bayes sehingga menghasilkan model yang digunakan untuk proses klasifikasi.
Proses klasifikasi, akan melalui proses indexing yang sama pada proses training tanpa diketahui kelas atau kategorinya yang menghasilkan kumpulan kata.
Hasil kumpulan kata digunakan untuk proses matching agar mendapatkan daftar kata yang sama pada kumpulan kata dan data model. Hasil proses matching
digunakan untuk melakukan klasifikasi menggunakan metode Multinomial Naïve Bayes.
3.2 Teknik Analisis Data
3.2.1 Metode Pengumpulan Data
Data yang diperoleh merupakan data yang melalui beberapa tahapan. Adapaun tahapan yang dilalui untuk melakukan pengumpulan data dalam penelitian
ini sebagai berikut: 1.
Studi Pustaka Penggunaan studi pustaka pada penelitian ini adalah untuk mencari sumber
– sumber mengenai metode Multinomia Naive Bayes untuk mengklasifikasikan
data teks. 2.
Observasi Penggunaan observasi pada penelitian adalah untuk melakukan pencarian
data teks lirik lagu dari berbagai macam situs website.
38
3. Wawancara
Metode wawancara digunakan untuk pengelompokan data sebagai acuan pemberian label terhadap data dari seorang ahli. Dalam kasus penelitian ahli
dipilih dari dosen psikologi untuk menentukan klasifikasi data yang baik dan tidak baik untuk anak.
3.2.1 Pengolahan Data
Dalam penelitian data yang digunakan sebanyak 500. Data yang digunakan diperoleh melalui beberapa situs website. Pembagian data dapat dilihat pada tabel
3.1 berikut:
Tabel 3.1 Tabel Data Training dan Testing Jumlah Data
Data Training Data Testing
Klasifikasi Lagu Baik
200 50
Lagu Tidak Baik
200 50
Total
400 100
Sebanyak 400 data sebagai data training akan melalui tahap preprocessing untuk mendapatkan sebuah model dan 100 data sebagai data testing akan melalui
tahap preprocessing untuk mencocokan data testing dengan model untuk mengetahui hasil klasifikasi. Sampai pada akhirnya perhitungan akurasi dengan
menggunakan confusion matrix.
39
3.2.2 Preprocessing Data
Preprocessing akan dilalui oleh data sebelum proses klasifikasi. Proses ini dilakukan untuk meminimalisir permasalahan yang timbul dalam data diantaranya
mengurangi jumlah kata yang tidak berarti atau tidak memiliki makna dalam data dalam dokumen. Proses yang berlangsung pada setiap data dilakukan melalui
tahapan sebagai berikut : 1
Tokenizing Tahapan ini, menghilangkan karakter yang tidak memiliki arti pada kumpulan
kata. 2
Normalization Tahapan ini, mengembalikan bentuk kata dari huruf besar menjadi huruf kecil.
3 Stop Word
Tahapan ini, menghilangkan kata yang tidak memiliki arti atau tidak mempengaruhi pemerolehan informasi.
4 Stemming
Tahapan ini, mengembalikan bentuk kata menjadi bentuk kata dasar 5
Sorting dan Grouping Tahapan ini, mengurutkan kata dari abjad a sampai z serta menggabungkan kata
yang sama.
40
3.2.3 Klasifikasi Data
Proses klasifikasi data yang telah melalui tahapan menghitung frekuensi kata yang akan diklasifikasikan berdasarkan klasifikasi yang telah ditentukan.
Klasifikasi data ini menggunakan metode Multinomial Naïve Bayes, adapun tahapan dalam proses klasifikasi data adalah sebagai berikut :
1. Menghitung Prior Probabilitas
Pada proses ini , hitung prior probabilitas pada data training dalam kelas dengan menggunakan rumus:
� � = �
�
� 2.
Menghitung Conditional Probabilitas Pada proses ini , hitung nilai conditional probabilitas pada setiap data baik data
training atau testing dengan menggunakan rumus berikut: � |� =
�
�
∑
′
∈ � �
�
Untuk menghilangkan nilai nol pada sebuah dokumen, digunakan laplace smoothing
sebagai proses penambahan nilai 1 pada setiap nilai T
ct
pada perhitungan conditional probabilities dan dinyatakan dengan rumus:
� �
�
|� = �
�
+ ∑
′
∈ � �
�
+
′
41
3. Hasil proses matching antara model dan data testing
Pada proses ini, untuk data testing akan dicari hasil matching melalui pengecekan ada atau tidak kata yang dicari pada model.
4. Hasil matching beserta dengan nilai conditional probabilitas-nya
Pada proses ini, setelah proses matching antara model dan data testing maka nilai dari kata yang sama pada data testing dan model, maka nilai dari kata
pada model akan diambil dan dimasukkan dalam data testing. 5.
Hasil perkalian conditional probabilitas dengan frekuensi kata Pada proses ini, nilai yang diperoleh dari masing
– masing kata pada data testing akan dipangkatkan sesuai dengan jumlah frekuensi kata yang dicari.
3.3 Akurasi Data
Confusion matrix Paskianti, 2011 adalah sebuah tabel yang menyatakan
jumlah data uji yang benar diklasifikasikan dan jumlah data uji yang salah diklasifikasikan. Confusion matrix ditunjukan pada tabel berikut:
Tabel 3.2 Tabel Confusion Matrix Kelas Prediksi
1
Kelas sebenarnya
1 TP
FN FP
TN
tp True positive : jumlah dokumen dari kelas 1 yang benar diklasifikasikan sebagai kelas 1
tn True negative : jumlah dokumen dari kelas 0 yang benar diklasifikasikan sebagai kelas 0
42
fp False positive : jumlah dokumen dari kelas 0 yang salah diklasifikasikan sebagai kelas 1
fnFalse negative : jumlah dokumen dari kelas 1 yang salah diklasifikasikan sebagai kelas 0
Perhitungan akurasi dinyatakan dalam persamaan berikut:
� � � = �� + ��
�� + �� + �� + �� �
43
4. BAB IV
IMPLEMENTASI
4.1 Antarmuka Menu
LIRIK LAGU
ANALISIS SENTIMEN PADA LIRIK LAGU
MENGGUNAKAN METODE MULTINOMIAL NAÏVE BAYES
GAMBAR LOGO
Lagu Baik Lagu Tidak Baik
Total TF Lagu Baik Total TF Lagu Tidak Baik
Jumlah Kata Unik dalam Keseluruhan Dokumen
PBaik|Data Testing PTidak Baik|Data Testing
Apakah lirik dari lagu tersebut baik untuk anak ?
Nama : Elsa Rika .O. NIM : 115314079
Tujuan pembuatan aplikasi ini adalah membantu klasifikasi data teks dengan menggunakan metode Multinomial Naïve Bayes guna mempermudah analisis sentimen lagu yang baik atau tidak baik bagi anak
BROWSE 200
200 PROSES
GAMBAR
AKURASI 50
L.Baik Test LT.Baik Test
50
RESET
Baik Tdk Baik
Gambar 4.1 Menu
Gambar diatas merupakan tampilan menu utama dari sistem, tampilan sistem ini mencakup keseluruhan bagian mulai dari input data training, klasifikasi lagu
data testing sampai dengan akurasi sistem.
4.2 Antarmuka Training
Lagu Baik Lagu Tidak Baik
Proses
Gambar 4.2 Input Data