25
2.9.2 Data Testing
Data testing merupakan data yang digunakan sebagai uji coba terhadap model yang terbentuk dari data training dengan data sebagai berikut:
Hati hati dengan hatiku Karna hatiku mudah layu
Jangan kamu bermain-main Karna kutak’ main-main
Sungguh aku bersungguh-sungguh Cintaku ini cinta mati
Mati-matian aku Pertahankan cintaku
Aku takkan rela...bila kau tinggalkan Aku kan berbuat...apa saja
Untuk mendapatkan kamu lagi Rupa rupa alasan kamu
Untuk tetap tinggalkan aku Rupanya kamu memang
Sudah tak cinta aku Cintamu yang berbisa
Bisa racuni aku Bisa-bisanya kamu mau tinggalkan aku
? Isi Dokumen
Kategori
26
1 Tokenizing
Tabel 2.16 Tokenizing Testing Kata
Tokenizing
Hati Hati
hati hati
dengan dengan
hatiku hatiku
Karna Karna
hatiku hatiku
mudah mudah
layu layu
Jangan Jangan
kamu kamu
bermain bermain
- main
main Karna
Karna kutak’
kutak’ main
main main
- Sungguh
main aku
Sungguh bersungguh
aku sungguh
bersungguh Cintaku
- ini
sungguh cinta
Cintaku mati
ini Mati
27
2 Normalization
Tabel 2.17 Normalization Testing Tokenizing
Normalization
Hati hati
hati hati
dengan dengan
hatiku hatiku
Karna karna
hatiku hatiku
mudah mudah
layu layu
Jangan jangan
kamu kamu
bermain bermain
main main
Karna karna
kutak’ kutak’
main main
main main
Sungguh sungguh
aku aku
bersungguh bersungguh
sungguh sungguh
Cintaku cintaku
ini ini
cinta cinta
mati mati
Mati mati
28
3 Stop Word
Tabel 2.18 Stop Word Testing Normalization
Stopword
hati hati
hati hati
dengan hatiku
hatiku karna
karna hatiku
hatiku mudah
mudah layu
layu jangan
jangan bermain
kamu main
bermain karna
main kutak’
karna main
kutak’ main
main bersungguh
main sungguh
sungguh cintaku
aku cinta
bersungguh mati
sungguh mati
cintaku matian
ini pertahankan
cinta cintaku
mati takkan
29
4 Stemming
Tabel 2.19 Stemming Testing Stopword
Stemming
hati hati
hati hati
hatiku hati
karna hati
hatiku mudah
mudah layu
layu jangan
jangan main
bermain main
main main
karna main
kutak’ sungguh
main sungguh
main cinta
bersungguh cinta
sungguh mati
cintaku mati
cinta tahan
mati cinta
mati tak
matian rela
pertahankan bila
cintaku kau
takkan tinggal
rela kan
30
5 Daftar Kata Beserta Frekuensi Kata
Tabel 2.20 Daftar Kata beserta Frekuensi Kata Testing Stemming
Daftar Kata Beserta Frekuensi Kata
Hati
Kata Frekuensi Kata
hati apa
1 hati
bila 1
hati bisa
1 mudah
bisa 1
layu bisa
1 jangan
bisa 1
main buat
1 main
cinta 1
main cinta
1 main
cinta 1
sungguh cinta
1 sungguh
cinta 1
cinta dapat
1 cinta
hati 1
mati hati
1 mati
hati 1
tahan hati
1 cinta
jangan 1
tak kan
1 rela
kau 1
bila layu
1 kau
main 1
tinggal main
1 kan
main 1
buat main
1
31
6 Hasil Sorting secara Ascending
Tabel 2.21 Hasil Sorting secara Ascending Testing Daftar kata beserta frekuensi
katanya Hasil sorting secara ascending
Kata Frekuensi kata
Kata Frekuensi kata
apa 1
apa 1
bila 1
bila 1
bisa 1
bisa 4
bisa 1
buat 1
bisa 1
cinta 5
bisa 1
dapat 1
buat 1
hati 4
cinta 1
jangan 1
cinta 1
kan 1
cinta 1
kau 1
cinta 1
layu 1
cinta 1
main 4
dapat 1
mati 3
hati 1
mau 1
hati 1
memang 1
hati 1
mudah 1
hati 1
rela 1
jangan 1
rupa 3
kan 1
saja 1
kau 1
sungguh 2
layu 1
tahan 1
main 1
tak 2
main 1
tetap 1
32
7 Hasil Grouping dengan Kata yang Sama
Tabel 2.22 Hasil Grouping dengan Kata yang Sama Testing Hasil Sorting Secara Ascending
Hasil Grouping Berdasarkan Kata Yang Sama
Kata Frekuensi Kata
Kata Frekuensi Kata
apa 1
apa 1
bila 1
bila 1
bisa 4
bisa 4
buat 1
buat 1
cinta 5
cinta 5
dapat 1
dapat 1
hati 4
hati 4
jangan 1
jangan 1
kan 1
kan 1
kau 1
kau 1
layu 1
layu 1
main 4
main 4
mati 3
mati 3
mau 1
mau 1
memang 1
memang 1
mudah 1
mudah 1
rela 1
rela 1
rupa 3
rupa 3
saja 1
saja 1
sungguh 2
sungguh 2
tahan 1
tahan 1
tak 2
tak 2
tetap 1
tetap 1
tinggal 3
tinggal 3
33
8 Prior Probabilitas
Tabel 2.23 Prior Probabilitas Testing Prior Porbabilitas
Atribut Kelas PClass
Baik
12
Tidak Baik
12
9 Hasil Proses Matching antara Model dengan Data Testing
Tabel 2.24 Hasil Proses Matching antara Model dengan Data Testing Hasil Proses Matching
antara Model dengan Data Testing
Kata Frekuensi Kata
apa 1
cinta 5
hati 4
kau 1
mati 3
saja 1
tak 2
… …
34
10 Hasil Matching beserta dengan Nilai Conditional Probabilitas
Setelah proses hasil matching antara model beserta dengan nilai conditional probabilitas-nya, frekuensi kata akan digabungkan dengan nilai conditional
probabilitas-nya.
Tabel 2.25 Hasil Matching beserta dengan Nilai Conditional Probabilitas Testing
Hasil Matching beserta dengan Nilai Conditional Probabilitas-nya kata
Frekuensi kata Baik
Tidak Baik
apa 1
8.474576271 11.17318436
cinta 5
8.474576271 72.62569832
hati 4
16.94915254 27.93296089
kau 1
8.474576271 22.34636872
mati 3
8.474576271 16.75977654
saja 1
8.474576271 16.75977654
tak 2
25.42372881 16.75977654
35
11 Hasil Perkalian Nilai Conditional Probabilitas dengan Frekuensi Kata
Tabel 2.26 Hasil Perkalian Nilai Conditional Probabilitas dengan Frekuensi Kata Testing
Hasil Perkalian Nilai Conditional Probabilitas Dengan Frekuensi Kata Kata
Baik Tidak Baik
apa 8.474576271
11.17318436 cinta
43710.92162 2020466279
hati 82526.22002
608790.5374 kau
8.474576271 22.34636872
mati 608.6308727
4707.655467 saja
8.474576271 16.75977654
tak 646.3659868
280.8901095 Total
8.63711E+17 6.80633E+24
12 Hitung Probabilitas
Untuk menghitung nilai probabilitas dari data testing diperlukan perkalian antara nilai prior probabilitas dengan hasil perkalian antara nilai contiditional
probabilitas dengan frekuensi kata sehingga didapat hasil sebagai berikut:
Tabel 2.27 Hitung Probabilitas Testing Hitung probabilitas
PBaikllagu7 4.31855E+17
PTidak Baikllagu7 3.40316E+24
Dari hasil perhitungan diatas dapat disimpulkan bahwa lagu7 kata masuk
pada klasifikasi lagu yang tidak baik untuk anak dengan nilai 3.40316E+24 yang
telah melalui proses terhadap data training.
36
3. BAB III
PERANCANGAN SISTEM
3.1 Gambaran Umum Sistem
Sistem yang dibangun dalam penelitian ini adalah sistem pengujian akurasi dari penggunaan metode Multinomial Naïve Bayes pada klasifikasi data teks lirik
lagu. Lirik lagu yang digunakan adalah lirik lagu dari beberapa situs website salah satunya adalah lirik.kapanlagi.com dan liriklaguanak.com. Proses klasifikasi yang
akan dilakukan pada sistem ini menggunakan metode Multinomial Naïve Bayes sebagai klasifikasi.
User dalam sistem ini adalah pihak yang menggunakan sistem. Data yang digunakan dalam penelitian adalah data dengan format ekstensi .txt yang diimport
dari direktori kemudian hasil teks akan dieksekusi kedalam proses indexing. Proses klasifikasi tersebut dapat dilihat pada Gambar 3.1.
Data Training Tentukan Kategori
Tokenazing Normalization
Stop Word Stemming
Sorting dan Grouping
Indexing Hitung Prior
Porbabilitas Hitung Conditional
Probabilites Laplace Smoothing
Training
Data Testing Tokenazing
Normalization Stop Word
Stemming Sorting dan
Grouping Indexing
Matching Pangkatkan Nilai
Conditional Probabilites
Hitung Probabilitas Tiap Kelas
Testing Hasil Klasifikasi
Model
Index Index
Classification Modelling
Gambar 3.1 Diagram Block Proses Klasifikasi