16
2.8 Penerapan Multinomial Naive Bayes Pada Klasifikasi Teks
2.9.1 Data Training
Data training merupakan kumpulan dokumen yang dijadikan sebuah data percobaan untuk menghasilkan sebuah model, data yang diuji sebagai berikut:
Aku adalah anak gembala Selalu riang serta gembira
Karena aku senang bekerja Tak pernah malas ataupun lengah
Tralala la la la la Tralala la la la la la la
Setiap hari ku bawa ternak Ke padang rumput, di kaki bukit
Rumputnya hijau subur dan banyak
Ternakku makan tak pernah sdikit
Tralala la la la la Tralala la la la la la la
Aku seorang Kapiten mempunyai pedang panjang
Kalau berjalan prok-prok-prok Aku seorang Kapiten
Akan kuingat selalu Ade irma suryani
Waktu dipeluk dipangku ibu Dengan segala kasih
Kini ia terbaring dipangkuan tuhan
Senang dan bahagia hatinya Kini ia terlena tertidur terbaring
Nyenyak dipelukan tuhannya Baik
Isi Dokumen Kategori
Aku ini anak manja kusendiri di rumah saja
tiap hari kubernyanyi lagunya sesuka hati
Ayah ibu kaya raya apa saja yang kuminta
semuanya tersedia Aku makan tiga kali
maksakannya enak sekali pakaianku tiga almari
serba mewah, warna warni Tidak Baik
Akankah kau melihatku Saat ku jauh
Akankah kau merasakan Kehilanganku
Jiwaku yang telah mati Bukan cintaku
Janjiku slalu abadi Hanya milikmu
Aku pergi dan takkan kembali Akhir dari cinta yang abadi
Akankah kau melihatku Di akhir nanti
Jiwaku yang telah mati Bukan cintaku
Janjiku slalu abadi Hanya untukmu
Aku pergi dan takkan kembali Air mata untuk yang abadi
Aku pergi ke alam yang suci Akhir dari abadi cintaku
Aku pergi ke alam yang abadi Akhir dari cinta yang abadi
Ada yang bergerak di dalam dadaku ini
Seperti ku kenal pernah kurasakan
Waktu aku jatuh cinta Waktu hatiku tertarik
Rasanya pun begini Jatuh cinta
Apakah ini sama seperti yang itu Hatiku bergerak
Aku jatuh cinta Dinding hatiku berlagu
Harmoni cinta menyentuh Pipiku pun merona
Jatuh cinta Harmoni cintaku kini datang
Nyanyikan suara hatiku Berlagu penuh cinta
17
1 Tokenizing
Tabel 2.7 Tokenizing Training Kata
Tokenizing
Baik Tidak Baik
Baik Tidak Baik
aku akankah
aku akankah
adalah kau
adalah kau
anak melihatku
anak melihatku
gembala saat
gembala saat
selalu ku
selalu ku
riang jauh
riang jauh
serta akankah
serta akankah
gembira kau
gembira kau
karena merasakan
karena merasakan
aku kehilanganku
aku kehilanganku
senang jiwaku
senang jiwaku
bekerja yang
bekerja yang
tak mati
tak mati
pernah bukan
pernah bukan
malas cintaku
malas cintaku
ataupun janjiku
ataupun janjiku
lengah slalu
lengah slalu
tralala abadi
tralala abadi
la hanya
la hanya
la milikmu
la milikmu
la aku
la aku
la pergi
la pergi
tralala dan
tralala dan
18
2 Normalization
Tabel 2.8 Normalization Training
Tokenizing Normalization
Baik Tidak Baik
Baik Tidak Baik
aku akankah
aku akankah
adalah kau
adalah kau
anak melihatku
anak melihatku
gembala saat
gembala saat
selalu ku
selalu ku
riang jauh
riang jauh
serta akankah
serta akankah
gembira kau
gembira kau
karena merasakan
karena merasakan
aku kehilanganku
aku kehilanganku
senang jiwaku
senang jiwaku
bekerja yang
bekerja yang
tak mati
tak mati
pernah bukan
pernah bukan
malas cintaku
malas cintaku
ataupun janjiku
ataupun janjiku
lengah slalu
lengah slalu
tralala abadi
tralala abadi
la hanya
la hanya
la milikmu
la milikmu
la aku
la aku
19
3 Stop Word
Tabel 2.9 Stop Word Training Normalization
Stopword
Baik Tidak Baik
Baik Tidak Baik
aku akankah
gembala akankah
adalah kau
selalu kau
anak melihatku
riang melihatku
gembala saat
gembira saat
selalu ku
senang ku
riang jauh
bekerja jauh
serta akankah
tak akankah
gembira kau
pernah kau
karena merasakan
malas merasakan
aku kehilanganku
ataupun kehilanganku
senang jiwaku
lengah jiwaku
bekerja yang
tralala mati
tak mati
tralala bukan
pernah bukan
setiap cintaku
malas cintaku
hari janjiku
ataupun janjiku
ku slalu
lengah slalu
bawa abadi
tralala abadi
ternak hanya
la hanya
ke milikmu
la milikmu
padang pergi
la aku
rumput takkan
20
4 Stemming
Tabel 2.10 Stemming Training Stopword
Stemming Baik
Tidak Baik Baik
Tidak Baik
gembala akankah
gembala akan
selalu kau
selalu kau
riang melihatku
riang saat
gembira saat
gembira ku
senang ku
senang jauh
bekerja jauh
kerja akan
tak akankah
tak kau
pernah kau
pernah rasa
malas merasakan
malas jiwa
ataupun kehilanganku
atau mati
lengah jiwaku
lengah bukan
tralala mati
hari cinta
tralala bukan
ku janji
setiap cintaku
bawa lalu
hari janjiku
ternak abadi
ku slalu
ke hanya
bawa abadi
padang milik
ternak hanya
rumput pergi
ke milikmu
kaki tak
padang pergi
bukit kembali
rumput takkan
rumput akhir
21
5 Daftar Kata beserta Frekuensi Kata
Kumpulan kata pada tabel 2.10 kemudian disusun kedalam satu kolom dan dihitung frekuensi kata kemunculan masing
– masing dokumen.
Tabel 2.11 Daftar Kata beserta Frekuensi Kata Training Stemming
Daftar Kata Beserta Frekuensi Kata Baik
Tidak Baik
gembala akan
Kata Frekuensi Kata
selalu kau
Baik Tidak Baik
riang saat
gembala 1
gembira ku
selalu 1
senang jauh
riang 1
kerja akan
gembira 1
tak kau
senang 1
pernah rasa
kerja 1
malas jiwa
tak 1
atau mati
pernah 1
lengah bukan
malas 1
hari cinta
atau 1
ku janji
lengah 1
bawa lalu
hari 1
ternak abadi
ku 1
ke hanya
bawa 1
padang milik
ternak 1
rumput pergi
ke 1
kaki tak
padang 1
bukit kembali
rumput 1
rumput akhir
kaki 1
bukit 1
22
6 Hasil Sorting secara Ascending
Tabel 2.12 Hasil Sorting secara Ascending Training Daftar Kata Beserta
Frekuensi Kata Hasil Sorting Secara
Ascending
Kata Frekuensi Kata
Kata Frekuensi Kata
Baik Tidak Baik Baik Tidak Baik
gembala 1
abadi 1
selalu 1
abadi 1
riang 1
abadi 1
gembira 1
abadi 1
senang 1
abadi 1
kerja 1
abadi 1
tak 1
abadi 1
pernah 1
ade 1
malas 1
air 1
atau 1
akan 1
lengah 1
akan 1
hari 1
akan 1
ku 1
akhir 1
bawa 1
akhir 1
ternak 1
akhir 1
ke 1
akhir 1
padang 1
alam 1
rumput 1
apa 1
kaki 1
apakah 1
bukit 1
atau 1
23
7 Hasil Grouping dengan Kata yang Sama
Setelah proses sorting pada tabel 2.12, dapat dilihat kata yang sama sehingga kata yang sama dapat digabungkan seperti pada tabel berikut:
Tabel 2.13 Hasil Grouping dengan Kata yang Sama Training Hasil sorting secara
ascending Hasil Grouping berdasarkan
kata yang sama
Kata Frekuensi kata
Kata Frekuensi kata
Baik Tidak Baik Baik
Tidak Baik
abadi 1
abadi 7
abadi 1
ade 1
abadi 1
air 1
abadi 1
akan 3
abadi 1
akhir 4
abadi 1
alam 1
abadi 1
apa 1
ade 1
apakah 1
air 1
atau 1
akan 1
bahagia 1
akan 1
banyak 1
akan 1
baring 2
akhir 1
bawa 1
akhir 1
begini 1
akhir 1
bukan 2
akhir 1
bukit 1
alam 1
cinta 12
apa 1
dada 1
apakah 1
dalam 1
atau 1
dari 3
24
8 Prior Probabilitas
Tabel 2.14 Prior Probabilitas Training Atribut kelas
Pclass Lagu Baik
36
Lagu Tidak Baik
36
9 Conditional Probabilitas
Tabel 2.15 Conditional Probabilitas Training Conditional probabilitas Pt|c
Laplace Smoothing Kata
Baik Tidak Baik
Kata Baik
Tidak Baik
abadi 0.039106145
abadi 8.474576271 44.69273743
ade 0.008
ade 16.94915254 5.586592179
air 0.005586592
air 8.474576271 11.17318436
akan 0.016759777
akan 8.474576271 22.34636872
akhir 0.022346369
akhir 8.474576271 27.93296089
alam 0.005586592
alam 8.474576271 11.17318436
apa 0.005586592
apa 8.474576271 11.17318436
apakah 0.005586592
apakah 8.474576271 11.17318436
atau 0.008
atau 16.94915254 5.586592179
bahagia 0.008
bahagia 16.94915254 5.586592179
banyak 0.008
banyak 16.94915254 5.586592179
baring 0.017
baring 25.42372881 5.586592179
bawa 0.008
bawa 16.94915254 5.586592179
begini 0.005586592
begini 8.474576271 11.17318436
bukan 0.011173184
bukan 8.474576271 16.75977654
bukit 0.008
bukit 16.94915254 5.586592179
25
2.9.2 Data Testing