Data Training Penerapan Multinomial Naive Bayes Pada Klasifikasi Teks

16

2.8 Penerapan Multinomial Naive Bayes Pada Klasifikasi Teks

2.9.1 Data Training

Data training merupakan kumpulan dokumen yang dijadikan sebuah data percobaan untuk menghasilkan sebuah model, data yang diuji sebagai berikut: Aku adalah anak gembala Selalu riang serta gembira Karena aku senang bekerja Tak pernah malas ataupun lengah Tralala la la la la Tralala la la la la la la Setiap hari ku bawa ternak Ke padang rumput, di kaki bukit Rumputnya hijau subur dan banyak Ternakku makan tak pernah sdikit Tralala la la la la Tralala la la la la la la Aku seorang Kapiten mempunyai pedang panjang Kalau berjalan prok-prok-prok Aku seorang Kapiten Akan kuingat selalu Ade irma suryani Waktu dipeluk dipangku ibu Dengan segala kasih Kini ia terbaring dipangkuan tuhan Senang dan bahagia hatinya Kini ia terlena tertidur terbaring Nyenyak dipelukan tuhannya Baik Isi Dokumen Kategori Aku ini anak manja kusendiri di rumah saja tiap hari kubernyanyi lagunya sesuka hati Ayah ibu kaya raya apa saja yang kuminta semuanya tersedia Aku makan tiga kali maksakannya enak sekali pakaianku tiga almari serba mewah, warna warni Tidak Baik Akankah kau melihatku Saat ku jauh Akankah kau merasakan Kehilanganku Jiwaku yang telah mati Bukan cintaku Janjiku slalu abadi Hanya milikmu Aku pergi dan takkan kembali Akhir dari cinta yang abadi Akankah kau melihatku Di akhir nanti Jiwaku yang telah mati Bukan cintaku Janjiku slalu abadi Hanya untukmu Aku pergi dan takkan kembali Air mata untuk yang abadi Aku pergi ke alam yang suci Akhir dari abadi cintaku Aku pergi ke alam yang abadi Akhir dari cinta yang abadi Ada yang bergerak di dalam dadaku ini Seperti ku kenal pernah kurasakan Waktu aku jatuh cinta Waktu hatiku tertarik Rasanya pun begini Jatuh cinta Apakah ini sama seperti yang itu Hatiku bergerak Aku jatuh cinta Dinding hatiku berlagu Harmoni cinta menyentuh Pipiku pun merona Jatuh cinta Harmoni cintaku kini datang Nyanyikan suara hatiku Berlagu penuh cinta 17 1 Tokenizing Tabel 2.7 Tokenizing Training Kata Tokenizing Baik Tidak Baik Baik Tidak Baik aku akankah aku akankah adalah kau adalah kau anak melihatku anak melihatku gembala saat gembala saat selalu ku selalu ku riang jauh riang jauh serta akankah serta akankah gembira kau gembira kau karena merasakan karena merasakan aku kehilanganku aku kehilanganku senang jiwaku senang jiwaku bekerja yang bekerja yang tak mati tak mati pernah bukan pernah bukan malas cintaku malas cintaku ataupun janjiku ataupun janjiku lengah slalu lengah slalu tralala abadi tralala abadi la hanya la hanya la milikmu la milikmu la aku la aku la pergi la pergi tralala dan tralala dan 18 2 Normalization Tabel 2.8 Normalization Training Tokenizing Normalization Baik Tidak Baik Baik Tidak Baik aku akankah aku akankah adalah kau adalah kau anak melihatku anak melihatku gembala saat gembala saat selalu ku selalu ku riang jauh riang jauh serta akankah serta akankah gembira kau gembira kau karena merasakan karena merasakan aku kehilanganku aku kehilanganku senang jiwaku senang jiwaku bekerja yang bekerja yang tak mati tak mati pernah bukan pernah bukan malas cintaku malas cintaku ataupun janjiku ataupun janjiku lengah slalu lengah slalu tralala abadi tralala abadi la hanya la hanya la milikmu la milikmu la aku la aku 19 3 Stop Word Tabel 2.9 Stop Word Training Normalization Stopword Baik Tidak Baik Baik Tidak Baik aku akankah gembala akankah adalah kau selalu kau anak melihatku riang melihatku gembala saat gembira saat selalu ku senang ku riang jauh bekerja jauh serta akankah tak akankah gembira kau pernah kau karena merasakan malas merasakan aku kehilanganku ataupun kehilanganku senang jiwaku lengah jiwaku bekerja yang tralala mati tak mati tralala bukan pernah bukan setiap cintaku malas cintaku hari janjiku ataupun janjiku ku slalu lengah slalu bawa abadi tralala abadi ternak hanya la hanya ke milikmu la milikmu padang pergi la aku rumput takkan 20 4 Stemming Tabel 2.10 Stemming Training Stopword Stemming Baik Tidak Baik Baik Tidak Baik gembala akankah gembala akan selalu kau selalu kau riang melihatku riang saat gembira saat gembira ku senang ku senang jauh bekerja jauh kerja akan tak akankah tak kau pernah kau pernah rasa malas merasakan malas jiwa ataupun kehilanganku atau mati lengah jiwaku lengah bukan tralala mati hari cinta tralala bukan ku janji setiap cintaku bawa lalu hari janjiku ternak abadi ku slalu ke hanya bawa abadi padang milik ternak hanya rumput pergi ke milikmu kaki tak padang pergi bukit kembali rumput takkan rumput akhir 21 5 Daftar Kata beserta Frekuensi Kata Kumpulan kata pada tabel 2.10 kemudian disusun kedalam satu kolom dan dihitung frekuensi kata kemunculan masing – masing dokumen. Tabel 2.11 Daftar Kata beserta Frekuensi Kata Training Stemming Daftar Kata Beserta Frekuensi Kata Baik Tidak Baik gembala akan Kata Frekuensi Kata selalu kau Baik Tidak Baik riang saat gembala 1 gembira ku selalu 1 senang jauh riang 1 kerja akan gembira 1 tak kau senang 1 pernah rasa kerja 1 malas jiwa tak 1 atau mati pernah 1 lengah bukan malas 1 hari cinta atau 1 ku janji lengah 1 bawa lalu hari 1 ternak abadi ku 1 ke hanya bawa 1 padang milik ternak 1 rumput pergi ke 1 kaki tak padang 1 bukit kembali rumput 1 rumput akhir kaki 1 bukit 1 22 6 Hasil Sorting secara Ascending Tabel 2.12 Hasil Sorting secara Ascending Training Daftar Kata Beserta Frekuensi Kata Hasil Sorting Secara Ascending Kata Frekuensi Kata Kata Frekuensi Kata Baik Tidak Baik Baik Tidak Baik gembala 1 abadi 1 selalu 1 abadi 1 riang 1 abadi 1 gembira 1 abadi 1 senang 1 abadi 1 kerja 1 abadi 1 tak 1 abadi 1 pernah 1 ade 1 malas 1 air 1 atau 1 akan 1 lengah 1 akan 1 hari 1 akan 1 ku 1 akhir 1 bawa 1 akhir 1 ternak 1 akhir 1 ke 1 akhir 1 padang 1 alam 1 rumput 1 apa 1 kaki 1 apakah 1 bukit 1 atau 1 23 7 Hasil Grouping dengan Kata yang Sama Setelah proses sorting pada tabel 2.12, dapat dilihat kata yang sama sehingga kata yang sama dapat digabungkan seperti pada tabel berikut: Tabel 2.13 Hasil Grouping dengan Kata yang Sama Training Hasil sorting secara ascending Hasil Grouping berdasarkan kata yang sama Kata Frekuensi kata Kata Frekuensi kata Baik Tidak Baik Baik Tidak Baik abadi 1 abadi 7 abadi 1 ade 1 abadi 1 air 1 abadi 1 akan 3 abadi 1 akhir 4 abadi 1 alam 1 abadi 1 apa 1 ade 1 apakah 1 air 1 atau 1 akan 1 bahagia 1 akan 1 banyak 1 akan 1 baring 2 akhir 1 bawa 1 akhir 1 begini 1 akhir 1 bukan 2 akhir 1 bukit 1 alam 1 cinta 12 apa 1 dada 1 apakah 1 dalam 1 atau 1 dari 3 24 8 Prior Probabilitas Tabel 2.14 Prior Probabilitas Training Atribut kelas Pclass Lagu Baik 36 Lagu Tidak Baik 36 9 Conditional Probabilitas Tabel 2.15 Conditional Probabilitas Training Conditional probabilitas Pt|c Laplace Smoothing Kata Baik Tidak Baik Kata Baik Tidak Baik abadi 0.039106145 abadi 8.474576271 44.69273743 ade 0.008 ade 16.94915254 5.586592179 air 0.005586592 air 8.474576271 11.17318436 akan 0.016759777 akan 8.474576271 22.34636872 akhir 0.022346369 akhir 8.474576271 27.93296089 alam 0.005586592 alam 8.474576271 11.17318436 apa 0.005586592 apa 8.474576271 11.17318436 apakah 0.005586592 apakah 8.474576271 11.17318436 atau 0.008 atau 16.94915254 5.586592179 bahagia 0.008 bahagia 16.94915254 5.586592179 banyak 0.008 banyak 16.94915254 5.586592179 baring 0.017 baring 25.42372881 5.586592179 bawa 0.008 bawa 16.94915254 5.586592179 begini 0.005586592 begini 8.474576271 11.17318436 bukan 0.011173184 bukan 8.474576271 16.75977654 bukit 0.008 bukit 16.94915254 5.586592179 25

2.9.2 Data Testing