Data Testing Penerapan Multinomial Naive Bayes Pada Klasifikasi Teks

25

2.9.2 Data Testing

Data testing merupakan data yang digunakan sebagai uji coba terhadap model yang terbentuk dari data training dengan data sebagai berikut: Hati hati dengan hatiku Karna hatiku mudah layu Jangan kamu bermain-main Karna kutak’ main-main Sungguh aku bersungguh-sungguh Cintaku ini cinta mati Mati-matian aku Pertahankan cintaku Aku takkan rela...bila kau tinggalkan Aku kan berbuat...apa saja Untuk mendapatkan kamu lagi Rupa rupa alasan kamu Untuk tetap tinggalkan aku Rupanya kamu memang Sudah tak cinta aku Cintamu yang berbisa Bisa racuni aku Bisa-bisanya kamu mau tinggalkan aku ? Isi Dokumen Kategori 26 1 Tokenizing Tabel 2.16 Tokenizing Testing Kata Tokenizing Hati Hati hati hati dengan dengan hatiku hatiku Karna Karna hatiku hatiku mudah mudah layu layu Jangan Jangan kamu kamu bermain bermain - main main Karna Karna kutak’ kutak’ main main main - Sungguh main aku Sungguh bersungguh aku sungguh bersungguh Cintaku - ini sungguh cinta Cintaku mati ini Mati 27 2 Normalization Tabel 2.17 Normalization Testing Tokenizing Normalization Hati hati hati hati dengan dengan hatiku hatiku Karna karna hatiku hatiku mudah mudah layu layu Jangan jangan kamu kamu bermain bermain main main Karna karna kutak’ kutak’ main main main main Sungguh sungguh aku aku bersungguh bersungguh sungguh sungguh Cintaku cintaku ini ini cinta cinta mati mati Mati mati 28 3 Stop Word Tabel 2.18 Stop Word Testing Normalization Stopword hati hati hati hati dengan hatiku hatiku karna karna hatiku hatiku mudah mudah layu layu jangan jangan bermain kamu main bermain karna main kutak’ karna main kutak’ main main bersungguh main sungguh sungguh cintaku aku cinta bersungguh mati sungguh mati cintaku matian ini pertahankan cinta cintaku mati takkan 29 4 Stemming Tabel 2.19 Stemming Testing Stopword Stemming hati hati hati hati hatiku hati karna hati hatiku mudah mudah layu layu jangan jangan main bermain main main main karna main kutak’ sungguh main sungguh main cinta bersungguh cinta sungguh mati cintaku mati cinta tahan mati cinta mati tak matian rela pertahankan bila cintaku kau takkan tinggal rela kan 30 5 Daftar Kata Beserta Frekuensi Kata Tabel 2.20 Daftar Kata beserta Frekuensi Kata Testing Stemming Daftar Kata Beserta Frekuensi Kata Hati Kata Frekuensi Kata hati apa 1 hati bila 1 hati bisa 1 mudah bisa 1 layu bisa 1 jangan bisa 1 main buat 1 main cinta 1 main cinta 1 main cinta 1 sungguh cinta 1 sungguh cinta 1 cinta dapat 1 cinta hati 1 mati hati 1 mati hati 1 tahan hati 1 cinta jangan 1 tak kan 1 rela kau 1 bila layu 1 kau main 1 tinggal main 1 kan main 1 buat main 1 31 6 Hasil Sorting secara Ascending Tabel 2.21 Hasil Sorting secara Ascending Testing Daftar kata beserta frekuensi katanya Hasil sorting secara ascending Kata Frekuensi kata Kata Frekuensi kata apa 1 apa 1 bila 1 bila 1 bisa 1 bisa 4 bisa 1 buat 1 bisa 1 cinta 5 bisa 1 dapat 1 buat 1 hati 4 cinta 1 jangan 1 cinta 1 kan 1 cinta 1 kau 1 cinta 1 layu 1 cinta 1 main 4 dapat 1 mati 3 hati 1 mau 1 hati 1 memang 1 hati 1 mudah 1 hati 1 rela 1 jangan 1 rupa 3 kan 1 saja 1 kau 1 sungguh 2 layu 1 tahan 1 main 1 tak 2 main 1 tetap 1 32 7 Hasil Grouping dengan Kata yang Sama Tabel 2.22 Hasil Grouping dengan Kata yang Sama Testing Hasil Sorting Secara Ascending Hasil Grouping Berdasarkan Kata Yang Sama Kata Frekuensi Kata Kata Frekuensi Kata apa 1 apa 1 bila 1 bila 1 bisa 4 bisa 4 buat 1 buat 1 cinta 5 cinta 5 dapat 1 dapat 1 hati 4 hati 4 jangan 1 jangan 1 kan 1 kan 1 kau 1 kau 1 layu 1 layu 1 main 4 main 4 mati 3 mati 3 mau 1 mau 1 memang 1 memang 1 mudah 1 mudah 1 rela 1 rela 1 rupa 3 rupa 3 saja 1 saja 1 sungguh 2 sungguh 2 tahan 1 tahan 1 tak 2 tak 2 tetap 1 tetap 1 tinggal 3 tinggal 3 33 8 Prior Probabilitas Tabel 2.23 Prior Probabilitas Testing Prior Porbabilitas Atribut Kelas PClass Baik 12 Tidak Baik 12 9 Hasil Proses Matching antara Model dengan Data Testing Tabel 2.24 Hasil Proses Matching antara Model dengan Data Testing Hasil Proses Matching antara Model dengan Data Testing Kata Frekuensi Kata apa 1 cinta 5 hati 4 kau 1 mati 3 saja 1 tak 2 … … 34 10 Hasil Matching beserta dengan Nilai Conditional Probabilitas Setelah proses hasil matching antara model beserta dengan nilai conditional probabilitas-nya, frekuensi kata akan digabungkan dengan nilai conditional probabilitas-nya. Tabel 2.25 Hasil Matching beserta dengan Nilai Conditional Probabilitas Testing Hasil Matching beserta dengan Nilai Conditional Probabilitas-nya kata Frekuensi kata Baik Tidak Baik apa 1 8.474576271 11.17318436 cinta 5 8.474576271 72.62569832 hati 4 16.94915254 27.93296089 kau 1 8.474576271 22.34636872 mati 3 8.474576271 16.75977654 saja 1 8.474576271 16.75977654 tak 2 25.42372881 16.75977654 35 11 Hasil Perkalian Nilai Conditional Probabilitas dengan Frekuensi Kata Tabel 2.26 Hasil Perkalian Nilai Conditional Probabilitas dengan Frekuensi Kata Testing Hasil Perkalian Nilai Conditional Probabilitas Dengan Frekuensi Kata Kata Baik Tidak Baik apa 8.474576271 11.17318436 cinta 43710.92162 2020466279 hati 82526.22002 608790.5374 kau 8.474576271 22.34636872 mati 608.6308727 4707.655467 saja 8.474576271 16.75977654 tak 646.3659868 280.8901095 Total 8.63711E+17 6.80633E+24 12 Hitung Probabilitas Untuk menghitung nilai probabilitas dari data testing diperlukan perkalian antara nilai prior probabilitas dengan hasil perkalian antara nilai contiditional probabilitas dengan frekuensi kata sehingga didapat hasil sebagai berikut: Tabel 2.27 Hitung Probabilitas Testing Hitung probabilitas PBaikllagu7 4.31855E+17 PTidak Baikllagu7 3.40316E+24 Dari hasil perhitungan diatas dapat disimpulkan bahwa lagu7 kata masuk pada klasifikasi lagu yang tidak baik untuk anak dengan nilai 3.40316E+24 yang telah melalui proses terhadap data training. 36

3. BAB III

PERANCANGAN SISTEM

3.1 Gambaran Umum Sistem

Sistem yang dibangun dalam penelitian ini adalah sistem pengujian akurasi dari penggunaan metode Multinomial Naïve Bayes pada klasifikasi data teks lirik lagu. Lirik lagu yang digunakan adalah lirik lagu dari beberapa situs website salah satunya adalah lirik.kapanlagi.com dan liriklaguanak.com. Proses klasifikasi yang akan dilakukan pada sistem ini menggunakan metode Multinomial Naïve Bayes sebagai klasifikasi. User dalam sistem ini adalah pihak yang menggunakan sistem. Data yang digunakan dalam penelitian adalah data dengan format ekstensi .txt yang diimport dari direktori kemudian hasil teks akan dieksekusi kedalam proses indexing. Proses klasifikasi tersebut dapat dilihat pada Gambar 3.1. Data Training Tentukan Kategori Tokenazing Normalization Stop Word Stemming Sorting dan Grouping Indexing Hitung Prior Porbabilitas Hitung Conditional Probabilites Laplace Smoothing Training Data Testing Tokenazing Normalization Stop Word Stemming Sorting dan Grouping Indexing Matching Pangkatkan Nilai Conditional Probabilites Hitung Probabilitas Tiap Kelas Testing Hasil Klasifikasi Model Index Index Classification Modelling Gambar 3.1 Diagram Block Proses Klasifikasi