Klasifikasi Teks Naive Bayes Multinomial Naive Bayes

13 {ber, ke, peng} Tabel 2.6 Aturan 6 Suku Kata dalam Bahasa Indonesia Akhiran Replacement Measure Conditional Kh, ng, ny Kh, ng, ny 1 Ma, af, nya, nga Ma, af, nya, nga 2 Maaf, kami, rumpun, kompleks Ma-af, ka-mi, rum-pun, kom-pleks 3 Mengapa, menggunung, tandai Meng-apa, meng-gu-nung, tan-da-i

2.5 Klasifikasi Teks

Banyak kebutuhan pengguna dalam berbagai macam aplikasi dalam menggunakan pengklasifikasian teks, misalnya dalam data teks yang datanya terus bertambah. Klasifikasi teks kata masuk pada golongan supervised dikarenakan merupakan proses pembentukan golongan atau kelas dari data teks berdasarkan golongan atau kelas yang sesuai dengan kebutuhan. Klasifikasi teks merupakan suatu proses pengklasifikasian terhadap suatu data teks dengan membagi menjadi beberapa bagian kelas yang berbeda. Proses klasifikasi tersebut akan melalui beberapa tahapan reprocessing untuk mendapatkan data yang dibutuhkan oleh pengguna sehingga proses klasifikasi memiliki tingkat akurasi yang tinggi. Penggunaan klasifikasi pada teks biasanya dapat digunakan pada beberapa data. 14

2.6 Naive Bayes

Naïve bayes Tan Kumar, 2006 merupakan salah satu metode yang digunakan untuk pengklasifikasian sebuah data dengan berdasarkan teorema bayes dengan mengasumsikan bahwa suatu data memiliki sifat tidak saling terkait antar satu dengan yang lain atau disebut independen. Teknik penggunaan Naive Bayes sangat sederhana dan cepat dengan penggunaan probabilistik. Untuk memaksimalkan penggunaan dari metode Naive Bayes maka digunakan metode Multinomial Naive Bayes.

2.7 Multinomial Naive Bayes

Multinomial Naive Bayes merupakan proses pengambilan jumlah kata yang muncul dalam setiap dokumen, dengan mengasumsikan dokumen memiliki beberapa kejadian dalam kata dengan panjang yang tidak tergantung dari kelasnya dalam dokumen. Menurut Manning, Raghavan, Schutze, 2008, probabilitas sebuah dokumen d berada dikelas c, kondisi berikut dapat dinyatakan dengan rumus: � | ∝ � ∏ � � � | ≤�≤� 1 Pt k |c merupakan conditional probabilitas dari kata � � yang terdapat dalam sebuah dokumen dari kelas c. Pc merupakan prior probabilitas dari sebuah dokumen yang terdapat dalam kelas c. t 1, t 2, …, t nd merupakan token dalam dokumen d yang merupakan bagian dari vocabulary yang digunakan sebagai klasifikasi dan merupakan jumlah token dalam dokumen d. 15 Untuk memperkirakan prior probability � ̂ dinyatakan dengan rumus: � = � � 2 � � = jumlah dokumen training dalam kelas c. � = jumlah keseluruhan dokumen training dari seluruh kelas. Untuk perkiraan conditional probability � ̂ �| dinyatakan dengan rumus: � �| = � � ∑ � ′ ∈� � � 3 � �� = jumlah kemunculan kata t dalam sebuah dokumen training pada kelas c. � � ∑ � ′ ∈� � � = jumlah total keseluruhan kata dalam dokumen training pada kelas c. � ′ = jumlah total kata dalam dokumen training Untuk menghilangkan nilai nol pada sebuah dokumen, digunakan laplace smoothing sebagai proses penambahan nilai 1 pada setiap nilai T ct pada perhitungan conditional probabilities dan dinyatakan dengan rumus: � �� �� | = � � + ∑ � ′ ∈� � � + � ′ 4 � ′ = total kata unik pada keseluruhan kelas dalam dokumen training Untuk memperoleh nilai probabilitas yang tinggi dari setiap kata digunakan laplace smoothing atau add-one, laplace smoothing digunakan agar nilai dari probabilitas masing – masing kata dapat memenuhi syarat yaitu tidak sama dengan 0. Jika nilai dari probabilitas kata adalah 0 maka data baik training maupun testing tidak akan pernah cukup untuk mewakili frekuensi saat terdapat kejadian langka. 16

2.8 Penerapan Multinomial Naive Bayes Pada Klasifikasi Teks