13
{ber, ke,
peng}
Tabel 2.6 Aturan 6 Suku Kata dalam Bahasa Indonesia
Akhiran Replacement Measure Conditional
Kh, ng, ny Kh, ng, ny
1 Ma, af, nya, nga
Ma, af, nya, nga 2
Maaf, kami, rumpun, kompleks Ma-af, ka-mi, rum-pun, kom-pleks
3 Mengapa, menggunung, tandai
Meng-apa, meng-gu-nung, tan-da-i
2.5 Klasifikasi Teks
Banyak kebutuhan pengguna dalam berbagai macam aplikasi dalam menggunakan pengklasifikasian teks, misalnya dalam data teks yang datanya terus
bertambah. Klasifikasi teks kata masuk pada golongan supervised dikarenakan merupakan proses pembentukan golongan atau kelas dari data teks berdasarkan
golongan atau kelas yang sesuai dengan kebutuhan. Klasifikasi teks merupakan suatu proses pengklasifikasian terhadap suatu
data teks dengan membagi menjadi beberapa bagian kelas yang berbeda. Proses klasifikasi tersebut akan melalui beberapa tahapan reprocessing untuk mendapatkan
data yang dibutuhkan oleh pengguna sehingga proses klasifikasi memiliki tingkat akurasi yang tinggi. Penggunaan klasifikasi pada teks biasanya dapat digunakan
pada beberapa data.
14
2.6 Naive Bayes
Naïve bayes Tan Kumar, 2006 merupakan salah satu metode yang digunakan untuk pengklasifikasian sebuah data dengan berdasarkan teorema bayes
dengan mengasumsikan bahwa suatu data memiliki sifat tidak saling terkait antar satu dengan yang lain atau disebut independen. Teknik penggunaan Naive Bayes
sangat sederhana dan cepat dengan penggunaan probabilistik. Untuk memaksimalkan penggunaan dari metode Naive Bayes maka digunakan metode
Multinomial Naive Bayes.
2.7 Multinomial Naive Bayes
Multinomial Naive Bayes merupakan proses pengambilan jumlah kata yang muncul dalam setiap dokumen, dengan mengasumsikan dokumen memiliki
beberapa kejadian dalam kata dengan panjang yang tidak tergantung dari kelasnya dalam dokumen. Menurut Manning, Raghavan, Schutze, 2008, probabilitas
sebuah dokumen d berada dikelas c, kondisi berikut dapat dinyatakan dengan rumus:
� | ∝ � ∏
� �
�
|
≤�≤�
1 Pt
k
|c merupakan conditional probabilitas dari kata �
�
yang terdapat dalam sebuah dokumen dari kelas c.
Pc merupakan prior probabilitas dari sebuah dokumen yang terdapat dalam kelas c.
t
1,
t
2,
…, t
nd
merupakan token dalam dokumen d yang merupakan bagian dari vocabulary
yang digunakan sebagai klasifikasi dan merupakan jumlah token dalam dokumen d.
15
Untuk memperkirakan prior probability �
̂ dinyatakan dengan rumus:
� =
� �
2 �
�
= jumlah dokumen training dalam kelas c. � = jumlah keseluruhan dokumen training dari seluruh kelas.
Untuk perkiraan conditional probability �
̂ �| dinyatakan dengan rumus: � �| =
�
�
∑ �
′
∈� �
�
3 �
��
= jumlah kemunculan kata t dalam sebuah dokumen training pada kelas c.
�
�
∑ �
′
∈� �
�
= jumlah total keseluruhan kata dalam dokumen training pada kelas c. �
′
= jumlah total kata dalam dokumen training Untuk menghilangkan nilai nol pada sebuah dokumen, digunakan laplace
smoothing sebagai proses penambahan nilai 1 pada setiap nilai T
ct
pada perhitungan conditional probabilities
dan dinyatakan dengan rumus: � ��
��
| =
�
�
+ ∑ �
′
∈� �
�
+ �
′
4 �
′
= total kata unik pada keseluruhan kelas dalam dokumen training Untuk memperoleh nilai probabilitas yang tinggi dari setiap kata digunakan laplace
smoothing atau add-one, laplace smoothing digunakan agar nilai dari probabilitas masing
– masing kata dapat memenuhi syarat yaitu tidak sama dengan 0. Jika nilai dari probabilitas kata adalah 0 maka data baik training maupun testing tidak akan
pernah cukup untuk mewakili frekuensi saat terdapat kejadian langka.
16
2.8 Penerapan Multinomial Naive Bayes Pada Klasifikasi Teks