1.8.1.2. Training
a. Hitung prior probabilities:
Contoh perhitungan prior probabilities terhadap kelas surat pengunduran diri:
������� ����������� ���� = 1
3 Nilai 1 adalah jumlah dokumen training dalam kelas surat pengunduran diri.
Nilai 3 adalah jumlah keseluruhan dokumen training dari seluruh kelas.
Tabel 2.15 Hasil perhitungan prior probabilities untuk tiap kelas.
b. Hitung conditional probabilities:
Contoh perhitungan conditional probabilities untuk term ‘alamat’ pada kelas surat lamaran kerja:
�������� | surat lamaran kerja =
1
122
Tabel 2.16 Contoh penghitungan conditional probabilities.
terms Surat pengunduran
diri Surat lamaran
kerja Surat kuasa
alamat
0 68 1 122
2 65
blok
0 68 1 122
2 65
cibinong
0 68 3 122
0 65
ima
1 68 1 122
0 65
indah
0 68 0 122
1 65
jati
6 68 0 122
0 65
kerja
0 68 4 122
0 65
ktp
0 68 0 122
2 65
kuasa
0 68 0 122
4 65
atribut kelas Pclass
surat pengunduran diri 13
surat lamaran kerja 13
surat kuasa 13
lamar
0 68 2 122
0 65
manajer
1 68 1 122
0 65
mitra
6 68 0 122
0 65
puri
0 68 0 122
1 65
staf
0 68 1 122
0 65
surabaya
2 68 0 122
0 65
surat
1 68 0 122
1 65
tanda
0 68 0 122
1 65
tangan
0 68 0 122
1 65
yth
1 68 1 122
0 65
c. Laplace smoothing:
Laplace smoothing digunakan untuk menghilangkan nilai nol term tanpa bobot pada term dari Tabel 2.16. Laplace smoothing merupakan tahap akhir dari proses training
menggunakan algoritma Multinomial Naive Bayes. Hasil yang didapat dari proses ini
akan menjadi Model untuk melakukan klasifikasi.
Contoh perhitungan conditional probabilities untuk term ‘alamat’ pada kelas surat lamaran kerja:
�������� | surat lamaran kerja =
1 + 1
122
+ 255
= 0.005305
Nilai 255 adalah jumlah term di dalam
Tabel 2.16
.
Tabel 2.17 Model.
terms Surat pengunduran
diri Surat lamaran
kerja Surat kuasa
alamat
0.003096 0.005305
0.009375
blok
0.003096 0.005305
0.009375
cibinong
0.003096 0.01061
0.003125
ima
0.006192 0.005305
0.003125
indah
0.003096 0.002653
0.00625
jati
0.021672 0.002653
0.003125
kerja
0.003096 0.013263
0.003125
ktp
0.003096 0.002653
0.009375
kuasa
0.003096 0.002653
0.015625
lamar
0.003096 0.007958
0.003125
manajer
0.006192 0.005305
0.003125
mitra
0.021672 0.002653
0.003125
puri
0.003096 0.002653
0.00625
staf
0.003096 0.005305
0.003125
surabaya
0.009288 0.002653
0.003125
surat
0.006192 0.002653
0.00625
tanda
0.003096 0.002653
0.00625
tangan
0.003096 0.002653
0.00625
yth
0.006192 0.005305
0.003125
1.8.2. Pemrosesan Data Testing