2.3 Naive Bayesian
Bayesian filter atau Naive Bayes Classifier merupakan metode terbaru untuk mengklasifikasikan dokumen. Algoritma ini adalah metode probabilitas dan
dikemukakan oleh ilmuwan Inggris bernama Thomas Bayes, yaitu memprediksi probabilitas di masa depan berdasarkan pengalaman sebelumnya. Dasar dari
teorema Naive Bayes digunakan dalam pemrograman adalah rumus Naive Bayes sebagai berikut ini:
│ = │ ∗
2.12 P A|B = Probabilitas yang dihitung Posterior dari peristiwa A karena
adanya informasi yang dikandung dalam peristiwa B. P B|A = Probabilitas yang dihitung Posterior dari peristiwa B karena
adanya informasi yang dikandung dalam peristiwa A. P A = Probabilitas tak bersyarat atau disebut probabilitas awal Prior
dari peristiwa A. P B = Probabilitas tak bersyarat atau disebut probabilitas awal Prior
dari peristiwa B.
2.3.1 Klasifikasi Naive Bayesian
Jika X adalah vektor masukkan yang berisi fitur dan Y adalah label kelas, Naïve Bayes dituliskan dengan P X|Y. Notasi tersebut berarti probabilitas label
kelas Y didapatkan setelah fitur-fitur X diamati. Notasi ini disebut juga probabilitas akhir posterior probability untuk Y, sedangkan P Y disebut
probabilitas awal prior probability Y.
Selama proses pelatihan harus dilakukan pembelajaran probabilitas akhir P Y|X pada model untuk setiap kombinasi X dan Y bedasarkan informasi yang
didapat dari data latih. Dengan membangun model terse but, suatu data uji X’
dapat diklasifikasikan dengan mencari nilai Y’ dengan memaksimalkan nilai PX’|Y’.
Yang lalu didapatkan rumus Naïve Bayes untuk klasifikasi sebagai berikut:
| =
� ∏
� �|
� �=1
�
2.13 PY|X adalah probabilitas data dengan vektor X pada kelas Y. PY
adalah probabilitas awal kelas Y. ∏
�
|
� �=
adalah probabilitas independen kelas Y dari semua fitur dalam vektor X. Nilai PX selalu tetap sehingga dalam
perhitungan prediksi
selanjutnya tinggal
menghitung bagian
∏
�
|
� �=
dengan memilih yang terbesar sebagai kelas yagg dipilih sebagai hasil prediksi. Sementara probabilitas independen
∏
�
|
� �=
tersebut merupakan pengaruh semua fitur dari data terhadap setiap kelas Y.
Naive bayesian memiliki bentuk peluang kelas bersyarat untuk atribut kontinyu. Distribusi dikarakterisasi dengan dua parameter yaitu mean,
, dan varian,
2
. Untuk tiap kelas
j
y , peluang kelas bersyarat untuk atribut
i
X adalah
ij ij
i
x ij
j i
i
y Y
x X
P
2 2
2
exp 2
1
2.14
Parameter
ij
dapat diestimasi berdasarkan sampel mean
i
X
x untuk seluruh
training record yang dimiliki kelas
j
y . Dengan cara sama,
ij 2
dapat diestimasi dari sampel varian
2
s training record tersebut.
2.3.2 Contoh Perhitungan Naive Bayesian
Terdapat data sebagai berikut: Tabel 2.2 Tabel IPK
IPK
Tidak
Lulus
2
3.5
3
3.25
2
2.75
2.5
3.5
1.6
4
2.5
3.75
2.3
2.25
3.25
3.8
Jika terdapat IPK 3.5 nilai tersebut dikategorikan lulus atau tidak. Langkah pertama adalah menentukan rata-rata dan standar deviasi untuk masing-masing
kelas.
Tabel 2.3 Hasil IPK IPK
Tidak Lulus
2 3.5
3 3.25
2 2.75
2.5 3.5
1.6 4
2.5 3.75
2.3 2.25
3.25 3.8
Mean 2.39375
3.35 Standar Deviasi
0.544083 0.586759
Kemudian nilai mean dan standar deviasi dimasukkan kedalam rumus naive bayesian bersarat pada rumus 2.14. Setelah itu dihasilkan nilai sebagai
berikut: Tabel 2.4 Hasil Uji IPK
gIPK= . 5,m,σ|Tidak
0.73342325 0.289865
0.212593567 gIPK= . 5,m,σ|Lulus
0.680081055 0.985582
0.670275732
Dihasilkan nilai IPK 3,25 mirip dengan data training lulus jadi dapat disimpulkan bahwa jika IPK 3,25 kemungkinan besar lulus.
2.4 Confusion Matrix