2.3 Klasifikasi Naïve bayesian
Klasifikasi Naïve Bayesian merupakan salah satu algoritma yang terdapat pada teknik klasifikasi. Klasifikasi Naïve Bayesian adalah suatu
metode yang didasarkan pada teorema bayes yang ditemukan oleh Thomas Bayes, yaitu memprediksi peluang dimasa depan terhadap pengalaman
dimasa sebelumnya dengan menggunakan metode probabilitas dan statistik.Persamaan dari teorema Bayes adalah :
Tan et al, 2006
|
|
2.1
dalam hal ini : X
= Data dengan class yang belum diketahui himpunan data
training Y
= Hipotesis
Y|X = Probabilitas posterior, yaitu probabilitas bersyarat dari
hipotesis Y berdasarkan kondisi X. Y
= Probabilitas prior dari hipotesis Y, yaitu probabilitas bahwa
hipotesis Y bernilai benar sebelum data X muncul. X
= Probabilitas dari data X
X|Y = Probabilitas bersyarat dari X berdasarkan kondisi pada
hipotesis Y, dan biasa disebut likehood. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Klasifikasi Naïve Bayesian beranggapan bahwa pengaruh dari nilai atribut pada kelas tertentu tidak bergantung pada nilai-nilai dari atribut
lainnya, kondisi seperti ini dinyatakan dengan rumus seperti berikut : Han Kamber, 2006
| 2.2
Keterangan : X
= Himpunan data training
Y =
Hipotesis Y|X =
Probabilitas prior dari hipotesis Y, yaitu probabilitas bersyarat dari hipotesis Y berdasarkan kondisi X
Y =
Probabilitas prior dari hipotesis Y, yaitu probabilitas bahwa hipotesis Y bernilai benar sebelum data X muncul.
X =
probabilitas dari data X. PX1│YPX2│Y..PXn│YPY = Probabilitas dari X1, X2, Xn untuk
hipotesis Y, biasa disebut dengan likehood. Karena PX irrelevant, maka untuk mencari peluang hanya menggunakan
rumus berikut ini : Han Kamber, 2006 | | | |
2.3
Jika nilai PXn|Y adalah 0, maka nilai PY|X = 0. Maka klasifikasi Naïve Bayesian tidak bisa dilakukan, karena klasifikasi Naïve Bayesian tidak bisa
memprediksi record yang salah satu atributnya memiliki probabilitas bersyarat likehood = 0. Untuk mengatasi hal tersebut, dilakukan
penambahan nilai 1 ke setiap evidence PX dalam perhitungan sehingga probabilitas tidak akan bernilai 0.
2.4 Cross Validation