Klasifikasi Naive Bayesian Contoh Perhitungan Naive Bayesian

2.3 Naive Bayesian

Bayesian filter atau Naive Bayes Classifier merupakan metode terbaru untuk mengklasifikasikan dokumen. Algoritma ini adalah metode probabilitas dan dikemukakan oleh ilmuwan Inggris bernama Thomas Bayes, yaitu memprediksi probabilitas di masa depan berdasarkan pengalaman sebelumnya. Dasar dari teorema Naive Bayes digunakan dalam pemrograman adalah rumus Naive Bayes sebagai berikut ini: │ = │ ∗ 2.12  P A|B = Probabilitas yang dihitung Posterior dari peristiwa A karena adanya informasi yang dikandung dalam peristiwa B.  P B|A = Probabilitas yang dihitung Posterior dari peristiwa B karena adanya informasi yang dikandung dalam peristiwa A.  P A = Probabilitas tak bersyarat atau disebut probabilitas awal Prior dari peristiwa A.  P B = Probabilitas tak bersyarat atau disebut probabilitas awal Prior dari peristiwa B.

2.3.1 Klasifikasi Naive Bayesian

Jika X adalah vektor masukkan yang berisi fitur dan Y adalah label kelas, Naïve Bayes dituliskan dengan P X|Y. Notasi tersebut berarti probabilitas label kelas Y didapatkan setelah fitur-fitur X diamati. Notasi ini disebut juga probabilitas akhir posterior probability untuk Y, sedangkan P Y disebut probabilitas awal prior probability Y. Selama proses pelatihan harus dilakukan pembelajaran probabilitas akhir P Y|X pada model untuk setiap kombinasi X dan Y bedasarkan informasi yang didapat dari data latih. Dengan membangun model terse but, suatu data uji X’ dapat diklasifikasikan dengan mencari nilai Y’ dengan memaksimalkan nilai PX’|Y’. Yang lalu didapatkan rumus Naïve Bayes untuk klasifikasi sebagai berikut: | = � ∏ � �| � �=1 � 2.13 PY|X adalah probabilitas data dengan vektor X pada kelas Y. PY adalah probabilitas awal kelas Y. ∏ � | � �= adalah probabilitas independen kelas Y dari semua fitur dalam vektor X. Nilai PX selalu tetap sehingga dalam perhitungan prediksi selanjutnya tinggal menghitung bagian ∏ � | � �= dengan memilih yang terbesar sebagai kelas yagg dipilih sebagai hasil prediksi. Sementara probabilitas independen ∏ � | � �= tersebut merupakan pengaruh semua fitur dari data terhadap setiap kelas Y. Naive bayesian memiliki bentuk peluang kelas bersyarat untuk atribut kontinyu. Distribusi dikarakterisasi dengan dua parameter yaitu mean,  , dan varian, 2  . Untuk tiap kelas j y , peluang kelas bersyarat untuk atribut i X adalah     ij ij i x ij j i i y Y x X P 2 2 2 exp 2 1          2.14 Parameter ij  dapat diestimasi berdasarkan sampel mean i X   x untuk seluruh training record yang dimiliki kelas j y . Dengan cara sama, ij 2  dapat diestimasi dari sampel varian   2 s training record tersebut.

2.3.2 Contoh Perhitungan Naive Bayesian

Terdapat data sebagai berikut: Tabel 2.2 Tabel IPK IPK Tidak Lulus 2 3.5 3 3.25 2 2.75 2.5 3.5 1.6 4 2.5 3.75 2.3 2.25 3.25 3.8 Jika terdapat IPK 3.5 nilai tersebut dikategorikan lulus atau tidak. Langkah pertama adalah menentukan rata-rata dan standar deviasi untuk masing-masing kelas. Tabel 2.3 Hasil IPK IPK Tidak Lulus 2 3.5 3 3.25 2 2.75 2.5 3.5 1.6 4 2.5 3.75 2.3 2.25 3.25 3.8 Mean 2.39375 3.35 Standar Deviasi 0.544083 0.586759 Kemudian nilai mean dan standar deviasi dimasukkan kedalam rumus naive bayesian bersarat pada rumus 2.14. Setelah itu dihasilkan nilai sebagai berikut: Tabel 2.4 Hasil Uji IPK gIPK= . 5,m,σ|Tidak 0.73342325 0.289865 0.212593567 gIPK= . 5,m,σ|Lulus 0.680081055 0.985582 0.670275732 Dihasilkan nilai IPK 3,25 mirip dengan data training lulus jadi dapat disimpulkan bahwa jika IPK 3,25 kemungkinan besar lulus.

2.4 Confusion Matrix