Naïve Bayes Klasifikasi

33 Setelah pemangkasan pohon, kemudian dilakukan pembentukan aturan keputusan, yaitu membuat aturan keputusan dari pohon yang telah dibentuk. Aturan tersebut dapat dalam bentuk if-then diturunkan dari pohon keputusan dengan melakukan penelusuran dari akar sampai ke daun. Setiap simpul dan percabangan akan diberikan if, sedangkan nilai pada daun akan ditulis then. Setelah semua aturan dibuat, maka aturan dapat disederhanakan digabungkan.

2. Naïve Bayes

Sebelum membahas mengenai naïve bayes, perlunya pengetahuan tentang peluang bersyarat. Peluang bersyarat adalah peluang terjadinya kejadian � bila diketahui bahwa suatu kejadian telah terjadi. Peluang bersyarat dilambangkan denagn � �| dibaca “peluang � bila terjadi”. Persamaan untuk peluang bersyarat sebagai berikut Walpole, 1995: 97-98. � �| = � � ∩ � � � . Sama halnya dengan peluang terjadinya kejadian bila diketahui bahwa suatu kejadian � telah terjadi. � |� = � � ∩ � � � . Dengan mengkombinasikan persamaan 2.6 dan 2.7 maka diperoleh � |� � � = � � ∩ = � �| � sehingga persamaan 2.7 menjadi: |� = � � ∩ � � � |� = � �| � � � 34 Teorema Bayes memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya. Pada teorema Bayes, � dijabarkan oleh kumpulan atribut dengan adalah beberapa hipotesis, sehingga data � termasuk sebuah kelas Han, et al, 2012: 350. Persamaan dari teorema Bayes adalah � |� = � �| � � � . Keterangan : � : Data dengan kelas yang belum diketahui : Hipotesis data � merupakan suatu kelas khusus � |� : Probabilitas hipotesis berdasarkan kondisi � posterior probability � : Probabilitas hipotesis prior probability � �| : Probabilitas � berdasarkan kondisi pada hipotesis � � : Probabilitas � Naïve Bayes adalah pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu class. Bayes merupakan teknik berbasis probabilistik sederhana yang berdasar pada penerapan teorema Bayes dengan asumsi independensi yang kuat. Dengan kata lain, dalam naïve bayes, model yang digunakan adalah “model fitur independen” Eko Prasetyo, 2012: 59. Klasifikasi naïve bayes yang mengacu pada teorema Bayes di atas mempunyai persamaan sebagai berikut � |� = � �| � � � . 35 Keterangan : � |� : Probabilitas hipotesis jika diberikan fakta atau record � posterior probability � �| : Nilai parameter yang memberikan kemungkinan yang paling besar likelihood � : Probabilitas kelas Prior probability � � : Probabilitas � Menurut Han, et al 2012: 351 proses dari pengklasifikasian naïve bayes adalah sebagai berikut: a. Variabel adalah kumpulan dari data dan label yang terkait dengan class. Setiap data diwakili oleh vektor atribut -dimensi, � = � , � , … , � dengan dibuat dari data atribut, berturut-turut, � , � , … , � . b. Misalkan terdapat class, , , … , . Diberikan sebuah data �, kemudian pengklasifikasian akan memprediksi � ke dalam kelompok yang memiliki probabilitas posterior tertinggi berdasarkan kondisi �. Artinya klasifikasi naïve bayes memprediksi bahwa � termasuk class jika dan hanya jika: � |� � |� untuk , ≠ . Maka nilai � |� harus lebih dari � |� supaya diperoleh hasil akhir � |� . c. Ketika � � konstan untuk semua class maka hanya � �| � yang dihitung. Jika probabilitas class prior sebelumnya tidak diketahui, maka diasumsikan bahwa class-nya sama, yaitu � = � = ⋯ = � , 36 untuk menghitung � �| dan � �| � . Perhatikan bahwa probabilitas class prior dapat diperkirakan oleh � = | , | | | . dimana | , | adalah jumlah data training dari kelas dan adalah jumlah total data training yang digunakan. d. Apabila diberikan kumpulan data yang mempunyai banyak atribut, maka perhitungan � �| dengan penjabaran lebih lanjut rumus Bayes tersebut yaitu menjabarkan � � , . . . , � | menggunakan aturan perkalian, menjadi sebagai berikut Samuel Natalius: 2010: � � , … , � | = � � | � � , … , � | , � = � � | � � | , � � � , … , � | , � , � � � , … , � | = � � | � � | , � … � � | , � , � , … , � − Dapat dilihat bahwa hasil penjabaran tersebut menyebabkan semakin banyak dan semakin kompleksnya faktor-faktor syarat yang mempengaruhi nilai probabilitas, yang hampir mustahil untuk dianalisa satu-persatu. Akibatnya, perhitungan tersebut menjadi sulit untuk dilakukan. Oleh karena itu digunakan asumsi independensi yang sangat tinggi naïve, bahwa masing-masing petunjuk � , � , … , � saling bebas independen satu sama lain, maka berlaku suatu kesamaan sebagai berikut Samuel Natalius: 2010: �� |� = �� ∩ � �� = � � �� �� = � � untuk ≠ , sehingga �� | , � = � � | 37 Disimpulkan bahwa asumsi independensi naïve tersebut membuat syarat peluang menjadi sederhana, sehingga perhitungan menjadi mungkin untuk dilakukan. Selanjutnya, penjabaran � � , . . . , � | dapat disederhanakan menjadi seperti berikut: � �| = ∏ � � | = � � | × = � � | × … × � � | . Perhitungan � �| pada setiap atribut mengikuti hal-hal berikut: 1 jika � adalah kategori, maka � � | adalah jumlah data dari kelas di yang memiliki nilai � untuk atribut � dibagi dengan | , | yaitu jumlah data dari kelas di , 2 jika � adalah numerik, biasanya diasumsikan memiliki distribusi Gauss dengan rata-rata � dan standar deviasi �, didefinisikan oleh: �, �, � = √ �� − �−� � . sehingga diperoleh: � � | = � , � , � . Setelah itu akan dihitung � dan � yang merupakan rata-rata dan standar deviasi masing-masing nilai atribut � untuk tupel training kelas . e. � �| � dievaluasi pada setiap kelas untuk memprediksi pengklasifikasian label kelas data � dengan menggunakan � �| � ��| � untuk , ≠ . label kelas untuk data � yang diprediksi adalah kelas jika nilai � �| � lebih dari nilai ��| � . 38

E. Pengujian dan Evaluasi Model