33 Setelah pemangkasan pohon, kemudian dilakukan pembentukan aturan
keputusan, yaitu membuat aturan keputusan dari pohon yang telah dibentuk. Aturan tersebut dapat dalam bentuk if-then diturunkan dari pohon keputusan dengan
melakukan penelusuran dari akar sampai ke daun. Setiap simpul dan percabangan akan diberikan if, sedangkan nilai pada daun akan ditulis then. Setelah semua aturan
dibuat, maka aturan dapat disederhanakan digabungkan.
2. Naïve Bayes
Sebelum membahas mengenai naïve bayes, perlunya pengetahuan tentang peluang bersyarat. Peluang bersyarat adalah peluang terjadinya kejadian
� bila diketahui bahwa suatu kejadian telah terjadi. Peluang bersyarat dilambangkan
denagn � �| dibaca “peluang � bila terjadi”. Persamaan untuk peluang
bersyarat sebagai berikut Walpole, 1995: 97-98. � �|
= � � ∩
� � � .
Sama halnya dengan peluang terjadinya kejadian bila diketahui bahwa suatu kejadian
� telah terjadi. � |� =
� � ∩ � �
� .
Dengan mengkombinasikan persamaan 2.6 dan 2.7 maka diperoleh � |� � � = � � ∩
= � �| � sehingga persamaan 2.7 menjadi:
|� = � � ∩
� � � |� =
� �| � � �
34 Teorema Bayes memprediksi peluang di masa depan berdasarkan
pengalaman di masa sebelumnya. Pada teorema Bayes, � dijabarkan oleh kumpulan
atribut dengan adalah beberapa hipotesis, sehingga data � termasuk sebuah kelas Han, et al, 2012: 350. Persamaan dari teorema Bayes adalah
� |� = � �| �
� � .
Keterangan : �
: Data dengan kelas yang belum diketahui : Hipotesis data
� merupakan suatu kelas khusus � |� : Probabilitas hipotesis berdasarkan kondisi � posterior probability
� : Probabilitas hipotesis prior probability
� �| : Probabilitas � berdasarkan kondisi pada hipotesis � � : Probabilitas �
Naïve Bayes adalah pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu class. Bayes merupakan teknik
berbasis probabilistik sederhana yang berdasar pada penerapan teorema Bayes dengan asumsi independensi yang kuat. Dengan kata lain, dalam naïve bayes, model
yang digunakan adalah “model fitur independen” Eko Prasetyo, 2012: 59. Klasifikasi naïve bayes yang mengacu pada teorema Bayes di atas mempunyai
persamaan sebagai berikut � |� =
� �| � � �
.
35 Keterangan :
� |� : Probabilitas hipotesis jika diberikan fakta atau record � posterior probability
� �| : Nilai parameter yang memberikan kemungkinan yang paling besar likelihood
� : Probabilitas kelas Prior probability
� � : Probabilitas
� Menurut Han, et al 2012: 351 proses dari pengklasifikasian naïve bayes
adalah sebagai berikut: a.
Variabel adalah kumpulan dari data dan label yang terkait dengan class. Setiap data diwakili oleh vektor atribut -dimensi,
� = � , � , … , � dengan dibuat dari data atribut, berturut-turut,
� , � , … , � . b.
Misalkan terdapat class, , , … , . Diberikan sebuah data �, kemudian pengklasifikasian akan memprediksi
� ke dalam kelompok yang memiliki probabilitas posterior tertinggi berdasarkan kondisi
�. Artinya klasifikasi naïve bayes memprediksi bahwa
� termasuk class jika dan hanya jika: � |� � |� untuk
, ≠ . Maka nilai
� |� harus lebih dari � |� supaya diperoleh hasil akhir � |� .
c. Ketika � � konstan untuk semua class maka hanya � �| �
yang dihitung. Jika probabilitas class prior sebelumnya tidak diketahui, maka
diasumsikan bahwa class-nya sama, yaitu �
= � = ⋯ = �
,
36 untuk menghitung
� �| dan � �| � . Perhatikan bahwa probabilitas
class prior dapat diperkirakan oleh �
= |
,
| | | .
dimana |
,
| adalah jumlah data training dari kelas dan adalah jumlah total data training yang digunakan.
d. Apabila diberikan kumpulan data yang mempunyai banyak atribut, maka
perhitungan � �| dengan penjabaran lebih lanjut rumus Bayes tersebut
yaitu menjabarkan � � , . . . , � | menggunakan aturan perkalian, menjadi
sebagai berikut Samuel Natalius: 2010: � � , … , � |
= � � | � � , … , � | , � = � � | � � | , � � � , … , � | , � , �
� � , … , � | = � � | � � | , � … � � | , � , � , … , �
−
Dapat dilihat bahwa hasil penjabaran tersebut menyebabkan semakin banyak dan semakin kompleksnya faktor-faktor syarat yang mempengaruhi nilai
probabilitas, yang hampir mustahil untuk dianalisa satu-persatu. Akibatnya, perhitungan tersebut menjadi sulit untuk dilakukan. Oleh karena itu digunakan
asumsi independensi yang sangat tinggi naïve, bahwa masing-masing petunjuk
� , � , … , � saling bebas independen satu sama lain, maka berlaku suatu kesamaan sebagai berikut Samuel Natalius: 2010:
�� |� = �� ∩ �
�� =
� � �� ��
= � � untuk ≠ , sehingga �� | , � = � � |
37 Disimpulkan bahwa asumsi independensi naïve tersebut membuat syarat
peluang menjadi sederhana, sehingga perhitungan menjadi mungkin untuk dilakukan. Selanjutnya, penjabaran
� � , . . . , � | dapat disederhanakan menjadi seperti berikut:
� �| = ∏ � � |
= � � | ×
=
� � | × … × � � | .
Perhitungan � �| pada setiap atribut mengikuti hal-hal berikut:
1 jika � adalah kategori, maka � � | adalah jumlah data dari kelas di
yang memiliki nilai � untuk atribut � dibagi dengan |
,
| yaitu jumlah data dari kelas di ,
2 jika � adalah numerik, biasanya diasumsikan memiliki distribusi Gauss
dengan rata-rata � dan standar deviasi �, didefinisikan oleh:
�, �, � = √ ��
− �−� �
. sehingga diperoleh:
� � | = � , � , � .
Setelah itu akan dihitung � dan � yang merupakan rata-rata dan standar
deviasi masing-masing nilai atribut � untuk tupel training kelas .
e. � �| �
dievaluasi pada setiap kelas untuk memprediksi
pengklasifikasian label kelas data � dengan menggunakan
� �| � ��| � untuk
, ≠ . label kelas untuk data
� yang diprediksi adalah kelas jika nilai � �| � lebih dari nilai
��| � .
38
E. Pengujian dan Evaluasi Model