6. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu Kusrini, 2009. Asosiasi lebih kental
dengan suatu analisis kebutuhan.
2.8. Teorema Naive Bayesian
2.8.1. Pengertian Teorema Bayesian
Bayesian Classifier adalah pengklasifikasian statistik yang
dapat digunakan untuk memprediksi probabilitas keanggotaan suatu class
Kusrini, 2009. Bayesian classifier didasarkan pada teorema Bayes yang memiliki kemampuan klasifikasi serupa dengan
decision tree dan neural network. Pendekatan teorema ini
didasarkan pada kuantifikasi trade-off antara berbagai keputusan klasifikasi dengan menggunakan probabilitas dan nilai yang muncul
dalam suatu keputusan. Teorema ini mampu diaplikasi pada database dengan data
yang besar dan memiliki tingkat akurasi dan kecepatan yang tinggi. Teorema Bayesian memiliki bentuk umum sebagai berikut :
� �| =
� |
�
� � � �
........................................2.4 Keterangan :
E = data dengan class yang belum diketahui
H = hipotesis data E merupakan suatu class spesifik
PH|E = probabilitas hipotesis H berdasarkan kondisi E posteriori probability
PH = pobabilitas hipotesis H prior probability PE|H = probabilitas E berdasaerkan kondisi pada hipotesis H
PE = probabilitas dari E
Menurut buku dari Eko Prasetyo, ide dasar dari aturan Bayes adalah bahwa hasil dari hipotesis atau peristiwa H dapat
diperkirakan berdasarkan bukti E yang diamati. Ada beberapa hal penting yang perlu diperhatikan yaitu :
1 Sebuah probabilitas awalprior H atau PH adalah
probabilitas dari suatu hipotesis sebelum bukti diamati. 2
Sebuah probabilitas akhir H atau PH|E adalah probabilitas dari suatu hipotesis setelah bukti diamati.
Dalam Bayes terutama Naive Bayes, maksud independensi yang kuat pada fitur adalah bahwa sebuah fitur pada sebuah data
tidak berkaitan dengan ada atau tidaknya fitur lain dalam data yang sama Eko Prasetyo, 2012.
2.8.2. Naive Bayesian Classifier
Metode Naive Bayes merupakan algoritma machine learning yang bertipe supervised learning yang menerapkan teorema Bayes
yang “naif” dimana asumsinya adalah tiap fitur atribut datra dianggap independen, satu dan lainnya terpisal dan memiliki nilai
sendiri Zhang, 2004. Metode ini dianggap memiliki peforma yang handal dan kompetitif dalam proses pengklasifikasian karena asumsi
independen atribut yang dimiliki sebuah data sangat sesuai dengan pengaplikasiaan di dunia nyata.
Kaitan antara Naive Bayes dengan klasifikasi, korelasi hipotesis, dan bukti dengan klasifikasi adalah bahwa hipotesis dalam
teorema Bayes merupakan label kelas yang menjadi target pemetaan dalam klasifikasi, sedangkan bukti merupakan fitur-fitur yang
menjadi masukan dalam model klasifikasi Eko Prasetyo, 2012. Jika X adalah vektor masukan yang berisi fitur dan Y adalah label
kelas, Naive Bayes dituliskan dengan PY|X. Notasi tersebut berarti probabilitas label Y didapatkan setelah fitur dari X diamati. Notasi
ini disebut juga dengan probabilitas akhir posterior probability untuk Y, sedangkan PY disebut probabilitas awal prior
probability .
Klasifikasi Naive Bayesian yang memiliki nilai atribut yang terpisah atau independen ini dapat dinyatakan dengan rumus sebagai
berikut : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
� | =
� �
�= �
�
�
| �
............................................2.5
Keterangan : PY|X
: Probabilitas data dengan vektor X pada kelas Y PY
: Probabilitas awal kelas Y �
=
� | : Probabilitas independen kelas Y dari semua fitur
vektor X
Pada umumnya, Bayes mudah dihitung untuk fitur bertipe kategories seperti pada kasus diskrit. Namun untuk fitur numerik
data kontinuada perlakuan khusus sebelum dimasukkan dalam Naive Bayes
. Cara tersebut meliputi : 1
Melakukan diskretisasi pada setiap fitur kontinu dan mengganti nilai fitur kontinu tersebut dengan nilai interval
diskret. Pendekatan
ini dilakukan
dengan mentransformasikan fitur kontinu ke dalam fitur ordinal.
2 Mengasumsikan bentuk tertentu dari distribusi dengan data
penelitian. Distribusi Gausian biasanya dipilih untuk merepresentasikan probabilitas bersyarat dari fitur kontinu
pada sebuah kelas PX
i
|Y, sedangkan distribusi Gausian dikarakterisasikan dengan dua parameter yaitu mean, µ, dan
varian, σ
2
. 2.8.3.
EvaluasiValidasi Data
Pada proses evaluasivalidasi, setiap data digunakan dalam jumlah sama untuk data training dan testing. Bentuk pendekatan ini
disebut dengan k-fold cross validation, yang mana data akan dipecah kebeberapa bagian dari tentuan banyaknya k, dengan pembagian
yang rata dari setiap kelompok data. Setiap kali proses berjalan,satu pecahan berperan sebagai data uji sedangakan pecahan lain menjadi
data latih. Total error yang diperoleh dapat dijumlahkan semuanya dan akan memperlihatkan skema validasi benar dan salah Prasetyo,
2014. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2.8.4. Akurasi Klasifikasi Confution Matrix