Pengertian Teorema Bayesian Naive Bayesian Classifier

6. Asosiasi Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu Kusrini, 2009. Asosiasi lebih kental dengan suatu analisis kebutuhan.

2.8. Teorema Naive Bayesian

2.8.1. Pengertian Teorema Bayesian

Bayesian Classifier adalah pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu class Kusrini, 2009. Bayesian classifier didasarkan pada teorema Bayes yang memiliki kemampuan klasifikasi serupa dengan decision tree dan neural network. Pendekatan teorema ini didasarkan pada kuantifikasi trade-off antara berbagai keputusan klasifikasi dengan menggunakan probabilitas dan nilai yang muncul dalam suatu keputusan. Teorema ini mampu diaplikasi pada database dengan data yang besar dan memiliki tingkat akurasi dan kecepatan yang tinggi. Teorema Bayesian memiliki bentuk umum sebagai berikut : � �| = � | � � � � � ........................................2.4 Keterangan : E = data dengan class yang belum diketahui H = hipotesis data E merupakan suatu class spesifik PH|E = probabilitas hipotesis H berdasarkan kondisi E posteriori probability PH = pobabilitas hipotesis H prior probability PE|H = probabilitas E berdasaerkan kondisi pada hipotesis H PE = probabilitas dari E Menurut buku dari Eko Prasetyo, ide dasar dari aturan Bayes adalah bahwa hasil dari hipotesis atau peristiwa H dapat diperkirakan berdasarkan bukti E yang diamati. Ada beberapa hal penting yang perlu diperhatikan yaitu : 1 Sebuah probabilitas awalprior H atau PH adalah probabilitas dari suatu hipotesis sebelum bukti diamati. 2 Sebuah probabilitas akhir H atau PH|E adalah probabilitas dari suatu hipotesis setelah bukti diamati. Dalam Bayes terutama Naive Bayes, maksud independensi yang kuat pada fitur adalah bahwa sebuah fitur pada sebuah data tidak berkaitan dengan ada atau tidaknya fitur lain dalam data yang sama Eko Prasetyo, 2012.

2.8.2. Naive Bayesian Classifier

Metode Naive Bayes merupakan algoritma machine learning yang bertipe supervised learning yang menerapkan teorema Bayes yang “naif” dimana asumsinya adalah tiap fitur atribut datra dianggap independen, satu dan lainnya terpisal dan memiliki nilai sendiri Zhang, 2004. Metode ini dianggap memiliki peforma yang handal dan kompetitif dalam proses pengklasifikasian karena asumsi independen atribut yang dimiliki sebuah data sangat sesuai dengan pengaplikasiaan di dunia nyata. Kaitan antara Naive Bayes dengan klasifikasi, korelasi hipotesis, dan bukti dengan klasifikasi adalah bahwa hipotesis dalam teorema Bayes merupakan label kelas yang menjadi target pemetaan dalam klasifikasi, sedangkan bukti merupakan fitur-fitur yang menjadi masukan dalam model klasifikasi Eko Prasetyo, 2012. Jika X adalah vektor masukan yang berisi fitur dan Y adalah label kelas, Naive Bayes dituliskan dengan PY|X. Notasi tersebut berarti probabilitas label Y didapatkan setelah fitur dari X diamati. Notasi ini disebut juga dengan probabilitas akhir posterior probability untuk Y, sedangkan PY disebut probabilitas awal prior probability . Klasifikasi Naive Bayesian yang memiliki nilai atribut yang terpisah atau independen ini dapat dinyatakan dengan rumus sebagai berikut : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI � | = � � �= � � � | � ............................................2.5 Keterangan : PY|X : Probabilitas data dengan vektor X pada kelas Y PY : Probabilitas awal kelas Y � = � | : Probabilitas independen kelas Y dari semua fitur vektor X Pada umumnya, Bayes mudah dihitung untuk fitur bertipe kategories seperti pada kasus diskrit. Namun untuk fitur numerik data kontinuada perlakuan khusus sebelum dimasukkan dalam Naive Bayes . Cara tersebut meliputi : 1 Melakukan diskretisasi pada setiap fitur kontinu dan mengganti nilai fitur kontinu tersebut dengan nilai interval diskret. Pendekatan ini dilakukan dengan mentransformasikan fitur kontinu ke dalam fitur ordinal. 2 Mengasumsikan bentuk tertentu dari distribusi dengan data penelitian. Distribusi Gausian biasanya dipilih untuk merepresentasikan probabilitas bersyarat dari fitur kontinu pada sebuah kelas PX i |Y, sedangkan distribusi Gausian dikarakterisasikan dengan dua parameter yaitu mean, µ, dan varian, σ 2 . 2.8.3. EvaluasiValidasi Data Pada proses evaluasivalidasi, setiap data digunakan dalam jumlah sama untuk data training dan testing. Bentuk pendekatan ini disebut dengan k-fold cross validation, yang mana data akan dipecah kebeberapa bagian dari tentuan banyaknya k, dengan pembagian yang rata dari setiap kelompok data. Setiap kali proses berjalan,satu pecahan berperan sebagai data uji sedangakan pecahan lain menjadi data latih. Total error yang diperoleh dapat dijumlahkan semuanya dan akan memperlihatkan skema validasi benar dan salah Prasetyo, 2014. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.8.4. Akurasi Klasifikasi Confution Matrix