Teorema Naive Bayesian Klasifikasi diagnosa diabetes mellitus dengan penerapan metode Naive Bayesian Clasifier

6. Asosiasi Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu Kusrini, 2009. Asosiasi lebih kental dengan suatu analisis kebutuhan.

2.8. Teorema Naive Bayesian

2.8.1. Pengertian Teorema Bayesian

Bayesian Classifier adalah pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu class Kusrini, 2009. Bayesian classifier didasarkan pada teorema Bayes yang memiliki kemampuan klasifikasi serupa dengan decision tree dan neural network . Pendekatan teorema ini didasarkan pada kuantifikasi trade-off antara berbagai keputusan klasifikasi dengan menggunakan probabilitas dan nilai yang muncul dalam suatu keputusan. Teorema ini mampu diaplikasi pada database dengan data yang besar dan memiliki tingkat akurasi dan kecepatan yang tinggi. Teorema Bayesian memiliki bentuk umum sebagai berikut : � �| = � | � � � � � ........................................2.4 Keterangan : E = data dengan class yang belum diketahui H = hipotesis data E merupakan suatu class spesifik PH|E = probabilitas hipotesis H berdasarkan kondisi E posteriori probability PH = pobabilitas hipotesis H prior probability PE|H = probabilitas E berdasaerkan kondisi pada hipotesis H PE = probabilitas dari E Menurut buku dari Eko Prasetyo, ide dasar dari aturan Bayes adalah bahwa hasil dari hipotesis atau peristiwa H dapat diperkirakan berdasarkan bukti E yang diamati. Ada beberapa hal penting yang perlu diperhatikan yaitu : 1 Sebuah probabilitas awalprior H atau PH adalah probabilitas dari suatu hipotesis sebelum bukti diamati. 2 Sebuah probabilitas akhir H atau PH|E adalah probabilitas dari suatu hipotesis setelah bukti diamati. Dalam Bayes terutama Naive Bayes , maksud independensi yang kuat pada fitur adalah bahwa sebuah fitur pada sebuah data tidak berkaitan dengan ada atau tidaknya fitur lain dalam data yang sama Eko Prasetyo, 2012. 2.8.2. Naive Bayesian Classifier Metode Naive Bayes merupakan algoritma machine learning yang bertipe supervised learning yang menerapkan teorema Bayes yang “naif” dimana asumsinya adalah tiap fitur atribut datra dianggap independen, satu dan lainnya terpisal dan memiliki nilai sendiri Zhang, 2004. Metode ini dianggap memiliki peforma yang handal dan kompetitif dalam proses pengklasifikasian karena asumsi independen atribut yang dimiliki sebuah data sangat sesuai dengan pengaplikasiaan di dunia nyata. Kaitan antara Naive Bayes dengan klasifikasi, korelasi hipotesis, dan bukti dengan klasifikasi adalah bahwa hipotesis dalam teorema Bayes merupakan label kelas yang menjadi target pemetaan dalam klasifikasi, sedangkan bukti merupakan fitur-fitur yang menjadi masukan dalam model klasifikasi Eko Prasetyo, 2012. Jika X adalah vektor masukan yang berisi fitur dan Y adalah label kelas, Naive Bayes dituliskan dengan PY|X. Notasi tersebut berarti probabilitas label Y didapatkan setelah fitur dari X diamati. Notasi ini disebut juga dengan probabilitas akhir posterior probability untuk Y, sedangkan PY disebut probabilitas awal prior probability . Klasifikasi Naive Bayesian yang memiliki nilai atribut yang terpisah atau independen ini dapat dinyatakan dengan rumus sebagai berikut : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI � | = � � �= � � � | � ............................................2.5 Keterangan : PY|X : Probabilitas data dengan vektor X pada kelas Y PY : Probabilitas awal kelas Y � = � | : Probabilitas independen kelas Y dari semua fitur vektor X Pada umumnya, Bayes mudah dihitung untuk fitur bertipe kategories seperti pada kasus diskrit. Namun untuk fitur numerik data kontinuada perlakuan khusus sebelum dimasukkan dalam Naive Bayes . Cara tersebut meliputi : 1 Melakukan diskretisasi pada setiap fitur kontinu dan mengganti nilai fitur kontinu tersebut dengan nilai interval diskret. Pendekatan ini dilakukan dengan mentransformasikan fitur kontinu ke dalam fitur ordinal. 2 Mengasumsikan bentuk tertentu dari distribusi dengan data penelitian. Distribusi Gausian biasanya dipilih untuk merepresentasikan probabilitas bersyarat dari fitur kontinu pada sebuah kelas PX i |Y, sedangkan distribusi Gausian dikarakterisasikan dengan dua parameter yaitu mean, µ, dan varian, σ 2 .

2.8.3. EvaluasiValidasi Data

Pada proses evaluasivalidasi, setiap data digunakan dalam jumlah sama untuk data training dan testing . Bentuk pendekatan ini disebut dengan k-fold cross validation , yang mana data akan dipecah kebeberapa bagian dari tentuan banyaknya k , dengan pembagian yang rata dari setiap kelompok data. Setiap kali proses berjalan,satu pecahan berperan sebagai data uji sedangakan pecahan lain menjadi data latih. Total error yang diperoleh dapat dijumlahkan semuanya dan akan memperlihatkan skema validasi benar dan salah Prasetyo, 2014.

2.8.4. Akurasi Klasifikasi

Confution Matrix Metode ini hanya menggunakan tabel matriks terdapat pada proses jika dataset memiliki kelas yaitu kelas yang dianggap positif dan kelas lainnya merupakan kelas negatif Bramer, 2007. Evaluasi dengan confution matrix ini menghasilkan nilai akurasi, precison , dan recall terhadap klasifikasi yang telah dilakukan. Akurasi dalam klasifikasi adalah presentase ketetapan record data yang diklasifikasikan secara benar setelah dilakukan pengujian pada hasil klasifikasi Han Kamber, 2006. Sedangkan precision atau confidence adalah proporsi kasus yang diprediksi positif yang juga positif benar pada data yang sebenarnya. Recall atau sensitivitas adalah proporsi kasus positif yang sebenarnya yang diprediksi positif secara benar Powers, 2011. Correct Clasification Classified as + - + True positives False negative - False positive True negative Tabel 2. 3 Cross Validation True positive dan false positive adalah jumlah record positif dan negatif yang diklasifikasikan sebagai positif, sedangkan false negative dan true negatif adalah jumlah record positif dan negatif yang diklasifikasikan sebagai negatif. Lalu masukkan data uji, setelah itu hitung nilai yang telah dimasukkan tersebut untuk dihitung sensitivitinya, spesifikasinya, presisinya dan akurasinya. Berdasarkan isi matriks pada tabel tersebut maka dapat diketahui jumlah data dari masing-masing kelas yang dipredikasi secara benar yaitu True positives + True negatives dan data yang diklasifikasikan secara salah adalah False positive + False negatives . PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Kuantitas matriks dapat diringkas menjadi dua nilai yaitu akurasi dan laju error. Dua nilai ini digunakan sebagai matriks kinerja dengan formula sbb Hann Kamber, 2006 : �� � = ℎ ℎ = + + + 22 BAB III METODOLOGI PENELITIAN Pada bab ke tiga ini, akan dijelaskan tentang analisa kebutuhan, data penelitian, skenario pengambilan data, analisa pengolahan data, analisa kebutuhan pengguna, spesifikasi hardware dan software yang digunakan serta beberapa user interface awal.

3.1. Data Penelitian