Bayesian Classification Teori Umum

2.1.14 Bayesian Classification

Bayes ian classifier merupakan classifier statistik yang dapat memprediksikan probabilitas keanggotaan kelas, seperti probabilitas sebuah record tergabung ke dalam kelas tertentu. Bayes ian Classification yang didasarkan pada teorema Bayes memilki tingkat akurasi yang tinggi dan dapat berjalan dengan cepat dalam database yang besar. Naïve bayesian Classifier mengasumsikan efek dari sebuah nilai atribut pada sebuah kelas, independen terhadap nilai dari atribut lainnya. Asumsi ini disebut juga class conditional independence. Asumsi ini dilakukan untuk menyederhanakan proses komputasi dan karena itu dianggap “naïve”. Jika X merupakan record data, dimana X terdiri dari n atribut. Dalam istilah bayes ian, X disebut dengan fakta. Jika H merupakan hipotesis, seperti misalnya record X tergabung ke dalam kelas C. Untuk classification, yang ingin ditentukan adalah PH|X, probabilitas hipotesis H jika diberikan fakta atau record X. Dengan kata lain yang dicari adalah probabilitas record X tergabung ke dalam kelas C, jika diketahui deskripsi atribut dari X. PH|X merupakan posterior probability, H dikondisikan pada X. Contoh, jika data pelanggan sebuah toko komputer dideskripsikan dengan atribut umur dan pendapatan. X adalah pelanggan berumur 35 tahun dengan pendapatan Rp 10.000.000,00 . M isalkan ingin diketahui apakah pelanggan X akan membeli komputer jika diketahui umur dan pendapatan pelanggan. PH adalah prior probability. Dalam contoh diatas berarti adalah probabilitas pelanggan akan membeli komputer tanpa melihat umur dan pendapatan atapun informasi atribut lainnya. PX|H adalah posterior probability dimana X dikondisikan pada H. Sesuai contoh berarti probabilitas pelanggan , X, berumur 35 tahun dengan pendapatan Rp. 10.000.000,00 jika diketahui pelanggan membeli komputer. PX merupakan prior probability dari X. M enggunakan contoh berarti probabilitas seseorang dari database pelanggan yang mana berumum 35 tahun dan memiliki pendapatan Rp. 10.000.000,00. PH, PX|H, dan PX dapat dicari dari training set dimana train set telah memiliki label class. Teorema Bayes berguna untuk untuk menghitung posterior probability PH|X dari PH, PX|H, dan PX dengan rumusan sebagai berikut PH|X= Proses kerja Bayesian Classifier adalah sebagai berikut: 1. Jika D adalah training set yang terdiri dari record dan label kelasnya masing- masing. Setiap record direpresentasikan dengan n-dimensi attribute vector, X= , ,…, . Dan memiliki n atribut , ,…, . 2. Jika terdapat m kelas, , ,…, . Apabila diberikan record, X, classifier akan memprediksikan X tergabung ke dalam kelas yang memiliki nilai posterior probability tertinggi, dikondisikan pada X. Naïve bayesclassifier memprediksikan record X tergabung dalam class jika dan hanya jika P |XP |X untuk 1 j m, j i M aka nilai P |X merupakan nilai probabilitas tertinggi. Nilai kelas dimana P |X dimaksimalkan disebut dengan maximum posteriori hypothesis. P |X= 3. Karena nilai PX konstan untuk semua kelas, maka hanya yang perlu dimaksimalkan. Jika prior probability dari kelas tidak diketahui, maka biasanya diasumsikan bahwa setiap kelas adalah sama yang mana P = =…= , dan yang perlu dimaksimalkan hanya nilai . Selain itu, nilai harus dimaksimalkan. Nilai prior probabilitas kelas dapat diestimasikan dengan =| ||D|, dimana | | adalah jumlah record dalam D yang memiliki label kelas . 4. Bila diberikan dataset dengan banyak atribut, maka akan sangat sulit dan mahal biaya untuk menghitung nilai . Untuk mengurangi proses komputasi dalam mengevaluasi , asumsi naïve class conditional independence dibuat. Asumsi tersebut menganggap nilai dari sebuah atribut independen terhadap satu sama lain. M aka = … Probabilitas , ,…, dapat dicari dari data training. menunjukkan nilai dari atribut untuk record X. Untuk setiap atribut akan dilihat apakah atribut adalah categorical atau berupa nilai continue. Contoh, untuk menghitung PX| , lakukan hal berikut: • Jika adalah categorical, maka adalah jumlah record yang memiliki label kelas dalam D dan memiliki nilai untuk atribut dibagi dengan | | yang merupakan jumlah record dengan label kelas pada D • Jika adalah nilai continue, maka perlu dilakukan kalkulasi tambahan. Atribut dengan nilai continue diasumsikan memiliki Gaussian distribution dengan mean dan standard deviasion , yang didefinisikan sebagai gx, , = sehingga P | = g , , Yang perlu dihitung adalah mean dan standard deviation dari nilai atribut untuk record dengan kelas . Sebagai contoh, jika X=35, Rp. 10.000.000, dimana adalah atribut umur dan pendapatan. Label kelas adalah atribut buys_computer. Nilai label kelas untuk X adalah yes. M isalkan atribut umur tidak di discretisized dan tetap sebagai atribut dengan nilai continue. M isalkan dari training set, ditemukan bahwa pelanggan dalam D yang membeli komputer berumur 38 12. Dengan kata lain untuk atribut umum pada kelas ini memiliki nilai dan =12. Nilai dan =12 digunakan untuk mengesitmasikan Page=35|buys_computer=yes. 5. Untuk memprediksi label kelas X maka P dievaluasi untuk setiap kelas . Classifier memprediksi label kelas dari record X adalah kelas jika dan hanya jika PX P PX P untuk 1 j m, j i Dengan kata lain, nilai prediksi kelas untuk record X adalah kelas dimana PX P adalah maksimum.Han dan Kamber, 2006, pp310-313

2.1.15 Pengukuran Error dan Akurasi Model Pre diktif