6. Asosiasi
Tugas asosiasi dalam
data mining
adalah menemukan atribut yang muncul dalam satu waktu Kusrini, 2009. Asosiasi lebih kental
dengan suatu analisis kebutuhan.
2.8. Teorema Naive Bayesian
2.8.1. Pengertian Teorema Bayesian
Bayesian Classifier
adalah pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu
class
Kusrini, 2009.
Bayesian classifier
didasarkan pada teorema Bayes yang memiliki kemampuan klasifikasi serupa dengan
decision tree
dan
neural network
. Pendekatan teorema ini didasarkan pada kuantifikasi
trade-off
antara berbagai keputusan klasifikasi dengan menggunakan probabilitas dan nilai yang muncul
dalam suatu keputusan. Teorema ini mampu diaplikasi pada
database
dengan data yang besar dan memiliki tingkat akurasi dan kecepatan yang tinggi.
Teorema
Bayesian
memiliki bentuk umum sebagai berikut : � �|
=
� |
�
� � � �
........................................2.4 Keterangan :
E = data dengan
class
yang belum diketahui H
= hipotesis data E merupakan suatu
class
spesifik PH|E = probabilitas hipotesis H berdasarkan kondisi E
posteriori probability
PH = pobabilitas hipotesis H
prior probability
PE|H = probabilitas E berdasaerkan kondisi pada hipotesis H PE
= probabilitas dari E
Menurut buku dari Eko Prasetyo, ide dasar dari aturan Bayes adalah bahwa hasil dari hipotesis atau peristiwa H dapat
diperkirakan berdasarkan bukti E yang diamati. Ada beberapa hal penting yang perlu diperhatikan yaitu :
1 Sebuah probabilitas awalprior H atau PH adalah
probabilitas dari suatu hipotesis sebelum bukti diamati. 2
Sebuah probabilitas akhir H atau PH|E adalah probabilitas dari suatu hipotesis setelah bukti diamati.
Dalam Bayes terutama
Naive Bayes
, maksud independensi yang kuat pada fitur adalah bahwa sebuah fitur pada sebuah data
tidak berkaitan dengan ada atau tidaknya fitur lain dalam data yang sama Eko Prasetyo, 2012.
2.8.2.
Naive Bayesian Classifier
Metode Naive Bayes merupakan algoritma
machine learning
yang bertipe
supervised learning
yang menerapkan teorema Bayes yang “naif” dimana asumsinya adalah tiap fitur atribut datra
dianggap independen, satu dan lainnya terpisal dan memiliki nilai sendiri Zhang, 2004. Metode ini dianggap memiliki peforma yang
handal dan kompetitif dalam proses pengklasifikasian karena asumsi independen atribut yang dimiliki sebuah data sangat sesuai dengan
pengaplikasiaan di dunia nyata. Kaitan antara
Naive Bayes
dengan klasifikasi, korelasi hipotesis, dan bukti dengan klasifikasi adalah bahwa hipotesis dalam
teorema Bayes merupakan label kelas yang menjadi target pemetaan dalam klasifikasi, sedangkan bukti merupakan fitur-fitur yang
menjadi masukan dalam model klasifikasi Eko Prasetyo, 2012. Jika X adalah vektor masukan yang berisi fitur dan Y adalah label
kelas,
Naive Bayes
dituliskan dengan PY|X. Notasi tersebut berarti probabilitas label Y didapatkan setelah fitur dari X diamati. Notasi
ini disebut juga dengan probabilitas akhir
posterior probability
untuk Y, sedangkan PY disebut probabilitas awal
prior probability
. Klasifikasi
Naive Bayesian
yang memiliki nilai atribut yang terpisah atau independen ini dapat dinyatakan dengan rumus sebagai
berikut : PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
� | =
� �
�= �
�
�
| �
............................................2.5
Keterangan : PY|X
: Probabilitas data dengan vektor X pada kelas Y PY
: Probabilitas awal kelas Y �
=
� | : Probabilitas independen kelas Y dari semua fitur
vektor X
Pada umumnya, Bayes mudah dihitung untuk fitur bertipe kategories seperti pada kasus diskrit. Namun untuk fitur numerik
data kontinuada perlakuan khusus sebelum dimasukkan dalam
Naive Bayes
. Cara tersebut meliputi : 1
Melakukan diskretisasi pada setiap fitur kontinu dan mengganti nilai fitur kontinu tersebut dengan nilai interval
diskret. Pendekatan
ini dilakukan
dengan mentransformasikan fitur kontinu ke dalam fitur ordinal.
2 Mengasumsikan bentuk tertentu dari distribusi dengan data
penelitian. Distribusi Gausian biasanya dipilih untuk merepresentasikan probabilitas bersyarat dari fitur kontinu
pada sebuah kelas PX
i
|Y, sedangkan distribusi Gausian dikarakterisasikan dengan dua parameter yaitu mean, µ, dan
varian, σ
2
.
2.8.3. EvaluasiValidasi Data
Pada proses evaluasivalidasi, setiap data digunakan dalam jumlah sama untuk data
training
dan
testing
. Bentuk pendekatan ini disebut dengan
k-fold cross validation
, yang mana data akan dipecah kebeberapa bagian dari tentuan banyaknya
k
, dengan pembagian yang rata dari setiap kelompok data. Setiap kali proses berjalan,satu
pecahan berperan sebagai data uji sedangakan pecahan lain menjadi data latih. Total error yang diperoleh dapat dijumlahkan semuanya
dan akan memperlihatkan skema validasi benar dan salah Prasetyo, 2014.
2.8.4. Akurasi Klasifikasi
Confution Matrix
Metode ini hanya menggunakan tabel matriks terdapat pada proses jika dataset memiliki kelas yaitu kelas yang dianggap positif
dan kelas lainnya merupakan kelas negatif Bramer, 2007. Evaluasi dengan
confution matrix
ini menghasilkan nilai akurasi,
precison
, dan
recall
terhadap klasifikasi yang telah dilakukan. Akurasi dalam klasifikasi adalah presentase ketetapan
record
data yang diklasifikasikan secara benar setelah dilakukan pengujian pada hasil klasifikasi Han Kamber, 2006. Sedangkan
precision
atau
confidence
adalah proporsi kasus yang diprediksi positif yang juga positif benar pada data yang sebenarnya.
Recall
atau sensitivitas adalah proporsi kasus positif yang sebenarnya yang diprediksi positif secara benar Powers, 2011.
Correct Clasification
Classified as +
- +
True positives False negative
- False positive
True negative Tabel 2. 3 Cross Validation
True positive
dan
false positive
adalah jumlah
record
positif dan negatif yang diklasifikasikan sebagai positif, sedangkan
false negative
dan
true negatif
adalah jumlah
record
positif dan negatif yang diklasifikasikan sebagai negatif. Lalu masukkan data uji,
setelah itu hitung nilai yang telah dimasukkan tersebut untuk dihitung sensitivitinya, spesifikasinya, presisinya dan akurasinya.
Berdasarkan isi matriks pada tabel tersebut maka dapat diketahui jumlah data dari masing-masing kelas yang dipredikasi
secara benar yaitu
True positives + True negatives
dan data yang diklasifikasikan secara salah adalah
False positive + False negatives
. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Kuantitas matriks dapat diringkas menjadi dua nilai yaitu akurasi dan laju error. Dua nilai ini digunakan sebagai matriks
kinerja dengan formula sbb Hann Kamber, 2006 : ��
� =
ℎ ℎ
=
+ +
+
22
BAB III
METODOLOGI PENELITIAN
Pada bab ke tiga ini, akan dijelaskan tentang analisa kebutuhan, data penelitian, skenario pengambilan data, analisa pengolahan data, analisa
kebutuhan pengguna, spesifikasi hardware dan software yang digunakan serta beberapa user interface awal.
3.1. Data Penelitian