Latar Belakang Masalah PENDAHULUAN

Cahyo Darujati 2010 dalam jurnalnya berjudul Perbandingan Klasifikasi Dokumen Teks menggunakan Metode Naïve Bayes dengan K-Nearest Neigtbor menemukan bahwa Naïve Bayes kinerjanya lebih baik dari K-Nearest Neighbordalam pengklasifikasian dokumen teks. Meskipun penelitian tentang perbandingan algoritma pernah dilakukan, penelitian tersebut masih layak dilakukan. Masih banyak algoritma yang perlu dibandingkan untuk mengetahui algoritma mana yang paling akurat. Oleh karena itu, penulis akan membandingkan algoritma yang berbeda dari penelitian-penelitian sebelumnya yaitu 1 Naive Bayes dan 2 K-nearest Neighbor. 2.2 Kajian Teori 2.2.1 Penambangan Data Penambangan Data adalah proses pengumpulan informasi penting dari sejumlah data besar yang tersimpan di basis data, gudang data, atau tempat penyimpanan lainnya Han Kamber, 2006. Penambangan data merupakan proses yang tidak dapat dipisahkan dengan Knowledge Discovery in Database KDD, karena penambangan data adalah salah satu tahap dalam proses KDD seperti yang ditunjukkan oleh gambar 2.1. Gambar 2.1 Tahapan Dalam KDD Han Kamber, 2006 Menurut Han dan Kamber 2006, tahapan-tahapan dalam proses KDD adalah sebagai berikut: 1. Pembersihan data Data Cleaning Pembersihan data merupakan proses untuk menghilangkan data yang mengandung noise, atau data yang tidak konsisten. 2. Integritas data Data Integration Pada tahap ini akan dilakukan penggabungan data yang berasal dari berbagai sumber. 3. Seleksi data Data Selection Pada tahap ini akan dilakukan pemilihan data yang relevan dari database. 4. Transformasi data Data Transformation Pada tahap ini data akan ditransformasikan kedalam format yang sesuai untuk diproses dalam penambangan data. 5. Penambangan data Data Mining Penambangan data merupakan proses penting dimana metode akan disistemkan untuk mengekstrak pola data. 6. Evaluasi pola Pattern Evaluation Pada tahap ini, polamodel yang dihasilkan dari teknik data mining akan mengidentifikasi pola-pola yang menarik berdasarkan ukuran tertentu 7. Presentasi pengetahuan Knowledge Presentation Pada tahap ini akan dilakukan teknik visualisasi yang digunakan untuk menampilkan pengetahuan hasil proses mining kepada pengguna.

2.2.2 Naive Bayes Classifier

Metode NBC menempuh dua tahap dalam proses klasifikasi teks, yaitu tahap pelatihan dan tahap klasifikasi. Pada tahap pelatihan dilakukan proses analisis terhadap sampel dokumen berupa pemilihan vocabulary, yaitu kata yang mungkin muncul dalam koleksi dokumen sampel yang sedapat mungkin dapat menjadi representasi dokumen. Selanjutnya adalah penentuan probabilitas prior bagi tiap kategori berdasarkan sampel dokumen.Pada tahap klasifikasi ditentukan nilai kategori dari suatu dokumen berdasarkan term yang muncul dalam dokumen yang diklasifikasi. Untuk menghitung nilai kelas yang akan dibandingkan ya atau tidak, dilakukan perhitungan probabilitas PVj: PVj= |docj| |Contoh| Dimana docj adalah banyaknya dokumen yang memiliki kategori j dalam pelatihan, sedangkan Contoh banyaknya dokumen dalam contoh yang digunakan untuk pelatihan. Untuk nilai PWk|Vj , yaitu probabilitas kata wk dalam kategori j ditentukan dengan : PWk|Vj= Nk+1 N+|vocabulary| Dimana nk adalah frekuensi munculnya kata wk dalam dokumen yang ber kategori vj ditambah 1, hal ini berfungsi untuk menghindari angka 0 dalam data atau biasa disebut Laplace Smoothing, sedangkan nilai n adalah banyaknya seluruh kata dalam dokumen berkategori vj, dan vocabulary adalah banyaknya kata dalam contoh pelatihan. Contoh Naïve Bayesian Berikut contoh kasus yang akan diselesaikan dengan metode Naïve Bayes Classifier: Tabel 2.1 Data buys computer RID Age Income Student Credit_Rating Class 1. 29 High No Fair No 2. 29 High No Excelent No 3. 31..40 High No Fair Yes 4. 41 Medium No Fair Yes 5. 41 Low Yes Fair Yes 6. 41 Low Yes Excelent No 7. 31..40 Low Yes Excelent Yes 8. 29 Medium No Fair No 9. 29 Low Yes Fair Yes