285
berdasarkan kata-kata token yang terkandung pada sebuah e-mail [3]. Metode filter pada saat pertama
kali dijalankan harus dilakukan proses training menggunakan dua koleksi e-mail, satu koleksi
merupakan spam mail dan koleksi yang lain merupakan good mail. Proses training ini digunakan
sebagai data pembanding terhadap e-mail yang masuk. Dengan cara seperti ini, pada setiap e-mail
baru
yang diterima,
Bayesian filter
dapat memperkirakan
probabilitas prediksi
spam berdasarkan kata-kata yang sering muncul di koleksi
spam mail atau di koleksi good mail.
3. Email
E-mail Electronic Mail atau surat elektronik sudah
mulai dipakai pada tahun 1960-an. Pada saat itu internet belum terbentuk, yang ada hanyalah
kumpulan mainframe yang terbentuk sebagai jaringan. Mulai tahun 1980-an, surat elektronik
sudah bisa dinikmati oleh banyak orang. E-mail merupakan media komunikasi dalam jaringan
intranet maupun internet untuk berdiskusi maillist, transfer informasi berupa file mail attachment
bahkan dapat digunakan untuk media iklan suatu perusahaan atau produk tertentu [1]. E-mail terdiri
dari 3 komponen [4] yaitu :
• Envelope Proses ini digunakan oleh Mail Transport Agent
MTA untuk melihat rute atau jalur pesan. Biasanya user
tidak melihat bagian ini karena prosesnya terjadi pada bagian MTA untuk pengiriman.
• Header E-mail
mengandung header yang digunakan sebagai informasi mengenai e-mail tersebut, mulai dari
alamat pengirim, penerima, subjek dan lain-lain. Header originating date field
dan original address fields
sifatnya mandatory diperintah, artinya user tidak dapat menggganti secara manual mengenai
informasi tanggal pengiriman maupun alamat pengirim.
• Body Merupakan isi pesan dari pengirim ke penerima.
Dalam mail body juga terdapat file attachment yang digunakan untuk mengirimkan e-mail berupa file
mail attachment.
4. Metode Naive Bayesian
Metode Naïve Bayesian merupakan metode yang digunakan untuk memprediksi suatu kejadian pada
masa yang
akan datang,
dengan cara
membandingkannya dengan data atau evidence bukti yang ada pada masa lampau. Penggunaan
probabilitas kata atau token dijadikan sebagai inputan probabilitas dari kejadian. Klasifikasi Naive
Bayesian
akan melihat data lama previous data dalam menentukan nilai kemiripan data yang baru.
Jadi harus terdapat data lama yang digunakan sebagai data pembanding dalam proses Bayes.
5. Perhitungan
Probabilitas Berdasarkan
Algoritma Bayesian.
Bayesian filter pada saat pertama kali dijalankan
harus melakukan proses training terlebih dahulu. Proses training menggunakan sejumlah spam mail
dan sejumlah good mail yang ditambahkan ke dalam suatu tabel atau data pembanding. Bayesian filter
akan menghitung probabilitas lokal dari suatu kata, misalnya kata sex, untuk muncul di kelompok spam
mail
. Probabilitas lokal ini dapat dilihat seperti pada Persamaan 1 [3].
dimana PLocal-spam
: probabilitas suatu kata
sex terdapat pada spam mail.
Nspam : jumlah spam mail dengan kata
sex di dalamnya. Nnonspam
: jumlah nonspam mail dengan kata sex di dalamnya.
Persamaan 2
digunakan untuk
menghitung probabilitas lokal dari suatu kata, terutama jika nilai
Nspam dan Nnonspam kecil adalah bahwa
probabilitas akan terletak di sekitar probabilitas ketidakpastian P = 0.5. Berbeda dengan Persamaan
1, pada Persamaan 2 tidak akan memberikan nilai mutlak, jika terdapat frekuensi suatu kata dalam
spam mail
dan tidak terdapat dalam frekuensi good mail
. 1
2
286
dimana : C
1
dan C
2
: konstanta yang dipilih melalui eksperimen.
Nilai dari C
1
= dua dan C
2
= satu, dan jika suatu kata “x” hanya ditemukan pada dua spam mail dan tidak
ditemukan sama sekali pada good mail, maka probabilitas
lokal suatu
pesan baru
yang mengandung kata tersebut dikategorikan sebagai
spam adalah 0.83. Probabilitas ini tidak terlalu tinggi
untuk dikategorikan sebagai spam. Sementara jika kata tersebut ditemukan pada sepuluh spam mail dan
tidak ditemukan sama sekali pada good mail, maka probabilitas lokalnya akan sama dengan 0.95, yang
cukup tinggi untuk dikategorikan sebagai spam. Perhitungan probabilitas ini jika dilakukan dengan
Persamaan 1, akan memberikan hasil yang terlalu kasar, yaitu probabilitas mutlak sama dengan satu.
Probabilitas lokal dari masing-masing kata tersebut kemudian menggunakan aturan rantai
chain rule
Bayesian untuk
menentukan probabilitas total dari suatu pesan adalah spam.
Chain rule Bayesian dapat dilihat pada Persamaan 1.
Untuk menentukan probabilitas total, perhitungan tersebut dilakukan terus menerus secara iterative
tindakan mengulangi proses biasanya dengan tujuan mendekati tujuan yang diinginkan atau hasil dari
probabilitas lokal masing-masing kata pada pesan tersebut.
6. Metode Tokenizing, Scoring dan Combining