Email Metode Naive Bayesian Perhitungan

285 berdasarkan kata-kata token yang terkandung pada sebuah e-mail [3]. Metode filter pada saat pertama kali dijalankan harus dilakukan proses training menggunakan dua koleksi e-mail, satu koleksi merupakan spam mail dan koleksi yang lain merupakan good mail. Proses training ini digunakan sebagai data pembanding terhadap e-mail yang masuk. Dengan cara seperti ini, pada setiap e-mail baru yang diterima, Bayesian filter dapat memperkirakan probabilitas prediksi spam berdasarkan kata-kata yang sering muncul di koleksi spam mail atau di koleksi good mail.

3. Email

E-mail Electronic Mail atau surat elektronik sudah mulai dipakai pada tahun 1960-an. Pada saat itu internet belum terbentuk, yang ada hanyalah kumpulan mainframe yang terbentuk sebagai jaringan. Mulai tahun 1980-an, surat elektronik sudah bisa dinikmati oleh banyak orang. E-mail merupakan media komunikasi dalam jaringan intranet maupun internet untuk berdiskusi maillist, transfer informasi berupa file mail attachment bahkan dapat digunakan untuk media iklan suatu perusahaan atau produk tertentu [1]. E-mail terdiri dari 3 komponen [4] yaitu : • Envelope Proses ini digunakan oleh Mail Transport Agent MTA untuk melihat rute atau jalur pesan. Biasanya user tidak melihat bagian ini karena prosesnya terjadi pada bagian MTA untuk pengiriman. • Header E-mail mengandung header yang digunakan sebagai informasi mengenai e-mail tersebut, mulai dari alamat pengirim, penerima, subjek dan lain-lain. Header originating date field dan original address fields sifatnya mandatory diperintah, artinya user tidak dapat menggganti secara manual mengenai informasi tanggal pengiriman maupun alamat pengirim. • Body Merupakan isi pesan dari pengirim ke penerima. Dalam mail body juga terdapat file attachment yang digunakan untuk mengirimkan e-mail berupa file mail attachment.

4. Metode Naive Bayesian

Metode Naïve Bayesian merupakan metode yang digunakan untuk memprediksi suatu kejadian pada masa yang akan datang, dengan cara membandingkannya dengan data atau evidence bukti yang ada pada masa lampau. Penggunaan probabilitas kata atau token dijadikan sebagai inputan probabilitas dari kejadian. Klasifikasi Naive Bayesian akan melihat data lama previous data dalam menentukan nilai kemiripan data yang baru. Jadi harus terdapat data lama yang digunakan sebagai data pembanding dalam proses Bayes.

5. Perhitungan

Probabilitas Berdasarkan Algoritma Bayesian. Bayesian filter pada saat pertama kali dijalankan harus melakukan proses training terlebih dahulu. Proses training menggunakan sejumlah spam mail dan sejumlah good mail yang ditambahkan ke dalam suatu tabel atau data pembanding. Bayesian filter akan menghitung probabilitas lokal dari suatu kata, misalnya kata sex, untuk muncul di kelompok spam mail . Probabilitas lokal ini dapat dilihat seperti pada Persamaan 1 [3]. dimana PLocal-spam : probabilitas suatu kata sex terdapat pada spam mail. Nspam : jumlah spam mail dengan kata sex di dalamnya. Nnonspam : jumlah nonspam mail dengan kata sex di dalamnya. Persamaan 2 digunakan untuk menghitung probabilitas lokal dari suatu kata, terutama jika nilai Nspam dan Nnonspam kecil adalah bahwa probabilitas akan terletak di sekitar probabilitas ketidakpastian P = 0.5. Berbeda dengan Persamaan 1, pada Persamaan 2 tidak akan memberikan nilai mutlak, jika terdapat frekuensi suatu kata dalam spam mail dan tidak terdapat dalam frekuensi good mail . 1 2 286 dimana : C 1 dan C 2 : konstanta yang dipilih melalui eksperimen. Nilai dari C 1 = dua dan C 2 = satu, dan jika suatu kata “x” hanya ditemukan pada dua spam mail dan tidak ditemukan sama sekali pada good mail, maka probabilitas lokal suatu pesan baru yang mengandung kata tersebut dikategorikan sebagai spam adalah 0.83. Probabilitas ini tidak terlalu tinggi untuk dikategorikan sebagai spam. Sementara jika kata tersebut ditemukan pada sepuluh spam mail dan tidak ditemukan sama sekali pada good mail, maka probabilitas lokalnya akan sama dengan 0.95, yang cukup tinggi untuk dikategorikan sebagai spam. Perhitungan probabilitas ini jika dilakukan dengan Persamaan 1, akan memberikan hasil yang terlalu kasar, yaitu probabilitas mutlak sama dengan satu. Probabilitas lokal dari masing-masing kata tersebut kemudian menggunakan aturan rantai chain rule Bayesian untuk menentukan probabilitas total dari suatu pesan adalah spam. Chain rule Bayesian dapat dilihat pada Persamaan 1. Untuk menentukan probabilitas total, perhitungan tersebut dilakukan terus menerus secara iterative tindakan mengulangi proses biasanya dengan tujuan mendekati tujuan yang diinginkan atau hasil dari probabilitas lokal masing-masing kata pada pesan tersebut.

6. Metode Tokenizing, Scoring dan Combining