Metode Smoothing dalam Naïve Bayes untuk Klasifikasi Email Spam
METODE SMOOTHING DALAM NAÏVE BAYES UNTUK
KLASIFIKASI EMAIL SPAM
MUTIA HAFILIZARA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Metode Smoothing
dalam Naïve Bayes untuk Klasifikasi Email Spam adalah benar karya saya dengan
arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada
perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya
yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam
teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Desember 2014
Mutia Hafilizara
NIM G64124007
ABSTRAK
MUTIA HAFILIZARA. Metode Smoothing dalam Naïve Bayes untuk
Klasifikasi Email Spam. Dibimbing oleh JULIO ADISANTOSO.
Kehadiran spam pada email menyebabkan penelitian terhadap pembangunan
piranti lunak spam filter untuk mengklasifikasikan email meningkat. Naïve Bayes
banyak digunakan sebagai fungsi klasifikasi oleh pengembang spam filter. Pada
fungsi klasifikasi Naïve Bayes terdapat metode smoothing yang telah umum
digunakan yaitu Add-One smoothing atau Laplace smoothing. Disamping itu
terdapat metode smoothing lainnya yaitu Jelinek-Mercer smoothing, Dirichlet
smoothing, Absolute Discounting smoothing, dan Two-Stage smoothing yang
diduga mampu meningkatkan akurasi melebihi Laplace smoothing. Hasil percobaan
menunjukkan bahwa akurasi yang dihasilkan fungsi Naïve Bayes menggunakan
metode Laplace smoothing sebesar 93.72% lebih rendah dari penggunaan metode
smoothing lainnya yang mencapai nilai akurasi melebihi 94%. Fungsi klasifikasi
Naïve Bayes yang menggunakan metode Dirichlet smoothing memberikan nilai
akurasi terbaik dengan nilai akurasi 94.82%.
Kata kunci: akurasi, metode smoothing naïve bayes, spam filter
ABSTRACT
MUTIA HAFILIZARA. Naïve Bayes Smoothing Methods for Spam Email
Classification. Supervised by JULIO ADISANTOSO.
The presence of spam in email lead research on the development of software
to classify email spam filter increases. Naïve Bayes is widely used as classification
function by spam filter developer. Smoothing method on Naïve Bayes classification
function that has been commonly used, namely Add-One smoothing or Laplace
smoothing. There are another methods such as Jelinek-Mercer smoothing, Dirichlet
smoothing, Absolute Discounting smoothing, and Two –Stage which allegedly able
to improve classification accuracy exceeds Laplace smoothing. The experimental
results shown accuracy for Naïve Bayes classification function using Laplace
smoothing method is 93.72% lower than other smoothing methods which
accuration results more than 94%. Naïve Bayes classification function which using
Dirichlet smoothing method that gives the best results with accuracy 94.82%.
Keywords: accuration, naïve bayes smoothing method, spam filter
METODE SMOOTHING DALAM NAÏVE BAYES UNTUK
KLASIFIKASI EMAIL SPAM
MUTIA HAFILIZARA
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014
Penguji:
1. Ahmad Ridha, SKom MS
2. Dr Imas Sukaesih Sitanggang, SSi MKom
Judul Skripsi : Metode Smoothing dalam Naïve Bayes untuk Klasifikasi Email
Spam
Nama
: Mutia Hafilizara
NIM
: G64124007
Disetujui oleh
Ir Julio Adisantoso, MKom
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Juni 2014 ini ialah spam
filter, dengan judul Metode Smoothing dalam Naïve Bayes untuk Klasifikasi Email
Spam.
Terima kasih penulis ucapkan kepada Bapak Ir. Julio Adisantoso M.Kom
selaku pembimbing. Ungkapan terima kasih juga disampaikan kepada kedua
orangtua, Iqbal, Mute, serta seluruh keluarga dan teman, atas segala doa dan kasih
sayangnya. Begitu pula rasa terima kasih penulis ucapkan pada rekan-rekan
Ekstenerz 7 yang menjadi bagian hidup penulis selama menempuh pendidikan di
Ekstensi Ilmu Komputer IPB .
Semoga karya ilmiah ini bermanfaat.
Bogor, Desember 2014
Mutia Hafilizara
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
2
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
2
Pengumpulan Dokumen Email
3
Ekstraksi Dokumen Email
3
Praproses
4
Fungsi Smoothing Naïve Bayes
6
Evaluasi
7
HASIL DAN PEMBAHASAN
8
Pengumpulan Dokumen Email
8
Ekstraksi Dokumen Email
9
Praproses
9
Fungsi Smoothing Naïve Bayes
10
Evaluasi
12
SIMPULAN DAN SARAN
15
Simpulan
15
Saran
15
DAFTAR PUSTAKA
15
LAMPIRAN
17
RIWAYAT HIDUP
21
DAFTAR TABEL
1 Komponen Header dan Body
2 Tabel Kontingensi
3 Nilai Kritis � untuk taraf nyata α dengan derajat bebas = 1 (Walpole
1993)
4 Pendugaan parameter empat metode smoothing (Yuan et al. 2012)
5 Confussion Matrix dari klasifikasi dokumen email
6 Jumlah token, persentase token terambil, dan persentase token reduksi
pada 5 nilai taraf nyata (α)
7 Inverted index hasil seleksi fitur pada beberapa token penciri spam, dan
frekuensi kemunculannya pada dokumen ham dan spam
8 Pengaruh koefisien kontrol dari metode smoothing Naïve Bayes terhadap
akurasi yang dihasilkan pada penggunaan vocabulary taraf nyata(α) =
0.100
9 Jumlah token penciri spam yang dihasilkan dari metode perhitungan
smoothing Naive Bayes
4
5
5
7
7
10
10
11
12
DAFTAR GAMBAR
1 Diagram Alir Penelitian
2 Tingkat akurasi pengujian dokumen email menggunakan metode
smoothing dengan seleksi fitur chi-square pada 5 nilai taraf nyata (α)
3 Nilai miss rate dari pengujian dokumen email menggunakan metode
smoothing dengan seleksi fitur chi-square pada 5 nilai taraf nyata (α)
4 Nilai false alarm rate dari pengujian dokumen email menggunakan
metode smoothing dengan seleksi fitur chi-square pada 5 nilai taraf
nyata (α)
3
13
14
14
DAFTAR LAMPIRAN
1 Tingkat akurasi, miss rate, false alarm rate dari proses klasifikasi
dokumen email menggunakan metode smoothing Naïve Bayes pada 5
nilai taraf nyata (α)
2 Tingkat akurasi tanpa menggunakan seleksi fitur chi-square
3 Waktu eksekusi metode smoothing pada nilai taraf nyata (α)= 0.1 dan
nilai koefisien kontrol metode smoothing
4 Tingkat akurasi, miss rate, false alarm rate dari proses klasifikasi email
yang tidak menggunakan token ekstraksi html pada 5 nilai taraf nyata
(α)
17
18
19
20
PENDAHULUAN
Latar Belakang
Berkirim surat merupakan hal yang sering dilakukan oleh semua orang. Salah
satu sarana mengirim surat adalah melalui pos. Namun seiring dengan kemajuan
teknologi, kemunculan email menjadi alternatif sarana mengirim surat yang lebih
cepat dan hemat biaya dibandingkan melalui pos. Keunggulan yang dimiliki email
ternyata banyak disalahgunakan sebagai sarana pengiriman pesan massal yang
bersifat komersial atau pesan lain yang tidak diinginkan biasa disebut dengan spam.
Spam yang terkirim kepada pengguna layanan email dapat menimbulkan
masalah berupa meningkatnya kapasitas penyimpanan dan menghabiskan waktu
pengguna untuk menghapus spam. Seperti hasil analisis spam tahunan yang tersedia
pada website Securelist (2014) terdapat 69.9% spam yang terkirim di seluruh dunia
pada tahun 2013. Angka ini menurun 2.5% dari tahun sebelumnya.
Dengan adanya masalah kehadiran spam, maka muncul piranti lunak spam
filter untuk mengklasifikasikan email yang dikembangkan dengan berbagai macam
metode, salah satunya menggunakan fungsi klasifikasi Naïve Bayes. Naïve Bayes
banyak digunakan sebagai metode dalam klasifikasi oleh pengembang spam filter
komersial maupun open-source karena kesederhanaan algoritmenya dan mudah
dalam mengimplementasikannya (Metsis et al. 2006). Pada penelitan pemodelan
spam filter sebelumnya Rachman (2011) melakukan pengukuran kinerja spam filter
menggunakan fungsi klasifikasi Naïve Bayes Multinomial dan Graham.
Pada proses penghitungan Naïve Bayes terdapat masalah apabila ada peluang
yang bernilai nol. Oleh karena itu digunakan Laplace smoothing yaitu penambahan
dengan angka 1 sehingga tidak ada peluang yang akan bernilai nol. Selain Laplace
smoothing ada beberapa metode smoothing lainnya. Pada penelitian Yuan et al.
(2012) dilakukan klasifikasi teks pendek menggunakan empat jenis metode
smoothing dalam Naïve Bayes yaitu Jelinek-Mercer smoothing, Dirichlet
smoothing, Absolute Discounting smoothing, dan Two-Stage smoothing. Hasil
penelitian ini memperlihatkan bahwa metode smoothing tersebut mampu
meningkatkan tingkat akurasi dari Naïve Bayes untuk proses klasifikasi teks.
Selain penggunaan metode smoothing ada juga seleksi fitur. Seleksi fitur
dilakukan untuk mendapatkan daftar term yang efektif dan meningkatkan akurasi
klasifikasi salah satunya adalah menggunakan chi-square karena performanya yang
lebih baik dibandingkan seleksi fitur berbasis frekuensi dan Mutual Information
(Manning et al. 2009). Oleh karena itu, penelitian ini mengimplementasikan
metode-metode smoothing dalam Naive Bayes dan seleksi fitur chi-square pada
proses klasifikasi dokumen email spam.
2
Perumusan Masalah
Perumusan masalah penelitian ini adalah :
1. Bagaimana empat metode smoothing dalam Naïve Bayes digunakan dalam
proses klasifikasi dokumen email spam?
2. Bagaimana seleksi fitur chi-square dapat mempengaruhi tingkat akurasi?
3. Bagaimana tingkat akurasi yang dihasilkan dari metode Jelinek-Mercer,
Dirichlet, Absolute Discounting, dan Two Stage smoothing jika dibandingkan
dengan metode Laplace smoothing?
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1. Mengimplementasikan metode smoothing dalam Naïve Bayes yaitu Laplace,
Jelinek-Mercer, Dirichlet, Absolute Discounting, dan Two Stage pada proses
klasifikasi dokumen email spam.
2. Mengimplementasikan seleksi fitur chi-square pada proses klasifikasi dokumen
email spam.
3. Membandingkan tingkat akurasi dari metode Jelinek-Mercer, Dirichlet,
Absolute Discounting, Two Stage smoothing, dan Laplace smoothing.
Manfaat Penelitian
Penelitian ini diharapkan dapat menghasilkan pemodelan klasifikasi spam
yang tingkat akurasinya lebih baik.
Ruang Lingkup Penelitian
1.
2.
3.
4.
Ruang lingkup pada penelitian ini antara lain:
Korpus yang digunakan adalah dokumen email berbahasa inggris dengan standar
MIME dalam format raw.
Seleksi fitur yang digunakan adalah metode chi-square.
Data email yang digunakan diekstrak untuk mendapatkan header dan body.
Untuk bagian header yang diambil adalah subject untuk dilakukan tokenisasi
Proses stemming tidak dilakukan karena hanya menurunkan jumlah vocabulary.
METODE
Tahapan penelitian dimulai dari pengumpulan data email, ekstraksi dokumen
email, praproses, melakukan pemodelan menggunakan beberapa fungsi klasifikasi,
pengujian, dan evaluasi hasil. Gambar 1 menunjukkan diagram alir penelitian yang
dilakukan.
3
Gambar 1 Diagram Alir Penelitian
Pengumpulan Dokumen Email
Data yang digunakan dalam penelitian adalah korpus email publik yang
tersedia pada halaman web Spamassassin1 dengan kode prefix “20030228”. Data
yang didapatkan masih berupa campuran dari 3 tipe email yaitu easy ham, hard
ham, dan spam. Email tersebut terdiri atas 1897 spam, 250 hard ham dan 3900 easy
ham.
Tipe easy ham merupakan pesan ham yang tidak memiliki cukup ciri untuk
dikategorikan sebagai spam. Sedangkan tipe hard ham merupakan pesan ham yang
memiliki cukup ciri untuk dikategorikan sebagai spam. Selanjutnya pada penelitian
ini pesan yang termasuk kategori easy ham dan hard ham digabungkan menjadi tipe
ham. Dengan demikian korpus yang digunakan adalah kumpulan email bertipe ham
dan spam. Setiap data email tersebut akan diberi label sesuai dengan kelasnya
masing-masing secara manual.
Ekstraksi Dokumen Email
Ekstraksi dokumen email untuk mendapatkan bagian email yang akan
dimasukkan dalam proses tokenisasi. Isi dari sebuah dokumen email terdiri atas
header dan diikuti dengan body (opsional). Tabel 1 menampilkan komponen header
dan body berdasarkan The Internet Society (2005), sedangkan komponen header
yang digunakan untuk mendapatkan ekstraksi dokumen email dalam penelitian
adalah subject saja.
1
Data email diunduh di alamat http://spamassassin.apache.org/publiccorpus/
4
Tabel 1 Komponen Header dan Body
Jenis
Komponen
Nama Sintaks
Definisi Sintaks
MIME-version
Form
Received
Menunjukkan versi MIME yang digunakan
Nama dan alamat pengirim pesan
Daftar semua server / komputer dimana
pesan dapat sampai kepada penerimanya
Menunjukkan tanggal dan waktu pesan
email dibuat
Alamat penerima email
Sebuah string unik yang diberikan oleh
sistem mail saat pesan tersebut pertama kali
dibuat
Subjek dari pesan
Alamat yang digunakan untuk mengirim
pesan
Aplikasi
yang
digunakan
untuk
mengirimkan pesan
Alamat pengembalian pesan jika alamat
penerima tidak ditemukan
Isi pesan dengan format penulisan dalam
teks ASCII biasa
Isi pesan yang mengandung tag HTML
Informasi yang memberikan lampiran dari
sebuah pesan.
Date
Delivered-To
Message-ID
Header
Subject
To
X-Mailer
Return - Path
Plain text
Body
HTML text
Attachment
Praproses
Dokumen email yang telah diekstraksi kemudian dilakukan tokenisasi.
Tokenisasi adalah proses memotong teks menjadi bagian-bagian kecil yang disebut
dengan token (Manning et al. 2008). Selain pemotongan teks, pada tahap praproses
juga dilakukan pembuangan karakter-karakter tertentu dan seleksi fitur ciri.
Pembuangan karakter-karakter tertentu dalam tahap ini adalah membuang bagian
kata yang termasuk ke dalam stopwords. Pada penelitian ini stopwords dibuang
untuk mengoptimalkan dalam memunculkan token yang berguna dalam proses
seleksi fitur ciri. Proses stemming tidak dilakukan karena pada penelitian
sebelumnya Drucker et al. (1999) menyatakan stemming hanya menurunkan besar
vocabulary.
Seleksi fitur ciri adalah proses memilih sebuah subset dari token-token yang
muncul, dan hanya subset ini yang digunakan sebagai fitur dalam proses klasifikasi.
Dengan adanya seleksi fitur ciri dapat mengoptimalkan proses klasifikasi karena
dapat meminimumkan jumlah token yang efektif saja, dan dapat meningkatkan
tingkat akurasi dalam mengklasifikasi karena dapat menghilangkan noise feature.
Secara lebih sederhananya tidak semua kata unik dapat menjadi penciri, oleh karena
itu dilakukan seleksi fitur ciri. Terdapat 3 seleksi fitur ciri, yaitu Mutual
Information, Chi-Square, dan Frequency Based (Manning et al. 2009).
5
Untuk menentukan subset dari token yang muncul, pada penelitian ini
menggunakan seleksi fitur ciri chi-square. Nilai chi-square kata t pada kelas c
dihitung menggunakan persamaan (Manning et al. 2009)
�
= ∑
,
� ∈{
, } ∑ ∈{ , }
(� �
−
�
�
(1)
dengan N adalah frekuensi yang diamati, E adalah frekuensi yang diharapkan,
adalah dokumen yang terkait dengan token t, dan adalah dokumen yang tidak
terkait dengan kelas c. Penghitungan nilai chi-square pada setiap kata t yang
muncul pada setiap kelas c dapat dibantu dengan menggunakan tabel kontingensi
pada Tabel 2. Isi dari Tabel 2 terdiri atas N merupakan jumlah dokumen latih, A
merupakan banyaknya dokumen pada kelas c yang memuat kata t, B merupakan
banyaknya dokumen yang bukan kelas c namun memuat kata t, C merupakan
banyaknya dokumen yang ada di kelas c namun tidak memiliki kata t, serta D
merupakan banyaknya dokumen yang bukan kelas c dan tidak memuat kata t.
Tabel 2 Tabel Kontingensi
Kelas
Kata
̚c
c
A
C
t
̚t
B
D
Tabel kontingensi membantu persamaan 1 lebih sederhana menjadi bentuk
persamaan
�
,
=
+
�
+
−
+
(2)
+
Pengambilan keputusan dilakukan berdasarkan nilai � dari masing-masing
kata. Kata yang memiliki nilai � lebih besar dari nilai kritis pada taraf nyata α
adalah kata yang akan dipilih sebagai penciri dokumen. Kata yang dipilih sebagai
penciri merupakan kata yang memiliki pengaruh terhadap kelas c. Beberapa nilai
kritis � untuk taraf nyata α yang digunakan dalam penelitian (Walpole 1993)
ditunjukkan pada Tabel 3.
Tabel 3 Nilai Kritis � untuk taraf nyata α dengan derajat bebas = 1
(Walpole 1993)
α
0.100
0.050
0.010
0.005
0.001
Nilai kritis
2.710
3.840
6.630
7.830
10.830
Hasil dari proses tokenisasi adalah inverted index dari korpus email yang
telah memiliki bobot. Penelitian Anagnostopoulos et al. (2006) menunjukkan
bahwa inverted index dapat mengefisienkan klasifikasi. Pada tahapan seleksi fitur
menggunakan chi-square dengan nilai kritis tertentu telah terpilih term yang
menjadi subset kemudian diboboti berupa term frequency (TF). Subset tersebut
6
dijadikan matriks dengan memisalkan TFij adalah banyaknya token i yang muncul
pada dokumen j, yaitu
��
��
…
��
��
��
…
��
�� …
�� …
…
��
��
��
).
…
��
Fungsi Smoothing Naïve Bayes
Token penciri dokumen yang masuk suatu kelas tertentu telah didapatkan
pada tahap tokenisasi, sehingga tahap selanjutnya adalah menentukan fungsi
klasifikasi. Pada penelitian ini pemodelan klasifikasi menggunakan metode
supervised learning berbasis peluang. Perhitungan peluang tersebut berdasarkan
kaidah peluang Naïve Bayes yaitu
∏ ≤ < � |
� |
∝�
(3)
dengan parameter �
adalah peluang dokumen ada pada kelas c, � | adalah
peluang token muncul pada dokumen c, dan
adalah jumlah token unik pada
̂
̂
|
pada persamaan
dan �
dokumen. Pendugaan parameter �
�
�
̂
̂
= � , � | = ∑ �
�
(4)
�
�′∈�
�′
dimana
adalah banyaknya dokumen dalam kelas c, N adalah total dokumen,
� adalah banyaknya token t dalam dokumen training dari kelas c (Manning et al.
2009).
Pendugaan parameter �̂ | memiliki kelemahan apabila bernilai nol.
Untuk menghilangkan hal tersebut dapat diatasi dengan adanya metode smoothing
pada Naïve Bayes. Metode yang sudah umum dipakai adalah Add-One Smoothing
atau selanjutnya disebut sebagai Laplace Smoothing. Metode tersebut memiliki
persamaan (Manning et al. 2009)
� �+
(5)
�̂ | = ∑
|
�′∈� � �′
+|
dengan | | = banyaknya term dalam vocabulary.
Penggunaan Laplace Smoothing sebagai metode penghitungan peluang setiap
token adalah yang paling sederhana dengan menambahkan 1 pada setiap frekuensi
token yang didapat. Walaupun sederhana ternyata metode Laplace Smoothing
masih rentan terhadap noise. Oleh karena itu dilakukan penelitian yang dilakukan
Yuan et al. (2012) terkait dengan klasifikasi teks pendek dengan menggunakan
empat metode smoothing yaitu Jelinek - Mercer, Dirichlet, Absolute Discounting,
dan Two-Stage smoothing. Penggunaan empat metode smoothing tersebut terbukti
dapat meningkatkan hasil akurasi melebihi metode Laplace Smoothing.
Perhitungan peluang setiap dokumen menggunakan empat metode
smoothing ini masih mengacu kaidah Naïve Bayes pada persamaan (3) namun
berbeda pada persamaan pendugaan parameter �̂ | seperti yang ditampilkan
pada Tabel 4.
7
Tabel 4 Pendugaan parameter empat metode smoothing (Yuan et al. 2012)
Metode
Jelinek-Mercer
�̂
Dirichlet
|
�̂
Absolute Discounting
|
=
�̂� |
Two-Stage
=
�̂ ,
|
=
−
�̂
∑
�
′∈� � ′
� + � |
∑ ′∈� � ′ +
max � − �,
∑
=
|
� |
+
+ �| |� |
′∈� � ′
� + � |
∑ ′ ∈� � ′ +
−
+
� |
Niai , , dan � merupakan koefisien kontrol yang bersifat relatif hingga
menghasilkan akurasi paling optimum pada klasifikasi, | | jumlah kata unik pada
kelas c, � | merupakan penduga kemungkinan maksimum dihitung dengan
persamaan
� |
=
∑�=
,
∑ ∑
(10)
,
adalah jumlah token t pada kelas
hingga
, dan
dimana ∑ =
,
∑ ∑
,
adalah jumlah seluruh token yang ada pada kelas hingga
(Chharia dan Gupta 2013).
Pada metode smoothing Absolute Discounting perhitungan penduga
kemungkinan maksimum � |
dilakukan berbeda, yaitu menggunakan
persamaan
� |
=
| |
× ∑
=
,
dengan | | = banyaknya term dalam vocabulary (Chharia dan Gupta 2013).
Evaluasi
Pemodelan yang telah dilakukan dengan cara supervised learning berbasis
peluang Naïve Bayes pada data latih, selanjutnya diuji dan dievaluasi menggunakan
data uji yang tersedia. Data tersebut masuk ke proses tokenisasi untuk mendapatkan
token setiap dokumen, kemudian dihitung peluang dokumen pada persamaan (3)
dengan menggunakan pendugaan parameter pada persamaan (5), (6), (7), (8), dan
(9). Evaluasi dilakukan dengan cara membandingkan kelas aktual dari dari data uji
dan kelas hasil prediksi dengan menggunakan Confusion Matrix (Tabel 5).
Tabel 5 Confussion Matrix dari klasifikasi dokumen email
Kelas Prediksi
Kelas Aktual
Spam
̚ Spam
Spam
TP
FP
̚ Spam
FN
TN
8
TP (True Positive) pada Tabel 5 merupakan banyaknya dokumen yang kelas
aktualnya adalah kelas spam dengan kelas prediksinya kelas spam, FN (False
Negative) merupakan banyaknya dokumen yang kelas aktualnya adalah kelas spam
dengan kelas prediksinya kelas bukan spam, FP (False Positive) merupakan
banyaknya dokumen yang ada kelas aktualnya adalah kelas bukan spam dengan
kelas prediksinya kelas spam serta TN merupakan banyaknya dokumen yang ada
kelas aktualnya adalah kelas bukan spam dengan kelas prediksinya kelas bukan
spam. Berdasarkan Tabel 5, maka nilai akurasi dapat dihitung dengan
menggunakan persamaan (Manning et al. 2009)
��+��
� �=
.
(11)
��+ �+ �+��
Selain dari pengukuran akurasi, evaluasi dilakukan terhadap False Alarm
Rate dan Miss Rate. False Alarm adalah ukuran dokumen spam yang salah
terklasifikasi pada persamaan
�
�
��
�
�� =
(12)
�
�
sedangkan Miss Rate adalah ukuran dokumen ham yang salah terklasifikasi pada
persamaan
�
�
.
(13)
�
� =
�
�
Keuntungan dari penggunaan False Alarm Rate dan Miss Rate dapat
mengindikasikan tingkat kesalahan klasifikasi setiap kategori (Harris et al. 1999).
HASIL DAN PEMBAHASAN
Pengumpulan Dokumen Email
Korpus email yang telah didapatkan sebelumnya, yaitu 1897 spam, 250 hard
ham, dan 3900 easy ham kemudian digabungkan dan dikategorikan menjadi 2 jenis
yaitu ham dan spam. Ham merupakan gabungan dari data hard ham dan easy ham.
Korpus dimasukkan dalam folder mails sebagai sumber data yang digunakan
dalam pembuatan program klasifikasi dan masing-masing dibagi menjadi data latih
sebanyak 70%, dan data uji sebanyak 30%. Komposisi dari pembagian korpus
adalah sebagai berikut :
1. Total dari dokumen ham 4150. Komposisi yang digunakan sebagai data
latih sebanyak 2905 dokumen dan data uji sebanyak 1245 dokumen.
2. Total dari dokumen spam 1897. Komposisi yang digunakan sebagai data
latih sebanyak 1328 dokumen dan data uji sebanyak 569 dokumen.
Bahasa yang digunakan dalam korpus email adalah Bahasa Inggris. Bahasa
yang digunakan tersebut mengacu pada data email yang didapat dari laman
spamassasin. Penomoran serta ekstensi file yang berbeda-beda pada korpus
menyulitkan pada saat training maupun testing sehingga harus dilakukan penamaan
ulang berupa penomoran secara berurut, beserta dengan penggantian ekstensi file
menjadi file email . Hal tersebut dilakukan menggunakan software Bulk Rename
dengan tujuan mempermudah mengolah korpus dalam pemrograman sehingga
lebih jelas dalam penamaan dan ekstensi setiap dokumennya.
Dari korpus yang ada, terlihat bahwa ukuran email yang masuk kategori spam
memiliki ukuran yang besar dibandingkan dengan email kategori ham. Ukuran
terbesar dari korpus email spam adalah 227 KB, sedangkan ukuran korpus email
9
ham terbesar adalah 192 KB. Email pada korpus memiliki sistem encoding dan
charset yang berbeda-beda. Charset adalah set karakter yang digunakan dan
encoding adalah cara yang digunakan untuk penyimpanan karakter di dalam
memori. Korpus email spam cenderung menggunakan encoding BASE64 yang
merepresentasikan karakter not humanly readable.
Ekstraksi Dokumen Email
Korpus email yang telah didapatkan kemudian dilakukan ekstraksi untuk
mendapatkan bagian-bagian tertentu dari bagian header dan body. Ekstraksi
dilakukan dengan menggunakan program MIME Mailparser. Komponen yang
diekstraksi dari bagian header adalah bagian subject karena baik dokumen spam
maupun ham selalu memiliki bagian tersebut. Subject lebih berpeluang
menghasilkan token yang optimum untuk klasifikasi dibandingkan komponen
header lainnya seperti from, to, return path, dan X-mailer tidak banyak
mempengaruhi klasifikasi karena sifatnya hanya informatif dan cocok digunakan
pada pengembangan klasifikasi berbasis aturan.
Proses ekstraksi pada bagian body mengambil isi dokumen yang termasuk
ke dalam text dan html. Bagian text merupakan teks biasa (plain text), sedangkan
bagian html merupakan isi dari body yang mengandung tag html. Tag tersebut
diekstraksi namun yang masuk sebagai data ekstraksi adalah atribut dan value dari
tag html-nya. Bagian email yang berupa attachment tidak diekstraksi karena tidak
menghasilkan token yang berguna untuk klasifikasi. Dari hasil pengamatan,
dokumen spam paling banyak mengandung html dan multipart (dokumen email
yang mengandung attachment).
Praproses
Proses tokenisasi dilakukan pada teks hasil dari ekstraksi bagian subject, text,
dan html sehingga menghasilkan token-token yang berupa kata tunggal.
Selanjutnya dilakukan penghilangan token yang termasuk ke dalam kategori stop
words 2. Setelah melalui proses penghilangan stop words didapat sejumlah 419 286
token dari seluruh dokumen data latih spam dan ham. Dengan total token unik
50 419, sejumlah 37 768 kata unik terdapat pada dokumen ham dan 21 378 kata
unik terdapat pada dokumen spam.
Token yang digunakan memiliki panjang minimum 3 karakter dan
selanjutnya dilakukan seleksi fitur dengan melakukan penghitungan nilai
chi-square setiap token pada persamaan (1), sehingga dapat ditentukan token yang
optimum masuk sebagai penciri dokumen spam berdasarkan nilai taraf nyata (α)
yang digunakan. Jumlah token unik yang masuk ke fungsi chi-square sejumlah
50 419. Nilai chi-square yang dihasilkan setiap token menunjukkan tingkat
kepentingan setiap token menjadi penciri suatu dokumen spam.
Dari nilai chi-square yang dihitung maka dapat ditentukan pengambilan
token penciri sesuai batas nilai taraf nyata (α). Tabel 6 memperlihatkan jumlah
token, persentase jumlah token yang terambil, dan persentase reduksi token yang
didapat pada beberapa taraf nyata (α).
2
Daftar stopwords dapat diunduh pada http://jmlr.org/papers/volume5/lewis04a/a11-smart-stoplist/english.stop
10
Tabel 6 Jumlah token, persentase token terambil, dan persentase token reduksi
pada 5 nilai taraf nyata (α)
Taraf Nyata
(α)
Nilai kritis
Jumlah Token
(Vocabulary)
0.100
0.050
0.010
0.005
0.001
2.710
3.840
6.630
7.830
10.830
9 361
7 733
3 851
3 399
2 559
Persentase
Token
Terambil
18.57
15.34
7.64
6.74
5.08
Persentase
Reduksi
Token
81.43
84.66
93.36
93.26
94.93
Pada Tabel 6 terlihat bahwa semakin kecil nilai taraf nyata (α) yang
digunakan, maka jumlah token penciri yang digunakan (vocabulary) semakin
sedikit, dan hal ini berpengaruh pada hasil klasifikasi. Lampiran 1 menunjukkan
pengaruh dari jumlah vocabulary yang diambil dari penggunaan 5 nilai taraf nyata
(α) terhadap nilai akurasi, miss rate, dan false alarm rate yang dihasilkan dari
proses klasifikasi.
Seleksi fitur mengoptimalkan perolehan token penciri spam agar sebuah
dokumen email dapat dihitung nilai peluang masuk ke dalam kelas spam dan ham.
Tabel 7 menunjukkan inverted index yang dihasilkan dari seleksi fitur pada
beberapa token diambil secara acak yang menjadi penciri spam dengan nilai
chi-square tinggi, dan frekuensi kemunculannya pada dokumen ham dan spam.
Tabel 7 Inverted index hasil seleksi fitur pada beberapa token penciri spam, dan
frekuensi kemunculannya pada dokumen ham dan spam
Token
Dokumen ham
opportunity
offer
deathtospamdeathtospamdeathtospam
reply
money
removed
arial
align
face
color
61
115
0
124
236
78
2880
1659
3729
2124
Dokumen spam
314
524
128
390
1111
608
6267
6317
8572
9213
Fungsi Smoothing Naïve Bayes
Berdasarkan perhitungan peluang dokumen pada persamaan (3), maka
dapat dihitung menggunakan masing-masing
pendugaan parameter �̂ |
metode smoothing (5), (6), (7), (8), dan (9) dengan � adalah banyaknya term t
dalam dokumen training dari kelas c yang diperoleh dari inverted index hasil
praproses.
Tabel 8 menunjukkan pengaruh koefisien metode smoothing terhadap akurasi
pada penggunaan vocabulary hasil seleksi fitur dengan taraf nyata (α) = 0.100. Pada
11
tabel tersebut terdapat koefisien yang digunakan oleh setiap persamaan metode
smoothing. Jelinek-mercer menggunakan koefisien pada persamaan (6), Dirichlet
menggunakan koefisien pada persamaan (7), Absolute-discounting menggunakan
koefisien � pada persamaan (8), dan Two-stage menggunakan koefisien dan
pada persamaan (9). Nilai koefisien yang diujikan pada penelitian ini terbatas pada
nilai yang tertera pada Tabel 8.
Tabel 8 Pengaruh koefisien kontrol dari metode smoothing Naïve Bayes terhadap
akurasi yang dihasilkan pada penggunaan vocabulary taraf nyata(α) = 0.100
Metode
Jelinek-mercer
Dirichlet
Absolute -discounting
Two-stage
Laplace
Koefisien Kontrol
= .
= .
= .
= .
= .9
= .
= .
= .
= .
= .9
�= .
�= .
�= .
�= .
� = .9
= .
=
=
9
=
9
= .
=
=
9
=
9
= .
=
=
9
=
9
= .
=
=
9
=
9
= .9
=
=
9
=
9
1
Akurasi (%)
94.16
94.93
94.76
94.49
93.88
94.82
93.77
93.83
93.94
94.10
94.60
93.83
93.00
92.06
89.91
94.87
92.94
93.83
94.76
93.50
93.83
94.71
93.83
93.66
94.38
93.50
93.50
93.72
93.88
92.89
93.72
12
Nilai Koefisen tersebut dapat di rubah sesuai dengan rentang nilainya. Semua
koefisien kontrol memiliki nilai dengan rentang 0 – 1, kecuali untuk pada
Two-Stage yang sesuai dengan jumlah vocabulary dalam penelitian, sehingga
digunakan nilai 25 210, 50 419, dan 75 629.
Proses klasifikasi juga dilakukan dengan tidak menggunakan seleksi fitur
chi-square. Lampiran 2 menunjukkan akurasi tanpa menggunakan seleksi fitur
sedikit lebih tinggi dibandingkan yang menggunakan seleksi fitur namun terdapat
kelemahan pada waktu eksekusi yang lebih lama dua kali lipat oleh karena itu
penggunaan seleksi fitur selain mempengaruhi akurasi juga mempersingkat waktu
eksekusi (Lampiran 3).
Perhitungan pendugaan parameter menggunakan empat metode smoothing
Naïve Bayes pada Tabel 4 dan Laplace pada persamaan (5) menghasilkan nilai
peluang yang berbeda sehingga menimbulkan perbedaan jumlah token penciri spam
yang terambil. Tabel 9 menunjukkan jumlah token penciri spam yang terambil dari
masing-masing metode smoothing.
Tabel 9 Jumlah token penciri spam yang dihasilkan dari metode perhitungan
smoothing Naive Bayes
Metode
Jelinek-mercer
Dirichlet
Absolute -discounting
Two-stage
Laplace
Jumlah token penciri spam
5687
5687
5879
5687
5685
Dari Tabel 9 dapat disimpulkan bahwa perhitungan pendugaan parameter
empat metode smoothing dapat menghasilkan jumlah token penciri spam yang lebih
banyak dibandingkan metode Laplace.
Evaluasi
Evaluasi dilakukan setelah pengujian terhadap dokumen uji, dengan
menghitung nilai peluang dokumen pada persamaan (3). Karena perkalian peluang
dokumen menghasilkan nilai yang sangat kecil sehingga dapat menghasilkan
kesalahan presisi, maka dilakukan perhitungan menggunakan logaritma untuk
menghitung peluang dokumen pada persamaan (Manning et al. 2009)
� |
log
� ̃|
log
� |
� ̃|
k
�
�
= log
∏
�
� ̃
= log
|
| ̃
�
�
+ ∑ log
� ̃
�
|
| ̃
dengan � | adalah nilai peluang masuk kedalam dokumen spam, dan � ̃ |
adalah nilai peluang masuk kedalam dokumen ham.
Dari hasil perhitungan nilai peluang pada dokumen uji maka dokumen hasil
klasifikasi dapat dimasukkan kedalam confussion matrix merujuk pada Tabel 5.
Gambar 2 yang menunjukkan tingkat akurasi masing-masing metode smoothing
13
terhadap 5 nilai taraf nyata (α) dengan metode perhitungan merujuk pada persamaan
(11). Terlihat bahwa akurasi lebih tinggi pada peggunaan niai taraf nyata 0.1.
95.50%
95.00%
94.50%
94.00%
Akurasi
93.50%
93.00%
92.50%
92.00%
91.50%
91.00%
0.1
0.05
0.01
0.005
0.001
Jelinek-mercer
94.93%
93.61%
93.50%
93.11%
92.78%
Dirichlet
94.82%
94.87%
93.66%
93.55%
93.27%
Absolute-Discounting
94.60%
94.54%
93.38%
92.89%
92.56%
Two-Stage
94.87%
93.61%
93.50%
93.11%
92.78%
Laplace
93.72%
93.61%
93.38%
92.94%
92.78%
Nilai taraf nyata α
Gambar 2 Tingkat akurasi pengujian dokumen email menggunakan metode
smoothing dengan seleksi fitur chi-square pada 5 nilai taraf
nyata (α)
Gambar 3 menunjukkan nilai miss rate yaitu persentase dari dokumen ham
yang salah terklasifikasi pada setiap metode smoothing, nilai yang dihasilkan
merujuk pada persamaan (13). Terlihat bahwa nilai miss rate terendah dihasilkan
dari penggunaan nilai taraf nyata 0.1.
Gambar 4 menunjukkan nilai false alarm yaitu persentase dari dokumen spam
yang salah terklasifikasi pada setiap metode smoothing seperti pada persamaan (12).
Terlihat bahwa nilai fase alarm rate terendah dihasilkan dari penggunaan nilai taraf
nyata 0.1.
Nilai false alarm rate tertinggi dimiliki oleh metode Laplace, yang
menunjukkan metode Laplace masih rentan dalam kesalahan klasifikasi email spam
ke dalam kelas ham yaitu sebesar 16%. Sedangkan nilai miss rate tertinggi dimiliki
oleh metode Absolute-Discounting yang menunjukkan bahwa metode smoothing ini
masih rentan dalam kesalahan klasifikasi email ham ke dalam kelas spam yaitu
sebesar 2.4%. Nilai miss rate yang tinggi pada metode Absolute-Discounting bisa
saja tidak diperhitungkan apabila kesalahan klasifikasi email ham tersebut adalah
email dengan kategori hard ham yang hampir menyerupai email spam.
Evaluasi tambahan dilakukan pada klasifikasi yang hanya menggunakan
token hasil ekstraksi bagian subject dan text. Lampiran 4 menunjukkan nilai akurasi,
miss rate, dan false alarm rate yang dihasilkan dari proses klasifikasi yang hanya
menggunakan bagian subject dan text. Nilai akurasi yang dihasilkan memang lebih
14
tinggi namun menghasilkan nilai miss rate juga tinggi sehingga masih lebih baik
menggunakan klasifikasi yang menggunakan bagian subject, text, dan html
5.00%
4.50%
4.00%
Nilai Miss Rate
3.50%
3.00%
2.50%
2.00%
1.50%
1.00%
0.50%
0.00%
0.1
0.05
0.01
0.005
0.001
Jelinek-Mercer
1.90%
2.30%
2.60%
3.10%
3.70%
Dirichlet
1.40%
1.60%
2.40%
2.60%
3.10%
Absolute-Discounting
2.40%
2.90%
3.60%
4.20%
4.60%
Two-Stage
1.90%
2.30%
2.60%
3.10%
3.70%
Laplace
1.80%
2.00%
2.50%
2.80%
3.30%
Nilai taraf nyata α
Gambar 3 Nilai miss rate dari pengujian dokumen email menggunakan
metode smoothing dengan seleksi fitur chi-square pada 5 nilai
taraf nyata (α)
Nilai False Alarm
20.00%
18.00%
16.00%
14.00%
12.00%
10.00%
8.00%
6.00%
4.00%
2.00%
0.00%
0.1
0.05
0.01
0.005
0.001
Jelinek-Mercer
14.40%
15.30%
15.10%
15.10%
14.90%
Dirichlet
13.40%
12.80%
14.90%
14.90%
14.60%
Absolute-Discounting
12.30%
11.10%
13.20%
13.50%
13.70%
Two-Stage
14.40%
15.30%
15.10%
15.10%
14.90%
Laplace
16.00%
16.00%
15.60%
16.30%
15.80%
Nilai taraf nyata α
Gambar 4 Nilai false alarm rate dari pengujian dokumen email menggunakan
metode smoothing dengan seleksi fitur chi-square pada 5 nilai
taraf nyata (α)
15
SIMPULAN DAN SARAN
Simpulan
Implementasi metode smoothing pada penghitungan peluang token adalah
untuk mengatasi permasalahan peluang token yang bernilai nol. Pada proses
klasifikasi Naïve Bayes menggunakan laplace smoothing hal tersebut dapat diatasi
dengan penambahan konstanta 1 sehingga dapat menghasilkan akurasi sebesar
93.72%. Namun dengan adanya metode smoothing lainnya yaitu Jelinek-Mercer,
Dirichlet, Absolute Discounting, dan Two-Stage peluang nol tersebut diatasi
dengan penambahan koefisien tertentu sesuai dengan formula setiap metode, dan
menghasilkan akurasi rata-rata maksimum dari empat metode smoothing sebesar
94.24%, lebih tinggi dibandingkan metode Laplace dan terbukti meningkatkan
akurasi. Dari hasil evaluasi terhadap nilai akurasi, false rate, dan miss rate terlihat
metode Dirichlet memiliki nilai miss rate yang paling rendah sebesar 1.4%, nilai
false rate 12.3%, dan akurasi 94.82%. Dari hasil penelitian memperlihatkan metode
Dirichlet merupakan metode paling baik pada implementasi proses klasifikasi email
spam.
Saran
Penelitian ini menghasilkan akurasi terbaik dari Naïve Bayes yang
menggunakan metode smoothing Dirichlet, oleh karena itu pengembangan lebih
lanjut dapat dilakukan dengan mengoptimalkan penggunaan metode smoothing
Dirichlet. Pengoptimalan tersebut dapat dilakukan antara lain dengan percobaan
koefisien kontrol hingga mendapatkan akurasi, false alarm, dan miss rate terbaik.
Penelitian lebih lanjut juga dapat dilakukan dengan mengikutsertakan ekstraksi
bagian images attachment yang banyak dimiliki dokumen spam, karena bagian
tersebut bisa dianalisis jika ada informasi teks yang tertanam didalamnya (Fumera
et al. 2006). Dengan adanya token yang dihasilkan dari images attachment, maka
vocabulary token penciri spam akan semakin bertambah sumbernya tidak hanya
pada bagian yang memiliki teks murni.
DAFTAR PUSTAKA
Anagnostopoulos A, Andrei ZB, and Kunal P. 2006. Effective and efficient
classification on a search-engine model. Publication in Knowledge and
Information System [Internet]. [diunduh pada 2014 Agustus 12]. Tersedia pada :
http://aris.me/pubs/index-classifier-kais.pdf.
Chharia A, Gupta RK. 2013. Enhancing Naïve Bayes Performance with Modified
Absolute Discount Smoothing Method in Spam Classification. International
Journal of Advanced Research in Computer Science and Software Engineering
[Internet].
[diunduh
pada
2014
Agutus
12].
3(3):424-429.
ISSN:2277-128X. Tersedia pada: http://www.ijarcsse.com/docs/papers
/Volume_3/3_March2013/V3I3-0345.pdf
16
Drucker H, Donghui W. 1999. Support Vector Machine for Spam Categorization.
IEEE Transactions On Neurak Networks. [Internet]. [diunduh pada 2014 Juli 2].
10(5):1048-1054. Tersedia pada : http://www.site.uottawa.ca/~diana/csi5180/
paper-itnn_1999_09_1048.pdf.
Fumera G, Pillai I, Roli F. 2006. Spam Filtering Based On The Analysis Of Text
Information Embedded Into Images. Journal of Machine Learning Research 7
[Internet]. [diunduh pada 2014 Desember 2]. 7 (2006): 2699-2720. Tersedia
pada : http://www.jmlr.org/papers/volume7/fumera06a/fumera06a.pdf.
Manning CD, Raghavan P, Schütze H. 2009. Introduction to Information Retrieval.
Cambridge University press [Internet]. [diunduh pada 2014 Juni 27]. New York
(US): Cambridge University press . Tersedia pada : http://nlp.stanford.edu/IRbook/pdf/irbookprint.pdf.
Metsis V, Androutsopolous I, Paliouras G. 2006. Spam Filtering with Naive
Bayes – Which Naive Bayes?. Third Conference on Email and Anti-Spam
[Internet]. [diunduh pada 2014 Juli 2]. California (US) : CEAS. Tersedia pada:
http://www.aueb.gr/users/ion/docs/ceas2006_paper.pdf.
Rachman W. 2011. Pengukuran Kinerja Spam Filter Menggunakan Metode Naive
Bayes Classifier Graham [Skripsi]. Bogor (ID): Institut Pertanian Bogor.
Sahami M, Dumais S, Heckerman D, Horvitz E. 1998. A Bayes Approach to
Filtering Junk E-Mail. [Internet].[diunduh pada 2014 Juli 1]. Tersedia
pada : http://robotics.stanford.edu/users/sahami/papers-dir/spam.pdf.
[Securelist] Securelist. 2014. Kaspersky Security Bulletin Spam evolution 2013
[Internet]. [diacu 2014 Juli 1]. Tersedia pada : https://securelist.com/analysis/
kaspersky-security-bulletin/58274/kaspersky-security-bulletin-spam-evolution2013/.
[The Internet Society] The Internet Society. 2005. Registration of Mail and MIME
Header Fields [Internet]. [diacu 2014 Juli 1]. Tersedia pada : http://tools.ietf.org/
html/rfc4021.
Walpole RE. 1993. Pengantar Statistika Edisi ke-3. Sumantri B, penerjemah.
Jakarta (ID): Gramedia Pustaka Utama. Terjemahan dari : Introduction to
Statistic 3rd Edition.
Yuan Q, Chong G, Thalmann NM. 2012. Enhancing Naïve Bayes with various
smoothing methods for short text classification. ACM [Internet].
[diunduh pada 2014 Juni 27]. Lyon (FR): WWW 2012 Companion. Doi: 9781-4503-1230-1/12/04. Tersedia pada: http://www3.ntu.edu.sg/home/gaocong/
papers/wpp095-yuan.pdf.
17
Lampiran 1 Tingkat akurasi, miss rate, false alarm rate dari proses klasifikasi
dokumen email menggunakan metode smoothing Naïve Bayes pada
5 nilai taraf nyata (α)
Metode Smoothing
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Nilai taraf
nyata (α)
0.100
0.050
0.010
0.005
0.001
Akurasi (%)
Miss rate
(%)
False
alarm rate
(%)
93.72
94.93
94.82
94.60
94.87
93.61
93.61
94.87
94.54
93.61
93.38
93.50
93.66
93.38
93.50
92.94
93.11
93.55
92.89
93.11
92.78
92.78
93.72
92.56
92.78
1.80
1.60
1.40
1.10
1.60
2.00
2.30
1.60
2.90
2.30
2.50
2.60
2.40
3.60
2.60
2.80
3.10
2.60
4.20
3.10
3.30
3.70
3.10
4.60
3.70
14.40
12.70
12.30
14.80
12.80
16.00
15.30
12.80
11.10
15.30
15.60
15.10
14.90
13.20
15.10
16.30
15.10
14.90
13.50
15.10
15.80
14.90
14.90
13.70
14.90
18
Lampiran 2 Tingkat akurasi tanpa menggunakan seleksi fitur chi-square
Metode
Jelinek-mercer
Dirichlet
Absolute -discounting
Two-stage
Laplace
Koefisien Kontrol
= .
= .
= .
= .
= .9
= .
= .
= .
= .
= .9
�= .
�= .
�= .
�= .
� = .9
= .
=
=
9
=
9
= .
=
=
9
=
9
= .
=
=
9
=
9
= .
=
=
9
=
9
= .9
=
=
9
=
9
1
Akuras (%)
94.76
94.93
94.76
94.49
93.88
93.55
93.77
93.83
93.94
94.10
94.60
93.83
93.00
92.06
89.91
94.87
94.87
94.87
94.93
94.82
94.76
94.76
94.71
94.71
94.38
94.38
94.38
93.83
93.77
93.72
94.54
19
Lampiran 3 Waktu eksekusi metode smoothing pada nilai taraf nyata (α)= 0.1 dan
nilai koefisien kontrol metode smoothing
Metode
Jelinek-mercer
Dirichlet
Absolute -discounting
Koefisien Kontrol
= .
= .
= .
= .
= .9
= .
= .
= .
= .
= .9
�= .
�= .
�= .
�= .
� = .9
= .
=
=
=
= .
=
=
=
Two-stage
= .
=
=
=
= .
=
=
=
Laplace
= .9
=
=
=
1
9
9
9
9
9
9
9
9
9
9
Waktu (detik)
8.34
8.58
8.59
8.72
8.37
8.60
8.76
8.38
8.38
8.54
8.40
8.61
8.67
8.84
8.63
8.99
8.58
8.72
8.32
8.65
8.50
8.45
8.68
8.58
8.53
8.69
8.38
8.65
8.40
8.40
8.45
20
Lampiran 4 Tingkat akurasi, miss rate, false alarm rate dari proses klasifikasi
email yang tidak menggunakan token ekstraksi html pada 5 nilai
taraf nyata (α)
Metode Smoothing
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Nilai taraf
nyata (α)
0.100
0.050
0.010
0.005
0.001
Akurasi (%)
Miss rate
(%)
False
alarm rate
(%)
94.43
94.65
94.93
95.15
94.43
94.21
94.38
94.87
94.16
94.38
93.44
93.50
93.99
92.50
93.50
93.27
93.38
93.88
92.39
93.44
92.39
92.34
93.44
91.90
92.34
2.60
2.40
1.70
3.40
2.40
2.70
2.70
2.00
2.70
2.70
3.90
4.10
3.00
6.70
4.10
4.20
4.30
3.20
6.90
4.30
5.20
5.50
4.10
7.90
5.50
12.10
11.80
12.50
8.10
11.80
12.70
12.00
12.00
7.60
12.00
12.30
11.80
12.70
9.10
11.80
12.30
11.60
12.50
9.10
11.60
12.80
12.50
12.00
8.60
12.50
21
RIWAYAT HIDUP
Penulis dilahirkan dengan nama Mutia Hafilizara di kota Subang, Provinsi
Jawa Barat pada tanggal 26 Mei 1991. Penulis merupakan anak pertama dari dua
bersaudara, pasangan Bapak Jajang Juhara dan Ibu Lilis Sumiati.
Penulis mulai mengenal pendidikan dari TK An-Nida di Binong dan lulus
pada tahun 1997, kemudian melanjutkan pendidikan ke Sekolah Dasar di Sekolah
Dasar Negeri 1 Binong dan lulus pada tahun 2003. Pendidikan menengah penulis
diselesaikan pada tahun 2006 di SMP Negeri 1 Binong. Kemudian melanjutkan
pendidikan tingkat atas yang dapat diselesaikan pada tahun 2009 di SMA Negeri 1
Subang dan pada tahun yang sama penulis melanjutkan pendidikan di Institut
Pertanian Bogor Program Diploma, Program Keahlian Manajemen Informatika.
Setelah menempuh pendidikan pada program Diploma penulis melanjutkan
pendidikan tingkat sarjana pada program Ekstensi Ilmu Komputer IPB angkatan
ke-7.
KLASIFIKASI EMAIL SPAM
MUTIA HAFILIZARA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Metode Smoothing
dalam Naïve Bayes untuk Klasifikasi Email Spam adalah benar karya saya dengan
arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada
perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya
yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam
teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Desember 2014
Mutia Hafilizara
NIM G64124007
ABSTRAK
MUTIA HAFILIZARA. Metode Smoothing dalam Naïve Bayes untuk
Klasifikasi Email Spam. Dibimbing oleh JULIO ADISANTOSO.
Kehadiran spam pada email menyebabkan penelitian terhadap pembangunan
piranti lunak spam filter untuk mengklasifikasikan email meningkat. Naïve Bayes
banyak digunakan sebagai fungsi klasifikasi oleh pengembang spam filter. Pada
fungsi klasifikasi Naïve Bayes terdapat metode smoothing yang telah umum
digunakan yaitu Add-One smoothing atau Laplace smoothing. Disamping itu
terdapat metode smoothing lainnya yaitu Jelinek-Mercer smoothing, Dirichlet
smoothing, Absolute Discounting smoothing, dan Two-Stage smoothing yang
diduga mampu meningkatkan akurasi melebihi Laplace smoothing. Hasil percobaan
menunjukkan bahwa akurasi yang dihasilkan fungsi Naïve Bayes menggunakan
metode Laplace smoothing sebesar 93.72% lebih rendah dari penggunaan metode
smoothing lainnya yang mencapai nilai akurasi melebihi 94%. Fungsi klasifikasi
Naïve Bayes yang menggunakan metode Dirichlet smoothing memberikan nilai
akurasi terbaik dengan nilai akurasi 94.82%.
Kata kunci: akurasi, metode smoothing naïve bayes, spam filter
ABSTRACT
MUTIA HAFILIZARA. Naïve Bayes Smoothing Methods for Spam Email
Classification. Supervised by JULIO ADISANTOSO.
The presence of spam in email lead research on the development of software
to classify email spam filter increases. Naïve Bayes is widely used as classification
function by spam filter developer. Smoothing method on Naïve Bayes classification
function that has been commonly used, namely Add-One smoothing or Laplace
smoothing. There are another methods such as Jelinek-Mercer smoothing, Dirichlet
smoothing, Absolute Discounting smoothing, and Two –Stage which allegedly able
to improve classification accuracy exceeds Laplace smoothing. The experimental
results shown accuracy for Naïve Bayes classification function using Laplace
smoothing method is 93.72% lower than other smoothing methods which
accuration results more than 94%. Naïve Bayes classification function which using
Dirichlet smoothing method that gives the best results with accuracy 94.82%.
Keywords: accuration, naïve bayes smoothing method, spam filter
METODE SMOOTHING DALAM NAÏVE BAYES UNTUK
KLASIFIKASI EMAIL SPAM
MUTIA HAFILIZARA
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014
Penguji:
1. Ahmad Ridha, SKom MS
2. Dr Imas Sukaesih Sitanggang, SSi MKom
Judul Skripsi : Metode Smoothing dalam Naïve Bayes untuk Klasifikasi Email
Spam
Nama
: Mutia Hafilizara
NIM
: G64124007
Disetujui oleh
Ir Julio Adisantoso, MKom
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Juni 2014 ini ialah spam
filter, dengan judul Metode Smoothing dalam Naïve Bayes untuk Klasifikasi Email
Spam.
Terima kasih penulis ucapkan kepada Bapak Ir. Julio Adisantoso M.Kom
selaku pembimbing. Ungkapan terima kasih juga disampaikan kepada kedua
orangtua, Iqbal, Mute, serta seluruh keluarga dan teman, atas segala doa dan kasih
sayangnya. Begitu pula rasa terima kasih penulis ucapkan pada rekan-rekan
Ekstenerz 7 yang menjadi bagian hidup penulis selama menempuh pendidikan di
Ekstensi Ilmu Komputer IPB .
Semoga karya ilmiah ini bermanfaat.
Bogor, Desember 2014
Mutia Hafilizara
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
2
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
2
Pengumpulan Dokumen Email
3
Ekstraksi Dokumen Email
3
Praproses
4
Fungsi Smoothing Naïve Bayes
6
Evaluasi
7
HASIL DAN PEMBAHASAN
8
Pengumpulan Dokumen Email
8
Ekstraksi Dokumen Email
9
Praproses
9
Fungsi Smoothing Naïve Bayes
10
Evaluasi
12
SIMPULAN DAN SARAN
15
Simpulan
15
Saran
15
DAFTAR PUSTAKA
15
LAMPIRAN
17
RIWAYAT HIDUP
21
DAFTAR TABEL
1 Komponen Header dan Body
2 Tabel Kontingensi
3 Nilai Kritis � untuk taraf nyata α dengan derajat bebas = 1 (Walpole
1993)
4 Pendugaan parameter empat metode smoothing (Yuan et al. 2012)
5 Confussion Matrix dari klasifikasi dokumen email
6 Jumlah token, persentase token terambil, dan persentase token reduksi
pada 5 nilai taraf nyata (α)
7 Inverted index hasil seleksi fitur pada beberapa token penciri spam, dan
frekuensi kemunculannya pada dokumen ham dan spam
8 Pengaruh koefisien kontrol dari metode smoothing Naïve Bayes terhadap
akurasi yang dihasilkan pada penggunaan vocabulary taraf nyata(α) =
0.100
9 Jumlah token penciri spam yang dihasilkan dari metode perhitungan
smoothing Naive Bayes
4
5
5
7
7
10
10
11
12
DAFTAR GAMBAR
1 Diagram Alir Penelitian
2 Tingkat akurasi pengujian dokumen email menggunakan metode
smoothing dengan seleksi fitur chi-square pada 5 nilai taraf nyata (α)
3 Nilai miss rate dari pengujian dokumen email menggunakan metode
smoothing dengan seleksi fitur chi-square pada 5 nilai taraf nyata (α)
4 Nilai false alarm rate dari pengujian dokumen email menggunakan
metode smoothing dengan seleksi fitur chi-square pada 5 nilai taraf
nyata (α)
3
13
14
14
DAFTAR LAMPIRAN
1 Tingkat akurasi, miss rate, false alarm rate dari proses klasifikasi
dokumen email menggunakan metode smoothing Naïve Bayes pada 5
nilai taraf nyata (α)
2 Tingkat akurasi tanpa menggunakan seleksi fitur chi-square
3 Waktu eksekusi metode smoothing pada nilai taraf nyata (α)= 0.1 dan
nilai koefisien kontrol metode smoothing
4 Tingkat akurasi, miss rate, false alarm rate dari proses klasifikasi email
yang tidak menggunakan token ekstraksi html pada 5 nilai taraf nyata
(α)
17
18
19
20
PENDAHULUAN
Latar Belakang
Berkirim surat merupakan hal yang sering dilakukan oleh semua orang. Salah
satu sarana mengirim surat adalah melalui pos. Namun seiring dengan kemajuan
teknologi, kemunculan email menjadi alternatif sarana mengirim surat yang lebih
cepat dan hemat biaya dibandingkan melalui pos. Keunggulan yang dimiliki email
ternyata banyak disalahgunakan sebagai sarana pengiriman pesan massal yang
bersifat komersial atau pesan lain yang tidak diinginkan biasa disebut dengan spam.
Spam yang terkirim kepada pengguna layanan email dapat menimbulkan
masalah berupa meningkatnya kapasitas penyimpanan dan menghabiskan waktu
pengguna untuk menghapus spam. Seperti hasil analisis spam tahunan yang tersedia
pada website Securelist (2014) terdapat 69.9% spam yang terkirim di seluruh dunia
pada tahun 2013. Angka ini menurun 2.5% dari tahun sebelumnya.
Dengan adanya masalah kehadiran spam, maka muncul piranti lunak spam
filter untuk mengklasifikasikan email yang dikembangkan dengan berbagai macam
metode, salah satunya menggunakan fungsi klasifikasi Naïve Bayes. Naïve Bayes
banyak digunakan sebagai metode dalam klasifikasi oleh pengembang spam filter
komersial maupun open-source karena kesederhanaan algoritmenya dan mudah
dalam mengimplementasikannya (Metsis et al. 2006). Pada penelitan pemodelan
spam filter sebelumnya Rachman (2011) melakukan pengukuran kinerja spam filter
menggunakan fungsi klasifikasi Naïve Bayes Multinomial dan Graham.
Pada proses penghitungan Naïve Bayes terdapat masalah apabila ada peluang
yang bernilai nol. Oleh karena itu digunakan Laplace smoothing yaitu penambahan
dengan angka 1 sehingga tidak ada peluang yang akan bernilai nol. Selain Laplace
smoothing ada beberapa metode smoothing lainnya. Pada penelitian Yuan et al.
(2012) dilakukan klasifikasi teks pendek menggunakan empat jenis metode
smoothing dalam Naïve Bayes yaitu Jelinek-Mercer smoothing, Dirichlet
smoothing, Absolute Discounting smoothing, dan Two-Stage smoothing. Hasil
penelitian ini memperlihatkan bahwa metode smoothing tersebut mampu
meningkatkan tingkat akurasi dari Naïve Bayes untuk proses klasifikasi teks.
Selain penggunaan metode smoothing ada juga seleksi fitur. Seleksi fitur
dilakukan untuk mendapatkan daftar term yang efektif dan meningkatkan akurasi
klasifikasi salah satunya adalah menggunakan chi-square karena performanya yang
lebih baik dibandingkan seleksi fitur berbasis frekuensi dan Mutual Information
(Manning et al. 2009). Oleh karena itu, penelitian ini mengimplementasikan
metode-metode smoothing dalam Naive Bayes dan seleksi fitur chi-square pada
proses klasifikasi dokumen email spam.
2
Perumusan Masalah
Perumusan masalah penelitian ini adalah :
1. Bagaimana empat metode smoothing dalam Naïve Bayes digunakan dalam
proses klasifikasi dokumen email spam?
2. Bagaimana seleksi fitur chi-square dapat mempengaruhi tingkat akurasi?
3. Bagaimana tingkat akurasi yang dihasilkan dari metode Jelinek-Mercer,
Dirichlet, Absolute Discounting, dan Two Stage smoothing jika dibandingkan
dengan metode Laplace smoothing?
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1. Mengimplementasikan metode smoothing dalam Naïve Bayes yaitu Laplace,
Jelinek-Mercer, Dirichlet, Absolute Discounting, dan Two Stage pada proses
klasifikasi dokumen email spam.
2. Mengimplementasikan seleksi fitur chi-square pada proses klasifikasi dokumen
email spam.
3. Membandingkan tingkat akurasi dari metode Jelinek-Mercer, Dirichlet,
Absolute Discounting, Two Stage smoothing, dan Laplace smoothing.
Manfaat Penelitian
Penelitian ini diharapkan dapat menghasilkan pemodelan klasifikasi spam
yang tingkat akurasinya lebih baik.
Ruang Lingkup Penelitian
1.
2.
3.
4.
Ruang lingkup pada penelitian ini antara lain:
Korpus yang digunakan adalah dokumen email berbahasa inggris dengan standar
MIME dalam format raw.
Seleksi fitur yang digunakan adalah metode chi-square.
Data email yang digunakan diekstrak untuk mendapatkan header dan body.
Untuk bagian header yang diambil adalah subject untuk dilakukan tokenisasi
Proses stemming tidak dilakukan karena hanya menurunkan jumlah vocabulary.
METODE
Tahapan penelitian dimulai dari pengumpulan data email, ekstraksi dokumen
email, praproses, melakukan pemodelan menggunakan beberapa fungsi klasifikasi,
pengujian, dan evaluasi hasil. Gambar 1 menunjukkan diagram alir penelitian yang
dilakukan.
3
Gambar 1 Diagram Alir Penelitian
Pengumpulan Dokumen Email
Data yang digunakan dalam penelitian adalah korpus email publik yang
tersedia pada halaman web Spamassassin1 dengan kode prefix “20030228”. Data
yang didapatkan masih berupa campuran dari 3 tipe email yaitu easy ham, hard
ham, dan spam. Email tersebut terdiri atas 1897 spam, 250 hard ham dan 3900 easy
ham.
Tipe easy ham merupakan pesan ham yang tidak memiliki cukup ciri untuk
dikategorikan sebagai spam. Sedangkan tipe hard ham merupakan pesan ham yang
memiliki cukup ciri untuk dikategorikan sebagai spam. Selanjutnya pada penelitian
ini pesan yang termasuk kategori easy ham dan hard ham digabungkan menjadi tipe
ham. Dengan demikian korpus yang digunakan adalah kumpulan email bertipe ham
dan spam. Setiap data email tersebut akan diberi label sesuai dengan kelasnya
masing-masing secara manual.
Ekstraksi Dokumen Email
Ekstraksi dokumen email untuk mendapatkan bagian email yang akan
dimasukkan dalam proses tokenisasi. Isi dari sebuah dokumen email terdiri atas
header dan diikuti dengan body (opsional). Tabel 1 menampilkan komponen header
dan body berdasarkan The Internet Society (2005), sedangkan komponen header
yang digunakan untuk mendapatkan ekstraksi dokumen email dalam penelitian
adalah subject saja.
1
Data email diunduh di alamat http://spamassassin.apache.org/publiccorpus/
4
Tabel 1 Komponen Header dan Body
Jenis
Komponen
Nama Sintaks
Definisi Sintaks
MIME-version
Form
Received
Menunjukkan versi MIME yang digunakan
Nama dan alamat pengirim pesan
Daftar semua server / komputer dimana
pesan dapat sampai kepada penerimanya
Menunjukkan tanggal dan waktu pesan
email dibuat
Alamat penerima email
Sebuah string unik yang diberikan oleh
sistem mail saat pesan tersebut pertama kali
dibuat
Subjek dari pesan
Alamat yang digunakan untuk mengirim
pesan
Aplikasi
yang
digunakan
untuk
mengirimkan pesan
Alamat pengembalian pesan jika alamat
penerima tidak ditemukan
Isi pesan dengan format penulisan dalam
teks ASCII biasa
Isi pesan yang mengandung tag HTML
Informasi yang memberikan lampiran dari
sebuah pesan.
Date
Delivered-To
Message-ID
Header
Subject
To
X-Mailer
Return - Path
Plain text
Body
HTML text
Attachment
Praproses
Dokumen email yang telah diekstraksi kemudian dilakukan tokenisasi.
Tokenisasi adalah proses memotong teks menjadi bagian-bagian kecil yang disebut
dengan token (Manning et al. 2008). Selain pemotongan teks, pada tahap praproses
juga dilakukan pembuangan karakter-karakter tertentu dan seleksi fitur ciri.
Pembuangan karakter-karakter tertentu dalam tahap ini adalah membuang bagian
kata yang termasuk ke dalam stopwords. Pada penelitian ini stopwords dibuang
untuk mengoptimalkan dalam memunculkan token yang berguna dalam proses
seleksi fitur ciri. Proses stemming tidak dilakukan karena pada penelitian
sebelumnya Drucker et al. (1999) menyatakan stemming hanya menurunkan besar
vocabulary.
Seleksi fitur ciri adalah proses memilih sebuah subset dari token-token yang
muncul, dan hanya subset ini yang digunakan sebagai fitur dalam proses klasifikasi.
Dengan adanya seleksi fitur ciri dapat mengoptimalkan proses klasifikasi karena
dapat meminimumkan jumlah token yang efektif saja, dan dapat meningkatkan
tingkat akurasi dalam mengklasifikasi karena dapat menghilangkan noise feature.
Secara lebih sederhananya tidak semua kata unik dapat menjadi penciri, oleh karena
itu dilakukan seleksi fitur ciri. Terdapat 3 seleksi fitur ciri, yaitu Mutual
Information, Chi-Square, dan Frequency Based (Manning et al. 2009).
5
Untuk menentukan subset dari token yang muncul, pada penelitian ini
menggunakan seleksi fitur ciri chi-square. Nilai chi-square kata t pada kelas c
dihitung menggunakan persamaan (Manning et al. 2009)
�
= ∑
,
� ∈{
, } ∑ ∈{ , }
(� �
−
�
�
(1)
dengan N adalah frekuensi yang diamati, E adalah frekuensi yang diharapkan,
adalah dokumen yang terkait dengan token t, dan adalah dokumen yang tidak
terkait dengan kelas c. Penghitungan nilai chi-square pada setiap kata t yang
muncul pada setiap kelas c dapat dibantu dengan menggunakan tabel kontingensi
pada Tabel 2. Isi dari Tabel 2 terdiri atas N merupakan jumlah dokumen latih, A
merupakan banyaknya dokumen pada kelas c yang memuat kata t, B merupakan
banyaknya dokumen yang bukan kelas c namun memuat kata t, C merupakan
banyaknya dokumen yang ada di kelas c namun tidak memiliki kata t, serta D
merupakan banyaknya dokumen yang bukan kelas c dan tidak memuat kata t.
Tabel 2 Tabel Kontingensi
Kelas
Kata
̚c
c
A
C
t
̚t
B
D
Tabel kontingensi membantu persamaan 1 lebih sederhana menjadi bentuk
persamaan
�
,
=
+
�
+
−
+
(2)
+
Pengambilan keputusan dilakukan berdasarkan nilai � dari masing-masing
kata. Kata yang memiliki nilai � lebih besar dari nilai kritis pada taraf nyata α
adalah kata yang akan dipilih sebagai penciri dokumen. Kata yang dipilih sebagai
penciri merupakan kata yang memiliki pengaruh terhadap kelas c. Beberapa nilai
kritis � untuk taraf nyata α yang digunakan dalam penelitian (Walpole 1993)
ditunjukkan pada Tabel 3.
Tabel 3 Nilai Kritis � untuk taraf nyata α dengan derajat bebas = 1
(Walpole 1993)
α
0.100
0.050
0.010
0.005
0.001
Nilai kritis
2.710
3.840
6.630
7.830
10.830
Hasil dari proses tokenisasi adalah inverted index dari korpus email yang
telah memiliki bobot. Penelitian Anagnostopoulos et al. (2006) menunjukkan
bahwa inverted index dapat mengefisienkan klasifikasi. Pada tahapan seleksi fitur
menggunakan chi-square dengan nilai kritis tertentu telah terpilih term yang
menjadi subset kemudian diboboti berupa term frequency (TF). Subset tersebut
6
dijadikan matriks dengan memisalkan TFij adalah banyaknya token i yang muncul
pada dokumen j, yaitu
��
��
…
��
��
��
…
��
�� …
�� …
…
��
��
��
).
…
��
Fungsi Smoothing Naïve Bayes
Token penciri dokumen yang masuk suatu kelas tertentu telah didapatkan
pada tahap tokenisasi, sehingga tahap selanjutnya adalah menentukan fungsi
klasifikasi. Pada penelitian ini pemodelan klasifikasi menggunakan metode
supervised learning berbasis peluang. Perhitungan peluang tersebut berdasarkan
kaidah peluang Naïve Bayes yaitu
∏ ≤ < � |
� |
∝�
(3)
dengan parameter �
adalah peluang dokumen ada pada kelas c, � | adalah
peluang token muncul pada dokumen c, dan
adalah jumlah token unik pada
̂
̂
|
pada persamaan
dan �
dokumen. Pendugaan parameter �
�
�
̂
̂
= � , � | = ∑ �
�
(4)
�
�′∈�
�′
dimana
adalah banyaknya dokumen dalam kelas c, N adalah total dokumen,
� adalah banyaknya token t dalam dokumen training dari kelas c (Manning et al.
2009).
Pendugaan parameter �̂ | memiliki kelemahan apabila bernilai nol.
Untuk menghilangkan hal tersebut dapat diatasi dengan adanya metode smoothing
pada Naïve Bayes. Metode yang sudah umum dipakai adalah Add-One Smoothing
atau selanjutnya disebut sebagai Laplace Smoothing. Metode tersebut memiliki
persamaan (Manning et al. 2009)
� �+
(5)
�̂ | = ∑
|
�′∈� � �′
+|
dengan | | = banyaknya term dalam vocabulary.
Penggunaan Laplace Smoothing sebagai metode penghitungan peluang setiap
token adalah yang paling sederhana dengan menambahkan 1 pada setiap frekuensi
token yang didapat. Walaupun sederhana ternyata metode Laplace Smoothing
masih rentan terhadap noise. Oleh karena itu dilakukan penelitian yang dilakukan
Yuan et al. (2012) terkait dengan klasifikasi teks pendek dengan menggunakan
empat metode smoothing yaitu Jelinek - Mercer, Dirichlet, Absolute Discounting,
dan Two-Stage smoothing. Penggunaan empat metode smoothing tersebut terbukti
dapat meningkatkan hasil akurasi melebihi metode Laplace Smoothing.
Perhitungan peluang setiap dokumen menggunakan empat metode
smoothing ini masih mengacu kaidah Naïve Bayes pada persamaan (3) namun
berbeda pada persamaan pendugaan parameter �̂ | seperti yang ditampilkan
pada Tabel 4.
7
Tabel 4 Pendugaan parameter empat metode smoothing (Yuan et al. 2012)
Metode
Jelinek-Mercer
�̂
Dirichlet
|
�̂
Absolute Discounting
|
=
�̂� |
Two-Stage
=
�̂ ,
|
=
−
�̂
∑
�
′∈� � ′
� + � |
∑ ′∈� � ′ +
max � − �,
∑
=
|
� |
+
+ �| |� |
′∈� � ′
� + � |
∑ ′ ∈� � ′ +
−
+
� |
Niai , , dan � merupakan koefisien kontrol yang bersifat relatif hingga
menghasilkan akurasi paling optimum pada klasifikasi, | | jumlah kata unik pada
kelas c, � | merupakan penduga kemungkinan maksimum dihitung dengan
persamaan
� |
=
∑�=
,
∑ ∑
(10)
,
adalah jumlah token t pada kelas
hingga
, dan
dimana ∑ =
,
∑ ∑
,
adalah jumlah seluruh token yang ada pada kelas hingga
(Chharia dan Gupta 2013).
Pada metode smoothing Absolute Discounting perhitungan penduga
kemungkinan maksimum � |
dilakukan berbeda, yaitu menggunakan
persamaan
� |
=
| |
× ∑
=
,
dengan | | = banyaknya term dalam vocabulary (Chharia dan Gupta 2013).
Evaluasi
Pemodelan yang telah dilakukan dengan cara supervised learning berbasis
peluang Naïve Bayes pada data latih, selanjutnya diuji dan dievaluasi menggunakan
data uji yang tersedia. Data tersebut masuk ke proses tokenisasi untuk mendapatkan
token setiap dokumen, kemudian dihitung peluang dokumen pada persamaan (3)
dengan menggunakan pendugaan parameter pada persamaan (5), (6), (7), (8), dan
(9). Evaluasi dilakukan dengan cara membandingkan kelas aktual dari dari data uji
dan kelas hasil prediksi dengan menggunakan Confusion Matrix (Tabel 5).
Tabel 5 Confussion Matrix dari klasifikasi dokumen email
Kelas Prediksi
Kelas Aktual
Spam
̚ Spam
Spam
TP
FP
̚ Spam
FN
TN
8
TP (True Positive) pada Tabel 5 merupakan banyaknya dokumen yang kelas
aktualnya adalah kelas spam dengan kelas prediksinya kelas spam, FN (False
Negative) merupakan banyaknya dokumen yang kelas aktualnya adalah kelas spam
dengan kelas prediksinya kelas bukan spam, FP (False Positive) merupakan
banyaknya dokumen yang ada kelas aktualnya adalah kelas bukan spam dengan
kelas prediksinya kelas spam serta TN merupakan banyaknya dokumen yang ada
kelas aktualnya adalah kelas bukan spam dengan kelas prediksinya kelas bukan
spam. Berdasarkan Tabel 5, maka nilai akurasi dapat dihitung dengan
menggunakan persamaan (Manning et al. 2009)
��+��
� �=
.
(11)
��+ �+ �+��
Selain dari pengukuran akurasi, evaluasi dilakukan terhadap False Alarm
Rate dan Miss Rate. False Alarm adalah ukuran dokumen spam yang salah
terklasifikasi pada persamaan
�
�
��
�
�� =
(12)
�
�
sedangkan Miss Rate adalah ukuran dokumen ham yang salah terklasifikasi pada
persamaan
�
�
.
(13)
�
� =
�
�
Keuntungan dari penggunaan False Alarm Rate dan Miss Rate dapat
mengindikasikan tingkat kesalahan klasifikasi setiap kategori (Harris et al. 1999).
HASIL DAN PEMBAHASAN
Pengumpulan Dokumen Email
Korpus email yang telah didapatkan sebelumnya, yaitu 1897 spam, 250 hard
ham, dan 3900 easy ham kemudian digabungkan dan dikategorikan menjadi 2 jenis
yaitu ham dan spam. Ham merupakan gabungan dari data hard ham dan easy ham.
Korpus dimasukkan dalam folder mails sebagai sumber data yang digunakan
dalam pembuatan program klasifikasi dan masing-masing dibagi menjadi data latih
sebanyak 70%, dan data uji sebanyak 30%. Komposisi dari pembagian korpus
adalah sebagai berikut :
1. Total dari dokumen ham 4150. Komposisi yang digunakan sebagai data
latih sebanyak 2905 dokumen dan data uji sebanyak 1245 dokumen.
2. Total dari dokumen spam 1897. Komposisi yang digunakan sebagai data
latih sebanyak 1328 dokumen dan data uji sebanyak 569 dokumen.
Bahasa yang digunakan dalam korpus email adalah Bahasa Inggris. Bahasa
yang digunakan tersebut mengacu pada data email yang didapat dari laman
spamassasin. Penomoran serta ekstensi file yang berbeda-beda pada korpus
menyulitkan pada saat training maupun testing sehingga harus dilakukan penamaan
ulang berupa penomoran secara berurut, beserta dengan penggantian ekstensi file
menjadi file email . Hal tersebut dilakukan menggunakan software Bulk Rename
dengan tujuan mempermudah mengolah korpus dalam pemrograman sehingga
lebih jelas dalam penamaan dan ekstensi setiap dokumennya.
Dari korpus yang ada, terlihat bahwa ukuran email yang masuk kategori spam
memiliki ukuran yang besar dibandingkan dengan email kategori ham. Ukuran
terbesar dari korpus email spam adalah 227 KB, sedangkan ukuran korpus email
9
ham terbesar adalah 192 KB. Email pada korpus memiliki sistem encoding dan
charset yang berbeda-beda. Charset adalah set karakter yang digunakan dan
encoding adalah cara yang digunakan untuk penyimpanan karakter di dalam
memori. Korpus email spam cenderung menggunakan encoding BASE64 yang
merepresentasikan karakter not humanly readable.
Ekstraksi Dokumen Email
Korpus email yang telah didapatkan kemudian dilakukan ekstraksi untuk
mendapatkan bagian-bagian tertentu dari bagian header dan body. Ekstraksi
dilakukan dengan menggunakan program MIME Mailparser. Komponen yang
diekstraksi dari bagian header adalah bagian subject karena baik dokumen spam
maupun ham selalu memiliki bagian tersebut. Subject lebih berpeluang
menghasilkan token yang optimum untuk klasifikasi dibandingkan komponen
header lainnya seperti from, to, return path, dan X-mailer tidak banyak
mempengaruhi klasifikasi karena sifatnya hanya informatif dan cocok digunakan
pada pengembangan klasifikasi berbasis aturan.
Proses ekstraksi pada bagian body mengambil isi dokumen yang termasuk
ke dalam text dan html. Bagian text merupakan teks biasa (plain text), sedangkan
bagian html merupakan isi dari body yang mengandung tag html. Tag tersebut
diekstraksi namun yang masuk sebagai data ekstraksi adalah atribut dan value dari
tag html-nya. Bagian email yang berupa attachment tidak diekstraksi karena tidak
menghasilkan token yang berguna untuk klasifikasi. Dari hasil pengamatan,
dokumen spam paling banyak mengandung html dan multipart (dokumen email
yang mengandung attachment).
Praproses
Proses tokenisasi dilakukan pada teks hasil dari ekstraksi bagian subject, text,
dan html sehingga menghasilkan token-token yang berupa kata tunggal.
Selanjutnya dilakukan penghilangan token yang termasuk ke dalam kategori stop
words 2. Setelah melalui proses penghilangan stop words didapat sejumlah 419 286
token dari seluruh dokumen data latih spam dan ham. Dengan total token unik
50 419, sejumlah 37 768 kata unik terdapat pada dokumen ham dan 21 378 kata
unik terdapat pada dokumen spam.
Token yang digunakan memiliki panjang minimum 3 karakter dan
selanjutnya dilakukan seleksi fitur dengan melakukan penghitungan nilai
chi-square setiap token pada persamaan (1), sehingga dapat ditentukan token yang
optimum masuk sebagai penciri dokumen spam berdasarkan nilai taraf nyata (α)
yang digunakan. Jumlah token unik yang masuk ke fungsi chi-square sejumlah
50 419. Nilai chi-square yang dihasilkan setiap token menunjukkan tingkat
kepentingan setiap token menjadi penciri suatu dokumen spam.
Dari nilai chi-square yang dihitung maka dapat ditentukan pengambilan
token penciri sesuai batas nilai taraf nyata (α). Tabel 6 memperlihatkan jumlah
token, persentase jumlah token yang terambil, dan persentase reduksi token yang
didapat pada beberapa taraf nyata (α).
2
Daftar stopwords dapat diunduh pada http://jmlr.org/papers/volume5/lewis04a/a11-smart-stoplist/english.stop
10
Tabel 6 Jumlah token, persentase token terambil, dan persentase token reduksi
pada 5 nilai taraf nyata (α)
Taraf Nyata
(α)
Nilai kritis
Jumlah Token
(Vocabulary)
0.100
0.050
0.010
0.005
0.001
2.710
3.840
6.630
7.830
10.830
9 361
7 733
3 851
3 399
2 559
Persentase
Token
Terambil
18.57
15.34
7.64
6.74
5.08
Persentase
Reduksi
Token
81.43
84.66
93.36
93.26
94.93
Pada Tabel 6 terlihat bahwa semakin kecil nilai taraf nyata (α) yang
digunakan, maka jumlah token penciri yang digunakan (vocabulary) semakin
sedikit, dan hal ini berpengaruh pada hasil klasifikasi. Lampiran 1 menunjukkan
pengaruh dari jumlah vocabulary yang diambil dari penggunaan 5 nilai taraf nyata
(α) terhadap nilai akurasi, miss rate, dan false alarm rate yang dihasilkan dari
proses klasifikasi.
Seleksi fitur mengoptimalkan perolehan token penciri spam agar sebuah
dokumen email dapat dihitung nilai peluang masuk ke dalam kelas spam dan ham.
Tabel 7 menunjukkan inverted index yang dihasilkan dari seleksi fitur pada
beberapa token diambil secara acak yang menjadi penciri spam dengan nilai
chi-square tinggi, dan frekuensi kemunculannya pada dokumen ham dan spam.
Tabel 7 Inverted index hasil seleksi fitur pada beberapa token penciri spam, dan
frekuensi kemunculannya pada dokumen ham dan spam
Token
Dokumen ham
opportunity
offer
deathtospamdeathtospamdeathtospam
reply
money
removed
arial
align
face
color
61
115
0
124
236
78
2880
1659
3729
2124
Dokumen spam
314
524
128
390
1111
608
6267
6317
8572
9213
Fungsi Smoothing Naïve Bayes
Berdasarkan perhitungan peluang dokumen pada persamaan (3), maka
dapat dihitung menggunakan masing-masing
pendugaan parameter �̂ |
metode smoothing (5), (6), (7), (8), dan (9) dengan � adalah banyaknya term t
dalam dokumen training dari kelas c yang diperoleh dari inverted index hasil
praproses.
Tabel 8 menunjukkan pengaruh koefisien metode smoothing terhadap akurasi
pada penggunaan vocabulary hasil seleksi fitur dengan taraf nyata (α) = 0.100. Pada
11
tabel tersebut terdapat koefisien yang digunakan oleh setiap persamaan metode
smoothing. Jelinek-mercer menggunakan koefisien pada persamaan (6), Dirichlet
menggunakan koefisien pada persamaan (7), Absolute-discounting menggunakan
koefisien � pada persamaan (8), dan Two-stage menggunakan koefisien dan
pada persamaan (9). Nilai koefisien yang diujikan pada penelitian ini terbatas pada
nilai yang tertera pada Tabel 8.
Tabel 8 Pengaruh koefisien kontrol dari metode smoothing Naïve Bayes terhadap
akurasi yang dihasilkan pada penggunaan vocabulary taraf nyata(α) = 0.100
Metode
Jelinek-mercer
Dirichlet
Absolute -discounting
Two-stage
Laplace
Koefisien Kontrol
= .
= .
= .
= .
= .9
= .
= .
= .
= .
= .9
�= .
�= .
�= .
�= .
� = .9
= .
=
=
9
=
9
= .
=
=
9
=
9
= .
=
=
9
=
9
= .
=
=
9
=
9
= .9
=
=
9
=
9
1
Akurasi (%)
94.16
94.93
94.76
94.49
93.88
94.82
93.77
93.83
93.94
94.10
94.60
93.83
93.00
92.06
89.91
94.87
92.94
93.83
94.76
93.50
93.83
94.71
93.83
93.66
94.38
93.50
93.50
93.72
93.88
92.89
93.72
12
Nilai Koefisen tersebut dapat di rubah sesuai dengan rentang nilainya. Semua
koefisien kontrol memiliki nilai dengan rentang 0 – 1, kecuali untuk pada
Two-Stage yang sesuai dengan jumlah vocabulary dalam penelitian, sehingga
digunakan nilai 25 210, 50 419, dan 75 629.
Proses klasifikasi juga dilakukan dengan tidak menggunakan seleksi fitur
chi-square. Lampiran 2 menunjukkan akurasi tanpa menggunakan seleksi fitur
sedikit lebih tinggi dibandingkan yang menggunakan seleksi fitur namun terdapat
kelemahan pada waktu eksekusi yang lebih lama dua kali lipat oleh karena itu
penggunaan seleksi fitur selain mempengaruhi akurasi juga mempersingkat waktu
eksekusi (Lampiran 3).
Perhitungan pendugaan parameter menggunakan empat metode smoothing
Naïve Bayes pada Tabel 4 dan Laplace pada persamaan (5) menghasilkan nilai
peluang yang berbeda sehingga menimbulkan perbedaan jumlah token penciri spam
yang terambil. Tabel 9 menunjukkan jumlah token penciri spam yang terambil dari
masing-masing metode smoothing.
Tabel 9 Jumlah token penciri spam yang dihasilkan dari metode perhitungan
smoothing Naive Bayes
Metode
Jelinek-mercer
Dirichlet
Absolute -discounting
Two-stage
Laplace
Jumlah token penciri spam
5687
5687
5879
5687
5685
Dari Tabel 9 dapat disimpulkan bahwa perhitungan pendugaan parameter
empat metode smoothing dapat menghasilkan jumlah token penciri spam yang lebih
banyak dibandingkan metode Laplace.
Evaluasi
Evaluasi dilakukan setelah pengujian terhadap dokumen uji, dengan
menghitung nilai peluang dokumen pada persamaan (3). Karena perkalian peluang
dokumen menghasilkan nilai yang sangat kecil sehingga dapat menghasilkan
kesalahan presisi, maka dilakukan perhitungan menggunakan logaritma untuk
menghitung peluang dokumen pada persamaan (Manning et al. 2009)
� |
log
� ̃|
log
� |
� ̃|
k
�
�
= log
∏
�
� ̃
= log
|
| ̃
�
�
+ ∑ log
� ̃
�
|
| ̃
dengan � | adalah nilai peluang masuk kedalam dokumen spam, dan � ̃ |
adalah nilai peluang masuk kedalam dokumen ham.
Dari hasil perhitungan nilai peluang pada dokumen uji maka dokumen hasil
klasifikasi dapat dimasukkan kedalam confussion matrix merujuk pada Tabel 5.
Gambar 2 yang menunjukkan tingkat akurasi masing-masing metode smoothing
13
terhadap 5 nilai taraf nyata (α) dengan metode perhitungan merujuk pada persamaan
(11). Terlihat bahwa akurasi lebih tinggi pada peggunaan niai taraf nyata 0.1.
95.50%
95.00%
94.50%
94.00%
Akurasi
93.50%
93.00%
92.50%
92.00%
91.50%
91.00%
0.1
0.05
0.01
0.005
0.001
Jelinek-mercer
94.93%
93.61%
93.50%
93.11%
92.78%
Dirichlet
94.82%
94.87%
93.66%
93.55%
93.27%
Absolute-Discounting
94.60%
94.54%
93.38%
92.89%
92.56%
Two-Stage
94.87%
93.61%
93.50%
93.11%
92.78%
Laplace
93.72%
93.61%
93.38%
92.94%
92.78%
Nilai taraf nyata α
Gambar 2 Tingkat akurasi pengujian dokumen email menggunakan metode
smoothing dengan seleksi fitur chi-square pada 5 nilai taraf
nyata (α)
Gambar 3 menunjukkan nilai miss rate yaitu persentase dari dokumen ham
yang salah terklasifikasi pada setiap metode smoothing, nilai yang dihasilkan
merujuk pada persamaan (13). Terlihat bahwa nilai miss rate terendah dihasilkan
dari penggunaan nilai taraf nyata 0.1.
Gambar 4 menunjukkan nilai false alarm yaitu persentase dari dokumen spam
yang salah terklasifikasi pada setiap metode smoothing seperti pada persamaan (12).
Terlihat bahwa nilai fase alarm rate terendah dihasilkan dari penggunaan nilai taraf
nyata 0.1.
Nilai false alarm rate tertinggi dimiliki oleh metode Laplace, yang
menunjukkan metode Laplace masih rentan dalam kesalahan klasifikasi email spam
ke dalam kelas ham yaitu sebesar 16%. Sedangkan nilai miss rate tertinggi dimiliki
oleh metode Absolute-Discounting yang menunjukkan bahwa metode smoothing ini
masih rentan dalam kesalahan klasifikasi email ham ke dalam kelas spam yaitu
sebesar 2.4%. Nilai miss rate yang tinggi pada metode Absolute-Discounting bisa
saja tidak diperhitungkan apabila kesalahan klasifikasi email ham tersebut adalah
email dengan kategori hard ham yang hampir menyerupai email spam.
Evaluasi tambahan dilakukan pada klasifikasi yang hanya menggunakan
token hasil ekstraksi bagian subject dan text. Lampiran 4 menunjukkan nilai akurasi,
miss rate, dan false alarm rate yang dihasilkan dari proses klasifikasi yang hanya
menggunakan bagian subject dan text. Nilai akurasi yang dihasilkan memang lebih
14
tinggi namun menghasilkan nilai miss rate juga tinggi sehingga masih lebih baik
menggunakan klasifikasi yang menggunakan bagian subject, text, dan html
5.00%
4.50%
4.00%
Nilai Miss Rate
3.50%
3.00%
2.50%
2.00%
1.50%
1.00%
0.50%
0.00%
0.1
0.05
0.01
0.005
0.001
Jelinek-Mercer
1.90%
2.30%
2.60%
3.10%
3.70%
Dirichlet
1.40%
1.60%
2.40%
2.60%
3.10%
Absolute-Discounting
2.40%
2.90%
3.60%
4.20%
4.60%
Two-Stage
1.90%
2.30%
2.60%
3.10%
3.70%
Laplace
1.80%
2.00%
2.50%
2.80%
3.30%
Nilai taraf nyata α
Gambar 3 Nilai miss rate dari pengujian dokumen email menggunakan
metode smoothing dengan seleksi fitur chi-square pada 5 nilai
taraf nyata (α)
Nilai False Alarm
20.00%
18.00%
16.00%
14.00%
12.00%
10.00%
8.00%
6.00%
4.00%
2.00%
0.00%
0.1
0.05
0.01
0.005
0.001
Jelinek-Mercer
14.40%
15.30%
15.10%
15.10%
14.90%
Dirichlet
13.40%
12.80%
14.90%
14.90%
14.60%
Absolute-Discounting
12.30%
11.10%
13.20%
13.50%
13.70%
Two-Stage
14.40%
15.30%
15.10%
15.10%
14.90%
Laplace
16.00%
16.00%
15.60%
16.30%
15.80%
Nilai taraf nyata α
Gambar 4 Nilai false alarm rate dari pengujian dokumen email menggunakan
metode smoothing dengan seleksi fitur chi-square pada 5 nilai
taraf nyata (α)
15
SIMPULAN DAN SARAN
Simpulan
Implementasi metode smoothing pada penghitungan peluang token adalah
untuk mengatasi permasalahan peluang token yang bernilai nol. Pada proses
klasifikasi Naïve Bayes menggunakan laplace smoothing hal tersebut dapat diatasi
dengan penambahan konstanta 1 sehingga dapat menghasilkan akurasi sebesar
93.72%. Namun dengan adanya metode smoothing lainnya yaitu Jelinek-Mercer,
Dirichlet, Absolute Discounting, dan Two-Stage peluang nol tersebut diatasi
dengan penambahan koefisien tertentu sesuai dengan formula setiap metode, dan
menghasilkan akurasi rata-rata maksimum dari empat metode smoothing sebesar
94.24%, lebih tinggi dibandingkan metode Laplace dan terbukti meningkatkan
akurasi. Dari hasil evaluasi terhadap nilai akurasi, false rate, dan miss rate terlihat
metode Dirichlet memiliki nilai miss rate yang paling rendah sebesar 1.4%, nilai
false rate 12.3%, dan akurasi 94.82%. Dari hasil penelitian memperlihatkan metode
Dirichlet merupakan metode paling baik pada implementasi proses klasifikasi email
spam.
Saran
Penelitian ini menghasilkan akurasi terbaik dari Naïve Bayes yang
menggunakan metode smoothing Dirichlet, oleh karena itu pengembangan lebih
lanjut dapat dilakukan dengan mengoptimalkan penggunaan metode smoothing
Dirichlet. Pengoptimalan tersebut dapat dilakukan antara lain dengan percobaan
koefisien kontrol hingga mendapatkan akurasi, false alarm, dan miss rate terbaik.
Penelitian lebih lanjut juga dapat dilakukan dengan mengikutsertakan ekstraksi
bagian images attachment yang banyak dimiliki dokumen spam, karena bagian
tersebut bisa dianalisis jika ada informasi teks yang tertanam didalamnya (Fumera
et al. 2006). Dengan adanya token yang dihasilkan dari images attachment, maka
vocabulary token penciri spam akan semakin bertambah sumbernya tidak hanya
pada bagian yang memiliki teks murni.
DAFTAR PUSTAKA
Anagnostopoulos A, Andrei ZB, and Kunal P. 2006. Effective and efficient
classification on a search-engine model. Publication in Knowledge and
Information System [Internet]. [diunduh pada 2014 Agustus 12]. Tersedia pada :
http://aris.me/pubs/index-classifier-kais.pdf.
Chharia A, Gupta RK. 2013. Enhancing Naïve Bayes Performance with Modified
Absolute Discount Smoothing Method in Spam Classification. International
Journal of Advanced Research in Computer Science and Software Engineering
[Internet].
[diunduh
pada
2014
Agutus
12].
3(3):424-429.
ISSN:2277-128X. Tersedia pada: http://www.ijarcsse.com/docs/papers
/Volume_3/3_March2013/V3I3-0345.pdf
16
Drucker H, Donghui W. 1999. Support Vector Machine for Spam Categorization.
IEEE Transactions On Neurak Networks. [Internet]. [diunduh pada 2014 Juli 2].
10(5):1048-1054. Tersedia pada : http://www.site.uottawa.ca/~diana/csi5180/
paper-itnn_1999_09_1048.pdf.
Fumera G, Pillai I, Roli F. 2006. Spam Filtering Based On The Analysis Of Text
Information Embedded Into Images. Journal of Machine Learning Research 7
[Internet]. [diunduh pada 2014 Desember 2]. 7 (2006): 2699-2720. Tersedia
pada : http://www.jmlr.org/papers/volume7/fumera06a/fumera06a.pdf.
Manning CD, Raghavan P, Schütze H. 2009. Introduction to Information Retrieval.
Cambridge University press [Internet]. [diunduh pada 2014 Juni 27]. New York
(US): Cambridge University press . Tersedia pada : http://nlp.stanford.edu/IRbook/pdf/irbookprint.pdf.
Metsis V, Androutsopolous I, Paliouras G. 2006. Spam Filtering with Naive
Bayes – Which Naive Bayes?. Third Conference on Email and Anti-Spam
[Internet]. [diunduh pada 2014 Juli 2]. California (US) : CEAS. Tersedia pada:
http://www.aueb.gr/users/ion/docs/ceas2006_paper.pdf.
Rachman W. 2011. Pengukuran Kinerja Spam Filter Menggunakan Metode Naive
Bayes Classifier Graham [Skripsi]. Bogor (ID): Institut Pertanian Bogor.
Sahami M, Dumais S, Heckerman D, Horvitz E. 1998. A Bayes Approach to
Filtering Junk E-Mail. [Internet].[diunduh pada 2014 Juli 1]. Tersedia
pada : http://robotics.stanford.edu/users/sahami/papers-dir/spam.pdf.
[Securelist] Securelist. 2014. Kaspersky Security Bulletin Spam evolution 2013
[Internet]. [diacu 2014 Juli 1]. Tersedia pada : https://securelist.com/analysis/
kaspersky-security-bulletin/58274/kaspersky-security-bulletin-spam-evolution2013/.
[The Internet Society] The Internet Society. 2005. Registration of Mail and MIME
Header Fields [Internet]. [diacu 2014 Juli 1]. Tersedia pada : http://tools.ietf.org/
html/rfc4021.
Walpole RE. 1993. Pengantar Statistika Edisi ke-3. Sumantri B, penerjemah.
Jakarta (ID): Gramedia Pustaka Utama. Terjemahan dari : Introduction to
Statistic 3rd Edition.
Yuan Q, Chong G, Thalmann NM. 2012. Enhancing Naïve Bayes with various
smoothing methods for short text classification. ACM [Internet].
[diunduh pada 2014 Juni 27]. Lyon (FR): WWW 2012 Companion. Doi: 9781-4503-1230-1/12/04. Tersedia pada: http://www3.ntu.edu.sg/home/gaocong/
papers/wpp095-yuan.pdf.
17
Lampiran 1 Tingkat akurasi, miss rate, false alarm rate dari proses klasifikasi
dokumen email menggunakan metode smoothing Naïve Bayes pada
5 nilai taraf nyata (α)
Metode Smoothing
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Nilai taraf
nyata (α)
0.100
0.050
0.010
0.005
0.001
Akurasi (%)
Miss rate
(%)
False
alarm rate
(%)
93.72
94.93
94.82
94.60
94.87
93.61
93.61
94.87
94.54
93.61
93.38
93.50
93.66
93.38
93.50
92.94
93.11
93.55
92.89
93.11
92.78
92.78
93.72
92.56
92.78
1.80
1.60
1.40
1.10
1.60
2.00
2.30
1.60
2.90
2.30
2.50
2.60
2.40
3.60
2.60
2.80
3.10
2.60
4.20
3.10
3.30
3.70
3.10
4.60
3.70
14.40
12.70
12.30
14.80
12.80
16.00
15.30
12.80
11.10
15.30
15.60
15.10
14.90
13.20
15.10
16.30
15.10
14.90
13.50
15.10
15.80
14.90
14.90
13.70
14.90
18
Lampiran 2 Tingkat akurasi tanpa menggunakan seleksi fitur chi-square
Metode
Jelinek-mercer
Dirichlet
Absolute -discounting
Two-stage
Laplace
Koefisien Kontrol
= .
= .
= .
= .
= .9
= .
= .
= .
= .
= .9
�= .
�= .
�= .
�= .
� = .9
= .
=
=
9
=
9
= .
=
=
9
=
9
= .
=
=
9
=
9
= .
=
=
9
=
9
= .9
=
=
9
=
9
1
Akuras (%)
94.76
94.93
94.76
94.49
93.88
93.55
93.77
93.83
93.94
94.10
94.60
93.83
93.00
92.06
89.91
94.87
94.87
94.87
94.93
94.82
94.76
94.76
94.71
94.71
94.38
94.38
94.38
93.83
93.77
93.72
94.54
19
Lampiran 3 Waktu eksekusi metode smoothing pada nilai taraf nyata (α)= 0.1 dan
nilai koefisien kontrol metode smoothing
Metode
Jelinek-mercer
Dirichlet
Absolute -discounting
Koefisien Kontrol
= .
= .
= .
= .
= .9
= .
= .
= .
= .
= .9
�= .
�= .
�= .
�= .
� = .9
= .
=
=
=
= .
=
=
=
Two-stage
= .
=
=
=
= .
=
=
=
Laplace
= .9
=
=
=
1
9
9
9
9
9
9
9
9
9
9
Waktu (detik)
8.34
8.58
8.59
8.72
8.37
8.60
8.76
8.38
8.38
8.54
8.40
8.61
8.67
8.84
8.63
8.99
8.58
8.72
8.32
8.65
8.50
8.45
8.68
8.58
8.53
8.69
8.38
8.65
8.40
8.40
8.45
20
Lampiran 4 Tingkat akurasi, miss rate, false alarm rate dari proses klasifikasi
email yang tidak menggunakan token ekstraksi html pada 5 nilai
taraf nyata (α)
Metode Smoothing
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Laplace
Jelinek-mercer
Dirichlet
Absolute-discounting
Two-stage
Nilai taraf
nyata (α)
0.100
0.050
0.010
0.005
0.001
Akurasi (%)
Miss rate
(%)
False
alarm rate
(%)
94.43
94.65
94.93
95.15
94.43
94.21
94.38
94.87
94.16
94.38
93.44
93.50
93.99
92.50
93.50
93.27
93.38
93.88
92.39
93.44
92.39
92.34
93.44
91.90
92.34
2.60
2.40
1.70
3.40
2.40
2.70
2.70
2.00
2.70
2.70
3.90
4.10
3.00
6.70
4.10
4.20
4.30
3.20
6.90
4.30
5.20
5.50
4.10
7.90
5.50
12.10
11.80
12.50
8.10
11.80
12.70
12.00
12.00
7.60
12.00
12.30
11.80
12.70
9.10
11.80
12.30
11.60
12.50
9.10
11.60
12.80
12.50
12.00
8.60
12.50
21
RIWAYAT HIDUP
Penulis dilahirkan dengan nama Mutia Hafilizara di kota Subang, Provinsi
Jawa Barat pada tanggal 26 Mei 1991. Penulis merupakan anak pertama dari dua
bersaudara, pasangan Bapak Jajang Juhara dan Ibu Lilis Sumiati.
Penulis mulai mengenal pendidikan dari TK An-Nida di Binong dan lulus
pada tahun 1997, kemudian melanjutkan pendidikan ke Sekolah Dasar di Sekolah
Dasar Negeri 1 Binong dan lulus pada tahun 2003. Pendidikan menengah penulis
diselesaikan pada tahun 2006 di SMP Negeri 1 Binong. Kemudian melanjutkan
pendidikan tingkat atas yang dapat diselesaikan pada tahun 2009 di SMA Negeri 1
Subang dan pada tahun yang sama penulis melanjutkan pendidikan di Institut
Pertanian Bogor Program Diploma, Program Keahlian Manajemen Informatika.
Setelah menempuh pendidikan pada program Diploma penulis melanjutkan
pendidikan tingkat sarjana pada program Ekstensi Ilmu Komputer IPB angkatan
ke-7.