Bobot tertinggi diberikan kepada term yang muncul sering kali dalam dokumen j tetapi jarang dalam dokumen lain. Gambar 2.12 memperlihatkan proses perhitungan
bobot tfidf bagi suatu dokumen yang menyertakan kalimat “data cube contains x data
dimension, y data dimension, and z data dimension” Cios, 2007.
Gambar 2.12 Contoh perhitungan bobot tf-idf
2.6 Ukuran Kemiripan
Model ruang vektor dan pembobotan tf-idf digunakan untuk merepresentasikan nilai numerik dokumen sehingga kemudian dapat dihitung kedekatan antar dokumen.
Semakin dekat dua vektor di dalam suatu VSM maka semakin mirip dua dokumen yang diwakili oleh vektor tersebut. Kemiripan antar dokumen dihitung menggunakan
suatu fungsi ukuran kemiripan similarity measure. Ukuran ini memungkinkan perankingan dokumen sesuai dengan kemiripan relevansinya terhadap query. Setelah
dokumen diranking, sejumlah tetap dokumen top-scoring dikembalikan kepada pengguna . Pada algoritma vector space model gunakan rumus untuk mencari nilai
cosines sudut antara dua vector dari setiap bobot dokumen WD dan bobot kata kunci WK. Rumus yang digunakan adalah sebagai berikut Cios, 2007:
Universitas Sumatera Utara
CosSimd
j
.q =
2.7 Pemrograman Visual Basic
Visual Basic adalah salah satu bahasa pemrograman komputer. Bahasa pemrograman adalah perintah perintah yang dimengerti oleh komputer untuk melakukan tugas-tugas
tertentu. Bahasa pemrograman Visual Basic, yang dikembangkan oleh Microsoft sejak tahun 1991, merupakan pengembangan dari pendahulunya yaitu bahasa pemrograman
BASIC Beginner’s All-purpose Symbolic Instruction Code yang dikembangkan pada
era 1950-an. Visual Basic merupakan salah satu Development Tool yaitu alat bantu untuk membuat berbagai macam program komputer, khususnya yang menggunakan
sistem operasi Windows. Visual Basic merupakan salah satu bahasa pemrograman
komputer yang mendukung object Object Oriented rogramming OOP.
Universitas Sumatera Utara
2.7 Penelitian sebelumnya
Proses filtering email sudah ada dilakukan sebelumnya untuk penelitian antara lain :
Tabel 2.3 Penelitian sebelumnya
No Nama
Tahun Judul Penelitian
Kelebihan Kelemahan
1 Miftah
Andriansyah dan Adang
Suhendra 2007
Pendeteksian Surat elektronik
menggunakan filter Bayesian
Metode Bayesian dapat menyaring
email yang tidak diinginkan
dengan tingkat keakuratan lebih
dari 95 Terkadang
terblokir atau terhapus suatu
mail yang ternyata bukan
tergolong spam.
2 Rifki
Primarta dan Sukemi
2008 Proteksi Mail Server
Dari Spam Dan Virus Menggunakan Untangle
Gateway Gateway
merupakan solusi jaringan berbasis
open source yang telah terintegrasi
dengan modul- modul untuk
memfilter Tidak tersedia.
3 Khairil
Anwar, Aris Sugiharto dan
Priyo Sidik Sasongko
2010 Analisa Perbandingan
Algoritma SVM, NAIVE BAYES, DAN
DECISION TREE Dalam Mengklasifikasi
SeranganATTACKS Kinerja algoritma
decision tree lebih baik
dibandingkan dengan algoritma
SVM dan NBC
.
Tidak tersedia.
Universitas Sumatera Utara
BAB III
ANALISIS DAN PERANCANGAN
3.1. Analisis Aplikasi