Jurnal Elektronik Ilmu Komputer - Universitas Udayana JELIKU Vol 2 No. 3 Agustus 2013
45
apabila term tersebut ada dalam dokumen. Sehingga banyaknya kemunculan term pada
sebuah dokumen tidak berpengaruh dituliskan dalam persamaan dibawah ini.
� = , � = ,
=
4.5 Inverse document frequencyIDF
Inverse document frequency IDF adalah
pembobotan term yang menghitung seberapa besarkah penaruh suatu term terhadap seluruh
koleksi dokumen.
Berdasarkan konsep
memberikan “nilai diskriminasi” pada term dimana semakin sedikit kemunculan term
tersebut pada keseluruhan koleksi dokumen, maka semakin besar nilai diskriminasinya
Chisholm Kolda, 1999 IDF diajukan oleh Sparck Jones, dimana terdapat dua varian IDF
yaitu
= log = log
− Dimana G
i
adalah bobot global untuk term i,
N adalah jumlah koleksi dokumen keseluruhan, dan n
i
adalah jumlah dokumen yang terdapat term i didalamnya. Dalam
penelitian ini penulis menggunakan IDF pertama dikarenakan persamaan IDF kedua
akan menghasilkan nilai negatif jika suatu term
muncul lebih pada setengah dari keseluruhan koleksi.
5. Damerau Levenhstein metric
Metode Damereu Levenshtein metric melakukan operasi perbandingan kata-kata
dengan memeperhatikan empat macam kesalahan pengetikan. Sebagai contoh kata
SALAH, yaitu : a.
Penyisipan sebuah huruf , sebagai contoh SALKAH.
b. Pengapusan sebuah huruf, sebagai contoh
SAAH. c.
Penggantian sebuah huruf dengan huruf lain, sebagai contoh SAKAH.
d. Penukan urutan sebuah huruf, sebagai
contoh SALHA Damereu Levenshtein metric
menghitung jumlah kesalahan minumum dari dua buah
kata, misalkan terdapat dua buah kata yang dinotasikan sebagai s dan t, dan variabel i dan
j menyatakan posisi huruf yang dibandingkan
pada suatu kata Phiefer et al, 1994. , =
, =
, = , = min{
− , + � , −
+ − , −
+ , − , −
+
−
, + ,
−
} Dimana fungsi d merupakan fungsi untuk
mengukur jarak huruf. ,
= { , = , ≠
Fungsi fi,j menghitung jumlah minimum kesalahan
– kesalahan dari perbandingan i karakter kata pertama dengan j karakter pada
kata kedua. Jarak antara kedua string adalah fm,n,
dimana m merupakan panjang string pertama, dan n adalah panjang string kedua.
Term Dokumen
Id_dokumen Id_dokumen
judul judul
Isi dokumen Isi dokumen
Lokasi Lokasi
Id_term Id_term
Term Term
Kata dasar Stopword
Id_katadasar Id_katadasar
Kata dasar Kata dasar
Id_stopword Id_stopword
Stopword Stopword
Memiliki m
n
Gambar 2. ERD Sistem pencari referensi
PERANCANGAN 1.
Entity Relatinship DiagramERD
Rancangan ERD pada aplikasi ini, memiliki 4 entitas yaitu entitas dokumen,
Jurnal Elektronik Ilmu Komputer - Universitas Udayana JELIKU Vol 2 No. 3 Agustus 2013
46
entitas term, entitas kata dasar, dan entitas stopword.
Seperti yang terlihat pada gambar 2, pada entitas dokumen taerdiri dari atribut
id_dokumen, judul, isi_dokumen, dan lokasi. Untuk entitas term terdiri atribut id_term dan
term. Entitas dokumen dan term memuliki relasi many to many.
Pada entitas kata dasar memiliki atribut id_katadasar dan kata_dasar. Pada entitas
memiliki atribut id_stopword dan stopword. 2.
Flowchart mesin pencari
Flowchat mesin pencari dapat dilihat pada gambar 3, dimana prosesnya meliputi.
1. Penginputan query kata kunci yang
akan dicari. 2.
Proses tokenizing, proses dimana string inputan dibaca, dan dipecah
kedalam bagian perkata. 3.
Filtering, proses dimana tanda baca dan kata hubung dihilangkan.
4. Stemming, proses pencarian kata dasar
dari suatu kata. 5.
Dari hasil stemming akan dilakukan perbandingan dengan kamus bahasa,
untuk memastikan ketepatan hasil stemming.
6. Proses sugesti kata dilakukan bila kata
query tidak terdapat dalam kamus. 7.
Kemudian dilakukan
proses pembobotan untuk mengeetahui bobot
term-term pada query 8.
Dilakukan perhitungan nilai similarity, untuk menentukan dokumen mana
sajakah yang sesuai dengan kata kunci pencarian.
9. Sorting berdasarkan nilai similarity
secara descending. 10.
Tampilkan hasil pencarian.
Mulai
query Tokenizing
Filtering Stemming
Ada dalam kamus
Penghitungan bobot Similarity
Damereu Levenshtein
Kata Usulan
Sorting Hasil
Sorting Kamus kata
dasar Inverted
Indexs Daftar stop
words
N Y
Akhir
Gambar 3. Flowchart aplikasi pencarian