Vector space model PURWARUPA APLIKASI MESIN PENCARI REFERENSI.

Jurnal Elektronik Ilmu Komputer - Universitas Udayana JELIKU Vol 2 No. 3 Agustus 2013 45 apabila term tersebut ada dalam dokumen. Sehingga banyaknya kemunculan term pada sebuah dokumen tidak berpengaruh dituliskan dalam persamaan dibawah ini. � = , � = , =

4.5 Inverse document frequencyIDF

Inverse document frequency IDF adalah pembobotan term yang menghitung seberapa besarkah penaruh suatu term terhadap seluruh koleksi dokumen. Berdasarkan konsep memberikan “nilai diskriminasi” pada term dimana semakin sedikit kemunculan term tersebut pada keseluruhan koleksi dokumen, maka semakin besar nilai diskriminasinya Chisholm Kolda, 1999 IDF diajukan oleh Sparck Jones, dimana terdapat dua varian IDF yaitu = log = log − Dimana G i adalah bobot global untuk term i, N adalah jumlah koleksi dokumen keseluruhan, dan n i adalah jumlah dokumen yang terdapat term i didalamnya. Dalam penelitian ini penulis menggunakan IDF pertama dikarenakan persamaan IDF kedua akan menghasilkan nilai negatif jika suatu term muncul lebih pada setengah dari keseluruhan koleksi.

5. Damerau Levenhstein metric

Metode Damereu Levenshtein metric melakukan operasi perbandingan kata-kata dengan memeperhatikan empat macam kesalahan pengetikan. Sebagai contoh kata SALAH, yaitu : a. Penyisipan sebuah huruf , sebagai contoh SALKAH. b. Pengapusan sebuah huruf, sebagai contoh SAAH. c. Penggantian sebuah huruf dengan huruf lain, sebagai contoh SAKAH. d. Penukan urutan sebuah huruf, sebagai contoh SALHA Damereu Levenshtein metric menghitung jumlah kesalahan minumum dari dua buah kata, misalkan terdapat dua buah kata yang dinotasikan sebagai s dan t, dan variabel i dan j menyatakan posisi huruf yang dibandingkan pada suatu kata Phiefer et al, 1994. , = , = , = , = min{ − , + � , − + − , − + , − , − + − , + , − } Dimana fungsi d merupakan fungsi untuk mengukur jarak huruf. , = { , = , ≠ Fungsi fi,j menghitung jumlah minimum kesalahan – kesalahan dari perbandingan i karakter kata pertama dengan j karakter pada kata kedua. Jarak antara kedua string adalah fm,n, dimana m merupakan panjang string pertama, dan n adalah panjang string kedua. Term Dokumen Id_dokumen Id_dokumen judul judul Isi dokumen Isi dokumen Lokasi Lokasi Id_term Id_term Term Term Kata dasar Stopword Id_katadasar Id_katadasar Kata dasar Kata dasar Id_stopword Id_stopword Stopword Stopword Memiliki m n Gambar 2. ERD Sistem pencari referensi PERANCANGAN 1. Entity Relatinship DiagramERD Rancangan ERD pada aplikasi ini, memiliki 4 entitas yaitu entitas dokumen, Jurnal Elektronik Ilmu Komputer - Universitas Udayana JELIKU Vol 2 No. 3 Agustus 2013 46 entitas term, entitas kata dasar, dan entitas stopword. Seperti yang terlihat pada gambar 2, pada entitas dokumen taerdiri dari atribut id_dokumen, judul, isi_dokumen, dan lokasi. Untuk entitas term terdiri atribut id_term dan term. Entitas dokumen dan term memuliki relasi many to many. Pada entitas kata dasar memiliki atribut id_katadasar dan kata_dasar. Pada entitas memiliki atribut id_stopword dan stopword. 2. Flowchart mesin pencari Flowchat mesin pencari dapat dilihat pada gambar 3, dimana prosesnya meliputi. 1. Penginputan query kata kunci yang akan dicari. 2. Proses tokenizing, proses dimana string inputan dibaca, dan dipecah kedalam bagian perkata. 3. Filtering, proses dimana tanda baca dan kata hubung dihilangkan. 4. Stemming, proses pencarian kata dasar dari suatu kata. 5. Dari hasil stemming akan dilakukan perbandingan dengan kamus bahasa, untuk memastikan ketepatan hasil stemming. 6. Proses sugesti kata dilakukan bila kata query tidak terdapat dalam kamus. 7. Kemudian dilakukan proses pembobotan untuk mengeetahui bobot term-term pada query 8. Dilakukan perhitungan nilai similarity, untuk menentukan dokumen mana sajakah yang sesuai dengan kata kunci pencarian. 9. Sorting berdasarkan nilai similarity secara descending. 10. Tampilkan hasil pencarian. Mulai query Tokenizing Filtering Stemming Ada dalam kamus Penghitungan bobot Similarity Damereu Levenshtein Kata Usulan Sorting Hasil Sorting Kamus kata dasar Inverted Indexs Daftar stop words N Y Akhir Gambar 3. Flowchart aplikasi pencarian