6 kueri adalah whitespace atau spasi. Dalam tahap
pemrosesan kueri ini tidak dilakukan penghilangan stopwords, karena term kueri
yang berupa stopwords secara automatis tidak akan digunakan dalam proses pemilihan n
dokumen teratas.
Isi dari array tokenQuery adalah berupa suatu nilai integer, yaitu nilai urutan token pada
hasil indexing koleksi dokumen. Perubahan term kueri t yang berupa string menjadi suatu
integer dilakukan dengan menggunakan fungsi yang tersedia pada Indri yaitu termt. Array
tokenQuery ini akan digunakan dalam proses perolehan n dokumen teratas. Berikut ini adalah
contoh perolehan array tokenQuery yang berupa suatu nilai integer dengan kueri,
“Penerapan bioteknologi di Indonesia”
Array [0] = 18637
[1] = 3846 [2] = 0
[3] = 4
Nilai array tokenQuery ini tergantung pada koleksi dokumen yang digunakan. Pada contoh
diatas, koleksi dokumen yang digunakan adalah koleksi 1000 dokumen yang ada di
Laboratorium Temu-Kembali Informasi Departermen Ilmu Komputer IPB. Jika koleksi
dokumen ditambahkan dengan dokumen yang baru, maka hasil yang diperoleh dengan kueri
yang sama ditunjukkan pada ilustrasi di bawah ini dengan penambahan 1000 dokumen.
Array [0] = 24203
[1] = 5165 [2] = 0
[3] = 10
Pada saat proses perolehan n dokumen teratas array tokenQuery berfungsi untuk
pemilihan dokumen dalam koleksi yang memiliki salah satu atau lebih term kueri di
dalamnya, sehingga dalam pemilihan n dokumen teratas hanya dokumen yang memiliki
term kueri saja yang akan dilakukan proses perolehan n dokumen teratas.
Hasil Temu-Kembali
Perolehan n dokumen teratas tergantung pada tipe pembobotan yang digunakan. Pada
penelitian ini tipe pembobotan yang digunakan yaitu pembobotan tf-idf dan pembobotan
BM25. Jumlah dokumen teratas yang diambil adalah 30. Contoh hasil perolehan 30 dokumen
teratas untuk kueri “perdagangan hasil pertanian” dengan jumlah koleksi dokumen
adalah 1000 pada pembobotan tf-idf dapat dilihat pada Lampiran 3.
1. Pembobotan tf-idf
Untuk memperoleh n dokumen teratas dengan pembobotan dilakukan dengan langkah-
langkah berikut: 1.
Melakukan pembobotan tf-idf terhadap kata pada kueri yang diberikan kemudian
dilakukan perhitungan terhadap panjang kueri.
2. Menyimpan informasi kata unik yang ada
pada dokumen. 3.
Menghitung idf dan tf-idf untuk setiap kata unik dokumen dengan menggunakan df dan
tf yang diperoleh pada proses indexing. 4.
Menghitung panjang dokumen. 5.
Menjumlahkan perkalian antara tf-idf kata kueri dengan tf-idf kata dokumen yang
akhirnya menjadi nilai dotproduct antara kueri dan dokumen.
6. Menghitung bobot dokumen dengan cosine
similarity antara dokumen dengan kueri. Kemudian menyimpan hasilnya dalam
array dokScoring dan menyimpan nama dokumen dalam array docName.
7. Melanjutkan proses untuk dokumen
berikutnya hingga seluruh koleksi telah dibandingkan dengan kueri.
8. Melakukan proses sorting terhadap array
dokScoring dan
docName untuk
memperoleh n dokumen teratas dengan menggunakan fungsi SortdokScoring.
Array dokScoring dan docName berisi bobot dokumen dan nama dokumen dari dokumen
yang memiliki nilai dotproduct lebih besar dari nol 0. Berikut ini adalah contoh dari isi 10
teratas dari array dokScoring dan docName dengan kueri, ”gagal panen” pada pengindeksan
1000 koleksi dokumen
dokScoring [0] = 0.31454
[1] = 0.28088 [2] = 0.26204
[3] = 0.24984 [4] = 0.24907
[5] = 0.24762 [6] = 0.22878
[7] = 0.22357 [8] = 0.21503
[9] = 0.19040
7 docName
[0] = republika060804-001.txt [1] = kompas030704.txt
[2] = indosiar140204.txt [3] = indosiar130504.txt
[4] = indosiar260803-001.txt [5] = suaramerdeka120104.txt
[6] = situshijau280404-002.txt [7] = republika090804-01.txt
[8] = indosiar040903.txt [9] = gatra190902-02.txt
2. Pembobotan BM25
Pembobotan BM25 untuk memperoleh n dokumen teratas dilakukan dengan langkah-
langkah sebagai berikut: 1.
Menghitung rata-rata panjang koleksi dokumen dengan docLengthAvg.
2. Menghitung panjang dokumen dengan
docLength idDoc untuk setiap koleksi dokumen.
3. Menyimpan setiap kata unik pada
dokumen. 4.
Menghitung similarity
pembobotan BM25 dokumen dengan kueri untuk setiap
kata yang sama, kemudian dilakukan penjumlahan setiap similarity tersebut.
Kemudian menyimpan hasilnya dalam array dokScoring dan menyimpan nama
dokumen dalam array docName. 5.
Melanjutkan proses untuk dokumen berikutnya hingga seluruh koleksi telah
dibandingkan dengan kueri. 6.
Melakukan proses sorting terhadap array dokScoring
dan docName
untuk memperoleh n dokumen teratas dengan
menggunakan fungsi SortdokScoring. Isi dari array dokScoring dan array
docName sama seperti yang ada pada perolehan n dokumen teratas dengan pembobotan tf-idf.
Evaluasi Sistem
Pada penelitian ini pengujian sistem dilakukan dengan menguji kinerja temu-
kembali dan menguji kinerja Indri dalam mengindeks dokumen dalam jumlah yang besar.
1. Kinerja Temu-Kembali