Pembobotan tf-idf Pembobotan BM25

6 kueri adalah whitespace atau spasi. Dalam tahap pemrosesan kueri ini tidak dilakukan penghilangan stopwords, karena term kueri yang berupa stopwords secara automatis tidak akan digunakan dalam proses pemilihan n dokumen teratas. Isi dari array tokenQuery adalah berupa suatu nilai integer, yaitu nilai urutan token pada hasil indexing koleksi dokumen. Perubahan term kueri t yang berupa string menjadi suatu integer dilakukan dengan menggunakan fungsi yang tersedia pada Indri yaitu termt. Array tokenQuery ini akan digunakan dalam proses perolehan n dokumen teratas. Berikut ini adalah contoh perolehan array tokenQuery yang berupa suatu nilai integer dengan kueri, “Penerapan bioteknologi di Indonesia” Array [0] = 18637 [1] = 3846 [2] = 0 [3] = 4 Nilai array tokenQuery ini tergantung pada koleksi dokumen yang digunakan. Pada contoh diatas, koleksi dokumen yang digunakan adalah koleksi 1000 dokumen yang ada di Laboratorium Temu-Kembali Informasi Departermen Ilmu Komputer IPB. Jika koleksi dokumen ditambahkan dengan dokumen yang baru, maka hasil yang diperoleh dengan kueri yang sama ditunjukkan pada ilustrasi di bawah ini dengan penambahan 1000 dokumen. Array [0] = 24203 [1] = 5165 [2] = 0 [3] = 10 Pada saat proses perolehan n dokumen teratas array tokenQuery berfungsi untuk pemilihan dokumen dalam koleksi yang memiliki salah satu atau lebih term kueri di dalamnya, sehingga dalam pemilihan n dokumen teratas hanya dokumen yang memiliki term kueri saja yang akan dilakukan proses perolehan n dokumen teratas. Hasil Temu-Kembali Perolehan n dokumen teratas tergantung pada tipe pembobotan yang digunakan. Pada penelitian ini tipe pembobotan yang digunakan yaitu pembobotan tf-idf dan pembobotan BM25. Jumlah dokumen teratas yang diambil adalah 30. Contoh hasil perolehan 30 dokumen teratas untuk kueri “perdagangan hasil pertanian” dengan jumlah koleksi dokumen adalah 1000 pada pembobotan tf-idf dapat dilihat pada Lampiran 3.

1. Pembobotan tf-idf

Untuk memperoleh n dokumen teratas dengan pembobotan dilakukan dengan langkah- langkah berikut: 1. Melakukan pembobotan tf-idf terhadap kata pada kueri yang diberikan kemudian dilakukan perhitungan terhadap panjang kueri. 2. Menyimpan informasi kata unik yang ada pada dokumen. 3. Menghitung idf dan tf-idf untuk setiap kata unik dokumen dengan menggunakan df dan tf yang diperoleh pada proses indexing. 4. Menghitung panjang dokumen. 5. Menjumlahkan perkalian antara tf-idf kata kueri dengan tf-idf kata dokumen yang akhirnya menjadi nilai dotproduct antara kueri dan dokumen. 6. Menghitung bobot dokumen dengan cosine similarity antara dokumen dengan kueri. Kemudian menyimpan hasilnya dalam array dokScoring dan menyimpan nama dokumen dalam array docName. 7. Melanjutkan proses untuk dokumen berikutnya hingga seluruh koleksi telah dibandingkan dengan kueri. 8. Melakukan proses sorting terhadap array dokScoring dan docName untuk memperoleh n dokumen teratas dengan menggunakan fungsi SortdokScoring. Array dokScoring dan docName berisi bobot dokumen dan nama dokumen dari dokumen yang memiliki nilai dotproduct lebih besar dari nol 0. Berikut ini adalah contoh dari isi 10 teratas dari array dokScoring dan docName dengan kueri, ”gagal panen” pada pengindeksan 1000 koleksi dokumen dokScoring [0] = 0.31454 [1] = 0.28088 [2] = 0.26204 [3] = 0.24984 [4] = 0.24907 [5] = 0.24762 [6] = 0.22878 [7] = 0.22357 [8] = 0.21503 [9] = 0.19040 7 docName [0] = republika060804-001.txt [1] = kompas030704.txt [2] = indosiar140204.txt [3] = indosiar130504.txt [4] = indosiar260803-001.txt [5] = suaramerdeka120104.txt [6] = situshijau280404-002.txt [7] = republika090804-01.txt [8] = indosiar040903.txt [9] = gatra190902-02.txt

2. Pembobotan BM25

Pembobotan BM25 untuk memperoleh n dokumen teratas dilakukan dengan langkah- langkah sebagai berikut: 1. Menghitung rata-rata panjang koleksi dokumen dengan docLengthAvg. 2. Menghitung panjang dokumen dengan docLength idDoc untuk setiap koleksi dokumen. 3. Menyimpan setiap kata unik pada dokumen. 4. Menghitung similarity pembobotan BM25 dokumen dengan kueri untuk setiap kata yang sama, kemudian dilakukan penjumlahan setiap similarity tersebut. Kemudian menyimpan hasilnya dalam array dokScoring dan menyimpan nama dokumen dalam array docName. 5. Melanjutkan proses untuk dokumen berikutnya hingga seluruh koleksi telah dibandingkan dengan kueri. 6. Melakukan proses sorting terhadap array dokScoring dan docName untuk memperoleh n dokumen teratas dengan menggunakan fungsi SortdokScoring. Isi dari array dokScoring dan array docName sama seperti yang ada pada perolehan n dokumen teratas dengan pembobotan tf-idf. Evaluasi Sistem Pada penelitian ini pengujian sistem dilakukan dengan menguji kinerja temu- kembali dan menguji kinerja Indri dalam mengindeks dokumen dalam jumlah yang besar.

1. Kinerja Temu-Kembali