Tuning Parameter dalam Fungsi Okapi BM25 pada Mesin Pencari Teks Bahasa Indonesia

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA
MESIN PENCARI TEKS BAHASA INDONESIA

TEDY SAPUTRA

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Tuning Parameter
dalam Fungsi Okapi BM25 pada Mesin Pencari Teks Bahasa Indonesia adalah
benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan
dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang
berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari
penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di
bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, Juli 2013
Tedy Saputra
NIM G64090054

ABSTRAK
TEDY SAPUTRA. Tuning Parameter dalam Fungsi Okapi BM25 pada Mesin
Pencari Teks Bahasa Indonesia. Dibimbing oleh JULIO ADISANTOSO.
Sistem temu-kembali informasi dikembangkan dalam beragam model,
seperti model peluang, model bahasa, model boolean,model ruang vektor dan
lainnya. Meskipun demikian, masih sulit menetukan model manakah yang paling
baik dan efisien dalam setiap kondisi pencarian. Dalam penelitian ini, akan
dibandingkan dua mesin pencari yang dibuat dengan menggunakan model peluang
dan model ruang vektor sebagai pembandingnya. Pada model peluang, digunakan
fungsi kesamaan Okapi BM25 yang memiliki suatu variabel yang dapat diubahubah nilainya, yang disebut dengan tuning parameter. Modifikasi nilai dari tuning
parameter ini bertujuan untuk meningkatkan kinerja dari model peluang dan juga
sekaligus membandingkan kinerjanya dengan model lain, seperti model ruang
vektor. Modifikasi nilai dari tuning parameter meningkatkan nilai rata-rata presisi
dari sistem, yang pada awalnya sebesar 0.5885 menjadi 0.5901. Selanjutnya,
model peluang juga mengungguli model ruang vektor yang memiliki nilai ratarata presisi sebesar 0.5327.

Kata kunci: model peluang, model ruang vektor, Okapi BM25, tuning parameter

ABSTRACT
TEDY SAPUTRA. Tuning Parameters in Okapi BM25 Function on Indonesian
Text Search Engine. Supervised by JULIO ADISANTOSO.
Information retrieval system was developed using various models, such as
probabilistic models, language models, boolean models, vector-space models and
many more. Thus, it’s problematic to determine which models is the best and the
most efficient in every search condition. In this study, two models were developed
and compared: probabilistic model and vector-space model. The probabilistic
model has Okapi BM25 similarity function with parameters that are subject to fine
tuning to seek for better performance. Fine tuning the parameters has made the
probabilistic model’s average precision increases from 0.5885 to 0.5901. Further,
this model also outperformed the vector-space model with average precision
0.5327.
Keywords: Okapi BM25, probabilistic models, tuning parameters, vector space
models

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA
MESIN PENCARI TEKS BAHASA INDONESIA


TEDY SAPUTRA

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

Penguji:
1. Ahmad Ridha, SKom MS
2. Dr Irman Hermadi, SKom MSc

Judul Skripsi : Tuning Parameter dalam Fungsi Okapi BM25 pada Mesin Pencari

Teks Bahasa Indonesia
Nama
: Tedy Saputra
NIM
: G64090054

Disetujui oleh

Ir Julio Adisantoso, MKom
Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas

segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan November 2012 ini ialah
temu-kembali informasi, dengan judul Tuning Parameter dalam Fungsi Okapi
BM25 pada Mesin Pencari Teks Bahasa Indonesia.
Terima kasih penulis ucapkan kepada ayah, ibu, serta seluruh keluarga atas
segala doa dan kasih sayangnya. Terima Kasih kepada Bapak Ir Julio Adisantoso
MKom selaku pembimbing, Bapak Ahmad Ridha SKom MS dan Bapak Dr Irman
Hermadi SKom MSc selaku penguji, juga teman-teman seperjuangan Edo
Apriyadi, Achmad Manshur Zuhdi, Rahmatika Dewi, Fitria Rahmadina, Arini
Daribti Putri, dan Damayanti Elisabeth Sibarani atas kebersamaannya selama ini.
Ungkapan terima kasih juga disampaikan kepada Widya Retno Utami beserta
keluarga atas semangat, doa, dan motivasinya selama ini.
Semoga karya ilmiah ini bermanfaat.

Bogor, Juli 2013
Tedy Saputra

DAFTAR ISI
DAFTAR TABEL


viii

DAFTAR GAMBAR

viii

DAFTAR LAMPIRAN

viii

PENDAHULUAN

1

Latar Belakang

1

Perumusan Masalah


2

Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

3

METODE

3

Pengumpulan Dokumen


4

Tokenisasi

4

Pembuangan Stopwords

5

Pemilihan Fitur

5

Pembobotan

6

Similarity


7

Evaluasi

9

HASIL DAN PEMBAHASAN

10

Pemrosesan Dokumen

10

Praproses

11

Similarity


12

Evaluasi

14

Perbandingan Kinerja Model Peluang dengan Model Ruang Vektor

16

SIMPULAN DAN SARAN

18

Simpulan

18

Saran


18

DAFTAR PUSTAKA

18

LAMPIRAN

21

DAFTAR TABEL
1 Confusion Matrix
2 Nilai AVP BM25 sebelum dan sesudah tuning
3 Nilai AVP pada BM25 dan VSM

9
15
17

DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9

Diagram metodologi
Contoh dokumen
Tabel document pada database
Tabel words pada database
Implementasi fungsi kesamaan Okapi BM25
Algoritme pada fungsi kesamaan Okapi BM25
Algoritme pada fungsi kesamaan cosine
Perbandingan grafik recall-precision BM25
Grafik recall-precision dari BM25 dan VSM

3
4
10
11
13
13
14
15
17

DAFTAR LAMPIRAN
1
2
3
4
5
6
7
8

Antarmuka implementasi
Gugus query dan jawaban
Nilai tuning parameter yang akan diujikan
Hasil tuning parameter yang diujikan beserta nilai AVP nya
Hasil perhitungan precision pada eleven standard recall
Precision setiap query pada BM25
Precision setiap query pada BM25 dengan tuning tertinggi
Precision setiap query pada vector space model

21
22
31
32
33
34
36
38

PENDAHULUAN
Latar Belakang
Penggunaan internet yang semakin populer saat ini mempengaruhi jumlah
informasi yang semakin lama semakin besar keragamannya. Informasi dapat
dicari dengan mudah apabila jumlahnya sedikit, akan tetapi sangat sulit untuk
mencari banyak informasi yang dibutuhkan dengan waktu yang singkat secara
manual. Oleh sebab itu dibutuhkan suatu sistem yang dapat membantu user untuk
mendapatkan informasi yang dibutuhkan secara cepat dan mudah yang kemudian
disebut dengan sistem temu-kembali informasi (information retrieval system).
Sistem temu-kembali informasi (information retrieval system) adalah sistem
pencarian informasi pada dokumen, pencarian untuk meta data di dalam database,
baik relasi database yang stand-alone atau hypertext database yang terdapat pada
jaringan seperti internet (Buckley et al. 1994). Sistem temu-kembali informasi
berhubungan dengan pencarian dari informasi yang isinya tidak memiliki struktur.
Begitu juga dengan dengan ekspresi dari kebutuhan pengguna yang disebut
dengan query, juga tidak memiliki struktur. Hal inilah yang membedakan antara
sistem temu-kembali informasi dengan sistem basis data.
Penerapan aplikasi dari sistem temu-kembali informasi adalah search engine
atau mesin pencari yang terdapat pada jaringan internet (Harman 1992). Mesin
pencari (search engine) adalah salah satu sistem temu-kembali informasi yang
mengolah informasi dan mengambil daftar, peringkat maupun urutan dari
dokumen berdasarkan relevansi antara query dengan dokumen yang dibutuhkan
dalam rangka memenuhi pencarian yang dilakukan oleh user. Suatu mesin
pencarian harus mampu menggunakan kesamaan (similarity) antara kata
pencarian yang diinputkan oleh user dengan setiap dokumen yang ada.
Saat ini banyak model-model yang digunakan untuk suatu sistem temukembali informasi, salah satunya adalah model peluang. Sesuai dengan namanya,
model peluang bertujuan untuk mengevaluasi setiap kata pencarian (query),
berdasarkan peluang suatu dokumen relevan dengan kata pencarian yang
diberikan. Model peluang pada sistem temu-kembali informasi menghitung
koefisien kesamaan antara sebuah query dengan sebuah dokumen sebagai sebuah
peluang bahwa dokumen tersebut akan relevan dengan suatu query. Model
peluang akan memberikan nilai peluang pada setiap kata yang menjadi komponen
dalam suatu query, dan kemudian menggunakan nilai-nilai tersebut untuk
menghitung peluang akhir bahwa suatu dokumen relevan dengan suatu query.
Pada model peluang, banyak terdapat fungsi-fungsi kesamaan yang
digunakan, yaitu fungsi Best Match (BM) seperti BM1, BM11, BM15, BM25 dan
lain sebagainya. Akan tetapi, fungsi OKAPI BM25 merupakan fungsi yang
memiliki tingkat keberhasilan terbaik sampai saat ini. BM25 merupakan hasil dari
percobaan beberapa variasi fungsi Best Match pada model peluang. BM25
memiliki fungsi yang sesuai dengan 3 prinsip pembobotan yang baik, yaitu
memiliki inverse document frequecy (idf), term frequency (tf), dan memiliki
fungsi normalisasi dari panjang dokumen (document length normalization) (Chen
2011).

2
Penelitian ini akan difokuskan menggunakan model peluang yang
menggunakan fungsi kesamaan OKAPI BM25 dengan melakukan modifikasi
pada nilai tuning parameter. Tuning parameter adalah suatu variabel yang dapat
diubah-ubah nilainya sesuai dengan kebutuhan dengan tujuan untuk mendapatkan
hasil pencarian yang lebih baik. Penelitian ini dilakukan untuk menguji apakah
pencarian dengan model peluang dapat menghasilkan banyak dokumen yang
relevan terutama untuk dokumen yang menggunakan Bahasa Indonesia. Selain itu
akan dibuktikan juga pengaruh dari perubahan tuning parameter yang akan
dimodifikasi sedemikian rupa untuk mendapatkan hasil pencarian dengan nilai
yang lebih baik. Kemudian akan dibandingkan kinerja dari sistem yang
menggunakan model peluang dengan sistem yang menggunakan model lain yaitu
model ruang vektor.

Perumusan Masalah
1

2

3
4

Penelitian ini dilakukan untuk menjawab masalah-masalah sebagai berikut:
Apakah model peluang dapat mengukur relevansi secara akurat antara query
masukan dengan dokumen yang dibutuhkan sehingga hasil pencarian sesuai
dengan apa yang user inginkan?
Apakah modifikasi dari nilai tuning parameters dalam fungsi kesamaan
OKAPI BM25 dapat menghasilkan pencarian dengan hasil evaluasi yang lebih
baik?
Apakah model peluang lebih baik apabila dibandingkan dengan model ruang
vektor?
Apakah model peluang cocok digunakan untuk melakukan pencarian pada
dokumen yang menggunakan Bahasa Indonesia?

Tujuan Penelitian
Penelitian ini bertujuan untuk menguji seberapa besar pengaruh modifikasi
nilai dari tuning parameter yang ada dalam fungsi kesamaan OKAPI BM25
terhadap evaluasi dari hasil pencarian. Selain itu juga akan dibandingkan kinerja
antara model peluang dengan model lain yaitu model ruang vektor dalam
pencarian dokumen yang menggunakan Bahasa Indonesia.

Manfaat Penelitian
Dengan dilakukannya penelitian ini, diharapkan dapat diketahui efektifitas
dari modifikasi tuning parameter yang ada dalam fungsi OKAPI BM25 terhadap
hasil pencarian. Selain itu, dapat ditentukannya model manakah yang lebih baik
untuk melakukan pencarian dokumen teks Bahasa Indonesia sehingga
mendapatkan hasil pencarian dengan tingkat relevansi yang cukup tinggi.

3
Ruang Lingkup Penelitian
Fokus dari penelitian ini adalah menguji dua model sistem temu-kembali
informasi, yaitu model peluang dan model ruang vektor. Fungsi kesamaan yang
digunakan pada model peluang adalah fungsi kesamaan OKAPI BM25 dengan
modifikasi nilai pada tuning parameter. Dokumen yang digunakan dalam
penelitian ini adalah dokumen yang menggunakan Bahasa Indonesia.

METODE
Sistem temu-kembali informasi pada prinsipnya merupakan suatu sistem
yang sederhana. Misalkan terdapat sekumpulan dokumen dan seorang user yang
memformulasikan sebuah pertanyaan (query). Jawaban dari pertanyaan atau query
tersebut adalah sekumpulan dokumen yang relevan dengan query dari user.
Sistem temu-kembali informasi pada dasarnya dibagi menjadi dua komponen
utama, yaitu sistem pengindeksan (indexing) yang menghasilkan basis data sistem
dan temu-kembali yang merupakan gabungan dari user interface dan look-uptable (Sudirman dan Kodar 2012).
Metode pada penelitian ini menggunakan model peluang yang merupakan
salah satu model pada temu-kembali informasi. Model peluang tersebut akan
dibandingkan dengan model lain yaitu model ruang vektor. Metode yang akan
dilakukan pada penelitian ini dicantumkan pada Gambar 1.

Gambar 1 Diagram metodologi

4
Tahapan dari metode diawali dengan pengumpulan dokumen, kemudian
dilanjutkan dengan proses indexing. Indexing adalah sebuah proses dimana
dilakukan pengindeksan pada sekumpulan dokumen yang nantinya akan menjadi
informasi yang ditujukan untuk user. Indexing dapat dilakukan secara manual
maupun secara otomatis. Adapun tahapan dari indexing terdiri dari tokenisasi,
pembuangan stopwords, pemilihan fitur, dan pembobotan (term weighting).
Selanjutnya adalah melihat similarity, yaitu kesamaan hasil yang didapatkan dari
dokumen dengan query yang dimasukkan. Tahap akhir yang dilakuan adalah
melakukan evaluasi dari kedua model tersebut.

Pengumpulan Dokumen
Tahapan awal yang dilakukan adalah melakukan pengumpulan dokumen
yang akan dijadikan sebagai data uji dari penelitian ini. Dokumen yang digunakan
adalah kumpulan dokumen (korpus) yang tersedia di Laboratorium TemuKembali Informasi hasil penelitian Adisantoso dan Ridha (2004). Di dalam
korpus tersebut tersedia 1000 dokumen pertanian berbahasa Indonesia berikut
dengan sejumlah query dan gugusan jawaban yang relevan dengan query tersebut.
Query dan gugus jawaban yang relevan dicantumkan pada Lampiran 2.
Selain itu ditambahkan juga dokumen lain yang didapatkan dari berbagai
portal berita secara online yang berjumlah 300 dokumen. Total dokumen yang
digunakan adalah 1300 dokumen yang memiliki format plain teks dengan struktur
XML (Extensible Markup Language). Contoh dokumen yang digunakan dapat
dilihat pada Gambar 2.

Gambar 2 Contoh dokumen
Tokenisasi
Tokenisasi adalah proses memotong teks input menjadi unit-unit terkecil
yang disebut token dan pada saat yang sama dimungkinkan untuk membuang
karakter tertentu, seperti tanda baca (Manning et al. 2008). Token tersebut dapat
berupa suatu kata, angka, atau suatu tanda baca. Proses ini bertujuan untuk
mempermudah dalam mengetahui frekuensi kemunculan tiap token pada suatu
dokumen. Pada umumnya token yang dipakai pada suatu teks input adalah kata

5
(term). Kata adalah sekumpulan karakter alfanumerik yang saling terhubung dan
dipisahkan oleh whitespace, di antaranya adalah spasi, tab, dan newline.
Proses tokenisasi dilakukan dengan bantuan Sphinx Search karena
tokenisasi dengan Sphinx tergolong mudah dan cepat dalam prosesnya. Selain itu
Sphinx juga mendukung pemrosesan dokumen yang berasal dari database. Sphinx
Search digunakan hanya pada saat proses tokenisasi dan pada proses pembobotan
yaitu mencari nilai dari Term Frequency (TF).

Pembuangan Stopwords
Proses tokenisasi merupakan proses yang sangat penting dalam indexing.
Setiap token didaftar dan dihitung frekuensi kemunculannya pada suatu dokumen.
Dalam proses tokenisasi akan terlihat kata mana saja yang sering muncul dan kata
mana saja yang jarang muncul dalam dokumen yang di tokenisasi. Untuk
stopwords pada dokumen Bahasa Indonesia seperti dan, yang, tetapi, sedangkan,
sebagaimana, selanjutnya dan lainnya dapat dipastikan bahwa kemunculan katakata tersebut akan banyak sekali ditemukan. Kata-kata tersebut juga bukanlah
merupakan kata yang penting. Oleh sebab itu proses indexing selanjutnya adalah
proses pembuangan kata-kata yang tidak dapat dijadikan sebagai penciri dari
suatu dokumen yang disebut dengan stopwords.
Stopwords yang terdapat di dalam Bahasa Indonesia sangat banyak
jumlahnya. Stopwords tersebut bisa berasal dari kata hubung, kata awalan, kata
penegasan dan lain sebagainya. Stopwords yang digunakan pada penelitian ini
sudah merupakan satu package dengan korpus yang tersedia pada Laboratorium
Temu Kembali Informasi Ilmu Komputer IPB. Stopwords yang digunakan
tersebut berjumlah sekitar 732 kata.

Pemilihan Fitur
Berdasarkan pernyataan dari Luhn (1958) atau yang biasa dikenal sebagai
Luhn Ideas, bahwa kata-kata yang paling umum dan paling tidak umum adalah
tidak signifikan untuk indexing. Kata-kata yang tidak dapat dijadikan sebagai
penciri dari suatu dokumen adalah kata-kata yang kemunculannya sangat sering
dan juga kata-kata yang kemunculannya sangat jarang pada sebuah dokumen.
Oleh sebab itu kata-kata dengan frekuensi kemunculan yang cukup merupakan
kata-kata yang paling baik digunakan sebagai penciri dari suatu dokumen.
Pemilihan fitur (feature selection) adalah tahapan dimana term yang
didapatkan dari hasil tokenisasi dan telah melalui proses pembuangan stopwords
diseleksi kembali berdasarkan frekuensi kemunculan dari kata-kata tersebut.
Selain stopwords yang sudah jelas bukan merupakan kata yang penting, masih ada
kata-kata lain yang bisa diseleksi kembali. Kata-kata tersebut adalah kata-kata
yang bukan merupakan kata yang penting dan tidak dapat dijadikan sebagai ciri
pada sebuah dokumen.
Dengan dilakukannya pemilihan fitur maka kata yang akan diindeks
menjadi lebih sedikit sehingga akan mengurangi beban perhitungan pada

6
pembobotan kata. Berkurangnya jumlah indeks juga mempengaruhi kecepatan
dari proses information retrieval itu sendiri.

Pembobotan
Pembobotan merupakan proses pemberian bobot/nilai pada term yang ada
pada dokumen. Tujuan dari pembobotan adalah untuk memberikan suatu nilai
pada suatu term dimana nilai tersebut nantinya akan merepresentasikan kemiripan
(similarity) dari suatu query dengan suatu dokumen. Metode pembobotan yang
digunakan pada sistem temu-kembali informasi berbeda-beda dan sangat beragam.
Metode pembobotan yang umum dan paling sering digunakan adalah metode
pembobotan berdasarkan term frequency (TF) dan inverse document frequency
(IDF).
TF adalah teknik pembobotan dimana kemunculan dari suatu term
diperhitungkan dalam suatu dokumen d. Dengan kata lain, bobot dari term
tersebut adalah bergantung dari seberapa banyak term tersebut muncul dalam
suatu dokumen d (Manning et al. 2008).
Teknik pembobotan term frequency menjadi tidak konsisten ketika suatu
dokumen memiliki panjang dokumen yang berbeda-beda. Dokumen dengan
panjang dokumen yang lebih besar otomatis akan memiliki frekuensi kemunculan
term yang lebih banyak dibandingkan dengan dokumen yang panjangnya lebih
sedikit. Padahal belum tentu term yang sering muncul itu merupakan kata penciri
dari dokumen tersebut.
IDF merupakan suatu teknik pembobotan dengan memperhitungkan jumlah
dokumen yang memiliki term t serta membandingkannya dengan jumlah dokumen
yang ada secara keseluruhan. IDF dicari dengan menggunakan rumus sebagai
berikut:
Idft = log

N
�t

dengan Idft adalah nilai IDF untuk term t, N adalah jumlah dokumen dalam
koleksi, dan nt adalah jumlah dokumen yang memiliki term t.
Dari kedua pembobotan tersebut, terbentuklah sistem pembobotan gabungan
yang dikenal dengan pembobotan tf.idf, yaitu penggabungan antara TF dan IDF
dengan mengalikan kedua rumusnnya sebagai berikut:
(tf.idf)t,d = fd,t × idft
dengan (tf.idf)t,d adalah nilai tf.idf dari term t pada dokumen d, fd,t adalah jumlah
term t pada dokumen d, dan idft adalah nilai idf dari term t.
Dengan kata lain, (tf.idf)t,d menandakan bahwa term t pada dokumen d
adalah :
1 Tertinggi ketika t muncul berkali-kali dalam sejumlah kecil dokumen.
2 Rendah ketika t muncul lebih sedikit dalam suatu dokumen atau muncul pada
banyak dokumen.
3 Terendah ketika t muncul pada hampir setiap dokumen (Manning et al. 2008).

7
Similarity
Proses selanjutnya setelah dilakukan pembobotan adalah similarity. Nilainilai yang didapatkan dari proses pembobotan akan digunakan kembali pada
perhitungan dari similarity. Nilai-nilai dari perhitungan similarity tersebut akan
membentuk suatu sistem ranking, yang akan mengurutkan dokumen-dokumen
berdasarkan tingkat kemiripan tertinggi ke tingkat kemiripan terendah.
Ranking adalah mekanisme pengurutan dokumen-dokumen berdasarkan
tingkat relevansi antara dokumen dengan query yang diberikan oleh pengguna.
Adanya proses similarity dan sistem ranking menyebabkan adanya kecenderungan
dari sistem temu-kembali informasi untuk mengarah kepada suatu model
information retrieval (IR).
Penentuan ataupun perhitungan similarity dari suatu mesin pencari
didasarkan pada suatu model IR tertentu. Model dari IR beragam jenisnya seperti
model peluang, model ruang vektor, model boolean, model bahasa, dan modelmodel lainnya. Penelitian ini hanya akan membahas pada model peluang dan
model ruang vektor.
Model Ruang Vektor
Model yang sering digunakan dalam temu-kembali informasi adalah model
ruang vektor (vector space model). Model ruang vektor adalah model yang
berbasis token. Pada model ruang vektor dimungkinkan adanya partial matching
sehingga model ini juga dapat mengenali dokumen yang agak relevan dengan
query. Selain itu, pada model ruang vektor juga telah mendukung adanya
pemeringkatan dokumen berdasarkan kemiripannya. Model pemeringkatan yang
dilakukan adalah dengan melakukan scoring pada dokumen. Dokumen diurutkan
berdasarkan kerelevanannya dari yang paling relevan ke yang paling tidak relevan.
Untuk dokumen yang memiliki score paling tinggi, dokumen itulah yang paling
relevan dengan query yang diberikan, begitupun sebaliknya.
Model ruang vektor menentukan kemiripan (similarity) antara dokumen
dengan query dengan cara merepresentasikannya ke dalam bentuk vektor. Tiap
kata yang ditemukan pada dokumen dan query diberi bobot dan disimpan sebagai
elemen dari sebuah vektor. Model ruang vektor menggunakan ukuran kesamaan
cosine (cosine similarity) yang digunakan untuk menghitung kemiripan antara
dokumen dan query masukan yang terdiri atas beberapa term. Sebagai contoh
terdapat query q dan dokumen d, maka ukuran kesamaan cosine antara query dan
dokumen adalah:
sim(q,d) =

�V⃗q ∙ �V⃗d
�⃗q � × �V
�⃗d �
�V

(1)

dengan �V⃗q adalah nilai tf.idf untuk query, �V⃗d adalah nilai tf.idf untuk dokumen,
�⃗d � adalah panjang Euclid dokumen.
��V⃗q � adalah panjang Euclid query, dan �V
Nilai tf.idf untuk query dan dokumen dicari dan kedua nilai tersebut
dikalikan. Hasil perkalian dari kedua nilai tersebut dinormalisasi dengan cara
membaginya dengan hasil perkalian antara panjang Euclid untuk query dan

8
dokumen. Nilai terbesar dari perhitungan kesamaan cosine diatas menandakan
bahwa query dekat dengan dokumen tersebut.
Model Peluang
Model peluang, sesuai dengan namanya bertujuan untuk mengevaluasi dari
setiap kata pencarian (query), berapakah kemungkinan dokumen tersebut relevan
dengan query yang diberikan. Model peluang menghitung kesamaan antara
sebuah query dengan sebuah dokumen sebagai sebuah peluang bahwa dokumen
tersebut akan relevan dengan query tersebut. Nilai peluang akan diberikan pada
setiap kata yang menjadi komponen suatu query, kemudian menyatukan setiap
nilai-nilai tersebut untuk menghitung suatu nilai peluang akhir yang akan
menunjukkan besar atau kecilnya relevansi antara query dengan suatu dokumen.
Semakin besar nilai peluang yang dihasilkan, semakin besar pula peluang dari
query tersebut relevan dengan suatu dokumen.
Penelitian ini difokuskan menggunakan model peluang yang menggunakan
fungsi kesamaan OKAPI BM25 dengan melakukan modifikasi pada nilai Tuning
parameter. Tuning parameter adalah suatu variabel yang dapat diubah-ubah
nilainya sesuai dengan kebutuhan dengan tujuan untuk mendapatkan hasil
pencarian yang lebih baik. Fungsi kesamaan OKAPI BM25 adalah sebagai
berikut:
BM25 = � log
tϵQ

(N-nt ) (k1 +1)fd,t (k3 +1)fq,t


nt
K + fd,t
k3 + fq,t

(2)

dan
K = k1 ∙ �(1-b) +

b.dld

avl

(3)

dengan Q adalah query, N adalah jumlah dokumen dalam korpus, nt adalah jumlah
dokumen yang mengandung term t, fd,t adalah jumlah term t yang muncul pada
dokumen d, fq,t adalah jumlah term t yang muncul pada query q, dld adalah jumlah
term dalam dokumen d, avl adalah panjang rata-rata seluruh dokumen dalam
korpus, dan k1, k3, b adalah tuning parameter.
Seperti terlihat dalam rumus OKAPI BM25 terdapat variabel yang disebut
tuning parameter, yaitu k1, k3, dan b. Adapun nilai tuning parameter yang
direkomendasikan oleh Robertson dan Walker (1999) yang telah terbukti efektif
dan memberikan keakuratan yang baik yaitu: k1 = 1,2; k3 = 1000; b = 0,75. Nilai
tersebut akan diubah-ubah sesuai dengan kebutuhan sehingga dapat menghasilkan
pencarian dengan skor kesamaan yang lebih baik.
Menurut Robertson dan Walker (1999), nilai k1 dan b masing-masing di set
default 1.2 dan 0.75, akan tetapi nilai dari b yang lebih kecil terkadang dapat
menguntungkan. Oleh karena itu, nilai dari b yang akan di tuning mulai dari 0.75
sampai dengan yang paling kecil yaitu 0.15 dengan interval 0.15. Untuk nilai dari
k1 yang awalnya bernilai 1.2, akan di tuning dengan nilai antara 1.0 sampai
dengan 2.0 dengan interval 0.2.

9
Sementara itu, nilai k3 untuk query yang panjang, Robertson dan Walker
(1999) menyarankan dengan nilai 1000 atau 7. Oleh karena pencarian yang
dilakukan dihitung berdasarkan dari jumlah kata dari query yang dimasukkan dan
query yang digunakan merupakan query pendek, maka query masukkan tidak
memungkinkan adanya kata yang berulang. Maka, nilai dari k3 relatif konstan
apabila di set dengan nilai 1000 maupun 7. Oleh karena hal tersebut, nilai dari k3
dibiarkan menjadi 1000 tanpa dilakukan perubahan. Proses tuning yang akan
dilakukan sebanyak 30 kali dan dicantumkan pada Lampiran 3.

Evaluasi
Terdapat dua hal mendasar yang paling sering digunakan untuk mengukur
kinerja temu-kembali secara efektif, yaitu recall dan precision (Manning et al.
2008). Precision (P) adalah bagian dari dokumen yang di retrieve adalah relevan,
sedangkan recall (R) adalah bagian dari dokumen relevan yang di retrieve.
Perhitungan dari recall (R) dan precision (P) ditunjukkan dalam Tabel 1.
Tabel 1 Confusion Matrix
Relevant
tp
fn

Retrieved
Not Retrieved

Not Relevant
fp
tn

Sehingga perhitungan dari Precision dan Recall adalah sebagai berikut:
Precision =

tp
(tp + fp)

Recall =

tp
(tp + fn)

dengan tp adalah jumlah dokumen relevan yang di retrieve, fp adalah jumlah
dokumen tidak relevan yang di retrieve, dan fn adalah jumlah dokumen relevan
yang tidak di retrieve.
Menurut Baeza-Yates dan Ribeiro-Neto (1999), temu-kembali yang
dievaluasi menggunakan beberapa kueri berbeda akan menghasilkan nilai Recall
dan Precision yang berbeda untuk masing-masing query. Average Precision
(AVP) dengan interpolasi maksimum diperlukan untuk menghitung rata-rata
precision pada berbagai 11 tingkat recall, yaitu dari tingkat recall 0 sampai
dengan 1. Perhitungan AVP ditunjukkan oleh rumus sebagai berikut:
Nq

P� (rj ) = �
i=1

Pi (r)
Nq

�(rj ) adalah nilai AVP pada tingkat recall r, Nq adalah jumlah query
dengan P
yang digunakan, dan Pi (r) adalah nilai precision pada level recall r untuk query
ke-i.
Dari setiap percobaan tuning yang dilakukan akan dilakukan evaluasi untuk
setiap 30 query yang digunakan sehingga akan didapatkan perbandingan nilai

10
AVP. Dengan didapatkannya nilai AVP pada setiap nilai tuning, dapat diketahui
berapakah nilai yang menghasilkan evaluasi dengan nilai AVP paling tinggi.

HASIL DAN PEMBAHASAN
Pemrosesan Dokumen
Dokumen yang digunakan untuk pengujian berjumlah 1300 dokumen.
Sebanyak 1000 dokumen pertanian berasal dari korpus yang tersedia di
Laboratorium Temu-Kembali Informasi dan 300 dokumen lainnya yang
ditambahkan berasal dari portal berita online. Dokumen yang digunakan
berformat plain text dengan struktur XML (Extensible Markup Language).
Dokumen dikelompokkan menjadi tag-tag sebagai berikut:





, menunjukkan ID dari dokumen.
, menunjukkan nama file.
, menunjukkan judul dari dokumen.
, menunjukkan isi dari dokumen.

Dokumen-dokumen tersebut kemudian dimasukkan ke dalam database
MySql sehingga akan terbentuk sebuah tabel yang bernama document. Tabel
document tersebut memiliki field sesuai dengan tag-tag yang ada pada dokumen,
seperti terlihat pada Gambar 3. Pada tabel document terdapat field tambahan yaitu
total_words dan euclid. Angka-angka tersebut akan digunakan selanjutnya pada
proses similarity model peluang dan model ruang vektor.

Gambar 3 Tabel document pada database

11
Selain dokumen yang telah disiapkan, pada 1000 dokumen pertanian
tersebut juga telah tersedia 30 query yang akan digunakan dalam pencarian,
berikut dengan daftar dokumen yang relevan dari query-query tersebut. Queryquery tersebut akan digunakan untuk melakukan pada proses similarity pada
model peluang maupun model ruang vektor.

Praproses
Tokenisasi
Setelah dokumen dimasukkan ke dalam database, kemudian dilakukan
tokenisasi. Proses tokenisasi dilakukan dengan bantuan Sphinx Search karena
tokenisasi dengan Sphinx tergolong mudah dan cepat dalam prosesnya. Selain itu,
Sphinx juga mendukung pemrosesan dokumen yang berasal dari database.
Sebelum dilakukan proses indexing, terlebih dahulu dilakukan konfigurasi
pada Sphinx. File konfigurasi untuk Sphinx yang digunakan adalah file sphinxmin.conf.in. Pada file konfigurasi ini terdapat pengaturan koneksi database dan
pengaturan lainnya termasuk jumlah minimal huruf pada kata yang akan diindeks.
Kata yang diindeks adalah kata yang memiliki jumlah minimal 3 huruf, sehingga
untuk kata yang kurang dari 3 huruf tidak akan ikut terindeks.
Setelah service dari Sphinx dibuat dan koneksi ke database untuk tabel
document telah dibuat pada file konfigurasi Sphinx, proses indexing dapat
dilakukan. Pada akhirnya didapatkan indeks kata yang berasal dari 1300 dokumen
yang berada pada tabel document di dalam database. Setiap term yang telah
diindeks akan dimasukkan ke dalam tabel words pada database. Pada tabel words
terdapat seluruh kata yang terindeks, berikut id dan jumlah kemunculan term
tersebut pada seluruh dokumen yang ada. Tabel words pada database dapat dilihat
pada Gambar 4.

Gambar 4 Tabel words pada database

12
Pembuangan Stopwords
File yang berisi stopwords telah tersedia sebelumnya dan berjumlah 732
kata stopwords. Setiap kata stopwords tersebut dimasukkan ke dalam tabel
bernama stopwords. Kemudian pada tabel words, akan dibuat 1 field baru dengan
nama stopwords yang akan berisi angka 0 dan 1. Angka 0 menunjukkan bahwa
kata tersebut merupakan kata stopwords yang terdapat pada tabel stopwords
sedangkan angka 1 menunjukkan bahwa kata tersebut bukanlah suatu stopwords.
Untuk kata yang memiliki angka 0 pada field stopwords akan dihapus sehingga
kata yang tersisa sudah tidak ada lagi kata stopwords.
Akan tetapi, masih terdapat kata-kata yang mengandung angka, seperti
tahun, tanggal lahir, dan kata yang mengandung angka lainnya. Kata yang
mengandung angka tersebut tidak diperlukan karena pada query yang digunakan,
tidak ada query yang mengadung angka. Angka-angka yang ikut terindeks
tersebut dihilangkan secara manual (di delete) dari dalam database satu per satu
sehingga tidak ditemukan lagi kata yang memiliki unsur angka di dalam database.
Pemilihan Fitur
Pada penelitian ini, metode pemilihan fitur yang digunakan adalah dengan
menggunakan Inverse Document Frequency (IDF). Nilai IDF dari sekumpulan
indeks kata akan dicari, sehingga akan terlihat kata mana saja yang memiliki nilai
IDF yang besar dan yang kecil. Dari nilai tersebut, akan ditentukan nilai batas
(threshold) untuk kata yang memiliki nilai IDF yang kecil.
Nilai threshold yang digunakan adalah 0.15. Untuk kata dengan nilai IDF <
0.15 akan dibuang. Untuk nilai IDF yang melebihi nilai threshold akan
dipertahankan untuk selanjutnya dilakukan proses pembobotan dan similarity.
Pembobotan
Pembobotan yang dilakukan adalah dengan menghitung tf, idf, dan tf.idf.
untuk nilai dari tf dan idf dihitung dengan menggunakan bantuan Sphinx Search.
Nilai dari tf dan idf tersebut selanjutnya digunakan untuk mencari nilai dari tf.idf.
Nilai-nilai tersebut dimasukkan ke dalam database MySql untuk selanjutnya
digunakan pada perhitungan berikutnya. Nilai dari tf dimasukkan ke dalam tabel
bernama tf dan nilai idf dimasukkan ke dalam tabel dengan nama idf, sedangkan
untuk nilai dari tf.idf ikut dimasukkan ke dalam tabel tf.
Nilai yang didapatkan pada proses pembobotan ini selanjutnya akan
digunakan pada proses similarity, baik pada model peluang maupun model ruang
vektor. Nilai pembobotan sudah tersedia untuk semua term yang ada pada seluruh
dokumen yang terindeks, oleh sebab itu, proses perhitungan pada bagian
similarity dapat langsung dilakukan dengan query pengujian yang telah tersedia.

Similarity
Proses perhitungan similarity berbeda untuk tiap model. Pada model
peluang, similarity dihitung dengan menggunakan fungsi kesamaan Okapi BM25,
sedangkan untuk model ruang vektor dihitung dengan menggunakan fungsi
kesamaan cosine (cosine similarity).

13
Similarity Model Peluang
Implementasi dari fungsi kesamaan Okapi BM25 dilakukan dengan bantuan
nilai-nilai yang telah ada pada database sebelumnya. Seperti dapat dilihat pada
fungsi (2) tersebut terbagi atas 3 bagian. Bagian pertama sebenarnya merupakan
rumus dari idf yang mengalami sedikit modifikasi. Nilai dari bagian pertama
tersebut dihitung terlebih dahulu untuk setiap term, dan kemudian dimasukkan ke
dalam database dengan field bernama idf_modif. Sementara itu, bagian kedua
merupakan perhitungan yang berhubungan dengan dokumen, dan bagian ketiga
merupakan perhitungan yang berhubungan dengan query.
Nilai dari avl atau panjang rata-rata seluruh dokumen dalam korpus dapat
dicari dengan menghitung keseluruhan jumlah kata pada korpus, kemudian
membaginya dengan jumlah dari seluruh dokumen. Sedangkan untuk dld atau
jumlah term dalam dokumen dapat dicari terlebih dahulu. Pada tabel document
akan ditambahkan field yang berisi jumlah kata dalam dokumen tersebut.
Kemudian, fungsi kesamaan Okapi BM25 dapat dihitung dengan persamaan pada
Gambar 5.
$K = $k1*((1-$b)+$b*$total_document_words->total_words/$avl);
$part1 = $idf_modif->idf;
$part2 = (($k1+1)*$t->tf)/($K+$t->tf);
$part3 = (($k3+1)*1)/($k3+1);
$bm25 = $part1*$part2*$part3;

Gambar 5 Implementasi fungsi kesamaan Okapi BM25
Pada saat dimasukkan query yang tersedia, akan didapatkan skor kesamaan
dari perhitungan tersebut untuk tiap-tiap dokumen yang dianggap relevan dengan
query oleh sistem. Hasil pencarian pada setiap query ini akan dilakukan evaluasi
pada tahap selanjutnya. Algoritme dari fungsi kesamaan Okapi BM25 secara garis
besar ditunjukkan pada Gambar 6.
1
2
3
4
5
6

7

8
9

Input query q.
Pisahkan query q menjadi satu kata query q1, q2, q3, dst.
Proses q1 dengan mencari nilai IDF, TF dokumen, dan TF query
nya sesuai dengan fungsi Okapi BM25.
Kalikan IDF, DF, dan TF yang didapatkan pada q1 tersebut
sehingga didapatkan skor kesamaan untuk satu kata query.
Ulangi langkah 3 sampai 4 untuk q2, q3, dst.
Jumlahkan setiap hasil yang didapatkan dari q1, q2, q3 dst
tergantung banyaknya jumlah kata pada query, sehingga
didapatkan skor keseluruhan untuk 1 query pencarian.
Didapatkan skor kesamaan untuk suatu query, sehingga dapat
ditentukan dokumen hasil pencarian yang dianggap relevan
dengan query tersebut.
Urutkan dokumen hasil pencarian berdasarkan skor tertinggi
ke skor terendah.
Dokumen yang telah diurutkan dapat ditampilkan pada sistem.

Gambar 6 Algoritme pada fungsi kesamaan Okapi BM25

14
Algoritme pada Gambar 6 adalah algoritme untuk satu query. Proses
tersebut harus dilakukan untuk ke 30 query yang diujikan, sehingga dapat
dilakukan evaluasi untuk seluruh query berdasarkan hasil dari skor kesamaan
yang didapatkan tersebut.
Similarity Model Ruang Vektor
Sesuai dengan fungsi (1), terlebih dahulu dilakukan perkalian antara nilai
tf.idf dari query dengan tf.idf dari dokumen yang relevan dengan query masukan.
Kemudian hitung panjang Euclid setiap dokumen yang relevan dan panjang
Euclid dari query. Panjang Euclid dihitung dengan mengkuadratkan bobot (tf.idf)
setiap term dalam setiap dokumen, kemudian dijumlahkan sesuai dengan
document_id yang sama, dan terakhir nilai hasil penjumlahan tersebut diakarkan.
Algoritme dari fungsi kesamaan cosine ditunjukkan pada Gambar 7.
Nilai dari tf.idf kuadrat dapat dimasukkan ke dalam database, begitu juga
dengan panjang Euclid untuk setiap dokumen. Dengan telah tersedianya nilai tf.idf
kuadrat dan panjang Euclid pada database, diharapkan proses perhitungan pada
cosine similarity dapat menjadi lebih cepat.
Proses pada Gambar 7 dilakukan untuk semua dokumen yang diujikan,
sehingga dari skor kesamaan tersebut, dapat memunculkan dokumen hasil
pencarian yang kemudian akan dilakukan evaluasi untuk mengetahui kinerja dari
sistem tersebut.
1
2
3

4
5

6
7
8

9

Input query q.
Pisahkan query q menjadi satu kata query q1, q2, q3, dst.
Proses q1 dengan melakukan perkalian skalar antara bobot q1
dengan bobot setiap dokumen yang dianggap relevan oleh
sistem.
Lakukan langkah 3 untuk semua kata pada query kemudian
jumlahkan hasil perkalian tiap kata query dengan dokumen.
Hitung panjang Euclid dari dokumen, termasuk panjang Euclid
dari query yaitu dengan menguadratkan bobot setiap term
dalam dokumen maupun query, dijumlahkan, kemudian terakhir
diakarkan.
Lakukan perkalian dari panjang Euclid yang didapatkan pada
query dan panjang Euclid dari dokumen.
Lakukan pembagian antara hasil pada langkah 4 dengan hasil
yang didapatkan pada langkah 6.
Urutkan skor kesamaan yang didapatkan mulai dari skor yang
tertinggi hingga terendah sehingga didapatkan urutan dokumen
hasil pencarian.
Dokumen hasil pencarian dapat ditampilkan di sistem dengan
memanggil id maupun judul dari dokumen tersebut.

Gambar 7 Algoritme pada fungsi kesamaan cosine

Evaluasi
Setelah dilakukan proses similarity dan didapatkan skor kesamaan antara
query dengan dokumen yang ada, selanjutnya dilakukan proses evaluasi. Proses
evaluasi dilakukan dengan mencari nilai precision dan nilai recall. Pada model
peluang, proses tuning dilakukan terhadap nilai dari k1 dan b.

15
Setiap perubahan nilai dari k1 dan b dilakukan proses evaluasi terhadap 30
query yang diujikan. Untuk setiap query, dihitung nilai precision pada setiap nilai
recall standar (eleven standard recall), yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8,
0.9, dan 1.0. Setelah didapatkan nilai precision pada sebelas nilai recall standar
dengan interpolasi masksimum untuk setiap query, dilanjutkan dengan mencari
nilai average precision (AVP). Nilai inilah yang digunakan untuk mengetahui
kinerja dari setiap perubahan nilai k1 dan b yang diujikan. Nilai AVP dari setiap
pengujian nilai k1 dan b akan dibandingkan untuk mencari nilai k1 dan b yang
manakah yang menghasilkan nilai yang paling tinggi.
Untuk hasil evaluasi pada fungsi BM25 tanpa tuning yaitu dengan nilai k1 =
1.2 dan b = 0.75 didapatkan nilai average precision (AVP) sebesar 0.5885. Nilai
AVP untuk BM25 sebelum dan sesudah dilakukan tuning dicantumkan pada
Tabel 2. BM25 Tuning tersebut adalah nilai tuning parameter yang menghasilkan
nilai AVP paling besar dari yang lainnya. Nilai AVP dari seluruh tuning
parameter yang diujikan dicantumkan pada Lampiran 4. Grafik perbandingan
evaluasi BM25 sebelum dan sesudah dilakukan perubahan tuning parameter
ditunjukkan pada Gambar 8.
Tabel 2 Nilai AVP BM25 sebelum dan sesudah tuning
Model
BM25
BM25 tuning

AVP
0.5885
0.5901

Gambar 8 Perbandingan grafik recall-precision BM25
sebelum dan sesudah dilakukan tuning
Tuning yang dilakukan pada saat k1 = 1.0 dan b = 0.45 mempunyai nilai
AVP yang paling besar dibandingkan dengan yang lainnya, yaitu sebesar 0.5901.
Tuning yang dilakukan meningkatkan nilai sebesar 0.0016 dari nilai AVP semula.
Nilai ini menunjukkan angka yang tidak terlalu jauh dari nilai AVP pada BM25

16
sebelum dilakukan tuning. Hal ini disebabkan oleh perubahan dari nilai k1 dan b
yang sangat berpengaruh terhadap panjang dokumen yang digunakan pada korpus.
Seperti dapat dilihat pada rumus (2) dan rumus (3), nilai dari k1
berhubungan langsung dengan fungsi dari frekuensi kemunculan suatu kata dalam
dokumen sedangkan nilai dari b berhubungan langsung dengan rumus (2), yaitu
fungsi normalisasi dari panjang dokumen. Nilai tuning terbesar adalah pada saat
k1 = 1.0 dan b = 0.45 yang mengartikan bahwa fungsi tersebut hanya
menggunakan 0.45 atau sekitar setengah dari panjang dokumen yang ada pada
korpus sebagai pengaruh terhadap hasil perhitungan. Apabila b mempunyai nilai 1,
maka menandakan fungsi akan menggunakan keseluruhan pengaruh panjang
dokumen yang ada pada korpus sebagai hasil perhitungan. Nilai k1 = 1.0
menandakan fungsi tidak menambahkan pengaruh porsi term dalam suatu
dokumen. Untuk nilai dari k3 tidak diperhitungkan karena penelitian ini
menggunakan query pendek yang tidak memungkinkan adanya kata yang
berulang.
Seperti diketahui, dokumen yang digunakan pada penelitian ini berjumlah
1300 dokumen yang seluruhnya merupakan dokumen berita yang ada di koran
maupun yang ada di internet. Ini berarti dokumen dalam korpus memiliki jumlah
kata untuk tiap dokumen yang tidak terlalu berbeda jauh, karena dokumen berita
biasanya tidak akan terlalu panjang dan tidak juga terlalu pendek. Oleh karena
dokumen yang digunakan relatif sama dalam hal panjang dokumennya, maka
tuning yang dilakukan tidak akan memberikan peningkatan nilai AVP yang terlalu
jauh dari nilai AVP awal. Perlu dilakukan tuning dengan menggunakan korpus
yang lebih bervariasi untuk membuktikan pengaruh panjang dokumen terhadap
hasil perubahan tuning parameter.
Selain dari hal tersebut, tidak dapat dipungkiri bahwa nilai tuning parameter
yang disarankan oleh Robertson dan Walker (1999) merupakan nilai tuning
parameter yang sudah terbukti efektif pada beberapa kondisi pencarian, seperti
panjang dokumen dan panjang query yang berbeda-beda. Oleh karena itu, tuning
yang dilakukan pun memang semestinya tidak diubah terlalu jauh dari nilai yang
disarankan tersebut.
Meskipun demikian, proses modifikasi dari tuning parameter yang
dilakukan sudah berhasil dilakukan karena terbukti mampu meningkatkan nilai
AVP dari model peluang yang menggunakan fungsi kesamaan Okapi BM25. Nilai
precision dari tiap query pada eleven standard recall untuk model peluang
sebelum dan sesudah dilakukan tuning dapat dilihat pada Lampiran 6 dan
Lampiran 7.

Perbandingan Kinerja Model Peluang dengan Model Ruang Vektor
Setelah didapatkan kinerja dari model peluang, langkah berikutnya adalah
membandingkan kinerjanya dengan model lain, yaitu model ruang vektor.
Perbandingan kinerja antara model peluang dan model ruang vektor ditunjukkan
oleh nilai AVP pada Tabel 3 dan juga pada grafik recall-precision yang terdapat
pada Gambar 9.

17
Tabel 3 Nilai AVP pada BM25 dan VSM
Model
BM25
VSM

AVP
0.5885
0.5327

Nilai AVP di atas menunjukkan bahwa model peluang memiliki kinerja
yang lebih baik dibandingkan dengan model ruang vektor. Hal ini menunjukkan
bahwa secara rata-rata pada tiap recall point, 59% hasil temu-kembali pada model
peluang relevan dengan query. Hasil ini lebih unggul dibandingkan dengan model
ruang vektor yang memiliki nilai 53%. Perhitungan setiap query pada eleven
standard recall pada model ruang vektor dapat dilihat pada Lampiran 8.
Selain itu, pada query yang kompleks (lebih dari 2 kata) maupun query yang
sederhana (1-2 kata), model peluang juga menghasilkan lebih banyak dokumen
yang relevan sehingga menghasilkan nilai AVP yang lebih tinggi dibandingkan
dengan model ruang vektor. Perbandingan nilai AVP dari model peluang dengan
model ruang vektor pada eleven standard recall dapat dilihat pada Lampiran 5.
Karena secara garis besar hasil evaluasi pada model peluang lebih baik
dibandingkan dengan model ruang vektor, maka dapat dikatakan pula bahwa
model peluang cukup baik digunakan untuk melakukan pencarian dokumen yang
menggunakan Bahasa Indonesia.

Gambar 9 Grafik recall-precision dari BM25 dan VSM

18

SIMPULAN DAN SARAN
Simpulan
Hasil penelitian ini menunjukkan bahwa:
Telah dilakukannya proses modifikasi nilai dari tuning parameter yang ada
pada fungsi kesamaan Okapi BM25 yang terdapat pada model peluang. Nilai
AVP dari model peluang sebelum dilakukan tuning yaitu 0.5885, sedangkan
setelah dilakukan tuning nilai AVP yang terbesar yaitu 0.5901.
2 Telah dilakukan perbandingan kinerja antara model peluang dengan model
ruang vektor. Perbandingan kedua model ini ditunjukkan oleh nilai AVP dari
model peluang standar adalah sebesar 0.5885, sedangkan untuk model ruang
vektor, nilai AVP yang didapat adalah sebesar 0.5327. Dari perbandingan nilai
AVP tersebut, dapat disimpulkan bahwa model peluang memiliki kinerja yang
lebih baik dibandingkan dengan model ruang vektor untuk pencarian dokumen
yang menggunakan Bahasa Indonesia.
1

Saran
Terdapat beberapa hal yang dapat ditambahkan ataupun diperbaiki untuk
penelitian-penelitian selanjutnya, diantaranya:
1 Mengembangkan sistem dengan menggunakan dokumen yang lebih beragam,
contohnya seperti menggunakan korpus dengan dokumen yang memiliki
panjang dokumen yang berbeda-beda.
2 Melakukan pengujian dengan query yang berbeda, lebih beragam, dan terdiri
dari banyak kata.
3 Melakukan modifikasi dari tuning parameter dengan nilai k1, k3, dan b yang
lebih beragam sehingga memungkinkan didapatkannya nilai AVP yang lebih
baik.

DAFTAR PUSTAKA
Adisantoso J, Ridha A. 2004. Korpus dokumen teks bahasa Indonesia untuk
pengujian efektivitas temu-kembali informasi. Di dalam: Laporan Akhir Hibah
Penelitian SP4. Bogor (ID): Institut Pertanian Bogor.
Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. England:
Addison Wesley.
Buckley C, Salton G, Allan J. 1994. The effect of adding relevance information in
a relevance feedback environment. Di dalam: Proceedings of the 17th Annual
International ACM-SIGIR Conference on Research and Development in
Information Retrieval; 1994 Jul 3-6; Dublin, Irlandia. New York (US):
Springer-Verlag. hlm 292-300.
Chen B. 2011. Modeling in Information Retrieval. Department of Computer
Science and Information Engineering, National Taiwan Normal University.
Harman D. 1992. Relevance feedback revisited. Di dalam: Proceedings of the 15th
Annual International ACM-SIGIR Conference on Research and Development

19
in Information Retrieval; 1992 Jun 21-24; Copenhagen, Denmark. New York
(US): ACM. hlm 1-10.
Luhn HP. 1958. The automatic of literature abstracts. IBM Journal of Research
and Development. 2(2):159-165.
Manning CD, Raghavan P, Schütze H. 2008. An Introduction to Information
Retrieval. Cambridge (UK): Cambridge Univ Pr.
Robertson SE, Walker S. 1999. Okapi/Keenbow at TREC-8. Di dalam:
Proceedings of TREC-8; 1999 Nov 16-19; Maryland, United States of America.
Maryland (US): NIST. hlm 151-162.
Sudirman S, Kodar A. 2012. Penggunaan model probabilistik untuk sistem temu
kembali informasi. Di dalam: Seminar Nasional Pengaplikasian Telematika
(SINAPTIKA 2012); 2012 Jul 7; Jakarta, Indonesia. Jakarta (ID): SINAPTIKA.
hlm 25-32.

20

21

LAMPIRAN

Lampiran 1 Antarmuka implementasi

22
Lampiran 2 Gugus query dan jawaban
Kueri
Gugus Jawaban
Bencana
gatra070203, gatra161002, gatra210704, gatra301002,
kekeringan
indosiar010903, indosiar170603, indosiar220503, indosiar260803003, indosiar310504, kompas210504, kompas250803,
mediaindonesia050604-001, mediaindonesia110703,
mediaindonesia160603, mediaindonesia240503,
mediaindonesia260803, mediaindonesia270803,
mediaindonesia310503, pikiranrakyat020704, republika030903001, republika030903-002, republika070604-001,
republika090804-01, republika120804-01, republika120804-04,
republika130804-02, republika200603, republika210704-004,
republika250604, republika270503, republika270704-002,
situshijau181103-001, suarakarya000000-002-01,
suarakarya000000-021, suaramerdeka130602,
suaramerdeka190903, suarapembaruan150903,
suarapembaruan180303, suarapembaruan260703-002.
Dukungan
indosiar070504, jurnal000000-026, kompas030401,
pemerintah
kompas050303, kompas060503, kompas071100, kompas150201,
pada pertanian kompas200802, kompas300402, mediaindonesia130204,
mediaindonesia220303, pembaruan110903, poskota040804,
republika100903, republika180303, republika210902,
republika230903, republika251102-001, republika251102-002,
republika300604-001, situshijau150504-002, situshijau190303-002,
situshijau200103-002, situshijau201003-001, situshijau281003-002,
suarakarya000000-028, suaramerdeka130902,
wartapenelitian000000-002, wartapenelitian000000-007.
Flu burung
gatra220604, gatra270104-001, gatra270104-002, gatra300104,
indosiar020304, indosiar240204, mediaindonesia090204,
mediaindonesia140704, mediaindonesia200204, republika090604,
republika120704-005, republika190504-001, republika190604-005,
republika210504-001, republika290704-002, situshijau280404-004,
suarakarya000000-001, suarakarya000000-008, suarakarya000000014, suaramerdeka160204, suaramerdeka200104.
Gabah kering
indosiar180603, indosiar240703, indosiar300304, kompas 170402,
giling
kompas030502-001, kompas160704, kompas170903,
mediaindonesia250304, pikiranrakyat300604, republika040303,
republika060804-003, republika100704-003, republika100804,
republika120804-01, republika180504-002, republika210704-001,
republika230704-001, republika231202-001, republika231202-002,
republika290604-003, republika290604-007, situshijau281003-004,
suarakarya000000-007, suaramerdeka090104.

23
Lampiran 2 Lanjutan
Kueri
Gugus Jawaban
Gagal panen
gatra070203, gatra190802, gatra190902-02, gatra301002,
indosiar010504, indosiar031203, indosiar040903, indosiar050704002, indosiar070504, indosiar130504, indosiar140204,
indosiar160304, indosiar170603, indosiar180304, indosiar240703,
indosiar260803-001, indosiar260803-003, kompas030704,
kompas031003, kompas170504, mediaindonesia030603,
mediaindonesia050604-001, mediaindonesia110703,
mediaindonesia140203, mediaindonesia160603,
mediaindonesia240503, mediaindonesia310503, republika030903002, republika060804-001, republika080703, repu