Ekspansi Kueri pada Sistem Temu Kembali Informasi dengan Tesaurus dan Bobot Irisan

1

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI
INFORMASI DENGAN TESAURUS
DAN BOBOT IRISAN

MOHAMAD REZA PANCAWAN

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

2

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI
INFORMASI DENGAN TESAURUS
DAN BOBOT IRISAN

MOHAMAD REZA PANCAWAN


Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

3

ABSTRACT
MOHAMAD REZA PANCAWAN. Query Expansion on Information Retrieval System Using
Thesaurus and Intersection Weight. Supervised by AHMAD RIDHA.
Query expansion is a technique to change the intial query from user in order to improve and
optimize result of a retrieval system by getting more relevant documents. Thesaurus is a collection of
synonyms and antonyms that can be utilized to get additional terms in query expansion. We propose a

method to choose additional terms for query expansion based on insersection betweeen results from
original query and results from expanded query.
We experiment with synonyms and antonyms using 2095 documents and 20 queries that we made
for this research. To make these queries, we use words that are generally different from the words that
are contained in the document collection. The result of this research shows that the use of query
expansion can improve the performance of the retrieval system in getting more relevant documents. It
also shows that the use of two synonym terms result in the best query expansion, retrieving 98.1%
relevant documents with an average precision of 0.252, while the use of an antonym is only able to
retrieve 86.9% relevant documents with an average precision of 0.173.
Keywords: antonym, intersection weight, synonym, thesaurus, query expansion.

ii

Judul Skripsi : Ekspansi Kueri pada Sistem Temu Kembali Informasi dengan Tesaurus dan Bobot
Irisan
Nama
: Mohamad Reza Pancawan
NIM
: G64096043


Disetujui
Pembimbing

Ahmad Ridha SKom MS
NIP 19800507 200501 1 001

Diketahui
Ketua Departemen Ilmu Komputer

Dr Ir Agus Buono MSi MKom
NIP 19660702 199302 1 001

Tanggal Lulus:

iii

RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 11 November 1988 dari bapak bernama Achmad Sjamsu
Anwar Asir, dan Ibu Lisma Angrianie. Penulis merupakan anak kelima dari lima bersaudara. Pada
tahun 2003, penulis melanjutkan pendidikan di SMA Negeri 106 Jakarta dan lulus pada tahun 2006.

Pada tahun 2006, penulis melanjutkan pendidikan di Politeknik Negeri Jakarta dan lulus pada tahun
2009, dan kemudian melanjutkan pendidikan di Program Sarjana Alih Jenis Ilmu Komputer Insititut
Pertanian Bogor, Fakultas Matematika dan Ilmu Pengetahuan Alam di tahun yang sama.

iv

PRAKATA
Alhamdulillahirobbil’alamin, puji syukur penulis panjatkan ke hadirat Allah Subhanahuwata'ala
atas segala rahmat, petunjuk, nikmat, dan karunia-Nya, sehingga penulis dapat menyelesaikan
penelitian dengan judul Ekspansi Kueri pada Sistem Temu Kembali Informasi dengan Tesaurus dan
Bobot Irisan. Penulis menyadari bahwa penelitian ini tidak akan selesai tanpa bantuan beberapa pihak.
Pada kesempatan ini, penulis ingin mengucapkan rasa terima kasih yang sebesar-besarnya kepada:
 Kedua orang tua tercinta Bapak Achmad Sjamsu Anwar Asir dan Ibu Lisma Angrianie, serta
kakak-kakak tersayang Budi Mahendra Sukarno, Dwi Gita Setiowati, Tri Lestari Indriyani, dan
Dyah Senjani Retnosari. Terima kasih atas segala bantuan doa, motivasi, dan dukungan moril yang
selalu diberikan untuk penulis.
 Bapak Ahmad Ridha SKom MS selaku pembimbing. Terima kasih atas bantuan, kesabaran,
bimbingan, dukungan, serta waktu dalam proses penyelesaian penelitian ini.
 Bapak Sony Hartono Wijaya SKom MKom dan Bapak Ir Julio Adisantoso MKom selaku
penguji. Terima kasih atas segala saran dan kritik membangun yang diberikan untuk penulis.

 Rakhma Laila Bing. Terima kasih atas segala bantuan doa dan motivasi yang selalu diberikan
untuk penulis.
 Sahabat-sahabatku satu bimbingan Adi Darliansyah dan Syahrul Fathi. Terima kasih atas
kebersamaan dan semangat selama penyelesaian penelitian ini.
 Sahabat-sahabatku Selamet Subu, Rendy, Sudharmono, Renhard, Sony Muhammad, Ahmad
Aunullah dan seluruh sahabatku yang lain di alih jenis Ilkom angkatan 4. Terima kasih atas
motivasi dan kebersamaan selama ini.
 Sahabat-sahabatku di Kost Tm. Malabar 12 Cebong, Bang Oki, Anjas, Adi, Rizka. Terima kasih
atas kebersamaan dan keceriaanya selama ini.
 Auzi Asfarian. Terima kasih atas bantuan yang sudah diberikan untuk penulis.
 Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam
pelaksanaan dan penyelesaian penelitian ini, yang tidak dapat penulis sebutkan satu per satu.
Semoga Allah Subhanahuwata'ala membalas semua kebaikan kalian, amin. Akhir kata penulis
berharap semoga penelitian ini dapat bermanfaat.

Bogor, Maret 2012

Mohamad Reza Pancawan

v


DAFTAR ISI
Halaman
DAFTAR TABEL........................................................................................................................

vi

DAFTAR GAMBAR ...................................................................................................................

vi

DAFTAR LAMPIRAN ................................................................................................................

vi

PENDAHULUAN .......................................................................................................................
Latar Belakang.........................................................................................................................
Tujuan .....................................................................................................................................
Ruang Lingkup ........................................................................................................................


1
1
1
1

METODE PENELITIAN .............................................................................................................
Perolehan Dokumen Pengujian .................................................................................................
Praproses Dokumen .................................................................................................................
Pengambilan Istilah Ekspansi ...................................................................................................
Pemilihan Istilah Ekspansi........................................................................................................
Evaluasi Temu Kembali ...........................................................................................................
Lingkungan Pengembangan......................................................................................................

1
2
2
2
2
3
4


HASIL DAN PEMBAHASAN..................................................................................................... 4
Koleksi Dokumen Pengujian .................................................................................................... 4
Praproses Dokumen ................................................................................................................. 4
Ekspansi Kueri......................................................................................................................... 5
Pengambilan Istilah Ekspansi ............................................................................................... 5
Pemilihan Istilah Ekspansi .................................................................................................... 5
Evaluasi Temu Kembali ........................................................................................................... 5
Evaluasi Tanpa Ekspansi Kueri............................................................................................. 6
Evaluasi Ekspansi Kueri dengan Sinonim ............................................................................. 6
Evaluasi Ekspansi Kueri dengan Antonim............................................................................. 7
Evaluasi Perbandingan Ekspansi Kueri dengan Sinonim dan Antonim ................................... 8
Analisis Perbandingan Sistem .................................................................................................. 8
Analisis Perbandingan Sistem Tanpa Ekspansi Kueri ............................................................ 8
Analisis Perbandingan Sistem dengan Ekspansi Kueri........................................................... 9
Kelemahan Sistem ................................................................................................................... 10
KESIMPULAN DAN SARAN..................................................................................................... 10
Kesimpulan.............................................................................................................................. 10
Saran ....................................................................................................................................... 11
DAFTAR PUSTAKA .................................................................................................................. 11

LAMPIRAN ................................................................................................................................ 12

v

vi

DAFTAR TABEL
Halaman
1
2
3
4
5
6
7
8
9
10

Contoh perhitungan bobot irisan ............................................................................................. 3

Perhitungan recall dan precision............................................................................................. 3
Deskripsi koleksi dokumen ..................................................................................................... 4
Nilai recall dan AVP QE0 ...................................................................................................... 6
Nilai recall dan AVP QES1, QES2, dan QES3........................................................................ 6
Nilai recall dan AVP QE0 dan QEA ....................................................................................... 7
Nilai recall dan AVP QES2, dan QEA .................................................................................... 8
Perbandingan recall dan AVP sistem temu kembali tanpa ekspansi ......................................... 8
Perbandingan recall dan AVP sistem dengan ekspansi kueri ................................................... 9
Waktu komputasi sistem temu kembali .................................................................................. 10

DAFTAR GAMBAR
Halaman
1
2
3
4
5
6
7
8

9
10
11

Gambaran umum proses temu kembali dengan ekspansi kueri. ................................................
Dua buah hasil temu kembali yang beririsan. ..........................................................................
Hasil pembentukan kueri baru.................................................................................................
Contoh hasil perhitungan bobot irisan ....................................................................................
Kurva recall dan precision QE0..............................................................................................
Kurva recall dan precision QES1, QES2, dan QES3 dengan BM25 .........................................
Kurva recall dan precision QES1, QES2, dan QES3 dengan Proximity BM25 ........................
Kurva recall dan precision QEA. ............................................................................................
Kurva recall dan precision QEA dan QES2. ...........................................................................
Kurva recall dan precision tanpa ekspansi cosine atau IDF dan bobot irisan ............................
Kurva recall dan precision dengan ekspansi cosine atau IDF dan bobot irisan .........................

2
3
5
6
6
7
7
8
8
9
9

DAFTAR LAMPIRAN
Halaman
1 Contoh dokumen pengujian .................................................................................................... 13
2 Pasangan kueri uji dan dokumen relevan ................................................................................. 14
3 Deskripsi kueri uji .................................................................................................................. 20

vi

1

PENDAHULUAN
Latar Belakang
Sistem temu kembali informasi bertujuan
membantu pengguna mendapatkan informasi
yang sesuai dengan kebutuhannya dengan
mudah. Untuk mendapatkan informasi tersebut
sistem temu kembali membutuhkan masukan
yang disebut dengan kueri. Masalah yang sering
muncul ialah ketika kueri yang dibuat oleh
pengguna masih bersifat terlalu umum atau
ketika kata-kata yang digunakan pada kueri
tidak sama dengan kata yang umumnya terdapat
dalam koleksi dokumen. Masalah-masalah
tersebut seringkali akan mempengaruhi kinerja
sistem untuk menemukan dokumen relevan.
Salah satu cara untuk mengatasi masalahmasalah tersebut ialah dengan ekspansi kueri.
Menurut (Imran & Sharan 2009) ekspansi kueri
adalah proses penambahan kata atau frasa ke
dalam kueri asli untuk meningkatkan
kemampuan
sistem
dalam
menemukan
dokumen relevan. Menurut Aly (2008) terdapat
tiga jenis ekspansi kueri, yaitu Manual Query
Expansion (MQE), Interactive Query Expansion
(IQE), dan Automatic Query Expansion (AQE).
MQE dan IQE memerlukan keterlibatan
pengguna untuk menghasilkan kueri baru,
sedangkan AQE adalah proses ekspansi kueri
tanpa melibatkan pengguna.
Sitohang (2010) dan Samana (2011) telah
melakukan penelitian tentang ekspansi kueri
dengan melakukan penerjemahan kata dari
bahasa asing menggunakan kamus dwibahasa.
Dari penelitian Samana (2011), diketahui bahwa
penggunaan peluang bersyarat untuk memilih
istilah ekspansi relatif lebih baik dari
penggunaan nilai IDF Sitohang (2010). Akan
tetapi, penggunaan kamus dwibahasa untuk
mendapatkan istilah ekspansi dirasakan masih
kurang optimal karena istilah terjemahan yang
dihasilkan kurang baik.
Metode ekspansi kueri lain yang diharapkan
bisa lebih meningkatkan kinerja sistem temu
kembali adalah dengan tesaurus. Berbeda
dengan kamus atau kamus dwibahasa yang
berisikan makna dari suatu kata, tesaurus adalah
kumpulan kata-kata yang memiliki keterkaitan
makna satu dengan lainnya seperti sinonim dan
antonim. Rahayuni (2011) telah melakukan
penelitian tentang ekspansi kueri dengan
tesaurus dan menggunakan dua metode
pemilihan istilah ekspansi. Rahayuni (2011)
menggunakan nilai cosine similarity terbesar
sebagai metode pemilihan istilah ekspansi yang
pertama dan IDF terendah sebagai metode
pemilihan istilah yang kedua.

Nilai IDF terendah hanya digunakan ketika
kata pada kueri tidak ada dalam koleksi
dokumen, namun tetap memiliki makna dalam
tesaurus. Dari penelitian Rahayuni (2011),
diperoleh kesimpulan bahwa kinerja sistem
yang menerapkan ekspansi kueri menggunakan
tesaurus lebih baik dari penggunaan kamus
dwibahasa Samana (2011) dan pseudo
relevance feedback segmentasi dokumen
Anbiana (2009). Akan tetapi, pada penelitian
Rahayuni (2011) belum dapat diketahui apakah
istilah sinonim atau antonim yang lebih baik
digunakan untuk ekspansi kueri.
Mengacu
pada
penelitian-penelitian
sebelumnya, penelitian ini menerapkan dan
mengevaluasi penerapan automatic query
expansion dengan istilah sinonim dan antonim
yang diperoleh dari tesaurus. Penelitian ini juga
mengembangkan metode bobot irisan sebagai
metode pemilihan istilah ekspansi. Bobot irisan
adalah metode pemilihan istilah yang
memperhatikan jumlah dan peringkat dokumen
yang merupakan komplemen dari dokumen
dalam irisan. Dokumen dalam irisan ini
merupakan dokumen-dokumen yang dihasilkan
dari proses temu kembali dengan kueri awal dan
temu kembali dengan kueri awal yang sudah
ditambahkan istilah sinonim atau antonim.
Tujuan
Tujuan penelitian ini ialah:
 Menerapkan dan mengevaluasi penerapan
ekspansi kueri pada sistem temu kembali
yang menggunakan istilah sinonim dan
antonim.
 Membandingkan hasil penggunaan metode
pemilihan istilah ekspansi Rahayuni (2011)
dengan metode bobot irisan.
 Membandingkan hasil pemeringkatan BM25
dengan Proximity BM25 yang terdapat pada
framework Sphinx.
Ruang Lingkup
Ruang lingkup dari penelitian ini ialah:
 Sinonim dan antonim hanya berasal dari
tesaurus berbahasa Indonesia.
 Menggunakan dokumen dan kueri berbahasa
Indonesia.

METODE PENELITIAN
Penelitian ini dilakukan dalam lima tahap,
yaitu perolehan dokumen pengujian, praproses
dokumen, pengambilan istilah ekspansi,
pemilihan istilah ekspansi, dan evaluasi temu
kembali. Gambaran umum proses temu kembali
dengan ekspansi kueri dapat dilihat pada
Gambar 1.

2

Perolehan Dokumen Pengujian

Pengambilan Istilah Ekspansi

Penelitian ini menggunakan 2095 dokumen
pertanian. Dua ribu dokumen diperoleh dari
Laboratorium Temu Kembali Informasi
Departemen Ilmu Komputer IPB dan 95
dokumen tambahan yang dikumpulkan dari
beberapa sumber di internet. Contoh dokumen
pengujian dapat dilihat pada Lampiran 1.

Pengambilan isitilah ekspansi bertujuan
mendapatkan istilah sinonim dan antonim dari
setiap kata pada kueri. Istilah sinonim dan
antonim ini diperoleh dari tesaurus berbahasa
Indonesia.

Praproses Dokumen
Tahap awal dari praproses dokumen ialah
tokenisasi. Tokenisasi adalah proses untuk
mendapatkan seluruh karakter dari seluruh
koleksi dokumen yang sudah dibersihkan dari
tanda baca pemisah, seperti titik, koma, dan
whitespace. Proses tokenisasi diikuti dengan
proses pembuangan kata yang tidak layak untuk
dijadikan penciri atau stopwords. Kemudian,
tahapan terakhir adalah proses pembobotan
untuk menentukan tingkat kepentingan seluruh
kata unik hasil tokenisasi.
Dokumen
Kueri Awal
Ekspansi
Kueri

Pengambilan
Istilah Ekspansi

Praproses
Dokumen

Pemilihan Istilah Ekspansi
Pemilihan istilah ekspansi bertujuan
memilih istilah sinonim atau antonim yang akan
digunakan untuk ekspansi kueri. Pemilihan
istilah dilakukan menggunakan metode bobot
irisan yang terdiri atas dua tahap. Tahap awal
pada metode bobot irisan ialah membandingkan
similiarity antara kueri awal dan kueri awal
yang sudah ditambah istilah sinonim atau
antonim, berdasarkan hasil temu kembalinya.
Jika qa adalah kueri awal dan qb adalah kueri
awal yang sudah ditambah istilah, sim(qa, qb)
dapat dihitung dengan menjumlahkan nilai
similarity dokumen-dokumen hasil temu
kembali qb yang merupakan komplemen dari
hasil temu kembali (qa ∩ qb), dan dibagi dengan
total nilai similarity semua dokumen hasil temu
kembali qb. Mengacu dari persamaan di atas,
perhitungan awal bobot irisan dapat dirumuskan
sebagai berikut:
sim(qa,qb) =
dengan:

Pemilihan
Istilah
Ekspansi

Inverted
Index

Kueri
Baru

Temu Kembali
Dokumen

Hasil Temu
Kembali

Evaluasi Temu
Kembali

Gambar 1 Gambaran umum proses temu
kembali dengan ekspansi kueri.

Ta
Tb
(Ta ∩ Tb)
Tb ∁ (Ta∩Tb)
sim(di, qb)
sim(di, qb)

di ∈ Tb ∁ (Ta ∩ Tb) sim di, qb
dj ∈ Tb sim dj, qb

.(1)

:.adalah hasil temu kembali qa
:.adalah hasil temu kembali qb
:.dokumen irisan hasil temu
:.kembali qa dan qb
:.dokumen Tb yang merupakan
:.komplemen dari irisan Ta dan
:.Tb
:.nilai similarity dokumen ke-i
:.pada Tb yang merupakan
:.anggota irisan Ta dan Tb
:.similarity dokumen ke-j dari Tb

Persamaan (1) akan menghasilkan nilai
sim(qa, qb) dengan rentang nilai sama dengan
nol dan kurang dari satu. Nilai sim(qa, qb) tidak
mungkin bernilai satu karena penelitian ini
menggunakan operator OR untuk setiap kata
pada kueri. Penggunaan operator OR membuat
hasil temu kembali kueri awal yang sudah
ditambahkan suatu istilah pasti juga memiliki
dokumen-dokumen hasil temu kembali dari
kueri awal sebelum ditambahkan istilah.
Sementara itu, nilai sim(qa, qb) sama dengan
nol menandakan bahwa kueri yang sudah
ditambahkan dengan suatu istilah menghasilkan
dokumen yang benar-benar sama dengan hasil

3

temu kembali kueri awal. Oleh karena itu,
istilah yang dipilih untuk ekspansi kueri adalah
istilah yang memiliki nilai similarity terendah
atau istilah dengan nilai dissimilarity terbesar.
Proses untuk mencari istilah dengan nilai
dissimilarity terbesar ini merupakan tahap akhir
metode bobot irisan yang dapat dihitung dengan
persamaan (2).

5
6
9
10
11
12
13

dissim (qa, qb) = 1 - sim(qa, qb)............(2)

1
2
3
4

dengan:
sim(qa, qb): adalah nilai similarity qa dan qb
Tingginya nilai dissimilarity menunjukkan
bahwa penggunaan istilah tambahan dapat
memberikan banyak perbedaan pada hasil temu
kembali awal. Perbedaan-perbedaan tersebut
diharapkan dapat meningkatkan peluang
terambilnya dokumen relevan. Tabel 1
menunjukkan hasil perhitungan bobot irisan
dengan persamaan (1) dan (2) untuk Gambar 2.
Tabel 1 Contoh perhitungan bobot irisan
Ta
da
db
de

Tb
(similarity)
dg (1)
da (0.9)
db (0.8)
de (0.7)
dr (0.6)

Ta ∩ Tb

dissim(qa,qb)

da
db
de

0.6

1
2
3
4

BM25=0
foreach(inmatching_keywords){
n=total_matching_docs(keyword)
N=total_documents_collection

da

dg

db
de

dr

}
Normalization:
BM25=0.5+BM25
/(2*num_keywords(query))

Pseudo-code pemeringkatan BM25 adalah:

5

SPH_BM25 Ranker:
field_weights = 0
foreach(field inmatching_fields)
field_weights +=user_weight
(field)
weight=field_weights*1000
+integer(BM25*999)

Berbeda dengan metode pemeringkatan
BM25, metode pemeringkatan Proximity BM25
adalah
metode
pemeringkatan
yang
menggabungkan faktor Proximity dan faktor
BM25. Proximity hanya memperhatikan urutan
kata yang terdapat pada kueri dan dokumen
sehingga semakin mirip urutan kata-kata yang
dalam kueri dengan urutan kata-kata yang ada
dalam dokumen maka nilai Proximity-nya
menjadi lebih besar. Adapun pseudo-code
metode pemeringkatan Proximity BM25 adalah:
1
2
2
3
4

Metode bobot irisan memerlukan nilai
similarity antara dokumen dan kueri. Nilai
similarity dokumen dan kueri ini diperoleh dari
hasil pemeringkatan BM25 dan Proximity
BM25 yang terdapat pada framework Sphinx,
yang sama-sama menggunakanfaktor BM25
dalam proses perhitungannya. Adapun pseudocode untuk memperoleh faktor BM25 adalah:

k1=1.2
TF=occurrence_count(keyword)
IDF=log((N-n+1)/n)/log(1+N)
BM25= BM25 + TF*IDF/(TF+k1)

5
6
7

Proximity Value:
doc_phrase_weight = 0
foreach (field in
matching_fields)
{
field_phrase_weight =
max_common_subsequence_length
(query, field)
doc_phrase_weight +=
user_weight (field) *
field_phrase_weight
}
SPH_RANK_PROXIMITY_BM25:
weight = doc_phrase_weight*1000
+ integer(doc_bm25*999)

Evaluasi Temu Kembali
Metode evaluasi yang digunakan ialah recall
dan precision. Recall merupakan rasio dari
jumlah dokumen relevan yang ditemukembalikan terhadap jumlah seluruh dokumen
relevan yang ada dalam koleksi dokumen.
Precision adalah rasio dari jumlah dokumen
relevan yang ditemukembalikan terhadap
jumlah seluruh dokumen yang ditemukembalikan. Perhitungan recall dan precision
dapat diilustrasikan pada Tabel 2.
Tabel 2 Perhitungan recall dan precision
Retrieved
Non Retrieved

Gambar 2 Dua buah hasil temu kembali
yang beririsan.

dengan:

Relevant
tp
fn

Non Relevant
fp
tn

4

R=

|tp|

...............................................(3)
tp + |fn|
|tp|
P=
...............................................(4)
tp + |fp|
Evaluasi dilakukan dengan 20 pasang kueri
dan dokumen relevan yang dibuat khusus untuk
penelitian ini. Daftar pasangan kueri uji dan
dokumen relevan dapat dilihat pada Lampiran 2,
sedangkan Lampiran 3 berisikan deskripsi dari
kueri uji. Nilai recall dan precision yang
diperoleh dari seluruh kueri uji kemudian
diinterpolasi maksimum dengan 11 tingkat
recall, yaitu 0.0, 0.1, 0.2, 0.3, 0,4, 0.5, 0.6, 0.7,
0.8, 0.9, dan 1.0. Hasil interpolasi maksimum
kemudian dirata-ratakan untuk mendapatkan
nilai average precision sistem. Adapun 5 jenis
evaluasi yang dilakukan pada penelitian ini
adalah:
 QE0, yaitu evaluasi temu kembali tanpa
menggunakan ekspansi kueri.
 QES1, yaitu evaluasi temu kembali dengan
menambahkan satu istilah sinonim dengan
nilai bobot irisan terendah.
 QES2, yaitu evaluasi temu kembali dengan
menambahkan dua istilah sinonim dengan
nilai bobot irisan terendah.
 QES3, yaitu evaluasi temu kembali dengan
menambahkan tiga istilah sinonim dengan
nilai bobot irisan terendah.
 QEA, yaitu evaluasi temu kembali dengan
menambahkan satu istilah antonim dengan
nilai bobot irisan terendah.
Selain melakukan evaluasi terhadap hasil
temu kembali dengan ekspansi kueri, pada
penelitian ini juga dilakukan analisis
perbandingan metode pemilihan istilah ekspansi
kueri Rahayuni (2011) yang menggunakan
cosine similarity atau IDF dengan metode bobot
irisan.
Lingkungan Pengembangan
Perangkat lunak yang digunakan dalam
penelitian ialah:





Windows 7 Ultimate sebagai sistem operasi.
XAMPP-win32-1.7.2 sebagai web server.
Notepad ++ 5.7 sebagai text editor.
Sphinx search 2.0.1 sebagai framework
search engine.
 Microsoft Excel 2007, sebagai aplikasi
untuk evaluasi sistem.
Perangkat keras yang digunakan dalam
penelitian ialah:
 AMD Turion-X2 2.2 GHz.

 RAM 3 GB.
 Harddisk dengan kapasitas 250 GB.

HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
Koleksi dokumen yang digunakan dalam
penelitian ini sebanyak 2095 dokumen
pertanian. Dua ribu dokumen diperoleh dari
Laboratorium Temu Kembali Informasi
Departemen Ilmu Komputer IPB dan 95
dokumen lainnya dikumpulkan dari berbagai
sumber di internet. Tabel 3 merupakan deskripsi
koleksi dokumen uji.
Tabel 3 Deskripsi koleksi dokumen
Keterangan
Ukuran seluruh dokumen
Ukuran rata-rata dokumen
Ukuran dokumen terbesar
Ukuran dokumen terkecil

Ukuran (byte)
6 894 430
3 290.89
138 539
412

Koleksi dokumen yang digunakan berformat
teks (.txt) dengan struktur tag XML pada setiap
dokumennya. Tag XML yang terdapat dalam
koleksi dokumen pengujian ialah:
 , mewakili keseluruhan
dokumen. Di dalamnya juga terdapat
beberapa tag lain yang mendeskripsikan isi
dokumen secara lebih jelas.
 , mewakili ID
dokumen. ID yang dipakai merupakan
kombinasi dari sumber berita, tanggal, dan
urutan berita dari tanggal yang sama.
 , mewakili judul
dokumen.

,
mewakili
penulis dokumen.
 , mewakili tanggal
penulisan atau tanggal terbit dokumen.
 , mewakili isi dokumen.
Praproses Dokumen
Praproses dokumen melibatkan beberapa
proses yaitu tokenisasi, pembuangan stopwords,
dan pembobotan. Praproses dokumen dilakukan
secara otomatis menggunakan fungsi indexing
Sphinx.
Proses
tokenisasi
bertujuan
mendapatkan token atau kata unik dari seluruh
koleksi dokumen yang sudah dipisahkan dari
karakter pemisah, seperti titik, koma, dan
whitespace.
Praproses
dokumen
hanya
dilakukan pada bagian dokumen yang diapit
oleh tag ,
, dan .

5

Proses tokenisasi diikuti dengan proses
pembuangan
stopwords.
Pembuangan
stopwords adalah proses untuk membuang token
atau kata yang dianggap kurang memiliki arti
dan tidak tepat untuk dijadikan penciri suatu
dokumen, seperti kata sambung, kata depan,
atau kata singkatan. Proses pembuangan
stopwords dilakukan dengan cara mencocokan
token hasil tokenisasi dengan kata-kata yang
ada dalam stoplist. Apabila token tersebut ada
dalam stoplist, token akan dihapus. Hasil proses
tokenisasi dan pembuangan stopwords adalah
sejumlah token dan frekuensi kemunculannya
(tf) pada tiap-tiap dokumen serta jumlah
dokumen yang mengandung token tersebut (df).
Nilai (df) kemudian digunakan untuk
menghasilkan nilai (idf). Nilai (tf) maupun (idf)
dari masing-masing token digunakan sebagai
komponen pembobot pada pembobotan BM25.
Ekspansi Kueri
Proses ekspansi kueri yang diterapkan pada
penelitian ini terdiri atas dua tahap, yaitu
pengambilan istilah ekspansi dan pemilihan
istilah ekspansi.
 Pengambilan Istilah Ekspansi
Pengambilan istilah ekspansi bertujuan
untuk mendapatkan istilah sinonim atau
antonim dari tesaurus. Terdapat dua kondisi
pengambilan istilah ekspansi yaitu pengambilan
istilah sinonim dan pengambilan istilah
antonim. Pengambilan istilah sinonim dilakukan
dengan mengikuti Algoritme 1.
Algoritme 1.
1
2
3
4
5

for each (term_in_query){
get synonym(term)from_thesaurus
if(!synonym(term)in_stoplist))
synonym_list=synonym(term)
}

Algoritme 1 menerangkan bahwa istilah
sinonim diperoleh dari setiap kata pada kueri
awal. Istilah sinonim yang digunakan adalah
istilah yang tidak ada dalam stoplist. Istilah
sinonim yang terpilih kemudian diapit dengan
tanda kutip agar istilah sinonim yang terdiri dari
dua kata dianggap menjadi satu kata. Sementara
itu, proses pengambilan istilah antonim
dilakukan dengan mengikuti Algoritme 2.
Algoritme 2.
1
2
3
4
5
6

for each (term_in_query){
get synonym(term)from_thesaurus
get antonym(synonym(term))
from_thesaurus
if(!antonim(term)in_stoplist))
antonym_list
= tidak .antonym(term)
}

Algoritme 2 menerangkan bahwa istilah
antonim diperoleh dari semua istilah sinonim
yang diperoleh dari setiap kata pada kueri awal.
Istilah antonim yang digunakan adalah istilah
yang tidak terdapat dalam stoplist. Istilah
antonim yang terpilih kemudian dimodifikasi
dengan menambahkan kata “tidak” sebelum
setiap antonim. Kemudian, istilah antonim yang
sudah ditambahkan kata “tidak” ini diapit
dengan tanda kutip agar istilah tersebut
dianggap menjadi satu kata. Penambahan kata
“tidak” sebelum istilah antonim ini bertujuan
agar istilah antonim memiliki makna yang sama
dengan kata yang ada pada kueri awal sehingga
tidak mengubah konteks pencarian.
 Pemilihan Istilah Ekspansi
Istilah-istilah yang sudah diperoleh pada
tahap pengambilan istilah ekspansi digunakan
untuk membentuk beberapa kueri baru. Kueri
baru dibentuk dengan cara menambahkan istilah
sinonim atau antonim ke dalam kueri awal.
Kemudian, dilakukan proses temu kembali
dengan semua kueri baru tersebut untuk
memperoleh
dokumen-dokumen
yang
digunakan dalam proses perhitungan bobot
irisan dengan persamaan (1) dan (2). Gambar 3
adalah contoh hasil pembentukan kueri baru dan
Gambar 4 adalah contoh hasil perhitungan
bobot irisan.
Istilah yang dipilih adalah istilah yang
memiliki nilai dissimilarity terbesar yang berada
dalam rentang nilai sama dengan nol dan kurang
dari satu. Nilai dissimilarity yang rendah
menandakan bahwa istilah tersebut tidak dapat
memberikan banyak perbedaan pada hasil temu
kembali awal. Sementara itu, nilai dissimilarity
yang tinggi menandakan bahwa istilah tersebut
mampu menghasilkan beberapa dokumen baru
yang sebelumnya tidak ditemukan.
Evaluasi Temu Kembali
Evaluasi
temu
kembali
bertujuan
mengetahui kinerja sistem temu kembali
sebelum dan setelah menerapkan ekspansi
kueri. Evaluasi juga bertujuan membandingkan
hasil temu kembali yang menggunakan metode
Kueri awal: sawah rusak berat
Kueri baru dengan sinonim:
(sawah|rusak|berat|”lahan”)
(sawah|rusak|berat|”sulit”)
(sawah|rusak|berat|”hancur”)
Kueri baru dengan antonim:
(sawah|rusak|berat|”tidak mudah”)

Gambar 3 Hasil pembentukan kueri baru.

6

Array
(
[0] => Array(
[bobot] => 0.87401129
[istilah] => lahan
)
[1] => Array(
[bobot] => 0.96099290
[istilah] => sulit
)
[2] => Array(
[bobot] => 0.97240143
[istilah] => hancur
)
[3] => Array(
[bobot] => 1
[istilah] => ladang
)
)

Gambar 4 Contoh hasil perhitungan
bobot irisan.
pemeringkatan BM25 dan Proximity BM25.
 Evaluasi Tanpa Ekspansi Kueri
Evaluasi tanpa ekspansi kueri (QE0)
dilakukan dengan membandingkan nilai recall
dan AVP dari metode pemeringkatan BM25 dan
Proximity BM25 dengan menggunakan 20 kueri
uji. Hasil evaluasi QE0 ditunjukkan pada Tabel
4.
Tabel 4 Nilai recall dan AVP QE0
Metode
QE0 (BM25)
QE0 (Proximity BM25)

Recall
0.89
0.89

AVP
0.168
0.175

Dari Tabel 4, dapat diketahui bahwa sistem
temu kembali tanpa ekspansi yang digunakan
pada penelitian ini mampu menghasilkan nilai
recall sebesar 0.89. Hal ini menunjukkan bahwa
sistem mampu mengembalikan 89% dokumen
relevan dari seluruh dokumen relevan yang ada
dalam koleksi. Dari Tabel 4, juga dapat
diketahui bahwa nilai AVP yang dihasilkan oleh
pemeringkatan Proximity BM25 lebih tinggi
4.41% dari AVP yang dihasilkan oleh
pemeringkatan BM25.
Proximity BM25 akan menghasilkan bobot
atau nilai similarity yang lebih tinggi untuk
kueri-kueri yang memiliki pola urutan kata yang
sama dengan urutan kata yang ada dalam
koleksi dokumen. Untuk beberapa kueri uji,
Proximity BM25 mampu mengembalikan
dokumen relevan dengan peringkat yang lebih
baik daripada pemeringkatan BM25, sehingga
nilai AVP yang dihasilkan oleh pemeringkatan
Proximity BM25 menjadi sedikit lebih baik dari

pemeringkatan BM25. Gambar 5 adalah kurva
recall dan precision dari QE0.
 Evaluasi Ekspansi Kueri dengan Sinonim
Evaluasi ekspansi kueri dengan 1 sinonim
(QES1), 2 sinonim (QES2), dan 3 sinonim
(QES3) dilakukan untuk melihat pengaruh
penggunaan istilah sinonim untuk ekspansi
kueri.
Evaluasi
dilakukan
dengan
membandingkan nilai recall dan AVP dari
metode pemeringkatan BM25 dan Proximity
BM25 dengan menggunakan 20 kueri uji. Hasil
evaluasi QES1, QES2, dan QES3 ditunjukkan
pada Tabel 5.
Tabel 5 Nilai recall dan AVP QES1, QES2,
dan QES3
Metode
QES1 (BM25)
QES2 (BM25)
QES3 (BM25)
QES1 (Proximity BM25)
QES2 (Proximity BM25)
QES3 (Proximity BM25)

Recall
0.945
0.981
0.985
0.945
0.981
0.985

AVP
0.225
0.230
0.220
0.212
0.224
0.233

Dari Tabel 5, dapat diketahui bahwa
semakin banyak istilah sinonim yang
ditambahkan dalam kueri awal, akan semakin
meningkatkan recall. Peningkatan recall ini
disebabkan oleh adanya dokumen-dokumen
relevan yang baru ditemukan setelah
menggunakan
istilah
ekspansi.
Jika
dibandingkan dengan hasil temu kembali QE0,
peningkatan nilai recall untuk QES1 ialah
sebesar 6.60%, 10.66% untuk QES2, dan
11.05% untuk QES3. Selain meningkatkan
recall, ekspansi kueri dengan istilah sinonim
juga mampu meningkatkan nilai AVP. Jika
dibandingkan dengan nilai AVP QE0 dari
masing-masing
metode
pemeringkatan,
1
0.9
0.8
0.7
0.6
0.5

P
r
e
c
i
s
i 0.4
o 0.3
n 0.2
0.1

QE0-BM25
QE0-Proximity BM25

0
0 0.1 0.2 0.3 0.40.5 0.6 0.7 0.8 0.9 1
Recall
Gambar 5 Kurva recall dan precision
QE0.

7

peningkatan AVP untuk metode pemeringkatan
BM25 ialah sebesar 34.01% untuk QES1,
36.71% untuk QES2, dan 31.30% untuk QES3.
Sementara itu, peningkatan AVP untuk metode
pemeringkatan Proximity BM25 ialah sebesar
20.74% untuk QES1, 27.79% untuk QES2, dan
32.75% untuk QES3.
Peningkatan AVP yang terjadi pada ketiga
tipe ekspansi kueri sinonim ini disebabkan oleh
adanya istilah-istilah ekspansi yang mampu
memperbaiki peringkat dokumen relevan untuk
menempati peringkat yang lebih tinggi dari
peringkat sebelumnya. Dari Tabel 5, juga
diketahui
bahwa
QES3
dari
metode
pemeringkatan BM25 memiliki nilai recall yang
paling tinggi jika dibandingkan dengan QES1
dan QES2, namun nilai AVP yang dihasilkan
QES3 justru lebih rendah dari nilai AVP QES2.
Hal ini disebabkan oleh jumlah dokumen tidak
relevan yang ikut terambil dalam proses temu
kembali QES3 lebih banyak dan di antaranya
juga menempati peringkat yang lebih tinggi dari
dokumen relevan.
Pada metode pemeringkatan Proximity
BM25, diketahui bahwa semakin banyak jumlah
istilah ekspansi ternyata dapat semakin
meningkatkan nilai AVP. Hal ini disebabkan
oleh adanya istilah-istilah ekspansi yang mampu
meningkatkan nilai Proximity sehingga dapat
memperbaiki peringkat dokumen relevan untuk
menempati peringkat yang lebih tinggi.
Berdasarkan pada peningkatan AVP yang
terjadi pada kedua metode pemeringkatan ini,
metode pemeringkatan BM25 dapat dikatakan
sedikit
lebih
baik
daripada
metode
pemeringkatan Proximity BM25. Metode
pemeringkatan BM25 mampu meningkatkan
nilai AVP sampai dengan 36.71% (QES2),
sedangkan metode Proximity BM25 hanya
1
0.9
0.8
0.7
0.6
0.5

P
r
e
c
i
s
i 0.4
o 0.3
n 0.2
0.1

QE1-BM25
QE2-BM25
QE3-BM25

0
0 0.1 0.20.3 0.40.5 0.6 0.7 0.80.9 1
Recall
Gambar 6 Kurva recall dan precision
QES1, QES2, dan QES3
dengan BM25.

mampu meningkatkan nilai AVP sampai dengan
32.75% (QES3). Gambar 6 adalah kurva recall
dan precision QES1, QES2, dan QES3 dengan
pemeringkatan BM25. Gambar 7 adalah kurva
recall dan precision QES1, QES2, dan QES3
dengan pemeringkatan Proximity BM25.
 Evaluasi Ekspansi Kueri dengan Antonim
Evaluasi ekspansi kueri dengan istilah
antonim
(QEA)
dilakukan
dengan
membandingkan nilai recall dan AVP dari
metode pemeringkatan BM25 dan Proximity
BM25 dengan menggunakan 16 kueri uji. Istilah
antonim yang digunakan adalah istilah antonim
yang sudah ditambahkan kata “tidak” pada
awalan antonim. Penambahan kata “tidak” pada
setiap awalan antonim bertujuan agar istilah
tersebut memiliki makna yang sama dengan
kata pada kueri awal sehingga tidak merubah
konteks pencarian. Tabel 6 menunjukkan hasil
evaluasi QE0 dan QEA dengan 16 kueri uji.
Tabel 6 Nilai recall dan AVP QE0 dan QEA
Metode
QE0 (BM25)
QEA (BM25)
QE0 (Proximity BM25)
QEA (Proximity BM25)

Recall
0.867
0.869
0.867
0.869

AVP
0.173
0.173
0.177
0.165

Dari Tabel 6, dapat diketahui bahwa
penambahan istilah antonim untuk ekspansi
kueri hanya mampu meningkatkan recall
sebesar 0.21%. Dari Tabel 6, juga dapat
diketahui bahwa penggunaan Proximity BM25
pada ekspansi kueri antonim justru menurunkan
nilai AVP sebesar 4.59%. Hal ini disebabkan
oleh adanya dokumen-dokumen tidak relevan
yang memiliki nilai similarity yang lebih tinggi
sehingga
dokumen-dokumen
tersebut
1
0.9
0.8
0.7
0.6
0.5

P
r
e
c
i
s
i 0.4
o 0.3
n 0.2

QE1- Proximity BM25
QE2- Proximity BM25
QE3- Proximity BM25

0.1
0
0 0.1 0.20.3 0.4 0.5 0.60.7 0.8 0.9 1
Recall
Gambar 7 Kurva recall dan precision
QES1, QES2, dan QES3
dengan Proximity BM25.

8

menempati peringkat yang lebih tinggi dari
dokumen relevan. Gambar 8 adalah kurva recall
dan precision QEA dengan pemeringkatan
BM25 dan Proximity BM25.
 Evaluasi Perbandingan Ekspansi
dengan Sinonim dan Antonim

Kueri

Evaluasi perbandingan ekspansi kueri
bertujuan mengetahui penggunaan istilah
sinonim atau antonim yang lebih baik
digunakan untuk ekspansi kueri. Tipe ekspansi
sinonim dan antonim yang dibandingkan adalah
QES2 dan QEA dengan metode pemeringkatan
BM25. Evaluasi perbandingan dilakukan
dengan membandingkan nilai recall dan AVP
dari 16 kueri uji. Perbandingan nilai recall dan
AVP dari hasil evaluasi ekspansi sinonim dan
antonim ditunjukkan pada Tabel 7.
Tabel 7 Nilai recall dan AVP QES2, dan QEA
Metode
QES2
QEA

Recall
0.981
0.869

AVP
0.252
0.173

Dari Tabel 7, dapat diketahui bahwa
penggunaan dua istilah sinonim (QES2) untuk
ekspansi kueri lebih baik daripada penggunaan
istilah antonim (QEA). Jika dibandingkan
dengan hasil evaluasi QE0, QES2 dapat
meningkatkan nilai recall dan juga AVP
masing-masing sebesar 13.12% dan 45.93%,
sedangkan QEA hanya dapat meningkatkan
nilai recall sebesar 0.21%. Perbedaan tersebut
disebabkan oleh jumlah dokumen yang
dihasilkan oleh QES2 dan QEA tidak sama.
Pada umumnya, koleksi dokumen lebih banyak
mengandung istilah sinonim daripada istilah
antonim yang sudah ditambahkan kata „tidak‟ di
awal antonim. Hal tersebut membuat jumlah
dokumen tambahan yang dihasilkan oleh istilah
1
0.9
0.8
0.7
0.6
0.5

QEA-BM25

sinonim menjadi lebih banyak. Hasil temu
kembali yang lebih banyak inilah yang
membuat metode ekspansi kueri dengan istilah
sinonim memiliki peluang yang lebih besar
untuk mendapatkan dokumen relevan lebih
banyak. Gambar 9 adalah kurva recall dan
precision QEA dan QES2.
Analisis Perbandingan Sistem
Analisis perbandingan sistem bertujuan
membandingkan hasil temu kembali dari sistem
yang digunakan Rahayuni (2011) dengan sistem
yang digunakan pada penelitian ini. Terdapat
dua kondisi analisis perbandingan, yaitu
perbandingan sistem tanpa ekspansi kueri dan
perbandingan sistem dengan ekspansi kueri.
 Analisis Perbandingan Sistem Tanpa
Ekspansi Kueri
Analisis perbandingan sistem tanpa ekspansi
kueri bertujuan membandingkan kinerja kedua
sistem sebelum menerapkan ekspansi kueri.
Analisis perbandingan dilakukan dengan
membandingkan nilai recall dan AVP dari 20
kueri uji yang dihasilkan oleh masing-masing
sistem. Tabel 8 menunjukkan perbandingan
nilai recall dan AVP yang dihasilkan oleh
kedua sistem tanpa ekspansi kueri.
Tabel 8 Perbandingan recall dan AVP sistem
temu kembali tanpa ekspansi
Metode
Tanpa ekspansi
cosine atau IDF
Tanpa ekspansi
bobot irisan

1
0.9
0.8
0.7
0.6
0.5

0.1
0

0

QEA-Proximity BM25

0 0.1 0.2 0.3 0.4 0.5 0.60.7 0.8 0.9 1
Recall
Gambar 8 Kurva recall dan precision
QEA.

AVP

0.176

0.081

0.89

0.168

Dari Tabel 8, dapat diketahui bahwa sistem
temu kembali tanpa ekspansi yang digunakan
pada penelitian ini mampu memperoleh nilai

P
r
e
c
i
s
i 0.4
o 0.3
n 0.2
0.1

P
r
e
c
i
s
i 0.4
o 0.3
n 0.2

Recall

QEA

QES2

0 0.1 0.20.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Recall
Gambar 9 Kurva recall dan precision
QEA dan QES2.

9

recall dan AVP yang lebih baik daripada sistem
yang digunakan Rahayuni (2011), dengan
perbedaan nilai recall sebesar 0.714 dan AVP
sebesar 0.087. Faktor utama yang menyebabkan
terjadinya perbedaan tersebut ialah pemrosesan
kueri.
Pada sistem temu kembali tanpa ekspansi
Rahayuni (2011), dokumen yang dianggap
relevan adalah dokumen yang benar-benar
mengandung semua kata dalam kueri, atau
dengan kata lain terdapat operator AND pada
setiap kata di dalam kueri. Penggunaan operator
AND mengakibatkan hasil temu kembali yang
dihasilkan menjadi lebih sedikit dan terbatas.
Sementara itu, penelitian ini menganggap
dokumen relevan adalah dokumen yang
mengandung minimal satu atau seluruh kata di
dalam kueri, atau dengan kata lain terdapat
operator OR untuk setiap kata pada kueri. Hasil
temu kembali yang lebih banyak ini yang
membuat sistem temu kembali tanpa ekspansi
pada penelitian ini mampu menghasilkan nilai
recall dan AVP yang lebih tinggi dari sistem
temu kembali tanpa ekspansi Rahayuni (2011).
Gambar 10 adalah kurva recall dan precision
hasil temu kembali tanpa ekspansi Rahayuni
(2011) dan temu kembali tanpa bobot irisan.
 Analisis Perbandingan Sistem dengan
Ekspansi Kueri
Analisis perbandingan sistem dengan
ekspansi kueri bertujuan untuk membandingkan
kinerja kedua sistem setelah menerapkan
ekspansi kueri dengan metode pemilihan istilah
ekspansi yang berbeda. Analisis perbandingan
dilakukan dengan membandingkan nilai recall
dan AVP dari 20 kueri uji. Tipe ekspansi kueri
yang digunakan untuk perbandingan adalah
QES2 dengan metode pemeringkatan BM25.
Adapun tipe ekspansi kueri Rahayuni (2011)
yang digunakan untuk perbandingan adalah
1
0.9
0.8
0.7
0.6
0.5

Tanpa Ekspansi Cosine atau IDF

ekspansi kueri dengan penambahan satu istilah.
Tabel 9 menunjukkan perbandingan nilai recall
dan AVP dari kedua sistem setelah menerapkan
ekspansi kueri.
Tabel 9 Perbandingan recall dan AVP sistem
dengan ekspansi kueri
Metode
Ekspansi tesaurus
cosine atau IDF
Ekspansi tesaurus
bobot irisan

1
0.9
0.8
0.7
0.6
0.5

0.1
0

0

Tanpa Ekspansi Bobot Irisan

0 0.1 0.20.3 0.4 0.5 0.60.7 0.8 0.9 1
Recall
Gambar 10 Kurva recall dan precision
tanpa ekspansi cosine atau
IDF dan bobot irisan.

AVP

0.276

0.099

0.981

0.230

Dari Tabel 9, dapat diketahui bahwa
ekspansi kueri yang diterapkan oleh kedua
sistem sama-sama mampu meningkatkan nilai
recall dan juga AVP. Sistem temu kembali
dengan ekspansi kueri Rahayuni (2011) mampu
meningkatkan nilai recall dan AVP masingmasing sebesar 57.10% dan 22.54%, sedangkan
sistem temu kembali dengan ekspansi kueri
pada penelitian ini mampu meningkatkan nilai
recall dan AVP masing-masing sebesar 10.22%
dan 36.71%. Gambar 11 adalah kurva recall dan
precision untuk hasil temu kembali ekspansi
kueri Rahayuni (2011) dan bobot irisan.
Rahayuni (2011) menggunakan cosine
similarity terbesar sebagai metode pertama
untuk memilih istilah ekspansi. Pemilihan
istilah dengan cosine similarity cukup baik,
karena cosine similarity memperhatikan pola
dan panjang vektor istilah dari semua koleksi
dokumen. Semakin mirip kedua vektor, maka
nilai similarity akan semakin besar, namun
metode ini hanya dapat dilakukan ketika kata
dalam kueri ada dalam koleksi dokumen. Jika
kata dalam kueri tidak ada dalam koleksi
dokumen, namun masih memiliki makna di
tesaurus, istilah ekspansi dipilih berdasarkan
nilai IDF terendah. Penggunaan nilai IDF
terendah sebagai pelengkap seringkali akan

P
r
e
c
i
s
i 0.4
o 0.3
n 0.2
0.1

P
r
e
c
i
s
i 0.4
o 0.3
n 0.2

Recall

Ekspansi Kueri Cosine atau IDF
Ekspansi Kueri Bobot Irisan

0 0.1 0.20.3 0.40.5 0.60.7 0.80.9 1
Recall
Gambar 11 Kurva recall dan precision
dengan ekspansi cosine atau
IDF dan bobot irisan.

10

menurunkan kinerja sistem. Nilai IDF adalah
nilai yang menunjukkan tingkat kepentingan
suatu istilah di dalam koleksi dokumen. Nilai
IDF yang tinggi menandakan bahwa istilah
tersebut hanya berada di beberapa dokumen
tertentu dan baik untuk dijadikan penciri
dokumen. Nilai IDF yang rendah menandakan
bahwa istilah tersebut banyak terdapat di
koleksi dokumen, dan kurang baik untuk
dijadikan penciri dokumen.
Penelitian ini menggunakan metode bobot
irisan untuk memilih istilah ekspansi. Metode
bobot
irisan
memilih
istilah
dengan
mempertimbangkan keberagaman hasil temu
kembali dan nilai similarity dokumen yang
dihasilkan oleh suatu kueri. Nilai similarity
dokumen digunakan untuk memperhatikan
posisi dan peringkat dokumen yang terdapat di
dalam komplemen irisan. Kueri-kueri yang
menghasilkan dokumen komplemen irisan pada
peringkat yang tinggi semakin berpeluang untuk
terpilih sebagai istilah ekspansi. Posisi
peringkat yang tinggi menandakan bahwa
beberapa dokumen komplemen dari irisan
tersebut lebih relevan dari dokumen yang ada
dalam irisan. Jadi, semakin berbeda (dissimilar)
hasil temu kembali kueri awal sdengan kueri
awal setelah ditambah suatu istilah, nilai bobot
irisannya akan semakin besar dan istilah
tersebut cocok untuk dijadikan istilah ekspansi.
Dari peningkatan AVP yang dihasilkan oleh
kedua sistem, metode bobot irisan untuk
memilih istilah ekspansi dapat dikatakan relatif
lebih baik dari metode pemilihan istilah
ekspansi cosine similarity atau IDF Rahayuni
(2011). Medode bobot irisan mampu
meningkatkan nilai AVP sampai dengan
36.71%, sedangkan metode cosine atau IDF
Rahayuni (2011) hanya mampu meningkatkan
nilai AVP sebesar 22.54%.
Kelemahan Sistem
Kelemahan sistem yang pertama ialah
algoritme pengambilan istilah ekspansi.
Algoritme pengambilan istilah ekspansi masih
bersifat word by word sehingga dua kata yang
merupakan satu frase akan dikenali sebagai dua
kata yang terpisah. Sebagai contoh, ketika
terdapat frasa “air bah” pada kueri, sistem akan
mencari makna sinonim atau antonim untuk
kata “air” dan kata “bah” secara terpisah.
Kelemahan lainnya ialah waktu proses temu
kembali ketika menerapkan ekspansi kueri.
Tabel 10 menunjukkan perbandingan waktu
komputasi sistem tanpa ekspansi kueri dan
waktu komputasi sistem ketika menerapkan
ekspansi kueri.

Tabel 10 Waktu komputasi sistem temu
kembali
Metode

Waktu Komputasi (detik)
Rata-Rata

QE0
QES1
QES2
QES3
QEA

2.18
42.04
42.26
42.45
8.93

Simpangan Baku
0.81
34.07
34.26
34.26
5.72

Nilai rata-rata dan simpangan baku pada
Tabel 10, menunjukkan bahwa waktu
komputasi untuk setiap kueri uji cukup
bervariasi dengan waktu komputasi tertinggi
ialah 126.54 detik, untuk kueri “dana bidang
pertanian rendah” dan waktu komputasi
terendah ialah 6.06 detik, untuk kueri
“permintaan humus naik”. Variasi waktu
komputasi pada setiap kueri tersebut disebabkan
oleh adanya perbedaan jumlah istilah sinonim
atau antonim yang diperoleh dari tesaurus dan
juga perbedaan jumlah dokumen yang
dihasilkan pada setiap iterasi temu kembali.
Dari Tabel 10, juga dapat diketahui bahwa
penerapan ekspansi kueri dengan istilah sinonim
membutuhkan waktu komputasi yang jauh lebih
lama daripada ekspansi kueri dengan istilah
antonim. Hal ini disebabkan oleh istilah
antonim yang terdapat dalam tesaurus
jumlahnya jauh lebih sedikit daripada istilah
sinonim. Hal tersebut menyebabkan jumlah
iterasi pada proses perhitungan bobot irisan
untuk ekspansi kueri dengan sinonim menjadi
lebih banyak. Selain dipengaruhi oleh
banyaknya jumlah istilah dalam tesaurus,
perbedaan waktu komputasi ini juga disebabkan
oleh adanya perbedaan jumlah dokumen yang
dihasilkan oleh kedua tipe ekspansi. Ekspansi
kueri dengan istilah antonim menghasilkan
dokumen yang jauh lebih sedikit daripada
ekspansi kueri dengan istilah sinonim.
Banyaknya dokumen yang diproses pada setiap
iterasi inilah yang menyebabkan waktu proses
temu kembali dengan ekspansi kueri sinonim
menjadi jauh lebih lama.

KESIMPULAN DAN SARAN
Kesimpulan
Dari penelitian yang telah dilakukan, dapat
disimpulkan bahwa:
 Penggunaan istilah sinonim untuk ekspansi
kueri lebih baik jika dibandingkan dengan
penggunaan istilah antonim.

11

 Metode pemeringkatan BM25 mengalami
peningkatkan nilai AVP yang lebih tinggi
dari metode pemeringkatan Proximity BM25
untuk proses temu kembali dengan ekspansi
kueri.
 Penggunaan bobot irisan untuk menentukan
istilah ekspansi relatif lebih baik jika
dibandingkan dengan pemilihan istilah
cosine similarity atau IDF.
 Hasil temu kembali dari sistem yang
menggunakan operator OR untuk setiap kata
pada kueri lebih baik jika dibandingkan
dengan sistem yang menggunakan operator
AND.
Saran
Untuk penelitian selanjutnya yang terkait
dengan ekspansi kueri, disarankan untuk
melakukan penelitian dengan:
 Menggunakan jumlah koleksi dokumen dan
kueri uji yang lebih beragam.
 Melakukan analisis pengaruh penggunaan
sample dokumen pada proses perhitungan
bobot irisan untuk mempersingkat waktu
perhitungan.
 Membandingkan hasil ekspansi kueri yang
menerapkan metode pemilihan istilah
dengan bobot irisan dengan metode
pemilhan istilah lain.

DAFTAR PUSTAKA
Aly AA. 2008. Using a query expansion
technique to improve document retrieval.
International Journal “Information of
Technologies and Knowledge” 2: 343-348.

Anbiana
ED.
2009.
Pseudo-Relevance
Feedback pada sistem temu kembali
menggunakan
segementasi
dokumen
[skripsi]. Bogor: Fakultas Matematika dan
Ilmu Pengetahuan Alam, Institut Pertanian
Bogor.
Imran H, Sharan A. 2009. Thesaurus and query
expansion.
International Journal
of
Computer
Science
&
Information
Technology (IJCSIT) 1(2): 89-97.
Rahayuni N. 2011. Ekspansi kueri pada sistem
temu kembali informasi berbahasa Indonesia
menggu