Ekspansi Kueri pada Sistem Temu Kembali Informasi dengan Tesaurus dan Pendekatan Boolean

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI
INFORMASI DENGAN TESAURUS DAN
PENDEKATAN BOOLEAN

LEONARDO SIAGIAN

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Ekspansi Kueri pada
Sistem Temu Kembali Informasi dengan Tesaurus dan Pendekatan Boolean
adalah benar karya saya dengan arahan dari komisi pembimbing dan belum
diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juni 2013
Leonardo Siagian
NIM G64104044

ABSTRAK
LEONARDO SIAGIAN. Ekspansi Kueri pada Sistem Temu Kembali Informasi
dengan Tesaurus dan Pendekatan Boolean. Dibimbing oleh AHMAD RIDHA.
Penelitian ini menerapkan dan mengevaluasi penerapan automatic query
expansion dengan istilah sinonim dan antonim yang diperoleh dari tesaurus
dengan metode pendekatan boolean. Penelitian ini dilakukan karena ekspansi
kueri pada penelitian sebelumnya oleh Pancawan dengan menggunakan metode
bobot irisan memerlukan waktu yang lama. Penelitian ini menggunakan 2095
dokumen dan 30 kueri. Penggunaan satu sinonim menghasilkan temu kembali
dokumen terbaik dengan rata-rata F1 sebesar 0.06376 dalam rata-rata waktu
ekspansi kueri 5.256 detik, sedangkan penelitian sebelumnya menghasilkan ratarata F1 sebesar 0.06385 dalam 23.451 detik. Penggunaan satu antonim pada
penelitian ini dan sebelumnya menghasilkan nilai rata-rata F1 yang sama sebesar
0.06651. Akan tetapi, rata-rata waktu yang diperlukan untuk proses ekspansi kueri
pada penelitian ini sebesar 1.916 detik, hanya setengah dari penelitian sebelumnya

yang memerlukan 4.890 detik. Dari hasil evaluasi perbandingan temu kembali
dokumen tersebut, penelitian ini memiliki kinerja yang sama dalam waktu yang
lebih cepat.
Kata kunci: ekspansi kueri, model boolean, tesaurus

ABSTRACT
LEONARDO SIAGIAN. Query Expansion on Information Retrieval System
Using Thesaurus and Boolean Approach. Supervised by AHMAD RIDHA.
This research implements and evaluates the implementation of automatic
query expansion with synonyms and antonyms derived from thesaurus with
boolean approach. The research was conducted because query expansion in the
previous research by Pancawan using intersection weight required a long time.
This research used 2095 documents and 30 queries. Using one synonym produced
the best performance with an average F1 of 0.06376 in average time of query
expansion 5.256 seconds, while the previous research produced an average F1 of
0.06385 in 23.451 seconds. Using one antonym on this and previous research
produced the same average F1 of 0.06651. However, the average time required
for the query expansion in this research was 1.916 seconds, only half of the
previous research that took 4.890 seconds. From the evaluation result of the
document retrieval comparison, this research obtained a similar performance in

less time.
Keywords: boolean model, query expansion, thesaurus

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI
INFORMASI DENGAN TESAURUS DAN
PENDEKATAN BOOLEAN

LEONARDO SIAGIAN

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Ilmu Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013


Judul Skripsi : Ekspansi Kueri pada Sistem Temu Kembali Informasi dengan
Tesaurus dan Pendekatan Boolean
Nama
: Leonardo Siagian
NIM
: G64104044

Disetujui oleh

Ahmad Ridha, SKom MS
Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:


PRAKATA
Puji dan syukur penulis panjatkan kepada Tuhan atas segala karunia-Nya
sehingga penelitian ini berhasil diselesaikan. Tema yang dipilih dalam penelitian
yang dilaksanakan sejak bulan Agustus 2012 ini ialah pemilihan ekspansi kueri
untuk temu kembali informasi.
Penulis mengucapkan terima kasih kepada seluruh pihak yang telah
berperan dalam penelitian ini, yaitu:
1
Kedua orang tua saya Maju Siagian dan Rosdiana Sianturi, serta saudarasaudara dan keluarga saya yaitu Walris Jackson Siagian, Legiana Siagian,
Rikardo Siagian, Widya Astuti Siagian, Rosantri Siagian, Natanael Brillian
Siagian, Malum Siagian, dan Melati Radjagukguk atas doa dan pemberi
semangat bagi penulis untuk menyelesaikan penelitian ini.
2
Bapak Ahmad Ridha, SKom MS, sebagai dosen pembimbing yang telah
memberikan bimbingan dari awal penelitian hingga akhir penelitian ini.
3
Bapak Sony Hartono Wijaya, SKom MKom dan Ir Julio Adisantoso, MKom,
selaku penguji.
4
Teman-teman S1 Ilmu Komputer Alih Jenis Ilmu Komputer angkatan 5,

antara lain: Rizky Muhammad Syam, Yusrizal Ihya, Galih Eka F, dan lainlain. Terima kasih atas kebersamaannya selama ini.
5
Teman-teman satu bimbingan yaitu: Agus Simamora, Fuad Daviratma
Husni, dan Septiandi Wibowo.
6
Teman-teman satu rumah sewa yaitu: Desmon Siallagan, Sumarno Ginting,
Dody Milala, Ronal S Barus, Kidwan, Teger, Dedy, Steven Eduardo, dan
lain-lain.
7
Bapak Ivan Laksana, Imam Suyono, dan staf-staf di PT. Trias Cipta Mandiri
8
Mohamad Reza Pancawan yang telah melakukan penelitian sebelumnya dan
bersedia memberikan penjelasan.
9
Semua pihak yang tidak dapat penulis sebutkan satu per satu.
Semoga penelitian ini bermanfaat untuk peningkatan kinerja temu kembali
informasi kedepannya.

Bogor, Juni 2013
Leonardo Siagian


DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

PENDAHULUAN

1

Latar Belakang


1

Tujuan

1

Ruang Lingkup

1

METODE PENELITIAN

2

Dokumen Pengujian

2

Kueri Pengujian


3

Praproses Dokumen

3

Pengindeksan

4

Pengambilan Istilah Ekspansi

4

Pemilihan Istilah Ekspansi

4

Evaluasi Temu Kembali


7

Lingkungan Pengembangan

8

HASIL DAN PEMBAHASAN

8

Penambahan Kueri

8

Evaluasi Temu Kembali

8

Evaluasi Perbandingan Sistem


13

Evaluasi Kecepatan Sistem

15

Kelemahan Sistem

17

SIMPULAN DAN SARAN

17

Simpulan

17

Saran

18

DAFTAR PUSTAKA

18

LAMPIRAN

19

RIWAYAT HIDUP

23

DAFTAR TABEL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Daftar 20 kueri uji pertama
Contoh pembobotan boolean terhadap term kueri dan dokumen
Perhitungan recall, precision, dan F1
Daftar 10 kueri uji terakhir
Nilai recall, AVP, dan F1 untuk QE0
Nilai recall, AVP, dan F1 QE0, QES1, QES2, dan QES1
Nilai recall, AVP, dan F1 QE0 dan QEA
Nilai recall, AVP, dan F1 QE0, QES2, dan QEA
Nilai recall, AVP, dan F1 QE0, QES1, QES2, QES3
dengan
pemeringkatan BM25
Nilai recall, AVP, dan F1 QE0, QES1, QES2 dan QES3 dengan
pemeringkatan Proximity BM25
Kueri akhir pembeda antara pendekatan boolean dan bobot irisan
Nilai recall, AVP, dan F1 QE0, QEA, dan QEA Pancawan (2012)
dengan BM25
Nilai recall, AVP, dan F1 QE0, QEA, dan QEA Pancawan (2012)
dengan Proximity BM25
Perbandingan waktu pencarian penelitian ini dengan Pancawan (2012)
Perbandingan kecepatan waktu penelitian ini dengan Pancawan (2012)
tanpa waktu layanan Sphinx
Perbandingan kecepatan waktu pada proses pemberian bobot kueri pada
penelitian ini dengan Pancawan (2012)

3
6
7
8
9
9
11
12
13
13
14
14
14
15
16
16

DAFTAR GAMBAR
1
2
3
4
5
6

Gambaran umum proses temu kembali dengan ekspansi kueri
Kurva recall dan precision QES1, QES2, dan QES3 dengan BM25
Kurva recall dan precision QES1, QES2, dan QES3 Proximity BM25
Kurva recall dan precision QEA
Kurva recall dan precision QEA, dan QES1
Grafik waktu pendekatan boolean dan bobot irisan (Pancawan 2012)

2
10
10
11
12
15

DAFTAR LAMPIRAN
1 Contoh dokumen pengujian
2 Deskripsi kueri uji

19
20

PENDAHULUAN
Latar Belakang
Kebutuhan informasi yang mudah dan cepat menjadi suatu permasalahan
saat ini. Kesulitan pemenuhan kebutuhan tersebut berbanding lurus dengan jumlah
informasi yang tersedia. Sistem temu kembali informasi membantu pengguna
dalam mencari informasi sesuai dengan kebutuhannya. Salah satu tantangan yang
dihadapi adalah ketika pengguna ingin mencari dokumen yang mengandung katakata berbeda dengan kueri yang dimasukkan.
Ekspansi kueri adalah proses formulasi kembali dengan menambah,
membuang, atau mengubah bobot kata atau frasa pada kueri asli untuk
meningkatkan kemampuan sistem dalam menemukan dokumen relevan (Manning
et al. 2008). Pancawan (2012) telah melakukan penelitian dengan menerapkan dan
mengevaluasi penerapan automatic query expansion dengan istilah sinonim dan
antonim yang diperoleh dari tesaurus. Akan tetapi, penelitian tersebut masih
memiliki kekurangan pada waktu proses penerapan ekspansi kueri yang cukup
lama. Penelitian menunjukkan seorang pengguna mengharapkan atau mentolerir
proses temu kembali informasi dalam kisaran waktu 2 detik (Nah 2004).
Berawal dari kelemahan dalam kecepatan hasil temu kembali pada
penelitian Pancawan (2012), penelitian ini menggunakan pendekatan boolean.
Pendekatan ini bertujuan menambahkan dokumen yang ditemukembalikan oleh
istilah ekspansi kepada kumpulan dokumen hasil kueri awal. Pembandingan hasil
kueri awal dengan kueri awal yang sudah ditambahkan eskpansi berawal dari
metode Jaccard index yang dilakukan sebelumnya oleh Ackerman et al. (2011).
Pendekatan ini diharapkan dapat meningkatkan kecepatan temu kembali
informasi dibandingkan dengan metode bobot irisan pada penelitian Pancawan
(2012). Pancawan (2012) menghitung similarity hasil temu kembali antara kueri
awal dan kueri awal yang sudah ditambahkan istilah ekspansi dengan metode
bobot irisan, sedangkan dalam pendekatan ini, proses pemilihan istilah ekspansi
hanya melihat jumlah dokumen tambahan yang dihasilkan.

Tujuan
Penelitian ini bertujuan:
1 Menerapkan dan mengevaluasi metode pendekatan boolean dalam
menentukan pemilihan kata ekspansi kueri.
2 Membandingkan kecepatan, recall, dan AVP temu kembali informasi antara
metode pendekatan boolean dengan penelitian Pancawan (2012) yang
menggunakan metode bobot irisan.

Ruang Lingkup
1
2

Ruang lingkup dari penelitian ini adalah:
Sinonim dan antonim berasal dari tesaurus berbahasa Indonesia.
Dokumen dan kueri dalam bahasa Indonesia.

2

METODE PENELITIAN
Proses temu kembali dalam penelitian ini secara garis besar adalah
menyiapkan dokumen dan kueri uji, melakukan praproses dokumen, mengindeks
dokumen, memilih istilah ekspansi, dan mengevaluasi hasil temu kembali
informasi. Proses temu kembali informasi dapat dilihat pada Gambar 1.
Dokumen Pengujian
Penelitian ini menggunakan 2095 dokumen pertanian dari Laboratorium
Temu Kembali Informasi Departemen Ilmu Komputer IPB. Koleksi dokumen ini
adalah yang digunakan Pancawan (2012) sebelumnya. Contoh dokumen pengujian
terdapat pada Lampiran 1.

Gambar 1 Gambaran umum proses temu kembali dengan ekspansi kueri

3
Kueri Pengujian
Pengujian dalam penelitian ini menggunakan 30 kueri. Dua puluh kueri
pertama diperoleh dari penelitian sebelumnya (Pancawan 2012) (lihat Tabel 1)
dan 10 kueri terakhir dibuat pada penelitian ini. Pembuatan 10 kueri tersebut
dilakukan dengan membaca terlebih dahulu seluruh koleksi dokumen untuk
mencari topik bahasan yang paling sering ditemukan, kemudian dibuat kueri
sesuai topik tersebut. Suatu kandidat kueri tersebut dinyatakan layak sebagai kueri
pengujian apabila minimal 10 dokumen relevan dengan kueri tersebut setelah
dicobakan pada search engine Sphinx tanpa ekspansi. Langkah selanjutnya adalah
membaca seluruh dokumen untuk menentukan dokumen relevan terhadap kueri.
Tabel 1 Daftar 20 kueri uji pertama
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Kueri
nilai jual komoditas rendah
persediaan padi memadai
sawah hancur terendam air
sawah kering kekurangan air
area pertanian semakin berkurang
tarif humus tinggi
upaya peningkatan produksi pertanian
produk asing murah
produksi pertanian menurun
produktivitas pertanian rendah
petani sulit mendapatkan humus
sawah rusak berat
mutu hasil pertanian rendah
produksi pertanian meningkat
kesejahteraan petani rendah
wereng serang lahan pertanian
bidang pertanian belum berkembang
angsuran pertanian sedikit
dana bidang pertanian rendah
permintaan humus naik
Praproses Dokumen

Pada praproses dokumen, tokenisasi dilakukan untuk mencari penciri dari
suatu dokumen. Tokenisasi adalah proses untuk mendapatkan seluruh kata dari
seluruh koleksi dokumen yang sudah dibersihkan dari tanda baca pemisah, seperti
titik, koma, dan whitespace. Proses selanjutnya adalah pembuangan stopword,
yaitu kata yang tidak layak untuk dijadikan sebagai penciri. Koleksi stopword
tersebut diperoleh dari penelitian Pancawan (2012).

4
Pengindeksan
Tahapan selanjutnya adalah pengindeksan yang memetakan seluruh kata
unik hasil tokenisasi dengan dokumen yang memiliki token tersebut. Proses
pengindeksan dalam penelitian ini terdiri atas pengindeksan boolean dan Sphinx.
Pengindeksan boolean digunakan dalam proses ekspansi kueri, sedangkan
Pengindeksan Sphinx digunakan dalam proses temu kembali dokumen yang
sebelumnya telah digunakan oleh Pancawan (2012).
Pengambilan Istilah Ekspansi
Tesaurus yang berisi sinonim dan antonim yang digunakan adalah tesaurus
berbahasa Indonesia dari Pusat Bahasa (PB 2009) yang sebelumnya juga
digunakan Pancawan (2012) dan Rahayuni (2011). Proses pengambilan sinonim
tersebut diperoleh dari sinonim setiap term pada kueri. Sinonim yang digunakan
adalah istilah yang tidak ada dalam koleksi stopword. Pengambilan ekspansi
antonim diperoleh dari antonim term kueri awal dan setiap sinonim term kueri
awal. Seperti halnya sinonim, antonim yang digunakan adalah istilah yang tidak
terdapat pada koleksi stopword. Proses pengambilan ekspansi ini telah dibuat dan
digunakan sebelumnya oleh Pancawan (2012).

Pemilihan Istilah Ekspansi
1

Pemilihan Istilah Ekspansi dengan Metode Bobot Irisan (Pancawan 2012)

Pemilihan istilah ekspansi dengan bobot irisan yang dilakukan oleh
penelitian Pancawan (2012) terdiri atas 2 tahap. Tahap pertama adalah
menghitung similarity dengan bobot irisan dan menghitung dissimilarity. Jika qa
adalah kueri awal dan qb adalah kueri awal yang sudah ditambah istilah, bobot
irisan dapat dihitung dengan menjumlahkan nilai similarity dokumen-dokumen
hasil temu kembali qb yang merupakan komplemen dari hasil temu kembali (qa ∩
qb), dan dibagi dengan total nilai similarity semua dokumen hasil temu kembali qb.
Perhitungan bobot irisan dapat dirumuskan pada persamaan berikut.
sim(qa,qb) =
dengan:
Ta
Tb
Ta ∩ Tb
Tb - (Ta∩Tb)
sim(di, qb)
sim(dj, qb)

∑ i T - T ∩ T sim i q
∑ j T sim j q

:.adalah himpunan dokumen hasil temu kembali qa
:.adalah himpunan dokumen hasil temu kembali qb
:.himpunan dokumen irisan hasil temu kembali qa dan qb
:.himpunan dokumen Tb yang merupakan komplemen dari irisan
Ta dan.Tb
:.nilai similarity dokumen ke-i.pada Tb yang merupakan anggota
irisan Ta dan Tb
:.similarity dokumen ke-j dari Tb

5
Nilai similarity tersebut ditentukan menggunakan hasil pencarian dengan
Sphinx. Pada tahap selanjutnya, nilai dissimilarity dihitung untuk mengetahui
istilah ekspansi yang memiliki nilai dissimilarity tertinggi. Perhitungan nilai
dissimilarity dapat dirumuskan pada persamaan berikut.
dissim (qa, qb) = 1 - sim(qa, qb)
Misalkan kueri awal adalah “g g l p nen”, dan diketahui sinonim untuk masingmasing kata
l h “hancur”, “rusak” untuk k t “g g l” dan “hasil” untuk
k t “p nen” . Jika hasil temu kembali kueri awal dan setelah ditambahkan
ekspansi sebagai berikut.
gagal|panen= {d3, d4, d5}
gagal|panen|hancur= {d3, d4, d5}
gagal|panen|rusak= {d1, d3, d4, d5}
gagal|panen|hasil= {d1, d2, d3, d4, d5}
Perhitungan bobot irisan dengan mengacu pada hasil temu kembali tersebut untuk
ekspansi “rusak” adalah sebagai berikut:
T = {d3, d4, d5}
T = {d1, d3, d4, d5}
T ∩ T = {d3, d4, d5}
T - T ∩ T = {d1}
sim(qa,qb) =

sim
sim

sim

sim

sim

Pancawan (2012) menggunakan pemeringkatan BM25 dan Proximity BM25
yang terdapat pada framework Sphinx untuk menghitung nilai similarity antara
kueri awal yang telah ditambahkan ekspansi dengan masing-masing temu kembali
dokumen. Eksp nsi “h ncur” mel kuk n perhitung n nil i similarity dengan
okumen se ny k k li “rus k” se ny k k li
n “h sil” se ny k k li.
Maka untuk menghitung nilai similarity dengan kueri “g g l p nen” terse ut
dilakukan sebanyak 12 kali pengulangan. Oleh kerena itu, semakin banyak istilah
ekspansi dan temu kembali dokumen yang dihasilkan, maka semakin lama proses
pemilihan istilah ekspansi dengan bobot irisan.
2

Pemilihan Istilah Ekspansi dengan Pendekatan Boolean

Dalam penelitian ini, pemilihan kueri akhir dilakukan dengan pendekatan
boolean. Pendekatan ini bertujuan untuk memilih istilah ekspansi yang memiliki
penambahan dokumen yang paling banyak. Pada pendekatan ini, terdapat
perhitungan untuk menentukan kueri akhir yang berawal dari penelitian Ackerman
et al. (2011) yang menggunakan Jaccard index untuk membandingkan similarity
dan keragaman suatu himpunan. Dengan kata lain, perhitungan untuk menentukan
kueri akhir (kueri awal yang telah ditambah istilah ekspansi). Himpunan yang
digunakan adalah dokumen yang dihasilkan oleh kueri. Jaccard index untuk T
dan T dirumuskan sebagai berikut.

6
J(T T ) =

T ∩T
T T

Berdasarkan tujuan mengambil nilai terkecil dari perhitungan persamaan
Jaccard index tersebut, maka cukup dipilih kueri akhir dengan penambahan
dokumen terbanyak atau paling berbeda dari hasil dokumen kueri awal. Proses
pemilihan kueri baru dengan pendekatan boolean akan diilustrasikan dengan
menggunakan istilah sinonim dan 5 dokumen. Misalkan kueri awal adalah “g g l
p nen”, dan sinonim untuk masing-masing kata adalah “hancur”, “rusak” (untuk
kata “gagal”) dan “hasil” (untuk kata “panen”). Jika hasil pembobotan boolean
dari masing-masing term kueri disajikan pada Tabel 2. Pada penelitian ini setiap
term akan dicari keberadaanya pada pengindeksan boolean untuk diambil setiap
dokumen yang mengandung term tersebut.
Tabel 2 Contoh pembobotan boolean terhadap term kueri dan dokumen
Term
gagal
panen
hancur
rusak
Hasil

d1
0
0
0
1
1

d2
0
0
0
0
1

d3
1
0
1
1
1

d4
1
1
1
1
1

d5
1
1
1
1
1

Dokumen yang dihasilkan oleh masing-masing term pada kueri tersebut
akan digunakan untuk menghitung perbedaan terbesar antara kueri awal dan kueri
awal yang ditambahkan istilah ekspansi.
Misalkan:
Q0= gagal panen
Q1= gagal panen hancur
Q2= gagal panen rusak
Q3= gagal panen hasil
Kueri tersebut adalah kueri awal dengan penambahan istilah ekspansi sinonim.
Masing-masing term dalam kueri tersebut kemudian dipisahkan dengan
menggunakan operator gabungan. Operator tersebut bertujuan untuk mendapatkan
dokumen gabungan dari masing-masing term dalam kueri.
Maka:
Q0={d3, d4, d5}
Q1={d3, d4, d5}, tidak ada penambahan dokumen.
Q2={d1, d3, d4, d5}, dengan tambahan dokumen {d2}.
Q3={d1, d2, d3, d4, d5}, dengan tambahan dokumen {d1, d2}.
Berbeda dengan pemilihan pada Pancawan (2012) yang menggunakan
dokumen hasil temu kembali dalam perhitungan metode bobot irisan. Perhitungan
bobot irisan tersebut juga mencari similarity setiap dokumen hasil temu kembali
dengan kueri awal yang sudah ditambahkan istilah ekspansi. Dalam hal ini,
semakin banyak dokumen yang dihasilkan maka semakin lama proses
pengulangannya dalam mencari nilai similarity-nya. Proses tersebut yang
membuat waktu eksekusi dari penelitian tersebut lebih lama dibandingkan dengan
pendekatan boolean pada penelitian ini.

7
Dengan menggunakan pemilihan satu kata ekspansi sinonim, Q3 terpilih
sebagai kueri baru yang memiliki jumlah tambahan dokumen terbesar. Kueri baru
Q3 (gagal|panen|hasil) dengan menggunakan operator OR akan digunakan sebagai
kueri akhir pada proses pencarian. Kueri akhir untuk istilah antonim ditambah
k t “ti k” i awal ekspansi antonim. Penambahan kat “ti k” ertuju n untuk
menjaga makna kueri awal. Setiap ekspansi sinonim dan antonim kemudian diapit
tanda kutip agar dianggap satu frasa.
Temu kembali dokumen menggunakan metode pemeringkatan dokumen
BM25 dan Proximity BM25 yang terdapat pada framework Sphinx. Pembobotan
untuk metode pemeringkatan Proximity BM25 adalah metode pemeringkatan
yang menggabungkan faktor Proximity dan faktor BM25. Proximity hanya
memperhatikan urutan kata yang terdapat pada kueri dan dokumen. Semakin
mirip urutan kata-kata dalam kueri dengan urutan kata-kata yang ada dalam
dokumen maka nilai Proximity menjadi lebih besar.

Evaluasi Temu Kembali
Untuk melakukan pengukuran kinerja dengan mempertimbangkan aspek
keterurutan dapat dilakukan dengan interpolasi antara recall dan precision,
dengan 11 tingkat recall. Jenis evaluasi yang dilakukan pada penelitian ini adalah:
 QE0, yaitu evaluasi temu kembali tanpa menggunakan ekspansi kueri.
 QES1, yaitu evaluasi temu kembali dengan menambahkan satu istilah sinonim
dengan nilai selisih boolean terbesar.
 QES2, yaitu evaluasi temu kembali dengan menambahkan dua istilah sinonim
dengan nilai selisih boolean terbesar.
 QES3, yaitu evaluasi temu kembali dengan menambahkan tiga istilah sinonim
dengan nilai selisih boolean terbesar.
 QEA, yaitu evaluasi temu kembali dengan menambahkan satu istilah antonim
dengan nilai selisih boolean terbesar.
Evaluasi dilakukan dengan mengukur waktu eksekusi, recall, average
precision (AVP), dan F1 temu kembali informasi evaluasi. Perhitungan recall,
precision, dan F1 diilustrasikan pada Tabel 3.
Tabel 3 Perhitungan recall, precision, dan F1
Retrieved
NonRetrieved
Recall (R)
Precison (P)
F1

Relevant
tp
fn

Non Relevant
fp
tn

tp
tp fn
tp
tp fp
2.R.P
R P

Jenis-jenis evaluasi digunakan sebagai pembanding atau evaluasi untuk
mengukur nilai AVP dan kecepatan temu kembali informasi antara metode bobot
irisan oleh Pancawan (2012) dengan pendekatan boolean pada penelitian ini.

8
Lingkungan Pengembangan






Perangkat lunak yang digunakan dalam penelitian ialah:
Windows 7 Ultimate sebagai sistem operasi.
XAMPP-win32-1.7.2 sebagai tool yang menyediakan perangkat lunak ke
dalam satu buah paket yang terdiri dari Apache (web server), MySQL
(database), PHP, dan Perl sebagai server side scripting.
Adobe Dreamweaver CS5 sebagai text editor.
Sphinx search 2.0.1 sebagai framework search engine.
Microsoft Excel 2010, sebagai aplikasi untuk evaluasi sistem.

Perangkat keras yang digunakan dalam penelitian ialah:
 Intel(R) Core(TM) Duo 2.2 GHz.
 RAM 2 GB.
 Harddisk dengan kapasitas 200 GB.

HASIL DAN PEMBAHASAN
Penambahan Kueri
Dalam penelitian ini ditambahkan 10 kueri pengujian baru. Kueri dan
jumlah dokumen relevannya disajikan pada Tabel 4. Kueri uji beserta
deskripsinya dapat dilihat pada Lampiran 2.
Tabel 4 Daftar 10 kueri uji terakhir
No
1
2
3
4
5
6
7
8
9
10

Kueri
penanganan penyakit virus flu burung
pemanfaatan tanaman obat
keuntungan penerapan teknologi pertanian
keunggulan pertanian organik
sulit memasarkan hasil pertanian
upaya pengawasan keamanan pangan
mendapatkan bantuan modal pertanian
produk impor merugikan petani lokal
kerjasama negara bidang pertanian
penyakit menyerang hewan ternak

Jumlah dokumen relevan
32
23
72
44
15
52
54
40
43
24

Evaluasi Temu Kembali
1

Evaluasi Tanpa Ekspansi Kueri

Evaluasi tanpa ekspansi kueri (QE0) dilakukan dengan menghitung nilai
recall, AVP, dan rata-rata F1. Evaluasi dilakukan terhadap metode pemeringkatan

9
BM25 dan Proximity BM25. Hasil evaluasi dari 30 kueri tanpa ekspansi
ditampilkan pada Tabel 5.
Tabel 5 Nilai recall, AVP, dan F1 untuk QE0
Metode
QE0 (BM25)
QE0 (Proximity BM25)

Recall
0.870
0.870

AVP
0.233
0.243

F1
0.07184
0.07184

Dapat diketahui dari Tabel 5, nilai recall QE0 memiliki nilai yang sama,
akan tetapi nilai AVP dengan pemeringkatan Proximity BM25 lebih besar
daripada BM25. Berdasarkan hal tersebut, pemeringkatan Proximity BM25
memiliki urutan pemeringkatan dokumen relevan yang lebih baik dibandingkan
dengan BM25. Hal tersebut disebabkan oleh adanya beberapa kueri yang dapat
menjadikan pemeringkatan Proximity BM25 menghasilkan dokumen relevan
dengan urutan peringkat yang lebih baik daripada BM25.
2

Evaluasi Ekspansi Kueri dengan Sinonim

Evaluasi temu kembali dengan sinonim antara lain menggunakan 1 sinonim
(QES1), 2 sinonim (QES2), dan 3 sinonim (QES3). Evaluasi dilakukan dengan
membandingkan nilai recall, AVP, dan rata-rata F1 temu kembali pada penelitian
ini dengan penelitian Pancawan (2012) yang ditampilkan pada Tabel 6.
Tabel 6 Nilai recall, AVP, dan F1 QE0, QES1, QES2, dan QES1
Metode
QE0 (BM25)
QES1 (BM25)
QES2 (BM25)
QES3 (BM25)
QE0 (Proximity BM25)
QES1 (Proximity BM25)
QES2 (Proximity BM25)
QES3 (Proximity BM25)

Recall
0.870
0.938
0.949
0.953
0.870
0.938
0.949
0.953

AVP
0.233
0.269
0.261
0.230
0.243
0.265
0.272
0.259

F1
0.07184
0.06376
0.05981
0.05793
0.07184
0.06376
0.05981
0.05793

Dari Tabel 6 diketahui bahwa terjadi peningkatan nilai recall pemeringkatan
BM25 dari ekspansi 1 sinonim (QES1) sampai 3 sinonim (QES3). Artinya,
terdapat peningkatan temu kembali dokumen relevan seiring penambahan istilah
ekspansi yang digunakan sebagai kueri baru. Kenaikan nilai recall antara QE0
dengan QES1 adalah 7.90%, QES2 9.16%, dan QES2 9.54%. Peningkatan nilai
AVP juga terjadi pada masing-masing ekspansi sinonim terhadap QE0 sebesar
15.451% untuk QES1, 11.965% untuk QES1. Akan tetapi QES3 mengalami
penurunan sebesar 1.418%. Penurunan AVP QES3 tersebut disebabkan istilah
ekspansi yang terpilih menyebabkan peringkat temu kembali dokumen relevan
menjadi lebih rendah dan urutan peringkat dokumen tidak relevan menjadi lebih
tinggi daripada peringkat dokumen hasil sebelumnya (QE0). Peningkatan nilai
AVP disebabkan oleh adanya istilah-istilah ekspansi yang dapat meningkatkan
urutan dokumen relevan. Nilai recall mengalami peningkatan dari QES1, QES2,
dan QES3. Artinya, dokumen relevan baru yang dihasilkan bertambah.

10

Gambar 2 Kurva recall dan precision QES1, QES2, dan QES3
dengan BM25

Gambar 3 Kurva recall dan precision QES1, QES2, dan QES3
dengan Proximity BM25
Pemeringkatan Proximity BM25 nilai recall juga mengalami peningkatan
dari QES1 sampai QES3, dan hal yang sama juga terjadi pada nilai AVP jika
dibandingkan dengan QE0. Peningkatan AVP adalah 8.966% untuk QES1,
11.747% untuk QES2, dan 6.659% untuk QES3. Kenaikan nilai recall
dipengaruhi oleh penambahan istilah-istilah ekspansi yang dapat menemukan
lebih banyak dokumen relevan. Kenaikan nilai AVP disebabkan oleh adanya
istilah-istilah ekspansi yang dapat meningkatkan urutan dokumen relevan.

11
Dengan perbedaan terletak pada nilai AVP antara metode BM25 dan Proximity
BM25, dapat dinyatakan pemeringkatan Proximity BM25 lebih tinggi daripada
BM25. Pemeringkatan BM25 menghasilkan nilai AVP tertinggi 0.269 untuk
QES1, sedangkan Proximity BM25 nilai AVP tertinggi 0.272 untuk QES2. Kurva
recall dan precision QES1, QES2, dan QES3 dengan pemeringkatan BM25
ditampilkan pada Gambar 2, dan pemeringkatan Proximity BM25 pada Gambar 3.
3

Evaluasi Ekspansi Kueri dengan Antonim

Evaluasi ekspansi kueri dengan antonim dilakukan setelah menambahkan
eng n k t “ti k” p
w l istil h eksp nsi ntonim. H l ini ertuju n untuk
tidak mengubah makna kueri awal. Nilai recall, AVP, dan rata-rata F1 tanpa
ekspansi (QEO) dan penambahan 1 kata ekspansi antonim (QEA) untuk
pemeringkatan BM25 dan Proximity BM25 ditunjukkan pada Tabel 7.
Tabel 7 Nilai recall, AVP, dan F1 QE0 dan QEA
Metode
QE0 (BM25)
QEA (BM25)
QE0 (Proximity BM25)
QEA (Proximity BM25)

Recall
0.870
0.889
0.870
0.889

AVP
0.233
0.222
0.243
0.234

F1
0.07184
0.06651
0.07184
0.06651

Dari Tabel 7 diketahui bahwa dengan pemeringkatan BM25, nilai recall
QEA mengalami peningkatan sebesar 2.106% dari QE0. Akan tetapi, nilai AVP
setelah menggunakan QEA mengalami penurunan sebesar 4.903% dari QE0. Hal
tersebut dikarenakan hasil temu kembali dokumen tidak relevan memiliki
peringkat yang lebih tinggi dibandingkan dengan dokumen relevan. Untuk
pemeringkatan Proximity BM25 nilai recall mengalami kenaikan sebesar 2.106%,
sedangkan AVP mengalami penurunan sebesar 3.779% dari QE0.

Gambar 4 Kurva recall dan precision QEA

12
Berdasarkan hasil evaluasi nilai recall, dan AVP pemeringkatan Proximity
BM25 lebih baik, dengan nilai kenaikan nilai penurunan AVP yang lebih kecil.
Kurva recall dan presicion QEA pemeringkatan BM25 dan Proximity BM25
ditampilkan pada Gambar 4.
4

Evaluasi Ekspansi Kueri dengan Sinonim dan Antonim

Nilai hasil evalusi ini digunakan untuk mengetahui atau membandingkan
temu kembali yang lebih baik dalam penggunaan istilah sinonim dan antonim.
Perbandingan dilakukan terhadap penambahan 1 sinonim (QES1) dan 1 antonim
(QEA). Pemilihan jenis ekspansi QES1 dilakukan karena memiliki nilai rata-rata
F1 terbesar.
Tabel 8 Nilai recall, AVP, dan F1 QE0, QES2, dan QEA
Metode
QE0 (BM25)
QES1 (BM25)
QEA (BM25)

recall
0.870
0.938
0.889

AVP
0.233
0.269
0.222

F1
0.07184
0.06376
0.06651

Dengan melihat nilai recall dan AVP pada Tabel 8 tersebut, penggunaan
sinonim memiliki nilai lebih besar daripada antonim. Hal tersebut dikarenakan
kumpulan dokumen lebih banyak mengandung istilah sinonim daripada antonim
setelah ditam hk n k t “ti k” y ng tentu erpeng ruh terh p juml h
dokumen dan peluang dokumen relevan yang dihasilkan. Gambar kurva recall dan
presicion QEA dan QES2 terlihat pada Gambar 5.

Gambar 5 Kurva recall dan precision QEA, dan QES1

13
Evaluasi Perbandingan Sistem
Evalusi dilakukan pada sistem yang digunakan Pancawan (2012) dengan
sistem pada penelitian ini. Evaluasi dilakukan untuk masing-masing jenis evaluasi,
antara lain dengan 1 sinonim (QES1), 2 sinonim (QES2), 3 sinonim (QES3), dan
1 antonim (QEA). Evaluasi juga dilakukan terhadap kecepatan sistem penelitian
ini dengan sistem Pancawan (2012).
1

Evaluasi ekspansi untuk 1, 2, dan 3 sinonim

Diketahui dari Tabel 9 dengan pemeringkatan BM25 dan Tabel 10 dengan
pemeringkatan Proximity BM25 bahwa dengan penambahan istilah sinonim, nilai
recall dan AVP pada penelitian ini dan penelitian Pancawan (2012) untuk semua
jenis ekspansi tidak jauh berbeda. Artinya, sistem menghasilkan jumlah temu
kembali dokumen relevan dan peringkatnya tidak jauh berbeda. Jenis evaluasi
penambahan 1 dan 3 sinonim menghasilkan nilai recall yang berbeda. Perbedaan
nilai recall
sinonim QES
ipeng ruhi oleh kueri “wereng serang lahan
pertanian” p
penelitian ini sebesar 0.97, sedangkan Pancawan (2012) sebesar 1.
Nilai recall sinonim ipeng ruhi oleh kueri “mutu h sil pert ni n ren h” p
penelitian ini sebesar 1, sedangkan Pancawan (2012) sebesar 0.94.
Tabel 9 Nilai recall, AVP, dan F1 QE0, QES1, QES2, QES3 dengan
pemeringkatan BM25
Metode
QE0
QES1
QES2
QES3
QE0 (Pancawan 2012)
QES1 (Pancawan 2012)
QES2 (Pancawan 2012)
QES3 (Pancawan 2012)

Recall
0.870
0.938
0.949
0.953
0.870
0.939
0.949
0.951

AVP
0.233
0.269
0.261
0.230
0.233
0.263
0.257
0.231

F1
0.07184
0.06376
0.05981
0.05793
0.07184
0.06385
0.05981
0.05785

Tabel 10 Nilai recall, AVP, dan F1 QE0, QES1, QES2 dan QES3 dengan
pemeringkatan Proximity BM25
Metode
QE0
QES1
QES2
QES3
QE0 (Pancawan 2012)
QES1 (Pancawan 2012)
QES2 (Pancawan 2012)
QES3 (Pancawan 2012)

Recall
0.870
0.938
0.949
0.953
0.870
0.939
0.949
0.951

AVP
0.243
0.265
0.272
0.259
0.243
0.269
0.271
0.260

F1
0.07184
0.06376
0.05981
0.05793
0.07184
0.06385
0.05981
0.05785

Terdapat juga beberapa perbedaan untuk hasil kueri akhir setelah
penambahan ekspansi sinonim pada penelitian ini dan Pancawan (2012).

14
Perbedaan hasil ekspansi tersebut tentu akan mempengaruhi nilai AVP kedua
sistem. Kueri-kueri tersebut disajikan pada Tabel 11. Perbedaan istilah ekspansi
yang dihasilkan ditandai dengan cetak tebal.
Tabel 11 Kueri akhir pembeda antara pendekatan boolean dan bobot irisan
Metode
Kueri awal
produksi
pertanian
menurun
mutu
hasil
pertanian
rendah
kesejahteraan
petani rendah
wereng
serang lahan
pertanian

QES1

Boolean
QES2
QES3

produk

pembuatan

harga

Bobot irisan
QES3

QES1

QES2

buatan

produk

perkebunan

buatan

jenis

produk

harga

jenis

perkebunan

murah

pendek

ringan

murah

pendek

orang tani

tanah

hama

perkebunan

hama

tanah

perkebunan

Secara keseluruhan jika dibandingkan untuk setiap jenis ekspansi pada
masing-masing metode, pada penelitian ini menghasilkan nilai recall dan AVP
yang tidak jauh berbeda dengan penelitian Pancawan (2012) baik untuk
pemeringkatan BM25 ataupun Proximity BM25. Perbandingan juga dapat dilihat
dari rata-rata F1 yang tidak jauh berbeda.
2

Evaluasi ekspansi kueri dengan 1 antonim
Tabel 12 Nilai recall, AVP, dan F1 QE0, QEA, dan QEA Pancawan
(2012) dengan BM25
Metode
QE0
QEA
QEA (Pancawan 2012)

recall
0.870
0.889
0.889

AVP
0.233
0.222
0.222

F1
0. 07184
0. 06651
0. 06651

Tabel 13 Nilai recall, AVP, dan F1 QE0, QEA, dan QEA Pancawan
(2012) dengan Proximity BM25
Metode
QE0
QEA
QEA (Pancawan 2012)

recall
0.870
0.889
0.889

AVP
0.243
0.234
0.234

F1
0. 07184
0. 06651
0. 06651

Dari Tabel 12 dan 13 terlihat bahwa penelitian ini dengan Pancawan (2012)
memiliki nilai recall dan AVP yang sama. Hal tersebut disebabkan oleh setiap
kueri menghasilkan istilah ekspansi terpilih yang sama dengan metode yang
digunakan Pancawan (2012). Hasil ekspansi kueri yang sama tersebut tentu juga
menghasilkan nilai recall dan AVP yang sama untuk pemeringkatan BM25 dan
Proximity BM25.

15
Evaluasi Kecepatan Sistem
1

Evaluasi kecepatan waktu keseluruhan

Evaluasi kecepatan sistem dilakukan dengan membandingkan kecepatan
sistem pada penelitian ini dengan penelitian Pancawan (2012) dalam satuan detik.
Sistem pada penelitian Pancawan (2012) dijalankan ulang dengan menggunakan
kumputer yang sama agar relevan dalam membandingkannya. Komputer yang
digunakan Pancawan (2012) tentu memiliki spesifikasi yang berbeda dengan
komputer yang digunakan saat penelitian ini. Perbedaan ini akan berdampak pada
kecepatan eksekusi sistem. Sistem dijalankan sebanyak 3 kali percobaan untuk 30
kueri, dan diambil nilai rata-ratanya. Nilai kecepatan waktu komputasi tanpa dan
dengan ekspansi kueri ditunjukkan dalam Tabel 14 dan direpresentasikan pada
Gambar 6. Nilai kecepatan yang dihasilkan tanpa melibatkan proses pencetakan
temu kembali dokumen.
Tabel 14 Perbandingan waktu pencarian penelitian ini dengan Pancawan (2012)
Metode
QE0
QES1
QES2
QES3
QEA

Rata-rata waktu (detik)
Penelitian ini
Pancawan (2012)
1.126
1.311
6.487
26.683
6.496
26.691
6.579
26.574
3.060
6.443

Dilihat dari kecepatan waktu antara sistem pada penelitian ini dengan
penelitian Pancawan (2012), dapat disimpulkan perbandingan pada metode tanpa
ekspansi (QE0) memiliki nilai kecepatan jumlah waktu yang tidak jauh berbeda.
Hal tersebut dikarenakan tidak ada proses pemilihan ekspansi. Sedangkan
perbandingan kecepatan pendekatan boolean dengan metode bobot irisan untuk
QES1 meningkatkan kecepatan waktu sebesar 75.69%, QES2 75.66%, QES3
75.24%, dan QEA 52.51%.

Gambar 6 Perbandingan waktu pendekatan boolean dan bobot irisan
(Pancawan 2012)

16
Perbedaan signifikan nilai kecepatan waktu antara ekspansi sinonim dan
antonim dikarenakan jumlah ekspansi unik yang dihasilkan berbeda. Jumlah ratarata ekspansi unik yang dihasilkan dengan istilah ekspansi sinonim sebesar 34.8,
sedangkan istilah ekspansi antonim sebesar 6.467. Perbandingan waktu eksekusi
sistem dapat dilihat juga pada Gambar 6. Berdasarkan waktu yang digunakan,
metode dengan pendekatan boolean pada penelitian ini memiliki kecepatan waktu
yang lebih tinggi dibandingkan dengan penelitian Pancawan yang menggunakan
metode bobot irisan.
2

Evaluasi kecepatan waktu tanpa Sphinx

Evaluasi ini dilakukan dengan mengurangi jumlah waktu proses
penggunaan layanan Sphinx. Hal ini dilakukan untuk melihat perbandingan
kecepatan komputasi program secara murni tanpa pengaruh waktu layanan Sphinx.
Nilai kecepatan waktu komputasi tanpa waktu layanan Sphinx ditunjukkan pada
Tabel 15.
Tabel 15 Perbandingan kecepatan waktu penelitian ini dengan Pancawan
(2012) tanpa waktu layanan Sphinx
Metode

QES1
QES2
QES3
QEA
3

Rata-rata waktu (detik)
Pendekatan boolean
Pancawan (2012)
6.328
20.703
6.329
20.757
6.406
20.676
2.914
5.201

Evaluasi penyebab perbedaan kecepatan waktu temu kembali pada penelitian
ini dengan Pancawan (2012)

Penelitian ini adalah hasil pengubahan metode pemilihan ekspansi kueri dari
bobot irisan (Pancawan 2012) menjadi pendekatan boolean. Di dalam proses
pemilihan ekspansi pada penelitian Pancawan(2012) dan penelitian ini terdapat
proses pemberian bobot untuk kueri awal dan kueri awal yang telah ditambahkan
istilah ekspansi. Kecepatan waktu komputasi untuk pemberian bobot kueri antara
pendekatan boolean dengan bobot irisan dapat dilihat pada Tabel 16.
Tabel 16 Perbandingan kecepatan waktu pada proses pemberian bobot kueri
pada penelitian ini dengan Pancawan (2012)
Metode
QES (sinonim)
QEA (antonim)

Rata-rata waktu (detik)
Pendekatan boolean
Pancawan (2012)
1.269
4.840
4.196
22.746

Dari Tabel 16 terlihat perbedaan signifikan antara pendekatan boolean
pada penelitian ini dengan metode bobot irisan. Waktu komputasi pendekatan
boolean jauh lebih cepat dibandingkan dengan metode bobot irisan.

17
Dapat disumpulkan bahwa perbedaan waktu komputasi temu kembali
dokumen yang signifikan antara pendekatan boolean dengan metode bobot irisan
disebabkan oleh proses pemberian bobot (lihat Tabel 16). Pemberian bobot kueri
pada penelitian ini diperoleh dengan mencari keberadaan setiap term kueri awal
yang sudah ditambah istilah pada dokumen dan selanjutnya menghitung jumlah
dokumen gabungan setiap term kueri tersebut. Berbeda pada pemberian bobot
kueri dengan metode bobot irisan yang mencari nilai similarity setiap kueri awal
yang sudah ditambah istilah dengan masing-masing hasil temu kembali dokumen.
Semakin banyak istilah dan temu kembali dokumen yang dihasilkan, maka
semakin lama waktu komputasi pemilihan ekspansi kueri.
Kelemahan Sistem
Penelitian ini masih memiliki kelemahan yang terdapat pada pengambilan
isitilah ekspansi dari tesaurus. Sistem pada penelitian ini belum mengakomodasi
pengambilan istilah ekspansi secara komutatif. Pada proses pengambilan istilah
sistem hanya mengakomodasi pengambilan setiap term kueri pada tesaurus
dengan satu arah atau tidak bolak-balik. Misalkan terdapat 3 istilah (term) dalam
tesaurus y ng ter iri t s “p i” “ er s” dan “ket n”. Masing-masing istilah
tersebut mempunyai sinonim sebagai berikut:
 “padi” mempuny i sinonim y itu “ nt h” “g h” “beras” n “p ri”.
 “beras” mempuny i sinonim y itu “ iji- iji n” “ utir- utir n” n “g h”.
 “ket n” mempuny i 2 sinonim y itu “padi” n “menir”.
Maka dengan term kueri “p i” pemilihan istilah ekspansi pada penelitian
ini hanya meng m il “ nt h” “g h” “ er s”
n “p ri”. Istil h “ket n” y ng
mempuny i sinonim “p i” tidak akan diambil. Sifat rekursif juga belum
diakomodasi p
peneliti n ini. Istil h eksp nsi “ iji- iji n” n “ utir- utir n”
y ng merup k n sinonim ri “ er s” ti k k n i m il.

SIMPULAN DAN SARAN
Simpulan
Simpulan yang didapat dari hasil penelitian ini adalah penggunan
pendekatan boolean dalam memilih ekspansi kueri menghasilkan hasil temu
kembali dengan nilai recall dan AVP tidak jauh berbeda dengan motode
pemilihan ekspansi kueri bobot irisan (Pancawan 2012). Waktu yang dibutuhkan
pada proses temu kembali penelitian ini juga lebih cepat dibandingkan dengan
Pancawan (2012) hingga mendekati waktu yang diharapkan pengguna. Kecepatan
tersebut dipengaruhi oleh waktu proses eksekusi pemberian bobot kueri untuk
pemilihan istilah ekspansi.

18
Saran
Untuk penelitian selanjutnya yang disaranakan adalah sebagai berikut:
1 Menggunakan metode pemilihan ekspansi lain seperti pendekatan dice, dan
membandingkan hasilnya dengan metode pendekatan boolean.
2 Menambahkan koleksi dokumen uji (korpus) dan kueri yang digunakan.
3 Mengakomodasi sifat komutatif pada pengambilan istilah ekspansi

DAFTAR PUSTAKA
Ackerman M, Loker D, Ortiz AL. 2011. Orthogonal query expansion. CoRR.
2011 Sep 2, [diunduh 2013 Mei 15]; abs/1109.0530. Tersedia pada:
http//arxiv.org/pdf/1109.0530v1.pdf.
Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information
Retrieval. Cambridge (GB): Cambridge University Press.
Nah FF. 2004. Behaviour & information technology. 23(3):153-163.doi:
10.1080/01449290410001669914.
Pancawan MR. 2012. Ekspansi kueri pada sistem temu kembali informasi dengan
thesaurus dan bobot irisan [skripsi]. Bogor (ID): Institut Pertanian Bogor.
[PB] Pusat Bahasa. 2009. Tesaurus Alfabetis Bahasa Indonesia Pusat Bahasa.
Bandung (ID): Mizan Pustaka.
Rahayuni N. 2011. Ekspansi kueri pada sistem temu kembali informasi berbahasa
Indonesia menggunakan thesaurus [skripsi]. Bogor (ID): Institut Pertanian
Bogor.

19
Lampiran 1 Contoh dokumen pengujian

tempointeraktif110210-030
Lahan Pertanian Jawa Tengah Berkurang 2.500 Hektare Tiap
Tahun
Sohirin
11 Februari 2010

TEMPO Interaktif, Semarang – Kepala Badan Bimbingan Massal Ketahanan
Pangan Jawa Tengah Gayatri Indah Cahyani mengatakan, setiap tahun lahan
pertanian Jawa Tengah menyusut antara 2.000 -2.500 hektare akibat alih fungsi
lahan.
Jika hal ini dibiarkan akan mengancam ketahanan pangan Jawa Tengah dan
nasional, mengingat provinsi ini menjadi penyangga kebutuhan beras nasional ke
tiga.
Untuk menghindari alih fungsi lahan pertanian, kata Gayatri, harus ada
perencanaan tata ruang yang memproteksi lahan pertanian abadi. Selain itu, para
bupati dan wali kota juga harus konsisten mempertahankan lahan pertanian.
“Kunciny p
p r up ti n w li kot k ren merek l h y ng mem erik n
izin lih fungsi ” k t G y tri kep
Tempo, Kamis (11/2).
Gayatri menjelaskan, jika tiap hektar sawah menghasilkan lima ton gabah,
dikalikan dua kali panen, maka tiap tahunnya, produksi gabah Jawa Tengah
berkurang antara 20 ribu - 25 ribu ton atau setara 12 ribu - 15 ribu ton beras.
Untuk mempertahankan ketahanan pangan, Jawa Tengah mengupayakan
l h n pert ni n
i se ny k s tu jut hekt re. “S at ini lahan pertanian yang
ada hanya sekitar 900 ri u hekt re ” t m h G y tri.
Tahun lalu, produksi beras Jawa Tengah mencapai sekitar 5,3 juta ton.
Sementara kebutuhan konsumsi beras hanya 2,8 juta ton atau surplus sekitar 2,5
juta ton.
Terpisah, Sekteraris Panitia Khusus Rancangan Peraturan Daerah Tata Ruang
Tata Wilayah Dewan Perwakilan Rakyat Daerah Jawa Tengah, Khafid Sirotuddin
mengatakan, lahan pertanian Jawa Tengah terancam berkurang sekitar 1.000
hektare karena terkena proyek tol Trans-Jawa yang melewati provinsi ini.
“Se is mungkin tol Tr ns-Jawa tidak merubah alih fungsi lahan pertanian.
Kalaupun ada alih fungsi, harus ada l h n pengg nti ” k t Kh fi .
Dalam pembahasan Rencana Tata Ruang dan Tata Wilayah yang akan berlaku
hingga 20 tahun ke depan, diupayakan Jawa Tengah harus memiliki lahan
pertanian abadi sekitar 1,5 juta hektare. "Hal ini sebagai antisipasi pertumbuhan
penduduk Jawa Tengah hingga 20 tahun kedep n ” uj r Kh fi
menambahkan.
Dia juga menegaskan agar para kepala daerah konsisten memegang Tata
Ru ng T t Wil y h. “J ng n s mp i t t ru ng k l h eng n t t u ng sehingg
praktik alih fungsi lahan deng n mu h il kuk n ” t n sny .



20
Lampiran 2 Deskripsi kueri uji
Kueri

Deskripsi Kueri

nilai jual komoditas
rendah

Kueri untuk mencari dokumen yang membahas tentang
harga jual hasil pertanian yang rendah.

persediaan padi
memadai

Kueri untuk mencari dokumen yang membahas tentang
jumlah stok beras dalam negeri yang masih bisa
mencukupi kebutuhan dalam negeri.

sawah hancur terendam
air

Kueri untuk mencari dokumen yang membahas tentang
area pertanian yang rusak karena banjir atau terendam
air.

sawah kering
kekurangan air

Kueri untuk mencari dokumen yang membahas tentang
area pertanian yang rusak karena kekeringan.

area pertanian semakin
berkurang

Kueri untuk mencari dokumen yang membahas tentang
banyaknya lahan pertanian yang beralih fungsi atau
penyempitan lahan pertanian.

tarif humus tinggi

Kueri untuk mencari dokumen yang membahas tentang
harga humus, pupuk, urea yang mahal dikalangan
petani.

upaya peningkatan
produksi pertanian

Kueri untuk mencari dokumen yang membahas tentang
hal yang sudah dilakukan
pemerintah/petani/balitbang/instansi yang berkaitan
dengan peningkatkan produksi pertanian dalam negeri.

produk asing murah
produksi pertanian
rendah
produktivitas pertanian
rendah
petani sulit
mendapatkan humus

Kueri untuk mencari dokumen yang membahas tentang
harga komoditas impor yang lebih murah daripada
produk lokal.
Kueri untuk mencari dokumen yang membahas tentang
hasil produksi dalam negeri yang lebih rendah dari
waktu produksi sebelumnya.
Kueri untuk mencari dokumen yang membahas tentang
hasil pertanian atau produktivitas pertanian dalam
negeri yang rendah.
Kueri untuk mencari dokumen yang membahas tentang
kondisi petani yang kesulitan untuk memperoleh
humus, pupuk, urea.

sawah rusak berat

Kueri untuk mencari dokumen yang membahas tentang
kondisi sawah yang rusak berat atau puso karena
serangan hama, banjir, dan kekeringan

mutu hasil pertanian
rendah

Kueri untuk mencari dokumen yang membahas tentang
mutu hasil pertanian dalam negeri yang masih rendah,
atau tidak memenuhi syarat pasar international.

21
Lampiran 2 Lanjutan
Kueri

Deskripsi Kueri

produksi pertanian
meningkat

Kueri untuk mencari dokumen yang membahas tentang
hasil produksi dalam negeri yang mengalami
peningkatan dari waktu sebelumnya.

kesejahteraan petani
rendah

Kueri untuk mencari dokumen yang membahas tentang
kesejahteraan petani yang masih terus rendah atau
miskin.

wereng serang lahan
pertanian

Kueri untuk mencari dokumen yang membahas tentang
hama tikus, belalang, ulat, dan lainya yang menyerang
area pertanian.

bidang pertanian belum
berkembang

Kueri untuk mencari dokumen yang membahas tentang
kondisi bidang atau sektor pertanian yang belum atau
tidak banyak berkembang sampai saat ini.

angsuran pertanian
sedikit

Kueri untuk mencari dokumen yang membahas tentang
angsuran atau kredit untuk sektor pertanian atau petani
yang sedikit.

dana bidang pertanian
rendah

Kueri untuk mencari dokumen yang membahas tentang
pemberian dana anggaran untuk bidang pertanian masih
sedikit.

permintaan humus naik

Kueri untuk mencari dokumen yang membahas tentang
adanya peningkatan permintaan pupuk dikalangan
petani.

penanganan penyakit
virus flu burung

Kueri untuk mencari dokumen yang membahas tentang
upaya menangani terkait penyakit virus flu burung

pemanfaatan tanaman
obat

Kueri untuk mencari dokumen yang membahas tentang
semua pemanfaatan berbagai jenis tanaman obat

keuntungan penerapan
teknologi pertanian

Kueri untuk mencari dokumen yang membahas tentang
keuntungan atas penerapan teknologi dalam pertanian

keunggulan pertanian
organik

Kueri untuk mencari dokumen yang membahas tentang
keunggulan pertanian organik dibandingkan dengan
pertanian an-organik

sulit memasarkan hasil
pertanian

Kueri untuk mencari dokumen yang membahas tentang
kesulitan yang dialami petani dalam memasarkan hasil
pertaniannya

22
Lampiran 2 Lanjutan
Kueri

Deskripsi Kueri

upaya pengawasan
keamanan pangan

Kueri untuk mencari dokumen yang membahas tentang
upanya dalam mengawasi pangan agar layak dan halal
dimakan

mendapatkan bantuan
modal pertanian

Kueri untuk mencari dokumen yang membahas tentang
petani yang mendapat bantuan modal pertanian baik
dalam bentuk uang,alat/fasilitas pertanian

produk impor
merugikan petani lokal

Kueri untuk mencari dokumen yang membahas tentang
hal-hal yang memberi dampak merugikan petani lokal
oleh produk impor

kerjasama negara
bidang pertanian

Kueri untuk mencari dokumen yang membahas tentang
program kerjasama dengan negara asing dibidang
pertanian

penyakit menyerang
hewan ternak

Kueri untuk mencari dokumen yang membahas tentang
penyakit/virus yang menyerang hewan ternak

23

RIWAYAT HIDUP
Penulis dilahirkan di Aritonang, 24 April 1989 dari ayah Maju Siagian dan
ibu Rosdiana Sianturi. Penulis merupakan anak ke-4 dari 6 bersaudara.
Penulis menempuh pendidikan sekolah dasar di SD Negeri 175798
Aritonang, sekolah menengah pertama di SMP Negeri 2 Aritonang, sekolah
menengah atas di SMA Negeri 1 Muara. Pada tahun 2007 penulis melanjutkan
program studi Diploma III di Politeknik Pos Indonesia Bandung jurusan
Manajemen Informatika dan selesai pada tahun 2010. Pada tahun yang sama
penulis melanjutkan pendidikan sarjana di IPB. Penulis diterima di Departemen
Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut
Pertanian Bogor.