Relevance Feedback pada Temu Kembali Teks Berbahasa Indonesia dengan Metode Ide-Dec-Hi dan Ide-Regular

RELEVANCE FEEDBACK PADA TEMU KEMBALI TEKS
BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI
DAN IDE-REGULAR

Oleh:
Andika Wahyu Agusetyawan
G64101007

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2006

RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS
BERBAHASA INDONESIA DENGAN METODE IDE-DEC-HI
DAN IDE-REGULAR

Skripsi
Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer
pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor


Oleh:
Andika Wahyu Agusetyawan
G64101007

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2006

ABSTRAK
ANDIKA WAHYU AGUSETYAWAN. Relevance Feedback pada Temu Kembali Teks
Berbahasa Indonesia dengan Metode Ide-Dec-Hi dan Ide-Regular. Dibimbing oleh JULIO
ADISANTOSO dan AHMAD RIDHA.
Tujuan penelitian ini adalah mengimplementasikan dan menganalisis kinerja perluasan kueri
dengan relevance feedback pada sistem temu kembali informasi untuk dokumen berbahasa
Indonesia. Metode relevance feedback yang digunakan adalah Ide-Dec-Hi dan Ide-Regular. Untuk
kepentingan pengujian, penelitian ini juga melengkapi corpus yang digunakan dengan 30 kueri
disertai gugus jawabannya. Evaluasi kinerja relevance feedback dilakukan menggunakan test and
control group. Masing-masing group terdiri atas 500 dokumen yang berupa artikel-artikel

pertanian berbahasa Indonesia dari berbagai situs media massa. Sistem dasar yang digunakan
adalah sistem temu kembali berbasis vector space model hasil penelitian Ridha (2002). Sistem ini
melakukan rule-based stemming sekaligus memakai stoplist untuk bahasa Indonesia. Variasi
jumlah dokumen yang diperiksa yakni lima dan sepuluh.
Hasil penelitian menunjukkan bahwa relevance feedback secara keseluruhan meningkatkan
kinerja sistem temu kembali. Siklus relevance feedback dalam penelitian ini telah menunjukkan
hasil memuaskan pada iterasi pertama. Peningkatan kinerja terbesar diperoleh ketika menggunakan
formula Ide-Dec-Hi. Hasil ini sesuai dengan hasil penelitian Ruthven & Lalmas (2003). Kinerja
sistem tanpa relevance feedback adalah 0.447 sedangkan dengan Ide-Dec-Hi mencapai 0.516,
meningkat 15.44%. Sementara menggunakan Ide-Regular peningkatan yang diperoleh adalah
14.54%, menjadi 0.512. Dari perbandingan query-by-query dapat disimpulkan bahwa penggunaan
relevance feeback tidak terlalu membantu pada kueri yang kinerja awalnya memang sudah tinggi.
Sebaliknya, untuk kueri-kueri yang memberikan hasil buruk pada pencarian awal, relevance
feedback sangat cocok untuk digunakan dan menjanjikan peningkatan kinerja yang cukup tinggi.

Kata Kunci: Temu Kembali Informasi, Relevance Feedback, formula Rocchio, Ide-Dec-Hi dan
Ide-Regular.

Judul
Nama

NRP

: Relevance Feedback pada Temu Kembali Teks Berbahasa
Indonesia dengan Metode Ide-Dec-Hi dan Ide-Regular
: Andika Wahyu Agusetyawan
: G64101007

Menyetujui:
Pembimbing I,

Pembimbing II,

Ir. Julio Adisantoso, M.Kom
NIP 131578807

Ahmad Ridha, S.Kom
NIP 132311931

Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Dr. Ir. Yonny Koesmaryono, MS
NIP 131473999

Tanggal Lulus :

RIWAYAT HIDUP
Penulis dilahirkan di Kendal pada tanggal 14 Agustus 1983 dari ayah Sugeng dan ibu Sri
Wahyuni. Penulis merupakan putra kedua dari dua bersaudara. Tahun 2001 penulis lulus dari SMU
Negeri 1 Kendal dan pada tahun yang sama diterima di IPB melalui jalur Undangan Seleksi Masuk
IPB (USMI). Penulis memilih Program Studi Ilmu Komputer, Departemen Ilmu Komputer,
Fakultas Matematika dan Ilmu Pengetahuan Alam.
Pada tahun 2005 penulis menjalankan praktek lapangan di Rumah Sakit Azra Bogor, Divisi
Sistem Informasi Rumah Sakit selama kurang lebih dua bulan. Di tahun yang sama penulis
berkesempatan menjadi pengembang Sistem Informasi Akademik Universitas Winaya Mukti di
Jatinangor, Sumedang. Pada bulan Agustus tahun 2005 penulis beserta dua rekan seangkatan
mendirikan CV INTEGRA SOLUSI AKSESINDO, sebuah perusahaan konsultan teknologi
informasi yang berlokasi di Bogor.


PRAKATA
Alhamdulillah wa syukrulillah penulis panjatkan ke hadirat Allah Subhanahu wa ta’ala atas
segala rahmat, kasih sayang, hidayah dan cinta-Nya sehingga skripsi ini berhasil diselesaikan.
Shalawat serta salam selalu untuk Nabi Muhammad Shallalahu ‘alaihi wasallam beserta seluruh
sahabat dan umatnya hingga akhir zaman. Tema yang dipilih pada penelitian ini adalah temu
kembali informasi, dengan judul Relevance Feedback pada Temu Kembali Teks Berbahasa
Indonesia Dengan Metode Ide-Dec-Hi dan Ide-Regular.
Penulis sampaikan terima kasih kepada semua pihak yang telah membantu dan memberikan
pengalaman yang menyenangkan selama melakukan penelitian ini. Khususnya kepada Bapak Ir.
Julio Adisantoso, M.Kom dan Bapak Ahmad Ridha, S.Kom serta Ibu Yeni Herdiyeni, S.Si,
M.Kom yang telah memberikan begitu banyak masukan, bimbingan dan pelajaran berharga selama
menjadi pembimbing dan penguji. Selanjutnya penulis juga ingin mengucapkan terima kasih
kepada:
1. Keluarga tercinta, khususnya kedua orang tua penulis atas rasa cinta, kasih sayang, kesabaran,
dukungan dan doa yang tak pernah berhenti, yang selalu meringankan langkah penulis bahkan
di saat-saat terberat sekalipun. Terima kasih juga kepada Mas A’an yang selalu memberi
inspirasi, semangat dan ide-ide baru.
2. Ratna Purnama Sari, yang dengan kesabarannya dan keceriaannya semakin memantapkan
langkah penulis di setiap harinya.
3. Sahabat-sahabat Ilkom angkatan 38, terimakasih atas persahabatan kita yang penuh gelak tawa

selama ini.
4. Sahabat-sahabat ‘serumah’ di Pakuan.
5. Departemen Ilmu Komputer, staf dan dosen yang telah begitu banyak membantu baik selama
pelaksanaan skripsi ini maupun sebelumnya.
Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan
penelitian ini yang tidak dapat disebutkan satu-persatu, terima kasih.
Semoga penelitian ini dapat memberikan manfaat.

Bogor, Januari 2006

Andika Wahyu Agusetyawan

DAFTAR ISI
Halaman
DAFTAR TABEL ............................................................................................................. viii
DAFTAR GAMBAR .........................................................................................................

ix

DAFTAR LAMPIRAN .....................................................................................................


x

PENDAHULUAN .............................................................................................................
Latar Belakang ...........................................................................................................

1

Tujuan ........................................................................................................................

1

Ruang Lingkup ...........................................................................................................

1

TINJAUAN PUSTAKA
Information Retrieval System (Sistem Temu Kembali Informasi) ..............................

1


Query (Kueri) ..............................................................................................................

2

Daftar Kata Buang.......................................................................................................

2

Stemming .....................................................................................................................

2

Vector Space Model (VSM) ........................................................................................

2

Pembobotan Istilah.......................................................................................................

2


Query Expansion (Perluasan Kueri) dan Relevance Feedback....................................

3

Pembobotan dan Pemilihan Istilah ..............................................................................

3

Corpus .........................................................................................................................

4

Recall –Precision ........................................................................................................

4

Average Precision (AVP)............................................................................................

4


Algoritma RF...............................................................................................................

4

METODOLOGI
Algoritma RF .............................................................................................................

5

Sistem Temu Kembali dan Evaluasinya ....................................................................

5

Evaluasi RF................................................................................................................

5

Corpus........................................................................................................................


6

Asumsi-asumsi...........................................................................................................

6

Lingkungan Pengembangan.......................................................................................

7

HASIL DAN PEMBAHASAN
Gugus Kueri dan Gugus Jawaban ..............................................................................

6

Evaluasi RF................................................................................................................

6

KESIMPULAN DAN SARAN
Kesimpulan ...............................................................................................................

9

Saran .........................................................................................................................

10

DAFTAR PUSTAKA ........................................................................................................

10

DAFTAR TABEL
Halaman
1.

Deskripsi koleksi pengujian .................................................................................................... 7

2.

Contoh hasil pooling beberapa kueri....................................................................................... 7

3.

Perbandingan nilai average precision sebelum dan setelah menggunakan RF ....................... 8

4.

Daftar nilai Sig. pada Wilcoxon Signed Ranks Test (α=0.05) ................................................. 8

DAFTAR GAMBAR
Halaman
1.

Kurva recall-precision RG5 dan DH5 pada iterasi ke-1 ......................................................... 9

2.

Kurva recall-precision RG10 dan DH10 pada iterasi ke-1 ..................................................... 9

3.

Kurva recall-precision RG5 dan DH5 pada iterasi ke-2 ......................................................... 9

4.

Kurva recall-precision RG10 dan DH10 pada iterasi ke-2 ..................................................... 9

DAFTAR LAMPIRAN
Halaman
1.

Proses penemukembalian informasi (Baeza-Yates & Ribeiro-Neto 1999) ............................. 13

2.

Antarmuka implementasi ........................................................................................................ 14

3.

Contoh dokumen dalam koleksi.............................................................................................. 15

4.

Contoh kueri dan deskripsinya................................................................................................ 16

5.

Gugus kueri dan gugus jawaban ............................................................................................. 17

6.

Perbandingan query-by-query ................................................................................................. 21

1

PENDAHULUAN
Latar Belakang
Sejalan dengan semakin populernya
penggunaan Internet dan Perpustakaan
Digital, informasi dalam jumlah yang luar
biasa besar kini bisa diakses secara luas oleh
masyarakat, suatu hal yang tidak tersedia di
masa lalu. Akan tetapi bersamaan dengan itu,
muncul masalah baru. Pengguna kini harus
menyaring seluruh kumpulan informasi
tersebut untuk menemukan kebutuhan
informasinya. Bahkan setelah melalui bantuan
search engine pun, yang rata-rata kini telah
mengindeks milyaran halaman Web dari
beragam kategori, setelah disaring melalui
penggunaan kata kunci, pengguna seringkali
belum bisa menemukan dokumen yang
relevan dengan informasi yang dicarinya.
Dalam temu kembali informasi, jumlah
dokumen relevan yang ditemukembalikan
akan dipengaruhi oleh jumlah kata kunci yang
digunakan untuk pencarian. Dalam Web,
pencarian
pada
umumnya
dilakukan
menggunakan kueri pendek, hanya kurang
dari tiga kata (Spink et al. 2000). Hal ini
cukup menyulitkan karena kueri pendek hanya
menyediakan sedikit informasi bagi sistem
temu kembali mengenai kebutuhan pencarian
pengguna. Sebagai hasilnya adalah meskipun
jumlah dokumen yang ditemukembalikan
banyak akan tetapi hanya sedikit yang
dianggap relevan oleh pengguna.
Masalah lain yang sering terjadi dalam
Web dan Perpustakaan Digital adalah pilihan
kata yang digunakan pengguna dalam kueri
seringkali berbeda dengan pilihan kata yang
yang digunakan penulis dalam dokumen.
Bahkan ketika beberapa pengguna memiliki
kebutuhan informasi yang sama, jarang
mereka menggunakan pilihan kata yang sama
untuk menggambarkannya dalam kueri (Xu &
Croft 2005). Beberapa pendekatan dalam
temu kembali informasi telah dilakukan untuk
menangani perbedaan ini.
Salah
satu
pendekatannya
adalah
penggunaan relevance feedback. Dalam
pendekatan ini sistem menemukembalikan
dokumen-dokumen yang mungkin relevan
bagi kueri pengguna, selanjutnya pengguna
memeriksa beberapa dokumen tersebut dan
menandai dokumen yang dianggap relevan.
Informasi ini digunakan oleh sistem untuk
memodifikasi atau menambahkan kata dalam
kueri dan diharapkan meningkatkan hasil
pencarian. Siklus ini bisa terus diulang sampai

pengguna merasa kebutuhan informasinya
telah terpenuhi.
Tujuan
Penelitian
ini
bertujuan
mengimplementasikan dan menganalisis
kinerja perluasan kueri dengan relevance
feedback pada sistem temu kembali informasi
untuk dokumen berbahasa Indonesia.
Ruang Lingkup
Penelitian ini dibatasi pada analisis kinerja
relevance feedback pada sistem temu kembali
informasi berbahasa Indonesia menggunakan
formula Ide-Dec-Hi dan Ide-Regular. Model
sistem temu kembali yang digunakan adalah
vector space model.

TINJAUAN PUSTAKA
Information Retrieval System (Sistem Temu
Kembali Informasi)
Tujuan utama sebuah information retrieval
system (IRS) adalah menemukembalikan
informasi yang mungkin berguna atau relevan
bagi pengguna sesuai dengan kueri yang telah
dimasukkannya. Penekanannya adalah pada
penemukembalian informasi, bukan data
(Baeza-Yates
&
Ribeiro-Neto
1999).
Kerangka proses penemukembalian informasi
dapat dilihat pada Lampiran 1.
IRS memberikan pengguna kemampuan
untuk bisa mengakses informasi elektronik
dalam jumlah yang sangat besar dalam waktu
yang relatif singkat. Informasi tersebut bisa
berupa dokumen teks, halaman web, gambar,
audio atau video.
Sejumlah fitur membedakan IRS dengan
sistem pencarian informasi yang lain, antara
lain IRS tidak menyaring dan tidak pula
memproses informasi yang terkandung dari
objek informasi yang diaksesnya. Data yang
diakses IRS juga biasanya tidak berstruktur,
begitu pula informasi yang diterimanya
(Ruthven & Lalmas 2003). Berbeda dengan
sistem basisdata yang kuerinya terikat dalam
aturan tertentu, IRS bisa menangani kueri
seperti “Bagaimana keadaan perekonomian
Irak setelah jatuhnya rezim Saddam
Husein?” atau “Apa saja penelitian di bidang
temu kembali informasi yang telah dilakukan
mahasiswa Indonesia?”. IRS pada dasarnya
memang
ditujukan
untuk
menangani
permintaan informasi yang jawabannya tidak
harus unik atau objektif.

2

Query (Kueri)
Menurut Baeza-Yates & Ribeiro-Neto
(1999), kueri adalah pernyataan kebutuhan
informasi pengguna dalam bentuk masukan
berupa bahasa yang dikenali oleh sistem
informasi. Jenis bahasa masukan sederhana
yang paling banyak digunakan adalah kata
kunci dan beberapa penghubung berupa
ekspresi Boolean.
Daftar Kata Buang
Salah satu langkah dalam pengindeksan
adalah menghilangkan istilah-istilah yang
sangat sering muncul dalam koleksi dan yang
tidak membantu penemukembalian dokumen
relevan. Daftar istilah-istilah yang dihilangkan
ini disebut daftar kata buang (stoplist). Daftar
kata buang dapat berupa daftar yang dibuat
secara umum yang bisa digunakan pada
kebanyakan jenis koleksi atau daftar yang
khusus dibuat untuk satu koleksi tertentu.
(Ruthven & Lalmas 2003). Daftar kata buang
biasanya kebanyakan terdiri dari kata sandang
dan kata penghubung (Selberg 1997). Semisal
“sang”, ”si”, ”namun”, dan “tetapi”.
Stemming
Istilah bisa muncul dalam berbagai variasi
linguistik dari kata yang sama. Sebagai
contoh, kata “petani” dan “bertani”
sebenarnya berasal dari satu bentuk dasar
yaitu “tani”. Dalam sistem temu kembali hal
ini akan cukup menyulitkan pengguna karena
ketika pengguna memasukkan kueri ”bertani”,
sistem akan menemukembalikan semua
dokumen yang mengadung kata “bertani” tapi
tidak yang mengandung kata “petani”.
Untuk menghindari kesulitan tersebut
sehingga pengguna tidak perlu mencoba
semua kemungkinan variasi untuk setiap kata
dalam kueri, banyak sistem temu kembali
yang mengubah istilah-istilahnya ke bentuk
dasarnya. Proses ini disebut stemming
(Ruthven & Lalmas 2003).
Vector Space Model (VSM)
Vector space model merupakan model
temu kembali yang paling populer sekaligus
sederhana (Baeza-Yates & Ribeiro-Neto
1999). Berikut adalah beberapa definisi
matematika yang digunakan dalam VSM
(Selberg 1997):
1. D={d0, d1, ..., dN} adalah himpunan N
dokumen dalam koleksi. d mengacu pada
sembarang dokumen di ∈ D.

2. T={t0, t1, ..., tm } adalah himpunan m
istilah yang terindeks dalam D. t mengacu
pada sembarang istilah ti ∈ T.
3. wi adalah bobot dari istilah ti. Bobot bisa
diartikan sebagai suatu nilai numerik yang
menyatakan tingkat kepentingan sebuah
istilah.
4. di adalah sebuah dokumen tunggal,
direpresentasikan
sebagai
vektor
berdimensi m, di=[wi1, wi2, ..., wim] dengan
wij adalah bobot istilah tj dalam dokumen
di. Dalam kasus paling sederhana, wij
bernilai 1 jika istilah tj muncul dalam
dokumen di, dan wij bernilai 0 jika
sebaliknya.
5. Q adalah kueri yang direpresentasikan
sebagai sebuah vektor berdimensi m, mirip
dengan dokumen, Q=[w1, w2, ...,wm]
dengan wi adalah bobot istilah ti dalam Q.
Hasil
penemukembalian
ditampilkan
berupa daftar dokumen yang telah teranking
berdasar tingkat kesamaan dokumen dengan
kueri. Ukuran kesamaan sim(dj,q) antara
dokumen di dan kueri Q dihitung
menggunakan kosinus sudut antara di dan Q
sebagai berikut (Baeza-Yates & Ribeiro-Neto
1999):

sim(d i , Q ) =

di • Q
.
|| d i || × || Q ||

Pembobotan Istilah
Pembobotan dilakukan terhadap istilahistilah yang berada dalam dokumen koleksi.
Sistem temu kembali yang paling sederhana
memboboti dengan bobot biner, 1 jika istilah
itu muncul di dokumen dan 0 jika sebaliknya.
Semakin canggih suatu sistem temu kembali,
semakin kompleks skema pembobotannya.
Berbagai macam penelitian dalam temu
kembali informasi selama bertahun-tahun
telah menunjukkan bahwa pembobotan yang
optimal didapatkan melalui penggunaan
fungsi tf*idf (Liddy 2001). Pada fungsi tf*idf
bobot istilah ke-i pada dokumen ke-j dihitung
dari perkalian term frequency dan inverse
document frequency yang dinyatakan sebagai
berikut (Baeza-Yates & Ribeiro-Neto 1999):

wi , j = tf * idf ,
selanjutnya

tf =

freqi , j

maxl ( freql, j )

,

3

dengan
freqi,j
merupakan
frekuensi
kemunculan istilah ke-i dalam dokumen ke-j,
maxl(freql,j) sebagai frekuensi maksimum
istilah-istilah yang berada dalam dokumen kej dan

idf = log

N
,
ni

dengan N adalah jumlah total dokumen dalam
koleksi serta ni merupakan jumlah dokumen
yang mengandung istilah ke-i.
Query Expansion (Perluasan Kueri) dan
Relevance Feedback
Menurut Selberg (1997), perluasan kueri
adalah
sekumpulan
teknik
untuk
memodifikasi kueri dengan tujuan untuk
memenuhi sebuah kebutuhan informasi.
Seringnya modifikasi dilakukan dengan
penambahan istilah ke dalam kueri, meskipun
sebenarnya perluasan kueri juga meliputi
penyesuaian bobot dan penghapusan istilah
kueri.
Perluasan kueri bisa dilakukan dengan
salah satu dari dari tiga metode berikut:
1. Manual Query Expansion (MQE)
Menggunakan metode ini pengguna
memodifikasi kueri secara manual. Sistem
tidak memberikan bantuan sama sekali
kepada pengguna.
2. Automatic Query Expansion (AQE)
Dalam metode ini sistem akan
memodifikasi kueri secara otomatis tanpa
perlu bantuan kendali dari pengguna.
Beberapa teknik yang biasa digunakan
antara lain:
a. Global Analysis (GA)
GA beroperasi dengan cara
memeriksa seluruh dokumen yang ada
dalam koleksi untuk membangun suatu
struktur yang mirip dengan tesaurus.
Menggunakan tesaurus ini, kueri akan
diperluas dengan istilah-istilah yang
dianggap berhubungan erat dengan
istilah kueri dalam ruang lingkup
koleksi (Baeza-Yates & Ribeiro-Neto
1999).
b. Local Analysis (LA)
Dalam LA, sistem menemukembalikan dokumen dengan sebuah
kueri awal, memilih dan memeriksa
sejumlah dokumen dengan ranking
teratas,
mengasumsikan
bahwa
dokumen-dokumen teratas tersebut
relevan,
untuk
kemudian

membangkitkan sebuah kueri baru
(Baeza-Yates & Ribeiro-Neto 1999).
c. Local Context Analysis (LCA)
LCA merupakan sebuah teknik
baru yang mengkombinasikan GA dan
LA. Berdasar penelitian Xu dan Croft
(1996), LCA mampu mengalahkan
efektifitas dan konsistensi dari GA dan
LA.
3. Interactive Query Expansion (IQE)
IQE mencakup metode-metode yang
di dalamnya pengguna melakukan
interaksi dengan sistem dalam proses
perluasan kueri. Teknik yang tercakup di
dalamnya adalah relevance feedback dan
teknik inilah yang menjadi topik dalam
penelitian ini.
Relevance feedback (RF) adalah
metode yang sudah diterima secara luas
untuk meningkatkan keefektifan penemukembalian secara interaktif. Sebuah
pencarian awal dilakukan oleh sistem
menggunakan kueri yang diberikan oleh
pengguna dan sebagai hasilnya menemukembalikan
sejumlah
dokumen.
Pengguna memeriksa dokumen-dokumen
tersebut dan menandai dokumen yang
dianggap relevan. Sistem kemudian
secara otomatis memodifikasi kueri
berdasar penilaian relevansi pengguna
tadi. Kueri baru dijalankan untuk
menemukembalikan kumpulan dokumen
yang lebih relevan. Proses ini dapat
berulang hingga pengguna merasa
kebutuhan
informasinya
terpenuhi
(Buckley et al. 1994 ).
Penelitian yang dilakukan Ruthven
dan Lalmas (2003) melalui simulasi yang
dilakukan pada pengguna berpengalaman,
menyimpulkan bahwa IQE memberikan
peningkatan kinerja yang lebih stabil
daripada AQE. Sementara Belkin et al.
(1997) menunjukkan bahwa kinerja RF
tidak lebih buruk dibandingkan LCA.
Pembobotan dan Pemilihan Istilah
Teknik RF biasanya berfokus pada salah
satu dari dua pendekatan berikut:
1. Pembobotan Istilah, adalah sebuah proses
yang di dalamnya istilah-istilah kueri
diboboti atau disesuaikan bobotnya. Bobot
masing-masing istilah akan berbeda,
bergantung pada tingkat kepentingan
istilah tersebut untuk menemukembalikan
tambahan dokumen relevan.
2. Pemilihan Istilah, adalah sebuah proses
penambahan, atau dalam beberapa kasus,
penghapusan istilah-istilah kueri. Biasanya

4

pemilihan
istilah
diimplementasikan
dengan menggunakan sebuah formula
perankingan untuk mengurutkan seluruh
istilah yang menjadi kandidat, dan
kemudian memilih x kandidat teratas
(Selberg 1997).
Corpus
Istilah corpus terutama dikenal dalam
bidang linguistik yang pada prinsipnya
bermakna koleksi yang memiliki lebih dari
satu teks. Suatu corpus modern memiliki
beberapa karakteristik yakni (McEnery &
Wilson 2001):
1. Sampling & representativeness
2. Finite size
3. Machine-readable form
4. A standard reference
Menurut Hiemstra & Leeuwen (2001),
suatu corpus pengujian sistem temu kembali
informasi terdiri dari koleksi dokumen, topiktopik, yang dapat digunakan sebagai kueri,
dan penilaian relevansi sebagai daftar
dokumen yang relevan dengan topik-topik
yang tersedia.
Corpus dapat menyediakan pendekatan
yang seragam dalam evaluasi kinerja sistem
temu kembali informasi. Teknik evaluasi ini
juga digunakan dalam Text Retrieval
Conference (TREC).
Dalam TREC, daftar dokumen relevan
untuk setiap topik/kueri didapat melalui
sebuah
kumpulan
dokumen
yang
dimungkinkan relevan yang disebut pool.
Pool ini dibentuk dari K dokumen teratas
(biasanya K=100) dari hasil perankingan oleh
beberapa sistem temu kembali informasi yang
telah teruji kinerjanya. Dokumen-dokumen
dalam pool kemudian diperlihatkan pada
penguji untuk memberikan penilaian relevansi
untuk tiap dokumen.
Teknik mendapatkan daftar dokumen
relevan ini disebut metode pooling dan
berdasar pada dua asumsi. Pertama, nyaris
seluruh
dokumen
relevan
berhasil
dikumpulkan ke dalam pool. Kedua,
dokumen-dokumen yang tidak termasuk
dalam pool dianggap tidak relevan. Kedua
asumsi ini telah terbukti akurat dalam
pengujian yang dilakukan pada konferensi
TREC (Baeza-Yates & Ribeiro-Neto 1999).
Recall –Precision
Recall dan precision dapat dinyatakan
sebagai berikut (Baeza-Yates & Ribeiro-Neto
1999):

Recall =

|| Ra ||
,
|| R ||

Precision =

|| Ra ||
,
|| A ||

dengan Ra adalah jumlah dokumen relevan
yang ditemukembalikan, R adalah jumlah
dokumen relevan dalam koleksi dan A adalah
jumlah dokumen yang ditemukembalikan.
Average Precision (AVP)
Average Precision adalah suatu ukuran
evaluasi IRS yang diperoleh dengan
menghitung rata-rata tingkat precision pada
berbagai tingkat recall, yang. biasanya
digunakan adalah sebelas tingkat recall
standar yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6,
0.7, 0.8, 0.9, dan 1.0.
Adakalanya tingkat recall yang bisa didapat
untuk tiap kueri kurang dari sebelas tingkat
recall standar yang ada. Untuk kasus seperti
ini digunakan prosedur interpolasi. Misalkan
rj, j ∈ {0, 1, 2,. . . ,10} adalah tingkat recall
standar ke-j maka

P(rj ) = maxrj ≤r ≤rj +1 P(r ) ,
sehingga precision terinterpolasi pada tingkat
recall standar ke-j adalah precison tertinggi
pada setiap tingkat recall antara j hingga (j+1)
(Baeza-Yates & Ribeiro-Neto 1999).
Algoritme RF
Teknik RF ditemukan pertama kali oleh
Rocchio dan diterapkan dalam vector space
model. Rocchio memandang temu kembali
sebagai permasalahan mencari sebuah kueri
optimal, yaitu kueri yang memaksimalkan
selisih antara vektor rataan dokumen relevan
dengan vektor rataan dokumen tak-relevan.
RF berguna untuk mendekatkan vektor
kueri ke vektor rataan dokumen relevan dan
menjauhkan dari vektor rataan dokumen takrelevan. Ini bisa dilakukan melalui
penambahan istilah kueri dan penyesuaian
bobot istilah kueri sehingga sesuai dengan
kegunaan istilah tersebut dalam fungsinya
membedakan dokumen relevan dan takrelevan (Ruthven & Lalmas 2003).
Formula awal Rocchio adalah sebagai
berikut:

Q1 = Q0 +

1
n1

n1

∑ Ri −
i =1

1
n2

n2

∑S
i =1

i

,

5

dengan Q0=vektor kueri awal, Q1=vektor
kueri baru, n1=jumlah dokumen relevan,
n2=jumlah dokumen tak-relevan, Ri=vektor
dokumen relevan ke-i, Si=vektor dokumen
tak-relevan
ke-i.
Kueri
yang
telah
termodifikasi akan memiliki istilah-istilah
baru (dari dokumen-dokumen relevan). Selain
itu penyesuaian bobot diterapkan terhadap
istilah-istilah kueri. Jika bobot istilah kueri
turun hingga nol atau di bawah nol, istilah
tersebut dihilangkan dari kueri.
Ide (1971), diacu dalam Ruthven &
Lalmas
(2003), kemudian
melakukan
modifikasi terhadap formula Rocchio,
dinamakan Ide-Dec-Hi, dengan menggunakan
hanya dokumen tak-relevan pertama yang
ditemukembalikan. Formula tersebut adalah
sebagai berikut:
nr

Q1 = Q0 + ∑ ri − si ,
i

dengan nr=jumlah dokumen relevan ,
ri=vektor dokumen relevan ke-i, si=vektor
dokumen tak-relevan pertama.
Modifikasi lain yang lazim dilakukan
adalah dengan memboboti kontribusi relatif
kueri awal, dokumen relevan dan dokumen
tak-relevan terhadap proses RF. Dalam
persamaan di bawah ini, nilai α, β dan γ
merupakan derajat pengaruh tiap komponen
dalam RF.

Q1 = α .Q0 +

β
n1

n1

γ

i =1

n2

∑ Ri −

n2

∑S
i =1

i

,

Versi yang lebih baru lagi dari skema Ide
adalah Ide-regular, yang menggunakan semua
dokumen
non-relevan
yang
ditemukembalikan. Ide-regular juga berdasar
formula Rocchio namun tidak melakukan
normalisasi terhadap vektor-vektor dokumen.
Berikut adalah formula Ide-regular:
n1

n2

i =1

i =1

Q1 = Q0 + ∑ Ri −∑ S i .

METODOLOGI
Algoritme RF
Penelitian ini akan menginvestigasi kinerja
relatif dua algoritme RF yaitu Ide-Dec-Hi dan
Ide-Regular. Keduanya dipilih karena
meskipun formula Ide-Dec-Hi dan IdeRegular tidak memberikan peningkatan
kinerja yang signifikan namun lebih konsisten

dibanding formula Rocchio (Ruthven &
Lalmas 2003).
Sistem Temu Kembali dan Evaluasinya
Sistem dasar yang digunakan untuk
pengujian RF adalah sistem temu kembali
hasil penelitian Ridha (2002). Sistem yang
dihasilkan menggunakan vector space model
dengan pembobotan tf*idf. Dalam penelitian
ini diterapkan rule-based stemming dan
penggunaan daftar kata buang dalam Bahasa
Indonesia.
Cara
yang
paling
umum
untuk
mengevaluasi sistem temu kembali adalah
dengan menentukan kinerjanya dalam recall
dan precision. Hal ini dilakukan dengan
menggunakan koleksi pengujian yang terdiri
dari kumpulan dokumen yang disertai gugus
kueri dan penilaian relevansinya (gugus
jawaban).
Dari hasil penemukembalian yang
dilakukan sistem, dihitung precision pada
berbagai tingkat recall. Tingkat recall yang
digunakan adalah sebelas tingkat recall
standar terinterpolasi. Hasilnya kemudian
dirata-rata untuk mendapatkan average
precision (AVP).
Evaluasi RF
Chang et al. (1971), diacu dalam Ruthven
& Lalmas (2003) menunjukkan bahwa
evaluasi algoritme RF memiliki beberapa
masalah berkaitan dengan recall dan
precision. RF bertujuan untuk meningkatkan
recall dan precision berdasar informasi dari
dokumen-dokumen relevan yang diidentifikasi
pengguna, hal ini biasanya akan membuat
dokumen-dokumen relevan yang telah
diidentifikasi (yaitu dokumen relevan yang
digunakan oleh RF) terdorong menempati
ranking teratas. Ranking effect ini seolah-olah
membuat kurva recall-precision meningkat
tajam karena sistem meranking ulang
dokumen relevan yang telah diidentifikasi.
Seberapa
banyak
RF
meningkatkan
penemukembalian dokumen relevan yang
belum teridentifikasi, feedback effect-nya,
justru tidak terdeteksi.
Untuk mengatasi masalah pengukuran
feedback effect, digunakan teknik test and
control groups. Dalam teknik ini, koleksi
dokumen dibagi menjadi dua bagian, test
group dan control group. Modifikasi kueri
dilakukan oleh RF pada test group dan kueri
baru dijalankan pada control group. Penilaian
recall dan precision hanya dilakukan pada

6

control group sehingga tidak terjadi ranking
effect. Test and control pada dasarnya
mengukur kinerja relatif kueri baru pada tiap
iterasi (Ruthven & Lalmas 2003).

4. Kueri yang telah dimodifikasi lalu
dijalankan pada control group.
Antarmuka implementasi diberikan pada
Lampiran 2.

Dalam penelitian ini pembagian koleksi
untuk test dan control group dilakukan
dengan cara sebagai berikut:
1. Dokumen-dokumen dikelompokkan berdasar sumbernya
2. Pada masing-masing kelompok, dokumen
diurutkan berdasar ID dokumen
3. Untuk setiap kelompok, separuh dokumen
teratas dimasukkan ke dalam test group
dan sisanya masuk ke control group

Pengujian RF dilakukan pada kedua
formula, Ide-Dec-Hi dan Ide-Regular. Untuk
masing-masing formula dilakukan dua kali
iterasi dan untuk setiap kali iterasi variasi
jumlah dokumen yang diperiksa adalah lima
dan sepuluh.

Untuk melihat pengaruh penggunaan RF
terhadap kinerja sistem dilakukan pengukuran
average
precision
pada
lima
jenis
penemukembalian, yakni:
1. NoRF: penemukembalian awal pada
control group
2. DH5: menggunakan Ide-Dec-Hi dengan
memeriksa 5 dokumen teratas
3. DH10: menggunakan Ide-Dec-Hi dengan
memeriksa 10 dokumen teratas
4. RG5: menggunakan Ide-Regular dengan
memeriksa 5 dokumen teratas
5. RG10: menggunakan Ide-Regular dengan
memeriksa 10 dokumen teratas
Perbandingan
query-by-query
juga
dilakukan untuk melihat secara lebih detail
pengaruh RF pada tiap kueri. Selanjutnya
dilakukan pengujian statistik uji Wilcoxon
Signed Rank Test dengan selang kepercayaan
95% terhadap:
1. DH5 - NORF dan DH10 - NORF: untuk
pengaruh formula Ide-Dec-Hi
2. RG5 - NORF dan RG10 - NORF: untuk
pengaruh formula Ide-Regular
3. RG10 - RG5 dan DH10 - DH5: untuk
pengaruh jumlah dokumen yang diperiksa.
4. DH10 - RG5, DH5 - RG10, DH5 - RG5
dan DH10 - RG10: untuk perbedaan
kinerja Ide-Dec-Hi dan Ide-Regular.
Pengujian dilakukan oleh dua mahasiswa
Fakultas Pertanian dengan skenario sebagai
berikut:
1. Penguji mengeksekusi kueri yang telah
disediakan pada gugus kueri pada test
group.
2. Dari hasil penemukembalian diperiksa
dokumen-dokumen teratas. Dokumen yang
dianggap relevan ditandai dan seluruh
dokumen yang tidak ditandai akan
dianggap tidak relevan.
3. RF
kemudian
dilakukan
untuk
memodifikasi kueri.

Corpus
Penelitian ini menggunakan corpus yang
merupakan hasil penelitian Adisantoso &
Ridha (2004). Koleksi dokumen yang dimiliki
corpus ini terdiri dari 1000 artikel berbahasa
Indonesia yang seluruhnya mempunyai
domain yang sama, yaitu pertanian. Artikelartikel ini dikumpulkan dari berbagai situs
web Indonesia, yang sebagian besar
merupakan situs-situs media massa. Sumbersumber tersebut antara lain:
1. Gatra
2. Indosiar
3. Kompas
4. Media Indonesia
5. Republika
6. Situs Hijau
7. Suara Karya
8. Suara Merdeka
Sebagian besar dokumen yang terkumpul
bersifat artikel media umum sedangkan hanya
22 dokumen yang merupakan tulisan ilmiah.
Seluruh sumber artikel menggunakan Bahasa
Indonesia semi-formal/formal (Adisantoso &
Ridha 2004). Contoh dokumen dapat dilihat
pada Lampiran 3.
Untuk kepentingan evaluasi RF koleksi
dokumen dibagi dua secara acak menjadi test
dan control group. Langkah berikutnya adalah
pembentukan gugus kueri untuk pengujian
beserta gugus jawabannya karena keduanya
belum tersedia dalam corpus. Pembentukan
gugus kueri dan gugus jawaban dilakukan
oleh dua mahasiswa Fakultas Pertanian yang
dianggap kompeten untuk menentukan
penilaian relevansi dokumen-dokumen dengan
domain pertanian.
Asumsi-asumsi
Asumsi-asumsi yang digunakan dalam
penelitian ini adalah sebagai berikut:
1. Jumlah dokumen yang diperiksa untuk
feedback dalam setiap iterasi adalah tetap.
2. Jumlah dokumen relevan untuk tiap kueri
telah diketahui sebelumnya.

7

3. Penilaian relevansi yang dilakukan akurat.
Lingkungan Pengembangan
Lingkungan
pengembangan
yang
digunakan adalah sebagai berikut:
1. Perangkat lunak:
Windows XP
Professional, Visual Basic 6.0, Microsoft
Access 2004.
2. Perangkat keras: Duron 1.2 GHz, 256 MB
RAM.

HASIL DAN PEMBAHASAN
Gugus Kueri dan Gugus Jawaban
Kueri yang dibuat untuk pengujian
penelitian ini berjumlah 30. Sebagian besar
berupa frasa, seperti “gagal panen” atau
“tanaman obat” , yang panjangnya kurang dari
lima kata. Hal ini dilakukan untuk
mensimulasikan keadaan di dunia nyata yang
pada
umumnya
pengguna
jarang
menggunakan kueri panjang. Contoh kueri
pengujian dan deskripsinya dapat dilihat pada
Lampiran 4.
Setelah kueri tersedia, hal selanjutnya
yang harus dilakukan adalah pembentukan
gugus jawaban pada test dan control group.
Pembentukan gugus jawaban merupakan
proses
yang
penting
dan
sangat
mempengaruhi hasil evaluasi RF sekaligus
sistem temu kembali pada umumnya. Jika
gugus jawaban yang dibentuk tidak akurat
maka kinerja sistem akan tampak buruk
karena
ada
dokumen-dokumen
yang
ditemukembalikan sistem, yang sebenarnya
relevan, akan dianggap tidak relevan sebab
tidak ada dalam gugus jawaban dan berakibat
mengurangi nilai recall dan precision.
Pembentukan
gugus
jawaban
menggunakan metode pooling dan dilakukan
sebanyak dua kali. Pada kali pertama, sistemtemu kembali yang digunakan untuk
mendapatkan pool adalah Google Desktop
Search 20050325 dan Copernic Desktop
Search versi 1.63. Keduanya merupakan
perangkat lunak freeware yang dikenal luas
sebagai mesin pencari dengan kinerja yang
cukup baik. Hasil pool yang didapat ternyata
tidak terlalu akurat karena setelah diperiksa
masih cukup banyak dokumen-dokumen yang
sebenarnya relevan namun tidak termasuk
dalam pool. Alasannya adalah karena memang
kedua sistem temu kembali tersebut tidak
dikhususkan untuk mencari dokumendokumen berbahasa Indonesia. Keduanya

tidak menggunakan stemming terhadap kueri
maupun
dokumen-dokumen
berbahasa
Indonesia yang terindeks.
Pada kali kedua, sistem temu kembali hasil
penelitian Ridha (2002) diikutsertakan untuk
mendapatkan
calon
dokumen
relevan
tambahan. Karena sistem ini memang
dikhususkan untuk Bahasa Indonesia, hasil
yang didapat cukup memuaskan dengan
didapatkannya tambahan dokumen relevan
hampir untuk setiap kueri yang diujikan. Pada
Lampiran 5 tertera daftar lengkap kueri
beserta gugus jawabannya. Tabel 1
menunjukkan
deskripsi
corpus
yang
digunakan sedangkan di Tabel 2 dapat dilihat
contoh hasil pooling beberapa kueri
menggunakan ketiga sistem yakni Google
Desktop Search (GDS), Copernic Desktop
Search (CDS) dan sistem temu kembali hasil
penelitian Ridha (2002) (R2002).
Tabel 1 Deskripsi koleksi pengujian
Koleksi
Test
Control
Jumlah kueri
30
30
Ukuran (KB)
16.048 23.972
Jumlah dokumen
500
500
Rataan kata
2,6
2,6
tiap kueri
Rataan kata
166
177
tiap dokumen
Rataan dokumen
13
18,8
relevan tiap kueri
Tabel 2 Contoh hasil pooling beberapa kueri
Tingkat Recall *
ID
GDS
CDS
R2002
1
28/48 (8)
21/48 (4)
25/48 (8)
5
21/39 (6)
17/39 (2)
26/39 (9)
11
34/57 (7)
30/57 (5)
41/57 (9)
*Angka di dalam tanda kurung menunjukkan
jumlah dokumen unik yang hanya ditemukan
pada sistem tersebut dan tidak ditemukan di
kedua sistem lainnya.
Evaluasi RF
Hasil pengujian RF dengan perhitungan
average precision dapat dilihat pada Tabel 3
sedangkan hasil Wilcoxon Signed Rank Test
dirinci pada Tabel 4.
Dari Tabel 3 terlihat bahwa hampir secara
keseluruhan RF memberikan peningkatan
kinerja pada sistem. Pada DH5 dan DH10
iterasi ke-1, terlihat bahwa dengan RF kinerja
sistem meningkat 15.44% dibanding tanpa
RF. Peningkatan kinerja ini secara statistik

8

signifikan (Sig. < 0.05). Pada Ide-Regular,
peningkatan juga signifikan, RG5 mencapai
14.54%, akan tetapi kemudian turun pada
RG10 tinggal 12.75%. Ini menunjukkan
bahwa meskipun secara statistik tidak ada
perbedaan signifikan antara Ide-Dec-Hi dan
Ide-Regular (Sig. > 0.05), Ide-Dec-Hi mampu
memberikan hasil yang lebih konsisten
daripada Ide-Regular. Hal ini sesuai dengan
hasil penelitian Ruthven dan Lalmas (2003).
Kekonsistenan ini karena Ide-Dec-Hi hanya
menggunakan satu dokumen tak-relevan
teratas.
Sehingga
meskipun
terjadi
ketidakakuratan penilaian relevansi saat
pengguna memberikan feedback, yaitu
dokumen relevan tidak ditandai oleh
pengguna dan dihitung sebagai dokumen takrelevan, hal itu tidak akan terlalu
memperburuk kueri yang baru.
Tabel 3 Perbandingan nilai average precision
sebelum dan setelah menggunakan RF
Metode NoRF Iterasi I Iterasi II
DH5
0.447
0.516
0.492
%∗
0
15.44%
10.07%
DH10
0.447
0.516
0.492

%
0
15.44%
10.07%
RG5
0.447
0.512
0.477

%
0
14.54%
6.71%
RG10
0.447
0.504
0.437
%∗
0
12.75%
-2.24%

Persentase perubahan kinerja dibandingkan
dengan NoRF
Tabel 4 Daftar nilai Sig. pada Wilcoxon
Signed Ranks Test (α=0.05)
Pair
Iterasi I Iterasi II
RG5 - NORF
0.220
0.008∗
RG10 - NORF
0.876
0.008∗
DH5 - NORF
0.102
0.009∗

DH10 - NORF
0.102
0.009
RG10 - RG5
0.157
0.088
DH10 - DH5
1.000
1.000
DH10 - RG5
0.553
0.987
DH5 - RG10
0.078
0.020∗
DH5 - RG5
0.553
0.987
DH10 - RG10
0.078
0.020∗

Sig. < 0.05
Pada iterasi ke-2, DH5 dan DH10
keduanya hanya memberikan peningkatan
masing-masing sebesar 10.07%, lebih kecil
dari iterasi ke-1. RG5 juga mengalami
penurunan kinerja dibanding iterasi ke-1
menjadi 6.71%. RG10 bahkan menurun
hingga -2.24%. Pada iterasi kali ini, DH5 dan

DH10 secara signifikan lebih baik bila
dibandingkan RG10 namun tidak jika
dibandingkan RG5. Melalui pemeriksaan
lebih lanjut, alasan penurunan kinerja ini
adalah karena pada iterasi ke-1 RF sudah
bekerja dengan sangat baik sehingga pada
hampir semua kueri, seluruh dokumen relevan
untuk kueri tersebut telah ditemukan oleh
sistem. Lebih jauh lagi untuk kueri-kueri yang
belum
seluruh
dokumen
relevannya
ditemukan tingkat recall-nya sudah mencapai
di atas 90%. Hal lain yang berkaitan erat
dengan penurunan ini adalah kinerja sistem
dasar yang ternyata sudah cukup tinggi.
Melalui hasil perbandingan query-byquery, ditemukan pula bahwa kueri yang tidak
berhasil ditingkatkan kinerjanya adalah kuerikueri yang seluruh atau setidaknya nyaris
seluruh dokumen relevannya telah muncul di
penemukembalian
awal.
Hal
ini
mengindikasikan bahwa pada keadaankeadaan seperti ini RF sudah tidak cocok lagi
digunakan untuk membantu menemukan
tambahan dokumen relevan. Perbandingan
query-by-query secara lengkap tertera pada
Lampiran 6.
Pada lampiran tersebut terlihat bahwa
kueri ke-27 yakni “upaya peningkatan
pendapatan petani” menunjukkan nilai AVP
nol pada NoRF. Ini terjadi karena memang
tidak ada satu pun dokumen relevan yang
ditemukan. Ketiga stem istilah dalam kueri,
yaitu
“upaya”,
“peningkatan”
dan
“pendapatan” hanya muncul di tiga dokumen
di control group, semuanya tidak relevan. Di
lain pihak, stem istilah “petani” muncul di
semua dokumen sehingga nilai idf-nya nol,
akibatnya bobotnya juga nol. Setelah
menggunakan RF nilai AVP kueri ini bisa
ditingkatkan
mencapai
di
atas
0.3.
Penambahan istilah-istilah dari test group
terlihat sangat membantu kinerja kueri ini.
Keseluruhan hasil yang ada pada
penelitian ini menunjukkan bahwa RF
memberikan peningkatan kinerja terbesar
ketika
menggunakan
Ide-Dec-Hi.
Penambahan jumlah dokumen yang diperiksa
dari lima menjadi sepuluh ternyata tidak
berpengaruh terhadap hasil yang diperoleh. Ini
menunjukkan bahwa pemeriksaan lima
dokumen sudah optimal untuk koleksi
pengujian ini. Iterasi ke-2 tampaknya tidak
diperlukan karena kinerja RF telah maksimal
pada iterasi ke-1 dengan menemukembalikan
nyaris seluruh dokumen relevan untuk semua
kueri, sekali lagi ini hanya berlaku untuk

9

koleksi pengujian dalam penelitian ini. Hal ini
sangat dipengaruhi oleh ukuran koleksi dan
gugus jawaban yang relatif kecil.
Selain menunjukkan kinerja yang sangat
baik, secara komputasional Ide-Dec-Hi juga
lebih efektif daripada Ide-Regular karena
hanya menggunakan satu dokumen takrelevan teratas untuk perhitungan, berbeda
dengan Ide-Regular yang menggunakan
seluruh dokumen tak-relevan.

0.8
P re s ic io n

1.0

0.8

P r e s ic io n

1.0

setelah menggunakan RF ternyata lebih tinggi
pada hampir semua tingkat recall dibanding
sebelum
menggunakan
RF.
Ini
mengindikasikan bahwa RF juga bisa menjadi
mekanisme untuk memperbaiki precision.

0.6

0.4

0.6

0.2

0.4

0.0
0

0.2

0.4

0.2
Ide-Dec-Hi

0.0
0

0.2

0.4

0.6

0.8

0.8

1

Ide-Dec-Hi

Ide-Regular

NoRF

Gambar 3 Kurva recall-precision RG5 dan
DH5 pada iterasi ke-2.

1

Recall

1.0

Ide-Regular

NoRF
0.8

P re s ic io n

Gambar 1 Kurva recall-precision RG5 dan
DH5 pada iterasi ke-1.
1.0

0.8

P res icio n

0.6
Recall

0.6

0.4

0.6

0.2

0.4

0.0
0.0

0.2

0.4

0.6

0.8

1.0

Recall

0.2
Ide-Dec-Hi

0.0
0

0.2

0.4

0.6

0.8

1

Ide-Regular

NoRF

Gambar 4 Kurva recall-precision RG10 dan
DH10 pada iterasi ke-2.

Recall

Ide-Dec-Hi

Ide-Regular

NoRF

Gambar 2 Kurva recall-precision RG10 dan
DH10 pada iterasi ke-1.
RF umumnya dipandang sebagai suatu
mekanisme untuk meningkatkan recall. Akan
tetapi melalui penelitian ini, terlihat dari kurva
recall-precision pada Gambar 1-4, precision

KESIMPULAN DAN SARAN
Kesimpulan
Melalui penelitian ini
kesimpulan sebagai berikut:

dapat

ditarik

1. Menggunakan penilaian relevansi yang
diberikan oleh pengguna, RF teruji mampu

10

meningkatkan kinerja sistem temu kembali
informasi.
Pengguna
juga
cukup
dimudahkan karena hanya perlu mengenali
dokumen yang dianggapnya relevan, tanpa
perlu mendeskripsikannya.
2. Pada kasus kali ini, peningkatan kinerja
yang optimal dicapai melalui penggunaan
formula Ide-Dec-Hi dan cukup melalui
pemeriksaan lima dokumen teratas. Iterasi
ke-2 juga tidak perlu dilakukan karena
pada iterasi ke-1, RF telah memberikan
hasil yang sangat baik dengan tingkat
recall mendekati 100%.
3. Penggunaan relevance feeback tidak
terlalu membantu pada kueri yang kinerja
awalnya
memang
sudah
tinggi.
Sebaliknya, untuk kueri-kueri yang
memberikan hasil buruk pada pencarian
awal, RF sangat cocok untuk digunakan
dan menjanjikan peningkatan kinerja yang
cukup tinggi.
Saran
Untuk
pengembangan
penelitian
disarankan hal-hal sebagai berikut:
1. Penggunaan koleksi pengujian dan gugus
jawaban dengan ukuran maupun jumlah
lebih besar sehingga bisa memberikan
gambaran yang lebih akurat mengenai
kinerja RF pada umumnya.
2. Penggabungan formula Ide-Dec-Hi dengan
teknik pemilihan istilah diperkirakan akan
memberikan peningkatan kinerja yang
cukup signifikan (Selberg EW 1997).
3. Penggunaan teknik Automatic Query
Expansion, seperti Local Analysis dan
Local
Context
Analysis.
Hasilnya
kemudian bisa diperbandingkan dengan
RF yang merupakan teknik Interactive
Query Expansion.

DAFTAR PUSTAKA
Adisantoso J, Ridha A. 2004. Corpus
Dokumen Teks Bahasa Indonesia untuk
Pengujian Efektivitas Temu Kembali
Informasi. Laporan Akhir Hibah Penelitian
SP4. Departemen Ilmu Komputer FMIPA
IPB, Bogor.
Baeza-Yates R, Ribeiro-Neto B. 1999.
Modern Information System. AddisonWesley.

Belkin NJ et al. 2000. Relevance Feedback
versus Local Context Analysis as Term
Suggestion Devices. Rutgers' TREC-8
Interactive Track Experience.
Buckley C, Salton G, Allan J. 1994. The
Effect of Adding Relevance Information
in a Relevance Feedback Environment
Proceedings of the Seventeenth Annual
International ACM-SIGIR Conference on
Research and Development in Information
Retrieval.
Chang YK, Cicirillo C, Razon J. 1971.
Evaluation of Feedback Retrieval using
Modified Freezing, Residual Collection
&Test and Control Groups. The SMART
Retreival System - Experiments In
Automatic Document Processing 17: 355370.
Hiemstra D, Leeuwen D.van. 2001. Creating
a Dutch Information Retrieval Test
Corpus.
Ide E. 1971. New Experiments in Relevance
Feedback. The SMART Retrieval System Experiments In Automatic Document
Processing 16:337-354.
Liddy E. 2001. How a Search Engine Works.
Searcher 9(5). Information Today, Inc.
McEnery T, Wilson A. 2001. Corpus
Edition.
Edinburgh
Linguistic
2nd
University Press.
Ridha A. 2002. Pengindeksan Otomatis
dengan Istilah Tunggal untuk Dokumen
Berbahasa Indonesia. Skripsi. Departemen
Ilmu Komputer FMIPA IPB, Bogor.
Ruthven I, Lalmas M. 2003. A Survey on the
Use of Relevance Feedback for
Information Access Systems. Knowledge
Engineering Review 18(2): 95-145.
Selberg EW. 1997. Information Retrieval
Advances Using Relevance Feedback.
Department of Computer Science and
Engineering University of Washington,
Seattle.
Spink A, Jansen BJ, Ozmultu HC. 2000.
Use of Query Reformulation and
Relevance Feedback by Excite Users.
Internet Research:Electronic Networking
Applications and Policy 10(4):317-328.
Xu J, Croft WB. 1996. Query Expansion
Using Local and Global Document
Analysis. Proceedings of the 19th Annual
International ACM SIGIR Conference on

11

Research and Development in Information
Retrieval.
Xu J, Croft WB. 2000. Improving the
Effectiveness of Information Retrieval
with Local Context Analysis. ACM
Transactions on Information Systems
18(1):79-112.

LAMPIRAN

13
Lampiran 1 Proses penemukembalian informasi (Baeza-Yates & Ribeiro-Neto 1999)
teks

User Interface
kebutuhan
pengguna
teks

Operasi Teks

logical
view

Operasi Kueri

logical
view

Pengindeksan

DB Module
Manager

feedback
pengguna
kueri

Pencarian

dokumen
yang
ditemukan

Perankingan
dokumen
teranking

inverted
file

Indeks

Basisdata
Teks

14
Lampiran 2 Antarmuka implementasi

15
Lampiran 3 Contoh dokumen dalam koleksi

situshijau051103-001
Nilai Tukar Petani pada Agustus Naik Setelah Enam Bulan Anjlok
(MAR/boy/eta)
05/11/2003

Nilai tukar petani (NTP) pada bulan Agustus mengalami kenaikan 1,35 persen dibanding dengan bulan Juli
2003. Kenaikan ini memperbaiki nilai tukar petani yang sejak enam bulan sebelumnya terus anjlok.
Deputi Bidang Statistik Ekonomi Badan Pusat Statistik (BPS) Slamet Mukeno dalam jumpa pers di Jakarta,
Senin (3/11), mengatakan, kenaikan NTP disebabkan oleh kemampuan petani tanaman pangan dan
tanaman perkebunan rakyat mampu menjual hasil produksinya sebesar 1,96 persen lebih tinggi dibanding
dengan bulan Juli. Sementara itu, harga rata-rata barang dan jasa konsumsi rumah tangga pedesaan untuk
keperluan produksi pertanian hanya naik 0,60 persen.
Kenaikan itu merupakan kenaikan pertama kalinya sejak bulan Februari tahun ini. Dari laporan BPS
sebelumnya, sejak bulan Februari hingga Juli NTP selalu mengalami penurunan. NTP tertinggi terjadi pada
bulan Februari. Namun, setelah itu terus turun.
NTP diperoleh dari perbandingan indeks harga yang diterima petani terhadap indeks harga yang dibayar
petani. NTP merupakan indikator relatif tingkat kesejahteraan petani. Semakin tinggi NTP, berarti semakin
tinggi pula kesejahteraan petani. Pengukuran NTP berdasarkan hasil pemantauan harga-harga di 16
provinsi di Indonesia.
Dari provinsi yang diamati itu, kenaikan NTP bulan Agustus yang tertinggi terjadi di Jawa Tengah, yaitu
sebesar 3,39 persen. Hal ini diakibatkan harga cabai merah di Jawa Tengah naik 23,59 persen. Adapun
penurunan NTP terendah terjadi di Jawa Timur sebesar 5,44 persen akibat harga tembakau rajangan turun
32,32 persen.
Meskipun demikian, dibanding dengan NTP Agustus 2002, NTP Agustus tahun ini naik 5,66 persen.



16
Lampiran 4 Contoh kueri dan deskripsinya
ID
: 25
Kata kunci : Institut Pertanian Bogor
Deskripsi : Dokumen dianggap relevan jika memuat informasi hasil penelitian atau laporan kegiatan
Institut Pertanian Bogor. Dokumen yang hanya memuat informasi tentang orang atau jabatan
tertentu di Institut Pertanian Bogor tanpa menyinggungnya sebagai suatu institusi tidak
dianggap relevan.
Contoh dokumen relevan :

republika100704-002
IPB Benahi Program Penelitian
ant
10 juli 2004

BOGOR – Institut Pertanian Bogor (IPB) terus melakukan pembenahan guna menuju research based
university. Sebagai