Ekspansi kueri berdasarkan kamus dwibahasa menggunakan peluang bersyarat

EKSPANSI KUERI BERDASARKAN KAMUS DWIBAHASA
MENGGUNAKAN PELUANG BERSYARAT

MUHAMMAD AWET SAMANA

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011

EKSPANSI KUERI BERDASARKAN KAMUS DWIBAHASA
MENGGUNAKAN PELUANG BERSYARAT

MUHAMMAD AWET SAMANA

Skripsi
Sebagai salah satu syarat untuk memperoleh
gelar Sarjana Komputer pada
Departemen Ilmu Komputer


DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011

ABSTRACT
MUHAMMAD AWET SAMANA. Query Expansion based on Bilingual Dictionary Using
Conditional Probability. Supervised by JULIO ADISANTOSO.
Query expansion is a technique that can be used to bridge vocabulary gaps between queries and
documents in the collection. With query expansion, user will be helped to formulate queries well
so that user will optimize the search result. In this study, the expansion term was resulted from the
translation of bilingual dictionary. Subsequently, several terms of expansion were elected based on
the closeness of its relationship with the original query.
This research showed that conditional probability can be used to select expansion term in
bilingual translation method query expansion. The result of 1000 documents was more than 97%
relevan document can be retrieved by this system. The more expansion term used, the larger
number relevan document was retrieved.

Keyword: query expansion, conditional probability, query translation, bilingualism dictionary


Judul

: Ekspansi Kueri Berdasarkan Kamus Dwibahasa Menggunakan Peluang Bersyarat

Nama

: Muhammad Awet Samana

NRP

: G64061749

Menyetujui:

Pembimbing,

Ir. Julio Adisantoso, M. Kom
NIP. 19620714 198601 1 002


Mengetahui:
Ketua Departemen Ilmu Komputer,

Dr. Ir. Sri Nurdiati, M.Sc.
NIP. 19601126 198601 2 001

Tanggal Lulus:

RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 14 Juni 1989. Penulis merupakan anak kedua dari
empat bersaudara dari pasangan Muh. Wardani dan Budiyati. Pada Tahun 2006 penulis
menamatkan pendidikannya dari SMA Islam Al Azhar Syifa Budi Jakarta dan diterima menjadi
salah satu mahasiswa Institut Pertanian Bogor melalui jalur SPMB. Setahun kemudian penulis
berhasil diterima menjadi salah satu mahasiswa Program Studi Ilmu Komputer IPB.
Pada tahun 2008 penulis aktif di organisasi Himpunan Mahasiswa Ilmu Komputer
(HIMALKOM) dan bergabung dengan divisi networking. Pada tahun yang sama penulis juga
tergabung dalam organisasi Badan Kerohanian Ilmu Komputer (BANKERS) dan menjabat sebagai
sekretaris umum.

KATA PENGANTAR

Alhamdulillahirobbil’alamin, segala puji syukur penulis panjatkan ke hadirat Allah SWT atas
limpahan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul
Ekspansi Kueri Berdasarkan Kamus Dwibahasa Menggunakan Peluang Bersyarat.
Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpa bantuan dari berbagai
pihak. Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada:
1.

2.
3.

4.
5.
6.
7.

Orang tua tercinta, Kakak saya Adam Ginanjar, kedua adik yang saya sayangi Moch. Zarkasi
dan Siti Tinitah serta segenap keluarga besar, terima kasih atas doa dan dukungan yang
diberikan.
Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas
kesabaran, bimbingan serta dukungan dalam penyelesaian tugas akhir ini.

Bapak Ahmad Ridha, S.Kom, MS dan Bapak Sony Hartono Wijaya, S. Kom, M.Kom selaku
dosen penguji, Dr. Sri Nurdiati, MSc selaku Kepala Departemen Ilmu Komputer serta seluruh
staf Departemen Ilmu Komputer FMIPA IPB.
Teman-teman satu bimbingan Hendrex, Wildan, Rio, Ekachu, Iyam, Tina, Yucan, dan Adit.
Terima kasih atas semangat dan kebersamaannya selama penyelesaian tugas akhir ini.
Sahabat-sahabatku Sandi, Aadun, Windu, Ericson, Bayu dan seluruh sahabatku Ilkomerz 43.
Terima kasih atas motivasi dan kebersamaannya selama ini.
Sahabat-sahabatku di Kontrakan Al Kautsar Adrian, Habib, Wahyu, Wiwid, Budi, Fandi, dan
lain-lain. Terima kasih atas kebersamaan dan keceriannya selama ini.
Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam
pelaksanaan tugas akhir.

Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan
dan kelemahan di dalamnya. Hal ini dikarenakan oleh keterbatasan kemampuan penulis. Penulis
berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi
kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.

Bogor, Maret 2011

Muhammad Awet Samana


DAFTAR ISI
Halaman
DAFTAR GAMBAR .................................................................................................................. iv
DAFTAR TABEL ...................................................................................................................... iv
DAFTAR LAMPIRAN ............................................................................................................... iv
PENDAHULUAN
Latar Belakang......................................................................................................................... 1
Tujuan ..................................................................................................................................... 1
Ruang Lingkup ........................................................................................................................ 1
Manfaat ................................................................................................................................... 2
TINJAUAN PUSTAKA
Ekspansi Kueri......................................................................................................................... 2
Penerjemahan Kueri ................................................................................................................. 2
Peluang Bersyarat .................................................................................................................... 2
Ukuran Kemiripan Cosine ........................................................................................................ 3
Evaluasi Temu Kembali Informasi ........................................................................................... 3
METODE PENELITIAN
Perolehan Dokumen Pengujian ................................................................................................. 3
Pengembangan Sistem ............................................................................................................. 3

Pengujian Kinerja Sistem ......................................................................................................... 4
Analisis Pembandingan Kinerja Sistem .................................................................................... 4
Lingkungan Implementasi ........................................................................................................ 5
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian .................................................................................................... 5
Pengembangan Sistem ............................................................................................................. 5
Pengujian Kinerja Sistem ......................................................................................................... 8
Kelemahan Sistem ................................................................................................................. 10
Analisis Perbandingan Pemilihan Istilah Ekspansi .................................................................. 10
KESIMPULAN DAN SARAN
Kesimpulan............................................................................................................................ 11
Saran ..................................................................................................................................... 11
DAFTAR PUSTAKA ................................................................................................................ 11
LAMPIRAN .............................................................................................................................. 13

iii

DAFTAR GAMBAR
Halaman
1 Gambaran umum sistem temu-kembali yang dikembangkan ...................................................... 3

2 Bagian dokumen yang diproses ................................................................................................. 6
3 Grafik Nilai recall dan precision dari pencarian tanpa ekspansi (QE0) ........................................ 8
4 Grafik nilai recall dan precision pada pencarian QE1 dibandingkan dengan QE0 ....................... 8
5 Grafik nilai recall dan precision pada pencarian QE2 dibandingkan dengan QE0 ....................... 9
6 Grafik nilai recall dan precision pada pencarian QE3 dibandingkan dengan QE0 ....................... 9

DAFTAR TABEL
Halaman
1 Deskripsi dokumen pengujian .................................................................................................. 5
2 Nilai recall dan AVP semua kondisi pencarian .......................................................................... 9
3 Penerjemahan yang menghasilkan kata berimbuhan dari kata awal........................................... 10
4 Perbandingan nilai AVP dari kedua sistem .............................................................................. 10
5 Perbandingan nilai presisi sistem pada penggunaan 1000 dan 2000 dokumen. .......................... 11

DAFTAR LAMPIRAN
Halaman
1 Daftar Kueri untuk Pengujian Waktu Pencarian Sistem ............................................................ 14
2 Contoh dokumen pengujian ..................................................................................................... 15
3 Daftar istilah kueri dan istilah hasil terjemahannya .................................................................. 16


iv

PENDAHULUAN
Latar Belakang
Sistem temu kembali informasi merupakan
suatu sistem yang dapat membantu seseorang
dalam menemukan suatu informasi yang
dibutuhkannya. Sistem ini memerlukan
sebuah masukan (kueri) yang akan menjadi
acuan dalam menemukan informasi. Dengan
kueri tersebut, sistem akan menghasilkan
dokumen relevan atau dokumen yang
memunyai topik yang berkaitan dengan
kebutuhan informasi pengguna.
Seringkali pengguna mengalami kesulitan
dalam membentuk kueri yang ditujukan untuk
menemukembalikan informasi hal ini
dikarenakan mereka tidak mengetahui detail
dari konstruksi koleksi dan lingkungan temu
kembali (Baeza-Yates & Ribeiro-Neito 1999).

Padahal, jumlah dokumen relevan yang
diperoleh dipengaruhi oleh jumlah kata kunci
dalam kueri. Hal ini akan mengakibatkan hasil
pencarian yang dilakukan pun menjadi kurang
optimal.
Ekspansi kueri merupakan salah satu
teknik yang dapat digunakan dalam membantu
pengguna dalam memberikan kueri yang baik.
Ekspansi kueri dapat berperan sebagai
penghubung karena adanya vocabulary gaps
antara kueri dan dokumen (Fang 2008).
Dalam teknik ini kueri awal akan dimodifikasi
dan akan ditambahkan istilah-istilah tertentu.
Rusidi (2008) telah melakukan penelitian
untuk menggunakan peluang bersyarat dan
mengaplikasikannya dalam ekspansi kueri
suatu sistem temu kembali informasi. Ia
mengambil istilah ekspansi dari istilah yang
berada dalam indeks dan memilihnya
berdasarkan keeratan hubungan suatu istilah

dengan istilah lainnya.
Keeratan hubungan ini diukur dengan
menggunakan peluang bersyarat. Namun,
metode
ini
dianggap
kurang
mempertimbangkan apakah istilah tersebut
memiliki makna yang berkaitan dan jauh dari
konsep dalam kueri yang dimasukkan
pengguna.
Sitohang (2009) telah menggunakan
metode kamus dwibahasa dalam melakukan
ekspansi pada kueri pengguna. Kamus
dwibahasa digunakan untuk mendapatkan
padanan kata yang merupakan sinonim dari
kueri atau memiliki makna yang hampir sama
dengan kueri awalnya. Ia menggunakan nilai

IDF untuk memilih kueri ekspansi yang
dihasilkan dari penerjemahan.
Penggunaan nilai IDF ini masih dirasa
kurang optimal dalam memilih istilah
ekspansi. Hal ini dikarenakan kurangnya
perhatian terhadap keeratan hubungan antar
istilah ekspansi dengan kueri awal. Untuk itu,
ada beberapa metode yang dapat digunakan
dalam menemukan keeratan hubungan ini di
antaranya: korelasi, ukuran kesamaan, dan
dengan menggunakan peluang bersyarat.
Keeratan hubungan berdasarkan kemunculan
suatu objek sebaiknya menggunakan peluang
bersyarat karena korelasi maupun ukuran
kesamaan lainnya umumnya diberlakukan
bagi data berskala ordinal atau interval
(Adisantoso 1997).
Penelitian ini akan berfokus pada
pemilihan istilah ekspansi yang dihasilkan
oleh penerjemahan dwibahasa dengan
menggunakan metode peluang bersyarat.
Metode ini diharapkan dapat memperoleh
istilah ekspansi yang benar-benar merupakan
istilah yang memiliki makna yang berkaitan
sekaligus memiliki keeratan hubungan dengan
kueri awal.
Tujuan
Penelitian ini bertujuan untuk:
1. Menerapkan metode peluang bersyarat
untuk melakukan pemilihan istilah pada
ekspansi kueri dengan menggunakan
kamus dwibahasa.
2. Membandingkan hasil penggunaan metode
peluang bersyarat ini dengan penggunaan
nilai IDF sebagai ukuran dalam memilih
istilah ekspansi.
Ruang Lingkup
Ruang lingkup penelitian ini adalah:
1. Penelitian ini akan menggunakan dokumen
serta kueri berbahasa indonesia.
2. Istilah
ekspansi
didapatkan
dari
penerjemahan
dengan
menggunakan
kamus dwibahasa Indonesia-Inggris dan
Inggris-Indonesia.
3. Kamus dwibahasa yang digunakan
merupakan kamus yang sama yang
digunakan oleh Sitohang (2009).
4. Pada penelitian ini penulis tidak
melakukan perubahan apapun terhadap
dokumen uji maupun kamus dwibahasa
yang digunakan.

1

5. Pembobotan kata yang digunakan dalam
proses pengindeksan dokumen ialah
metode pembobotan tf-idf.

memilih beberapa kueri baru yang dinilai
sebagai respon dari kueri yang dimasukkan
pengguna.

Manfaat

Penerjemahan Kueri

Penggunaan kamus dwibahasa dan
pendekatan peluang bersyarat ini diharapkan
dapat membantu pengguna sistem temu
kembali untuk dapat membentuk kueri
sehingga diharapkan akan menghasilkan
dokumen-dokumen temu kembali yang lebih
banyak dan lebih relevan.

Beberapa pendekatan yang terdapat dalam
penerjemahan kueri yakni menggunakan
mesin
penerjemah,
language
specific
stemmers,
kamus,
thesaurus,
dan
pembangkitan daftar istilah dwibahasa
otomatis untuk menerjemahkan kueri dalam
bahasa L ke dalam bahasa target L’
(Grossman & Frieder 2004).

TINJAUAN PUSTAKA
Ekspansi Kueri
Suatu sistem temu kembali informasi tidak
memberi tahu pengguna mengenai masalah
yang ditanyakan. Sistem ini hanya
memberitahukan keadaan dan keterangan
dokumen
yang
berhubungan
dengan
permintaan pengguna (Rijsbergen 1979).
Sistem-sistem ini bisa berupa sistem yang
berdasarkan
boolean,
vektor
maupun
berdasarkan model peluang. Tiap model
memiliki keterbatasan sehingga menyebabkan
ketidakseimbangan proporsi jumlah dokumen
yang diinginkan (relevan) dengan jumlah
dokumen yang ditemu kembalikan oleh
sistem. Salah satu solusi yang ada untuk
mengatasinya ialah dengan menggunakan
automatic query expansion (Aly 2008).
Sebenarnya terdapat tiga cara yang dapat
digunakan dalam melakukan ekspansi kueri
yakni : manual, interaktif, dan automatic
(Imran & Sharan 2009). Terkadang pengguna
tidak dapat memberikan informasi yang cukup
untuk melakukan ekspansi kueri (manual dan
interaktif), maka dibutuhkan suatu metode
ekspansi yang tidak memerlukan keterlibatan
pengguna di dalamnya (automatic). Automatic
query expansion (AQE) merupakan proses
penambahan istilah atau frase pada kueri asli
untuk meningkatkan kinerja temu kembali
tanpa intervensi dari pengguna (Imran &
Sharan 2009).
Aly (2008) mengatakan bahwa suatu
algoritme ekspansi kueri akan mengevaluasi
kueri yang diberikan pada dokumen dan
memilih istilah yang sesuai dari dokumen
relevan. Sistem memberikan input tambahan
pada kueri awal berupa kata atau frase
(Manning et al 2008). Beberapa mesin pencari
(dalam web) telah menggunakan teknik ini
dengan menyarankan pengguna untuk

Salah satu penerjemahan yang dapat
dilakukan dalam penelitian ini ialah
penerjemahan kueri dengan menggunakan
kamus dwibahasa. Sitohang (2009) melakukan
penerjemahan kueri dengan menggunakan
kamus
dwibahasa.
Penerjemahan
ini
dilakukan dengan menerjemahkan kata-perkata dari kueri. Teknik pemilihan kata hasil
terjemahan adalah berdasarkan analisa
statistik.
Peluang Bersyarat
Koopman (1997) mengemukakan bahwa
peluang bersyarat B setelah A merupakan
kependekan dari "peluang bersyarat bahwa B
akan terjadi jika diketahui bahwa A telah atau
pasti akan terjadi". Ruang contohnya telah
diperkecil menjadi kejadian A. Ruang
kejadiannya merupakan kejadian yang
mempunyai sifat-sifat kejadian A dan B,
sehingga peluang B setelah A yakni:
P(B | A) =

�(A ∩B)
�(A )

atau
P(B | A) =

�(A ∩B)
�(A )

Adisantoso (1997) menggunakan formula
peluang bersyarat tj setelah ti yang dinyatakan
sebagai berikut:
P(tj | ti ) =
dengan
P(ti∩tj) =

�(



)

�( )
�� � � �

dan

P(ti ) =



ℎ�

�� � � �

ℎ�

Dengan demikian peluang bersyarat tj
setelah ti dapat dihitung dengan menggunakan
formula:

2

�� � � �

P(tj|ti ) =

�� � � �



Ukuran Kemiripan Cosine

Ukuran cosine telah menjadi salah satu
ukuran kemiripan dokumen yang populer
karena kepekaannya terhadap pola vektor
dokumen sekaligus ketidakpekaan terhadap
variasi bobot. Pengukuran ini berdasarkan
operasi inner product dan normalisasi dari
panjang dokumen. Ukuran ini akan
memberikan ukuran kemiripan yang tinggi
ketika suatu dokumen-dokumen mempunyai
pola vektor yang mirip (Jones & Furnas 1987
diacu dalam Jung et al 2007).
sim(q, dj) =





.� (
. �(

)
)

Dengan q adalah kueri yang dimasukkan
penguna dan dj adalah dokumen ke-j.

dan � ( ) menjelaskan vektor dari
kueri (q) dan dokumen ke-j (dj).

dan �( ) menunjukkan panjang
dari vektor kueri dan vektor dokumen ke-j.

Selanjutnya penelitian ini akan dibagi ke
dalam empat tahap yakni: perolehan dokumen
pengujian, pengembangan sistem, pengujian
kinerja sistem, dan analisis pembandingan
kinerja sistem. Gambaran umum dari sistem
pencarian yang dikembangkan dapat dilihat
pada Gambar 1.
Perolehan Dokumen Pengujian
Penelitian ini akan menggunakan koleksi
dokumen berita dalam bidang pertanian.
Dokumen ini merupakan dokumen-dokumen
berbahasa Indonesia yang berisikan sekitar
2000 buah dokumen. Dalam penelitian ini
juga digunakan pasangan kueri-dokumen
relevan yang diambil dari koleksi yang ada di
Laboratorium Temu Kembali Informasi
Departemen Ilmu Komputer IPB.
Kueri

Dokumen

Ekspansi Kueri

Penerjemahan
Kueri

Evaluasi Temu Kembali Informasi

Efektifitas merupakan suatu ukuran murni
yang menyatakan kemampuan suatu sistem
untuk memuaskan pengguna dalam hal
relevansi dari dokumen hasil pencarian. Dua
ukuran mendasar yang sering dipakai dalam
menentukan efektifitas suatu sistem temu
kembali informasi ialah recall dan precision.
(Manning et al 2008)
Recall merupakan nilai yang menyatakan
proporsi antara dokumen relevan yang
dihasilkan dengan keseluruhan dokumen
relevan dalam koleksi, sedangkan precision
menyatakan proporsi antara dokumen relevan
yang dihasilkan dengan seluruh dokumen
yang dihasilkan (retrieved documents).
Dari berbagai tingkat recall yang ada, ratarata precision akan dihitung. Biasanya
digunakan sebelas tingkat recall standar yakni
0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1
(Baeza-yates & Ribeiro-Neto 1999).

METODE PENELITIAN
Penelitian ini merupakan penerapan salah
satu metode ekspansi kueri yang ada ke dalam
sebuah sistem temu-kembali informasi.
Metode yang dimaksud ialah metode
penerjemahan kamus dwibahasa ditambah
metode peluang bersyarat sebagai cara
pemilihan istilah ekspansi yang dihasilkan.

Indexing

Pemilihan
Istilah
Ekspansi

Hasil
Ekspansi

Pencarian
Dokumen

Top n
Document

Evaluasi

Gambar 1 Gambaran umum sistem temukembali yang dikembangkan
Pengembangan Sistem
Sistem temu-kembali yang dikembangkan
merupakan suatu aplikasi berbasis web yang
menggunakan bahasa pemrograman perl.
Bahasa pemrograman ini dipilih karena relatif

3

mudah dan memiliki fungsi-fungsi yang
mendukung dalam pengolahan teks. Terdapat
beberapa modul pengerjaan dari sistem yang
dikembangkan, antara lain:
1. Pengindeksan
Dalam modul pengindeksan dokumendokumen yang ada akan mengalami beberapa
proses yakni tokenisasi, pembuangan kata
buangan
(stopwords), dan melakukan
pembobotan dengan metode pembobotan
tf.idf.
2. Penerjemahan kamus dwibahasa
Penerjemahan
dilakukan
untuk
mendapatkan istilah lain dengan makna yang
hampir
serupa
dengan
kueri
awal.
Penerjemahan
dilakukan
dengan
menggunakan database kamus yang sama
dengan yang digunakan dalam penelititan
Sitohang (2009).
3. Penghitungan peluang bersyarat
Setelah didapatkan istilah kandidat
ekspansi dari proses penerjemahan, langkah
selanjutnya ialah memilih istilah mana saja
yang akan ditambahkan ke dalam kueri awal.
Kriteria yang dipilih untuk menambahkan
istilah ekspansi ialah berdasarkan peluang
bersyarat kemunculan istilah terjemahan
setelah istilah kueri.
4. Pencarian dokumen
Pencarian dokumen dilakukan dengan
menghitung ukuran kesamaan bobot kueri
dengan bobot dari dokumen. Pemberian
peringkat dilakukan terhadap dokumen
berdasarkan ukuran kesamaannya terhadap
kueri.
Pengujian Kinerja Sistem
Terdapat dua hal utama yang akan diuji
dari sistem yakni presisi hasil pencarian dan
waktu yang dibutuhkan untuk melakukan
pencarian dokumen berdasarkan kueri
masukan.
1. Presisi hasil pencarian dokumen
Metode evaluasi yang digunakan untuk
menghitung presisi dari sistem ialah metode
recall-precision. Nilai recall dan precision
dari setiap pencarian dengan kueri tertentu
akan dihitung dan selanjutnya diambil nilai
rata-ratanya untuk mendapatkan nilai average
precision dari sistem. Dengan menghitung
nilai average precision dari sistem, nilai
precisi sistem secara keseluruhan akan dapat

diketahui. Terdapat pula empat asumsi kondisi
pengujian presisi sistem, yakni:
 Kondisi pertama (QE0): evaluasi proses
temu kembali tanpa menggunakan
ekspansi kueri.
 Kondisi kedua (QE1): evaluasi proses
temu kembali dengan menambahkan satu
istilah pada masing-masing kata dalam
kueri.
 Kondisi ketiga (QE2): evaluasi proses
temu kembali dengan menambahkan dua
istilah pada masing-masing kata dalam
kueri.
 Kondisi keempat (QE3): evaluasi proses
temu kembali dengan menambahkan tiga
istilah pada masing-masing kata dalam
kueri.
Evaluasi presisi pencarian sistem akan
diuji pada dua jenis koleksi dokumen
pengujian. Koleksi pertama ialah menguji
sistem pada pengolah 1000 dokumen dan
membandingkan hasil presisi dengan hasil
penelitian Sitohang (2009). Koleksi kedua
ialah koleksi dokumen yang memiliki ukuran
lebih besar yakni 2000 dokumen.
2. Waktu pencarian dokumen
Untuk mengetahui seberapa cepat sistem
menemukembalikan dokumen digunakan
beberapa macam kueri masukan. Kueri ini
dibagi berdasarkan jumlah kata yang terdapat
dalam masing-masing kueri, yakni satu, dua,
tiga, empat, dan lima kata dalam masingmasing kueri.
Selanjutnya pengujian akan dipisah
berdasarkan menu pencarian yang ada dalam
sistem (QE0, QE1, QE2, dan QE3). Untuk
setiap menu akan dilakukan proses pencarian
dengan sebuah kueri sebanyak lima kali
ulangan. Daftar kueri yang digunakan untuk
pengujian ini dapat dilihat pada Lampiran 1.
Analisis Pembandingan Kinerja Sistem
Penelitian ini menggunakan metode
penerjemahan yang sama dengan penelitian
yang telah dilakukan oleh Sitohang(2009)
untuk mendapatkan istilah ekspansi dari kueri
awal. Walaupun menggunakan cara yang
sama dalam mendapatkan istilah ekspansinya,
penelitian ini menggunakan metode berbeda
dalam memilih istilah mana saja yang akan
ditambahkan pada kueri awal.
Analisis lebih jauh diperlukan untuk
membandingkan hasil pemilihan istilah yang
menggunakan nilai IDF pada penelitian
Sitohang (2009) dengan penggunaan peluang
bersyarat. Dengan demikian dapat diketahui

4

metode mana yang lebih baik digunakan
untuk memilih istilah ekspansi yang akan
ditambahkan pada kueri awal.



Lingkungan Implementasi
Perangkat lunak yang digunakan untuk
penelitian yaitu:
1. Windows Vista Bussiness SP2 sebagai
sistem operasi,




beberapa tag-tag lain yang lebih spesifik di
dalamnya.
, tag ini menunjukkan
ID dari dokumen. ID yang ada merupakan
kombinasi dari nama sumber berita,
tanggal berita, urutan berita dengan
sumber dan tanggal yang sama.
, menunjukkan tanggal
dari berita
,
menunjukkan
penulis dari berita tersebut.
, tag ini menunjukkan isi
dari dokumen.

2. Strawberry-perl
5.10.1.0
sebagai
interpreter bahasa pemrograman perl yang
digunakan,



3. Apache xampp-win32-1.7.1 sebagai web
server,

Pengembangan Sistem
1. Pengindeksan

4. Notepad++ 5.8.2, dan
5. Microsoft Excell 2007 sebagai aplikasi
yang digunakan
untuk melakukan
perhitungan dalam evaluasi sistem.
Perangkat keras yang digunakan untuk
penelitian meliputi:
1. Intel(R) Core(TM) 2 Duo CPU @2GHz,
2. RAM 2 GB,
3. Harddisk dengan kapasitas 160 GB.

HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
Penelitian ini menggunakan 2000 buah
dokumen yang berasal dari Laboratorium
Temu Kembali Ilmu Komputer IPB. Deskripsi
dari dokumen ini dapat dilihat pada Tabel 1.
Tabel 1 Deskripsi dokumen pengujian
Uraian
Ukuran keseluruhan
dokumen

Nilai (byte)
6.472.697

Ukuran rata-rata dokumen

3236

Ukuran dokumen terbesar

54.082

Ukuran dokumen terkecil

412

Contoh dari dokumen pengujian dapat
dilihat pada Lampiran 2. Dokumen ini
merupakan dokumen plain-text yang memilki
struktur XML di dalamnya. Isi dari dokumen
dikelompokan ke dalam tag-tag sebagai
berikut:
 ,
tag
ini
mewakili
keseluruhan dokumen. Tag ini melingkupi

Modul paling awal yang dikerjakan dalam
pengembangan sistem ini ialah modul
pengindeksan
dokumen.
Pengindeksan
dokumen yang dilakukan meliputi proses
tokenisasi, pembuangan stopword, dan
pembobotan dengan menggunakan metode
pembobotan tf-idf.
Tokenisasi merupakan proses yang
dilakukan untuk memecah isi dokumen
menjadi token-token. Proses tokenisasi
dilakukan
berdasarkan
langkah-langkah
berikut:
 Proses tokenisasi tidak dilakukan pada
seluruh bagian dokumen, tetapi hanya
pada bagian yang diapit oleh tag-tag
dan .
Gambar 2 menunjukkan ilustrasi bagianbagian dokumen yang diproses.
 Semua huruf dalam dokumen diubah
menjadi huruf kecil. Penyeragaman ini
dilakukan agar token yang sama namun
memiliki besar kecil huruf yang berbeda
tidak dianggap menjadi token-token yang
berbeda.
 Karakter-karakter yang akan yang akan
dijadikan
sebagai
pemisah
token
didefinisikan dengan ekspresi regular
berikut:
[\s+\/%,.\"\];()*&\':=`?\[!@]+

Selanjutnya
pembuangan
stopword
dilakukan pada hasil tokenisasi dokumen. Hal
ini bertujuan untuk menghilangkan kata-kata
yang dianggap tidak penting seperti: kata
sambung, kata keterangan, kata depan, kata
ganti, kata dengan partikel (-lah, -kah, -pun),
dan kata-kata tidak penting lainnya yang
mempunyai frekuensi kemunculan tinggi.
Kata-kata tersebut dianggap tidak penting
karena dianggap kurang bisa mencirikan
dokumen yang mengandungnya. Sebagai

5

contoh: kata “adalah” merupakan kata yang
tidak penting. Kata ini mungkin terdapat
hampir di setiap dokumen sehingga tak dapat
mencirikan dokumen tertentu.

situshijau180603002

Ditunggu, PP
Pembebasan.............
................................
....

Kamis, 15 Februari
2001
Ely

Pemerintah hendaknya
segera.........
................................
....



bagian dokumen yang
digunakan untuk proses
tokenisasi

Gambar 2 Bagian dokumen yang diproses
Setelah dilakukan tokenisasi berikut
pembuangan stopword, token-token yang
dihasilkan akan diberi bobot tertentu. Metode
pembobotan yang digunakan ialah metode
pembobotan tf-idf. Pembobotan dilakukan
dengan menggunakan lima fungsi utama dari
program pengindeksan yang diberi nama
Indexing.pl. Kelima fungsi utama tersebut
antara lain:
 Fungsi untuk mendapatkan frekuensi tiap
token di dalam setiap dokumen (TF).
 Fungsi untuk mendapatkan jumlah
dokumen yang mengandung token tertentu
(DF).
 Fungsi untuk mendapatkan nilai IDF
(Inverse document frequency) dari setiap
token. Nilai IDF ini didapatkan dengan
menggunakan rumus:
idft = log

df t
N

dengan dft merupakan nilai df (jumlah
dokumen yang mengandung token
tertentu) dan N merupakan jumlah
dokumen yang ada dalam koleksi.
 Fungsi untuk mendapatkan nilai tf-idf dari
setiap token. Nilai tf-idf ini didapatkan
dengan menggunakan rumus:
tf-idft = tft * idft

dengan
tf
merupakan
frekuensi
kemunculan kata dalam dokumen dan idf
merupakan
nilai
invers
document
frequency dari kata tersebut.
 Fungsi untuk mengetahui panjang dari
masing-masing dokumen. Nilai ini
diperlukan karena dokumen pengujian
dimodelkan menjadi ruang vektor (vektor
space model).
Nilai-nilai yang dihasilkan setiap fungsi
disimpan dalam bentuk file hash dengan
ekstension “.dat”. Dalam pemrograman perl
file ini dapat langsung digunakan dengan
menggunakan fungsi retrieve ().
Hash yang sebelumnya sudah dibuat akan
disimpan di-memory. Jadi lebih mudah dan
cepat untuk menggunakan hash berukuran
besar dalam program yang berbeda. Sebagai
contoh, jika ingin mendapatkan nilai IDF dari
suatu kata, maka dapat digunakan cuplikan
program yang ada pada Modul 1.
Modul 1
# retrieve hasil pengindeksan
my $indexingResult =
retrieve(„Stored
File/IndexingResult.dat‟) or
die $!;
# nilai IDF hasil pengindeksan
my %idfterm =
${$IndexingResult->{„idf‟}};
# nilai Idf untuk kata “tani”
$tani_idf = $idfterm{“tani”} ;

2. Penerjemahan Kamus Dwibahasa
Penerjemahan kamus dwibahasa dilakukan
dengan tujuan mendapatkan istilah lain
dengan makna yang sama atau berkaitan
dengan kueri awal. Penerjemahan dilakukan
dengan mengikuti Algoritme 1.
Algoritme 1
Untuk setiap kata dalam kueri
lakukan:
Ambil hasil terjemahan dari
kamus Indonesia-Inggris.
Untuk setiap kata hasil
penerjamahan, lakukan:
Ambil hasil terjemahan
dari kamus InggrisIndonesia.

6

Algoritme 1 merupakan algoritme yang
sama yang digunakan oleh Sitohang (2009)
dalam mendapatkan istilah ekspansi bagi
penelitiannya. Selain menggunakan algoritme
yang sama, penelitian ini juga menggunakan
kamus yang sama untuk melakukan
penerjemahan kueri awal.
Penerjemahan kueri akan dilakukan
sebanyak pencarian yang dilakukan. Dengan
demikian eksekusi kueri pada database juga
akan dilakukan dalam jumlah yang sama.
Penggunaan database untuk penerjemahan ini
akan memperbanyak waktu yang dibutuhkan
untuk melakukan pencarian. Jadi perlu dicari
bentuk penerjemahan yang lebih baik untuk
mengoptimalkan waktu pencarian.
Untuk
membuatnya
lebih
efisien,
penggunaan database akan digantikan dengan
hash. Hal ini hampir serupa dengan
penggunaan hash pada modul pengindeksan.
Untuk melakukan penerjemahan hal yang
perlu dilakukan hanyalah mengakses alamat
dari hash tersebut. Contoh yang sederhana
dari penggunaan hash ini dapat dilihat pada
cuplikan program berikut:
$transpetani= $hK{„petani‟};

digunakan semuanya. Penambahan istilah
ekspansi yang terlalu banyak hanya akan
mengurangi kinerja sistem temu kembali.
Untuk itu diperlukan suatu ukuran untuk dapat
memilih istilah ekspansi yang dapat
digunakan. Ukuran yang digunakan dalam
penelitian ini ialah peluang bersyarat
kemunculan bersama antara kueri dan istilah
ekspansinya. Peluang bersyarat ini akan
menggambarkan suatu keterkaitan antara kata
dalam kueri awal dan hasil terjemahannya.
Ilustrasi penentuan nilai peluang bersyarat
antara kata “hujan” dengan istilah hasil
terjemahannya dapat dilihat pada Modul 3.
Modul 3
$hExp{hujan}{awan}= 0.9
$hExp{hujan}{megnhujani}= 0
$hExp{hujan}{menghujan}= 0
$hExp{hujan}{musim}=0.336

Selanjutnya akan dipilih tiga istilah
dengan nilai peluang bersyarat tertinggi serta
nilai peluang bersyaratnya > 0. Hasilnya
disimpan dalam sebuah file yang berisi hash
dengan struktur yang dapat diilustrasikan pada
Modul 4.

Cuplikan program ini akan mengembalikan
hasil penerjemahan dengan kamus dwibahasa
ke variabel $transpetani. Cara ini dianggap
lebih efisien daripada harus melakukan
eksekusi kueri pada tiap kata yang ingin
diterjemahkan.

Modul 4

Untuk mengubah bentuk kamus yang
berupa database menjadi bentuk hash
digunakan sebuah program sederhana
getHashKamus.pl. Program ini melakukan
penerjemahan berdasarkan Algoritme 1. Hasil
penerjemahan diberikan dalam bentuk array
seperti ilustrasi pada Modul 2.

Proses pencarian dokumen dilakukan
sesuai dengan pilihan tindakan ekspansi yang
dipilih oleh pengguna. Terdapat empat pilihan
tindakan ekspansi di dalam sistem ini, di
antaranya: pencarian tanpa melakukan
ekspansi pada kueri, satu istilah ekspansi, dua
istilah ekspansi, dan tiga istilah ekspansi.
Masing-masing angka di atas menunjukkan
jumlah istilah ekspansi yang ditambahkan
pada tiap kata dalam kueri awal.

Modul 2
$hK{menyandang}[0]=
$hK{menyandang}[0]=
$hK{menyandang}[0]=
$hK{menyandang}[0]=
$hK{menyandang}[0]=
$hK{menyandang}[0]=

mengangkat
membawa
memenangkan
menggotong
menerima
meloloskan

Hasil penerjemahan serupa yang dilakukan
pada beberapa kata dalam kueri uji dapat
dilihat pada Lampiran 3.

$hExp{hujan}[0]= musim
$hExp{hujan}[0]= awan

4. Pencarian Dokumen

Hasil dari proses pencarian dokumen
merupakan dokumen-dokumen yang dianggap
memiliki kemiripan dengan kueri yang
diberikan atau memiliki nilai ukuran
kesamaan > 0. Pemeringkatan dokumen hasil
pencarian juga dilakukan dan disajikan
berdasarkan urutan menurun dari nilai ukuran
kesamaannya.

3. Penghitungan Peluang Bersyarat
Istilah-istilah baru yang didapatkan dari
proses
penerjemahan
tidaklah
dapat

7

Pengujian Kinerja Sistem
1. Pengujian Presisi Pencarian Dokumen
Proses evaluasi dalam penelitian ini
menggunakan 30 kueri uji yang telah ada
sebelumnya berikut dokumen-dokumen yang
relevan dengannya. Pencarian dengan kueri
uji ini dilakukan dengan tujuan mendapatkan
nilai recall dan precision dari sistem. Nilainilai ini diukur dari setiap dokumen yang
dihasilkan dari proses pencarian atau yang
memiliki ukuran kesamaan > 0. Setelah
didapatkan nilai-nilai recall dan precisionnya, interpolasi dilakukan untuk mendapatkan
nilai
average
precision
yang akan
menggambarkan bagaimana kinerja dari
sistem secara keseluruhan.
Pada tahap awal akan dihitung hasil
pengujian untuk pencarian dokumen tanpa
melakukan ekspansi (QE0). Gambar 3
merupakan grafik recall dan precision untuk
hasil pencarian tanpa ekspansi dari ke-30
kueri uji yang ada.
1
0,9
0,8
Precision

0,7
0,6
0,5

menambahkan istilah ekspansi pada kueri
awal. Hasil dari masing-masing pengujian
akan dibandingkan dengan pencarian tanpa
ekspansi (QE0).
a. QE1 dibandingkan dengan QE0
QE1 merupakan kondisi pengujian dengan
melakukan pencarian dokumen disertai
dengan penambahan satu istilah ekspansi pada
masing-masing kata dalam kueri awal. Istilah
yang ditambahkan tidak lain adalah istilah
terjemahan
masing-masing kata
yang
memiliki nilai peluang bersyarat tertinggi.
QE1 menghasilkan pencarian dengan nilai
recall rata-rata sebesar 0.982. Hal ini
menunjukkan bahwa 98,2% dari total
dokumen relevan yang ada dalam koleksi
dokumen dihasilkan dari tiap pencarian
dengan kueri uji. Nilai ini lebih tinggi 0,7%
dibandingkan pencarian yang dilakukan tanpa
penambahan istilah ekspansi.
Walaupun dapat meningkatkan nilai
recall, pencarian dengan kondisi ini dapat
menurunkan nilai presisi dari hasil pencarian.
Nilai AVP dari kondisi pencarian ini ialah
sebesar 0.487 atau 0.043 lebih rendah
daripada nilai AVP yang dimiliki pencarian
tanpa tambahan istilah ekspansi (QE0). Grafik
perbandingan nilai presisi pencarian antara
QE1 dan QE0 dapat dilihat pada Gambar 4.

0,4
0,3

1

0,2

0,9

0,1

0,8

0

QE0
QE1

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
Recall

1

Gambar 3 Grafik Nilai recall dan precision
dari pencarian tanpa ekspansi (QE0)
Nilai recall dan precision dari pencarian
tanpa ekspansi ini akan digunakan sebagai
pembanding
oleh
pencarian
yang
menggunakan ekspansi, baik satu, dua,
maupun pencarian yang menggunakan tiga
buah ekspansi dari setiap kata dalam kueri
awal. Nilai recall yang dihasilkan dari menu
pencarian ini rata-rata sebesar 0,975. Nilai
average precision (AVP) dari menu pencarian
ini sebesar 0,530. Hal ini menunjukkan bahwa
pencarian tanpa ekspansi yang dilakukan
sistem ini rata-rata menemukembalikan 97,5%
dokumen relevan dari semua dokumen relevan
yang ada dalam koleksi dokumen.
Tiga kondisi pengujian selanjutnya yakni
QE1, QE2, dan QE3 merupakan pengujian
untuk pencarian yang dilakukan dengan

Precision

0,7
0

0,6
0,5
0,4
0,3
0,2
0,1
0
0

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
Recall

1

Gambar 4 Grafik nilai recall dan precision
pada pencarian QE1 dibandingkan dengan
QE0
b. QE2 dibandingkan dengan QE0
Kondisi
pengujian
ini
melakukan
pencarian dengan menambahkan dua istilah
ekspansi pada setiap kata dalam kueri awal.
Hasil pencarian QE2 menghasilkan nilai
recall rata-rata sebesar 0,982. Dengan melihat
nilai recall yang dimilikinya dapat diketahui
bahwa rata-rata 98,2% dari total dokumen

8

relevan yang ada dalam koleksi dokumen
dapat dihasilkan dari tiap pencarian.
Namun, seperti halnya QE1, penambahan
dua istilah ekspansi pada setiap kata dalam
kueri awal ini dapat pula menurunkan nilai
presisi pencarian jika dibandingkan dengan
pencarian tanpa ekspansi (QE0). Dengan
kondisi pencarian QE2 terjadi penurunan nilai
presisi menjadi 0.453. Penurunan ini malah
lebih parah jika dibandingkan dengan QE1.
Grafik perbandingan nilai presisi pancarian
antara QE2 dengan QE0 dapat dilihat pada
Gambar 5.
1
0,9

QE0

0,8

QE2

Precision

0,7
0,6
0,5

pencarian QE0, QE1, QE2, dan QE3. Tabel 2
juga menunjukkan bahwa semakin banyak
istilah ekspansi yang ditambahkan pada kueri
awal maka semakin tinggi rata-rata nilai recall
hasil pencariannya. Dapat pula dikatakan akan
semakin banyak dokumen relevan yang
ditemukembalikan pada hasil pencarian.
Meskipun banyak dokumen relevan yang
ditemukembalikan, namun penurunan nilai
precision dari hasil pencarian tetap terjadi.
Hal ini dikarenakan penambahan istilah yang
dilakukan mengakibatkan dokumen-dokumen
yang tak relevan juga ikut ditemukembalikan
oleh sistem. Dokumen-dokumen tak relevan
ini sebagian menempati peringkat yang lebih
tinggi daripada dokumen relevan yang
ditemukembalikan sehingga nilai precision
menjadi lebih rendah dibandingkan dengan
pencarian
yang
tidak
menggunakan
penambahan istilah ekspansi.

0,4

0,3
0,2

1

0,1

0,9

0

0,8
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
Recall

1

Gambar 5 Grafik nilai recall dan precision
pada pencarian QE2 dibandingkan dengan
QE0

QE3

0,7
Precision

0

QE0

0,6
0,5
0,4
0,3
0,2

c. QE3 dibandingkan dengan QE0
Seperti halnya QE2 dan QE1, QE3 juga
melakukan pencarian yang disertai dengan
penambahan istilah ekspansi pada setiap kata
dalam kueri awal. Jumlah istilah yang
ditambahkan pada kondisi pencarian QE3
ialah sebanyak tiga istilah ekspansi pada
masing-masing kata dalam kueri awal. Hasil
pencarian QE3 dapat memberikan nilai recall
rata-rata sebesar 0.983.
Sebesar 98,3% dari total dokumen relevan
dapat dikembalikan dengan kondisi pencarian
QE3. Nilai ini lebih tinggi dibandingkan tiga
kondisi pencarian lainnya yakni QE0, QE1,
dan QE2. Walaupun demikian nilai presisi
atau precision yang dihasilkan dari kondisi
pencarian ini merupakan yang terendah
dibandingkan dengan tiga kondisi pencarian
lainnya. Nilai precision yang dihasilkan dari
kondisi pencarian QE3 ialah sebesar 0.435.
Grafik perbandingan nilai recall dan precision
dari QE0 dan QE3 dapat dilihat pada Gambar
6.
Tabel 2 akan menampilkan nilai rata-rata
recall dan AVP untuk masing-masing kondisi

0,1
0

0

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
Recall

1

Gambar 6 Grafik nilai recall dan precision
pada pencarian QE3 dibandingkan dengan
QE0
Tabel 2 Nilai recall dan AVP semua kondisi
pencarian
Kondisi
Pencarian
QE0

Nilai
Recall
0.975

Nilai AVP

QE1

0.982

0.487

QE2

0.982

0.453

QE3

0.983

0.435

0.530

2. Pengujian Waktu Pencarian Dokumen
Pengujian
Untuk setiap kueri pengujian yang ada
dalam Lampiran 1, dilakukan pencarian
sebanyak lima kali ulangan. Hasil yang
diperolah yakni tidak ditemukannya pengaruh
secara nyata dari banyaknya kata dalam kueri
terhadap waktu yang dibutuhkan utnuk

9

melakukan sebuah pencarian. Hal ini tidak
hanya berlaku untuk pencarian tanpa ekspansi
(QE0), tetapi juga untuk pencarian yang
dilakukan dengan menggunakan ekspansi
(QE1, QE2, dan QE3).
Kelemahan Sistem
Salah satu kelemahan utama dari sistem
yang
dikembangkan
yakni
algoritme
penerjemahan yang digunakan. Algoritme
penerjemahan yang ada dalam penelitian ini
terkadang menghasilkan istilah ekspansi yang
terlihat seperti hanya diberi imbuhan dan
bukan diterjemahkan. Pada Lampiran 3 dapat
dilihat beberapa kata yang diterjemahkan
menjadi kata awal yang hanya diberi imbuhan
saja. Beberapa dari kata tersebut ditunjukkan
pada Tabel 3.
Selain itu algoritme penerjemahan yang
digunakan merupakan penerjemahan word-byword atau penerjemahan kata-per-kata.
Dengan penerjemahan seperti ini, dua kata
yang merupakan frase akan dikenali sebagai
dua kata terpisah tanpa ada keterkaitan. Untuk
mengujinya, penulis memasukkan kata
“rumah sakit”. Terjemahan yang diharapkan
untuk kata ini ialah “hospital”. Lain halnya
dengan hasil yang didapatkan dengan
algoritme penerjemahan ini. Kata terjemahan
yang dihasilkan ialah “house” dan “ill”. Jadi
penerjemahan dilakukan secara terpisah untuk
masing-masing kata “rumah” dan “sakit”.
Tabel 3 Penerjemahan yang menghasilkan
kata berimbuhan dari kata awal
kueri

Istilah terjemahan

pupuk

Memupuk

harga

Dihargai, menghargai,
berharga

Tani

Petani

Analisis Perbandingan Pemilihan Istilah
Ekspansi
Penelitian ini menggunakan metode
ekspansi kueri yang sama dengan ekspansi
kueri yang dilakukan oleh Sitohang (2009).
Namun penelitian ini memiliki beberapa
perbedaan dalam hal metode pemilihan istilah
ekspansi yang digunakan. Sitohang (2009)
menggunakan nilai IDF sebagai ukuran utama
untuk menentukan pemilihan istilah ekspansi
yang akan ditambahkan pada kueri awal,
sedangkan penelitian ini menggunakan
peluang kejadian bersama antara dua istilah.

Penelitian
Sitohang
(2009)
hanya
menunjukkan 2 dari 30 kueri uji yang
mengalami peningkatan nilai AVP setelah
dilakukan ekspansi kueri terhadapnya.
Peningkatan tersebut terjadi pada penambahan
satu istilah ekspansi pada masing-masing kata
pada kueri awal.
Pada penelitian ini keberhasilan kueri uji
dalam meningkatkan nilai AVP terjadi pada
setiap kondisi pengujian. QE1 menunjukkan
bahwa 7 dari 30 kueri pengujian mengalami
peningkatan AVP. QE2 menunjukkan bahwa
7 dari 30 kueri uji mengalami peningkatan
nilai AVP dan kondisi pengujian QE3
menunjukkan bahwa 5 dari 30 kueri
mengalami
peningkatan
nilai
AVP.
Perbandingan nilai AVP untuk tiap kondisi
pengujian dapat dilihat pada Tabel 4.
Tabel 4 Perbandingan nilai AVP dari kedua
sistem
Average Precision
Kondisi
Pengujian

Pemilihan
dengan Nilai
IDF

Pemilihan
dengan
Peluang
bersyarat

QE0

0.524

0.530

QE1

0.461

0.487

QE2

0.429

0.453

QE3

0.407

0.435

Pada Tabel 4 dapat dilihat bahwa pada tiap
kondisi pengujian yang sama penggunaan
peluang bersyarat memberikan hasil yang
lebih tinggi. Pada pengujian QE0 sistem ini
memiliki nilai AVP yang lebih tinggi daripada
sistem yang dikembangkan dalam penelitian
Sitohang (2009). Hal ini dapat disebabkan
perlakuan tokenisasi yang berbeda pada saat
proses pengindeksan dokumen. Selain itu
penelitian ini juga menggunakan pembuangan
stopword dengan daftar stopword yang
berbeda.
Proses pengindeksan yang dilakukan
Sitohang(2009) menghasilkan 23.775 istilah
berbeda dari 1000 dokumen pengujian.
Sementara penelitian ini menghasilkan 24.443
istilah berbeda dari penggunaan dokumen
pengujian yang sama.
Hasil yang lebih tinggi juga terdapat pada
nilai AVP pencarian yang menggunakan
tambahan istilah ekspansi. Baik QE1, QE2,

10

maupun QE3 memperlihatkan bahwa ekspansi
yang dilakukan pada penelitian ini memiliki
hasil yang lebih baik daripada penelitian
Sitohang (2009).
Penelitian ini menggunakan metode yang
sama dalam mendapatkan istilah ekspansinya
yakni
dengan
menggunakan
metode
penerjemahan kamus dwibahasa. Dengan
metode ini kedua penelitian menghasilkan
sejumlah istilah yang sama yang dapat
ditambahkan ke dalam kueri awal. Kedua
penelitian ini menjadi berbeda ketika akan
memilih istilah mana saja yang akan
ditambahkan ke dalam kueri. Sitohang (2009)
memilih nilai IDF sebagai ukuran untuk
memilih istilah terjemahan yang akan
ditambahkan ke dalam kueri.
Nilai IDF merupakan nilai yang
menunjukkan tingkat kepentingan suatu kata
dalam koleksi. Semakin tinggi nilai IDF
berarti semakin jarang kata itu muncul di
banyak dokumen dan semakin mungkin kata
itu dapat digunakan untuk mencirikan suatu
dokumen. Dengan mengunakan nilai IDF
sebagai pemilihan istilah ekspansi berarti
mengambil
istilah
terjemahan
yang
merupakan kata terpenting untuk ditambahkan
ke dalam kueri awal. Mengingat algoritme
penerjemahan yang kurang baik digunakan
dalam penelitiannya maka tingkat kepentingan
kata menjadi kurang berarti.
Peluang bersyarat yang digunakan dalam
penelitian ini dapat sedikit mengatasi masalah
penerjemahan tersebut. Walaupun hasil
terjemahan yang didapat kurang mencapai
konsep kueri, namun dengan peluang
bersyarat pencarian akan tetap berada pada
sekitar kata yang memiliki keterkaitan dengan
kueri awal.
Pengujian pada koleksi dokumen yang
lebih besar
Pengujian ini menggunakan tambahan
1000 dokumen lagi pada koleksi dokumen
sebelumnya. Total 2000 dokumen digunakan
pada pengujian ini. Pengujian ini juga
menggunakan
kueri-kueri
yang
telah
ditentukan dokumen-dokumen mana yang
relevan
dengannya.
Ternyata
sistem
memperlihatkan penurunan presisi pencarian
jika dilakukan penambahan dokumen
terhadapnya. Tabel 5 di bawah ini akan
memperlihatkan perbandingan nilai presisi
sistem pada penggunaan 1000 dan 2000
dokumen.

Tabel 5 Perbandingan nilai presisi sistem pada
penggunaan 1000 dan 2000 dokumen.
Average Precision
Kondisi
Pengujian

1000
dokumen

2000
dokumen

QE0

0.530

0.470

QE1

0.487

0.421

QE2

0.453

0.385

QE3

0.435

0.368

KESIMPULAN DAN SARAN
Kesimpulan
Hasil penelitian ini menunjukkan bahwa:
1. Ekspansi kueri yang dilakukan pada sistem
ini akan mengakibatkan menurunnya nilai
presisi
bila
dibandingkan
dengan
pencarian tanpa melakukan ekspansi kueri.
2. Metode pemilihan istilah ekspansi dengan
peluang bersyarat relatif lebih baik jika
dibandingkan dengan penggunaan nilai
IDF pada metode ekspansi yang sama,
yakni metode penerjemahan kamus
dwibahasa.
3. Banyaknya kata dalam kueri tidak
memiliki pengaruh secara nyata terhadap
waktu pencarian sistem.
Saran
Untuk penelitian-penelitian yang berkaitan
dengan ekspansi kueri, disarankan untuk
melakukan penelitian dengan:
1. Penggunaan koleksi dokumen yang lebih
besar
2. Penggunaan metode pembobotan lainnya,
seperti BM25.
DAFTAR PUSTAKA
Adisantoso J. 1997. Temu Kembali Infomasi
Menggunakan Peluang Bersyarat. Tesis.
Program Studi Ilmu Komputer Universitas
Indonesia. Jakarta.
Aly AA. 2008. Using a Query Expansion
Technique
to
Improve
Document
Retrieval. Information Technologies and
Knowledge, vol. 2.
Baeza-Yates R, Riberio-Neito B. 1999.
Modern Information Retrieval. New York,
Adison Weasley.

11

Fang H. 2008. A Re-examination of Query
Expansion Using Lexical Resources.
Proceedings of ACL-08. Hal. 139-147.
Grossman DA, Frieder O. 2004. Information
Retrieval: Algorithms and Heuristics
Second Edition. Springer, Netherlands.
Imran H, Sharan A. 2009. Thesaurus and
Query Expansion. International Journal of
Computer
science
&
Information
Technology (IJCSIT), Vol 1, No 2
Jung Y, Park H, Du D. 2007. A Balance TermWeighting Scheme For Improve Document
Comparison
And
Classification.
Departemen of Computer Science and
Engineering, University of Minnesota,
Minneapolis.
Koopmans, L.H. 1997. Pengantar ke Statistika
Kontemporer. Terjemahan: Bambang
Sumantri, Departemen Statistika IPB
Manning CD, Raghavan P, Schutze H. 2008.
Introduction to Information Retrieval.
America, New York.
Rijsbergen CJ. 1979. Information Retrieval
Second Edition. Butterworths, London.
Rusidi. 2008. Ekspansi Kueri dalam Sistem
Temu Kembali Informasi Berbahasa
Indonesia
Menggunakan
Peluang
Bersyarat.
[Skripsi]. Bogor: Fakultas
Matematika dan Ilmu Pengetahuan Alam,
Institut Pertanian Bogor.
Sitohang, NL. 2009. Ekpansi Kueri pada
Sistem
Temu
Kembali
Informasi
Menggunakan
Kamus
Dwibahasa.
[Skripsi]. Bogor: Fakultas Matematika
dan Ilmu Pengetahuan Alam, Institut
Pertanian Bogor.

12

LAMPIRAN

Lampiran 1 Daftar Kueri untuk Pengujian Waktu Pencarian Sistem
Banyak kata dalam kueri

Kueri
Petani
Sawah

1 kata

Ladang
Instesifikasi
Irigasi
Hama padi
Sistem ijon

2 kata

Harga gabah
Masa tanam
Ladang jagung
Manfaat intensifikasi pertanian
Sistem perikanan tambak

3 kata

Kerugian pupuk kimia
Sawah tadah hujan
Usaha perkebunan rakyat
Mahasiswa institut pertanian bogor
Pendidikan pertanian bagi remja

4 kata

Prospek usaha tani gurem
Hasil pertanian dalam negeri
Investasi perkebunan dalam negeri
Program kerja menteri pertanian indonesia
Perkembangan teknologi pertanian dalam negeri

5 kata

Sistem pertanian tradisional rakyat daerah
Penyebaran penyakit kuku dan mulut di Indonesia
Usaha menuju swasembada pangan Indonesia

14

Lampiran 2 Contoh Dokumen Pengujian

indosiar300703-001
Meski Diambil Alih, Distribusi dan HET Pupuk Tetap
Pataruddin/Idh
30/7/2003

indosiar.com, Makassar - Meski terjadi pengalihan distribusi pupuk di wilayah timur oleh PT
Pupuk Kaltim (PKT), masalah distribusi dan Harga Eceran tertinggi (HET) pupuk tetap.
Menurut Kepala Wilayah Pusri Abdul Wasji, sudah ada kerjasama, termasuk pengantongan

semuanya akan berlabel PKT, begitupula dengan masalah distribusi mulai dari lini 1 (kota
provinsi) hingga lini 4 (kota kecamatan) akan ditangani PKT dengan tetap memakai distribusi
Pusri.
Sementara Muhammad Hasyim Jafar, distributor CV Astri berharap kepada PKT agar dalam

pendistribusian pupuk nantinya t