Ekspansi Kueri Menggunakan Metode Semantic Similarity Retrieval Model (SSRM)

EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC
SIMILARITY RETRIEVAL MODEL (SSRM)

SRI RAHAYU ISMANI

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

EKSPANSI KUERI MENGGUNAKAN METODE SEMANTIC
SIMILARITY RETRIEVAL MODEL (SSRM)

SRI RAHAYU ISMANI

Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer


DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

ABSTRACT
SRI RAHAYU ISMANI. Query Expansion Method Using Semantic Similarity Retrieval Model
(SSRM). Supervised by JULIO ADISANTOSO.
The main objective of this study was to applied the method of semantic similarity in the proccesed
of query expansion in information retrieval systems in the Indonesian language. Selection of partners
in selecting candidates expansion will be used phrase pairs that have been made In research Kartina
(2010) in which the phrase pairs with the largest value of similarity between the words that will be
selected. Used by 10 groups of queries not clear who obtained manually and 30 groups of queries in
2000 agricultural document, document search results will be compared with the addition one-term of
expansion, two-term of expansion, and three-term of expansion.
The results of this study suggest five things. The first that the expansion of the query by added one
term produces better results than the addition of two terms and three terms. The second that query
expansion used by 10 groups of queries produces a higher precision values than using 30 groups of
queries. The third that the used of the semantic similarity method produces better performance than

the use of a thesaurus on the method of similarity retrieval Vektor Space Model (VSM). The fourth
that the used of semantic similarity methods have not been able to produce better performance than
the used of the method of conditional probabilities in the selection of expansion terms resulting from
the translation of bilingual dictionary. The fifth that the used of the phrase paired in determining the
candidate expansion terms can not maximize the search results using the method of semantic
similarity of documents, because each pair selected does not necessarily have a semantic relationship
with a given query.
Keywords: information retrieval, query expansion, semantic similarity.

Judul

: Ekspansi Kueri Menggunakan Metode Semantic Similarity Retrieval Model (SSRM)

Nama

: Sri Rahayu Ismani

NRP

: G64062227


Menyetujui:

Pembimbing,

Ir. Julio Adisantoso, M. Kom
NIP. 19620714 198601 1 002

Mengetahui:

Ketua Departemen Ilmu Komputer,

Dr. Ir. Sri Nurdiati, M.Sc.
NIP. 19601126 198601 2 001

Tanggal Lulus:

RIWAYAT HIDUP
Penulis dilahirkan di Jakarta, 04 Februari 1988. Penulis merupakan anak kedua dari empat
bersaudara dari pasangan Bapak Hamdi Ismani dan Ibu Rum Sari.

Penulis memulai pendidikan sekolah dasar di SD Negeri Sukatani 1 pada tahun 1994. Setelah lulus
pada tahun 2000, penulis melanjutkan ke pendidikan menengah di SMP Negeri 233 Jakarta pada
tahun yang sama dan kemudian dilanjutkan ke SMU Negeri 105 Jakarta pada tahun 2003. Tahun 2006
penulis lulus dari SMU dan diterima menjadi salah satu mahasiswa Institut Pertanian Bogor memalui
jalur Undangan Seleksi Masuk IPB (USMI). Setahun kemudian penulis berhasil diterima menjadi
salah satu mahasiswa Program Studi Ilmu Komputer IPB.
Selama mengikuti perkuliahan, penulis aktif di organisasi Himpunan Mahasiswa Ilmu Komputer
(HIMALKOM) dan bergabung dengan divisi multimedia tahun kepengurusan 2008/2009. Tahun 2009
penulis menjalankan Praktek Kerja Lapangan (PKL) di Direktorat Komunikasi dan Sistem Informasi
(DKSI) Institut Pertanian Bogor selama kurang lebih dua bulan.

PRAKATA
Puji dan syukur penulis panjatkan ke hadirat Allah SWT atas segala rahmat dan karunia-Nya
sehingga tugas akhir dengan judul Ekspansi Kueri Menggunakan Metode Semantic Similarity
Retrieval Model (SSRM) dapat diselesaikan dengan baik.
Penyelesaian tugas akhir ini tidak lepas dari bantuan berbagai pihak, untuk itu ucapan terima kasih
penulis sampaikan kepada:
1. Ayah, Ibu, Kakak, Adik, serta segenap keluarga besar yang selalu mendukung, mengingkatkan dan
memberikan semangat selama proses pembuatan tugas akhir ini.
2. Bapak Ir. Julio Adisantoso, M. Kom selaku dosen pembimbing tugas akhir. Terima kasih atas

kesabaran, bimbingan dan dukungan dalam penyelesaian tugas akhir ini.
3. Bapak Ahmad Ridha, S. Kom, MS dan Bapak Sony Hartono Wijaya, S. Kom, M. Kom selaku
dosen penguji, Ibu Dr. Sri Nurdiati, M.Sc selaku Kepala Departemen Ilmu Komputer serta seluruh
staf Departemen Ilmu Komputer FMIPA IPB.
4. Teman-teman satu bimbingan Ka Mutia, Hendrex, Awet, Tina, Rio, Iyam, Wildan, Eka, Adit,
Devi, Nova, Dina, Woro, Isna, Agus, Yoga, dan Ade. Terima kasih atas bantuan, semangat dan
kebersamaannya selama melakukan penelitian.
5. Sahabat-sahabatku Inez, Yuli, Ardan, Prames, Uut, Irawan, Roni, Wendhy dan seluruh sahabatku
Ilkomerz43. Terima kasih atas motivasi, kebersamaan dan kenangan selama tiga tahun yang tak
terlupakan.
6. Sahabat-sahabat baikku, Hana, Ziffy, Della, Nagi, Vely, terima kasih atas nasihat dan dukungan
yang selalu diberikan.
7. Teman-teman Wisma Arini 3 Mba Titi, Uni, Aron, Tia, terima kasih atas dukungan dan candaancandaan yang menghibur.
8. Seluruh pihak yang membantu baik secara langsung maupun tidak langsung dalam pelaksaan tugas
akhir ini.
Penulis berharap tulisan ini dapat bermanfaat di masa yang akan datang.

Bogor, Januari 2012

Sri Rahayu Ismani


DAFTAR ISI
Halaman
DAFTAR GAMBAR ....................................................................................................................... vi
DAFTAR TABEL............................................................................................................................ vi
DAFTAR LAMPIRAN .................................................................................................................... vi
PENDAHULUAN ............................................................................................................................ 1
Latar belakang............................................................................................................................... 1
Tujuan .......................................................................................................................................... 1
Ruang Lingkup.............................................................................................................................. 1
TINJAUAN PUSTAKA .................................................................................................................... 1
Temu Kembali Informasi ............................................................................................................... 1
Ekspansi Kueri .............................................................................................................................. 2
Semantic Similarity Retrieval Model (SSRM) ................................................................................ 2
Evaluasi Sistem Temu Kembali Informasi ..................................................................................... 3
METODE PENELITIAN .................................................................................................................. 3
Koleksi Dokumen.......................................................................................................................... 4
Indexing ........................................................................................................................................ 4
Matriks Kesamaan ......................................................................................................................... 4
Ekspansi Kueri .............................................................................................................................. 5

Pengujian Kinerja Sistem .............................................................................................................. 5
Analisis Pembandingan Metode Ekspansi ...................................................................................... 5
Asumsi-asumsi .............................................................................................................................. 5
Lingkungan Implementasi ............................................................................................................. 5
HASIL DAN PEMBAHASAN.......................................................................................................... 6
Koleksi Dokumen.......................................................................................................................... 6
Indexing ........................................................................................................................................ 6
Ekspansi Kueri .............................................................................................................................. 7
Pencarian Dokumen ...................................................................................................................... 7
Pengujian Kinerja Sistem .............................................................................................................. 8
Analisis Pembandingan Metode Ekspansi ...................................................................................... 9
KESIMPULAN DAN SARAN........................................................................................................ 10
Kesimpulan ................................................................................................................................. 10
Saran........................................................................................................................................... 10
DAFTAR PUSTAKA ..................................................................................................................... 11
LAMPIRAN ................................................................................................................................... 12

v

DAFTAR GAMBAR

Halaman
1 Gambaran umum sistem temu kembali informasi ........................................................................... 3
2 Grafik recall terhadap precision pada QE0 .................................................................................... 8
3 Grafik recall terhadap precision pada QX0 .................................................................................... 8
4 Grafik recall terhadap precision pada QE0, QE1, QE2, dan QE3 ................................................... 8
5 Grafik recall terhadap precision pada QX0, QX1, QX2, dan QX3 .................................................. 9

DAFTAR TABEL
Halaman
1 Ilustrasi perhitungan recall & precision ......................................................................................... 3
2 Deskripsi dokumen pengujian ........................................................................................................ 6
3 Hasil proses tokenisasi .................................................................................................................. 6
4 Contoh pasangan kata.................................................................................................................... 7
5 Normalisasi peluang pasangan kata................................................................................................ 7
6 Perbandingan nilai presisi sistem pada 1000 dan 2000 dokumen..................................................... 9
7 AVP berdasarkan penelitian Paiki (2006)..................................................................................... 10
8 AVP berdasarkan penelitian Samana (2011) ................................................................................ 10

DAFTAR LAMPIRAN
Halaman

1 Contoh dokumen dalam koleksi .................................................................................................... 13
2 Daftar 30 kueri dan jumlah dokumen relevan ................................................................................ 14
3 Daftar 10 kueri dan jumlah dokumen relevan ................................................................................ 15

vi

PENDAHULUAN
Latar belakang
Search Engine atau mesin pencari adalah
salah satu contoh aplikasi dalam penggunaan
sistem temu kembali informasi. Mesin pencari
melakukan
pencarian
informasi
dari
sekumpulan dokumen berdasarkan kebutuhan
informasi pengguna yang dimasukkan dalam
bentuk kueri. Kueri tersebut bisa berupa kata
atau serangkaian kata yang berkaitan dengan
topik tertentu. Terdapat masalah yang sering

ditemui dalam pencarian informasi tersebut,
yaitu pengguna tidak mampu merepresentasikan
kebutuhan informasi yang diinginkan ke dalam
bentuk kueri. Untuk memecahkan masalah
tersebut perlu dilakukan ekspansi kueri, yaitu
kueri yang diberikan pengguna akan
dimodifikasi, kemudian kueri yang baru
tersebut akan digunakan untuk pencarian
berikutnya (kueri akhir).
Paiki (2006) telah melakukan penelitian
mengenai ekspansi kueri dengan menggunakan
metode similarity thesaurus. Dalam penelitian
tersebut diberikan bobot yang sama untuk setiap
istilah-istilah yang berkaitan dengan kueri. Hal
ini tidak dapat meningkatkan kinerja sistem
khususnya pada saat ekspansi kueri. Sedangkan
Rusidi (2008) melakukan ekspansi kueri dengan
mengambil istilah ekspansi berdasarkan
keeratan hubungan istilah dalam kueri dengan
istilah lain yang berada dalam indeks. Keeratan

hubungan antar istilah ini diukur dengan
menggunakan metode peluang bersyarat. Hasil
dalam penelitian tersebut menunjukkan jumlah
istilah ekspansi yang lebih sedikit lebih baik
dibandingkan dengan mengunakan jumlah
istilah kueri yang lebih banyak.
Sitohang (2009) telah mengimplementasikan
metode
penerjemahan
kueri
dengan
menggunakan kamus dwibahasa dalam mencari
istilah ekspansi. Dalam kamus dwibahasa
tersebut akan dicari istilah kata yang memiliki
makna hampir sama dengan kueri yang telah
diberikan dan akan dipilih istilah untuk ekspansi
dengan menggunakan nilai idf istilah yang
dihasilkan dari penerjemahan. Tetapi dalam
penggunaan
metode ini hanya
dapat
meningkatkan relevansi hasil temu kembali
untuk beberapa kueri tertentu. Sedangkan
Samana (2011) melakukan penelitian mengenai
ekspansi kueri dengan berfokus pada pemilihan
istilah ekspansi yang dihasilkan oleh
penerjemahan dwibahasa menggunakan metode
peluang bersyarat. Ekspansi kueri yang
dilakukan pada penelitian tersebut mengakibat
menurunnya nilai presisi.

Hliaoutakis et al. (2006) melakukan
penelitian untuk membuat sistem temu kembali
informasi menggunakan WordNet dengan
metode
semantic
similarity.
WordNet
merupakan sebuah database kamus bahasa
Inggris yang dikembangkan oleh Princeton
University. Pada penelitian tersebut WordNet
digunakan untuk mencari ekspansi kata dari
kueri yang telah diberikan. Selain penelitian
tersebut, penelitian yang menggunakan metode
semantic similarity juga dilakukan pada data
medis. Dalam penelitiannya, Hliaoutakis telah
membuat database yang berisi hubungan
kesamaan makna antara kata-kata mengenai
medis dalam bahasa Inggris. Database tersebut
bernama MeSH, kemudian digunakan metode
semantic similarity retrieval model (SSRM)
untuk perhitungan bobot dari kueri (Hliaoutakis
et al. 2006).
Oleh karena belum adanya database kamus
bahasa Indonesia, maka pada penelitian ini akan
dicari istilah yang berkaitan dengan kata dalam
kueri dengan cara menghitung peluang antar
kata yang terdapat dalam dokumen dengan
menggunakan teknik pembentukan frase yang
dihasilkan pada penelitian Kartina (2010).
Tujuan
Tujuan utama dari penelitian adalah
mengimplementasikan
metode
Semantic
Similarity Retrieval Model (SSRM) dalam
proses pembobotan ekspansi kueri dalam sistem
temu kembali informasi untuk koleksi dokumen
teks berbahasa Indonesia.
Ruang Lingkup
Ruang lingkup penelitian ini adalah:
 Penelitian ini menggunakan dokumen serta
kueri berbahasa Indonesia.
 Menggunakan frase yang terdiri atas dua
kata yang dihasilkan pada penelitian Kartina
(2010) sebagai kandidat istilah ekspansi.

TINJAUAN PUSTAKA
Temu Kembali Informasi
Information retrieval atau temu kembali
informasi merupakan pencarian material, yang
biasanya dokumen, dari sesuatu yang tidak
terstruktur, biasanya teks, yang memenuhi
kebutuhan informasi dari sekumpulan koleksi
yang besar yang biasanya disimpan di komputer
(Manning
et
al.
2008).
Untuk
menemukembalikan informasi terdapat proses
indexing yang bertujuan menentukan kata mana
saja yang menjadi penciri suatu dokumen. Tiap

1

dokumen diwujudkan sebagai sebuah vektor
dengan elemen sebanyak kata yang berhasil
dikenali dari proses pemisahan kata. Vektor
tersebut beranggotakan bobot dari tiap kata
yang dihitung berdasarkan metode tf-idf.
Metode tf-idf
ini merupakan metode
pembobotan dalam bentuk sebuah metode yang
merupakan integrasi antar term frequency (tf),
dan inverse document frequency (idf)

Wt , d

 N 

 Tft. log
 Dft 

[1]

dengan wt,d adalah bobot dari kata t dalam
dokumen d sedangkan tft adalah frekuensi kata
t dalam dokumen d(tf) dengan N merupakan
ukuran data training yang digunakan untuk
penghitungan idf. Adapun dft adalah jumlah
dari dokumen yang di-training yang
mengandung nilai t.
Ekspansi Kueri
Selberg (1997) dalam Paiki (2006)
menyatakan bahwa ekspansi kueri adalah
sekumpulan teknik untuk memodifikasi kueri
dengan tujuan untuk memenuhi sebuah
kebutuhan informasi. Ekspansi kueri dapat
berarti penambahan maupun pengurangan kata
pada kueri.
Terdapat tiga cara yang dapat digunakan
dalam melakukan ekspansi kueri yakni: manual,
interaktif, dan automatic. Terkadang pengguna
tidak dapat memberikan informasi yang cukup
untuk melakukan ekspansi kueri (manual dan
interaktif), maka dibutuhkan suatu metode
ekspansi yang tidak memerlukan keterlibatan
pengguna di dalamnya (Automatic). Automatic
Queri Ekspansion (AQE) merupakan proses
penambahan istilah atau frase pada kueri asli
untuk meningkatkan kinerja temu kembali tanpa
intervensi dari pengguna (Imran & Sharan 2009,
dalam Samana 2011).
Pada ekspansi kueri terdapat dua metode
analisis yang digunakan, yaitu analisis lokal dan
analisis global. Ekspansi kueri dengan analisis
lokal hanya menggunakan kueri dan dokumendokumen yang sudah dutemukembalikan pada
pencarian awal. Dalam hal ini, analisis lokal
digunakan untuk menentukan istilah-istilah
yang tepat untuk ekspansi kueri. Sedangkan
analisis global, prinsip dasarnya adalah dengan
memanfaatkan konteks suatu kata untuk
menentukan kesamaannya dengan kata yang
lain (Baeza-Yates & Ribeiro-Neto dalam Paiki
2006).

Semantic Similarity Retrieval Model (SSRM)
Umumnya pada temu kembali informasi,
sebuah dokumen direpresentasikan oleh vektor
kata dan setiap kata dihitung dengan
menggunakan pembobot tf-idf. SSRM bekerja
dalam tiga tahap :
1 Pembobotan ulang kata
Bobot qi dari kata i pada kueri ditetapkan
berdasarkan hubungannya dengan persamaan
semantik kata j dalam vektor yang sama
ji

qi  qi 

 q .sim(i, j)

[2]

j

sim(i, j)  t

dengan t didefinisikan sebagai threshold.
Persamaan semantik antar kata yang dihitung
berdasarkan persamaan cosine

sim(i, j ) 

V (i).V ( j )

[3]

V (i) V ( j )
merupakan dot product
dengan
vektor i dan vektor j,
merupakan panjang
merupakan panjang
vektor kata i, dan
vektor kata j.
2 Ekspansi kata
Pertama-tama akan dicari pasangan kata dari
setiap kata dalam kueri awal yang memiliki
nilai kesamaan paling besar. Kemudian, setiap
kata i dalam kueri akhir diberikan bobot sebagai
berikut

q' i  qi 

ji

1
qj.sim(i, j)
n
sim(i, j)  T and jQ



[4]

dengan n adalah jumlah pasangan frase dari
setiap kata yang yang ada dalam kueri, q i
merupakan bobot kata i sebelum dilakukan
ekspansi, dan Q merupakan subset dari
sekumpulan kata yang asli pada kueri yang
menuju ke kata baru yang akan ditambahkan ke
dalam kata yang sudah diekspansi. Jika kata i
tidak berada pada kueri awal, maka nilai qi = 0.
3 Kesamaan Dokumen
Persamaan antara ekspansi dan pembobotan
ulang sebuah kueri q dan sebuah dokumen d
dihitung dengan ukuran kesamaan dokumen
sebagai berikut

sim(q, d ) 

 q .d .sim(i, j )
 q .d
i

i

j

i

j

j

i

[5]

j

2

dengan i dan j merupakan kata dalam kueri dan
dokumen secara berurutan dalam satu dokumen.
Ukuran kesamaan pada persamaan [3] rata-rata
bobotnya telah dinormalisasikan pada batas
[0,1].

Tabel 1 Ilustrasi perhitungan recall & precision
Relevant

Non-relevant

Retrieved

tp

fp

Non-retrieved

fn

tn

Evaluasi Sistem Temu Kembali Informasi
Dalam sistem temu kembali informasi
diperlukan suatu ukuran untuk mengevaluasi
kinerja sistem dalam menemukembalikan
dokumen-dokumen yang relevan. Terdapat
enam jenis ukuran yang dapat digunakan untuk
mengukur kinerja sistem yaitu coverage, time
lag, presentation, effort, recall, dan precision
(Cleverdon dalam Paiki 2006). Recall dan
precision merupakan salah satu ukuran yang
paling sering digunakan dalam mengevaluasi
sistem.
Recall merupakan rasio jumlah dokumen
relevan yang ditemukembalikan terhadap
jumlah seluruh dokumen relevan dalam koleksi.
Precision merupakan rasio jumlah dokumen
relevan yang ditemukembalikan terhadap
jumlah
seluruh
dokumen
yang
ditemukembalikan. Ilustrasi perhitungan Recall
dan precision dapat dilihat pada Tabel 1
(Manning et al. 2008).

Sehingga:

Re call 

tp
(tp  fp )

Pr ecision 

tp
(tp  fn )

[6]

[7]

Average precision (AVP) adalah suatu
ukuran evaluasi kinerja temu-kembali yang
diperoleh dengan menghitung average precision
menggunakan eleven standard recall yaitu 0,
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1
(Manning et al. 2008).

METODE PENELITIAN
Penelitian ini akan dilakukan melalui
beberapa tahap yaitu : (1) indexing, (2) matriks
kesamaan, (3) ekspansi kueri, (4) pengujian
kinerja sistem, dan (5) analisis pembandingan
kinerja sistem. Alur kerja dari sistem dapat
dilihat pada Gambar 1.

Gambar 1 Alur kerja sistem temu kembali informasi.

3

Gambar 1 menunjukkan alur dari sistem yang
dilakukan secara offline (1, 2, 3) dan online (4,
5, 6, 7) dengan penjelasan sebagai berikut:
Masukan: Query q, Dokumen d.
Keluaran: Top-N dokumen.
1. Menghitung frekuensi kata.
2. Menghitung bobot dari seluruh kata yang
terdapat
dalam
dokumen
dengan
perhitungan tf.idf
3. Menghitung nilai sim dari pasangan kata
yang nilai peluangnya ≥ 0.3
4. Mencari kandidat untuk kueri ekspansi
dengan memilih pasangan kata yang
memiliki nilai sim terbesar
5. Menghitung bobot baru
perhitungan SSRM tahap 1

kueri

dengan

ji

qi  qi 

 q .sim(i, j)
j

sim(i, j)  t

6. Menghitung bobot dari kueri ekspansi yang
didapatkan
dengan perhitungan SSRM
tahap 2
ji

1
qj.sim(i, j) ,
sim(i, j)  T and jQ n
kueri baru
q' i 



i

adalah

ji

1
qj.sim(i, j) , i adalah
sim(i, j)  T and jQ n
kueri dalam qi
q' i  qi 



7. Menghitung nilai kesamaan dokumen
dengan kueri dengan perhitungan SSRM
tahap 3

sim(q, d ) 

 q .d .sim(i, j)
 q .d
i

i

j

i

j

j

i

j

Koleksi Dokumen
Dokumen yang digunakan adalah dokumen
berita dalam bidang pertanian berbahasa
Indonesia sebanyak 2000 dokumen. Dokumen
berita yang digunakan merupakan koleksi berita
dari beberapa sumber di Internet.
Gugus kueri dan dokumen yang digunakan
dalam penelitian ini menggunakan 30 kueri
yang diambil dari koleksi yang ada di
Laboratorium Temu Kembali Informasi
Departemen Ilmu Komputer IPB dan 10 kueri
tidak jelas yang didapatkan secara manual.

Indexing
Tahap indexing merupakan kumpulan dari
beberapa langkah awal dalam melakukan tahap
pemodelan temu kembali informasi, yang
diantaranya: tokenisasi, pembuangan stopwords,
dan pembobotan kata dalam seluruh dokumen.
Dalam penelitian ini, proses indexing dijalankan
secara offline.
Pada tahap tokenisasi akan dilakukan
pembacaan
karakter
yang
bertujuan
membedakan karakter-karakter yang bersifat
separator dan yang bukan. Dalam penelitian ini,
karakter angka akan dianggap sebagai separator,
karena karakter angka dianggap kurang
representatif dalam menggambarkan suatu
dokumen tertentu.
Sebelum memasuki tahap pembobotan kata,
masing-masing token tersebut akan diperiksa
keberadaannya di dalam stopwords. Jika token
tersebut terdapat dalam daftar stopwords, maka
akan dibuang dan sebaliknya jika tidak, maka
token tersebut akan digunakan dalam tahap
pembobotan.
Setelah itu, akan dilakukan pembobotan
kata, tujuan dari pembobotan ini adalah untuk
menentukan tingkat kepentingan suatu token di
dalam dokumen. Metode yang digunakan
adalah tf-idf dan Semantic Similarity Retrieval
Model. Pembobotan tf-idf digunakan pada
proses indexing, sedangkan pembobotan
menggunakan Semantic Similarity Retrieval
Model digunakan pada saat ekspansi kueri.
Matriks Kesamaan
Berdasarkan indeks yang sudah dibuat akan
dihasilkan matriks kesamaan secara automatis.
Ukuran kesamaan yang digunakan adalah
ukuran kesamaan cosine.
Semakin besar jumlah istilah unik yang
didapatkan dalam indeks, maka semakin besar
pula ukuran matriks kesamaannya. Untuk
mengatasi besarnya ukuran matriks kesamaan,
setiap pasangan frase yang dihasilkan pada
penelitian Kartina (2010) akan dihitung nilai
kedekatannya dengan menggunakan persamaan
[3]. Jika pasangan frase tersebut memiliki
jumlah yang sedikit pada dokumen yang sama,
secara otomatis akan dibuang. Dengan
demikian, diharapkan jumlah pasangan frase
yang digunakan sebagai kandidat kueri ekspansi
akan berkurang, sehingga waktu komputasi
dapat dipersingkat.

4

Ekspansi Kueri
Pemilihan kandidat kueri ekspansi pada
penelitian ini akan menggunakan pasangan frase
yang dihasilkan pada penelitian Kartina (2010)
yang telah dihitung nilai nilai kedekatannya.
Pasangan frase dengan nilai kesamaan antarkata
terbesar akan dijadikan kueri ekspansi dan
ditambahkan pada kueri awal yang diberikan
pengguna (kueri akhir), untuk kemudian
dilakukan
pembobotan
ulang
dengan
menggunakan metode Semantic Similarity
Retrieval Model.
Pengujian Kinerja Sistem
Hal utama yang akan diuji dari sistem ini
yakni presisi dari hasil pencarian dokumen
berdasarkan kueri masukan. Metode evaluasi
yang digunakan untuk menghitung presisi dari
sistem ialah metode recall-precision. nilai
recall dan precision dari setiap pencarian
dengan kueri tertentu akan dihitung dan
selanjutnya diambil nilai rata-ratanya untuk
mendapatkan nilai average precision dari
sistem. Dengan menghitung nilai average
precision dari sistem, nilai presisi sistem secara
keseluruhan akan dapat diketahui. Terdapat
delapan asumsi kondisi pengujian presisi
sistem, yakni:
1. Kondisi pertama (QE0): evaluasi proses
temu kembali 30 kueri tanpa menggunakan
ekspansi kueri.
2. Kondisi kedua (QE1): evaluasi proses temu
kembali 30 kueri dengan menambahkan satu
istilah pada masing-masing kata dalam
kueri.
3. Kondisi ketiga (QE2): evaluasi proses temu
kembali 30 kueri dengan menambahkan dua
istilah pada masing-masing kata dalam
kueri.
4. Kondisi keempat (QE3): evaluasi proses
temu
kembali
30
kueri
dengan
menambahkan tiga istilah pada masingmasing kata dalam kueri.
5. Kondisi pertama (QX0): evaluasi proses
temu kembali 10 kueri tanpa menggunakan
ekspansi kueri.
6. Kondisi keempat (QX1): evaluasi proses
temu
kembali
10
kueri
dengan
menambahkan satu istilah pada masingmasing kata dalam kueri.
7. Kondisi keempat (QX2): evaluasi proses
temu
kembali
10
kueri
dengan
menambahkan dua istilah pada masingmasing kata dalam kueri.
8. Kondisi keempat (QX3): evaluasi proses
temu
kembali
10
kueri
dengan

menambahkan tiga istilah pada masingmasing kata dalam kueri.
Evaluasi presisi pencarian sistem akan diuji
pada dua jenis koleksi dokumen pengujian.
Koleksi pertama ialah menguji sistem pada
pengolah 1000 dokumen dan membandingkan
hasil presisi dengan hasil penelitian Paiki
(2006). Koleksi kedua ialah koleksi dokumen
yang memiliki ukuran lebih yakni 2000
dokumen.
Analisis Pembandingan Metode Ekspansi
Penelitian ini menggunakan metode
semantic similarity dalam proses pembobotan
pada ekspansi kueri, ekspansi kueri dengan 30
kueri akan dibandingkan dengan penelitian yang
telah dilakukan oleh Paiki (2006) yang
melakukan ekspansi kueri dengan menggunakan
metode
similarity
thesaurus
yang
diimplementasikan pada temu kembai vektor
dan ekspansi kueri dengan 10 kueri akan
dibandingkan dengan penelitian yang telah
dilakukan oleh Samana (2011) yang melakukan
ekspansi kueri dengan menggunakan metode
peluang bersyarat dalam pemilihan istilah
ekspansi
dalam
penerjemahan
kamus
dwibahasa. Analisis lebih jauh diperlukan untuk
mengetahui metode mana yang lebih baik
digunakan dalam ekspansi kueri.
Asumsi-asumsi
Asumsi-asumsi yang
penelitian ini antara lain:

digunakan

dalam

 Token hasil tokenizing merupakan istilah
yang belum tentu bernilai benar secara
bahasa
 Setiap token hasil tokenizing telah memiliki
pasangan frase masing-masing
 Setiap pasangan frase yang didapatkan
sebagai kandidat istilah ekspansi memiliki
makna semantik yang ambigu
 Jumlah dokumen relevan untuk tiap kueri
telah diketahui sebelumnya
 Pilihan istilah yang didapatkan pada hasil
ekspansi kueri belum tentu bernilai benar
secara bahasa
Lingkungan Implementasi
Perangkat lunak yang digunakan dalam
melakukan penelitian yaitu:
 Windows 7 Starter sebagai sistem operasi
 ActivePerl-5.10.1.1007 sebagai interpreter
bahasa pemrograman Perl yang digunakan

5

 Notepad++ v.5.9
 Microsoft Excel 2007 sebagai aplikasi yang
digunakan untuk melakukan perhitungan
dalam mengevaluasi sistem
Perangkat keras yang digunakan untuk
penelitian meliputi:
 AMD Dual-Core Processor E-350 CPU @
1,6 GHz
 RAM 2 GB
 Harddisk dengan kapasitas 320 GB

HASIL DAN PEMBAHASAN
Koleksi Dokumen
Tahapan pengumpulan dokumen telah
menghasilkan koleksi yang terdiri atas 2000
dokumen pertanian yang seluruhnya berasal dari
lab Temu Kembali Informasi dan merupakan
dokumen berita dalam bidang pertanian
berbahasa Indonesia. Deskripsi dari dokumen
yang digunakan dapat dilihat pada Tabel 2.

Nilai (byte)

Ukuran keseluruhan dokumen

6438425

Ukuran rata-rata dokumen

3219

Ukuran dokumen terbesar

53309

Ukuran dokumen terkecil

412

Seluruh isi dokumen yang dikumpulkan
menggunakan
Bahasa
Indonesia
semiformal/formal. Jumlah stopword yang diperoleh
dari 2000 dokumen adalah sebanyak 1074 kata,
diantaranya adalah kata-kata umum, tetapi,
tersebut, tanpa, dan setelah.
Contoh dari dokumen pengujian dapat
dilihat pada Lampiran 1, dan format dokumen
yang terkumpul diformat dengan susunan tag
sebagai berikut :

nomor dokumen
judul dokumen
nama/inisial penulis
tanggal dokumen
isi teks lengkap


Indexing
Tahap indexing berjalan secara offline dan
dilakukan untuk menghasilkan kata-kata yang
akan digunakan sebagai penciri dokumen. Dari
indexing yang dilakukan tercatat 31454 buah
istilah unik. Berikut lima istilah dengan
frekuensi tertinggi adalah :
Pertanian (1472 dokumen, 8946 kata)
Petani (1091 dokumen, 5477 kata)
Tanaman (954 dokumen, 3695 kata)
Tahun (1148 dokumen, 3507 kata)
Indonesia (921 dokumen, 3315 kata)

Tabel 2 Deskripsi dokumen pengujian
Uraian

Selain itu untuk mengevaluasi sistem yang
dihasilkan dari penelitian ini digunakan 30 kueri
yang diambil dari koleksi yang ada di
Laboratorium Temu Kembali Informasi
Departemen Ilmu Komputer IPB dan 10 kueri
tidak jelas yang didapatkan oleh penulis secara
manual. Daftar kueri dan jumlah dokumen
relevan dapat dilihat pada Lampiran 2 dan
Lampiran 3.

Tahap tokenisasi dilakukan dengan
memilah kata tertentu berdasarkan frekuensi
kemunculannya dalam setiap dokumen,
sehingga diperoleh sebanyak 259460 kata
dengan frekuensi kemunculan yang bervariasi.
Penjelasan hasil tokenisasi ditunjukkan oleh
Tabel 3.
Tabel 3 Hasil proses tokenisasi
Uraian
Rata-rata token tiap dokumen
Jumlah token keseluruhan

Nilai
130
259460

Jumlah token terbesar

8946

Jumlah token terkecil

1

Stopword yang diperoleh sebanyak 1074
kata sehingga menunjukkan bahwa frekuensi
kemunculannya sangat banyak dalam dokumen.
Stopword merupakan daftar kata umum yang
mempunyai fungsi tapi tidak mempunyai arti
yang ditemukan dalam seluruh dokumen
sehingga perlu dibuang untuk efisiensi, seperti :
adalah, akan, atau, dan bagi.
Setelah tahap pembuangan stopword
kemudian dilakukan pembobotan terhadap kata.
Tahap ini dilakukan untuk mendapatkan hasil
sejumlah kata yang sering muncul pada suatu
dokumen sehingga dapat diketahui pentingnya
kata
tersebut
untuk
dokumen
yang

6

bersangkutan. Pendekatan yang digunakan
adalah dengan term frequency (tf) dan inverse
document frequency (idf), dalam penelitian ini
kata yang akan dihitung bobotnya hanya kata
dengan nilai idf >= 0.3, dari hasil kali terhadap
keduanya sehingga diperoleh nilai bobot setiap
term t pada dokumen d.

Tabel 5 Normalisasi peluang pasangan kata
Peluang

Frekuensi

0 < peluang ≤ 0.1

213718

0.1 < peluang ≤ 0.2

19431

0.2 < peluang ≤ 0.3

68

Seluruh hasil dari tahap indexing disimpan
dalam table hash frek.dat untuk kemudian
dipakai dalam tahap perhitungan bobot dari
seluruh kata dalam dokumen dengan
menggunakan persamaan [1]. Sedangkan hasil
dari perhitungan bobot kata disimpan dalam
table hash tfIdf.dat.

0.3 < peluang ≤ 0.4

6467

0.4 < peluang ≤ 0.5

7905

0.5 < peluang ≤ 0.6

319

0.6 < peluang ≤ 0.7

812

0.7 < peluang ≤ 0.8

277

Ekspansi Kueri

0.8 < peluang ≤ 0.9

111

Sejumlah 270262 pasangan kata beserta
dengan masing-masing peluangnya telah
didapatkan dari penelitian Kartina (2010).
Pasangan kata yang akan digunakan dalam
penelitian ini akan dibatasi dengan hanya
mengambil pasangan kata yang memiliki nilai
peluang lebih dari sama dengan 0.3, sehingga
didapat 31014 pasangan kata yang akan
disimpan dan dihitung kesamaan antar kata
dengan menggunakan persamaan [3] untuk
disimpan dalam table hash cosineKata.dat
untuk kemudian dijadikan kandidat istilah pada
ekspansi kueri. Contoh pasangan kata yang
telah dihitung nilai kedekatannya dapat dilihat
pada Tabel 4.

0.9 < peluang ≤ 1

Tabel 4 Contoh pasangan kata
Pasangan kata

Ukuran
Matriks
Kesamaan

Nilai
Peluang

Asam Lemak

0.0880

0.4078

Proyek Stadion

0.0774

0.4193

Pupuk Kandang

0.0267

0.6580

Jalan Tol

0.0304

0.5833

Bawang Bombai

0.0012

1

Nilai peluang dari pasangan kata yang
dinormalisasikan dalam batas [0,1] dapat dilihat
pada Tabel 5.

15055

Pencarian Dokumen
Pencarian dokumen dilakukan dengan
menghitung ukuran kesamaan antara kueri yang
diberikan dan tiap dokumen. Semakin tinggi
nilai ukuran kesamaan dengan suatu dokumen
maka dapat diartikan dokumen relevan dengan
kueri yang diberikan.
Proses awal pencarian dokumen dilakukan
dengan cara menghitung bobot dari kueri yang
dimasukan oleh pengguna (kueri awal) dengan
menggunakan rumus tfIdf. Setelah didapatkan
bobot dari kueri yang diberikan, sistem akan
mencari kandidat kueri ekspansi dalam table
hash cosineKata.dat untuk kemudian dipilih
yang memiliki nilai kesamaan antarkata paling
besar yang akan dijadikan kueri ekspansi (kueri
akhir).
Metode SSRM bekerja dalam tiga tahap
yaitu: pembobotan ulang kata, ekspansi kueri,
dan kesamaan dokumen. Tahap pembobotan
ulang kata dimulai dengan menghitung bobot
dari kueri awal dengan menambahkan jumlah
dari seluruh nilai kesamaan pasangan kata yang
telah dipilih dengan menggunakan persamaan
[2] dengan nilai threshold 0,001.
Kueri akhir yang didapatkan akan masuk ke
tahap kueri ekspansi untuk kemudian dihitung
kembali bobotnya dengan menggunakan
persamaan [4] dengan nilai threshold 0,001.
Pasangan kata yang dipakai pada persamaan ini
menggunakan pasangan kata yang telah dicari
dari table hash cosineKata.dat.
Ukuran kesamaan dokumen pada metode
SSRM menggunakan persamaan [5], untuk
setiap i dan j (i dan j merupakan pasangan kata
yang telah dicari pada tahap ekspansi kueri)

7

Pengujian Kinerja Sistem
Proses evaluasi dilakukan untuk mengetahui
seberapa baik kinerja dari suatu sistem temu
kembali informasi. Proses evaluasi dalam
penelitian ini menggunakan 30 macam kueri
yang diambil dari Laboratorium Temu Kembali
Informasi Departemen Ilmu Komputer IPB dan
10 macam kueri tidak jelas yang ditentukan
secara manual oleh pengguna dan telah
diketahui dokumen-dokumen relevannya, dan
kinerja dari sistem pada penelitian ini akan diuji
dengan menggunakan nilai recall dan precision
sebagai tolok ukur yang menggambarkan
seberapa baik sistem yang telah dibangun,
setelah itu dilakukan interpolasi untuk
mengetahui nilai Average Precision.

1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
Recall
Gambar 3

Grafik recall terhadap precision
pada QX0.

Nilai recall dan precision dari pencarian
tanpa ekspansi dengan menggunakan metode
Vector Space Model (VSM) akan digunakan
sebagai pembanding oleh pencarian yang
menggunakan ekspansi, baik satu, dua, maupun
pencarian yang menggunakan tiga buah
ekspansi dari setiap kata dalam kueri awal. Nilai
average precision (AVP) dari menu pencarian
untuk gugus 30 kueri dan gugus 10 kueri
masing-masing adalah sebesar 0.495 dan 0.796.
Kondisi pengujian lainnya, QE1, QE2, dan
QE3 yang merupakan pengujian untuk
pencarian 30 kueri yang dilakukan dengan
menambahkan istilah ekspansi pada kueri awal.
Hasil dari pengujian tersebut akan dibandingkan
dengan pencarian tanpa ekspansi (QE0).

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Recall
Gambar 2

1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0

Grafik recall terhadap precision
pada QE0.

Precision

Precision

Tahap awal akan dilakukan pengujian untuk
pencarian dokumen tanpa melakukan ekspansi
kueri menggunakan pembobotan VSM. Hasil
pengujian untuk QE0 dan QX0 dapat dilihat
pada Gambar 2 dan Gambar 3.

Precision

akan dihitung jumlah vektor kueri i dikalikan
dengan vektor dokumen yang mengandung kata
j dan dikalikan dengan ukuran kesamaan antara
kata i dan j.

1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0

QE0
QE1
QE2
QE3

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Recall
Gambar 4

Grafik recall terhadap precision
pada QE0, QE1, QE2, dan QE3.

8

Precision

1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0

QX0
QX1
QX2
QX3

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Recall
Gambar 5

Grafik recall terhadap precision
pada QX0, QX1, QX2, dan QX3.

Perbandingan untuk tiga pengujian dengan
ekspansi kueri dapat dilihat pada Gambar 4 dan
Gambar 5. Dari grafik terlihat bahwa
penggunaan metode semantic similarity dalam
menghitung pembobotan kueri pada pengujian
yang dilakukan untuk 30 kueri hanya mampu
meningkatkan nilai precision untuk dua kueri
masukan dari 30 kueri yang diujikan, dan
peningkatan terjadi pada saat penambahan satu
istilah ekspansi (QE1). Sedangkan pada
pengujian yang dilakukan untuk 10 kueri hanya
mampu meningkatkan nilai precision untuk
empat kueri masukan dari 10 kueri yang
diujikan, dan peningkatan terjadi pada saat
penambahan satu istilah ekspansi (QX1).
Pada Tabel 6 dapat dilihat perbandingan
nilai AVP dari pengujian QE0, QE1, QE2, QE3,
QX0, QX1, QX2, dan QX3. Pada pengujian
untuk hasil temu kembali yang menggunakan
ekspansi kueri (QE1, QE2, QE3, QX1, QX2,
QX3) menghasilkan nilai AVP yang lebih kecil
dibandingkan tanpa menggunakan ekspansi
kueri (QE0, QX0) dan nilai AVP semakin
menurun dengan penambahan istilah ekspansi.
Hal ini dikarenakan dalam tahap kesamaan
antar dokumen, setiap kandidat pasangan kata
kueri yang terpilih sangat mempengaruhi
perhitungan kedekatan antara kueri ekspansi
dan dokumen. Sedangkan kandidat pasangan
kata yang didapatkan pada proses pemilihan
pasangan ekspansi cukup banyak, dan beberapa
diantaranya tidak sesuai dengan konteks
pencarian dan juga belum tentu setiap kandidat
pasangan kata yang terpilih berada dalam satu
dokumen. Masalah tersebut mengakibatkan
hasil temu kembali yang diperoleh tidak sesuai
dengan yang diharapkan. Akan tetapi untuk
beberapa kueri masukan, hasil pencarian
menggunakan
ekspansi
kueri
dapat
menghasilkan hasil pencarian yang lebih baik.

Selain itu, hal yang menyebabkan kecilnya nilai
AVP dapat dikarenakan kondisi dokumen pada
korpus, dimana terdapat kesalahan penulisan isi
pada koleksi dokumen. Selain itu penyebab dari
kecilnya nilai AVP dikarenakan untuk setiap
pasang kueri dengan dokumen relevan, terdapat
banyak kueri dan pasangannya yang memiliki
sedikit jumlah dokumen yang relevan sehingga
jika dibandingkan dengan jumlah dokumen
yang besar akan menghasilkan nilai recall dan
precision yang kecil.
Tabel 6 Perbandingan nilai presisi sistem pada
1000 dan 2000 dokumen
Average Precision
Kondisi
Pengujian

1000
dokumen

2000
dokumen

QE0

0.544

0.495

QE1

0.262

0.253

QE2

0.257

0.246

QE3

0.197

0.187

QX0

0.712

0.796

QX1

0.604

0.744

QX2

0.600

0.739

QX3

0.589

0.739

Pengujian juga dilakukan pada 1000
dokumen pertanian. Pada Tabel 6 terlihat bahwa
hasil perbandingan pengujian 30 kueri pada
1000 dokumen dengan 2000 dokumen
memperlihatkan penurunan presisi pencarian.
Hal ini dapat dikarenakan jumlah dokumen
yang dibandingkan dengan dengan dokumen
yang relevan lebih sedikit. Sedangkan hasil
perbandingan pengujian 10 kueri pada 1000
dokumen
dengan
2000
dokumen
memperlihatkan adanya kenaikan nilai presisi.
Analisis Pembandingan Metode Ekspansi
Pada penelitian sebelumnya Paiki (2006)
telah menggunakan similarity thesaurus pada
ekspansi kueri yang diimplementasikan pada
temu kembali berbasis vektor. Pengujian untuk
melihat kinerja sistem akan dilakukan dengan
membandingkan antara temu kembali dengan
menggunakan metode similarity thesaurus dan
temu kembali dengan menggunakan metode
semantic similarity. Perbandingan dilakukan
pada dua kegiatan temu kembali, yaitu temu
kembali lima istilah dan sepuluh istilah pada
penggunan similarity thesaurus dan temu

9

kembali satu istilah dan dua istilah pada
penggunaan semantic similarity. Tabel 7
menunjukkan AVP dari hasil pengujian yang
dilakukan dalam penelitian sebelumnya.
Tabel 7 AVP berdasarkan penelitian Paiki
(2006)
Average Precision
Pengujian

Similarity
Thesaurus

Semantic
Similarity

TH5-1

0.201

0.253

TH10-1

0.166

0.246

Penelitian ini menunjukkan hasil yang relatif
lebih
baik
daripada
ekspansi
kueri
menggunakan similarity thesaurus (Paiki,
2006). Hal ini karena terdapat perbedaan saat
pembobotan ulang kata yang terjadi setelah
ekspansi kueri. Pembobotan ulang kata yang
dilakukan dalam penelitian ini sangat
dipengaruhi oleh setiap kandidat ekspansi kueri,
sedangkan pada penelitian sebelum kandidat
ekspansi tidak mempengaruhi pembobotan
ulang. Sehingga bobot kueri pada penelitian ini
lebih besar dibandingkan dengan penelitian
yang dilakukan sebelumnnya.
Pengujian metode ekspansi selanjutnya akan
dibandingkan dengan penelitian yang telah
dilakukan oleh Samana (2011). Dalam
penelitian tersebut digunakan metode peluang
bersyarat dalam pemilihan istilah ekspansi yang
dihasilkan dari penerjemahan kamus dwibahasa.
Pengujian untuk melihat kinerja sistem akan
dilakukan perbandingan antara temu kembali
menggunakan peluang bersyarat dengan temu
kembali 10 kueri dengan menggunakan metode
semantic similarity.
Tabel 8 menunjukkan bahwa pada pengujian
penambahan satu istilah ekspansi, dua istilah
ekspansi, dan penambahan tiga istilah ekspansi
pada penelitian sebelumnya menghasilkan nilai
AVP yang lebih besar dibandingkan dengan
penelitian ini. Hal tersebut dapat terjadi karena
terdapat perbedaan teknik dalam pemilihan
kandidat
ekspansi.
Dalam
penelitian
sebelumnya pemilihan kandidat ekspansi dipilih
dengan mengggunakan nilai peluang yang
tertinggi dari penerjemahan kamu dwibahasa
dan pada saat ekspansi kueri dan tidak terjadi
pembobotan ulang kata. Sedangkan dalam
penelitian ini terjadi pembobotan ulang kata
dimana pembobotan ulang kata sangat
dipengaruhi oleh kandidat ekspansi yang
dipilih. Teknik pemilihan kandidat ekspansi
yang digunakan dalam penelitian ini masih

kurang baik dibandingkan teknik yang
dilakukan dalam penelitian sebelumnya
sehingga pembobotan ulang kata menghasilkan
bobot yang lebih kecil dibandingkan dengan
penelitian sebelumnya.
Tabel 8 AVP berdasarkan penelitian Samana
(2011)
Average Precision
Pengujian

Peluang
Bersyarat

Semantic
Similarity

QX1

0.784

0.744

QX2

0.765

0.739

QX3

0.734

0.739

KESIMPULAN DAN SARAN
Kesimpulan
Hasil penelitian menunjukkan:
1. Ekspansi kueri dengan penambahan satu
istilah ekspansi menghasilkan nilai AVP
dengan nilai lebih tinggi daripada
penambahan dua istilah dan penambahan
tiga istilah.
2. Kinerja sistem yang didapatkan sudah cukup
baik bila dilakukan pengujian pada 10 kueri
tidak jelas karena nilai AVP yang dihasilkan
masih lebih dari 50%, dibandingkan dengan
pengujian pada 30 kueri yang menghasilkan
nilai AVP kurang dari 50%.
3. Ekspansi kueri dengan metode semantic
Similarity mampu meningkatkan kinerja
pencarian jika dibandingkan metode
similarity thesaurus pada model temu
kembali vektor.
4. Ekspansi kueri dengan metode semantic
Similarity belum mampu meningkatkan
kinerja pencarian jika dibandingkan metode
peluang bersyarat dalam pemilihan istilah
ekspansi yang dihasilkan dari penerjemahan
kamus dwibahasa.
5. Penggunaan
pasangan
frase
dalam
menentukan kandidat istilah ekspansi tidak
dapat memaksimalkan hasil pencarian
dokumen
dengan
metode
semantic
Similarity.
Saran
Untuk penelitian selanjutnya terdapat
beberapa hal yang dapat ditambahkan atau
diperbaharui:
1. Menggunakan koleksi dokumen yang lebih
besar.

10

2. Menggunakan thesaurus dalam menentukan
istilah mana saja yang akan ditambahkan
pada kueri awal.

DAFTAR PUSTAKA
Hliaoutakis A, Varelas G, Petrakis EGM,
Milios E. 2006. MedSearch: A Retrieval for
Medical Information Based on Semantic
Similarity. In: 10th ECDL European
Conference on Research and Advanced
Technology for Digital Libraries (ACDL
2006), Alicante, Spain 17-22.
Hliaoutakis A, Varelas G, Voutsakis E, Petrakis
EGM,
Milios E. 2006. Information
Retrieval by Semantic Similarity, Journal on
Semantic Web and Information System
(IJSWIS), Special Issue of Multimedia
Semantics, Vol.3, No.3, Juli/September,
2006, PP. 55-73, copyright 2006, Idea
Group Inc. ww.idea-group.com. Posted by
Permission of the Publisher.
Kartina. 2010. Analisis Pertanyaan Bernahasa
Indonesia pada Question Answering System
(QAS).
[Skripsi].
Bogor:
Fakultas
Matematika dan Ilmu Pengetahuan Alam,
Institut Pertanian Bogor.
Manning CD, Raghavan P, Schütze H. 2008.
Introduction to Information Retrieval.
America, New York.
Paiki FF. 2006. Evaluasi Penggunaan Similarity
Thesaurus Terhadap Ekspansi Kueri dalam
Sistem Temu Kembali Informasi Berbahasa
Indonesia. [Skripsi]. Bogor: Fakultas
Matematika dan Ilmu Pengetahuan Alam,
Institut Pertanian Bogor.
Rusidi. 2008. Ekspansi Kueri dalam Sistem
Temu Kembali Informasi Berbahasa
Indonesia Menggunakan Peluang Bersyarat.
[Skripsi]. Bogor: Fakultas Matematika dan
Ilmu Pengetahuan Alam, Institut Pertanian
Bogor.
Samana MA. 2011. Ekspansi kueri Berdasarkan
Kamus Dwibahasa Menggunakan Peluang
Bersayarat. [Skripsi]. Bogor: Fakultas
Matematika dan Ilmu Pengetahuan Alam,
Institut Pertanian Bogor.
Sitohang NL. 2009. Ekspansi Kueri pada Sistem
Temu Kembali Informasi Menggunakan
Kamus Dwibahasa. [Skripsi]. Bogor:
Fakultas Matematika dan Ilmu Pengetahuan
Alam, Institut Pertanian Bogor.

11

LAMPIRAN

Lampiran 1 Contoh dokumen dalam koleksi

mediaindonesia 160110
Lawan Produk China dengan Pertanian
Kasriadi
Sabtu, 16 Januari 2010

PALU--MI: Ketua Umum Himpunan Pengusaha Muda Indonesia (HIPMI) Erwin Aksa mengatakan,
untuk menghadapi gempuran pasar industri produk China yang saat ini telah membanjiri pasar
domestik diperlukan penguatan sektor perkebunan dan pertanian.
Erwin mengakui, tantangan terbesar yang dihadapi Indonesia pasca ditandatanganinya perjanjian
perdagangan bebas Indonesia-China saat ini adalah membanjirnya produk industri dari negara itu.
"Ada empat hal yang diperkuat untuk menghadapi produk dari China, yakni pertambangan,
perkebunan/pertanian, properti, dan infrastruktur," kata Erwin Aksa saat menghadiri Rapat Kerja
HIPMI Sulteng dan Seminar Daerah Arah dan kebijakan Perkebunan Sulawesi Tengah di Palu, Sabtu
(16/1).
Erwin mengatakan, empat sektor itu perlu diperhatikan oleh pengusaha dalam negeri karena Indonesia
memiliki sumber daya yang cukup besar di sektor tersebut yang tidak dimiliki China. Sektor
perkebunan, misalnya, Indonesia memiliki luas lahan yang besar. Hanya, saat ini tidak ada lagi
kapling lahan dalam jumlah yang luas. Lahan dalam jumlah besar telah dikapling oleh
pengusaha-pengusaha besar.
Sektor perkebunan membutuhkan keterlibatan pengusaha lokal atau daerah karena pengusaha luar
negeri kurang berminat dengan lahan yang kecil. "Investor luar negeri tidak tertarik dengan lahan
yang kecil. Mereka membutuhkan lahan ratusan ribu hektare untuk mengembangkan investasi
perkebunan. Di sinilah perlunya keterlibatan pengusaha lokal," kata Erwin.
Pemerintah daerah perlu fokus pada pembangunan perkebunan. Soalnya, untuk bersaing di sektor
industri tekstil atau alas kaki, Indonesia sudah ketinggalan. Industri tersebut sudah dikuasai China.
Industri tekstil di negara itu tumbuh 10 kali lipat dari industri dalam negeri. "Perkebunan rakyat perlu
dikembangkan dengan memanfaatkan pengusaha-pengusaha di daerah," kata Erwin.



13

Lampiran 2 Daftar 30 kueri dan jumlah dokumen relevan
Kueri

Jumlah
Dokumen
Relevan

gagal panen

114

petani tebu

25

industri gula

30

perdagangan hasil pertanian

56

penerapan teknologi pertanian

99

pupuk organik

66

penyakit hewan ternak

30

penerapan bioteknologi

53

laboratorium pertanian

53

riset pertanian

84

harga komoditas pertanian

65

tanaman pangan

53

kelompok tani

43

musim panen

49

tanaman obat

31

gabah kering giling

37

impor beras indonesia

50

sistem pertanian organik

28

swasembada pangan

42

penyuluhan pertanian

38

tadah hujan

29

bencana kekeringan

44

peternak ayam

30

flu burung

37

institut pertanian bogor

62

pembangunan untuk sektor pertanian

103

upaya peningkatan pendapatan petani

61

produk usaha peternakan rakyat

35

kelangkaan pupuk

35

dukun