Direct Term Feedback pada Temu-Kembali Informasi Bahasa Indonesia Menggunakan Model Bahasa

DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI
INFORMASI BAHASA INDONESIA MENGGUNAKAN
MODEL BAHASA

ANITA

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

DIRECT TERM FEEDBACK UNTUK TEMU-KEMBALI
INFORMASI BAHASA INDONESIA MENGGUNAKAN
MODEL BAHASA

ANITA

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

i

ABSTRACT
ANITA. Direct Term Feedback for Information Retrieval in Indonesian Language with Language
Models. Supervised by JULIO ADISANTOSO.
The large amount of information has triggered the development of search engines to help
the users in finding the required information. To retrieve information which is relevant to the
users’ needs, the queries should be formulated correctly. Direct term feedback is a method that can
help a user to directly judge the relevance of individual terms without interaction with feedback
documents, taking a full control of the whole query expansion process. This technique uses
Pseudo-relevance feedback which takes the top n-ranked documents and takes the top x-ranked
terms from the relevant documents to get term feedback for users’ judgement. The purpose of this

research is to implement query expansion with direct term feedback for information retrieval in
Indonesian language with language models. This research uses 2095 documents and 20 testing
queries. The result shows that direct term feedback is a good method to help the users in finding
their required information. The performance of direct term feedback for information retrieval with
language models gives a good result with around 35% of AVP value.
Keyword: direct term feedback, query expansion

Judul Skripsi : Direct Term Feedback pada Temu-Kembali Informasi Bahasa Indonesia
Menggunakan Model Bahasa
Nama
: Anita
NRP
: G64080061

Menyetujui:
Pembimbing

Ir. Julio Adisantoso, M.Kom
NIP 19620714 198601 1 002


Mengetahui:
Ketua Departemen Ilmu Komputer

Dr. Ir. Agus Buono, M.Si, M.Kom
NIP 19660702 199302 1 001

Tanggal Lulus:

PRAKATA
Alhamdulilahirobbil’alamin, segala puji syukur penulis panjatkan kepada Allah atas segala
karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul Direct Term Feedback
pada Temu-Kembali Informasi Menggunakan Model Bahasa.
Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpa bantuan dari berbagai
pihak. Pada kesempatan ini, penulis ingin mengucapkan terima kasih kepada:
1 Orang tua tercinta, Bapak Muhamad Nuh dan Ibu Sahara, ketiga kakak yang saya sayangi
Chairul Anwar, Sahmiwita dan Syariful Anwar, serta ketiga adik yang saya sayangi Yusnaida
Daulay, Septiana, dan Wilda Daulay yang selalu memberikan doa, nasihat, semangat,
dukungan, dan kasih sayang yang luar biasa kepada penulis sehingga dapat menyelesaikan
tugas akhir ini.
2 Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas

kesabaran, bimbingan serta dukungan dalam penyelesaian tugas akhir ini.
3 Teman-teman satu bimbingan Meriska Defriani, Susi Handayani, Nofel Saputra, Putri Dewi P,
Fania Rahmanawati Karimah, Mery Marlina, Alfa Nugraha, Rizky Utama, dan Hafidzhia
Dzikrul A terima kasih atas kebersamaan dan semangatnya dalam menyelesaikan tugas akhir
ini.
4 Sahabat-sahabat dan senior, Mutiara Wide, Dewi Sekar, Aninta Saraswati, Dwi Puji Astuti,
Tira Mutiara, Woro Indriyani, Agus Umriadi, dan Elenur Dwi Anbiana, terima kasih untuk
dukungan dan bantuannya selama penyelesaikan tugas akhir ini.
5 Fulsi Wiyata yang senantiasa memberikan semangat dan doa kepada penulis.
6 Seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama
penelitian maupun selama perkuliahan.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan
dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap
adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi
kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.

Bogor, Juli 2012

Anita


RIWAYAT HIDUP
Penulis yang dilahirkan di Jakarta pada tanggal 30 Mei 1990 merupakan anak keempat dari
tujuh bersaudara dengan ayah bernama Muhamad Nuh dan ibu bernama Sahara. Pada tahun 2008,
penulis lulus dari Sekolah Menengah Atas Negeri 112 Jakarta Barat dan diterima di Program Studi
Ilmu Komputer, Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB. Selama aktif
sebagai mahasiswa, penulis pun turut aktif mengikuti beberapa kegiatan kepanitiaan di
Departemen Ilmu Komputer, antara lain ISC 2009, IT TODAY 2010, Pesta Sains 2010, dan
panitia Masa Perkenalan Departemen 2010. Penulis pun aktif sebagai pengurus .NET, Divisi
Komunitas Programming Himpunan Mahasiswa Ilmu Komputer 2010. Penulis juga melakukan
praktik kerja lapang di Badan Pengkajian dan Penerapan Teknologi (BPPT).

1

DAFTAR ISI
Halaman

DAFTAR TABEL............................................................................................................... 2
DAFTAR GAMBAR .......................................................................................................... 2
DAFTAR LAMPIRAN....................................................................................................... 2
PENDAHULUAN

Latar Belakang .............................................................................................................................. 1
Tujuan ........................................................................................................................................... 1
Ruang Lingkup ............................................................................................................................. 1

METODE PENELITIAN
Indexing ........................................................................................................................................ 1
Ukuran Kemiripan (similarity) ..................................................................................................... 2
Top N Dokumen............................................................................................................................ 2
Pemilihan Kata ............................................................................................................................. 2
Hitung Relevansi Kata .................................................................................................................. 3
Formulasi Kueri ............................................................................................................................ 3
Evaluasi Hasil ............................................................................................................................... 3
Lingkungan Implementasi ............................................................................................................ 3

HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian ........................................................................................................ 3
Pemrosesan Dokumen .................................................................................................................. 4
Indexing ........................................................................................................................................ 4
Ukuran Kesamaan (Similarity) ..................................................................................................... 5
Pemilihan Kata ............................................................................................................................. 5

Formulasi Kueri ............................................................................................................................ 5
Pengujian Kinerja Sistem ............................................................................................................. 5

SIMPULAN DAN SARAN
Simpulan ....................................................................................................................................... 8
Saran ............................................................................................................................................. 8

DAFTAR PUSTAKA ......................................................................................................... 8
LAMPIRAN ....................................................................................................................... 9

DAFTAR TABEL
1
2
3
4

Halaman
Perhitungan recall-precision ......................................................................................................... 3
Deskripsi dokumen pengujian ....................................................................................................... 4
Perbandingan nilai AVP untuk setiap panjang kueri ..................................................................... 7

Perbandingan nilai AVP untuk kedua jenis operator .................................................................... 7

DAFTAR GAMBAR
1
2
3
4
5
6
7

Halaman
Metode penelitian. ........................................................................................................................ 2
Contoh dokumen pertanian. .......................................................................................................... 4
Konfigurasi dokumen pertanian pada Sphinx. .............................................................................. 4
Grafik R-P untuk pengambilan satu dokumen teratas pada dokumen pertanian. .......................... 6
Grafik R-P untuk pengambilan dua dokumen teratas pada dokumen pertanian............................ 6
Grafik R-P untuk pengambilan tiga dokumen teratas pada dokumen pertanian. .......................... 6
Kinerja perbandingan sistem DTF dengan ekspansi dan tanpa ekspansi. ..................................... 7


DAFTAR LAMPIRAN
Halaman
1
2
3
4
5
6
7
8
9
10

Antarmuka implementasi .......................................................................................................... 10
Gugus kueri dan jawaban untuk dokumen pertanian ................................................................ 11
Tabel kinerja sistem DTF dalam pengambilan dokumen pertanian peringkat satu teratas ....... 17
Tabel kinerja sistem DTF dalam pengambilan dokumen pertanian peringkat dua teratas ........ 18
Tabel kinerja sistem DTF dalam pengambilan dokumen pertanian peringkat tiga teratas ........ 19
Tabel kinerja perluasan kueri satu kata ..................................................................................... 20
Tabel kinerja perluasan kueri dua kata ...................................................................................... 22

Tabel lima term yang dipilih setiap kueri uji ............................................................................ 24
Tabel kinerja sistem DTF menggunakan formulasi OR ............................................................ 25
Tabel kinerja sistem DTF tanpa ekspansi kueri ........................................................................ 28

1

PENDAHULUAN
Latar Belakang
Sistem
temu-kembali
informasi
merupakan suatu sistem yang dapat membantu
seseorang dalam menemukan informasi yang
dibutuhkan. Tidak semua pengguna dapat
memberikan kueri yang tepat pada saat
mencari sebuah informasi yang dibutuhkan.
Hal ini terjadi karena pengguna tidak pernah
mengetahui isi dari korpus pada mesin
pencari, sebaliknya mesin pencari juga tidak
pernah mengetahui kebutuhan dari pengguna.

Oleh karena itu, digunakan teknik untuk
merekonstruksi kueri yaitu pseudo-relevance
feedback. Kueri yang diberikan pengguna
selanjutnya dimodifikasi untuk meningkatkan
kinerja mesin pencari.
Pseudo-relevance
feedback
(PRF)
merupakan teknik analisis lokal secara
otomatis (teknik relevance feedback tanpa
input eksplisit pengguna). Teknik ini
mengekstrak terms dari dokumen peringkat
teratas (diasumsikan bahwa dokumen
peringkat teratas dianggap relevan) untuk
memformulasikan sebuah kueri baru pada
temu-kembali selanjutnya.
Anbiana
(2009)
telah
melakukan
penelitian menggunakan segmentasi dokumen
untuk memperbaiki kueri. Akan tetapi karena
ukuran segmen yang relatif besar maka terlalu
banyak kata yang dipilih untuk memperbaiki
kueri sehingga kinerja sistem kurang baik.
Indriyani (2011) menyempurnakan penelitian
Anbiana (2009) dengan menggunakan
segmentasi kalimat. Hal ini dilakukan untuk
memperkecil ukuran segmen yang besar pada
penelitian Anbiana untuk meningkatkan
kinerja sistem. Metode ekspansi kueri lain
yang diharapkan bisa lebih meningkatkan
kinerja sistem temu kembali adalah ekspansi
kueri yang telah dilakukan oleh Pancawan
(2012) mengenai ekspansi kueri dengan
tesaurus dan bobot irisan. Tesaurus
merupakan kumpulan kata-kata yang memiliki
keterkaitan makna satu dengan lainnya seperti
sinonim dan antonim.
Hal ini menunjukkan bahwa metode
ekspansi kueri yang telah dilakukan
sebelumnya belum melibatkan pengguna
secara langsung dalam menentukan formulasi
kueri baru yang memuaskan pengguna. Tan et
al.(2007)
mengimplementasikan
metode
direct term feedback menggunakan model

bahasa untuk mengekspansi kueri. Direct term
feedback (DTF) dilakukan dengan melibatkan
pengguna secara langsung untuk memilih
beberapa term/kata relevan atau tidak relevan
dari daftar kandidat kata kueri yang sesuai
dengan tujuan dapat meningkatkan tingkat
relevansi suatu dokumen yang diperoleh.
Oleh
karena
itu,
penelitian
ini
mengimplementasikan metode Direct Term
Feedback untuk melakukan ekspansi kueri
pada mesin pencari kueri dokumen berbahasa
Indonesia.
Tujuan
Tujuan dari penelitian ini adalah
mengimplementasikan ekspansi kueri dengan
metode direct term feedback menggunakan
model bahasa.
Ruang Lingkup
Dokumen
yang
digunakan
dalam
penelitian adalah dokumen XML berbahasa
Indonesia. Kesalahan pengetikan di dalam
korpus tidak diperhatikan. Dokumen yang
relevan dengan kueri uji ditentukan
berdasarkan pustaka yang ada di laboratorium
TKI. Pemilihan kata yang digunakan pada
pengujian dilakukan berdasarkan justifikasi
penulis.

METODE PENELITIAN
Penelitian
ini
dilaksanakan
dalam
beberapa tahap seperti yang diilustrasikan
pada Gambar 1.
Indexing
Pada tahap ini, korpus yang ada akan
melalui proses indexing, yaitu tokenisasi,
pembuangan stopwords, dan pembobotan
kata. Pemrosesan indexing dilakukan secara
otomatis menggunakan Sphinx. Proses
tokenisasi bertujuan mendapatkan token atau
kata unik dari seluruh koleksi dokumen yang
sudah dipisahkan dari karakter pemisah,
seperti titik, koma, dan whitespace. Proses
tokenisasi diikuti dengan proses pembuangan
stopwords. Proses pembuangan stopwords
dilakukan dengan cara mencocokkan token
hasil tokenisasi dengan kata-kata yang ada
dalam stoplist. Apabila token tersebut ada di
dalam stoplist, token akan dihapus. Proses
indexing akan menghasilkan matriks termdokumen. Kueri yang dimasukkan oleh
pengguna juga akan melalui proses indexing
sehingga didapatkan matriks kueri. Kemudian,

2

hasil dari matriks term-dokumen dan matriks
kueri tersebut akan digunakan pada proses
ukuran kemiripan.

ukuran similarity yang rendah menunjukkan
bahwa kemiripan suatu dokumen terhadap
kueri adalah kecil.

Ukuran Kemiripan (similarity)
Setelah dilakukan proses ekstraksi ciri
pada tahap indexing, tahap selanjutnya ialah
mengukur kemiripan suatu dokumen terhadap
kueri yang dimasukkan. Ukuran kemiripan
dokumen dengan kueri menggunakan ukuran
kemiripan
default
Sphinx,
yaitu
SPH_RANK_PROXIMITY_BM25. Adapun
pseudocode metode pemeringkatan proximity
BM25 ialah sebagai berikut:

Top N Dokumen
Pada tahap ini, top N dokumen diperoleh
setelah proses ukuran kemiripan yang
dilakukan pada tahap sebelumnya. Top N
dokumen dianggap sebagai dokumen yang
relevan dan selainnya dianggap tidak relevan.
Indexing dokumen

Pemrosesan Kueri

korpus
1

doc_phrase_weight = 0

2

foreach ( field in
matching_fields)

3

{

4

field_phrase_weight =

5

max_common_subsequence_length

6

(query, field )

7

doc_phrase_weight += user_weight

8

( field ) * field_phrase_weight

9

}

kueri

Ekstraksi
ciri

Ekstraksi
ciri

Information Retrieval
Similarity

tidak
DTF

Evaluasi

10
ya
11

BM25 = 0

12

foreach (keyword in
matching_keywords )

13

{

14

n =
total_matching_documents(keyword)

15

N = total_documents_in_collection

16

k1 = 1.2

17

TF =
current_document_occurrence_count(
keyword )

18

IDF = log((N-n+1)/n) / log(1+N)

19

BM25 = BM25 + TF*IDF/(TF+k1)

20

}

21

// normalize to 0..1 range

22

BM25 = 0.5 + BM25 /(
2*num_keywords ( query ) )

23

//SPH_RANK_PROXIMITY_BM25

24

weight = doc_phrase_weight*1000 +
integer(doc_bm25*999)

Hasil similarity yang semakin tinggi
menunjukkan bahwa dokumen tersebut
memiliki tingkat kemiripan yang besar dari
kueri yang dimasukkan, sedangkan hasil

Top N Dokumen

Direct Term

Pemilihan
Kata

Hitung
relevansi
kata

formulasi
kueri

Gambar 1 Metode penelitian.
Pemilihan Kata
Pada top N dokumen yang telah terpilih,
selanjutnya dilakukan proses pemilihan kata
untuk ditampilkan kepada pengguna agar
dinilai relevansinya.
Proses pemilihan kata yang ditampilkan
dilakukan dengan menggunakan formula:
i |qj

=

dokumen men andun

i dan qj

dokumen an men andun qj

…(1)

3

p i |qj adalah peluang kata
dalam
i
dokumen setelah qj diketahui (Adisantoso
1996).
Hitung Relevansi Kata
Pada tahap ini, dilakukan proses
perhitungan setiap kata yang dinilai relevan
dan tidak relevan oleh pengguna. Pada setiap
kata, akan dilakukan penilaian dengan
menggunakan formula sebagai berikut:
p

q

c



q
q

… 2)

adalah model kueri perbaikan, R
q
}:
adalah variabel indikator, nilai
={
yang digunakan pada penelitian ini bernilai
1, ∑
adalah total kata yang dinilai
relevan.
Setiap kata yang dinilai relevan akan
diberikan penilaian menggunakan formula(2)
dengan memberikan nilai
adalah 1 dan
setiap kata yang dianggap tidak relevan
diberikan nilai
adalah 0. Hasil perhitungan
tersebut akan digunakan untuk modifikasi
kueri awal.

Formulasi Kueri
Formulasi kueri baru dilakukan untuk
memperbaiki hasil temu-kembali, yaitu dapat
menggeser dokumen relevan ke atas dan
dokumen yang tidak relevan ke bawah.
Kata dengan peluang tertinggi yang
merupakan term dari hasil feedback pengguna
digunakan untuk merumuskan kueri baru yang
diformulasikan sebagai berikut:
q qA
q … 3)
adalah formulasi kueri baru, q adalah
formulasi kueri awal, dan q adalah kueri dari
perhitungan peluang term feedback dari
penilaian pengguna. Kueri baru yang telah
diformulasikan digunakan dalam proses temu
kembali selanjutnya.
Evaluasi Hasil
Pada proses evaluasi hasil similarity,
dilakukan penilaian kinerja sistem dengan
melakukan pengukuran recall-precision pada
Tabel 1 untuk menentukan tingkat keefektifan
proses temu-kembali. Average precision
(AVP) dihitung berdasarkan 11 standard
recall levels, yaitu 0%, 10%, 20%, 30%, 40%,
50%, 60%, 70%, 80%, 90%, 100% dengan
menggunakan interpolasi maksimum (BaezaYates & Ribeiro-Neto 1999).

Tabel 1 Perhitungan recall-precision
Relevant

Not
Relevant

Retrieved

tp

fp

Not
Retrieved

fn

tn

Recall-precision
berikut:

didefinisikan

sebagai

Precision = P = tp/(tp + fp)…. 4)
Recall = R = tp/(tp+fn) ….. 5)
Perhitungan AVP dapat diformulasikan
sebagai berikut:
̅(rj )

∑i q

i r
q

…. 6)

̅(rj ) adalah AVP pada level recall r, Nq
adalah jumlah kueri yang digunakan, dan Pi(r)
adalah precision pada level recall r untuk
kueri ke-i.
Lingkungan Implementasi
Lingkungan implementasi yang digunakan
adalah sebagai berikut:
Perangkat lunak:
 Sistem operasi Windows 7 Ultimate
sebagai sistem operasi,
 PHP sebagai bahasa pemrograman.
 Sphinx Search sebagai platform untuk
pencarian berbasis teks,
 Wamp Server Apache version 2.5 sebagai
web server,
 Notepad++ sebagai editor, dan
 Microsoft Office 2010 sebagai aplikasi
yang digunakan
untuk
melakukan
perhitungan dalam evaluasi sistem.
Perangkat keras:
 Processor Intel Core 2 Duo 1,66GHz
 RAM 2 GB
 Harddisk dengan kapasitas 120 GB

HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
Penelitian
ini
menggunakan
2095
dokumen yang ada di Laboratorium Temu
Kembali. Deskripsi dari dokumen ini dapat
dilihat pada Tabel 2.

4

Tabel 2 Deskripsi dokumen pengujian
Uraian Dokumen Pertanian
Ukuran keseluruhan dokumen

Nilai (byte)
6 568 124

Ukuran rata-rata dokumen

3 135

Ukuran dokumen terbesar

52 955

Ukuran dokumen terkecil

412

Dokumen
pertanian
tersebut
dikelompokkan ke dalam tag-tag sebagai
berikut:
 , tag ini mewakili
keseluruhan dokumen dan melingkupi tagtag lain yang lebih spesifik.
 ,
tag
ini
menunjukkan ID dari dokumen.
 , menunjukkan judul
berita.
 , menunjukkan
penulis dari berita tersebut.
 , tag ini menunjukkan
isi dari dokumen.
Contoh salah satu dokumen pertanian yang
digunakan tercantum pada Gambar 2.

situshijau07