Positional Relevance Model untuk Pseudo Relevance Feedback pada Sistem Temu Kembali Berbahasa Indonesia
POSITIONAL RELEVANCE MODEL
UNTUK PSEUDO RELEVANCE FEEDBACK
PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA
SAPARIANSYAH
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Positional Relevance
Model untuk Pseudo Relevance Feedback pada Sistem Temu Kembali Berbahasa
Indonesia adalah benar karya saya dengan arahan dari komisi pembimbing dan
belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Agustus 2013
Sapariansyah
NIM G64090031
ABSTRAK
SAPARIANSYAH. Positional Relevance Model untuk Pseudo Relevance
Feedback pada Sistem Temu Kembali Berbahasa Indonesia. Dibimbing oleh
SONY HARTONO WIJAYA.
Dalam pencarian suatu dokumen, pengguna terkadang sulit untuk
menentukan kueri yang tepat dalam menemukan informasi yang relevan. Salah
satu cara untuk mengatasi masalah tersebut adalah dengan cara memperbaiki kueri
yang digunakan
oleh
pengguna.
Tujuan
penelitian
ini
adalah
mengimplementasikan dan menganalisis kinerja penggunaan positional relevance
model (PRM) sebagai pseudo relevance feedback (PRF) untuk meningkatkan
relevansi hasil pencarian dokumen pada sistem temu kembali. Penelitian ini
menggunakan metode PRM berdasarkan pada aspek kedekatan dan posisi suatu
kata di dalam dokumen. Evaluasi dilakukan dengan menghitung recall dan
precision. Hasil pengujian dan analisis sistem terlihat bahwa terjadi peningkatan
precision sebesar 4.38% dan recall sebesar 11%.
Kata kunci: feedback, positional relevance model, pseudo relevance feedback
ABSTRACT
SAPARIANSYAH. Positional Relevance Model for Pseudo Relevance Feedback
on Indonesian Language Retrieval System. Supervised by SONY HARTONO
WIJAYA.
In document retrieval, it is difficult to user to choose a proper query in order
to get relevant information. This problem can be solved by reformulating the
query. This research tried to improve the relevance of retrieval result by
implementing positional relevance model (PRM) for pseudo relevance feedback
(PRF) based on the proximity aspect and the position of a word in the document.
The evaluation was conducted by calculating recall and precision. The results
show that an 4.38% increase in precision and an 11% increase in recall have been
obtained.
Keywords: feedback, positional relevance model, pseudo relevance feedback
POSITIONAL RELEVANCE MODEL
UNTUK PSEUDO RELEVANCE FEEDBACK
PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA
SAPARIANSYAH
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
Penguji:
1 Ir Julio Adisantoso, MKom
2 Aziz Kustiyo, SSi MKom
Judul Skripsi : Positional Relevance Model untuk Pseudo Relevance Feedback
pada Sistem Temu Kembali Berbahasa Indonesia
Nama
: Sapariansyah
NIM
: G64090031
Disetujui oleh
Sony Hartono Wijaya, SKom MKom
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir ini.
Shalawat serta salam selalu tercurah kepada Nabi Muhammad Shallallahu ‘alaihi
wa sallam beserta para sahabatnya. Judul tugas akhir yang dipilih dalam
penelitian ini adalah Positional Relevance Model untuk Pseudo Relevance
Feedback pada Sistem Temu Kembali Berbahasa Indonesia. Penulis menyadari
bahwa penelitian ini tidak akan selesai tanpa bantuan beberapa pihak. Penulis
ingin menyampaikan ucapan terima kasih kepada:
1 Orang tua tercinta, Bapak Salim dan Ibu Sugiyem, yang selalu memberikan
doa, nasihat, semangat, dukungan, dan kasih sayang yang luar biasa kepada
penulis sehingga dapat menyelesaikan tugas akhir ini,
2 Bapak Sony Hartono Wijaya, SKom MKom selaku dosen pembimbing.
Terima kasih atas kesabaran, arahan, bimbingan serta dukungan dalam
penyelesaian tugas akhir ini,
3 Bapak Ir Julio Adisantoso, MKom dan Bapak Aziz Kustiyo, SSi MKom
selaku dosen penguji yang telah memberikan masukan terhadap tugas akhir
yang penulis kerjakan,
4 Sahabat-sahabat kontrakan Berly’s House. Terima kasih atas kebersamaannya,
semangat, dan dukungan. Semoga kita dapat bertemu kembali menjadi orangorang yang sukses,
5 Teman-teman satu bimbingan Ozi Priawadi, Fadilla Andre Mulyanto, M
Ginanjar Ramadhan, dan Yuzar Marsyah serta Ilkomerz46 atas kebersamaan,
bantuan, dukungan, dan semangat baik dalam masa kuliah maupun dalam
menyelesaikan tugas akhir ini, dan
6 Seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu
baik selama penelitian maupun perkuliahan.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat
banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan
kemampuan penulis. Penulis berharap adanya saran ataupun kritik yang bersifat
membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas
akhir ini bermanfaat.
Bogor, Agustus 2013
Sapariansyah
DAFTAR ISI
DAFTAR TABEL
vii
DAFTAR GAMBAR
vii
DAFTAR LAMPIRAN
vii
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
1
Tujuan Penelitian
1
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
2
Koleksi Dokumen/Korpus
3
Indexing
3
Temu Kembali Awal
4
Dokumen Peringkat n Teratas
4
Praproses PRM
4
Penghitungan PRM
4
Formulasi Kueri Baru
6
Evaluasi
6
Lingkungan Implementasi
7
HASIL DAN PEMBAHASAN
7
Koleksi Dokumen/korpus
7
Indexing
8
Temu Kembali Awal
8
Dokumen Peringkat n Teratas
9
Praproses PRM
9
Perhitungan PRM
9
Formulasi Kueri Baru
10
Evaluasi
10
SIMPULAN DAN SARAN
Simpulan
14
14
Saran
14
DAFTAR PUSTAKA
15
LAMPIRAN
16
DAFTAR TABEL
1
2
3
4
Pengaruh jumlah pengambilan dokumen n teratas terhadap nilai AVP
pada sistem menggunakan PRF (PRM)
Pengaruh parameter terhadap nilai AVP pada sistem temu kembali
menggunakan PRF (PRM)
Pengaruh perluasan kueri terhadap nilai AVP pada sistem temu
kembali menggunakan PRF (PRM)
Pengaruh parameter terhadap nilai AVP pada sistem temu kembali
menggunakan PRM
11
11
12
13
DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
Metodologi penelitian
Contoh dokumen XML
Konfigurasi indexing pada Sphinx
Hasil indexing menggunakan Sphinx. Jumlah dokumen yang diindeks
berjumlah 2095 dokumen dengan kapasitas 6.3 MB
Contoh stopwords disusun secara alfabetis
Contoh 5 dokumen teratas yang disimpan ke dalam basis data
Contoh array token yang sudah dilakukan tahapan praproses PRM
Contoh array dari term unik yang diurutkan secara alfabetis
Contoh isi fail hasil penghitungan PRM yang diurutkan berdasarkan
nilainya secara menurun
Grafik R-P untuk temu kembali menggunakan PRF (PRM) dan tanpa
PRF
2
3
3
8
8
8
9
9
10
13
DAFTAR LAMPIRAN
1
2
3
4
5
6
7
8
Contoh dokumen pertanian
Daftar stopword
Kandidat term ekspansi (kiri ke kanan, nilai PRM menurun, = 5, =
0.8, 1 feedback)
Gugus kueri dan jawaban pada dokumen pertanian
Tabel hasil pengujian analisis kinerja sistem yang optimal
menggunakan PRF (PRM). Paramater = 5, jumlah dokumen
feedback = 1, parameter = 0.8, dan penambahan term sebanyak 1
term
Tabel hasil pengujian analisis kinerja sistem tanpa menggunakan PRF
Tabel perbandingan nilai AVP sistem tanpa menggunakan PRM dan
menggunakan PRM* untuk masing-masing kueri pengujian
Antarmuka implementasi
17
18
21
22
28
29
30
31
PENDAHULUAN
Latar Belakang
Masalah utama pencarian suatu dokumen di dalam koleksi dokumen digital
yang sangat besar adalah pengguna tidak memiliki pengetahuan mengenai koleksi
dokumen. Hal ini menyebabkan pengguna sulit memformulasikan informasi yang
dicari dalam bentuk kueri. Selain itu, pengguna juga membutuhkan waktu yang
cukup lama untuk memformulasikan ulang kueri sebelumnya untuk menemukembalikan dokumen yang relevan (Baeza-Yates dan Ribeiro-Neto 1999). Dalam
temu kembali informasi, salah satu pendekatan untuk mengatasi masalah ini yaitu
dengan menggunakan metode lokal (Manning et al. 2008). Metode lokal
merupakan teknik untuk menyesuaikan kueri terhadap dokumen yang berasal dari
inisialisasi awal kueri sebelumnya. Salah satu metode lokal yang digunakan
adalah pseudo relevance feedback (PRF). PRF menggunakan dokumen n teratas
saat inisialisasi awal yang diasumsikan relevan untuk membentuk kueri yang baru.
Pengguna dapat memperbaiki kueri awal tanpa memperluas interaksi dengan
sistem temu kembali. Berbeda dengan relevance feedback yang mengharuskan
pengguna untuk melakukan interaksi lebih banyak terhadap sistem temu kembali,
terutama saat pemilihan dokumen yang dianggap relevan.
Penelitian terkait sebelumnya yang menggunakan metode secara lokal yaitu
penelitian yang dilakukan oleh Anbiana (2009). Penelitian tersebut menggunakan
teknik pseudo relevance feedback dengan menggunakan segmentasi dokumen.
Kinerja sistem yang dihasilkan mengalami penurunan nilai AVP sebesar 0.0002.
Hal ini disebabkan oleh terambilnya dokumen yang tidak relevan sehingga kueri
perluasan bukan merupakan kata penciri dokumen.
Penelitian terkait yang lain dilakukan oleh Lv dan Zhai (2010) adalah
menggunakan positional relevance model (PRM) untuk teknik PRF pada
dokumen berbahasa Inggris. Pengujian penelitian ini menunjukkan bahwa
penggunaan PRM untuk PRF dapat meningkatkan hasil pencarian dalam temu
kembali dokumen dibandingkan tanpa menggunakan PRM.
Oleh karena itu, penelitian ini menggunakan PRM pada teknik PRF untuk
diterapkan pada dokumen teks berbahasa Indonesia.
Perumusan Masalah
Adapun yang menjadi rumusan masalah dalam penelitian ini adalah apakah
penggunaan PRM pada PRF dapat diimplementasikan untuk meningkatkan
relevansi hasil pencarian sistem temu kembali pada dokumen berbahasa
Indonesia.
Tujuan Penelitian
Tujuan penelitian ini adalah mengimplementasikan dan menganalisis kinerja
penggunaan positional relevance model untuk meningkatkan relevansi hasil
pencarian pada sistem temu kembali informasi berbahasa Indonesia.
2
Manfaat Penelitian
Penelitian ini diharapkan dapat meningkatkan hasil pencarian dokumen
yang relevan pada sistem pencari (search engine). Di samping itu, peningkatan
relevansi dokumen akan memberikan informasi yang akurat kepada para
pengguna mesin pencari.
Ruang Lingkup Penelitian
Dokumen yang digunakan adalah dokumen teks berbahasa Indonesia
dengan format XML. Dokumen yang diteliti berisi tentang pertanian. Iterasi yang
dilakukan dalam proses PRF pada penelitian ini yaitu satu kali dan proses
indexing tanpa menggunakan stemming.
METODE
Penelitian ini dilakukan dalam beberapa tahapan, yaitu: pengumpulan
dokumen/korpus, indexing, temu kembali awal, pengambilan dokumen n teratas
praproses PRM, perhitungan PRM, formulasi kueri baru, dan evaluasi hasil temu
kembali (Gambar 1).
Koleksi
dokumen/korpus
Indexing
Temu kembali
awal
Kueri
Formulasi kueri baru
Tidak
Evaluasi
PRF
Ya
Dokumen peringkat
n teratas
Praproses
PRM
Gambar 1 Metodologi penelitian
Perhitungan
PRM
3
Koleksi Dokumen/Korpus
Koleksi dokumen yang digunakan dalam penelitian ini adalah dokumendokumen teks berbahasa Indonesia. Dokumen tersebut merupakan kumpulan
berita-berita di bidang pertanian yang berasal dari surat kabar online. Dokumen
tersebut tersedia di Laboratorium Temu Kembali Informasi, Departemen Ilmu
Komputer FMIPA IPB. Dokumen yang digunakan sudah tersegmentasi dalam
format XML (Gambar 2).
....
....
....
....
Gambar 2 Contoh dokumen XML
Indexing
Tahapan pengindeksan terdiri atas tokenisasi dan pembuangan stopword,
tanpa proses stemming. Tokenisasi merupakan proses pembentukan token yang
berasal dari dokumen. Token merupakan serangkaian karakter di dalam dokumen
yang dikelompokkan secara bersamaan sebagai unit semantik (Manning et al.
2008). Tahap selanjutnya adalah pembuangan stopword. Stopword merupakan
kata yang memiliki frekuensi kemunculan paling tinggi di dalam koleksi dokumen
(Manning et al. 2008).
Kedua tahapan tersebut diimplementasikan dengan menggunakan Sphinx.
Pengaturan parameter indexing dapat dilihat pada Gambar 3.
index prm
{
source
path
docinfo
min_word_len
charset_type
enable_star
html_strip
stopwords
}
=
=
=
=
=
=
=
=
srcxml
c:/sphinx_xml/data/prm
extern
3
utf-8
0
0
c:/sphinx_xml/stopword.txt
Gambar 3 Konfigurasi indexing pada Sphinx
4
Temu Kembali Awal
Langkah selanjutnya adalah pencarian dokumen untuk suatu kueri tertentu.
Sebelum dilakukan proses pencarian, ada beberapa konfigurasi yang harus
dilakukan pada Sphinx antara lain:
1 SetMatchMode: ekspresi pencocokan kueri. Penelitian ini menggunakan
SPH_MATCH_ANY yaitu minimal satu kata pada kueri terdapat di dalam
dokumen hasil pencarian,
2 SetRankingMode: metode pembobotan (ranking) dokumen yang telah
ditemu-kembalikan. Nilai bobot diurut secara menaik. Penelitian ini
menggunakan SPH_RANK_BM25 dalam proses pembobotan dokumen.
Dokumen hasil temu kembali dari Sphinx kemudian disimpan dalam basis
data untuk dijadikan masukan pada pembuatan PRM.
Dokumen Peringkat n Teratas
Hasil temu kembali dari Sphinx diambil dokumen n teratas untuk dilakukan
tahapan praproses PRM. Jumlah dokumen teratas yang diambil di antaranya 1, 2,
3, 4, dan 5 dokumen. Selanjutnya, dokumen ini akan disebut dokumen feedback.
Praproses PRM
Dokumen n teratas (dokumen feedback) dilakukan tahapan tokenisasi
sebagai berikut:
penghapusan tanda baca dan simbol (. , ~`!@#$%^&*()+-=[]{};:"< > / ? \|''),
serta angka (0 - 9),
setiap term diubah menjadi cetak kecil,
tokenisasi,
pemilihan kandidat term dengan dibatasi 3 karakter,
pembuangan stopword pada kandidat term, dan
pembentukan term unik (vocabulary) untuk seluruh dokumen feedback.
Penghitungan PRM
Term unik yang berasal pada tahapan praproses PRM kemudian dihitung
nilai PRM-nya. Setiap term dihitung peluang bersamanya terhadap suatu kueri
tertentu untuk seluruh dokumen feedback. PRM adalah suatu teknik yang
menggabungkan informasi posisi dan kedekatan suatu term di dalam dokumen,
sehingga term yang posisinya dekat dengan kueri di dalam dokumen feedback
memiliki bobot yang lebih tinggi dibandingkan dengan term yang jauh posisinya
dengan kueri. Persamaan untuk menghitung PRM adalah sebagai berikut (Lv dan
Zhai 2010):
5
,
|
,
,i
∑∑
,i
(1)
i
dengan:
D : dokumen ke-n
|D| : jumlah term pada dokumen ke-n
w : term unik
Q : kueri
i
: posisi term ke-i di dalam suatu dokumen
F : jumlah dokumen feedback
P(w|D,i) merupakan peluang term w pada posisi term ke-i di dalam
dokumen D. P(w|D,i) bernilai sama dengan 1, jika term w terdapat di posisi ke-i di
dalam dokumen D, selainnya bernilai 0. Sedangkan, P(Q|D,i) adalah peluang
kueri Q pada posisi term ke-i pada dokumen D. Berikut perhitungan untuk
P(Q|D,i):
| ,i
,i
∏[
|
]
(2)
dengan:
: parameter smoothing [0, 1]
qj : kueri ke-j
m : panjang kueri
C : model bahasa koleksi.
Metode smoothing yang digunakan adalah Jelinek-Mercer (Lv dan Zhai
2010). Penggunaan metode smoothing untuk mengatasi peluang term yang
bernilai 0. P(qj|C) merupakan peluang term kueri ke-j di dalam koleksi dokumen.
Perhitungan P(qj|C) dilakukan dengan cara membagi jumlah frekuensi term kueri
ke-j di dalam koleksi dokumen dengan jumlah token yang terdapat di koleksi
dokumen.
P(qj|D,i) dihitung menggunakan kernel Gaussian. Persamaan untuk
menghitung P(qj|D,i) adalah:
( | , i)
∑
( , )e
(
i
)
√
c(qk, j) bernilai 1 jika term qk terdapat pada posisi j di dalam dokumen,
selainnya bernilai 0 (Lv dan Zhai 2009). Lebar jangkauan pada kernel Gaussian
dipengaruhi oleh nilai . Semakin besar nilai , maka jangkauan daerah yang
diperhitungkan terhadap titik pusat (posisi kueri di dalam dokumen) juga semakin
besar. Sebaliknya, semakin kecil nilai , maka jangkauan daerah yang
diperhitungkan terhadap titik pusat menjadi semakin kecil. Sehingga posisi term
yang berada di luar jangkauan memiliki nilai peluang yang kecil dibandingkan
nilai peluang yang berada di dalam daerah jangkauan tersebut. Jika nilai
mendekati tak hingga, maka aspek jarak dan kedekatan term diabaikan (Lv dan
Zhai 2010). Hal ini mengakibatkan nilai P(qk|D, i) bernilai 0.
6
Formulasi Kueri Baru
Hasil akhir dari PRM adalah nilai peluang untuk tiap term yang diurutkan
secara menurun. Term yang ditambahkan ke kueri awal adalah term yang berada
pada urutan teratas dan bukan merupakan term yang terdapat pada kueri awal.
Semakin besar nilai peluang sebuah term, maka term tersebut semakin dekat
dengan kueri awal. Hasil kueri ekspansi tersebut kemudian digunakan dalam
proses temu kembali selanjutnya. Formulasi kueri baru bertujuan untuk
memperbaiki kueri yang diberikan pengguna sehingga menemukembalikan
dokumen-dokumen relevan yang lebih baik.
Evaluasi
Tahap akhir proses temu kembali dilakukan evaluasi melalui pengukuran
recall-precision untuk mengukur tingkat keefektifan sistem-temu kembali. Recall
adalah fraksi dokumen-dokumen relevan yang ditemu-kembalikan, sedangkan
precision adalah fraksi dari dokumen yang berhasil ditemu-kembalikan dan
dianggap relevan (Manning et al. 2008). Persamaan untuk menghitung recall dan
precision:
1 Recall
2 Precision
dengan:
tp : true positives merupakan jumlah dokumen yang ditemu-kembalikan dan
relevan,
fp : false positives merupakan jumlah dokumen yang ditemu-kembalikan dan
tidak relevan, dan
fn : false negatives merupakan jumlah dokumen yang tidak ditemu-kembalikan
dan relevan.
Hasil penghitungan recall dan precision untuk tiap recall dihitung
menggunakan interpolasi maksimum pada setiap titik recall 0.0 hingga 1.0.
Baeza-Yates dan Ribeiro-Neto (1999) menyatakan bahwa evaluasi pada sistem
temu kembali biasanya menggunakan beberapa kueri, sehingga untuk kueri yang
berbeda akan menghasilkan nilai recall dan precision yang berbeda pula. Average
Precision (AVP) digunakan untuk mengevaluasi kinerja sistem temu-kembali
untuk seluruh kueri yang diuji dengan menghitung rata-rata nilai precision pada
tiap level recall yang dirumuskan sebagai berikut:
̅
∑
i
i
dengan:
̅(r) : nilai rata-rata precision pada level recall r,
Nq : jumlah kueri yang diuji,
Pi(r) : nilai precision pada level recall r untuk kueri ke-i.
7
Evaluasi dilakukan untuk mengetahui pengaruh jumlah pengambilan
dokumen peringkat n teratas, pengaruh parameter terhadap hasil temu kembali,
pengaruh penambahan term pada kueri awal terhadap hasil temu kembali,
pengaruh nilai terhadap hasil temu kembali, dan kinerja sistem menggunakan
PRF (PRM) dan tanpa PRF.
Lingkungan Implementasi
Lingkungan implementasi yang digunakan dalam penelitian ini adalah:
Perangkat lunak:
Windows 7 Ultimate 64-bit sebagai sistem operasi,
XAMPP 1.7.4 sebagai web service,
PHP 5.3.5 sebagai bahasa pemrograman pembuatan library,
HTML dan CSS sebagai bahasa pemrograman pembuatan user interface,
MySQL sebagai DBMS,
Sublime Text 2 sebagai text editor dalam penulisan kode program, dan
Sphinx 2.0.5 sebagai platform temu kembali informasi.
Perangkat keras:
Prosesor Intel Core i7 2.0 GHz,
RAM 8 GB, dan
HDD 640 GB.
HASIL DAN PEMBAHASAN
Koleksi Dokumen/Korpus
Penelitian ini menggunakan koleksi dokumen yang berjumlah 2095
dokumen tentang pertanian dan berbahasa Indonesia. Dua ribu dokumen diperoleh
dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer dan 95
dokumen merupakan dokumen tambahan dari penelitian Pancawan (2012).
Dokumen tersebut berasal dari situs web Indonesia, antara lain:
1 Gatra,
2 Indosiar,
3 Kompas,
4 Media Indonesia,
5 Republika,
6 Situs Hijau,
7 Suara Karya,
8 Suara Merdeka, dan lain-lain.
Salah satu contoh dokumen yang digunakan dalam penelitian ini seperti
tercantum pada Lampiran 1. Dokumen tersebut kemudian digabung menjadi satu
fail berformat XML.
8
Indexing
Proses indexing dilakukan menggunakan Sphinx untuk temu kembali awal.
Sumber dokumen yang dilakukan indexing adalah fail berformat XML. Hasil
indexing menggunakan Sphinx dapat dilihat pada Gambar 4.
Gambar 4 Hasil indexing menggunakan Sphinx. Jumlah dokumen
yang diindeks berjumlah 2095 dokumen dengan kapasitas
6.3 MB
Jumlah karakter yang diindeks minimal 3 karakter. Kata-kata pada dokumen
dilakukan pembuangan stopword yang terdapat pada stopword.txt. Stopword yang
digunakan berjumlah 732 kata yang berasal dari penelitian Diva (2012). Contoh
stopword dapat dilihat pada Gambar 5. Daftar stopword lebih detil dapat dilihat
pada Lampiran 2.
acapkali ada
adakah adakan adalah
adanya adapun aduh
agak
agaknya
....
Gambar 5 Contoh stopwords disusun secara
alfabetis
Temu Kembali Awal
Temu kembali awal menggunakan pembobotan BM25 untuk mendapatkan
dokumen-dokumen yang sesuai dengan kueri yang diberikan. Dokumen hasil
temu kembali diurutkan berdasarkan tingkat relevansinya. Kemudian, 20
dokumen teratas disimpan ke dalam basis data sebagai masukan pada proses
selanjutnya (Gambar 6).
Gambar 6 Contoh 5 dokumen teratas yang disimpan ke dalam basis data
9
Dokumen Peringkat n Teratas
Penentuan dokumen peringkat n teratas diambil dari basis data.
Pengambilan dokumen tersebut menggunakan SQL dengan kueri SELECT text
FROM retrieve ORDER BY id ASC LIMIT {jumlah_feedback}. Hasil
kueri tersebut bertujuan untuk mengambil n dokumen teratas.
Praproses PRM
Hasil pengambilan dokumen dari n teratas terlebih dahulu dilakukan
tahapan praproses PRM, yaitu melakukan penghapusan tanda baca, simbol, dan
angka serta mengubah term menjadi cetak kecil menggunakan fungsi
preg_replace dengan bentuk eks resi reguler ‘/[\d\W\s]+/’.
roses
tokenisasi menggunakan fungsi preg_split dengan bentuk ekspresi reguler
‘/[\s]/’ di mana tia term akan dipisahkan berdasarkan spasi. Hasil tokenisasi
berupa token-token berbentuk array (Gambar 7).
Teks awal: “Institut ertanian Bogor I B ”
Array ( [0] => institut [1] => pertanian [2] => bogor [3] => ipb )
Gambar 7 Contoh array token yang sudah dilakukan tahapan
praproses PRM
Term hasil tokenisasi dilakukan penghapusan stopword menggunakan
fungsi array_diff. Hasil akhir berupa array token tanpa stopword. Term unik
(vocabulary) berasal dari gabungan token dari beberapa dokumen feedback
menggunakan fungsi array_count_values. Contoh array dari term unik dapat
dilihat pada Gambar 8.
abdul
abiotik abiotis acid acuan adiwilaga agama
agustus ahli
aktivitas akurat alat
alfa
alfred
...
Gambar 8 Contoh array dari term unik yang diurutkan secara
alfabetis
Perhitungan PRM
Term unik yang berasal dari tahapan sebelumnya kemudian dihitung nilai
PRM-nya dengan menggunakan rumus pada Persamaan 1 dan 2. Hasil
penghitungan nilai PRM untuk tiap term disimpan ke dalam fail berformat plain
text. Hasil percobaan menunjukkan bahwa nilai PRM yang lebih dekat posisinya
dengan kueri, nilai peluangnya lebih besar dibandingkan dengan term yang jauh
posisinya dari kueri. Contoh isi fail hasil perhitungan PRM untuk kueri
“kesejahteraan petani rendah” da at dilihat ada Gambar 9.
10
petani>>4.5202351197762E-5
indonesia>>4.2301096426082E-5
kesejahteraan>>3.7453711337863E-5
memprihatinkan>>3.6343394818252E-5
tingkat>>3.3356617725631E-5
....
Gambar 9 Contoh isi fail hasil penghitungan PRM
yang diurutkan berdasarkan nilainya
secara menurun
Formulasi Kueri Baru
Formulasi kueri baru diambil dari term yang memiliki nilai PRM teratas.
Misal kueri awal adalah “kese ahteraan etani rendah”, 5 term teratas yang
diurutkan se ara menurun berdasarkan nilai RM kiri ke kanan adalah “ etaniindonesia-kesejahteraan-memprihatinkan-tingkat”. Selan utnya, term tersebut
ditambahkan pada kueri awal. Contoh kueri awal yang diekspansi:
Ekspansi 1 term: “kese ahteraan etani rendah indonesia”,
Ekspansi 2 term: “kese ahteraan etani rendah indonesia mem rihatinkan”.
Detil 5 term teratas untuk tiap kueri dapat dilihat di Lampiran 3. Kueri baru
tersebut kemudian ditemu-kembalikan menggunakan Sphinx sebagai hasil dari
temu kembali akhir.
Evaluasi
Evaluasi sistem dilakukan dengan cara membandingkan hasil keluaran dari
Sphinx tanpa PRF dan menggunakan PRF (PRM). Hasil evaluasi dilakukan
dengan menggunakan 20 kueri beserta gugus jawabannya (Lampiran 4). Panjang
kueri yang diberikan adalah 3 dan 4 kata yang masing-masing berjumlah 10 kueri.
Evaluasi dilakukan untuk mendapatkan nilai recall dan precision dari sistem
terhadap pengujian pasangan kueri dan dokumen relevan. Kemudian dihitung
interpolasi maksimum untuk mencari nilai AVP dari sistem.
Pengaruh jumlah pengambilan dokumen n teratas terhadap hasil temu
kembali
Pada tahap awal pengujian dilakukan penentuan jumlah dokumen feedback
yang optimal. Oleh karena itu, parameter dan panjang kata yang ditambahkan
pada kueri awal dijadikan konstan, yaitu 0.1 dan 1 term, serta paramater
diantaranya: 5, 10, 15, 20, dan 25. Sedangkan jumlah pengambilan dokumen
teratas diantaranya 1, 2, 3, 4, dan 5 dokumen.
Berdasarkan batasan pengambilan dokumen n teratas saat pengujian sistem,
nilai AVP tertinggi lebih banyak terjadi saat jumlah dokumen feedback yang
digunakan hanya 1 dokumen (Tabel 1) untuk setiap parameter yang diuji. Hal
ini menunjukkan bahwa 1 dokumen teratas hasil temu kembali awal mampu
merepresentasikan topik yang terdapat pada kueri awal. Selain itu, semakin
banyak dokumen feedback, nilai AVP semakin menurun. Selanjutnya, jumlah
11
dokumen feedback tersebut ditetapkan sebagai nilai konstan dalam pengujian
sistem temu kembali berikutnya.
Tabel 1 Pengaruh jumlah pengambilan dokumen n teratas
terhadap nilai AVP pada sistem menggunakan PRF
(PRM)
Dokumen
feedback
1
2
3
4
5
5
0.1715
0.1616
0.1734
0.1777
0.1765
10
0.1809
0.1766
0.1657
0.1733
0.1715
Sigma ()
15
0.1809
0.1727
0.1644
0.1715
0.1710
20
0.1753
0.1646
0.1549
0.1544
0.1544
25
0.1762
0.1623
0.1512
0.1482
0.1483
Pengaruh paramater (sigma) terhadap hasil temu kembali
Untuk mengetahui pengaruh nilai sigma terhadap kinerja sistem temu
kembali menggunakan PRF (PRM), maka dilakukan evaluasi terhadap nilai
diantaranya: 5, 10, 15, 20, dan 25. Agar terlihat pengaruh pada parameter , maka
jumlah dokumen feedback dibuat tetap yaitu 1 dokumen, paramater dari 0.1
sampai 0.9 dengan interval sebesar 0.1, dan jumlah term yang ditambahkan hanya
1 term. Pengaruh parameter terhadap kinerja sistem temu kembali menggunakan
PRF (PRM) dapat dilihat pada Tabel 2.
Tabel 2 Pengaruh parameter terhadap nilai AVP pada sistem temu kembali
menggunakan PRF (PRM)
5
10
15
20
25
0.1
0.172
0.181
0.181
0.175
0.176
0.2
0.172
0.181
0.181
0.173
0.176
0.3
0.182
0.181
0.181
0.173
0.176
0.4
0.188
0.181
0.181
0.173
0.176
0.5
0.188
0.181
0.181
0.173
0.175
0.6
0.190
0.186
0.180
0.173
0.175
0.7
0.196
0.186
0.177
0.173
0.175
0.8
0.199
0.184
0.181
0.173
0.173
0.9
0.197
0.184
0.180
0.177
0.177
Sebagian besar nilai AVP terbesar diperoleh saat parameter bernilai 5
untuk setiap parameter yang diuji. Nilai tersebut menyatakan bahwa
pengambilan term yang menjadi kandidat untuk ekspansi kueri yang baru
merupakan term yang posisinya sangat dekat dengan term pada kueri. Dengan
memperkecil paramater tersebut, jangkauan term yang terambil terhadap posisi
kueri (titik pusat) menjadi semakin mengecil. Sehingga term-term yang berada di
luar daerah jangkauan tersebut memiliki nilai peluang yang kecil dibandingkan
term yang terletak di dalam daerah jangkauan. Di samping itu, kenaikan parameter
mengakibatkan nilai AVP semakin menurun. Dengan memperbesar parameter ,
jangkauan term yang terambil sebagai kandidat untuk ekspansi kueri menjadi
semakin melebar. Sehingga term-term yang tidak berhubungan dengan topik pada
12
kueri ikut terambil. Reformulasi kueri baru yang berasal dari term-term tersebut
mengakibatkan terambilnya dokumen-dokumen yang tidak relevan, sehingga
dapat menurunkan nilai recall dan precision.
Pengaruh perluasan kueri baru terhadap hasil temu kembali
Perluasan kueri baru yang dihasilkan pada sistem-temu kembali
menggunakan PRF (PRM) dapat memengaruhi nilai AVP. Oleh karena itu,
parameter dibuat tetap yaitu 5, 10, dan 15, parameter sebesar 0.1, jumlah
dokumen feedback menjadi 1 dokumen, dan jumlah term yang ditambahkan pada
kueri awal diantaranya: 1, 2, 3, 4, dan 5 term. Pengaruh jumlah term yang
ditambahkan pada kueri awal dapat dilihat pada Tabel 3.
Tabel 3 Pengaruh perluasan kueri terhadap nilai AVP
pada sistem temu kembali menggunakan PRF
(PRM)
Ekspansi
Term
1
2
3
4
5
5
0.1715
0.1835
0.1805
0.1822
0.1811
Sigma
10
0.1809
0.1698
0.1717
0.1681
0.1604
15
0.1809
0.1746
0.1770
0.1771
0.1703
Tabel 3 menunjukkan bahwa penambahan term baru terhadap kueri awal
mengakibatkan nilai AVP semakin menurun. Hal ini disebabkan oleh adanya term
yang tidak berhubungan dengan topik yang terdapat pada kueri awal. Penambahan
term tersebut menyebabkan posisi dokumen yang relevan menjadi turun dan
dokumen yang dianggap tidak relevan menempati posisi atas.
Pengaruh parameter terhadap hasil temu kembali
Untuk mengetahui pengaruh parameter terhadap sistem temu kembali,
maka jumlah dokumen feedback dibuat tetap yaitu 1 dokumen, parameter
bernilai 5, dan jumlah term yang ditambahkan pada kueri awal sebanyak 1 dan 2
term. Pengujian dilakukan dengan mengatur parameter dari 0.0 (minimum)
sampai 1.0 (maksimum) dengan interval sebesar 0.1. Pengaruh parameter dapat
dilihat pada Tabel 4 .
Saat parameter bernilai 0.0, perhitungan model bahasa koleksi diabaikan
atau dengan kata lain perhitungan PRM lebih ditekankan pada posisi term tertentu
di dalam suatu dokumen. Tetapi, saat parameter bernilai 1.0, perhitungan posisi
term di dalam dokumen diabaikan. Tabel 4 menunjukkan bahwa perhitungan
PRM yang lebih menekankan posisi term di dalam dokumen memiliki hasil yang
kurang baik dibandingkan dengan menekankan perhitungan PRM pada model
bahasa koleksi. Namun, saat parameter berada di antara batas minimum dan
maksimum, nilai AVP mencapai nilai tertinggi.
13
Tabel 4 Pengaruh parameter terhadap nilai AVP
pada sistem temu kembali menggunakan PRM
Ekspansi
1 term
0.1549
0.1715
0.1715
0.1816
0.1879
0.1879
0.1900
0.1958
0.1993
0.1973
0.1739
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
2 term
0.1554
0.1835
0.1835
0.1912
0.1901
0.1890
0.1893
0.1893
0.1950
0.1876
0.1645
Precision
Kinerja sistem temu kembali menggunakan PRF (PRM) dan tanpa PRF
Hasil pengujian menunjukkan bahwa kinerja optimal sistem temu kembali
menggunakan PRF (PRM) terjadi saat jumlah dokumen feedback yang digunakan
sebesar 1 dokumen, parameter dan masing-masing bernilai 5 dan 0.8, dan
jumlah penambahan term pada kueri awal sebanyak 1 term. Untuk mengetahui
kinerja sistem temu kembali, pengujian dilakukan dengan membandingkan sistem
temu kembali menggunakan PRF (PRM) dengan sistem temu kembali tanpa
menggunakan PRF. Hasil pengujian menggunakan PRF (PRM) dan tanpa PRF
dapat dilihat pada Gambar 10 yang menunjukkan bahwa kinerja sistem
menggunakan PRF (PRM) lebih baik dibandingkan dengan tanpa PRF.
PRF (PRM)
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
Tanpa PRF
0.0
0.1
0.2
0.3
0.4
0.5 0.6
Recall
0.7
0.8
0.9
1.0
Gambar 10 Grafik R-P untuk temu kembali menggunakan PRF
(PRM) dan tanpa PRF
14
Kinerja sistem temu kembali menggunakan PRF (Lampiran 5)
menghasilkan nilai AVP sebesar 0.1993 (+0.0438) dan nilai recall sebesar 0.96
(+0.11). Hal ini menunjukkan bahwa pencarian dokumen menggunakan PRF
(PRM) mampu menemukembalikan 96% dokumen relevan di dalam koleksi
dengan tingkat relevansi sebesar 20%. Namun, 7 dari 20 kueri yang dilakukan
pengujian mengalami penurunan nilai AVP, 1 kueri memiliki nilai yang tetap, dan
kueri lainnya mengalami kenaikan nilai AVP (Lampiran 7). Rata-rata penurunan
nilai AVP adalah sebesar 0.0131 dan kenaikan sebesar 0.0806. Penurunan nilai
AVP terjadi pada kueri awal dengan panjang 4 kata.
Sedangkan kinerja sistem temu kembali tanpa menggunakan PRF
(Lampiran 6) menghasilkan nilai AVP sebesar 0.1555 dan nilai recall yang
dihasilkan sebesar 0.85. Hal ini menunjukkan bahwa pencarian dokumen tanpa
menggunakan PRF (PRM) rata-rata menemukembalikan 85% dokumen relevan
dengan tingkat relevansi sebesar 16%.
SIMPULAN DAN SARAN
Simpulan
Hasil penelitian menunjukkan bahwa penggunaan PRM untuk PRF dapat
meningkatkan kinerja sistem temu kembali. Peningkatan kinerja sistem
menggunakan PRM sebesar 4.38%.
Saran
Penelitian ini dapat dikembangkan lebih lanjut dalam beberapa perbaikan,
yaitu:
1 Penggunaan stemming dalam tahap praproses dokumen,
2 Penggunaan passage dokumen sebagai dokumen feedback.
15
DAFTAR PUSTAKA
Anbiana ED. 2009. Pseudo-relevance feedback pada temu kembali menggunakan
segmentasi dokumen [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. New York
(US): Addison Wesley.
Diva LM. 2012. Ekspansi kueri pada sistem temu kembali informasi berbahasa
indonesia menggunakan analisis konteks lokal [skripsi]. Bogor (ID): Institut
Pertanian Bogor.
Manning CD, Raghavan P, Schütze H. 2008. An Introduction to Information
Retrieval. Cambridge (GB): Cambridge Univ Pr.
Pancawan MR. 2012. Ekspansi kueri pada sistem temu kembali informasi dengan
tesaurus dan bobot irisan [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Lv Y, Zhai CX. 2009. Positional language models for information retrieval. Di
dalam: Proceedings of the 32nd International ACM SIGIR Conference on
Research and Development in Information Retrieval; 2009 Jul 19-23;
Boston, Amerika Serikat. Boston (US): ACM. hlm 299-306.
Lv Y, Zhai CX. 2010. Positional relevance model for psudo-relevance feedback.
Di dalam: Proceedings of the 33rd International ACM SIGIR Conference on
Research and Development in Information Retrieval; 2010 Jul 19-23;
Geneva, Swiss. Geneva (CH): ACM. hlm 579-586.
16
LAMPIRAN
17
Lampiran 1 Contoh dokumen pertanian
ahmadheryawan251211
Pemprov Jabar Dorong Pembentukan Bank Pertanian
Pemerintah Provinsi Jawa Barat akan mendorong pemerintah pusat
untuk mendirikan bank yang khusus mengelola sektor pertanian.
Pasalnya, penyaluran kredit perbankan terhadap sektor pertanian
sangat rendah. "Kami mendorong agar pemerintah pusat pusat
membangun bank khusus pertanian," ujar Gubernur Jawa Barat
Ahmad Heryawan usai acara Bankers Dinner di Kantor BI Bandung,
Jalan Braga Kota Bandung, Rabu (21/12/2011) malam.
Menurutnya, pendirian bank pertanian sudah sangat mendesak. Dia
mencotohkan, Vietnam telah memiliki bank pertanian sehingga
sektor pertanian di negara tersebut maju dan berkembang.
"Memang harus ada bank yang khusus memberikan keberpihakan
kepada sektor pertanian. Jadi, bank pertanian nantinya tidak
hitung-hitungan
keuntungan
seperti
bank-bank
konvensional
lainnya," paparnya.
Dia menjelaskan sektor pertanian kurang mendapat kucuran
bantuan kredit dari perbankan karena para pelaku usaha kerap
terbentur dengan suku bunga yang tinggi. Selain itu, para
pelaku sekot pertanian sering terbentur masalah agunan. "Di
seluruh Indonesia, penyaluran terhadap sektor pertanian sangat
rendah karena suku bunga tinggi dan pemakaian sistem agunan,"
pungkasnya.
Penyaluran Kredit Pertanian Jabar Masih Rendah
Pangsa pasar kredit pertanian hanya sebesar Rp2,3 triliun atau
sekitar 3% dari total kredit. Padahal kontribusi sektor
pertanian terhadap perekonomian Jawa Barat mencapai 12%.
"Memang penyaluran kreditnya masih rendah hanya sekitar Rp2,3
triliun," ujar ujar Pemimpin BI Bandung Lucky Fathul Aziz
Hadibrata usai acara Bankers' Dinner di Kantor BI Bandung,
Jalan Braga Kota Bandung, Rabu (21/12/2011) malam.
Meski begitu, Lucky menjelaskan penyaluran kredit sektor
pertanian di Jabar pada tahun ini sekitar 3% dari total kredit,
lebih tinggi dibandingkan tahun lalu yang hanya 2%. Untuk itu,
pihaknya akan terus mendorong perbankan agar memberikan
keberpihakan terhadap sektor pertanian. "Kita akan minta
komitmen terhadap perbankan agar mempunyai strategi riil
terhadap pertanian," jelasnya.
Selain itu, pihaknya juga menargetkan peningkatan pertumbuhan
pertanian yang saat ini 23% menjadi 28% pada 2012. Tidak hanya
itu, BI Bandung juga berharap penyaluran kredit terhadap
pertanian meningkat menjadi Rp5 triliun. "Target kita kedepan,
pertumbuhan pertanian mencapai 28% dan penyaluran kreditnya
double, sekitar Rp5 triliun," pungkasnya.
18
Lampiran 2 Daftar stopword
acapkali
ada
adakah
adakan
adalah
adanya
adapun
aduh
agak
agaknya
agar
aja
akalan
akan
akankah
akhir
akhirnya
akibat
akibatkan
akibatnya
aku
ala
alangkah
alasan
alasannya
alih
alihkan
amat
amatlah
ambil
anda
andai
anggap
anggapan
antar
antara
antaranya
apa
apabila
apakah
apalagi
apalah
apanya
apapun
arti
artian
artinya
asalan
asalkan
asumsi
asumsinya
atas
atasnya
atau
ataukah
ataupun
awal
bagai
bagaikan
bagaimana
bagaimanakah
bagaimanapun
bagi
baginya
bagus
bagusnya
bahkan
bahwa
baik
baiknya
balik
banding
bandingkan
banyak
banyaknya
barangkali
baru
bawah
bawahnya
beberapa
begini
beginilah
begitu
begitulah
begitupula
begitupun
belakang
belakangan
belum
belumlah
benar
benarkah
benarnya
berada
berakhir
berakhirnya
berakibat
berakibatkan
beralasan
beralih
beralihnya
beranggapan
berapa
berapanya
berapapun
berarti
berasumsi
berbagai
berbagi
berbanding
berbeda
berdampak
berdasarkan
berhadapan
berharap
berhubung
berhubungan
beri
berikan
berikanlah
berikut
berikutnya
berjumlah
berkat
berkenaan
berkesan
berkesempatan
berkesimpulan
berlalu
berlalunya
berlama
berlangsung
bermula
bersama
bersamaan
bertepatan
beruntun
berupa
besarnya
beserta
besok
besoknya
betapa
biar
biarlah
biasa
biasanya
bicarakan
bicaranya
bila
bilamana
bilang
bisa
bisakah
bisanya
boleh
boro
buat
buatnya
bukan
bukankah
bukanlah
bukannya
buktikan
cara
cerita
ceritanya
contoh
contohkan
contohnya
cukup
cuma
daerah
dahulu
dalam
dan
dapat
dapatkah
dapatkan
dapatlah
dari
darinya
daripada
dekat
dekatnya
demi
demikian
demikianlah
dengan
dengannya
depan
depannya
dia
dialah
dialami
dialihkan
diambil
diambilkan
diambilnya
dianggap
diantara
diantaranya
diapakan
dibagi
dibagikan
dibeberapa
diberbagai
diberi
diberikan
diberinya
dibiarkan
dibiasakan
dibilang
dicontoh
dicontohkan
dicontohkannya
didapat
didapati
didapatkan
didapatnya
didasarkan
digolongkan
digunakan
diharapkan
dijadikan
dijadikannya
dikarenakan
dikasih
dikata
dikatakan
dikatakannya
dikategorikan
dikembangkan
diketahui
diketahuinya
dilaksanakan
dilakukan
dimana
dimulai
dimulailah
dimulainya
dimungkinkan
dipaparkan
dipersilahkan
disaat
disebabkan
disejumlah
diseluruh
disertai
disertakan
disimpulkan
disitulah
ditanggapi
ditanya
ditanyakan
dituturkan
diucapkan
dkk
dll
dsb
dua
dulu
dulunya
empat
enggak
engkau
esok
gimana
habis
habisan
habiskan
habisnya
hal
hampir
hanya
hanyalah
hari
harus
haruskah
haruslah
harusnya
hendak
hendaklah
hendaknya
hingga
how
ialah
ingin
ini
inilah
inipun
itu
itulah
itupun
iya
jadi
jadikan
jadilah
jadinya
jangan
jarang
jauh
jelaskan
jika
jikalau
juga
jumlah
jumlahnya
justru
juta
kabupaten
kadang
kalau
kalaupun
kali
kalian
kami
kamu
kan
kapan
karena
karenanya
kata
katakan
katakanlah
katanya
kau
kayak
kayaknya
kebanyakan
kebetulan
kebiasaan
kecil
kecuali
kemana
kemanakah
kembali
kemudian
kemungkinan
kemungkinannya
kenapa
kenapakah
19
Lampiran 2 Lanjutan
kepada
kepadanya
kepala
ketika
ketimbang
khususnya
kini
kita
kondisi
kurang
lagi
lagian
lagipula
lain
lainnya
laksana
lakukan
lalu
lalui
lama
lanjut
lantaran
lantas
lebih
lepas
lewat
lokasi
maka
makin
mampu
mampukah
mampunya
mana
manakala
manalagi
manapun
masa
masih
masihkah
masing
masuk
masyarakat
mau
maupun
melainkan
melakukan
melalui
melihat
memang
memaparkan
membagi
membagikan
memberi
memberikan
memberinya
membiarkan
membolehkan
membuat
memeperoleh
memiliki
meminta
memperbolehkannya
mempersilahkan
mempunyai
memungkinkan
menanggapi
menanggapinya
menanyakan
mencapai
mencontohkan
mendapat
mendapati
mendapatkan
mendapatkannya
menerus
mengada
mengaku
mengalami
mengalihkan
mengambil
mengambilnya
menganggap
menganggapnya
mengapa
mengatakan
mengembangkan
mengenai
menggunakan
mengungkapkan
meningkat
meningkatkan
menjadi
menjadikan
menjadikannya
menjelang
menjelaskan
menuju
menunjukkan
menurut
menurutnya
menuturkan
menyatakan
menyebabkan
menyebutkan
menyia
mereka
merupakan
meski
meskipun
mesti
mestinya
misal
misalkan
misalnya
mudah
mula
mulai
mulainya
mulanya
muncul
mungkin
mungkinkah
namun
nanti
negara
nilai
nyaris
nyiakan
oleh
orang
pada
padahal
padanannya
paling
panjangnya
papar
paparan
paparkan
paparnya
para
pasti
pastilah
pastinya
pelak
pelbagai
pemaparan
pembagian
pembagiannnya
pendapat
pengalihan
pengambil
pengambilan
pengandaian
per
peralihan
percuma
peri
perihal
perlahan
perlu
pernah
persen
pertamanya
pinggir
pula
pulalah
pun
rata
relevankah
rendah
saat
saatnya
saatnyalah
saja
salah
sama
sambil
sambutannya
sampai
sana
sang
sangat
sangatlah
satunya
saya
sayangnya
seakan
seandainya
seantero
sebab
sebabkan
sebabnya
sebagai
sebagaimana
sebagainya
sebagian
sebaik
sebaiknya
sebaliknya
sebanyak
sebelum
sebelumnya
sebenarnya
seberapa
seberat
sebesar
sebetulnya
sebuah
secara
sedalam
sedang
sedangkan
sedapat
sedemikian
sedikit
sedikitnya
segera
sehabis
seharusnya
seharusnyalah
sehingga
sehubungan
sejak
sejauhmana
sejumlah
sekalian
sekaligus
sekalipun
sekarang
sekata
sekedar
sekeliling
seketika
sekian
sekitar
selagi
selain
selalu
selama
selanjutnya
selesai
selesaikah
seluruh
seluruhnya
semakin
semampunya
semenjak
sementara
semestinya
semisal
semoga
semua
semuanya
semula
seolah
seorang
seorangpun
sepadan
sepanjang
separah
sepasang
sepele
sependapat
seperti
sepertinya
seputar
seraya
serba
serentak
sering
seringkali
seringkalinya
seringlah
seringnya
serta
sertanya
sesaat
sesama
sesamamu
sesedikit
seseorang
sesuai
sesuatu
sesuatunya
sesudah
sesudahnya
sesukanya
sesungguhnya
setelah
setelahnya
seterusnya
setiap
setidak
setidaknya
seusai
sewaktu
seyogyanya
sia
sialnya
siap
siapa
siapakah
siapapun
silahkan
singkatnya
sini
sinilah
situ
sosok
sosoknya
suatu
sudah
sulit
sungguh
sungguhpun
supaya
tak
tambahnya
tanggapan
tanggapannya
tanggapnya
tanpa
tapi
tatkala
telah
tempat
tengah
tentang
tentu
tentunya
tepatnya
terbagi
terbalik
terbiasa
terbilang
terdapat
tergolong
terhadap
terjadi
terjadilah
terjadinya
terkadang
20
Lampiran 2 Lanjutan
terkait
terkecuali
terlalu
terlebih
termasuk
ternyata
tersebut
tertentu
terus
tetap
tetapi
tiap
tiba
tidak
tidaklah
tidaknya
tiga
tinggi
tutur
tuturnya
ucap
ucapan
ucapannya
ucapkan
ucapnya
ujar
ujarnya
umpamanya
umum
umumnya
ungkap
ungkapan
ungkapkan
ungkapnya
untuk
usah
usahlah
usai
usianya
waktu
waktulah
waktunya
walau
walaupun
warga
yaitu
yakni
yang
21
Lampiran 3 Kandidat term ekspansi (kiri ke kanan, nilai PRM menurun, = 5,
= 0.8, 1 feedback)
Topik
Angsuran pertanian sedikti
Daftar term
Pertanian wilayah kelompok kegiatan petani
Area pertanian semakin
berkurang
Pertanian hektare area luas bali
Bidang pertanian belum
berkembang
Pertanian agatho organis hijau revolusi
Dana bidang pertanian rendah Sektor pertanian dana satu indonesia
Kesejahteraan petani rendah
Petani indonesia kesejahteraan memprihatinkan
tingkat
Mutu hasil pertanian rendah
Hasil laut pertanian ekonomi produk
Nilai jual komoditas rendah
Komoditas harga pertanian jual sendiri
Permintaan humus naik
Pupuk permintaan petani distribusi sukabumi
Persediaan padi memadai
Beras dunia indonesia impor persediaan
Petani sulit mendapatkan
humus
Bogor menteri petani pro pembangunan
Produk asing murah
Produk harga sisi asing pertanian
Produksi pertanian meningkat
Produksi pertanian ton indonesia turun
Produksi pertanian menurun
Produksi pertanian ton indonesia turun
Produktivitas pertanian
rendah
Pertanian produktivitas cisadane tahun cidurian
Sawah hancur terendam air
Terendam sawah air tanahnya bagian
Sawah kering kekurangan air
Kecamatan air sukabumi petani kekurangan
Sawah rusak berat
Berat rusak puso air bencana
Tarif humus tinggi
Pertanian tarif non ekspor tujuan
Upaya peningkatan produksi
pertanian
Produksi pertanian peningkatan pendukung
komoditas
Wereng serang lahan
pertanian
Lahan sukoharjo hama batang penggerek
22
Lampiran 4 Gugus kueri dan jawaban pada dokumen pertanian
Kueri
nilai jual komoditas
rendah
persediaan padi
memadai
sawah hancur
terendam air
sawah kering
kekurangan air
Gugus jawaban
balipost030608, BisnisIndonesia22022001, gatra030408,
indosiar071103, indosiar190504-002, indosiar240604, indosiar300304,
indosiar300703-002, jurnalHorti113, kompas030502-002,
kompas031100, kompas101004, kompas161000, kompas171002,
kompas200803, kompas240803, kompas250901, kompas270203-001,
kompas270502-001, kompas300502-001, mediaindonesia060803,
mediaindonesia170303, mediaindonesia250304, mediaindonesia310503,
okezone20022008, panturanews220611, pertaniansehat21042008,
pertaniansehat31122007-03, pikiranrakyat21042010,
pikiranrakyat240404, pikiranrakyat300604, poskota000000-003,
republika020804, republika05052010, republika060503,
republika060804-001, republika060804-003, republika140503,
republika211208-049, republika240604-005, republika241008-042,
republika300704-002, situshijau15, situshijau181103-001,
situshijau280203, situshijau280404-001, situshijau280404-002,
situshijau280404-003, suarakarya000000-021, suarakarya000000-025,
suaramerdeka000000-001, suaramerdeka290303,
suarapembaruan110903, suarapembaruan290802-001
antarajawabarat211211, beritasore080711, bisnis_jabar191211,
bisnisindonesia140911, deptan28052008, eksposnews161211,
gatra161711, gatra190902, gatra190902-02, gatra230408, gatra230802,
globalnews190911, harian_aceh291011, incestordaily310711,
indosiar221003, indosiar240703, kbrh211111, kompas160704,
kompas221011, kompas260711, korankaltim260811,
malukunews090811, mediaindonesia231111, menkokesra71211,
okezone080711, okezone130711, okezone31701, poskota000000-001,
radarbangka040811, republika061102, republika100704-003,
republika180504-002, republika210704-001, republika290604-007,
sinartani1075, suaramerdeka090911, suaramerdeka170602,
tempointeraktif150205-032, tempointeraktif181108-065,
tribunnews300711, vivanews122111, vivanews190911
gatra011200, gatra040108, gatra070203, gatra200210, indosiar020104,
indosiar021203-001, indosiar031203, indosiar050704-002,
indosiar130104, indosiar130504, indosiar140204, indosiar160304,
indosiar180304, kompas170504, kompas210403,
mediaindonesia050604-001, mediaindonesia130210,
mediaindonesia140203, mediaindonesia170209, mediaindonesia180110,
mediaindonesia200110, okezone03032010, okezone12112007,
okezone17012008, okezone20022008, pertaniansehat21042008,
pikiranrakyat18052010, pikiranrakyat21052010-01,
pikiranrakyat21052010-02, pikiranrakyat23042010, radarbogor020110,
situshijau280404-002, suarakarya000000-011, suarakarya000000-015,
suaramerdeka251001, surabayapost29010, tempointeraktif160209-060
deptan09082007, gatra060907, gatra070203, gatra190802, gatra210704,
gatra270709, gatra301002, gatra301002-01, gatra310709,
indosiar010903, indosiar040903, indosiar170603, indosiar180304,
indosiar220503, indosiar240703, indosiar260803-001, indosiar260803003, indosiar310504, kompas030704, korantempo3,
mediaindonesia050604-001, mediaindonesia110703,
mediaindonesia160603, mediaindonesia210709, mediaindonesia240503,
mediaindonesia300909, mediaindonesia310503, okezone01062008,
okezone13062008, okezone13062008-01, okezone14072009,
okezone19052008, okezone26042008-01, okezone26052009,
radarbogor050608, radarbogor14082008, republika030903-001,
23
Lampiran 4 Lanjutan
Kueri
area pertanian
semakin berkurang
tarif humus tinggi
upaya peningkatan
produksi pertanian
Gugus jawaban
republika030903-002, republika120804-01, republika120804-04,
republika130804-02, republika200603, republika210704-004,
republika230903, republika270503, republika270704-002,
republika290604-007, suarakarya000000-002-01, suarakarya000000002-02, suarakarya000000-021, suaramerdeka130602,
suaramerdeka190903, suaramerdeka290901, suarapembaruan110903,
suarapembaruan190809, suarapembaruan260703-001,
suarapembaruan260703-002, tempointeraktif081008-061
balipost050908, balipost301208, deptan28052008-1, deptan31072007,
gatra100509, gatra230503, jurnal000000-004, kompas020603,
kompas030403, kompas031100, kompas101001, kompas120702,
kompas130603-001, kompas150104, kompas170504, kompas170903,
kompas171002, kompas180303, kompas181202, kompas220399,
kompas230899, kompas240503, kompas260203, kompas270203-002,
kompas270502-001, kompas290404, kompas290508, kompas290803,
kompas310703, korantempo3, mediaindonesia010310,
mediaindonesia021109-2, mediaindonesia050104,
mediaindonesia050709, mediaindonesia120609, mediaindonesia170210,
mediaindonesia180210, mediaindonesia180210-2,
mediaindonesia191209, mediaindonesia230104, mediaindonesia281109,
mediaindonesia301009, okezone16092009, okezone24012008,
okezone24012010, republika030304, republika060804-004,
republika080703, republika090902, republika110604-002,
republika120803, republika130804-02, republika150704-004,
republika170604-003, republika170704-004, republika190309-011,
republika230704-003, republika240604-005, republika241203,
republika291008-040, satudunia21102009, situshijau281003-004,
suarakarya000000-002-02, suarakarya000000-021,
suaramerdeka170602-001, suarapembaruan040603,
suarapembaruan060602, sumutpos26052010, tempo251211,
tempointeraktif110210-030, tempointeraktif120707-050,
tempointeraktif160207-025, tempointeraktif181108-065,
tempointeraktif231203-029, tempointeraktif231203-078,
tempointeraktif240804-017
harianhaluan291111, indosiar060204, indosiar240604, indosiar270504,
indosiar290604, kbr68h041211, kompas100901, kompas110302,
kompas210504, kompas211211, kompas241203, kompas270502-002,
kompas300502-001, liputan6_100611, mamorema01,
metrotvnews221111, okezone27112008, panturanews220611,
pertaniansehat09072008, pikiranrakyat010504-003,
pikiranrakyat05042010, pikiranrakyat05052010, republika160703,
situshijau15, suarakarya000000-001-02, suarakary
UNTUK PSEUDO RELEVANCE FEEDBACK
PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA
SAPARIANSYAH
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Positional Relevance
Model untuk Pseudo Relevance Feedback pada Sistem Temu Kembali Berbahasa
Indonesia adalah benar karya saya dengan arahan dari komisi pembimbing dan
belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Agustus 2013
Sapariansyah
NIM G64090031
ABSTRAK
SAPARIANSYAH. Positional Relevance Model untuk Pseudo Relevance
Feedback pada Sistem Temu Kembali Berbahasa Indonesia. Dibimbing oleh
SONY HARTONO WIJAYA.
Dalam pencarian suatu dokumen, pengguna terkadang sulit untuk
menentukan kueri yang tepat dalam menemukan informasi yang relevan. Salah
satu cara untuk mengatasi masalah tersebut adalah dengan cara memperbaiki kueri
yang digunakan
oleh
pengguna.
Tujuan
penelitian
ini
adalah
mengimplementasikan dan menganalisis kinerja penggunaan positional relevance
model (PRM) sebagai pseudo relevance feedback (PRF) untuk meningkatkan
relevansi hasil pencarian dokumen pada sistem temu kembali. Penelitian ini
menggunakan metode PRM berdasarkan pada aspek kedekatan dan posisi suatu
kata di dalam dokumen. Evaluasi dilakukan dengan menghitung recall dan
precision. Hasil pengujian dan analisis sistem terlihat bahwa terjadi peningkatan
precision sebesar 4.38% dan recall sebesar 11%.
Kata kunci: feedback, positional relevance model, pseudo relevance feedback
ABSTRACT
SAPARIANSYAH. Positional Relevance Model for Pseudo Relevance Feedback
on Indonesian Language Retrieval System. Supervised by SONY HARTONO
WIJAYA.
In document retrieval, it is difficult to user to choose a proper query in order
to get relevant information. This problem can be solved by reformulating the
query. This research tried to improve the relevance of retrieval result by
implementing positional relevance model (PRM) for pseudo relevance feedback
(PRF) based on the proximity aspect and the position of a word in the document.
The evaluation was conducted by calculating recall and precision. The results
show that an 4.38% increase in precision and an 11% increase in recall have been
obtained.
Keywords: feedback, positional relevance model, pseudo relevance feedback
POSITIONAL RELEVANCE MODEL
UNTUK PSEUDO RELEVANCE FEEDBACK
PADA SISTEM TEMU KEMBALI BERBAHASA INDONESIA
SAPARIANSYAH
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
Penguji:
1 Ir Julio Adisantoso, MKom
2 Aziz Kustiyo, SSi MKom
Judul Skripsi : Positional Relevance Model untuk Pseudo Relevance Feedback
pada Sistem Temu Kembali Berbahasa Indonesia
Nama
: Sapariansyah
NIM
: G64090031
Disetujui oleh
Sony Hartono Wijaya, SKom MKom
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir ini.
Shalawat serta salam selalu tercurah kepada Nabi Muhammad Shallallahu ‘alaihi
wa sallam beserta para sahabatnya. Judul tugas akhir yang dipilih dalam
penelitian ini adalah Positional Relevance Model untuk Pseudo Relevance
Feedback pada Sistem Temu Kembali Berbahasa Indonesia. Penulis menyadari
bahwa penelitian ini tidak akan selesai tanpa bantuan beberapa pihak. Penulis
ingin menyampaikan ucapan terima kasih kepada:
1 Orang tua tercinta, Bapak Salim dan Ibu Sugiyem, yang selalu memberikan
doa, nasihat, semangat, dukungan, dan kasih sayang yang luar biasa kepada
penulis sehingga dapat menyelesaikan tugas akhir ini,
2 Bapak Sony Hartono Wijaya, SKom MKom selaku dosen pembimbing.
Terima kasih atas kesabaran, arahan, bimbingan serta dukungan dalam
penyelesaian tugas akhir ini,
3 Bapak Ir Julio Adisantoso, MKom dan Bapak Aziz Kustiyo, SSi MKom
selaku dosen penguji yang telah memberikan masukan terhadap tugas akhir
yang penulis kerjakan,
4 Sahabat-sahabat kontrakan Berly’s House. Terima kasih atas kebersamaannya,
semangat, dan dukungan. Semoga kita dapat bertemu kembali menjadi orangorang yang sukses,
5 Teman-teman satu bimbingan Ozi Priawadi, Fadilla Andre Mulyanto, M
Ginanjar Ramadhan, dan Yuzar Marsyah serta Ilkomerz46 atas kebersamaan,
bantuan, dukungan, dan semangat baik dalam masa kuliah maupun dalam
menyelesaikan tugas akhir ini, dan
6 Seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu
baik selama penelitian maupun perkuliahan.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat
banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan
kemampuan penulis. Penulis berharap adanya saran ataupun kritik yang bersifat
membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas
akhir ini bermanfaat.
Bogor, Agustus 2013
Sapariansyah
DAFTAR ISI
DAFTAR TABEL
vii
DAFTAR GAMBAR
vii
DAFTAR LAMPIRAN
vii
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
1
Tujuan Penelitian
1
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
2
Koleksi Dokumen/Korpus
3
Indexing
3
Temu Kembali Awal
4
Dokumen Peringkat n Teratas
4
Praproses PRM
4
Penghitungan PRM
4
Formulasi Kueri Baru
6
Evaluasi
6
Lingkungan Implementasi
7
HASIL DAN PEMBAHASAN
7
Koleksi Dokumen/korpus
7
Indexing
8
Temu Kembali Awal
8
Dokumen Peringkat n Teratas
9
Praproses PRM
9
Perhitungan PRM
9
Formulasi Kueri Baru
10
Evaluasi
10
SIMPULAN DAN SARAN
Simpulan
14
14
Saran
14
DAFTAR PUSTAKA
15
LAMPIRAN
16
DAFTAR TABEL
1
2
3
4
Pengaruh jumlah pengambilan dokumen n teratas terhadap nilai AVP
pada sistem menggunakan PRF (PRM)
Pengaruh parameter terhadap nilai AVP pada sistem temu kembali
menggunakan PRF (PRM)
Pengaruh perluasan kueri terhadap nilai AVP pada sistem temu
kembali menggunakan PRF (PRM)
Pengaruh parameter terhadap nilai AVP pada sistem temu kembali
menggunakan PRM
11
11
12
13
DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
Metodologi penelitian
Contoh dokumen XML
Konfigurasi indexing pada Sphinx
Hasil indexing menggunakan Sphinx. Jumlah dokumen yang diindeks
berjumlah 2095 dokumen dengan kapasitas 6.3 MB
Contoh stopwords disusun secara alfabetis
Contoh 5 dokumen teratas yang disimpan ke dalam basis data
Contoh array token yang sudah dilakukan tahapan praproses PRM
Contoh array dari term unik yang diurutkan secara alfabetis
Contoh isi fail hasil penghitungan PRM yang diurutkan berdasarkan
nilainya secara menurun
Grafik R-P untuk temu kembali menggunakan PRF (PRM) dan tanpa
PRF
2
3
3
8
8
8
9
9
10
13
DAFTAR LAMPIRAN
1
2
3
4
5
6
7
8
Contoh dokumen pertanian
Daftar stopword
Kandidat term ekspansi (kiri ke kanan, nilai PRM menurun, = 5, =
0.8, 1 feedback)
Gugus kueri dan jawaban pada dokumen pertanian
Tabel hasil pengujian analisis kinerja sistem yang optimal
menggunakan PRF (PRM). Paramater = 5, jumlah dokumen
feedback = 1, parameter = 0.8, dan penambahan term sebanyak 1
term
Tabel hasil pengujian analisis kinerja sistem tanpa menggunakan PRF
Tabel perbandingan nilai AVP sistem tanpa menggunakan PRM dan
menggunakan PRM* untuk masing-masing kueri pengujian
Antarmuka implementasi
17
18
21
22
28
29
30
31
PENDAHULUAN
Latar Belakang
Masalah utama pencarian suatu dokumen di dalam koleksi dokumen digital
yang sangat besar adalah pengguna tidak memiliki pengetahuan mengenai koleksi
dokumen. Hal ini menyebabkan pengguna sulit memformulasikan informasi yang
dicari dalam bentuk kueri. Selain itu, pengguna juga membutuhkan waktu yang
cukup lama untuk memformulasikan ulang kueri sebelumnya untuk menemukembalikan dokumen yang relevan (Baeza-Yates dan Ribeiro-Neto 1999). Dalam
temu kembali informasi, salah satu pendekatan untuk mengatasi masalah ini yaitu
dengan menggunakan metode lokal (Manning et al. 2008). Metode lokal
merupakan teknik untuk menyesuaikan kueri terhadap dokumen yang berasal dari
inisialisasi awal kueri sebelumnya. Salah satu metode lokal yang digunakan
adalah pseudo relevance feedback (PRF). PRF menggunakan dokumen n teratas
saat inisialisasi awal yang diasumsikan relevan untuk membentuk kueri yang baru.
Pengguna dapat memperbaiki kueri awal tanpa memperluas interaksi dengan
sistem temu kembali. Berbeda dengan relevance feedback yang mengharuskan
pengguna untuk melakukan interaksi lebih banyak terhadap sistem temu kembali,
terutama saat pemilihan dokumen yang dianggap relevan.
Penelitian terkait sebelumnya yang menggunakan metode secara lokal yaitu
penelitian yang dilakukan oleh Anbiana (2009). Penelitian tersebut menggunakan
teknik pseudo relevance feedback dengan menggunakan segmentasi dokumen.
Kinerja sistem yang dihasilkan mengalami penurunan nilai AVP sebesar 0.0002.
Hal ini disebabkan oleh terambilnya dokumen yang tidak relevan sehingga kueri
perluasan bukan merupakan kata penciri dokumen.
Penelitian terkait yang lain dilakukan oleh Lv dan Zhai (2010) adalah
menggunakan positional relevance model (PRM) untuk teknik PRF pada
dokumen berbahasa Inggris. Pengujian penelitian ini menunjukkan bahwa
penggunaan PRM untuk PRF dapat meningkatkan hasil pencarian dalam temu
kembali dokumen dibandingkan tanpa menggunakan PRM.
Oleh karena itu, penelitian ini menggunakan PRM pada teknik PRF untuk
diterapkan pada dokumen teks berbahasa Indonesia.
Perumusan Masalah
Adapun yang menjadi rumusan masalah dalam penelitian ini adalah apakah
penggunaan PRM pada PRF dapat diimplementasikan untuk meningkatkan
relevansi hasil pencarian sistem temu kembali pada dokumen berbahasa
Indonesia.
Tujuan Penelitian
Tujuan penelitian ini adalah mengimplementasikan dan menganalisis kinerja
penggunaan positional relevance model untuk meningkatkan relevansi hasil
pencarian pada sistem temu kembali informasi berbahasa Indonesia.
2
Manfaat Penelitian
Penelitian ini diharapkan dapat meningkatkan hasil pencarian dokumen
yang relevan pada sistem pencari (search engine). Di samping itu, peningkatan
relevansi dokumen akan memberikan informasi yang akurat kepada para
pengguna mesin pencari.
Ruang Lingkup Penelitian
Dokumen yang digunakan adalah dokumen teks berbahasa Indonesia
dengan format XML. Dokumen yang diteliti berisi tentang pertanian. Iterasi yang
dilakukan dalam proses PRF pada penelitian ini yaitu satu kali dan proses
indexing tanpa menggunakan stemming.
METODE
Penelitian ini dilakukan dalam beberapa tahapan, yaitu: pengumpulan
dokumen/korpus, indexing, temu kembali awal, pengambilan dokumen n teratas
praproses PRM, perhitungan PRM, formulasi kueri baru, dan evaluasi hasil temu
kembali (Gambar 1).
Koleksi
dokumen/korpus
Indexing
Temu kembali
awal
Kueri
Formulasi kueri baru
Tidak
Evaluasi
PRF
Ya
Dokumen peringkat
n teratas
Praproses
PRM
Gambar 1 Metodologi penelitian
Perhitungan
PRM
3
Koleksi Dokumen/Korpus
Koleksi dokumen yang digunakan dalam penelitian ini adalah dokumendokumen teks berbahasa Indonesia. Dokumen tersebut merupakan kumpulan
berita-berita di bidang pertanian yang berasal dari surat kabar online. Dokumen
tersebut tersedia di Laboratorium Temu Kembali Informasi, Departemen Ilmu
Komputer FMIPA IPB. Dokumen yang digunakan sudah tersegmentasi dalam
format XML (Gambar 2).
....
....
....
....
Gambar 2 Contoh dokumen XML
Indexing
Tahapan pengindeksan terdiri atas tokenisasi dan pembuangan stopword,
tanpa proses stemming. Tokenisasi merupakan proses pembentukan token yang
berasal dari dokumen. Token merupakan serangkaian karakter di dalam dokumen
yang dikelompokkan secara bersamaan sebagai unit semantik (Manning et al.
2008). Tahap selanjutnya adalah pembuangan stopword. Stopword merupakan
kata yang memiliki frekuensi kemunculan paling tinggi di dalam koleksi dokumen
(Manning et al. 2008).
Kedua tahapan tersebut diimplementasikan dengan menggunakan Sphinx.
Pengaturan parameter indexing dapat dilihat pada Gambar 3.
index prm
{
source
path
docinfo
min_word_len
charset_type
enable_star
html_strip
stopwords
}
=
=
=
=
=
=
=
=
srcxml
c:/sphinx_xml/data/prm
extern
3
utf-8
0
0
c:/sphinx_xml/stopword.txt
Gambar 3 Konfigurasi indexing pada Sphinx
4
Temu Kembali Awal
Langkah selanjutnya adalah pencarian dokumen untuk suatu kueri tertentu.
Sebelum dilakukan proses pencarian, ada beberapa konfigurasi yang harus
dilakukan pada Sphinx antara lain:
1 SetMatchMode: ekspresi pencocokan kueri. Penelitian ini menggunakan
SPH_MATCH_ANY yaitu minimal satu kata pada kueri terdapat di dalam
dokumen hasil pencarian,
2 SetRankingMode: metode pembobotan (ranking) dokumen yang telah
ditemu-kembalikan. Nilai bobot diurut secara menaik. Penelitian ini
menggunakan SPH_RANK_BM25 dalam proses pembobotan dokumen.
Dokumen hasil temu kembali dari Sphinx kemudian disimpan dalam basis
data untuk dijadikan masukan pada pembuatan PRM.
Dokumen Peringkat n Teratas
Hasil temu kembali dari Sphinx diambil dokumen n teratas untuk dilakukan
tahapan praproses PRM. Jumlah dokumen teratas yang diambil di antaranya 1, 2,
3, 4, dan 5 dokumen. Selanjutnya, dokumen ini akan disebut dokumen feedback.
Praproses PRM
Dokumen n teratas (dokumen feedback) dilakukan tahapan tokenisasi
sebagai berikut:
penghapusan tanda baca dan simbol (. , ~`!@#$%^&*()+-=[]{};:"< > / ? \|''),
serta angka (0 - 9),
setiap term diubah menjadi cetak kecil,
tokenisasi,
pemilihan kandidat term dengan dibatasi 3 karakter,
pembuangan stopword pada kandidat term, dan
pembentukan term unik (vocabulary) untuk seluruh dokumen feedback.
Penghitungan PRM
Term unik yang berasal pada tahapan praproses PRM kemudian dihitung
nilai PRM-nya. Setiap term dihitung peluang bersamanya terhadap suatu kueri
tertentu untuk seluruh dokumen feedback. PRM adalah suatu teknik yang
menggabungkan informasi posisi dan kedekatan suatu term di dalam dokumen,
sehingga term yang posisinya dekat dengan kueri di dalam dokumen feedback
memiliki bobot yang lebih tinggi dibandingkan dengan term yang jauh posisinya
dengan kueri. Persamaan untuk menghitung PRM adalah sebagai berikut (Lv dan
Zhai 2010):
5
,
|
,
,i
∑∑
,i
(1)
i
dengan:
D : dokumen ke-n
|D| : jumlah term pada dokumen ke-n
w : term unik
Q : kueri
i
: posisi term ke-i di dalam suatu dokumen
F : jumlah dokumen feedback
P(w|D,i) merupakan peluang term w pada posisi term ke-i di dalam
dokumen D. P(w|D,i) bernilai sama dengan 1, jika term w terdapat di posisi ke-i di
dalam dokumen D, selainnya bernilai 0. Sedangkan, P(Q|D,i) adalah peluang
kueri Q pada posisi term ke-i pada dokumen D. Berikut perhitungan untuk
P(Q|D,i):
| ,i
,i
∏[
|
]
(2)
dengan:
: parameter smoothing [0, 1]
qj : kueri ke-j
m : panjang kueri
C : model bahasa koleksi.
Metode smoothing yang digunakan adalah Jelinek-Mercer (Lv dan Zhai
2010). Penggunaan metode smoothing untuk mengatasi peluang term yang
bernilai 0. P(qj|C) merupakan peluang term kueri ke-j di dalam koleksi dokumen.
Perhitungan P(qj|C) dilakukan dengan cara membagi jumlah frekuensi term kueri
ke-j di dalam koleksi dokumen dengan jumlah token yang terdapat di koleksi
dokumen.
P(qj|D,i) dihitung menggunakan kernel Gaussian. Persamaan untuk
menghitung P(qj|D,i) adalah:
( | , i)
∑
( , )e
(
i
)
√
c(qk, j) bernilai 1 jika term qk terdapat pada posisi j di dalam dokumen,
selainnya bernilai 0 (Lv dan Zhai 2009). Lebar jangkauan pada kernel Gaussian
dipengaruhi oleh nilai . Semakin besar nilai , maka jangkauan daerah yang
diperhitungkan terhadap titik pusat (posisi kueri di dalam dokumen) juga semakin
besar. Sebaliknya, semakin kecil nilai , maka jangkauan daerah yang
diperhitungkan terhadap titik pusat menjadi semakin kecil. Sehingga posisi term
yang berada di luar jangkauan memiliki nilai peluang yang kecil dibandingkan
nilai peluang yang berada di dalam daerah jangkauan tersebut. Jika nilai
mendekati tak hingga, maka aspek jarak dan kedekatan term diabaikan (Lv dan
Zhai 2010). Hal ini mengakibatkan nilai P(qk|D, i) bernilai 0.
6
Formulasi Kueri Baru
Hasil akhir dari PRM adalah nilai peluang untuk tiap term yang diurutkan
secara menurun. Term yang ditambahkan ke kueri awal adalah term yang berada
pada urutan teratas dan bukan merupakan term yang terdapat pada kueri awal.
Semakin besar nilai peluang sebuah term, maka term tersebut semakin dekat
dengan kueri awal. Hasil kueri ekspansi tersebut kemudian digunakan dalam
proses temu kembali selanjutnya. Formulasi kueri baru bertujuan untuk
memperbaiki kueri yang diberikan pengguna sehingga menemukembalikan
dokumen-dokumen relevan yang lebih baik.
Evaluasi
Tahap akhir proses temu kembali dilakukan evaluasi melalui pengukuran
recall-precision untuk mengukur tingkat keefektifan sistem-temu kembali. Recall
adalah fraksi dokumen-dokumen relevan yang ditemu-kembalikan, sedangkan
precision adalah fraksi dari dokumen yang berhasil ditemu-kembalikan dan
dianggap relevan (Manning et al. 2008). Persamaan untuk menghitung recall dan
precision:
1 Recall
2 Precision
dengan:
tp : true positives merupakan jumlah dokumen yang ditemu-kembalikan dan
relevan,
fp : false positives merupakan jumlah dokumen yang ditemu-kembalikan dan
tidak relevan, dan
fn : false negatives merupakan jumlah dokumen yang tidak ditemu-kembalikan
dan relevan.
Hasil penghitungan recall dan precision untuk tiap recall dihitung
menggunakan interpolasi maksimum pada setiap titik recall 0.0 hingga 1.0.
Baeza-Yates dan Ribeiro-Neto (1999) menyatakan bahwa evaluasi pada sistem
temu kembali biasanya menggunakan beberapa kueri, sehingga untuk kueri yang
berbeda akan menghasilkan nilai recall dan precision yang berbeda pula. Average
Precision (AVP) digunakan untuk mengevaluasi kinerja sistem temu-kembali
untuk seluruh kueri yang diuji dengan menghitung rata-rata nilai precision pada
tiap level recall yang dirumuskan sebagai berikut:
̅
∑
i
i
dengan:
̅(r) : nilai rata-rata precision pada level recall r,
Nq : jumlah kueri yang diuji,
Pi(r) : nilai precision pada level recall r untuk kueri ke-i.
7
Evaluasi dilakukan untuk mengetahui pengaruh jumlah pengambilan
dokumen peringkat n teratas, pengaruh parameter terhadap hasil temu kembali,
pengaruh penambahan term pada kueri awal terhadap hasil temu kembali,
pengaruh nilai terhadap hasil temu kembali, dan kinerja sistem menggunakan
PRF (PRM) dan tanpa PRF.
Lingkungan Implementasi
Lingkungan implementasi yang digunakan dalam penelitian ini adalah:
Perangkat lunak:
Windows 7 Ultimate 64-bit sebagai sistem operasi,
XAMPP 1.7.4 sebagai web service,
PHP 5.3.5 sebagai bahasa pemrograman pembuatan library,
HTML dan CSS sebagai bahasa pemrograman pembuatan user interface,
MySQL sebagai DBMS,
Sublime Text 2 sebagai text editor dalam penulisan kode program, dan
Sphinx 2.0.5 sebagai platform temu kembali informasi.
Perangkat keras:
Prosesor Intel Core i7 2.0 GHz,
RAM 8 GB, dan
HDD 640 GB.
HASIL DAN PEMBAHASAN
Koleksi Dokumen/Korpus
Penelitian ini menggunakan koleksi dokumen yang berjumlah 2095
dokumen tentang pertanian dan berbahasa Indonesia. Dua ribu dokumen diperoleh
dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer dan 95
dokumen merupakan dokumen tambahan dari penelitian Pancawan (2012).
Dokumen tersebut berasal dari situs web Indonesia, antara lain:
1 Gatra,
2 Indosiar,
3 Kompas,
4 Media Indonesia,
5 Republika,
6 Situs Hijau,
7 Suara Karya,
8 Suara Merdeka, dan lain-lain.
Salah satu contoh dokumen yang digunakan dalam penelitian ini seperti
tercantum pada Lampiran 1. Dokumen tersebut kemudian digabung menjadi satu
fail berformat XML.
8
Indexing
Proses indexing dilakukan menggunakan Sphinx untuk temu kembali awal.
Sumber dokumen yang dilakukan indexing adalah fail berformat XML. Hasil
indexing menggunakan Sphinx dapat dilihat pada Gambar 4.
Gambar 4 Hasil indexing menggunakan Sphinx. Jumlah dokumen
yang diindeks berjumlah 2095 dokumen dengan kapasitas
6.3 MB
Jumlah karakter yang diindeks minimal 3 karakter. Kata-kata pada dokumen
dilakukan pembuangan stopword yang terdapat pada stopword.txt. Stopword yang
digunakan berjumlah 732 kata yang berasal dari penelitian Diva (2012). Contoh
stopword dapat dilihat pada Gambar 5. Daftar stopword lebih detil dapat dilihat
pada Lampiran 2.
acapkali ada
adakah adakan adalah
adanya adapun aduh
agak
agaknya
....
Gambar 5 Contoh stopwords disusun secara
alfabetis
Temu Kembali Awal
Temu kembali awal menggunakan pembobotan BM25 untuk mendapatkan
dokumen-dokumen yang sesuai dengan kueri yang diberikan. Dokumen hasil
temu kembali diurutkan berdasarkan tingkat relevansinya. Kemudian, 20
dokumen teratas disimpan ke dalam basis data sebagai masukan pada proses
selanjutnya (Gambar 6).
Gambar 6 Contoh 5 dokumen teratas yang disimpan ke dalam basis data
9
Dokumen Peringkat n Teratas
Penentuan dokumen peringkat n teratas diambil dari basis data.
Pengambilan dokumen tersebut menggunakan SQL dengan kueri SELECT text
FROM retrieve ORDER BY id ASC LIMIT {jumlah_feedback}. Hasil
kueri tersebut bertujuan untuk mengambil n dokumen teratas.
Praproses PRM
Hasil pengambilan dokumen dari n teratas terlebih dahulu dilakukan
tahapan praproses PRM, yaitu melakukan penghapusan tanda baca, simbol, dan
angka serta mengubah term menjadi cetak kecil menggunakan fungsi
preg_replace dengan bentuk eks resi reguler ‘/[\d\W\s]+/’.
roses
tokenisasi menggunakan fungsi preg_split dengan bentuk ekspresi reguler
‘/[\s]/’ di mana tia term akan dipisahkan berdasarkan spasi. Hasil tokenisasi
berupa token-token berbentuk array (Gambar 7).
Teks awal: “Institut ertanian Bogor I B ”
Array ( [0] => institut [1] => pertanian [2] => bogor [3] => ipb )
Gambar 7 Contoh array token yang sudah dilakukan tahapan
praproses PRM
Term hasil tokenisasi dilakukan penghapusan stopword menggunakan
fungsi array_diff. Hasil akhir berupa array token tanpa stopword. Term unik
(vocabulary) berasal dari gabungan token dari beberapa dokumen feedback
menggunakan fungsi array_count_values. Contoh array dari term unik dapat
dilihat pada Gambar 8.
abdul
abiotik abiotis acid acuan adiwilaga agama
agustus ahli
aktivitas akurat alat
alfa
alfred
...
Gambar 8 Contoh array dari term unik yang diurutkan secara
alfabetis
Perhitungan PRM
Term unik yang berasal dari tahapan sebelumnya kemudian dihitung nilai
PRM-nya dengan menggunakan rumus pada Persamaan 1 dan 2. Hasil
penghitungan nilai PRM untuk tiap term disimpan ke dalam fail berformat plain
text. Hasil percobaan menunjukkan bahwa nilai PRM yang lebih dekat posisinya
dengan kueri, nilai peluangnya lebih besar dibandingkan dengan term yang jauh
posisinya dari kueri. Contoh isi fail hasil perhitungan PRM untuk kueri
“kesejahteraan petani rendah” da at dilihat ada Gambar 9.
10
petani>>4.5202351197762E-5
indonesia>>4.2301096426082E-5
kesejahteraan>>3.7453711337863E-5
memprihatinkan>>3.6343394818252E-5
tingkat>>3.3356617725631E-5
....
Gambar 9 Contoh isi fail hasil penghitungan PRM
yang diurutkan berdasarkan nilainya
secara menurun
Formulasi Kueri Baru
Formulasi kueri baru diambil dari term yang memiliki nilai PRM teratas.
Misal kueri awal adalah “kese ahteraan etani rendah”, 5 term teratas yang
diurutkan se ara menurun berdasarkan nilai RM kiri ke kanan adalah “ etaniindonesia-kesejahteraan-memprihatinkan-tingkat”. Selan utnya, term tersebut
ditambahkan pada kueri awal. Contoh kueri awal yang diekspansi:
Ekspansi 1 term: “kese ahteraan etani rendah indonesia”,
Ekspansi 2 term: “kese ahteraan etani rendah indonesia mem rihatinkan”.
Detil 5 term teratas untuk tiap kueri dapat dilihat di Lampiran 3. Kueri baru
tersebut kemudian ditemu-kembalikan menggunakan Sphinx sebagai hasil dari
temu kembali akhir.
Evaluasi
Evaluasi sistem dilakukan dengan cara membandingkan hasil keluaran dari
Sphinx tanpa PRF dan menggunakan PRF (PRM). Hasil evaluasi dilakukan
dengan menggunakan 20 kueri beserta gugus jawabannya (Lampiran 4). Panjang
kueri yang diberikan adalah 3 dan 4 kata yang masing-masing berjumlah 10 kueri.
Evaluasi dilakukan untuk mendapatkan nilai recall dan precision dari sistem
terhadap pengujian pasangan kueri dan dokumen relevan. Kemudian dihitung
interpolasi maksimum untuk mencari nilai AVP dari sistem.
Pengaruh jumlah pengambilan dokumen n teratas terhadap hasil temu
kembali
Pada tahap awal pengujian dilakukan penentuan jumlah dokumen feedback
yang optimal. Oleh karena itu, parameter dan panjang kata yang ditambahkan
pada kueri awal dijadikan konstan, yaitu 0.1 dan 1 term, serta paramater
diantaranya: 5, 10, 15, 20, dan 25. Sedangkan jumlah pengambilan dokumen
teratas diantaranya 1, 2, 3, 4, dan 5 dokumen.
Berdasarkan batasan pengambilan dokumen n teratas saat pengujian sistem,
nilai AVP tertinggi lebih banyak terjadi saat jumlah dokumen feedback yang
digunakan hanya 1 dokumen (Tabel 1) untuk setiap parameter yang diuji. Hal
ini menunjukkan bahwa 1 dokumen teratas hasil temu kembali awal mampu
merepresentasikan topik yang terdapat pada kueri awal. Selain itu, semakin
banyak dokumen feedback, nilai AVP semakin menurun. Selanjutnya, jumlah
11
dokumen feedback tersebut ditetapkan sebagai nilai konstan dalam pengujian
sistem temu kembali berikutnya.
Tabel 1 Pengaruh jumlah pengambilan dokumen n teratas
terhadap nilai AVP pada sistem menggunakan PRF
(PRM)
Dokumen
feedback
1
2
3
4
5
5
0.1715
0.1616
0.1734
0.1777
0.1765
10
0.1809
0.1766
0.1657
0.1733
0.1715
Sigma ()
15
0.1809
0.1727
0.1644
0.1715
0.1710
20
0.1753
0.1646
0.1549
0.1544
0.1544
25
0.1762
0.1623
0.1512
0.1482
0.1483
Pengaruh paramater (sigma) terhadap hasil temu kembali
Untuk mengetahui pengaruh nilai sigma terhadap kinerja sistem temu
kembali menggunakan PRF (PRM), maka dilakukan evaluasi terhadap nilai
diantaranya: 5, 10, 15, 20, dan 25. Agar terlihat pengaruh pada parameter , maka
jumlah dokumen feedback dibuat tetap yaitu 1 dokumen, paramater dari 0.1
sampai 0.9 dengan interval sebesar 0.1, dan jumlah term yang ditambahkan hanya
1 term. Pengaruh parameter terhadap kinerja sistem temu kembali menggunakan
PRF (PRM) dapat dilihat pada Tabel 2.
Tabel 2 Pengaruh parameter terhadap nilai AVP pada sistem temu kembali
menggunakan PRF (PRM)
5
10
15
20
25
0.1
0.172
0.181
0.181
0.175
0.176
0.2
0.172
0.181
0.181
0.173
0.176
0.3
0.182
0.181
0.181
0.173
0.176
0.4
0.188
0.181
0.181
0.173
0.176
0.5
0.188
0.181
0.181
0.173
0.175
0.6
0.190
0.186
0.180
0.173
0.175
0.7
0.196
0.186
0.177
0.173
0.175
0.8
0.199
0.184
0.181
0.173
0.173
0.9
0.197
0.184
0.180
0.177
0.177
Sebagian besar nilai AVP terbesar diperoleh saat parameter bernilai 5
untuk setiap parameter yang diuji. Nilai tersebut menyatakan bahwa
pengambilan term yang menjadi kandidat untuk ekspansi kueri yang baru
merupakan term yang posisinya sangat dekat dengan term pada kueri. Dengan
memperkecil paramater tersebut, jangkauan term yang terambil terhadap posisi
kueri (titik pusat) menjadi semakin mengecil. Sehingga term-term yang berada di
luar daerah jangkauan tersebut memiliki nilai peluang yang kecil dibandingkan
term yang terletak di dalam daerah jangkauan. Di samping itu, kenaikan parameter
mengakibatkan nilai AVP semakin menurun. Dengan memperbesar parameter ,
jangkauan term yang terambil sebagai kandidat untuk ekspansi kueri menjadi
semakin melebar. Sehingga term-term yang tidak berhubungan dengan topik pada
12
kueri ikut terambil. Reformulasi kueri baru yang berasal dari term-term tersebut
mengakibatkan terambilnya dokumen-dokumen yang tidak relevan, sehingga
dapat menurunkan nilai recall dan precision.
Pengaruh perluasan kueri baru terhadap hasil temu kembali
Perluasan kueri baru yang dihasilkan pada sistem-temu kembali
menggunakan PRF (PRM) dapat memengaruhi nilai AVP. Oleh karena itu,
parameter dibuat tetap yaitu 5, 10, dan 15, parameter sebesar 0.1, jumlah
dokumen feedback menjadi 1 dokumen, dan jumlah term yang ditambahkan pada
kueri awal diantaranya: 1, 2, 3, 4, dan 5 term. Pengaruh jumlah term yang
ditambahkan pada kueri awal dapat dilihat pada Tabel 3.
Tabel 3 Pengaruh perluasan kueri terhadap nilai AVP
pada sistem temu kembali menggunakan PRF
(PRM)
Ekspansi
Term
1
2
3
4
5
5
0.1715
0.1835
0.1805
0.1822
0.1811
Sigma
10
0.1809
0.1698
0.1717
0.1681
0.1604
15
0.1809
0.1746
0.1770
0.1771
0.1703
Tabel 3 menunjukkan bahwa penambahan term baru terhadap kueri awal
mengakibatkan nilai AVP semakin menurun. Hal ini disebabkan oleh adanya term
yang tidak berhubungan dengan topik yang terdapat pada kueri awal. Penambahan
term tersebut menyebabkan posisi dokumen yang relevan menjadi turun dan
dokumen yang dianggap tidak relevan menempati posisi atas.
Pengaruh parameter terhadap hasil temu kembali
Untuk mengetahui pengaruh parameter terhadap sistem temu kembali,
maka jumlah dokumen feedback dibuat tetap yaitu 1 dokumen, parameter
bernilai 5, dan jumlah term yang ditambahkan pada kueri awal sebanyak 1 dan 2
term. Pengujian dilakukan dengan mengatur parameter dari 0.0 (minimum)
sampai 1.0 (maksimum) dengan interval sebesar 0.1. Pengaruh parameter dapat
dilihat pada Tabel 4 .
Saat parameter bernilai 0.0, perhitungan model bahasa koleksi diabaikan
atau dengan kata lain perhitungan PRM lebih ditekankan pada posisi term tertentu
di dalam suatu dokumen. Tetapi, saat parameter bernilai 1.0, perhitungan posisi
term di dalam dokumen diabaikan. Tabel 4 menunjukkan bahwa perhitungan
PRM yang lebih menekankan posisi term di dalam dokumen memiliki hasil yang
kurang baik dibandingkan dengan menekankan perhitungan PRM pada model
bahasa koleksi. Namun, saat parameter berada di antara batas minimum dan
maksimum, nilai AVP mencapai nilai tertinggi.
13
Tabel 4 Pengaruh parameter terhadap nilai AVP
pada sistem temu kembali menggunakan PRM
Ekspansi
1 term
0.1549
0.1715
0.1715
0.1816
0.1879
0.1879
0.1900
0.1958
0.1993
0.1973
0.1739
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
2 term
0.1554
0.1835
0.1835
0.1912
0.1901
0.1890
0.1893
0.1893
0.1950
0.1876
0.1645
Precision
Kinerja sistem temu kembali menggunakan PRF (PRM) dan tanpa PRF
Hasil pengujian menunjukkan bahwa kinerja optimal sistem temu kembali
menggunakan PRF (PRM) terjadi saat jumlah dokumen feedback yang digunakan
sebesar 1 dokumen, parameter dan masing-masing bernilai 5 dan 0.8, dan
jumlah penambahan term pada kueri awal sebanyak 1 term. Untuk mengetahui
kinerja sistem temu kembali, pengujian dilakukan dengan membandingkan sistem
temu kembali menggunakan PRF (PRM) dengan sistem temu kembali tanpa
menggunakan PRF. Hasil pengujian menggunakan PRF (PRM) dan tanpa PRF
dapat dilihat pada Gambar 10 yang menunjukkan bahwa kinerja sistem
menggunakan PRF (PRM) lebih baik dibandingkan dengan tanpa PRF.
PRF (PRM)
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
Tanpa PRF
0.0
0.1
0.2
0.3
0.4
0.5 0.6
Recall
0.7
0.8
0.9
1.0
Gambar 10 Grafik R-P untuk temu kembali menggunakan PRF
(PRM) dan tanpa PRF
14
Kinerja sistem temu kembali menggunakan PRF (Lampiran 5)
menghasilkan nilai AVP sebesar 0.1993 (+0.0438) dan nilai recall sebesar 0.96
(+0.11). Hal ini menunjukkan bahwa pencarian dokumen menggunakan PRF
(PRM) mampu menemukembalikan 96% dokumen relevan di dalam koleksi
dengan tingkat relevansi sebesar 20%. Namun, 7 dari 20 kueri yang dilakukan
pengujian mengalami penurunan nilai AVP, 1 kueri memiliki nilai yang tetap, dan
kueri lainnya mengalami kenaikan nilai AVP (Lampiran 7). Rata-rata penurunan
nilai AVP adalah sebesar 0.0131 dan kenaikan sebesar 0.0806. Penurunan nilai
AVP terjadi pada kueri awal dengan panjang 4 kata.
Sedangkan kinerja sistem temu kembali tanpa menggunakan PRF
(Lampiran 6) menghasilkan nilai AVP sebesar 0.1555 dan nilai recall yang
dihasilkan sebesar 0.85. Hal ini menunjukkan bahwa pencarian dokumen tanpa
menggunakan PRF (PRM) rata-rata menemukembalikan 85% dokumen relevan
dengan tingkat relevansi sebesar 16%.
SIMPULAN DAN SARAN
Simpulan
Hasil penelitian menunjukkan bahwa penggunaan PRM untuk PRF dapat
meningkatkan kinerja sistem temu kembali. Peningkatan kinerja sistem
menggunakan PRM sebesar 4.38%.
Saran
Penelitian ini dapat dikembangkan lebih lanjut dalam beberapa perbaikan,
yaitu:
1 Penggunaan stemming dalam tahap praproses dokumen,
2 Penggunaan passage dokumen sebagai dokumen feedback.
15
DAFTAR PUSTAKA
Anbiana ED. 2009. Pseudo-relevance feedback pada temu kembali menggunakan
segmentasi dokumen [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. New York
(US): Addison Wesley.
Diva LM. 2012. Ekspansi kueri pada sistem temu kembali informasi berbahasa
indonesia menggunakan analisis konteks lokal [skripsi]. Bogor (ID): Institut
Pertanian Bogor.
Manning CD, Raghavan P, Schütze H. 2008. An Introduction to Information
Retrieval. Cambridge (GB): Cambridge Univ Pr.
Pancawan MR. 2012. Ekspansi kueri pada sistem temu kembali informasi dengan
tesaurus dan bobot irisan [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Lv Y, Zhai CX. 2009. Positional language models for information retrieval. Di
dalam: Proceedings of the 32nd International ACM SIGIR Conference on
Research and Development in Information Retrieval; 2009 Jul 19-23;
Boston, Amerika Serikat. Boston (US): ACM. hlm 299-306.
Lv Y, Zhai CX. 2010. Positional relevance model for psudo-relevance feedback.
Di dalam: Proceedings of the 33rd International ACM SIGIR Conference on
Research and Development in Information Retrieval; 2010 Jul 19-23;
Geneva, Swiss. Geneva (CH): ACM. hlm 579-586.
16
LAMPIRAN
17
Lampiran 1 Contoh dokumen pertanian
ahmadheryawan251211
Pemprov Jabar Dorong Pembentukan Bank Pertanian
Pemerintah Provinsi Jawa Barat akan mendorong pemerintah pusat
untuk mendirikan bank yang khusus mengelola sektor pertanian.
Pasalnya, penyaluran kredit perbankan terhadap sektor pertanian
sangat rendah. "Kami mendorong agar pemerintah pusat pusat
membangun bank khusus pertanian," ujar Gubernur Jawa Barat
Ahmad Heryawan usai acara Bankers Dinner di Kantor BI Bandung,
Jalan Braga Kota Bandung, Rabu (21/12/2011) malam.
Menurutnya, pendirian bank pertanian sudah sangat mendesak. Dia
mencotohkan, Vietnam telah memiliki bank pertanian sehingga
sektor pertanian di negara tersebut maju dan berkembang.
"Memang harus ada bank yang khusus memberikan keberpihakan
kepada sektor pertanian. Jadi, bank pertanian nantinya tidak
hitung-hitungan
keuntungan
seperti
bank-bank
konvensional
lainnya," paparnya.
Dia menjelaskan sektor pertanian kurang mendapat kucuran
bantuan kredit dari perbankan karena para pelaku usaha kerap
terbentur dengan suku bunga yang tinggi. Selain itu, para
pelaku sekot pertanian sering terbentur masalah agunan. "Di
seluruh Indonesia, penyaluran terhadap sektor pertanian sangat
rendah karena suku bunga tinggi dan pemakaian sistem agunan,"
pungkasnya.
Penyaluran Kredit Pertanian Jabar Masih Rendah
Pangsa pasar kredit pertanian hanya sebesar Rp2,3 triliun atau
sekitar 3% dari total kredit. Padahal kontribusi sektor
pertanian terhadap perekonomian Jawa Barat mencapai 12%.
"Memang penyaluran kreditnya masih rendah hanya sekitar Rp2,3
triliun," ujar ujar Pemimpin BI Bandung Lucky Fathul Aziz
Hadibrata usai acara Bankers' Dinner di Kantor BI Bandung,
Jalan Braga Kota Bandung, Rabu (21/12/2011) malam.
Meski begitu, Lucky menjelaskan penyaluran kredit sektor
pertanian di Jabar pada tahun ini sekitar 3% dari total kredit,
lebih tinggi dibandingkan tahun lalu yang hanya 2%. Untuk itu,
pihaknya akan terus mendorong perbankan agar memberikan
keberpihakan terhadap sektor pertanian. "Kita akan minta
komitmen terhadap perbankan agar mempunyai strategi riil
terhadap pertanian," jelasnya.
Selain itu, pihaknya juga menargetkan peningkatan pertumbuhan
pertanian yang saat ini 23% menjadi 28% pada 2012. Tidak hanya
itu, BI Bandung juga berharap penyaluran kredit terhadap
pertanian meningkat menjadi Rp5 triliun. "Target kita kedepan,
pertumbuhan pertanian mencapai 28% dan penyaluran kreditnya
double, sekitar Rp5 triliun," pungkasnya.
18
Lampiran 2 Daftar stopword
acapkali
ada
adakah
adakan
adalah
adanya
adapun
aduh
agak
agaknya
agar
aja
akalan
akan
akankah
akhir
akhirnya
akibat
akibatkan
akibatnya
aku
ala
alangkah
alasan
alasannya
alih
alihkan
amat
amatlah
ambil
anda
andai
anggap
anggapan
antar
antara
antaranya
apa
apabila
apakah
apalagi
apalah
apanya
apapun
arti
artian
artinya
asalan
asalkan
asumsi
asumsinya
atas
atasnya
atau
ataukah
ataupun
awal
bagai
bagaikan
bagaimana
bagaimanakah
bagaimanapun
bagi
baginya
bagus
bagusnya
bahkan
bahwa
baik
baiknya
balik
banding
bandingkan
banyak
banyaknya
barangkali
baru
bawah
bawahnya
beberapa
begini
beginilah
begitu
begitulah
begitupula
begitupun
belakang
belakangan
belum
belumlah
benar
benarkah
benarnya
berada
berakhir
berakhirnya
berakibat
berakibatkan
beralasan
beralih
beralihnya
beranggapan
berapa
berapanya
berapapun
berarti
berasumsi
berbagai
berbagi
berbanding
berbeda
berdampak
berdasarkan
berhadapan
berharap
berhubung
berhubungan
beri
berikan
berikanlah
berikut
berikutnya
berjumlah
berkat
berkenaan
berkesan
berkesempatan
berkesimpulan
berlalu
berlalunya
berlama
berlangsung
bermula
bersama
bersamaan
bertepatan
beruntun
berupa
besarnya
beserta
besok
besoknya
betapa
biar
biarlah
biasa
biasanya
bicarakan
bicaranya
bila
bilamana
bilang
bisa
bisakah
bisanya
boleh
boro
buat
buatnya
bukan
bukankah
bukanlah
bukannya
buktikan
cara
cerita
ceritanya
contoh
contohkan
contohnya
cukup
cuma
daerah
dahulu
dalam
dan
dapat
dapatkah
dapatkan
dapatlah
dari
darinya
daripada
dekat
dekatnya
demi
demikian
demikianlah
dengan
dengannya
depan
depannya
dia
dialah
dialami
dialihkan
diambil
diambilkan
diambilnya
dianggap
diantara
diantaranya
diapakan
dibagi
dibagikan
dibeberapa
diberbagai
diberi
diberikan
diberinya
dibiarkan
dibiasakan
dibilang
dicontoh
dicontohkan
dicontohkannya
didapat
didapati
didapatkan
didapatnya
didasarkan
digolongkan
digunakan
diharapkan
dijadikan
dijadikannya
dikarenakan
dikasih
dikata
dikatakan
dikatakannya
dikategorikan
dikembangkan
diketahui
diketahuinya
dilaksanakan
dilakukan
dimana
dimulai
dimulailah
dimulainya
dimungkinkan
dipaparkan
dipersilahkan
disaat
disebabkan
disejumlah
diseluruh
disertai
disertakan
disimpulkan
disitulah
ditanggapi
ditanya
ditanyakan
dituturkan
diucapkan
dkk
dll
dsb
dua
dulu
dulunya
empat
enggak
engkau
esok
gimana
habis
habisan
habiskan
habisnya
hal
hampir
hanya
hanyalah
hari
harus
haruskah
haruslah
harusnya
hendak
hendaklah
hendaknya
hingga
how
ialah
ingin
ini
inilah
inipun
itu
itulah
itupun
iya
jadi
jadikan
jadilah
jadinya
jangan
jarang
jauh
jelaskan
jika
jikalau
juga
jumlah
jumlahnya
justru
juta
kabupaten
kadang
kalau
kalaupun
kali
kalian
kami
kamu
kan
kapan
karena
karenanya
kata
katakan
katakanlah
katanya
kau
kayak
kayaknya
kebanyakan
kebetulan
kebiasaan
kecil
kecuali
kemana
kemanakah
kembali
kemudian
kemungkinan
kemungkinannya
kenapa
kenapakah
19
Lampiran 2 Lanjutan
kepada
kepadanya
kepala
ketika
ketimbang
khususnya
kini
kita
kondisi
kurang
lagi
lagian
lagipula
lain
lainnya
laksana
lakukan
lalu
lalui
lama
lanjut
lantaran
lantas
lebih
lepas
lewat
lokasi
maka
makin
mampu
mampukah
mampunya
mana
manakala
manalagi
manapun
masa
masih
masihkah
masing
masuk
masyarakat
mau
maupun
melainkan
melakukan
melalui
melihat
memang
memaparkan
membagi
membagikan
memberi
memberikan
memberinya
membiarkan
membolehkan
membuat
memeperoleh
memiliki
meminta
memperbolehkannya
mempersilahkan
mempunyai
memungkinkan
menanggapi
menanggapinya
menanyakan
mencapai
mencontohkan
mendapat
mendapati
mendapatkan
mendapatkannya
menerus
mengada
mengaku
mengalami
mengalihkan
mengambil
mengambilnya
menganggap
menganggapnya
mengapa
mengatakan
mengembangkan
mengenai
menggunakan
mengungkapkan
meningkat
meningkatkan
menjadi
menjadikan
menjadikannya
menjelang
menjelaskan
menuju
menunjukkan
menurut
menurutnya
menuturkan
menyatakan
menyebabkan
menyebutkan
menyia
mereka
merupakan
meski
meskipun
mesti
mestinya
misal
misalkan
misalnya
mudah
mula
mulai
mulainya
mulanya
muncul
mungkin
mungkinkah
namun
nanti
negara
nilai
nyaris
nyiakan
oleh
orang
pada
padahal
padanannya
paling
panjangnya
papar
paparan
paparkan
paparnya
para
pasti
pastilah
pastinya
pelak
pelbagai
pemaparan
pembagian
pembagiannnya
pendapat
pengalihan
pengambil
pengambilan
pengandaian
per
peralihan
percuma
peri
perihal
perlahan
perlu
pernah
persen
pertamanya
pinggir
pula
pulalah
pun
rata
relevankah
rendah
saat
saatnya
saatnyalah
saja
salah
sama
sambil
sambutannya
sampai
sana
sang
sangat
sangatlah
satunya
saya
sayangnya
seakan
seandainya
seantero
sebab
sebabkan
sebabnya
sebagai
sebagaimana
sebagainya
sebagian
sebaik
sebaiknya
sebaliknya
sebanyak
sebelum
sebelumnya
sebenarnya
seberapa
seberat
sebesar
sebetulnya
sebuah
secara
sedalam
sedang
sedangkan
sedapat
sedemikian
sedikit
sedikitnya
segera
sehabis
seharusnya
seharusnyalah
sehingga
sehubungan
sejak
sejauhmana
sejumlah
sekalian
sekaligus
sekalipun
sekarang
sekata
sekedar
sekeliling
seketika
sekian
sekitar
selagi
selain
selalu
selama
selanjutnya
selesai
selesaikah
seluruh
seluruhnya
semakin
semampunya
semenjak
sementara
semestinya
semisal
semoga
semua
semuanya
semula
seolah
seorang
seorangpun
sepadan
sepanjang
separah
sepasang
sepele
sependapat
seperti
sepertinya
seputar
seraya
serba
serentak
sering
seringkali
seringkalinya
seringlah
seringnya
serta
sertanya
sesaat
sesama
sesamamu
sesedikit
seseorang
sesuai
sesuatu
sesuatunya
sesudah
sesudahnya
sesukanya
sesungguhnya
setelah
setelahnya
seterusnya
setiap
setidak
setidaknya
seusai
sewaktu
seyogyanya
sia
sialnya
siap
siapa
siapakah
siapapun
silahkan
singkatnya
sini
sinilah
situ
sosok
sosoknya
suatu
sudah
sulit
sungguh
sungguhpun
supaya
tak
tambahnya
tanggapan
tanggapannya
tanggapnya
tanpa
tapi
tatkala
telah
tempat
tengah
tentang
tentu
tentunya
tepatnya
terbagi
terbalik
terbiasa
terbilang
terdapat
tergolong
terhadap
terjadi
terjadilah
terjadinya
terkadang
20
Lampiran 2 Lanjutan
terkait
terkecuali
terlalu
terlebih
termasuk
ternyata
tersebut
tertentu
terus
tetap
tetapi
tiap
tiba
tidak
tidaklah
tidaknya
tiga
tinggi
tutur
tuturnya
ucap
ucapan
ucapannya
ucapkan
ucapnya
ujar
ujarnya
umpamanya
umum
umumnya
ungkap
ungkapan
ungkapkan
ungkapnya
untuk
usah
usahlah
usai
usianya
waktu
waktulah
waktunya
walau
walaupun
warga
yaitu
yakni
yang
21
Lampiran 3 Kandidat term ekspansi (kiri ke kanan, nilai PRM menurun, = 5,
= 0.8, 1 feedback)
Topik
Angsuran pertanian sedikti
Daftar term
Pertanian wilayah kelompok kegiatan petani
Area pertanian semakin
berkurang
Pertanian hektare area luas bali
Bidang pertanian belum
berkembang
Pertanian agatho organis hijau revolusi
Dana bidang pertanian rendah Sektor pertanian dana satu indonesia
Kesejahteraan petani rendah
Petani indonesia kesejahteraan memprihatinkan
tingkat
Mutu hasil pertanian rendah
Hasil laut pertanian ekonomi produk
Nilai jual komoditas rendah
Komoditas harga pertanian jual sendiri
Permintaan humus naik
Pupuk permintaan petani distribusi sukabumi
Persediaan padi memadai
Beras dunia indonesia impor persediaan
Petani sulit mendapatkan
humus
Bogor menteri petani pro pembangunan
Produk asing murah
Produk harga sisi asing pertanian
Produksi pertanian meningkat
Produksi pertanian ton indonesia turun
Produksi pertanian menurun
Produksi pertanian ton indonesia turun
Produktivitas pertanian
rendah
Pertanian produktivitas cisadane tahun cidurian
Sawah hancur terendam air
Terendam sawah air tanahnya bagian
Sawah kering kekurangan air
Kecamatan air sukabumi petani kekurangan
Sawah rusak berat
Berat rusak puso air bencana
Tarif humus tinggi
Pertanian tarif non ekspor tujuan
Upaya peningkatan produksi
pertanian
Produksi pertanian peningkatan pendukung
komoditas
Wereng serang lahan
pertanian
Lahan sukoharjo hama batang penggerek
22
Lampiran 4 Gugus kueri dan jawaban pada dokumen pertanian
Kueri
nilai jual komoditas
rendah
persediaan padi
memadai
sawah hancur
terendam air
sawah kering
kekurangan air
Gugus jawaban
balipost030608, BisnisIndonesia22022001, gatra030408,
indosiar071103, indosiar190504-002, indosiar240604, indosiar300304,
indosiar300703-002, jurnalHorti113, kompas030502-002,
kompas031100, kompas101004, kompas161000, kompas171002,
kompas200803, kompas240803, kompas250901, kompas270203-001,
kompas270502-001, kompas300502-001, mediaindonesia060803,
mediaindonesia170303, mediaindonesia250304, mediaindonesia310503,
okezone20022008, panturanews220611, pertaniansehat21042008,
pertaniansehat31122007-03, pikiranrakyat21042010,
pikiranrakyat240404, pikiranrakyat300604, poskota000000-003,
republika020804, republika05052010, republika060503,
republika060804-001, republika060804-003, republika140503,
republika211208-049, republika240604-005, republika241008-042,
republika300704-002, situshijau15, situshijau181103-001,
situshijau280203, situshijau280404-001, situshijau280404-002,
situshijau280404-003, suarakarya000000-021, suarakarya000000-025,
suaramerdeka000000-001, suaramerdeka290303,
suarapembaruan110903, suarapembaruan290802-001
antarajawabarat211211, beritasore080711, bisnis_jabar191211,
bisnisindonesia140911, deptan28052008, eksposnews161211,
gatra161711, gatra190902, gatra190902-02, gatra230408, gatra230802,
globalnews190911, harian_aceh291011, incestordaily310711,
indosiar221003, indosiar240703, kbrh211111, kompas160704,
kompas221011, kompas260711, korankaltim260811,
malukunews090811, mediaindonesia231111, menkokesra71211,
okezone080711, okezone130711, okezone31701, poskota000000-001,
radarbangka040811, republika061102, republika100704-003,
republika180504-002, republika210704-001, republika290604-007,
sinartani1075, suaramerdeka090911, suaramerdeka170602,
tempointeraktif150205-032, tempointeraktif181108-065,
tribunnews300711, vivanews122111, vivanews190911
gatra011200, gatra040108, gatra070203, gatra200210, indosiar020104,
indosiar021203-001, indosiar031203, indosiar050704-002,
indosiar130104, indosiar130504, indosiar140204, indosiar160304,
indosiar180304, kompas170504, kompas210403,
mediaindonesia050604-001, mediaindonesia130210,
mediaindonesia140203, mediaindonesia170209, mediaindonesia180110,
mediaindonesia200110, okezone03032010, okezone12112007,
okezone17012008, okezone20022008, pertaniansehat21042008,
pikiranrakyat18052010, pikiranrakyat21052010-01,
pikiranrakyat21052010-02, pikiranrakyat23042010, radarbogor020110,
situshijau280404-002, suarakarya000000-011, suarakarya000000-015,
suaramerdeka251001, surabayapost29010, tempointeraktif160209-060
deptan09082007, gatra060907, gatra070203, gatra190802, gatra210704,
gatra270709, gatra301002, gatra301002-01, gatra310709,
indosiar010903, indosiar040903, indosiar170603, indosiar180304,
indosiar220503, indosiar240703, indosiar260803-001, indosiar260803003, indosiar310504, kompas030704, korantempo3,
mediaindonesia050604-001, mediaindonesia110703,
mediaindonesia160603, mediaindonesia210709, mediaindonesia240503,
mediaindonesia300909, mediaindonesia310503, okezone01062008,
okezone13062008, okezone13062008-01, okezone14072009,
okezone19052008, okezone26042008-01, okezone26052009,
radarbogor050608, radarbogor14082008, republika030903-001,
23
Lampiran 4 Lanjutan
Kueri
area pertanian
semakin berkurang
tarif humus tinggi
upaya peningkatan
produksi pertanian
Gugus jawaban
republika030903-002, republika120804-01, republika120804-04,
republika130804-02, republika200603, republika210704-004,
republika230903, republika270503, republika270704-002,
republika290604-007, suarakarya000000-002-01, suarakarya000000002-02, suarakarya000000-021, suaramerdeka130602,
suaramerdeka190903, suaramerdeka290901, suarapembaruan110903,
suarapembaruan190809, suarapembaruan260703-001,
suarapembaruan260703-002, tempointeraktif081008-061
balipost050908, balipost301208, deptan28052008-1, deptan31072007,
gatra100509, gatra230503, jurnal000000-004, kompas020603,
kompas030403, kompas031100, kompas101001, kompas120702,
kompas130603-001, kompas150104, kompas170504, kompas170903,
kompas171002, kompas180303, kompas181202, kompas220399,
kompas230899, kompas240503, kompas260203, kompas270203-002,
kompas270502-001, kompas290404, kompas290508, kompas290803,
kompas310703, korantempo3, mediaindonesia010310,
mediaindonesia021109-2, mediaindonesia050104,
mediaindonesia050709, mediaindonesia120609, mediaindonesia170210,
mediaindonesia180210, mediaindonesia180210-2,
mediaindonesia191209, mediaindonesia230104, mediaindonesia281109,
mediaindonesia301009, okezone16092009, okezone24012008,
okezone24012010, republika030304, republika060804-004,
republika080703, republika090902, republika110604-002,
republika120803, republika130804-02, republika150704-004,
republika170604-003, republika170704-004, republika190309-011,
republika230704-003, republika240604-005, republika241203,
republika291008-040, satudunia21102009, situshijau281003-004,
suarakarya000000-002-02, suarakarya000000-021,
suaramerdeka170602-001, suarapembaruan040603,
suarapembaruan060602, sumutpos26052010, tempo251211,
tempointeraktif110210-030, tempointeraktif120707-050,
tempointeraktif160207-025, tempointeraktif181108-065,
tempointeraktif231203-029, tempointeraktif231203-078,
tempointeraktif240804-017
harianhaluan291111, indosiar060204, indosiar240604, indosiar270504,
indosiar290604, kbr68h041211, kompas100901, kompas110302,
kompas210504, kompas211211, kompas241203, kompas270502-002,
kompas300502-001, liputan6_100611, mamorema01,
metrotvnews221111, okezone27112008, panturanews220611,
pertaniansehat09072008, pikiranrakyat010504-003,
pikiranrakyat05042010, pikiranrakyat05052010, republika160703,
situshijau15, suarakarya000000-001-02, suarakary