Pembobotan RIDF pada Mesin Pencari Bahasa Indonesia untuk Ekspansi Kueri Menggunakan Analisis Konteks Lokal
PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA
UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS
LOKAL
FANIA RAHMANAWATI KARIMAH
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA
UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS
LOKAL
FANIA RAHMANAWATI KARIMAH
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
ABSTRACT
FANIA RAHMANAWATI KARIMAH. RIDF Weighting for Query Expansion on Information
Retrieval System for Documents in Indonesian Using Lokal Context Analysis. Supervised by JULIO
ADISANTOSO.
Automatic query expansion is a technique for dealing with the fundamental issue of word
mismatch between queries and documents in information retrieval. A number of approaches on query
expansion have been studied, especially on techniques that analyze the corpus to discover word
relationships (global technique) and those that analyze documents retrieved by initial query (local
technique). Both techniques have their own advantages and limitations. Local context analysis is an
automatic query expansion which is a combination of global and local techniques. The purpose of this
research is to implement query expansion with local context analysis using TF (Term Frequency)
RIDF (Residual Inverse Document Frequency) weighting method, a variation of IDF (Inverse
Document Frequency) that assigns weights to terms according to the difference between the logs of
the actual IDF and its prediction by Poisson model. The obtained performance of information retrieval
was 15% average precision. The results also showed that the number of top-ranked documents and
passages did not significantly affect the average precision. The more influential factor was the number
of query expansions.
Keyword: analysis context local, IDF, query expansion, RIDF, TF
Judul Skripsi
Nama
NRP
: Pembobotan RIDF pada Mesin Pencari Bahasa Indonesia untuk Ekspansi Kueri
Menggunakan Analisis Konteks Lokal
: Fania Rahmanawati Karimah
: G64080029
Menyetujui:
Pembimbing
Ir. Julio Adisantoso, M.Kom
NIP. 19620714 198601 1 002
Mengetahui:
Ketua Departemen Ilmu Komputer,
Dr. Ir. Agus Buono, M.Si, M.Kom
NIP. 19660702 199302 1 001
Tanggal Lulus:
PRAKATA
Alhamdulilahirobbil’alamin, segala puji syukur penulis panjatkan ke hadirat Allah subhanahu
wata’ala atas segala karunia-Nya sehingga penulis dapat menyelesaikan skripsi.
Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpan bantuan dari berbagai
pihak. Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada:
1
Orang tua tercinta, bapak Muhamad Rasyid dan ibu Mindarwati, adik yang saya sayangi
Fatharani Kurniawati yang selalu memberikan doa, nasihat, semangat, dukungan dan kasih
sayang yang luar biasa kepada penulis sehingga dapat menyelesaikan tugas akhir ini.
2
Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas
kesabaran, bimbingan serta dukungan dalam penyelesaian tugas akhir ini.
3
Teman-teman satu bimbingan Meriska Defriani, Susi Handayani, Nofel Saputra, Putri Dewi P,
Anita, Mery Marlina, Alfa Nugraha, Risky Utama dan Hafidzhia Dzikrul A terima kasih atas
kebersamaan dan semangatnya dalam menyelesaikan tugas akhir ini.
4
Sahabat-sahabat Mitha Rachmawati, Siska Susanti, Brenda Kristi, Chichi, dan Ardini.
5
Teman-teman Ilkomerz 45.
6
Seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama
penelitian maupun selama perkuliahan.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan
dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya
masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas
akhir ini. Semoga tugas akhir ini bermanfaat.
Bogor, April 2013
Fania Rahmanawati Karimah
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 5 April 1990 yang merupakan anak pertama dari dua
bersaudara dengan ayah bernama Muhamad Rasyid dan Ibu bernama Mindarwati. Pada tahun 2008
lulus dari Sekolah Menengah Atas Negeri 68 Jakarta Pusat dan diterima di Program Studi Ilmu
Komputer Institut Pertanian Bogor melalui jalur USMI (Undangan Seleksi Masuk IPB). Selama aktif
sebagai mahasiswa, penulis pun turut aktif mengikuti beberapa kegiatan kepanitiaan di Departemen
Ilmu Komputer, antara lain: IT TODAY 2010, Pesta Sains 2010, panitia MPD (Masa Perkenalan
Departemen). Penulis pun aktif sebagai pengurus Divisi Kesekretariatan Himpunan Mahasiswa Ilmu
Komputer. Penulis juga melakukan praktik kerja lapang di Lembaga Minyak dan Gas Bumi
(LEMIGAS) Jakarta.
DAFTAR ISI
Halaman
DAFTAR TABEL ............................................................................................................................ v
DAFTAR GAMBAR ....................................................................................................................... vi
DAFTAR LAMPIRAN.................................................................................................................... vi
PENDAHULUAN ............................................................................................................................ 1
Latar Belakang ............................................................................................................................ 1
Tujuan Penelitian ........................................................................................................................ 1
Ruang Lingkup Penelitian ........................................................................................................... 1
METODE PENELITIAN ................................................................................................................. 1
Koleksi Dokumen........................................................................................................................ 2
Praproses Dokumen .................................................................................................................... 2
Temu Kembali Awal ................................................................................................................... 2
Pembentukan Passages ............................................................................................................... 3
Temu Kembali Passages ............................................................................................................. 3
Ekspansi Kueri ............................................................................................................................ 3
Analisis Konteks Lokal ............................................................................................................... 4
Evaluasi ....................................................................................................................................... 4
Lingkungan Pengembangan Sistem ............................................................................................ 4
HASIL DAN PEMBAHASAN......................................................................................................... 5
Koleksi Dokumen Pengujian ....................................................................................................... 5
Praproses Dokumen .................................................................................................................... 5
Pembentukan Passages ............................................................................................................... 5
Temu Kembali Passages ............................................................................................................. 6
Pemilihan Konsep Ekspansi ........................................................................................................ 6
Formulasi Kueri Baru .................................................................................................................. 6
Pengujian Kinerja Sistem ............................................................................................................ 6
KESIMPULAN DAN SARAN......................................................................................................... 7
Kesimpulan ................................................................................................................................. 7
Saran ........................................................................................................................................... 7
DAFTAR PUSTAKA ....................................................................................................................... 7
LAMPIRAN ..................................................................................................................................... 9
v
DAFTAR TABEL
Halaman
1
2
3
4
5
Tabel contingensi recall-precision................................................................................................ 4
Koleksi dokumen pengujian. ........................................................................................................ 5
Contoh istilah konsep.................................................................................................................... 6
Nilai AVP pada penambahan konsep............................................................................................ 7
Nilai AVP pada penambahan jumlah passages. ........................................................................... 7
DAFTAR GAMBAR
Halaman
1
2
3
4
Metode penelitian. ........................................................................................................................ 1
Contoh dokumen XML. ................................................................................................................ 5
Contoh pembentukan passages. .................................................................................................... 6
Grafik recall precision. ................................................................................................................. 7
DAFTAR LAMPIRAN
Halaman
1 Contoh dokumen pengujian ........................................................................................................ 10
2 Gugus kueri dan jawaban untuk dokumen pertanian .................................................................. 11
3 Nilai AVP sistem pada berbagai jumlah dokumen, passages, dan konsep teratas ...................... 16
vi
1
PENDAHULUAN
Latar Belakang
Tujuan sistem temu kembali informasi
adalah menemukan keberadaan dokumen yang
dianggap relevan sesuai kebutuhan informasi
pengguna. Pengguna akan merepresentasikan
kebutuhan informasi dalam bentuk kueri.
Menurut Rahayuni (2011) salah satu masalah
yang sering dihadapi adalah pengguna tidak
mampu merepresentasikan kebutuhan informasi
yang diinginkan dalam bentuk kueri . Masalah
lain yang sering muncul adalah pilihan kata
yang digunakan seringkali berbeda dangan
database dalam koleksi. Hal ini dapat diatasi
dengan relevance feedback dan teknik ekspansi
kueri. Dengan menggunakan teknik ekspansi
kueri pengguna akan dibantu untuk menentukan
istilah apa saja yang akan ditambahkan pada
kueri awal. Kueri yang telah mengalami
perluasan akan digunakan untuk melakukan
pencarian selanjutnya. Diharapkan dari hasil
ekspansi kueri dokumen yang relevan akan
berada di posisi atas dan lebih banyak
ditemukembalikan.
Metode yang diharapkan bisa lebih
meningkatkan kinerja sistem dalam ekspansi
kueri adalah analisis konteks lokal. Metode ini
merupakan penggabungan antara pendekatan
global dan pendekatan lokal dalam memperluas
kueri awal (Xu & Croft 2000).
Penelitian juga dilakukan oleh Rahayuni
(2011) menggunakan pendekatan global
berbasis pemilihan kata untuk ekspansi kueri
menggunakan ukuran kesamaan antar kata
dengan istilah yang ada dalam thesaurus. Hal ini
menyebabkan nilai Average Precision (AVP)
sistem menjadi 0.596. Rusidi (2008) melakukan
penelitian menggunakan peluang bersyarat dan
mengaplikasikan ekspansi kueri dalam sistem
temu kembali informasi. Ekspansi kueri yang
dilakukan yaitu menggunakan analisis lokal.
Diva (2011) melakukan penelitian ekspansi
kueri menggunakan teknik analisis konsep
lokal. Dalam penelitian ini digunakan
pembobotan BM25. Hal ini menyebabkan
kinerja sistem kurang baik dengan nilai Average
Precision (AVP) sebesar 0.60122. Oleh karena
itu, penelitian ini akan menggunakan
pembobotan RIDF dan memilihan kata berbasis
konsep untuk ekspansi kueri pada mesin pencari
bahasa Indonesia.
Tujuan Penelitian
Penelitian
ini
bertujuan
mengimplementasikan teknik analisis konteks
lokal pada ekspansi kueri di mesin pencari
bahasa Indonesia.
Ruang Lingkup Penelitian
Ruang lingkup dalam penelitian ini antara
lain:
1 Dokumen yang digunakan dalam penelitian
adalah dokumen XML berbahasa Indonesia.
2 Kesalahan dalam pengetikan di dalam
korpus tidak diperhatikan.
3 Dokumen yang relevan dengan kueri uji
ditentukan berdasarkan koleksi yang ada di
Laboratorium Information Retrieval.
METODE PENELITIAN
Tahapan penelitian ini dapat dilihat pada
Gambar 1.
Dokumen
Praproses Dokumen
dengan pembobotan BM25
Temu Kembali Awal
Ya
Ekspansi
Kueri?
Dokumen Peringkat N
Teratas
Kueri
Tidak
Evaluasi
Pembentukan Passages
Praproses Passages
dengan Pembobotan Tf
Ridf
Temu Kembali
Passages menggunakan
Cosine Similarity
Passages Peringkat P
Teratas
Daftar Konsep
Konsep
Peringkat c
Teratas
Formulasi
Kueri
Gambar 1 Metode penelitian.
2
yang berfungsi
frequency:
Koleksi Dokumen
Dokumen yang digunakan dalam penelitian
ini berasal dari Laboratorium Temu Kembali
Informasi Departemen Ilmu Komputer IPB.
Contoh dokumen XML yang digunakan dapat
dilihat pada Lampiran 1. Koleksi Dokumen
terdiri atas 2095 dokumen pertanian merupakan
artikel media umum. Evaluasi kinerja sistem
menggunakan 20 kueri dan tersedia himpunan
dokumen yang relevan dengan kueri (Lampiran
2).
Pembobotan BM25 merupakan pembobotan
yang menggabungkan bobot inverse document
frequency dengan pengskalaan khusus untuk
dokumen dan kueri. Pembobotan BM25 antara
dokumen dan kueri yang diberikan terlihat pada
persamaan berikut:
document
∑
dengan
N
(
(
))
: banyaknya dokumen pada koleksi
: jumlah dokumen yang mengandung
term t
: frekuensi term
dokumen i
kueri
t
pada
: frekuensi term kueri t pada kueri Q
: panjang dokumen Di
: rata-rata panjang dokumen dalam
koleksi
K
: faktor normalisasi
b
: parameter-parameter pengskalaan
terhadap tf term dalam dokumen
dan panjang dokumen.
Nilai parameter yang digunakan adalah k1 =
1.2 dan b = 0.75 (Manning et al. 2009).
dengan
R
inverse
Selanjutnya fungsi tersebut digunakan untuk
menentukan kesamaan kueri Q dan dokumen Di
dengan formula:
Praproses Dokumen
Pada tahap ini dilakukan pemrosesan
dokumen melalui proses indexing menggunakan
Sphinx. Proses indexing diawali dengan proses
tokenisasi yang bertujuan mengidentifikasi kata
di dalam teks dengan cara membedakan
karakter-karakter yang bersifat separator.
Pembuangan stopword dilakukan untuk
membuang kata-kata yang tidak diperlukan atau
tidak memiliki makna dan terakhir adalah
pembobotan dengan BM25 yang bertujuan
menentukan tingkat kepentingan suatu istilah
dalam dokumen.
seperti
: jumlah dokumen
dalam koleksi
yang
relevan
rt
: jumlah dokumen relevan dalam
koleksi yang mengandung istilah t
R – rt
: jumlah dokumen relevan dalam
koleksi yang tidak mengandung
istilah t
dft – rt
: jumlah dokumen yang tidak relevan
dalam koleksi yang mengandung
istilah t
N – dft – R+ r : jumlah dokumen yang tidak
relevan dalam koleksi yang
tidak mengandung istilah t.
Fungsi pembobotan tersebut diubah
sehingga menjadi bobot inverse collection
frequency tanpa informasi relevansi (R = r = 0)
Temu Kembali Awal
Setelah dilakukan praproses dokumen
kemudian dilakukan proses temu kembali awal
yang diimplementasikan dengan Sphinx Search.
Dengan Sphinx, sebelum proses temu kembali
awal diimplementasikan, proses yang terlebih
dahulu dilakukan adalah pengindeksan pada
dokumen XML hasil praproses. Pengindeksan
menggunakan file konfigurasi yang sesuai.
Temu kembali awal digunakan untuk
mendapatkan dokumen-dokumen yang sesuai
dengan kueri yang diberikan pengguna.
Dokumen peringkat N teratas akan diambil
untuk digunakan dalam tahapan ekspansi kueri
menggunakan analisis konteks lokal dengan
pembobotan kata TF RIDF.
3
Pembentukan Passages
Passage merupakan bagian yang lebih kecil
dari suatu dokumen. Menurut Callan (1994),
passage dapat dibagi dalam tiga kelas:
1 Discourse passage merupakan passage yang
dibentuk berdasarkan bagian-bagian dari
suatu dokumen, dapat berupa kalimat atau
paragraf.
2 Semantic passage merupakan passage yang
dibentuk berdasarkan subjek atau konten
dari dokumen.
3 Windows passage merupakan passage yang
dibentuk berdasarkan jumlah kata yang
digunakan.
Pada penelitian ini passage yang digunakan
adalah Discourse passage. Passage dibentuk
dari kumpulan dua kalimat yang saling
overlapping, yakni kalimat pertama digabung
dengan kalimat kedua menjadi satu passage,
kalimat kedua dan kalimat ketiga menjadi satu
passage juga, dan begitu seterusnya untuk
setiap dokumen peringkat teratas.
Temu Kembali Passages
Proses temu kembali passages dilakukan
dengan tahap awal
indexing dengan
pembobotan TF-RIDF dan pemeringkatan
passages menggunakan cosine similiarity.
Bobot dalam term t di dalam sistem temu
kembali informasi dihitung menggunakan
ukuran TF-RIDF, dengan formula:
Wt,i=ridft x tft,i
dengan Wt,I adalah bobot kata t pada passagesi.
Residual idf (RIDF) merupakan variasi dari
idf yaitu menggunakan rasio observasi empiris
dan
estimasi.
Nanas
et
al.
(2004)
mengungkapkan RIDF merupakan variasi dari
IDF yang memberikan bobot untuk term
berdasarkan perbedaan logaritma yang sesuai
dengan IDF sebelumnya memakai model
Poisson.
……… (1)
dengan Y = 0,1,2,3, …, dan µ adalah mean
distribusi Poisson, mean, dan variansinya
adalalah E[y] = var[y] = µ
Peluang banyaknya peubah acak Y dalam
periode waktu t diberikan oleh:
………. (2)
Persamaan 2 digunakan untuk menghitung
peluang peubah acak Y. Cara yang paling umum
menghitung RIDF adalah dengan dua
persamaan. Persamaan pertama adalah nilai
rata-rata kemunculan term per dokumen
⁄ dan persamaan kedua yaitu 1p(0;µt). Dengan demikian nilai RIDF kata t
adalah
RIDFt =obeserved idft predicted idft
= idft + log2(1-p(0;µ))
= (1+ log2 (N/ dft)) + log2 (1- p (0; µ))
= (1+ log2 (N/ dft)) + log2 (1- exp(cft/N))
sedangkan N adalah jumlah dokumen dalam
korpus.
Ukuran kemiripan cosine similiarity
digunakan untuk memeringkat passages dalam
koleksi dengan kueri awal yang diberikan
pengguna. Cosine similarity merupakan salah
satu metode yang digunakan untuk mengukur
kemiripan antara dokumen dan kueri. Metode
ini mengukur kemiripan berdasarkan vektor
istilah kueri (q) dan vektor istilah dokumen (d).
Rumus cosine similarity adalah:
RIDFt
‖ ‖ ‖ ‖
dengan ‖ ‖ adalah panjang vektor (Manning et
al. 2009).
Ekspansi Kueri
Dalam relevance feedback pengguna
memberikan input tambahan pada koleksi
dokumen yang diberikan dengan memberi tanda
pada dokumen yang dianggap relevan.
Selanjutnya input ini digunakan untuk
memperbaiki kueri yang telah diberikan
pengguna. Pada ekspansi kueri pengguna
memberi input tambahan pada kueri awal
berupa kata atau frasa (Manning et al. 2009).
Terdapat tiga jenis ekspansi kueri yaitu:
1 Manual Query Expansion (MQE)
Dalam metode ini pengguna memodifikasi
kueri secara manual tanpa bantuan sistem.
2 Automatic Query Expansion (AQE)
Metode ini akan memodifikasi kueri tanpa
bantuan pengguna, melainkan dilakukan
otomatis melalui sistem. Menurut BaezaYates dan Ribeiro-Neto (1999) terdapat
beberapa teknik dalam AQE, yaitu: Analisis
Global yang prinsip dasarnya memanfaatkan
konteks suatu kata untuk menentukan
kesamaannya dengan kata yang lain,
Analisis Lokal menggunakan dokumen yang
ditemukembalikan
pengguna
untuk
mendapat kueri baru, dan analisis konteks
lokal yang merupakan gabungan teknik
analisis global dan lokal.
3 Interactive Query Expansion (IQE)
4
Metode ini membutuhkan interaksi antara
pengguna dengan sistem untuk melakukan
proses ekspansi kueri. Pertanyaan yang
sering muncul adalah bagaimana pemilihan
istilah dan berapa jumlah istilah yang
digunakan untuk ekspansi kueri. Salah
satunya adalah memilih istilah dengan
mengambil beberapa yang terbaik atau
memasukkan seluruh istilah dokumen
relevan
(relevance
feedback)
atau
memasukkan seluruh istilah indeks koleksi.
Analisis Konteks Lokal
Menurut Xu & Croft (2000) analisis konsep
lokal adalah teknik yang mengombinasikan
analisis lokal dan analisis global pada ekspansi
kueri. Langkah-langkahnya adalah:
Perhitungan recall-precision didasarkan pada
tabulasi silang seperti pada Tabel 1.
Tabel 1 Tabel kontingensi recall-precision
Relevant
Nonrelevant
Retrieved
true positives
(tp)
false positives
(fp)
Non
retrieved
false negatives true negatives
(fn)
(tn)
Oleh karena itu recall-precision didefinisikan
sebagai:
P = tp/(tp+fp)
R = tp/(tp+fn)
1 Gunakan sistem temu kembali informasi
standar untuk me-retrieved n passagess
peringkat teratas menggunakan kueri awal
dengan cara memecah dokumen ke dalam
passages, kemudian passages diberi
peringkat dengan cara yang sama ketika
memberi peringkat pada dokumen (Analisis
Lokal).
2 Selanjutnya konsep pada passages peringkat
n teratas juga diberi peringkat (Analisis
Global) menggunakan formula bel(Q,c)
yaitu:
Menurut Baeza-Yates dan Ribeiro-Neto
(1999) algoritma temu-kembali yang dievaluasi
menggunakan beberapa kueri berbeda akan
menghasilkan nilai R-P yang berbeda untuk
masing-masing kueri.
Average Precision
(AVP) diperlukan untuk menghitung rata-rata
tingkat precision pada berbagai tingkat recall,
yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9,
dan 1.0. Perhitungan AVP dapat diformulasikan
sebagai berikut:
bel(Q,c)=∏
̅ ( ) adalah AVP pada level recall r. Nq adalah
jumlah kueri yang digunakan dan P i(r) adalah
precision pada level recall r untuk kueri ke-i.
∑
̅( )
∑
Lingkungan Pengembangan Sistem
Lingkungan implementasi yang digunakan
adalah sebagai berikut:
Perangkat lunak dan bahasa pemrograman:
sedangkan c adalah konsep, ftij adalah
jumlah kemunculan ti pada pj dan fcij adalah
jumlah kemunculan c pada pj, N adalah
jumlah passages pada koleksi dan Ni adalah
jumlah passages yang memiliki ti dan Nc
adalah jumlah passages yang memiliki c dan
adalah 0.1 untuk menghindari zero bel
value.
3 Semua konsep pada peringkat m teratas
berdasarkan bel(Q, c) ditambahkan pada
kueri awal.
Evaluasi
Manning et al. (2009) menyatakan terdapat
dua hal mendasar yang paling sering digunakan
untuk mengukur kinerja temu-kembali secara
efektif adalah recall dan precision (R-P).
Windows 7 Professional 64-bit sebagai
sistem operasi.
C# sebagai bahasa pemrograman untuk
pembuatan library.
ASP.NET MVC sebagai web framework
untuk pembuatan aplikasi website.
Visual Studio 2010 sebagai IDE (Integrated
Development Environment).
SQL Server 2008 R2 sebagai database
penyimpanan data.
Notepad++ v8.5 sebagai editor.
Sphinx 2.0.3 sebagai platform temu kembali
informasi.
Spesifikasi perangkat keras:
Processor Intel Core i3-2330 2.20 GHz.
RAM 6 GB.
Hard disk dengan kapasitas 500 GB.
5
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
Dokumen yang digunakan dalam pengujian
pada penelitian ini berasal dari Laboratorium
Temu Kembali Informasi, Ilmu Komputer IPB
dengan jumlah 2095 dokumen. Dokumen
tersebut merupakan kumpulan berita tentang
pertanian dari surat kabar online. Deskripsi dari
dokumen dapat dilihat pada Tabel 2. Contoh
salah satu dokumen pertanian yang digunakan
dalam penelitian ini seperti yang tercantum
pada Gambar 2.
Tabel 2 Koleksi dokumen pengujian
Keterangan
Ukuran (byte)
Ukuran seluruh dokumen
6 894 430
Ukuran rata-rata dokumen
3 290.89
Ukuran dokumen terbesar
138 539
Ukuran dokumen terkecil
412
gatra011102
Agroindustri
Ani, Anti
1 November 2002
< TEXT >Selain industry argowisata yang telah…
Gambar 2 Contoh dokumen XML.
Dokumen ditandai dengan tag-tag sebagai
berikut:
,tag
ini
mewakili
keseluruhan dokumen dan melingkupi tagtag lain yang lebih spesifik
,
tag
ini
menunjukkan ID dari dokumen
, tag ini menunjukkan
judul dari dokumen
, tag ini menunjukkan
tanggal dari berita atau penulisan
, tag ini menunjukkan penulis dari berita tersebut.
, tag ini menunjukkan isi
dari dokumen.
Praproses Dokumen
Pemrosesan dokumen dilakukan melalui
beberapa tahapan yaitu: tokenisasi, pembuangan
stopword, dan pembobotan menggunakan
rumus TF RIDF. Sebelum dilakukan tokenisasi,
seluruh huruf pada koleksi dokumen diubah
menjadi huruf kecil dengan menggunakan
fungsi strtolower.
Dokumen koleksi diproses secara sekuensial
per karakter dari awal hinga menghasilkan
sebuah token. Tahapan untuk memperoleh token
adalah sebagai berikut:
1 Sistem menggolongkan karakter menjadi
empat jenis, yaitu :
a whitespace,
berarti
karakter
ini
merupakan karakter pemisah token.
b alpha, berarti karakter ini merupakan
huruf.
c numeric, berarti karakter ini merupakan
angka.
d other, berarti karakter ini tidak termasuk
jenis-jenis di atas.
2 Sistem mengubah jenis karakter numeric
dan other menjadi whitespace.
3 Sistem
melakukan
pemisahan
kata
berdasarkan whitespace.
4 Kata yang dianggap token adalah yang
mempunyai panjang lebih dari dua.
Kenudian dilakukan pembuangan sejumlah
kata umum yang tidak berpotensi mencirikan
suatu dokumen (stopword). Daftar kata buangan
(stopword) menggunakan hasil penelitian
Rahayuni (2011).
Pembentukan Passages
Dokumen XML hasil praproses koleksi
seluruh dokumen kemudian diindeks pada
Sphinx. Pengindeksan dilakukan sesuai dengan
file konfigurasi yang telah dibuat. Pada file
konfigurasi, dokumen XML hasil praproses
dokumen
disimpan
dengan
nama
Corpus2095.xml yang selanjutnya diindeks
menggunakan Sphinx Search dan disimpan
dalam file bernama IndexingCorpus2095. Pada
file konfigurasi Sphinx, xmlpipe_field
berfungsi mendefinisikan tag-tag yang terdapat
pada file XML. Hal tersebut dapat
mempermudah pengaksesantag tertentu. Tahap
indexing
menggunakan
Sphinx
Search.
Kemudian setelah tahap temu kembali selesai
akan diambil dokumen-dokumen peringkat
teratas untuk dijadikan passages.
Bagian dokumen yang diambil untuk
dijadikan passages terdiri atas bagian judul
(ditandai dengan tag title)
dan paragraf
(ditandai dengan tag content). Pada Gambar 3
dapat terlihat contoh pembentukan passages.
6
Passages 1
Akibat banjir tersebut, para petani gagal
tanam. Ratusan hektar tanaman jeruk
petani yang puso akibat banjir Desember
2003 lalu tidak bisa ditanami kembali
karena areal kebun jeruk tersebut
tergenang air.
Passages 2
Ratusan hektar tanaman jeruk petani yang
puso akibat banjir Desember 2003 lalu
tidak bisa ditanami kembali karena areal
kebun jeruk tersebut tergenang air. Banjir
tersebut juga membuat para petani tidak
bisa menanami lahan mereka tanaman
jagung dan padi.
Gambar 3 Contoh pembentukan passages.
Temu Kembali Passages
Passages yang telah terbentuk kemudian
akan ditemu kembalikan. Top p passages hasil
temu kembali akan menjadi sebuah dokumen
untuk menentukan konsep pada formulasi kueri
yang baru. Untuk itu dilakukan tokenisasi
kembali untuk mendapatkan semua term unik
pada semua passages. Setelah didapatkan term
unik, dicari frekuensi kemunculan term unik
tersebut di semua passages kemudian term
diberi bobot sesuai dengan TF RIDF.
Berikutnya
dengan
menggunakan
pembobotan TF RIDF dan fungsi kesamaannya
dicari nilai kemiripan antara passages dan kueri
pengguna sehingga didapatkan passages
peringkat m teratas.
Pemilihan Konsep Ekspansi
Dari passages peringkat teratas diambil kata
benda disebut konsep (calon kueri perluasan).
Term kueri yang diberikan pengguna dihitung
kemunculannya pada setiap passage peringkat
teratas dengan semua konsep yang ada
menggunakan persamaan bel value.
Kemudian dilakukan pencarian nilai
kemiripan konsep dengan semua term yang ada
pada kueri menggunakan persamaan bel(Q,c).
Hasil dari tahap ini berupa konsep-konsep yang
telah terurut berdasarkan kemiripannya dengan
keseluruhan kueri, yang nanti digunakan
sebagai term kueri perluasan. Tabel 3
menunjukkan contoh istilah konsep yang akan
digunakan dalam ekspansi kueri.
Tabel 3 Contoh istilah konsep
Kueri
7 Istilah Ekspansi
persediaan padi
memadai
*mentan, *optimis,
*Indonesia, *ekspor,
*beras, *jakarta,
*apriyantono
nilai jual
komoditas rendah
*agraris, *harga,
*produsen, *buah, *tani,
*produk, *jajar
upaya
peningkatan
produksi
pertanian
*tsunami, *kosong, *susilo,
*tingkat, *presiden,
*komitmen, *bencana
sawah rusak
berat
*kira, *tanam, *pimpin,
*asal, *mundur, *luas,
*lingkung
dana bidang
pertanian rendah
*sektor, *universitas,
*pakar, *gantung, *bicara,
*satu, *kecil
Formulasi Kueri Baru
Kueri perluasan yang didapatkan pada tahap
sebelumnya digabungkan dengan kueri awal
yang diberikan oleh pengguna. Pada penelitian
ini, banyak konsep yang ditambahkan sehingga
mendapatkan hasil yang optimal adalah 4
konsep. Hasil dari tahap ini adalah kueri baru
sebagai hasil ekspansi.
Pengujian Kinerja Sistem
Pengaruh jumlah konsep yang ditambahkan
pada kueri awal diuji pada sistem dengan
menggunakan pasangan kueri dan dokumen
relevan yang telah disiapkan. Banyaknya
konsep yang ditambahkan pada kueri awal
diduga mempengaruhi kinerja hasil temu
kembali. Dalam penelitian ini digunakan
penambahan konsep untuk kemudian dilihat
nilai AVP dari setiap penambahan konsep.
Dari tabel 4 terlihat bahwa untuk
penambahan konsep semakin banyak jumlahnya
maka akan menghasilkan nilai AVP yang
semakin tinggi. Nilai AVP tertinggi ketika
jumlah konsep adalah 4 dan 5. Ketika jumlah
konsep yang ditambahkan lebih dari 7 maka
nilai AVP sistem akan cenderung tetap.
7
Tabel 4 Nilai AVP pada penambahan konsep
Penambahan Jumlah
Konsep
1
2
3
4
5
6
7
Nilai AVP
0.15465
0.15346
0.15346
0.15782
0.15782
0.15554
0.15554
Pengaruh penambahan jumlah passages
dapat dilihat pada Tabel 5. Dapat terlihat bahwa
penambahan passages tidak mempengaruhi
nilai AVP sistem secara signifikan. Untuk nilai
AVP hasil pengujian sistem pada berbagai
kombinasi jumlah penambahan dokumen
peringkat teratas, jumlah passages, dan jumlah
konsep dapat dilihat pada Lampiran 3.
Tabel 5 Nilai AVP pada penambahan jumlah
passages
Penambahan Jumlah
Passages
1
2
3
4
5
AVP
0.15465
0.14615
0.14618
0.14455
0.13862
sistem setelah ekspansi kueri adalah 0.158
dengan recall 0.466. Berdasarkan evaluasi yang
dilakukan untuk nilai AVP optimal didapatkan
dari kombinasi jumlah dokumen peringkat
teratas sebanyak satu, jumlah konsep yang
ditambahkan sebanyak empat dan jumlah
passages sebanyak satu.
KESIMPULAN DAN SARAN
Kesimpulan
Penelitian ini menganalisis ekspansi kueri
menggunakan metode analisis konteks lokal
dengan menggunakan pembobotan TF RIDF.
Berdasarkan hasil penelitian yang diperoleh
dapat disimpulkan bahwa:
1 Ekspansi kueri menggunakan analisis
konteks lokal dengan menggunakan
pembobotan TF RIDF dapat meningkatkan
kinerja sistem temu kembali, yakni
dokumen yang relevan berada pada urutan
awal pada penemukembalian.
2 Jumlah ekspansi kueri yang ditambahkan
mempengaruhi kinerja sistem temu kembali.
Semakin banyak konsep yang ditambahkan
maka semakin bagus kinerja sistem sampai
pada batas tertentu yaitu 4 konsep nilainya
cenderung tetap. Jumlah dokumen dan
passages peringkat teratas yang diambil
tidak memberikan banyak perbedaan pada
hasil kinerja sistem temu kembali.
Saran
Pada penelitian selanjutnya disarankan
untuk menggunakan koleksi yang lebih besar
untuk
lebih
mendekati
penggunaan
sesungguhnya. Penambahan frasa dan kata kerja
sebagai kata yang akan digunakan untuk
ekspansi untuk mengatasi keambiguan kata.
DAFTAR PUSTAKA
Baeza-Yates R, Ribeiro-Neto B. 1999. Modern
Information Retrieval. New York: AddisonWesley.
Gambar 4 Grafik recall precision.
Pada Gambar 4 terlihat perbedaan antar hasil
pengujian sistem saat belum menggunakan
ekspansi kueri dan setelah ekspansi kueri. Nilai
AVP untuk sistem tanpa ekspansi adalah 0.099
dengan recall 0.231 sedangkan nilai AVP
Callan JP. 1994. Passage-level evidence in
document retrieval. Di dalam: Proceedings
of the 17th Annual International ACM SIGIR
Conference on Research and Development
in Information Retrieval; Dublin, July 1994.
New York: Springer-Verlag New York, Inc.
hlm 302-310.
Diva LM 2011. Ekspansi kueri pada sistem
temu kembali informasi berbahasa Indonesia
menggunakan analisis konteks lokal.
8
[Skripsi]. Bogor: Fakultas Matematika dan
Ilmu Pengetahuan Alam, Institut Pertanian
Bogor.
Manning Christopher D, Raghavan Prabhakar,
Schutze Hinrich. 2009. An Introduction to
Information
Retrieval.
Cambridge:
Cambridge University Press.
Nanas N, Uren V, Roeck AD. 2004. A
Comparative Study of Term Weighting
Methods for Information Filtering. U.K: The
Open University Knowledge Media Institute
Milton Keynes.
Rahayuni. 2011. Ekspansi kueri pada sistem
temu kembali informasi berbahasa Indonesia
menggunakan thesaurus. [skripsi]. Bogor:
Fakultas Matematika dan Ilmu Pengetahuan
Alam, Institut Pertanian Bogor.
Rusidi 2008. Ekspansi kueri dalam sistem temu
kembali informasi berbahasa Indonesia
menggunakan peluang bersyarat. [skripsi].
Bogor: Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian Bogor.
Xu J, Croft WB.
2000. Improving the
Effectiveness of Informational Retrieval
with Lokal Context Analysis. Jurnal ACM
Transactions on Information Systems
18(1):79-112.
LAMPIRAN
10
Lampiran 1 Contoh dokumen pengujian
kompas031100
Pertanian Tak Menjanjikan Petani Jepara Beralih ke Sektor Industri
(son)
Jumat, 3 November 2000
Jepara, Kompas
Akibat harga gabah dan hasil pertanian lain tidak pernah sesuai dengan harapan, sementara upah
buruh tani rendah, ribuan petani di Kabupaten Jepara, Jawa Tengah (Jateng) beralih ke sektor industri.
Bahkan 60.000 tenaga kerja industri mebel ukir Jepara yang ada saat ini, hampir semuanya berasal
dari petani. Secara keseluruhan jumlah petani di Jepara berkisar 240.000 orang.
Tidak hanya itu, lahan pertanian di beberapa tempat terutama di Kota Jepara dan sekitarnya kini
mulai terancam berkurang, karena dialihfungsikan menjadi tempat industri mebel ukir. Kondisi ini
terjadi sejak lima tahun terakhir, yakni tahun 1995 hingga saat ini.
Bupati Jepara Drs Soenarto, didampingi Kepala Kanwil (Kakanwil) Departemen Pertanian
(Deptan) Jateng Ir Triyono, mengemukakan ini kepada wartawan yang mengikuti press tour bersama
Sekretariat Pengendali Bimbingan Massal (Bimas), Deptan dan Kehutanan, Rabu (1/11) di
Jepara.
"Bagi sejumlah petani Jepara, sektor pertanian kini tidak lagi menjanjikan. Mereka kini lebih
memilih bekerja di sektor industri mebel ketimbang menjadi petani. Apalagi sejak krisis ekonomi,
ekspor mebel di Jepara meningkat," jelas Soenarto.
Selama ini, kata Soenarto, produksi pertanian terutama padi selalu mengecewakan. Bahkan, antara
biaya dan tenaga yang dikeluarkan petani dengan hasil yang diperoleh, selalu saja tidak sebanding.
"Biaya yang dikeluarkan petani mulai dari tenaga kerja, bibit, pupuk dan obat-obatan terlalu besar,
sementara ketika panen nilai jualnya rendah. Gabah kering panen (GKP) misalnya, tidak pernah lebih
dari Rp 800 per kilogram atau jauh dari harga patokan pemerintah," katanya.
Oleh karena itu, perlahan-lahan minat petani beralih bekerja di sektor industri. Apalagi, beberapa
tahun terakhir terutama saat krisis ekonomi berlangsung, industri mebel ukir Jepara menjadi andalan
ekspor Jateng. "Saat ini Jepara memiliki 2.500 pengusaha mebel, 200 di antaranya eksportir. Ini
menyebabkan, banyak tenaga kerja di sektor agraris ditarik ke sektor industri," tandasnya.
Diakuinya, dorongan petani beralih ke sektor industri cukup besar. Sebab, bekerja di sektor
pertanian membutuhkan waktu, tenaga dan biaya yang cukup besar, hasilnya pun tidak bisa diprediksi.
Bekerja di sektor industri, hasilnya bisa dinikmati dalam waktu tidak terlalu panjang. Dia
mencontohkan, untuk mengampelas (menghaluskan) mebel saja, sehari mendapat bayaran Rp 10.000
per orang.
Krida Pertanian
Mengatasi persoalan ini, Soenarto menyatakan, sejak tahun 1997 pemerintah Jepara
melaksanakan Gerakan Krida Pertanian. Salah satu gebrakan yang dilakukan adalah pencanangan
gerakan pisangisasi (penanaman tananan pisang) di seluruh Jepara.
"Saat ini Jepara sudah menghasilkan pisang, termasuk jenis chavendis. Kini sedang dipikirkan
pemasarannya," katanya.
Tekad Pemda Jepara menggerakkan sektor pertanian di Jepara didukung Satpel Bimas Deptan.
"Tugas Satpel Bimas menggerakkan sektor pertanian di Jepara cukup berat karena pergeseran struktur
ekonomi dari agrobisnis ke industri," jelas Soenarto.
Sedangkan untuk mencegah supaya luas lahan pertanian tidak semakin banyak dialihfungsikan ke
sektor industri, Bupati Jepara menginstruksikan pejabat terkait agar menyeleksi ketat izin
pembangunan kawasan industri. "Selain proses per
izinannya dipersulit, harus ada uji kelayakan," tandasnya.
11
Lampiran 2 Gugus kueri dan jawaban untuk dokumen pertanian
Kueri
nilai jual
komoditas rendah
persediaan padi
memadai
sawah kering
kekurangan air
Gugus Jawaban
balipost030608, BisnisIndonesia22022001, gatra030408, indosiar071103,
indosiar190504-002, indosiar240604, indosiar300304, indosiar300703-002,
jurnalHorti113, kompas030502-002, kompas031100, kompas101004,
kompas161000, kompas171002, kompas200803, kompas240803,
kompas250901, kompas270203-001, kompas270502-001, kompas300502-001,
mediaindonesia060803, mediaindonesia170303, mediaindonesia250304,
mediaindonesia310503, okezone20022008, panturanews220611,
pertaniansehat21042008, pertaniansehat31122007-03, pikiranrakyat21042010,
pikiranrakyat240404, pikiranrakyat300604, poskota000000-003,
republika020804, republika05052010, republika060503, republika060804-001,
republika060804-003, republika140503, republika211208-049, republika240604005, republika241008-042, republika300704-002, situshijau15, situshijau181103001, situshijau280203, situshijau280404-001, situshijau280404-002,
situshijau280404-003, suarakarya000000-021, suarakarya000000-025,
suaramerdeka000000-001, suaramerdeka290303, suarapembaruan110903,
suarapembaruan290802-001
antarajawabarat211211, beritasore080711, bisnis_jabar191211,
bisnisindonesia140911, deptan28052008, eksposnews161211, gatra161711,
gatra190902, gatra190902-02, gatra230408, gatra230802, globalnews190911,
harian_aceh291011, incestordaily310711, indosiar221003, indosiar240703,
kbrh211111, kompas160704, kompas221011, kompas260711,
korankaltim260811, malukunews090811, mediaindonesia231111,
menkokesra71211, okezone080711, okezone130711, okezone31701,
poskota000000-001, radarbangka040811, republika061102, republika100704003, republika180504-002, republika210704-001, republika290604-007,
sinartani1075, suaramerdeka090911, suaramerdeka170602,
tempointeraktif150205-032, tempointeraktif181108-065, tribunnews300711,
vivanews122111, vivanews190911
deptan09082007, gatra060907, gatra070203, gatra190802, gatra210704,
gatra270709, gatra301002, gatra301002-01, gatra310709, indosiar010903,
indosiar040903, indosiar170603, indosiar180304, indosiar220503,
indosiar240703, indosiar260803-001, indosiar260803-003, indosiar310504,
kompas030704, korantempo3, mediaindonesia050604-001,
mediaindonesia110703, mediaindonesia160603, mediaindonesia210709,
mediaindonesia240503, mediaindonesia300909, mediaindonesia310503,
okezone01062008, okezone13062008, okezone13062008-01, okezone14072009,
okezone19052008, okezone26042008-01, okezone26052009, radarbogor050608,
radarbogor14082008, republika030903-001, republika030903-002,
republika120804-01, republika120804-04, republika130804-02,
republika200603, republika210704-004, republika230903, republika270503,
republika270704-002, republika290604-007, suarakarya000000-002-01,
suarakarya000000-002-02, suarakarya000000-021, suaramerdeka130602,
suaramerdeka190903, suaramerdeka290901, suarapembaruan110903,
suarapembaruan190809, suarapembaruan260703-001, suarapembaruan260703002, tempointeraktif081008-061
12
Lanjutan
Kueri
upaya
peningkatan
produksi
pertanian
produk asing
murah
produksi
pertanian
menurun
Gugus Jawaban
deptan11062008, deptan14082007, deptan14112007, deptan18022010,
deptan22022008, deptan25022008, deptan25022008-1, deptan29072009,
deptan31032008, deptan31072007, gatra050508, gatra060206, gatra080102,
gatra121108, gatra200103, gatra220604, gatra240203, gatra260408,
indosiar030304, indosiar150104-002, indosiar180304, jurnalHorti210,
jurnal000000-005, jurnal000000-013, jurnalHorti1, jurnalHorti87,
kompas031100, kompas160704, kompas200802, kompas210502,
kompas230209, kompas240103, kompas240302, kompas280502,
kompas300502-002, kompas310703, kompas311203, kompas311203-2,
mediaindonesia020809, mediaindonesia021209, mediaindonesia080210,
mediaindonesia091109, mediaindonesia120604-002, mediaindonesia120609,
mediaindonesia131209-2, mediaindonesia190210, mediaindonesia210210,
mediaindonesia270309, mediaindonesia270809, okezone12072009,
okezone26042008, okezone27112008, pertaniansehat09012008,
pertaniansehat21042008, pertaniansehat31122007, republika010704-003,
republika040303, republika050803, republika050903, republika09042010,
republika100210-001, republika100210-030, republika100309-031,
republika100902, republika110604-003, republika120804-02, republika12080403, republika140109-047, republika140703, republika150703, republika150903,
republika151202, republika170704-006, republika230704-08, republika230902001, republika230902-002, republika230903, republika240604-005,
republika241203, republika260604-001, republika260803, republika290604-007,
republika301002, republika310109-017, republika311002-001, republika311002002, situshijau070103-002, situshijau070503, situshijau140103-001,
situshijau180803-001, situshijau200103-001, situshijau281003-004,
situshijau290403-002, situshijau310303-No, suarakarya000000-011,
suarakarya000000-016, suarakarya000000-028, suarakarya000000-037,
suaramerdeka071102, suaramerdeka120104, suaramerdeka190903,
suarapembaruan130103, suarapembaruan140303, suarapembaruan220802,
suarapembaruan290802-001, surabayapost020210, surabayapost070110,
tempointeraktif051103-021, tempointeraktif160209-060, tempointeraktif160210020, tempointeraktif160210-075, tempointeraktif2000608-026,
tempointeraktif270707-047, tempointeraktif270707-063, tempointeraktif280609055, wartapenelitian000000-003
analisdaiy211011, indosiar300703-002, kompas100702, kompas101002,
kompas131211, kompas170104, kompas180502, kompas250901,
kompas270203-002, kompas280602, lampungpost201011,
mediaindonesia060803, mediaindonesia170303, okezone210111,
poskota000000-003, republika060503, suaramerdeka130104,
suarapembaruan100903, suarapembaruan110903, tempo141011
deptan18042007, gatra010307, gatra030203, gatra030203-01, gatra180103,
gatra220802, gatra220802-01, gatra240203, indosiar010504, indosiar010803,
indosiar270504, kompas030403, kompas050303, kompas060503,
kompas120102, kompas170402, kompas171002, kompas180303,
kompas211211, kompas240103, kompas260902, kompas270203-001,
kompas270401, kompas270502-001, mediaindonesia050709,
mediaindonesia090409, mediaindonesia131209-2, mediaindonesia281109,
mediaindonesia300909, okezone09012008, pikiranrakyat020804-001,
pikiranrakyat09052010, pikiranrakyat17052010, poskota000000-002,
republika010704-005, republika030903-002, republika110604-002,
republika130804-02, republika170908-027, republika201102, republika231202001, republika241203, republika281202, situshijau030603-002,
tempointeraktif160209-060, situshijau140503-001, situshijau180603-001,
situshijau280203, vivanews122111, suarakarya000000-001-01,
suaramerdeka290901, suarapembaruan290803, surabayapost020310,
13
Lanjutan
Kueri
produksi pertanian
menurun
petani sulit
mendapatkan
humus
sawah rusak berat
mutu hasil
pertanian rendah
Gugus Jawaban
tempointeraktif081008-061, tempointeraktif110210-030
banjarmasinpost181211, gatra230609, harianhaluan291111,
indosiar010704, indosiar060204, indosiar190504-001, indosiar200104,
indosiar290604, kompas210504, kompas211211, kompas300502-001,
liputan6_100611, mamorema01, mediaindonesia211211,
metrotvnews221111, okezone27112008, pertaniansehat09072008,
pertaniansehat30032008, pikiranrakyat010504-003, republika050604,
republika160604-001, republika190504-002, suarakarya000000-001-02,
suarakarya000000-002, suarakarya000000-026, suarakarya000000-029,
suarakarya000000-030, suarakarya000000-031, suarakarya000000-038,
suaramerdeka161101, surya121111, tribunnews51011, waspada120611
gatra030706, gatra040108, gatra060907, gatra070203, gatra120210,
gatra190802, gatra190902, gatra190902-02, gatra260803, gatra301002,
gatra301002-01, indosiar010504, indosiar031203, indosiar040903,
indosiar050704-002, indosiar130104, indosiar130504, indosiar160304,
indosiar180304, indosiar240703, indosiar260803-001, kompas170504,
kompas260902, mediaindonesia030603, mediaindonesia050204,
mediaindonesia050604-001, mediaindonesia110309,
mediaindonesia110703, mediaindonesia130210, mediaindonesia131209-2,
mediaindonesia140203, mediaindonesia160603, mediaindonesia170209,
mediaindonesia190503, okezone01062008, okezone12112007,
okezone17012008, okezone20022008, okezone26052009,
pikiranrakyat09052010, pikiranrakyat17052010, pikiranrakyat18052010,
pikiranrakyat21052010-01, pikiranrakyat23042010,
pikiranrakyat25052010, radarbogor050608, republika010704-005,
republika030903-001, republika030903-002, republika07052010,
republika130804-02, republika200603, republika230903,
republika25052010-01, republika29042010, situshijau110303-002,
situshijau280404-002, suarakarya000000-011, suarakarya000000-033,
suaramerdeka131001, suaramerdeka190903, suarapembaruan120104,
suarapembaruan260703-001, suarapembaruan260703-002,
surabayapost100210, tempointeraktif050205-006, tempointeraktif160209060
Deptan04122009, gatra011102, gatra180103, indosiar150104-002,
jurnal000000-013, jurnalHorti103, jurnalHorti113, kompas050303,
kompas100702, kompas101002, kompas161000, kompas180502,
kompas220801, kompas290404, mediaindonesia030104,
mediaindonesia170403, pikiranrakyat21042010, republika05052010,
republika140109-047, republika150604-001, republika211208-049,
situshijau01, situshijau030203-002, situshijau070103-002,
situshijau080503-004, situshijau110603-001, situshijau15,
situshijau240203-002, situshijau280404-002, situshijau281003-005,
suarakarya000000-013, suaramerdeka000000-001, suarapembaruan100903
14
Lanjutan
Kueri
produksi pertanian
meningkat
kesejahteraan
petani rendah
wereng serang
lahan pertanian
bidang pertanian
belum berkembang
Gugus Jawaban
deptan01072008, deptan01092008, deptan03112009, deptan04032008,
deptan04082008, deptan04112008, deptan14072008, deptan14112007,
deptan19012009, deptan20102008, deptan25022008-1, deptan27032010,
deptan28052008-1, detikfinance27122009, gatra010307, gatra100509,
gatra121108, gatra230802, gatra310807, indosiar021203-002,
kompas060503, kompas150104, kompas160704, kompas180701,
mediaindonesia020809, mediaindonesia080210, mediaindonesia210210,
mediaindonesia250809, mediaindonesia291209, pikiranrakyat10042010,
pikiranrakyat23052010, republika080703, republika09042010,
republika100704-003, republika110309-021, republika120804-03,
republika130209-045, republika281202, republika300704-002,
suarakarya000000-037, surabayapost020310, surabayapost070110,
surabayapost110210, surabayapost250110, tempointeraktif130107-064
balipost030608, gatra230109, jurnal000000-027, kompas030403,
kompas031003, kompas110504, kompas120204, kompas161000,
kompas170903, kompas220399, kompas240803, kompas290404,
mediaindonesia120209, panturanews220611, pertaniansehat16052008,
poskota270411, republika100804, republika110604-002, sinartani291211,
suarakarya000000-002-02, suarakarya000000-021,
suarapembaruan100903, suarapembaruan190809, tempointeraktif200696016, tempointeraktif211003-001, tempointeraktif211003-003,
tempointeraktif300108-022
balipost290708, gatra011200, gatra030203, gatra030203-01, gatra120210,
gatra190902, gatra190902-02, indosiar010504, indosiar010803,
indosiar070504, indosiar150104-002, indosiar240604, indosiar270504,
indosiar310304, kompas170903, kompas200803, kompas211211,
mediaindonesia020310, mediaindonesia030603, mediaindonesia050204,
mediaindonesia050309, mediaindonesia050604-001,
mediaindonesia090409, mediaindonesia110309, mediaindonesia120110,
mediaindonesia131209, mediaindonesia131209-2, mediaindonesia190503,
mediaindonesia221209, mediaindonesia240110, okezone09012008,
okezone23022008, okezone26052008, pikiranrakyat020804-001,
pikiranrakyat04052010, pikiranrakyat09052010, pikiranrakyat17052010,
pikiranrakyat21042010, pikiranrakyat25052010, pikiranrakyat26052010,
radarbogor050608, republika07052010, republika170908-027,
republika19052010, republika19052010-01, republika240604-003,
republika25052010-01, republika260604-003, republika29042010,
situshijau030203-002, situshijau030603-002, situshijau110303-002,
situshijau14, situshijau180603-001, suarakarya000000-011,
suarakarya000000-033, suaramerdeka131001, suarapembaruan120104,
surabayapost100210, surabayapost231209, tempointeraktif090609-076,
tempointeraktif130107-064
balipost030608, balipost050908, balipost301208, gatra230109, gatra290903,
jurnal000000-027, kompas030403, kompas031003, kompas050303,
kompas091003, kompas120204, kompas150304-002, kompas170104,
kompas171002, kompas180504, kompas220399, kompas240803,
kompas270502-001, mediaindonesia050604-002, mediaindonesia100203,
mediaindonesia180504, mediaindonesia250803, metrotvnews17112009,
okezone280111, poskota270411, republika080210-002, republika080210033, republika091009-016, republika190504-002, sinartani291211,
UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS
LOKAL
FANIA RAHMANAWATI KARIMAH
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
PEMBOBOTAN RIDF PADA MESIN PENCARI BAHASA INDONESIA
UNTUK EKSPANSI KUERI MENGGUNAKAN ANALISIS KONTEKS
LOKAL
FANIA RAHMANAWATI KARIMAH
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
ABSTRACT
FANIA RAHMANAWATI KARIMAH. RIDF Weighting for Query Expansion on Information
Retrieval System for Documents in Indonesian Using Lokal Context Analysis. Supervised by JULIO
ADISANTOSO.
Automatic query expansion is a technique for dealing with the fundamental issue of word
mismatch between queries and documents in information retrieval. A number of approaches on query
expansion have been studied, especially on techniques that analyze the corpus to discover word
relationships (global technique) and those that analyze documents retrieved by initial query (local
technique). Both techniques have their own advantages and limitations. Local context analysis is an
automatic query expansion which is a combination of global and local techniques. The purpose of this
research is to implement query expansion with local context analysis using TF (Term Frequency)
RIDF (Residual Inverse Document Frequency) weighting method, a variation of IDF (Inverse
Document Frequency) that assigns weights to terms according to the difference between the logs of
the actual IDF and its prediction by Poisson model. The obtained performance of information retrieval
was 15% average precision. The results also showed that the number of top-ranked documents and
passages did not significantly affect the average precision. The more influential factor was the number
of query expansions.
Keyword: analysis context local, IDF, query expansion, RIDF, TF
Judul Skripsi
Nama
NRP
: Pembobotan RIDF pada Mesin Pencari Bahasa Indonesia untuk Ekspansi Kueri
Menggunakan Analisis Konteks Lokal
: Fania Rahmanawati Karimah
: G64080029
Menyetujui:
Pembimbing
Ir. Julio Adisantoso, M.Kom
NIP. 19620714 198601 1 002
Mengetahui:
Ketua Departemen Ilmu Komputer,
Dr. Ir. Agus Buono, M.Si, M.Kom
NIP. 19660702 199302 1 001
Tanggal Lulus:
PRAKATA
Alhamdulilahirobbil’alamin, segala puji syukur penulis panjatkan ke hadirat Allah subhanahu
wata’ala atas segala karunia-Nya sehingga penulis dapat menyelesaikan skripsi.
Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpan bantuan dari berbagai
pihak. Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada:
1
Orang tua tercinta, bapak Muhamad Rasyid dan ibu Mindarwati, adik yang saya sayangi
Fatharani Kurniawati yang selalu memberikan doa, nasihat, semangat, dukungan dan kasih
sayang yang luar biasa kepada penulis sehingga dapat menyelesaikan tugas akhir ini.
2
Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas
kesabaran, bimbingan serta dukungan dalam penyelesaian tugas akhir ini.
3
Teman-teman satu bimbingan Meriska Defriani, Susi Handayani, Nofel Saputra, Putri Dewi P,
Anita, Mery Marlina, Alfa Nugraha, Risky Utama dan Hafidzhia Dzikrul A terima kasih atas
kebersamaan dan semangatnya dalam menyelesaikan tugas akhir ini.
4
Sahabat-sahabat Mitha Rachmawati, Siska Susanti, Brenda Kristi, Chichi, dan Ardini.
5
Teman-teman Ilkomerz 45.
6
Seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama
penelitian maupun selama perkuliahan.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan
dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya
masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas
akhir ini. Semoga tugas akhir ini bermanfaat.
Bogor, April 2013
Fania Rahmanawati Karimah
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 5 April 1990 yang merupakan anak pertama dari dua
bersaudara dengan ayah bernama Muhamad Rasyid dan Ibu bernama Mindarwati. Pada tahun 2008
lulus dari Sekolah Menengah Atas Negeri 68 Jakarta Pusat dan diterima di Program Studi Ilmu
Komputer Institut Pertanian Bogor melalui jalur USMI (Undangan Seleksi Masuk IPB). Selama aktif
sebagai mahasiswa, penulis pun turut aktif mengikuti beberapa kegiatan kepanitiaan di Departemen
Ilmu Komputer, antara lain: IT TODAY 2010, Pesta Sains 2010, panitia MPD (Masa Perkenalan
Departemen). Penulis pun aktif sebagai pengurus Divisi Kesekretariatan Himpunan Mahasiswa Ilmu
Komputer. Penulis juga melakukan praktik kerja lapang di Lembaga Minyak dan Gas Bumi
(LEMIGAS) Jakarta.
DAFTAR ISI
Halaman
DAFTAR TABEL ............................................................................................................................ v
DAFTAR GAMBAR ....................................................................................................................... vi
DAFTAR LAMPIRAN.................................................................................................................... vi
PENDAHULUAN ............................................................................................................................ 1
Latar Belakang ............................................................................................................................ 1
Tujuan Penelitian ........................................................................................................................ 1
Ruang Lingkup Penelitian ........................................................................................................... 1
METODE PENELITIAN ................................................................................................................. 1
Koleksi Dokumen........................................................................................................................ 2
Praproses Dokumen .................................................................................................................... 2
Temu Kembali Awal ................................................................................................................... 2
Pembentukan Passages ............................................................................................................... 3
Temu Kembali Passages ............................................................................................................. 3
Ekspansi Kueri ............................................................................................................................ 3
Analisis Konteks Lokal ............................................................................................................... 4
Evaluasi ....................................................................................................................................... 4
Lingkungan Pengembangan Sistem ............................................................................................ 4
HASIL DAN PEMBAHASAN......................................................................................................... 5
Koleksi Dokumen Pengujian ....................................................................................................... 5
Praproses Dokumen .................................................................................................................... 5
Pembentukan Passages ............................................................................................................... 5
Temu Kembali Passages ............................................................................................................. 6
Pemilihan Konsep Ekspansi ........................................................................................................ 6
Formulasi Kueri Baru .................................................................................................................. 6
Pengujian Kinerja Sistem ............................................................................................................ 6
KESIMPULAN DAN SARAN......................................................................................................... 7
Kesimpulan ................................................................................................................................. 7
Saran ........................................................................................................................................... 7
DAFTAR PUSTAKA ....................................................................................................................... 7
LAMPIRAN ..................................................................................................................................... 9
v
DAFTAR TABEL
Halaman
1
2
3
4
5
Tabel contingensi recall-precision................................................................................................ 4
Koleksi dokumen pengujian. ........................................................................................................ 5
Contoh istilah konsep.................................................................................................................... 6
Nilai AVP pada penambahan konsep............................................................................................ 7
Nilai AVP pada penambahan jumlah passages. ........................................................................... 7
DAFTAR GAMBAR
Halaman
1
2
3
4
Metode penelitian. ........................................................................................................................ 1
Contoh dokumen XML. ................................................................................................................ 5
Contoh pembentukan passages. .................................................................................................... 6
Grafik recall precision. ................................................................................................................. 7
DAFTAR LAMPIRAN
Halaman
1 Contoh dokumen pengujian ........................................................................................................ 10
2 Gugus kueri dan jawaban untuk dokumen pertanian .................................................................. 11
3 Nilai AVP sistem pada berbagai jumlah dokumen, passages, dan konsep teratas ...................... 16
vi
1
PENDAHULUAN
Latar Belakang
Tujuan sistem temu kembali informasi
adalah menemukan keberadaan dokumen yang
dianggap relevan sesuai kebutuhan informasi
pengguna. Pengguna akan merepresentasikan
kebutuhan informasi dalam bentuk kueri.
Menurut Rahayuni (2011) salah satu masalah
yang sering dihadapi adalah pengguna tidak
mampu merepresentasikan kebutuhan informasi
yang diinginkan dalam bentuk kueri . Masalah
lain yang sering muncul adalah pilihan kata
yang digunakan seringkali berbeda dangan
database dalam koleksi. Hal ini dapat diatasi
dengan relevance feedback dan teknik ekspansi
kueri. Dengan menggunakan teknik ekspansi
kueri pengguna akan dibantu untuk menentukan
istilah apa saja yang akan ditambahkan pada
kueri awal. Kueri yang telah mengalami
perluasan akan digunakan untuk melakukan
pencarian selanjutnya. Diharapkan dari hasil
ekspansi kueri dokumen yang relevan akan
berada di posisi atas dan lebih banyak
ditemukembalikan.
Metode yang diharapkan bisa lebih
meningkatkan kinerja sistem dalam ekspansi
kueri adalah analisis konteks lokal. Metode ini
merupakan penggabungan antara pendekatan
global dan pendekatan lokal dalam memperluas
kueri awal (Xu & Croft 2000).
Penelitian juga dilakukan oleh Rahayuni
(2011) menggunakan pendekatan global
berbasis pemilihan kata untuk ekspansi kueri
menggunakan ukuran kesamaan antar kata
dengan istilah yang ada dalam thesaurus. Hal ini
menyebabkan nilai Average Precision (AVP)
sistem menjadi 0.596. Rusidi (2008) melakukan
penelitian menggunakan peluang bersyarat dan
mengaplikasikan ekspansi kueri dalam sistem
temu kembali informasi. Ekspansi kueri yang
dilakukan yaitu menggunakan analisis lokal.
Diva (2011) melakukan penelitian ekspansi
kueri menggunakan teknik analisis konsep
lokal. Dalam penelitian ini digunakan
pembobotan BM25. Hal ini menyebabkan
kinerja sistem kurang baik dengan nilai Average
Precision (AVP) sebesar 0.60122. Oleh karena
itu, penelitian ini akan menggunakan
pembobotan RIDF dan memilihan kata berbasis
konsep untuk ekspansi kueri pada mesin pencari
bahasa Indonesia.
Tujuan Penelitian
Penelitian
ini
bertujuan
mengimplementasikan teknik analisis konteks
lokal pada ekspansi kueri di mesin pencari
bahasa Indonesia.
Ruang Lingkup Penelitian
Ruang lingkup dalam penelitian ini antara
lain:
1 Dokumen yang digunakan dalam penelitian
adalah dokumen XML berbahasa Indonesia.
2 Kesalahan dalam pengetikan di dalam
korpus tidak diperhatikan.
3 Dokumen yang relevan dengan kueri uji
ditentukan berdasarkan koleksi yang ada di
Laboratorium Information Retrieval.
METODE PENELITIAN
Tahapan penelitian ini dapat dilihat pada
Gambar 1.
Dokumen
Praproses Dokumen
dengan pembobotan BM25
Temu Kembali Awal
Ya
Ekspansi
Kueri?
Dokumen Peringkat N
Teratas
Kueri
Tidak
Evaluasi
Pembentukan Passages
Praproses Passages
dengan Pembobotan Tf
Ridf
Temu Kembali
Passages menggunakan
Cosine Similarity
Passages Peringkat P
Teratas
Daftar Konsep
Konsep
Peringkat c
Teratas
Formulasi
Kueri
Gambar 1 Metode penelitian.
2
yang berfungsi
frequency:
Koleksi Dokumen
Dokumen yang digunakan dalam penelitian
ini berasal dari Laboratorium Temu Kembali
Informasi Departemen Ilmu Komputer IPB.
Contoh dokumen XML yang digunakan dapat
dilihat pada Lampiran 1. Koleksi Dokumen
terdiri atas 2095 dokumen pertanian merupakan
artikel media umum. Evaluasi kinerja sistem
menggunakan 20 kueri dan tersedia himpunan
dokumen yang relevan dengan kueri (Lampiran
2).
Pembobotan BM25 merupakan pembobotan
yang menggabungkan bobot inverse document
frequency dengan pengskalaan khusus untuk
dokumen dan kueri. Pembobotan BM25 antara
dokumen dan kueri yang diberikan terlihat pada
persamaan berikut:
document
∑
dengan
N
(
(
))
: banyaknya dokumen pada koleksi
: jumlah dokumen yang mengandung
term t
: frekuensi term
dokumen i
kueri
t
pada
: frekuensi term kueri t pada kueri Q
: panjang dokumen Di
: rata-rata panjang dokumen dalam
koleksi
K
: faktor normalisasi
b
: parameter-parameter pengskalaan
terhadap tf term dalam dokumen
dan panjang dokumen.
Nilai parameter yang digunakan adalah k1 =
1.2 dan b = 0.75 (Manning et al. 2009).
dengan
R
inverse
Selanjutnya fungsi tersebut digunakan untuk
menentukan kesamaan kueri Q dan dokumen Di
dengan formula:
Praproses Dokumen
Pada tahap ini dilakukan pemrosesan
dokumen melalui proses indexing menggunakan
Sphinx. Proses indexing diawali dengan proses
tokenisasi yang bertujuan mengidentifikasi kata
di dalam teks dengan cara membedakan
karakter-karakter yang bersifat separator.
Pembuangan stopword dilakukan untuk
membuang kata-kata yang tidak diperlukan atau
tidak memiliki makna dan terakhir adalah
pembobotan dengan BM25 yang bertujuan
menentukan tingkat kepentingan suatu istilah
dalam dokumen.
seperti
: jumlah dokumen
dalam koleksi
yang
relevan
rt
: jumlah dokumen relevan dalam
koleksi yang mengandung istilah t
R – rt
: jumlah dokumen relevan dalam
koleksi yang tidak mengandung
istilah t
dft – rt
: jumlah dokumen yang tidak relevan
dalam koleksi yang mengandung
istilah t
N – dft – R+ r : jumlah dokumen yang tidak
relevan dalam koleksi yang
tidak mengandung istilah t.
Fungsi pembobotan tersebut diubah
sehingga menjadi bobot inverse collection
frequency tanpa informasi relevansi (R = r = 0)
Temu Kembali Awal
Setelah dilakukan praproses dokumen
kemudian dilakukan proses temu kembali awal
yang diimplementasikan dengan Sphinx Search.
Dengan Sphinx, sebelum proses temu kembali
awal diimplementasikan, proses yang terlebih
dahulu dilakukan adalah pengindeksan pada
dokumen XML hasil praproses. Pengindeksan
menggunakan file konfigurasi yang sesuai.
Temu kembali awal digunakan untuk
mendapatkan dokumen-dokumen yang sesuai
dengan kueri yang diberikan pengguna.
Dokumen peringkat N teratas akan diambil
untuk digunakan dalam tahapan ekspansi kueri
menggunakan analisis konteks lokal dengan
pembobotan kata TF RIDF.
3
Pembentukan Passages
Passage merupakan bagian yang lebih kecil
dari suatu dokumen. Menurut Callan (1994),
passage dapat dibagi dalam tiga kelas:
1 Discourse passage merupakan passage yang
dibentuk berdasarkan bagian-bagian dari
suatu dokumen, dapat berupa kalimat atau
paragraf.
2 Semantic passage merupakan passage yang
dibentuk berdasarkan subjek atau konten
dari dokumen.
3 Windows passage merupakan passage yang
dibentuk berdasarkan jumlah kata yang
digunakan.
Pada penelitian ini passage yang digunakan
adalah Discourse passage. Passage dibentuk
dari kumpulan dua kalimat yang saling
overlapping, yakni kalimat pertama digabung
dengan kalimat kedua menjadi satu passage,
kalimat kedua dan kalimat ketiga menjadi satu
passage juga, dan begitu seterusnya untuk
setiap dokumen peringkat teratas.
Temu Kembali Passages
Proses temu kembali passages dilakukan
dengan tahap awal
indexing dengan
pembobotan TF-RIDF dan pemeringkatan
passages menggunakan cosine similiarity.
Bobot dalam term t di dalam sistem temu
kembali informasi dihitung menggunakan
ukuran TF-RIDF, dengan formula:
Wt,i=ridft x tft,i
dengan Wt,I adalah bobot kata t pada passagesi.
Residual idf (RIDF) merupakan variasi dari
idf yaitu menggunakan rasio observasi empiris
dan
estimasi.
Nanas
et
al.
(2004)
mengungkapkan RIDF merupakan variasi dari
IDF yang memberikan bobot untuk term
berdasarkan perbedaan logaritma yang sesuai
dengan IDF sebelumnya memakai model
Poisson.
……… (1)
dengan Y = 0,1,2,3, …, dan µ adalah mean
distribusi Poisson, mean, dan variansinya
adalalah E[y] = var[y] = µ
Peluang banyaknya peubah acak Y dalam
periode waktu t diberikan oleh:
………. (2)
Persamaan 2 digunakan untuk menghitung
peluang peubah acak Y. Cara yang paling umum
menghitung RIDF adalah dengan dua
persamaan. Persamaan pertama adalah nilai
rata-rata kemunculan term per dokumen
⁄ dan persamaan kedua yaitu 1p(0;µt). Dengan demikian nilai RIDF kata t
adalah
RIDFt =obeserved idft predicted idft
= idft + log2(1-p(0;µ))
= (1+ log2 (N/ dft)) + log2 (1- p (0; µ))
= (1+ log2 (N/ dft)) + log2 (1- exp(cft/N))
sedangkan N adalah jumlah dokumen dalam
korpus.
Ukuran kemiripan cosine similiarity
digunakan untuk memeringkat passages dalam
koleksi dengan kueri awal yang diberikan
pengguna. Cosine similarity merupakan salah
satu metode yang digunakan untuk mengukur
kemiripan antara dokumen dan kueri. Metode
ini mengukur kemiripan berdasarkan vektor
istilah kueri (q) dan vektor istilah dokumen (d).
Rumus cosine similarity adalah:
RIDFt
‖ ‖ ‖ ‖
dengan ‖ ‖ adalah panjang vektor (Manning et
al. 2009).
Ekspansi Kueri
Dalam relevance feedback pengguna
memberikan input tambahan pada koleksi
dokumen yang diberikan dengan memberi tanda
pada dokumen yang dianggap relevan.
Selanjutnya input ini digunakan untuk
memperbaiki kueri yang telah diberikan
pengguna. Pada ekspansi kueri pengguna
memberi input tambahan pada kueri awal
berupa kata atau frasa (Manning et al. 2009).
Terdapat tiga jenis ekspansi kueri yaitu:
1 Manual Query Expansion (MQE)
Dalam metode ini pengguna memodifikasi
kueri secara manual tanpa bantuan sistem.
2 Automatic Query Expansion (AQE)
Metode ini akan memodifikasi kueri tanpa
bantuan pengguna, melainkan dilakukan
otomatis melalui sistem. Menurut BaezaYates dan Ribeiro-Neto (1999) terdapat
beberapa teknik dalam AQE, yaitu: Analisis
Global yang prinsip dasarnya memanfaatkan
konteks suatu kata untuk menentukan
kesamaannya dengan kata yang lain,
Analisis Lokal menggunakan dokumen yang
ditemukembalikan
pengguna
untuk
mendapat kueri baru, dan analisis konteks
lokal yang merupakan gabungan teknik
analisis global dan lokal.
3 Interactive Query Expansion (IQE)
4
Metode ini membutuhkan interaksi antara
pengguna dengan sistem untuk melakukan
proses ekspansi kueri. Pertanyaan yang
sering muncul adalah bagaimana pemilihan
istilah dan berapa jumlah istilah yang
digunakan untuk ekspansi kueri. Salah
satunya adalah memilih istilah dengan
mengambil beberapa yang terbaik atau
memasukkan seluruh istilah dokumen
relevan
(relevance
feedback)
atau
memasukkan seluruh istilah indeks koleksi.
Analisis Konteks Lokal
Menurut Xu & Croft (2000) analisis konsep
lokal adalah teknik yang mengombinasikan
analisis lokal dan analisis global pada ekspansi
kueri. Langkah-langkahnya adalah:
Perhitungan recall-precision didasarkan pada
tabulasi silang seperti pada Tabel 1.
Tabel 1 Tabel kontingensi recall-precision
Relevant
Nonrelevant
Retrieved
true positives
(tp)
false positives
(fp)
Non
retrieved
false negatives true negatives
(fn)
(tn)
Oleh karena itu recall-precision didefinisikan
sebagai:
P = tp/(tp+fp)
R = tp/(tp+fn)
1 Gunakan sistem temu kembali informasi
standar untuk me-retrieved n passagess
peringkat teratas menggunakan kueri awal
dengan cara memecah dokumen ke dalam
passages, kemudian passages diberi
peringkat dengan cara yang sama ketika
memberi peringkat pada dokumen (Analisis
Lokal).
2 Selanjutnya konsep pada passages peringkat
n teratas juga diberi peringkat (Analisis
Global) menggunakan formula bel(Q,c)
yaitu:
Menurut Baeza-Yates dan Ribeiro-Neto
(1999) algoritma temu-kembali yang dievaluasi
menggunakan beberapa kueri berbeda akan
menghasilkan nilai R-P yang berbeda untuk
masing-masing kueri.
Average Precision
(AVP) diperlukan untuk menghitung rata-rata
tingkat precision pada berbagai tingkat recall,
yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9,
dan 1.0. Perhitungan AVP dapat diformulasikan
sebagai berikut:
bel(Q,c)=∏
̅ ( ) adalah AVP pada level recall r. Nq adalah
jumlah kueri yang digunakan dan P i(r) adalah
precision pada level recall r untuk kueri ke-i.
∑
̅( )
∑
Lingkungan Pengembangan Sistem
Lingkungan implementasi yang digunakan
adalah sebagai berikut:
Perangkat lunak dan bahasa pemrograman:
sedangkan c adalah konsep, ftij adalah
jumlah kemunculan ti pada pj dan fcij adalah
jumlah kemunculan c pada pj, N adalah
jumlah passages pada koleksi dan Ni adalah
jumlah passages yang memiliki ti dan Nc
adalah jumlah passages yang memiliki c dan
adalah 0.1 untuk menghindari zero bel
value.
3 Semua konsep pada peringkat m teratas
berdasarkan bel(Q, c) ditambahkan pada
kueri awal.
Evaluasi
Manning et al. (2009) menyatakan terdapat
dua hal mendasar yang paling sering digunakan
untuk mengukur kinerja temu-kembali secara
efektif adalah recall dan precision (R-P).
Windows 7 Professional 64-bit sebagai
sistem operasi.
C# sebagai bahasa pemrograman untuk
pembuatan library.
ASP.NET MVC sebagai web framework
untuk pembuatan aplikasi website.
Visual Studio 2010 sebagai IDE (Integrated
Development Environment).
SQL Server 2008 R2 sebagai database
penyimpanan data.
Notepad++ v8.5 sebagai editor.
Sphinx 2.0.3 sebagai platform temu kembali
informasi.
Spesifikasi perangkat keras:
Processor Intel Core i3-2330 2.20 GHz.
RAM 6 GB.
Hard disk dengan kapasitas 500 GB.
5
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
Dokumen yang digunakan dalam pengujian
pada penelitian ini berasal dari Laboratorium
Temu Kembali Informasi, Ilmu Komputer IPB
dengan jumlah 2095 dokumen. Dokumen
tersebut merupakan kumpulan berita tentang
pertanian dari surat kabar online. Deskripsi dari
dokumen dapat dilihat pada Tabel 2. Contoh
salah satu dokumen pertanian yang digunakan
dalam penelitian ini seperti yang tercantum
pada Gambar 2.
Tabel 2 Koleksi dokumen pengujian
Keterangan
Ukuran (byte)
Ukuran seluruh dokumen
6 894 430
Ukuran rata-rata dokumen
3 290.89
Ukuran dokumen terbesar
138 539
Ukuran dokumen terkecil
412
gatra011102
Agroindustri
Ani, Anti
1 November 2002
< TEXT >Selain industry argowisata yang telah…
Gambar 2 Contoh dokumen XML.
Dokumen ditandai dengan tag-tag sebagai
berikut:
,tag
ini
mewakili
keseluruhan dokumen dan melingkupi tagtag lain yang lebih spesifik
,
tag
ini
menunjukkan ID dari dokumen
, tag ini menunjukkan
judul dari dokumen
, tag ini menunjukkan
tanggal dari berita atau penulisan
, tag ini menunjukkan penulis dari berita tersebut.
, tag ini menunjukkan isi
dari dokumen.
Praproses Dokumen
Pemrosesan dokumen dilakukan melalui
beberapa tahapan yaitu: tokenisasi, pembuangan
stopword, dan pembobotan menggunakan
rumus TF RIDF. Sebelum dilakukan tokenisasi,
seluruh huruf pada koleksi dokumen diubah
menjadi huruf kecil dengan menggunakan
fungsi strtolower.
Dokumen koleksi diproses secara sekuensial
per karakter dari awal hinga menghasilkan
sebuah token. Tahapan untuk memperoleh token
adalah sebagai berikut:
1 Sistem menggolongkan karakter menjadi
empat jenis, yaitu :
a whitespace,
berarti
karakter
ini
merupakan karakter pemisah token.
b alpha, berarti karakter ini merupakan
huruf.
c numeric, berarti karakter ini merupakan
angka.
d other, berarti karakter ini tidak termasuk
jenis-jenis di atas.
2 Sistem mengubah jenis karakter numeric
dan other menjadi whitespace.
3 Sistem
melakukan
pemisahan
kata
berdasarkan whitespace.
4 Kata yang dianggap token adalah yang
mempunyai panjang lebih dari dua.
Kenudian dilakukan pembuangan sejumlah
kata umum yang tidak berpotensi mencirikan
suatu dokumen (stopword). Daftar kata buangan
(stopword) menggunakan hasil penelitian
Rahayuni (2011).
Pembentukan Passages
Dokumen XML hasil praproses koleksi
seluruh dokumen kemudian diindeks pada
Sphinx. Pengindeksan dilakukan sesuai dengan
file konfigurasi yang telah dibuat. Pada file
konfigurasi, dokumen XML hasil praproses
dokumen
disimpan
dengan
nama
Corpus2095.xml yang selanjutnya diindeks
menggunakan Sphinx Search dan disimpan
dalam file bernama IndexingCorpus2095. Pada
file konfigurasi Sphinx, xmlpipe_field
berfungsi mendefinisikan tag-tag yang terdapat
pada file XML. Hal tersebut dapat
mempermudah pengaksesantag tertentu. Tahap
indexing
menggunakan
Sphinx
Search.
Kemudian setelah tahap temu kembali selesai
akan diambil dokumen-dokumen peringkat
teratas untuk dijadikan passages.
Bagian dokumen yang diambil untuk
dijadikan passages terdiri atas bagian judul
(ditandai dengan tag title)
dan paragraf
(ditandai dengan tag content). Pada Gambar 3
dapat terlihat contoh pembentukan passages.
6
Passages 1
Akibat banjir tersebut, para petani gagal
tanam. Ratusan hektar tanaman jeruk
petani yang puso akibat banjir Desember
2003 lalu tidak bisa ditanami kembali
karena areal kebun jeruk tersebut
tergenang air.
Passages 2
Ratusan hektar tanaman jeruk petani yang
puso akibat banjir Desember 2003 lalu
tidak bisa ditanami kembali karena areal
kebun jeruk tersebut tergenang air. Banjir
tersebut juga membuat para petani tidak
bisa menanami lahan mereka tanaman
jagung dan padi.
Gambar 3 Contoh pembentukan passages.
Temu Kembali Passages
Passages yang telah terbentuk kemudian
akan ditemu kembalikan. Top p passages hasil
temu kembali akan menjadi sebuah dokumen
untuk menentukan konsep pada formulasi kueri
yang baru. Untuk itu dilakukan tokenisasi
kembali untuk mendapatkan semua term unik
pada semua passages. Setelah didapatkan term
unik, dicari frekuensi kemunculan term unik
tersebut di semua passages kemudian term
diberi bobot sesuai dengan TF RIDF.
Berikutnya
dengan
menggunakan
pembobotan TF RIDF dan fungsi kesamaannya
dicari nilai kemiripan antara passages dan kueri
pengguna sehingga didapatkan passages
peringkat m teratas.
Pemilihan Konsep Ekspansi
Dari passages peringkat teratas diambil kata
benda disebut konsep (calon kueri perluasan).
Term kueri yang diberikan pengguna dihitung
kemunculannya pada setiap passage peringkat
teratas dengan semua konsep yang ada
menggunakan persamaan bel value.
Kemudian dilakukan pencarian nilai
kemiripan konsep dengan semua term yang ada
pada kueri menggunakan persamaan bel(Q,c).
Hasil dari tahap ini berupa konsep-konsep yang
telah terurut berdasarkan kemiripannya dengan
keseluruhan kueri, yang nanti digunakan
sebagai term kueri perluasan. Tabel 3
menunjukkan contoh istilah konsep yang akan
digunakan dalam ekspansi kueri.
Tabel 3 Contoh istilah konsep
Kueri
7 Istilah Ekspansi
persediaan padi
memadai
*mentan, *optimis,
*Indonesia, *ekspor,
*beras, *jakarta,
*apriyantono
nilai jual
komoditas rendah
*agraris, *harga,
*produsen, *buah, *tani,
*produk, *jajar
upaya
peningkatan
produksi
pertanian
*tsunami, *kosong, *susilo,
*tingkat, *presiden,
*komitmen, *bencana
sawah rusak
berat
*kira, *tanam, *pimpin,
*asal, *mundur, *luas,
*lingkung
dana bidang
pertanian rendah
*sektor, *universitas,
*pakar, *gantung, *bicara,
*satu, *kecil
Formulasi Kueri Baru
Kueri perluasan yang didapatkan pada tahap
sebelumnya digabungkan dengan kueri awal
yang diberikan oleh pengguna. Pada penelitian
ini, banyak konsep yang ditambahkan sehingga
mendapatkan hasil yang optimal adalah 4
konsep. Hasil dari tahap ini adalah kueri baru
sebagai hasil ekspansi.
Pengujian Kinerja Sistem
Pengaruh jumlah konsep yang ditambahkan
pada kueri awal diuji pada sistem dengan
menggunakan pasangan kueri dan dokumen
relevan yang telah disiapkan. Banyaknya
konsep yang ditambahkan pada kueri awal
diduga mempengaruhi kinerja hasil temu
kembali. Dalam penelitian ini digunakan
penambahan konsep untuk kemudian dilihat
nilai AVP dari setiap penambahan konsep.
Dari tabel 4 terlihat bahwa untuk
penambahan konsep semakin banyak jumlahnya
maka akan menghasilkan nilai AVP yang
semakin tinggi. Nilai AVP tertinggi ketika
jumlah konsep adalah 4 dan 5. Ketika jumlah
konsep yang ditambahkan lebih dari 7 maka
nilai AVP sistem akan cenderung tetap.
7
Tabel 4 Nilai AVP pada penambahan konsep
Penambahan Jumlah
Konsep
1
2
3
4
5
6
7
Nilai AVP
0.15465
0.15346
0.15346
0.15782
0.15782
0.15554
0.15554
Pengaruh penambahan jumlah passages
dapat dilihat pada Tabel 5. Dapat terlihat bahwa
penambahan passages tidak mempengaruhi
nilai AVP sistem secara signifikan. Untuk nilai
AVP hasil pengujian sistem pada berbagai
kombinasi jumlah penambahan dokumen
peringkat teratas, jumlah passages, dan jumlah
konsep dapat dilihat pada Lampiran 3.
Tabel 5 Nilai AVP pada penambahan jumlah
passages
Penambahan Jumlah
Passages
1
2
3
4
5
AVP
0.15465
0.14615
0.14618
0.14455
0.13862
sistem setelah ekspansi kueri adalah 0.158
dengan recall 0.466. Berdasarkan evaluasi yang
dilakukan untuk nilai AVP optimal didapatkan
dari kombinasi jumlah dokumen peringkat
teratas sebanyak satu, jumlah konsep yang
ditambahkan sebanyak empat dan jumlah
passages sebanyak satu.
KESIMPULAN DAN SARAN
Kesimpulan
Penelitian ini menganalisis ekspansi kueri
menggunakan metode analisis konteks lokal
dengan menggunakan pembobotan TF RIDF.
Berdasarkan hasil penelitian yang diperoleh
dapat disimpulkan bahwa:
1 Ekspansi kueri menggunakan analisis
konteks lokal dengan menggunakan
pembobotan TF RIDF dapat meningkatkan
kinerja sistem temu kembali, yakni
dokumen yang relevan berada pada urutan
awal pada penemukembalian.
2 Jumlah ekspansi kueri yang ditambahkan
mempengaruhi kinerja sistem temu kembali.
Semakin banyak konsep yang ditambahkan
maka semakin bagus kinerja sistem sampai
pada batas tertentu yaitu 4 konsep nilainya
cenderung tetap. Jumlah dokumen dan
passages peringkat teratas yang diambil
tidak memberikan banyak perbedaan pada
hasil kinerja sistem temu kembali.
Saran
Pada penelitian selanjutnya disarankan
untuk menggunakan koleksi yang lebih besar
untuk
lebih
mendekati
penggunaan
sesungguhnya. Penambahan frasa dan kata kerja
sebagai kata yang akan digunakan untuk
ekspansi untuk mengatasi keambiguan kata.
DAFTAR PUSTAKA
Baeza-Yates R, Ribeiro-Neto B. 1999. Modern
Information Retrieval. New York: AddisonWesley.
Gambar 4 Grafik recall precision.
Pada Gambar 4 terlihat perbedaan antar hasil
pengujian sistem saat belum menggunakan
ekspansi kueri dan setelah ekspansi kueri. Nilai
AVP untuk sistem tanpa ekspansi adalah 0.099
dengan recall 0.231 sedangkan nilai AVP
Callan JP. 1994. Passage-level evidence in
document retrieval. Di dalam: Proceedings
of the 17th Annual International ACM SIGIR
Conference on Research and Development
in Information Retrieval; Dublin, July 1994.
New York: Springer-Verlag New York, Inc.
hlm 302-310.
Diva LM 2011. Ekspansi kueri pada sistem
temu kembali informasi berbahasa Indonesia
menggunakan analisis konteks lokal.
8
[Skripsi]. Bogor: Fakultas Matematika dan
Ilmu Pengetahuan Alam, Institut Pertanian
Bogor.
Manning Christopher D, Raghavan Prabhakar,
Schutze Hinrich. 2009. An Introduction to
Information
Retrieval.
Cambridge:
Cambridge University Press.
Nanas N, Uren V, Roeck AD. 2004. A
Comparative Study of Term Weighting
Methods for Information Filtering. U.K: The
Open University Knowledge Media Institute
Milton Keynes.
Rahayuni. 2011. Ekspansi kueri pada sistem
temu kembali informasi berbahasa Indonesia
menggunakan thesaurus. [skripsi]. Bogor:
Fakultas Matematika dan Ilmu Pengetahuan
Alam, Institut Pertanian Bogor.
Rusidi 2008. Ekspansi kueri dalam sistem temu
kembali informasi berbahasa Indonesia
menggunakan peluang bersyarat. [skripsi].
Bogor: Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian Bogor.
Xu J, Croft WB.
2000. Improving the
Effectiveness of Informational Retrieval
with Lokal Context Analysis. Jurnal ACM
Transactions on Information Systems
18(1):79-112.
LAMPIRAN
10
Lampiran 1 Contoh dokumen pengujian
kompas031100
Pertanian Tak Menjanjikan Petani Jepara Beralih ke Sektor Industri
(son)
Jumat, 3 November 2000
Jepara, Kompas
Akibat harga gabah dan hasil pertanian lain tidak pernah sesuai dengan harapan, sementara upah
buruh tani rendah, ribuan petani di Kabupaten Jepara, Jawa Tengah (Jateng) beralih ke sektor industri.
Bahkan 60.000 tenaga kerja industri mebel ukir Jepara yang ada saat ini, hampir semuanya berasal
dari petani. Secara keseluruhan jumlah petani di Jepara berkisar 240.000 orang.
Tidak hanya itu, lahan pertanian di beberapa tempat terutama di Kota Jepara dan sekitarnya kini
mulai terancam berkurang, karena dialihfungsikan menjadi tempat industri mebel ukir. Kondisi ini
terjadi sejak lima tahun terakhir, yakni tahun 1995 hingga saat ini.
Bupati Jepara Drs Soenarto, didampingi Kepala Kanwil (Kakanwil) Departemen Pertanian
(Deptan) Jateng Ir Triyono, mengemukakan ini kepada wartawan yang mengikuti press tour bersama
Sekretariat Pengendali Bimbingan Massal (Bimas), Deptan dan Kehutanan, Rabu (1/11) di
Jepara.
"Bagi sejumlah petani Jepara, sektor pertanian kini tidak lagi menjanjikan. Mereka kini lebih
memilih bekerja di sektor industri mebel ketimbang menjadi petani. Apalagi sejak krisis ekonomi,
ekspor mebel di Jepara meningkat," jelas Soenarto.
Selama ini, kata Soenarto, produksi pertanian terutama padi selalu mengecewakan. Bahkan, antara
biaya dan tenaga yang dikeluarkan petani dengan hasil yang diperoleh, selalu saja tidak sebanding.
"Biaya yang dikeluarkan petani mulai dari tenaga kerja, bibit, pupuk dan obat-obatan terlalu besar,
sementara ketika panen nilai jualnya rendah. Gabah kering panen (GKP) misalnya, tidak pernah lebih
dari Rp 800 per kilogram atau jauh dari harga patokan pemerintah," katanya.
Oleh karena itu, perlahan-lahan minat petani beralih bekerja di sektor industri. Apalagi, beberapa
tahun terakhir terutama saat krisis ekonomi berlangsung, industri mebel ukir Jepara menjadi andalan
ekspor Jateng. "Saat ini Jepara memiliki 2.500 pengusaha mebel, 200 di antaranya eksportir. Ini
menyebabkan, banyak tenaga kerja di sektor agraris ditarik ke sektor industri," tandasnya.
Diakuinya, dorongan petani beralih ke sektor industri cukup besar. Sebab, bekerja di sektor
pertanian membutuhkan waktu, tenaga dan biaya yang cukup besar, hasilnya pun tidak bisa diprediksi.
Bekerja di sektor industri, hasilnya bisa dinikmati dalam waktu tidak terlalu panjang. Dia
mencontohkan, untuk mengampelas (menghaluskan) mebel saja, sehari mendapat bayaran Rp 10.000
per orang.
Krida Pertanian
Mengatasi persoalan ini, Soenarto menyatakan, sejak tahun 1997 pemerintah Jepara
melaksanakan Gerakan Krida Pertanian. Salah satu gebrakan yang dilakukan adalah pencanangan
gerakan pisangisasi (penanaman tananan pisang) di seluruh Jepara.
"Saat ini Jepara sudah menghasilkan pisang, termasuk jenis chavendis. Kini sedang dipikirkan
pemasarannya," katanya.
Tekad Pemda Jepara menggerakkan sektor pertanian di Jepara didukung Satpel Bimas Deptan.
"Tugas Satpel Bimas menggerakkan sektor pertanian di Jepara cukup berat karena pergeseran struktur
ekonomi dari agrobisnis ke industri," jelas Soenarto.
Sedangkan untuk mencegah supaya luas lahan pertanian tidak semakin banyak dialihfungsikan ke
sektor industri, Bupati Jepara menginstruksikan pejabat terkait agar menyeleksi ketat izin
pembangunan kawasan industri. "Selain proses per
izinannya dipersulit, harus ada uji kelayakan," tandasnya.
11
Lampiran 2 Gugus kueri dan jawaban untuk dokumen pertanian
Kueri
nilai jual
komoditas rendah
persediaan padi
memadai
sawah kering
kekurangan air
Gugus Jawaban
balipost030608, BisnisIndonesia22022001, gatra030408, indosiar071103,
indosiar190504-002, indosiar240604, indosiar300304, indosiar300703-002,
jurnalHorti113, kompas030502-002, kompas031100, kompas101004,
kompas161000, kompas171002, kompas200803, kompas240803,
kompas250901, kompas270203-001, kompas270502-001, kompas300502-001,
mediaindonesia060803, mediaindonesia170303, mediaindonesia250304,
mediaindonesia310503, okezone20022008, panturanews220611,
pertaniansehat21042008, pertaniansehat31122007-03, pikiranrakyat21042010,
pikiranrakyat240404, pikiranrakyat300604, poskota000000-003,
republika020804, republika05052010, republika060503, republika060804-001,
republika060804-003, republika140503, republika211208-049, republika240604005, republika241008-042, republika300704-002, situshijau15, situshijau181103001, situshijau280203, situshijau280404-001, situshijau280404-002,
situshijau280404-003, suarakarya000000-021, suarakarya000000-025,
suaramerdeka000000-001, suaramerdeka290303, suarapembaruan110903,
suarapembaruan290802-001
antarajawabarat211211, beritasore080711, bisnis_jabar191211,
bisnisindonesia140911, deptan28052008, eksposnews161211, gatra161711,
gatra190902, gatra190902-02, gatra230408, gatra230802, globalnews190911,
harian_aceh291011, incestordaily310711, indosiar221003, indosiar240703,
kbrh211111, kompas160704, kompas221011, kompas260711,
korankaltim260811, malukunews090811, mediaindonesia231111,
menkokesra71211, okezone080711, okezone130711, okezone31701,
poskota000000-001, radarbangka040811, republika061102, republika100704003, republika180504-002, republika210704-001, republika290604-007,
sinartani1075, suaramerdeka090911, suaramerdeka170602,
tempointeraktif150205-032, tempointeraktif181108-065, tribunnews300711,
vivanews122111, vivanews190911
deptan09082007, gatra060907, gatra070203, gatra190802, gatra210704,
gatra270709, gatra301002, gatra301002-01, gatra310709, indosiar010903,
indosiar040903, indosiar170603, indosiar180304, indosiar220503,
indosiar240703, indosiar260803-001, indosiar260803-003, indosiar310504,
kompas030704, korantempo3, mediaindonesia050604-001,
mediaindonesia110703, mediaindonesia160603, mediaindonesia210709,
mediaindonesia240503, mediaindonesia300909, mediaindonesia310503,
okezone01062008, okezone13062008, okezone13062008-01, okezone14072009,
okezone19052008, okezone26042008-01, okezone26052009, radarbogor050608,
radarbogor14082008, republika030903-001, republika030903-002,
republika120804-01, republika120804-04, republika130804-02,
republika200603, republika210704-004, republika230903, republika270503,
republika270704-002, republika290604-007, suarakarya000000-002-01,
suarakarya000000-002-02, suarakarya000000-021, suaramerdeka130602,
suaramerdeka190903, suaramerdeka290901, suarapembaruan110903,
suarapembaruan190809, suarapembaruan260703-001, suarapembaruan260703002, tempointeraktif081008-061
12
Lanjutan
Kueri
upaya
peningkatan
produksi
pertanian
produk asing
murah
produksi
pertanian
menurun
Gugus Jawaban
deptan11062008, deptan14082007, deptan14112007, deptan18022010,
deptan22022008, deptan25022008, deptan25022008-1, deptan29072009,
deptan31032008, deptan31072007, gatra050508, gatra060206, gatra080102,
gatra121108, gatra200103, gatra220604, gatra240203, gatra260408,
indosiar030304, indosiar150104-002, indosiar180304, jurnalHorti210,
jurnal000000-005, jurnal000000-013, jurnalHorti1, jurnalHorti87,
kompas031100, kompas160704, kompas200802, kompas210502,
kompas230209, kompas240103, kompas240302, kompas280502,
kompas300502-002, kompas310703, kompas311203, kompas311203-2,
mediaindonesia020809, mediaindonesia021209, mediaindonesia080210,
mediaindonesia091109, mediaindonesia120604-002, mediaindonesia120609,
mediaindonesia131209-2, mediaindonesia190210, mediaindonesia210210,
mediaindonesia270309, mediaindonesia270809, okezone12072009,
okezone26042008, okezone27112008, pertaniansehat09012008,
pertaniansehat21042008, pertaniansehat31122007, republika010704-003,
republika040303, republika050803, republika050903, republika09042010,
republika100210-001, republika100210-030, republika100309-031,
republika100902, republika110604-003, republika120804-02, republika12080403, republika140109-047, republika140703, republika150703, republika150903,
republika151202, republika170704-006, republika230704-08, republika230902001, republika230902-002, republika230903, republika240604-005,
republika241203, republika260604-001, republika260803, republika290604-007,
republika301002, republika310109-017, republika311002-001, republika311002002, situshijau070103-002, situshijau070503, situshijau140103-001,
situshijau180803-001, situshijau200103-001, situshijau281003-004,
situshijau290403-002, situshijau310303-No, suarakarya000000-011,
suarakarya000000-016, suarakarya000000-028, suarakarya000000-037,
suaramerdeka071102, suaramerdeka120104, suaramerdeka190903,
suarapembaruan130103, suarapembaruan140303, suarapembaruan220802,
suarapembaruan290802-001, surabayapost020210, surabayapost070110,
tempointeraktif051103-021, tempointeraktif160209-060, tempointeraktif160210020, tempointeraktif160210-075, tempointeraktif2000608-026,
tempointeraktif270707-047, tempointeraktif270707-063, tempointeraktif280609055, wartapenelitian000000-003
analisdaiy211011, indosiar300703-002, kompas100702, kompas101002,
kompas131211, kompas170104, kompas180502, kompas250901,
kompas270203-002, kompas280602, lampungpost201011,
mediaindonesia060803, mediaindonesia170303, okezone210111,
poskota000000-003, republika060503, suaramerdeka130104,
suarapembaruan100903, suarapembaruan110903, tempo141011
deptan18042007, gatra010307, gatra030203, gatra030203-01, gatra180103,
gatra220802, gatra220802-01, gatra240203, indosiar010504, indosiar010803,
indosiar270504, kompas030403, kompas050303, kompas060503,
kompas120102, kompas170402, kompas171002, kompas180303,
kompas211211, kompas240103, kompas260902, kompas270203-001,
kompas270401, kompas270502-001, mediaindonesia050709,
mediaindonesia090409, mediaindonesia131209-2, mediaindonesia281109,
mediaindonesia300909, okezone09012008, pikiranrakyat020804-001,
pikiranrakyat09052010, pikiranrakyat17052010, poskota000000-002,
republika010704-005, republika030903-002, republika110604-002,
republika130804-02, republika170908-027, republika201102, republika231202001, republika241203, republika281202, situshijau030603-002,
tempointeraktif160209-060, situshijau140503-001, situshijau180603-001,
situshijau280203, vivanews122111, suarakarya000000-001-01,
suaramerdeka290901, suarapembaruan290803, surabayapost020310,
13
Lanjutan
Kueri
produksi pertanian
menurun
petani sulit
mendapatkan
humus
sawah rusak berat
mutu hasil
pertanian rendah
Gugus Jawaban
tempointeraktif081008-061, tempointeraktif110210-030
banjarmasinpost181211, gatra230609, harianhaluan291111,
indosiar010704, indosiar060204, indosiar190504-001, indosiar200104,
indosiar290604, kompas210504, kompas211211, kompas300502-001,
liputan6_100611, mamorema01, mediaindonesia211211,
metrotvnews221111, okezone27112008, pertaniansehat09072008,
pertaniansehat30032008, pikiranrakyat010504-003, republika050604,
republika160604-001, republika190504-002, suarakarya000000-001-02,
suarakarya000000-002, suarakarya000000-026, suarakarya000000-029,
suarakarya000000-030, suarakarya000000-031, suarakarya000000-038,
suaramerdeka161101, surya121111, tribunnews51011, waspada120611
gatra030706, gatra040108, gatra060907, gatra070203, gatra120210,
gatra190802, gatra190902, gatra190902-02, gatra260803, gatra301002,
gatra301002-01, indosiar010504, indosiar031203, indosiar040903,
indosiar050704-002, indosiar130104, indosiar130504, indosiar160304,
indosiar180304, indosiar240703, indosiar260803-001, kompas170504,
kompas260902, mediaindonesia030603, mediaindonesia050204,
mediaindonesia050604-001, mediaindonesia110309,
mediaindonesia110703, mediaindonesia130210, mediaindonesia131209-2,
mediaindonesia140203, mediaindonesia160603, mediaindonesia170209,
mediaindonesia190503, okezone01062008, okezone12112007,
okezone17012008, okezone20022008, okezone26052009,
pikiranrakyat09052010, pikiranrakyat17052010, pikiranrakyat18052010,
pikiranrakyat21052010-01, pikiranrakyat23042010,
pikiranrakyat25052010, radarbogor050608, republika010704-005,
republika030903-001, republika030903-002, republika07052010,
republika130804-02, republika200603, republika230903,
republika25052010-01, republika29042010, situshijau110303-002,
situshijau280404-002, suarakarya000000-011, suarakarya000000-033,
suaramerdeka131001, suaramerdeka190903, suarapembaruan120104,
suarapembaruan260703-001, suarapembaruan260703-002,
surabayapost100210, tempointeraktif050205-006, tempointeraktif160209060
Deptan04122009, gatra011102, gatra180103, indosiar150104-002,
jurnal000000-013, jurnalHorti103, jurnalHorti113, kompas050303,
kompas100702, kompas101002, kompas161000, kompas180502,
kompas220801, kompas290404, mediaindonesia030104,
mediaindonesia170403, pikiranrakyat21042010, republika05052010,
republika140109-047, republika150604-001, republika211208-049,
situshijau01, situshijau030203-002, situshijau070103-002,
situshijau080503-004, situshijau110603-001, situshijau15,
situshijau240203-002, situshijau280404-002, situshijau281003-005,
suarakarya000000-013, suaramerdeka000000-001, suarapembaruan100903
14
Lanjutan
Kueri
produksi pertanian
meningkat
kesejahteraan
petani rendah
wereng serang
lahan pertanian
bidang pertanian
belum berkembang
Gugus Jawaban
deptan01072008, deptan01092008, deptan03112009, deptan04032008,
deptan04082008, deptan04112008, deptan14072008, deptan14112007,
deptan19012009, deptan20102008, deptan25022008-1, deptan27032010,
deptan28052008-1, detikfinance27122009, gatra010307, gatra100509,
gatra121108, gatra230802, gatra310807, indosiar021203-002,
kompas060503, kompas150104, kompas160704, kompas180701,
mediaindonesia020809, mediaindonesia080210, mediaindonesia210210,
mediaindonesia250809, mediaindonesia291209, pikiranrakyat10042010,
pikiranrakyat23052010, republika080703, republika09042010,
republika100704-003, republika110309-021, republika120804-03,
republika130209-045, republika281202, republika300704-002,
suarakarya000000-037, surabayapost020310, surabayapost070110,
surabayapost110210, surabayapost250110, tempointeraktif130107-064
balipost030608, gatra230109, jurnal000000-027, kompas030403,
kompas031003, kompas110504, kompas120204, kompas161000,
kompas170903, kompas220399, kompas240803, kompas290404,
mediaindonesia120209, panturanews220611, pertaniansehat16052008,
poskota270411, republika100804, republika110604-002, sinartani291211,
suarakarya000000-002-02, suarakarya000000-021,
suarapembaruan100903, suarapembaruan190809, tempointeraktif200696016, tempointeraktif211003-001, tempointeraktif211003-003,
tempointeraktif300108-022
balipost290708, gatra011200, gatra030203, gatra030203-01, gatra120210,
gatra190902, gatra190902-02, indosiar010504, indosiar010803,
indosiar070504, indosiar150104-002, indosiar240604, indosiar270504,
indosiar310304, kompas170903, kompas200803, kompas211211,
mediaindonesia020310, mediaindonesia030603, mediaindonesia050204,
mediaindonesia050309, mediaindonesia050604-001,
mediaindonesia090409, mediaindonesia110309, mediaindonesia120110,
mediaindonesia131209, mediaindonesia131209-2, mediaindonesia190503,
mediaindonesia221209, mediaindonesia240110, okezone09012008,
okezone23022008, okezone26052008, pikiranrakyat020804-001,
pikiranrakyat04052010, pikiranrakyat09052010, pikiranrakyat17052010,
pikiranrakyat21042010, pikiranrakyat25052010, pikiranrakyat26052010,
radarbogor050608, republika07052010, republika170908-027,
republika19052010, republika19052010-01, republika240604-003,
republika25052010-01, republika260604-003, republika29042010,
situshijau030203-002, situshijau030603-002, situshijau110303-002,
situshijau14, situshijau180603-001, suarakarya000000-011,
suarakarya000000-033, suaramerdeka131001, suarapembaruan120104,
surabayapost100210, surabayapost231209, tempointeraktif090609-076,
tempointeraktif130107-064
balipost030608, balipost050908, balipost301208, gatra230109, gatra290903,
jurnal000000-027, kompas030403, kompas031003, kompas050303,
kompas091003, kompas120204, kompas150304-002, kompas170104,
kompas171002, kompas180504, kompas220399, kompas240803,
kompas270502-001, mediaindonesia050604-002, mediaindonesia100203,
mediaindonesia180504, mediaindonesia250803, metrotvnews17112009,
okezone280111, poskota270411, republika080210-002, republika080210033, republika091009-016, republika190504-002, sinartani291211,