Question Answering System Menggunakan N-Gram Term Weight Model

QUESTION ANSWERING SYSTEM MENGGUNAKAN
N-GRAM TERM WEIGHT MODEL

DEBBY PUSPA BAHRI

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

QUESTION ANSWERING SYSTEM MENGGUNAKAN
N-GRAM TERM WEIGHT MODEL

DEBBY PUSPA BAHRI

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer


DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

i

ABSTRACT
DEBBY PUSPA BAHRI. Question Answering System Using N-Gram Term Weight Model.
Supervised by SONY HARTONO WIJAYA.
Currently, search engine has been widely developed having question query feature known
as the query answering system. The information provided by the system must fit a specific user
requirement. This research will apply the passage selection method using n-gram term weighting
model. The evaluation of the method is measured based on the set of questions and documents,
and the accuracy for each answer. One thousand documents and 40 queries are used in this
research. The result of the research indicates the accuracy for WHO questions is 90%, for WHEN
questions is 80%, for WHERE questions is 80%, and for HOW MUCH/MANY questions is 40%.
Keywords: N-Gram, N-Gram Term Weight Model, QAS, Question Answering


i
i

ii

Judul Skripsi
Nama
NRP

: Question Answering System Menggunakan N-Gram Term Weight Model
: Debby Puspa Bahri
: G64096017

Menyetujui:
Pembimbing,

Sony Hartono Wijaya S.Kom., M.Kom
NIP 198108092008121002

Mengetahui

Ketua Departemen Ilmu Komputer,

Dr. Ir. Agus Buono M.Si., M.Kom
NIP 196607021993021001

Tanggal Lulus:

vi

iii

PRAKATA
Puji dan syukur penulis panjatkan ke hadirat Allah subhanahuwata’ala atas segala curahan
rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul Question
Answering System Menggunakan N-Gram Term Weight Model.
Penulis sadar bahwa tugas akhir ini tidak akan terselesaikan tanpa bantuan dari berbagai pihak.
Pada kesempatan ini, penulis ingin mengucapkan terima kasih kepada:
1 Orang tua tercinta Bapak Syamsul Bahri dan Ibu Darmini Piliang atas segala doa, dukungan,
dan kasih sayang yang tiada henti.
2 Bapak Sony Hartono Wijaya SKom MKom selaku dosen pembimbing tugas akhir. Terima

kasih atas kesabaran dan dukungan dalam penyelesaian tugas akhir ini.
3 Bapak Firman Ardiansyah SKom MSi dan Ahmad Ridha SKom MS selaku dosen penguji, Dr
Ir Agus Buono MSi MKom selaku Ketua Departemen Ilmu Komputer IPB serta seluruh dosen
dan staf Departemen Ilmu Komputer FMIPA IPB.
4 Mochammad Sudharmono atas segala bantuan, dukungan, dan doa.
5 Sahabat-sahabatku Mameto, Nina Maria, Anisah, Canma, Ai, dan seluruh teman-teman Ilmu
Komputer angkatan IV. Terima kasih atas semangat dan kebersamaan selama penyelesaian
tugas akhir ini.
6 Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam
pelaksanaan tugas akhir.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan
dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap
adanya masukan berupa saran dan kritik yang bersifat membangun dari pembaca demi
kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.

Bogor, Juli 2013

Debby Puspa Bahri

vi

iii

iv

RIWAYAT HIDUP
Penulis dilahirkan di Kabanjahe pada tanggal 24 Agustus 1985. Penulis merupakan anak
keenam dari enam bersaudara dari pasangan Bapak Syamsul Bahri dan Ibu Darmini Piliang.
Penulis lulus dari SMU Negeri 1 Kabanjahe pada tahun 2003. Setahun kemudian, penulis
melanjutkan pendidikannya di D3 Teknik Informatika, Departemen Ilmu Komputer, Institut
Pertanian Bogor melalui program reguler. Tahun 2007 penulis lulus dari D3 Institut Pertanian
Bogor. Penulis pernah melakukan praktik lapang di Biro Perencanaan dan Umum, Badan
Koordinasi Survei dan Pemetaan Nasional (Bakosurtanal) dengan topik Sistem Informasi.
Pada tahun 2008 sampai 2011, penulis bekerja di sebuah perusahaan asing PT ExsaMap Asia
sebagai 3D Edit Technician, Quality Control 3D Edit Technician, dan 3D Road Technician. Pada
tahun 2009, penulis melanjutkan pendidikan di Program Sarjana Alih Jenis Ilmu Komputer,
Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

vi
iv


v

DAFTAR ISI
Halaman

DAFTAR TABEL ...................................................................................................................... vi
DAFTAR GAMBAR .................................................................................................................. vi
DAFTAR LAMPIRAN ............................................................................................................... vi
PENDAHULUAN ....................................................................................................................... 1
Latar Belakang ....................................................................................................................... 1
Tujuan Penelitian ................................................................................................................... 1
Ruang Lingkup....................................................................................................................... 1
TINJAUAN PUSTAKA .............................................................................................................. 1
Temu Kembali Informasi ........................................................................................................ 1
Question Answering System .................................................................................................... 2
Pembobotan ........................................................................................................................... 2
Metode N-gram ...................................................................................................................... 2
Passage N-Gram Term Weight Model ..................................................................................... 3
METODE PENELITIAN ............................................................................................................. 3
Pemrosesan Offline ................................................................................................................. 3

Pemrosesan Online ................................................................................................................. 4
Evaluasi Hasil Percobaan........................................................................................................ 5
Lingkungan Pengembangan .................................................................................................... 5
HASIL DAN PEMBAHASAN .................................................................................................... 5
Koleksi Dokumen Pengujian................................................................................................... 5
Pemrosesan Dokumen ............................................................................................................ 6
Indexing ................................................................................................................................. 6
Perhitungan tf-idf.................................................................................................................... 6
Pembentukan Passages........................................................................................................... 6
Pemrosesan Query .................................................................................................................. 6
Perolehan Dokumen Teratas ................................................................................................... 7
Perolehan Passages Top Documents ....................................................................................... 7
Ekstraksi dan Pembobotan N-gram pada Query....................................................................... 7
Pembobotan Passage ............................................................................................................. 7
Ekstraksi Jawaban .................................................................................................................. 7
Evaluasi Hasil Percobaan........................................................................................................ 7
Hasil Percobaan Untuk Kata Tanya SIAPA ............................................................................. 8
Hasil Percobaan Untuk Kata Tanya KAPAN ........................................................................... 8
Hasil Percobaan Untuk Kata Tanya DI MANA ....................................................................... 9
Hasil Percobaan Untuk Kata Tanya BERAPA ......................................................................... 9

Hasil Percobaan Keseluruhan Kata Tanya Menggunakan Lima Dokumen Teratas ................... 9
KESIMPULAN DAN SARAN .................................................................................................. 10
Kesimpulan .......................................................................................................................... 10
Saran.................................................................................................................................... 10
DAFTAR PUSTAKA ................................................................................................................ 10
LAMPIRAN .............................................................................................................................. 12

vvi

vi

DAFTAR TABEL
Halaman
1
2
3
4

Ilustrasi matriks inverted index ................................................................................................. 2
Rangkaian hasil n-gram ........................................................................................................... 3

Daftar pasangan kata tanya dan named entity ............................................................................ 7
Perolehan bobot query n-gram ................................................................................................. 7

DAFTAR GAMBAR
Halaman
1
2
3
4
5
6
7
8

Kedekatan dokumen dalam ruang vektor (Manning 2008). ........................................................ 2
Alur pemrosesan offline............................................................................................................ 3
Alur pemrosesan online. ........................................................................................................... 4
Grafik hasil percobaan untuk kata tanya SIAPA........................................................................ 8
Grafik hasil percobaan untuk kata tanya KAPAN. .................................................................... 8
Grafik hasil percobaan untuk kata tanya DI MANA. ................................................................. 9

Grafik hasil percobaan untuk kata tanya BERAPA.................................................................... 9
Grafik hasil percobaan untuk semua kata tanya. ...................................................................... 10

DAFTAR LAMPIRAN
Halaman
1 Antarmuka implementasi ........................................................................................................ 13
2 Hasil percobaan untuk kata tanya „SIAPA‟ .............................................................................. 14
3 Hasil percobaan untuk kata tanya „KAPAN‟ ............................................................................ 15
4 Hasil percobaan untuk kata tanya „DI MANA‟ ........................................................................ 16
5 Hasil percobaan untuk kata tanya „BERAPA‟ .......................................................................... 17

vi

1

PENDAHULUAN
Latar Belakang
Information Retrieval System (Sistem
Temu Kembali Informasi) memiliki kaitan
yang sangat erat dengan search engine (sistem

pencarian).
Saat
ini
sudah
banyak
dikembangkan search engine yang memiliki
fitur query berupa pertanyaan atau yang sering
dikenal dengan Question Answering System
misalnya
www.ask.com.
Pengguna
memasukkan query berupa pertanyaan, bukan
berupa kata atau kalimat saja. Informasi yang
diperoleh pengguna diharapkan selain relevan
juga lebih spesifik sesuai kebutuhan
pengguna.
Penelitian tentang Question Answering
System dalam perkembangannya sudah
diimplementasikan oleh Ballesteros dan
Xiaoyan-Li
(2007)
berupa
Question
Answering yang digunakan untuk bahasa
Inggris dan Mandarin. Penelitian tersebut
menggunakan pembobotan heuristic dan
syntactic untuk mengidentifikasi kandidat
kalimat yang relevan. Cidhy (2009)
mengimplementasikan
penggunaan
pembobotan heuristic yang dilakukan
Ballesteros dan Xiaoyan-Li (2007) ke dalam
dokumen berbahasa Indonesia.
Pada umumnya, passage retrieval hanya
mengambil kata kunci utama pada pertanyaan
dengan menghilangkan stopwords, sedangkan
pada N-gram Term Weight Model,
pengembalian passage berdasarkan pencarian
struktur pertanyaan tanpa menghilangkan
stopwords pada query yang diberikan, tetapi
memberikan bobot terkecil pada stopwords
tersebut, yaitu sebesar 0.001 (Buscaldi et al.
2009).
Penelitian tentang Question Answering
System yang menggunakan pembobotan ngram dalam pemilihan passage telah
diimplementasikan Buscaldi et al. (2009).
Penelitian tersebut membahas mengenai
Question Answering System berdasarkan
redudansi dan metode Passage Retrieval.
Penelitian terkait mengenai n-gram juga
telah dilakukan oleh Najibullah (2011).
Penelitian ini membahas pencarian teks dalam
berbahasa Arab dengan memanfaatkan
metode n-gram untuk pengambilan kata
dasarnya.
Metode n-gram juga telah digunakan
dalam penelitian Rahmawan (2012). Proses ngram pada penelitian Rahmawan ialah dengan
menghitung skor tiap
passage
dan
menjumlahkan semua kemungkinan x-gram
yang cocok dengan query pertanyaan.

Penelitian ini akan menerapkan pemilihan
passage menggunakan metode N-gram Term
Weight Model pada Question Answering
System dan menjadi acuan untuk penelitian
berikutnya.
Tujuan Penelitian
Penelitian ini bertujuan:
1 Menerapkan pemilihan passage dengan
menggunakan metode N-gram Term
Weight Model pada Question Answering
System.
2 Melakukan evaluasi terhadap Question
Answering System yang menggunakan Ngram Term Weight Model.
Ruang Lingkup
Ruang lingkup dalam penelitian ini ialah:
1 Korpus terdiri atas kumpulan dokumen
berbahasa Indonesia dengan struktur tag
XML diambil dari Laboratorium Temu
Kembali Informasi, Departemen Ilmu
Komputer IPB.
2 Menggunakan kata tanya siapa, kapan, di
mana, dan berapa.
3 Query pertanyaan yang dimasukkan
dibatasi pada tipe factoid question, yaitu
pertanyaan yang memiliki jawaban
tunggal.
4 Query berkaitan dengan koleksi dokumen.
5 Metode N-gram Term Weight Model
diimplementasikan pada query dan
passage.
6 Pasangan pertanyaan diambil dari query
uji pada penelitian Sanur (2011).
7 Pembobotan dan pemilihan kandidat
jawaban pada ekstraksi jawaban mengikuti
penelitian Sanur (2011).
8 Hasil
dari
penelitian
dievaluasi
menggunakan persepsi manusia.

TINJAUAN PUSTAKA
Temu Kembali Informasi
Temu kembali informasi berkaitan dengan
merepresentasikan,
menyimpan,
mengorganisasi, dan mengakses informasi.
Representasi dan organisasi suatu informasi
harus membuat pengguna lebih mudah dalam
mengakses informasi yang diinginkannya.
Dalam pencarian informasi, pengguna harus
menerjemahkan kebutuhan informasinya
dalam bentuk query. Berdasarkan query
tersebut, sistem temu kembali informasi akan
mengembalikan informasi yang relevan
dengan query yang diberikan oleh pengguna
(Baeza-Yates & Ribeiro-Neto 1999).

2

Question Answering System
Question Answering System adalah sebuah
sistem yang memungkinkan pengguna untuk
bertanya dalam bahasa alami (natural
language) pada koleksi dokumen yang tidak
terstruktur dalam rangka mendapatkan
jawaban yang diinginkan. Question Answering
System
merupakan
kombinasi
antara
Information Retrieval (IR) dan Natural
Language Processing (NLP). Question
Answering
System
memiliki
tujuan
menampilkan jawaban berdasarkan query
dalam bentuk pertanyaan yang diajukan oleh
pengguna. Perbedaan yang mendasar antara
Question Answering dengan IR terletak pada
masukan (query) dan keluaran yang
dihasilkan.
Pada IR, query yang dimasukkan berupa
kata atau kalimat pertanyaan dan keluaran
yang dihasilkan ialah dokumen yang dianggap
relevan oleh sistem, sedangkan pada Question
Answering System, query berupa kalimat
tanya dan keluarannya berupa jawaban
(entitas) yang dianggap sesuai oleh sistem
sehingga memungkinkan sistem tidak
mengembalikan jawaban apapun.

yang merupakan hasil perkalian antara tft,d dan
idft.
Tabel 1 menunjukkan ilustrasi matriks
inverted index, yang berisi bobot setiap kata t
dalam suatu dokumen d.
Tabel 1 Ilustrasi matriks inverted index
t1
t2

t3

d1
Wt1d1
Wt2d1

Wtkd1

d2
Wt1d2
Wt2d2

Wtkd2







d3
Wt1dn
Wt2dn

Wtkdn

Ide untuk mengukur kesamaan dokumen
dengan menggunakan kesamaan cosine adalah
dokumen yang saling berdekatan dalam ruang
vektor memiliki kecenderungan berisi
informasi
yang
sama.
Gambar
1
mengilustrasikan vektor dokumen yang
terdapat dalam ruang vektor, yang diberi nilai
oleh bobot kata.

Pembobotan
Information Retrieval pada dasarnya
adalah pembandingan kata yang ada pada
query dengan kata yang ada pada dokumen.
Perolehan kata tertentu dalam dokumen yang
mengandung informasi yang berkaitan dengan
query, dilakukan dengan cara menghitung
kesamaan antara vektor dokumen dan vektor
query. Informasi yang diperlukan adalah term
frequency (tf), document frequency (df), dan
invers document frequency (idf).
Nilai tf menggambarkan frekuensi
kemunculan suatu kata t dalam dokumen d,
yang dilambangkan dengan tft,d. Nilai df
menggambarkan banyaknya dokumen di
dalam koleksi yang mengandung kata tertentu.
Nilai idf merupakan pembagian nilai dft
dengan total dokumen yang ada dalam koleksi
menghasilkan nilai idf untuk setiap kata
sebagai berikut:
lo
N merupakan notasi untuk jumlah
dokumen yang ada dalam koleksi. Melalui idf,
dapat diketahui kata-kata tertentu yang
merupakan penciri suatu dokumen. Dengan
demikian, bobot untuk masing-masing kata
dalam dokumen dapat diperoleh, yaitu wt,d

Gambar 1 Kedekatan dokumen dalam ruang
vektor (Manning et al. 2008).
Formula untuk memperoleh kesamaan
cosine untuk dj dan dk adalah:
sim

| || |

Berdasarkan formula kesamaan cosine, dj
dan dk adalah dokumen yang terdapat dalam
ruang vektor M kata, dan M merupakan vektor
bobot tiap dokumen. Dalam implementasi
perolehan n dokumen teratas, hal serupa
dilakukan untuk mengukur kesamaan antara
vektor query dan dokumen. Dokumen
diurutkan berdasarkan perolehan nilai cosine
dengan query. Kemudian dipilih n dokumen
teratas dengan nilai cosine tertinggi.
Metode N-gram
N-gram merupakan sebuah metode yang
diaplikasikan untuk pembangkitan kata atau
karakter. Sebuah karakter n-gram merupakan
rangkaian dari n karakter atau n kata yang
berurutan. Pada penelitian ini, n-gram yang

3

diaplikasikan berupa kata. Metode n-gram ini
digunakan untuk mengambil potongan kata
sejumlah n dari sebuah kalimat yang secara
kontinu dibaca dari teks awal hingga akhir
dari dokumen. Tujuan utama dibalik
pendekatan ini ialah menentukan kata-kata
yang mirip dengan rangkaian n-gram secara
umum (Majumder et al. 2002).
Seba ai contoh, “pen olahan sa u skala
industri berkemban ” menghasilkan rangkaian
n-gram yang dapat dilihat pada Tabel 2.
Tabel 2 Rangkaian hasil n-gram
N
1
1
1
1
1
2
2
2
2
3
3
3
4
4
5

n-gram word(s)
Pengolahan
Sagu
Skala
Industri
Berkembang
pengolahan sagu
sagu skala
skala industri
industri berkembang
pengolahan sagu skala
sagu skala industri
skala industri berkembang
pengolahan sagu skala industri
sagu skala industri berkembang
pengolahan sagu skala industri
berkembang

Passage N-Gram Term Weight Model
Kebanyakan dari sistem passage retrieval
terbaru tidak berorientasi pada masalah
spesifik question answering karena question
answering hanya mempertimbangkan kata
kunci pertanyaan untuk mendapatkan bagian
yang relevan, yaitu bagian yang memiliki
jawaban yang benar.
Pada penelitian ini, passage akan
digolongkan berdasarkan n-gram. Struktur ngram dari setiap passage diekstraksi oleh
fungsi ekstraksi n-gram. Hanya n-gram yang
mengandung query yang diekstraksi.
Bobot dari tiap passage dihitung
berdasarkan kesamaan antara query dan
passage n-gram term weight model. Nilai
similarity dari passage dengan query ialah
lebih besar jika passage berbagi struktur ngram lebih panjang dengan pertanyaan.
Semakin besar nilai similarity, semakin tinggi
passage yang diperingkatkan oleh sistem.
Berdasarkan penelitian Buscaldi et al.
(2009), bagian penting dalam fungsi term
pada n-gram term weight model ada dua,
yaitu:

1 Bobot dari term dari pertanyaan atau query
yang ditentukan oleh rumus:
w

-

n

lo

(1)

lo

dengan nk adalah jumlah kalimat yang
memiliki term K dan N adalah jumlah
kalimat yang terdapat pada koleksi
dokumen.
2 Fungsi h(x) mengukur bobot dari tiap ngram dan didefinisikan sebagai:
n

h

∑w

dengan wk adalah bobot term dari n-gram
x.

METODE PENELITIAN
Penelitian ini dilakukan dalam tiga tahap,
yaitu pemrosesan offline, pemrosesan online,
dan evaluasi hasil percobaan.
Pemrosesan Offline
Pemrosesan offline terdiri atas tahap
pengumpulan dokumen, praproses dokumen,
indexing dokumen, dan pembentukan
passages. Pemrosesan ini dilakukan untuk
mendapatkan nilai tf-idf dan passage yang
akan digunakan pada pemrosesan online. Hal
ini dimaksudkan agar pemrosesan secara
online dapat dilakukan lebih cepat. Alur
pemrosesan offline dapat dilihat pada Gambar
2.
Documents

Praproses Dokumen
Indexing
Pembentukan Passages

Gambar 2 Alur pemrosesan offline.
Tahapan pemrosesan secara offline ialah:
1 Pengumpulan Dokumen
Koleksi dokumen uji dan daftar stopwords
diambil dari Laboratorium Temu Kembali
Informasi, Departemen Ilmu Komputer IPB.
2 Praproses Dokumen
Pada tahap ini, dilakukan proses parsing
terhadap koleksi dokumen uji. Stopwords
pada koleksi dokumen uji tidak dihilangkan.
3 Indexing Dokumen

4

Sebelum passage dibentuk, terlebih dahulu
dilakukan penamaan entitas pada koleksi
dokumen pengujian. Penamaan entitas atau
tagging
dilakukan
secara
otomatis
menggunakan
hasil
penelitian
dari
Citrainingputra
(2009).
Entitas
yang
digunakan yaitu NAME, ORGANIZATION,
DATE, LOCATION, NUMBER, dan
CURRENCY. Pembentukan passage terdiri
atas dua kalimat yang saling berdampingan.
Passage yang terbentuk akan digunakan pada
pemrosesan secara online.

Query yang dimasukkan akan dilakukan
proses parsing terhadap kata tanya. Query
selain kata tanya kemudian diproses dengan
menggunakan metode n-gram term weight
model.
Pada tahap ini, dilakukan juga pemberian
bobot terkecil pada stopwords sebesar 0.001
(Buscaldi et al. 2009). Hal ini dilakukan
karena pada proses pembobotan n-gram,
stopwords tidak dihilangkan untuk menjaga
struktur dari query tersebut. Koleksi dokumen
uji dan daftar stopwords diambil dari
Laboratorium Temu Kembali Informasi,
Departemen Ilmu Komputer IPB. Langkah
selanjutnya ialah memberikan bobot per ngram pada query yang diberikan. Pembobotan
n-gram pada query dihitung berdasarkan
persamaan 1 dan 2.

Pemrosesan Online

3 Perolehan Lima Dokumen Teratas

Alur pemrosesan online dapat dilihat pada
Gambar 3.

Sistem
akan mengembalikan
dokumen teratas yang memiliki
kesamaan cosine tertinggi.

Proses indexing dokumen pada tahap ini
menggunakan pembobotan tf-idf. Hasil
indexing berupa nilai idf dan tf-idf dari seluruh
dokumen.
4 Pembentukan Passages

Input Query

4 Passages
Top 5 Dokumen
Offline

Ekstraksi NGram

lima
nilai

Query NGram

Passages

N-Gram Comparison

Ekstraksi NGram

Passage NGram

Re-ranked
Passages

Ekstraksi
Jawaban

Evaluasi

Gambar 3 Alur pemrosesan online.
Tahapan pemrosesan secara online adalah:
1 Input Query
Query berupa kalimat tanya yang diawali
dengan kata tanya SIAPA, KAPAN, DI
MANA, dan BERAPA.
2 Ekstraksi N-Gram dan Query N-Gram

Kandidat passage diperoleh dari passages
yang terletak pada lima dokumen teratas.
5 N-Gram Comparison
Pada proses ini, akan dilakukan
perhitungan terhadap nilai bobot kemiripan
pada n-gram query dan n-gram passage yang
dihasilkan oleh sistem. Passage yang diambil
adalah passage yang memiliki nilai bobot
kemiripan yang terbesar.
6 Ekstraksi N-Gram dan Passage N-Gram
Term Weight Model
Perhitungan bobot pada passage terhadap
query akan dilakukan parsing terhadap
passage sesuai dengan jumlah n-gram pada
query. Mulai dari 1-gram hingga n-gram.
Langkah selanjutnya ialah pembandingan
antara kata pada query dan kata pada passage
yang dilakukan berdasarkan per n-gram (1gram query dibandingkan dengan 1-gram
passage, dan seterusnya). Untuk tiap
kesamaan kata yang diperoleh akan
dijumlahkan nilai bobot per kata yang
diperoleh pada bobot query sebelumnya yang
ada pada passage sehingga masing-masing
passage akan memiliki bobot.
7 Re-ranked Passage
Hasil bobot passage yang dikembalikan
pada proses n-gram comparison kemudian
diperingkatkan dari yang terbesar hingga
terkecil.

5

8 Ekstraksi Jawaban
Jawaban
akhir
diperoleh
dengan
menghitung jarak terdekat antara kandidat
jawaban pada top passage dan kata-kata yang
merupakan hasil pencocokkan dengan
keyword yang akan dihasilkan sebagai output.
Evaluasi Hasil Percobaan
Evaluasi Question Answering System
(QAS) ini dilakukan dengan melihat
banyaknya
kalimat
jawaban
yang
ditemukembalikan dan banyaknya hasil yang
bernilai benar maupun salah. Semakin banyak
hasil yang benar, maka kinerja sistem semakin
baik. Setiap query dapat memiliki satu atau
lebih kandidat jawaban. Evaluasi dilakukan
menurut persepsi manusia.
Pemberian nilai dilakukan berdasarkan
empat kriteria, yaitu:
1
2
3

4

Wrong (W): jawaban tidak benar.
Right (R): jawaban dan dokumen benar.
Null: jawaban kosong karena tidak ada
kandidat jawaban yang memiliki format
yang sesuai.
Unsupported: jawaban benar, tapi
dokumen tidak mendukung.

Lingkungan Pengembangan
Perangkat keras notebook yang digunakan
pada penelitian, yaitu:
1 Processor AMD X2 1.6 GHz.
2 RAM 2 GB.
3 Hard disk kapasitas 250 GB.
Perangkat lunak yang digunakan pada
penelitian, yaitu:
1 Sistem operasi Windows 7 Ultimate.
2 Netbeans IDE 6.9

HASIL DAN PEMBAHASAN

November 2002. Masing-masing dokumen uji
berekstensi teks (*.txt) dan struktur XML di
dalamnya. Dokumen memiliki tag dengan
fungsi yang berbeda-beda. Pada baris pertama
terdapat tag yang berfungsi
membedakan satu dokumen dengan dokumen
lainnya. Tag menunjukkan nama
dokumen, tag menunjukkan judul
dari dokumen, tag menunjukkan
penulis dari dokumen dan tag yang
menunjukkan isi dari dokumen. Berikut
adalah contoh format struktur dokumen yang
digunakan.

gatra011102
Banten Kembangkan
Agroindustri
Ark, Ant
1 November 2002

Selain
industri
kimia
dan
parawisata, provinsi Banten juga
melirik
agroindustri.
Provinsi
pecahan
Jawa
Barat
ini
akan
mengembangkan
`Agroindustrial
Park`, yaitu sebuah kawasan indutri
pengolahan
hasil
pertanian,
di
Cilegon itu diungkapkan Gubernur
Banten,
Dr
Djoko
Munandar,
di
Serang, Jumat.
"Nantinya kawasan ini akan menjadi
pusat pengolahan berbagai produk
pertanian, walaupun bahan bakunya
tidak hanya dipasok dari Banten,
tetapi akan makin memacu kemajuan
pertanian
di
propinsi
ini,"
katanya, seusai acara gelar wicara
tentang upaya peningkatan produk
olahan
dan
pemasaran
hasil
pertanian,
di
Aula
Kantor
Gubernuran.



Pada tahap indexing, pemrosesan dokumen
hanya diambil bagian yang diapit oleh tag
dan , sedangkan untuk
pembentukan passages, yang digunakan
hanya bagian dokumen yang diapit oleh tag
. Berikut adalah menunjukkan
ilustrasi bagian dokumen yang diproses.

Koleksi Dokumen Pengujian
Dokumen uji yang digunakan ialah
dokumen berbahasa Indonesia yang telah
tersedia di Laboratorium Temu Kembali
Informasi, Departemen Ilmu Komputer IPB.
Secara umum, dokumen diberi nama
berdasarkan sumber data dan tanggal data
diterbitkan dengan ditambahkan nomor urut
pada akhir, seperti gatra011102.txt yang
berarti data berasal dari majalah Gatra dan
diterbitkan pada tanggal 01 januari bulan





--------
--------

-------




--------
--------

6

Pemrosesan Dokumen
Langkah pertama pada pemrosesan
dokumen ialah penamaan entitas (named
entity) yang disebut tagging pada dokumen uji
dengan menggunakan hasil penelitian dari
Citrainingputra (2009). Penamaan entitas
dilakukan untuk proses perolehan kandidat
jawaban sesuai dengan jenis pertanyaan.
Penamaan entitas yang digunakan terdiri atas
NAME, ORGANIZATION, LOCATION
,NUMBER, CURRENCY, DATE, dan TIME.
Pada
tahap
ini,
dilakukan
dengan
memasukkan satu per satu bagian dokumen
yang diapit tag ke dalam sistem
name entity tagging (Citraningputra 2009).
Selanjutnya, semua dokumen hasil tagging
kemudian disimpan dalam korpus. Berikut
adalah contoh penggunaan tagging.
Ketua Umum Himpunan
Kerukunan Tani Indonesia
(HKTI) Siswono
Yudo Husodo menyatakan, jika
bangsa
Indonesia
tidak mampu mengelola daya saing
pertanian dalam era pasar bebas
ASEAN
(AFTA)
yang sudah berlaku per 1
Januari 2003 maka pertanian
akan mengalami kehancuran bahkan
jutaan petani juga kehilangan
pekerjaan.

Langkah kedua ialah pembacaan terhadap
isi file dari korpus. Pembacaan hanya berlaku
pada isi file yang berada pada tag
dan . Kemudian pada isi file tersebut
dilakukan parsing dengan pemisah kata yang
terdiri
atas
tanda
baca
[+\/%,.\"\];()\':=`?\[!@].\
Indexing
Proses indexing dilakukan dengan
melakukan
perhitungan
tf-idf
dengan
mendapatkan nilai term frequency dengan
memanfaatkan hasil pada tahap pemrosesan
dokumen. Term frequency diperoleh dari
pasangan dokumen dan hasil parsing dari
masing-masing file disimpan dalam suatu
array pada variabel tf. Variabel ini digunakan
untuk menghitung nilai df, idf, dan tf-idf setiap
kata.
Perhitungan tf-idf
Langkah pertama melakukan perhitungan
tf-idf ialah mendapatkan nilai term frequency,
dengan memanfaatkan hasil pada tahap
pemrosesan dokumen. Term frequency

diperoleh dari pasangan dokumen dan hasil
parsing (token-token) dari masing-masing file
disimpan dalam suatu array pada variabel tf.
Variabel ini digunakan untuk menghitung
nilai df, idf, dan tf-idf setiap kata.
Langkah selanjutnya ialah mendapatkan
document frequency (df). Document frequency
adalah jumlah dokumen yang mengandung
kata tertentu. Kemudian dari hasil tersebut
dapat dihitung nilai invers document
frequency (idf). Tujuan dari idf ialah untuk
menentukan kata-kata (term) yang merupakan
penciri dari suatu dokumen. Oleh karena itu,
dalam penelitian ini hanya kata dengan nilai
idf lebih besar sama dengan 0.3 yang
disimpan (Sanur 2011). Hal ini bertujuan
menghapus kata-kata yang tidak termasuk
dalam stopwords namun bukan penciri dari
sebuah dokumen. Hasil idf disimpan dalam
satu file den an men unakan tanda “>>”
sebagai pemisah. Melalui idf dapat diperoleh
informasi untuk menghitung nilai tf-idf yang
merupakan perkalian antara nilai tf dan idf.
Selanjutnya hasil tf-idf kata juga disimpan
dalam satu file dengan menggunakan tanda
“>>” seba ai pemisah.
Pembentukan Passages
Tahap awal pembentukan passage
dilakukan pembentukan kalimat untuk setiap
dokumen dengan menggunakan tanda
pemisah antar kalimat yaitu [.?!]. Setiap
passage dibentuk dari dua kalimat yang
berurutan sehingga passage yang posisinya
berdekatan saling overlap.
Pemrosesan Query
Query berupa kalimat tanya yang diawali
dengan kata tanya dan diakhiri dengan tanda
tanya (?). Proses parsing pada query diawali
dengan proses case folding, yaitu membuat
huruf pada teks menjadi kecil. Query yang
memiliki kata stopwords akan diberikan bobot
0.001 (Buscaldi et al. 2009). Query tersebut
juga dibersihkan dari tanda baca. Hasil dari
proses parsing disimpan dalam struktur data
array pertanyaan. Pada array tersebut,
diperoleh kata tanya (pada indeks ke-0) yang
akan digunakan untuk menentukan tipe
jawaban yang akan dikembalikan oleh sistem.
Proses selanjutnya adalah parsing terhadap
kalimat tanya dengan pemisah kata yang
terdiri
atas
tanda
baca
[+\/%,.\"\];()\':=`?\[!@].
Pada penelitian kali ini, kata tanya yang
digunakan dibatasi dalam empat jenis, yaitu
SIAPA, KAPAN, DI MANA, dan BERAPA.
Tabel 3 menunjukkan daftar pasangan jenis

7

kata tanya dan named entity yang menjadi
penciri
dari
jawaban
yang
akan
ditemukembalikan.
Tabel 3
No
1
2
3
4

Daftar pasangan kata tanya dan
named entity

Kata Tanya
Siapa
Kapan
Di mana
Berapa

Tag Entitas
NAME, ORGANIZATION
DATE
LOCATION
NUMBER, CURRENCY

Perolehan Dokumen Teratas
Dokumen yang digunakan untuk proses
perolehan jawaban ialah lima dokumen
dengan bobot kesamaan cosine tertinggi.
Dengan memanfaatkan nilai idf dan tf-idf,
dilakukan perolehan norm dari query dan
dokumen. Query dimasukkan secara manual
kemudian dilakukan perhitungan terhadap
norm query, tf-idf query, dan norm untuk
setiap dokumen. Langkah selanjutnya ialah
memasangkan nilai norm query dengan query
setiap dokumen untuk menghasilkan nilai dot
product dan cosine. Setelah nilai cosine
diperoleh, dilakukan pengurutan nilai cosine.
Dokumen yang diambil untuk memasuki
langkah selanjutnya ialah lima dokumen
dengan nilai cosine tertinggi.
Selanjutnya dilakukan pemilihan passage
pada kamus passage yang termasuk dalam
lima dokumen teratas. Hasil pemilihan
passage ini disimpan akan digunakan pada
tahap perolehan top passage.
Perolehan Passages Top Documents
Passage yang digunakan dalam proses
pembobotan ialah passage yang mengandung
tag named entity yang dibutuhkan. Misalnya
“Siapa” yan men acu pada NAME dan
ORGANIZATION, “Di mana” yan men acu
pada LOCATION.
Selanjutnya passage yang disimpan akan
disaring untuk diambil passage yang memiliki
TAG sesuai kata tanya pada query pertanyaan.
Selanjutnya dilakukan pembobotan n-gram
pada passage tersebut.
Ekstraksi dan Pembobotan N-gram pada
Query
Langkah pertama yang dilakukan pada
ekstraksi n-gram ialah dengan mencari bobot
masing-masing perkata (W) pada query
menggunakan pembobotan n-gram term
weight model berdasarkan persamaan 1.
Pembobotan n-gram pada query dihitung
terhadap lima dokumen teratas yang telah

ditemukembalikan. Seba ai contoh,
menteri pertanian Indonesia?”.

“Siapa

Langkah selanjutnya ialah menjumlahkan
keseluruhan bobot tiap n-gram (h)
berdasarkan persamaan 2. Sebagai contoh
hasil perolehan bobot query n-gram dapat
dilihat pada Tabel 4.
Tabel 4 Perolehan bobot query n-gram
n
1
1
1
2
2
3

n-gram word(s)
Menteri
Pertanian
Indonesia
Menteri pertanian
Pertanian Indonesia
Menteri pertanian Indonesia
H

W
0.679
0.541
0.569
1.220
1.110
1.789
6.143

Pembobotan Passage
Pembobotan
terhadap
passage
menggunakan metode n-gram term weight
model, sama seperti pencarian bobot pada ngram query. Langkah yang dilakukan ialah
perhitungan perhitungan bobot kemiripan
antara n-gram query dan n-gram passage
yang dihasilkan oleh sistem. Passage yang
diambil ialah passage yang memiliki nilai
bobot kemiripan yang terbesar. Passage yang
mendapatkan
nilai
tertinggi
akan
dikembalikan sebagai top passage dari query
pertanyaan yang diberikan. Passage yang
diambil ialah passage yang memiliki nilai
bobot kemiripan yang terbesar.
Ekstraksi Jawaban
Proses selanjutnya ialah ekstraksi jawaban
dari top passages yang diperoleh. Passage
yang memiliki bobot tertinggi pada
pembobotan passage menjadi top passage.
Kata yang menjadi kandidat jawaban ialah
kata yang memiliki entitas sesuai dengan kata
tanya pada query pertanyaan. Dalam
perolehan entitas jawaban, yang perlu
diperhatikan ialah top passage dapat terdiri
atas dua passage dan passage dapat memiliki
satu atau lebih kandidat jawaban.
Jawaban akhir setiap passage diperoleh
dengan cara menghitung jarak antara setiap
kandidat jawaban pada setiap passage dan
masing-masing kata. Kandidat jawaban yang
memiliki jarak terpendek dianggap sebagai
jawaban yang paling tepat.
Evaluasi Hasil Percobaan
Tahap evaluasi dilakukan secara objektif
dari segi:

8

1 Pasangan
jawaban
dan
dokumen
(Responsiveness).
2 Ketepatan
untuk setiap jawaban dari
pertanyaan yang diberikan.
Berikut pembahasan
masing percobaan:

untuk

masing-

Hasil Percobaan Untuk Kata Tanya SIAPA
Tampilan antarmuka dapat dilihat pada
Lampiran 1. Berdasarkan sepuluh query
pertanyaan yang diuji, diambil contoh query
Siapa
Asisten
Sekretaris
Daerah
(Assekda) Bidang Kesejahteraan Rakyat
Provinsi DIY? Top passage yang diperoleh

pada penelitian ini:
NUSANTARA
YOGYAKARTA
(Media):
Pertanian
di

Daerah
Istimewa
Yogyakarta
(DIY)

sama
sekali
tidak
terpengaruh
oleh
kekeringan.
Asisten Sekretaris
Daerah
(Assekda)
Bidang
Kesejahteraan
Rakyat
Provinsi
DIY


Bambang
Purnomo

mengatakan
hal
tersebut kepada Media di
Yogyakarta , kemarin.

Top passage di atas diperoleh dari
dokumen
mediaindonesia270803.txt.
Jawaban yang diperoleh dengan menggunakan
pembobotan n-gram adalah Bambang Purnomo
dengan kriteria right.
Pembobotan n-gram term weight model
untuk kata tanya SIAPA menghasilkan
persentase ketepatan jawaban untuk kriteria
right sebesar 90%, wrong 0%, null 10%,
unsupported 0%. Untuk kriteria null,
disebabkan karena tidak ditemukannya
kandidat jawaban pada passage. Daftar query
pertanyaan dan evaluasi untuk kata tanya
SIAPA dapat dilihat pada Lampiran 2. Grafik
hasil percobaan untuk kata tanya SIAPA dapat
dilihat pada Gambar 4.

Hasil Percobaan
KAPAN

Untuk

Kata

Tanya

Pada percobaan untuk kata tanya KAPAN,
diambil contoh query Kapan dilakukan
penelitian di rumah kaca Balittro? Top
passage yang dikembalikan ialah sebagai
berikut:
Untuk itu telah dilakukan penelitian
di rumah kaca Balittro
Bogor pada tahun
1997/1998 dan di lanjutkan
penelitian di lapang di
IP Sukamulya (Sukabumi)
pada tahun 1998/1999 .
Pada percobaan rumah kaca, tujuh
jenis bakteri antagonis baik secara
sendiri-sendiri maupun gabungan yang
diformulasikan dalam suatu pembawa,
yaitu
bakteri
antagonis
P~
fluorescens (PF), P~ cepacia (PC),
Bacillus
(BC),
campuran
PF+PC,
campuran PC+BC, campuran PF+BC, dan
campuran PF+PC+BC diuji di rumah
kaca pada tanaman jahe yang ditanam
pada pot yang berisi tanah bekas
tanaman
tomat
terinfeksi
P~
solanacearum.

Top passage tersebut diperoleh dari
dokumen balaipenelitian000000-009.
Jawaban yang diperoleh dengan menggunakan
pembobotan n-gram adalah 1997/1998
dengan kriteria right.
Pembobotan n-gram term weight model
untuk kata tanya KAPAN menghasilkan
persentase ketepatan jawaban untuk kriteria
right sebesar 80%, wrong 0%, null 20%, dan
unsupported 0%. Untuk kriteria null,
dikarenakan tidak ditemukannya passage
yang sesuai. Daftar query pertanyaan dan
evaluasi untuk kata tanya KAPAN dapat
dilihat pada Lampiran 3. Grafik hasil
percobaan untuk kata tanya KAPAN dapat
dilihat pada Gambar 5.

Gambar 5 Grafik hasil percobaan untuk kata
tanya KAPAN.
Gambar 4 Grafik hasil percobaan untuk kata
tanya SIAPA.

9

Hasil Percobaan Untuk Kata Tanya DI
MANA

Hasil Percobaan
BERAPA

Berdasarkan sepuluh query pertanyaan
yang diuji, diambil contoh query pertanyaan

Pada percobaan untuk kata tanya
BERAPA, diambil contoh query pertanyan

Di
mana
terjadi
kekeringan
dengan
jumlah terbanyak?. Hasil penelitian ini

Berapa
berat

mengembalikan top passage sebagai berikut:
Mereka
yang
terkena
dampak
kekeringan
khususnya
pada
kebutuhan
rumah
tangga
itu
terdapat di wilayah
Kabupaten
Gunungkidul
, Sleman,
dan
Kulonprogo
.
Jumlah yang terkena kekeringan
terbanyak di wilayah
Kabupaten
Gunungkidul
yang mencapai lebih
dari 100 ribu jiwa
.

Top passage tersebut diperoleh dari
dokumen
mediaindonesia270803.txt.
Jawaban yang diperoleh dengan menggunakan
pembobotan n-gram adalah Sleman dan
Kulonprogo dengan kriteria wrong. Top
passage yang dikembalikan sudah benar tetapi
kesalahan terjadi pada pemillihan kandidat
jawaban. Kandidat yang dipilih ialah kandidat
yang memiliki jarak terdekat.
Pembobotan n-gram term weight model
untuk kata tanya DI MANA menghasilkan
persentase ketepatan jawaban untuk kriteria
right sebesar 80%, wrong 20%, null 0%, dan
unsupported 0%. Kriteria wrong disebabkan
oleh kandidat yang dipilih tidak sesuai dengan
jawaban yang benar. Kandidat yang dipilih
adalah kandidat dengan jarak terdekat dengan
query pada passage. Daftar query pertanyaan
dan evaluasi untuk kata tanya DI MANA
dapat dilihat pada Lampiran 4. Grafik hasil
percobaan untuk kata tanya DI MANA dapat
dilihat pada Gambar 6.

harga jual
250
kg?.

Untuk

untuk

Kata

sapi

Top passage
dikembalikan adalah sebagai berikut:

Tanya

dengan

yang

Menurutnya, dengan berat sapi yang
dikembangkan
hingga
rata-rata
250 kg , petani
bisa menjualnya seharga
Rp 3 juta-Rp 4 juta .
"Sementara
harga
standar
yang
ditetapkan

Dinas
Pertanian
,
untuk
pengembalian
bantuan
dana,
ditetapkan sebesar Rp 2,3
juta .

Top passage tersebut diperoleh dari
dokumen gatra230103-002.txt. Jawaban
yang diperoleh dengan menggunakan
pembobotan n-gram adalah Rp 3 juta-Rp 4
juta dengan kriteria right.
Pembobotan n-gram term weight model
untuk kata tanya BERAPA menghasilkan
persentase ketepatan jawaban untuk kriteria
right sebesar 40%, wrong 40%, null 20%, dan
unsupported 0%. Kriteria wrong disebabkan
karena kandidat yang dipilih tidak sesuai
dengan jawaban yang benar. Kandidat yang
dipilih adalah kandidat dengan jarak terdekat
dengan query pada passage, sedangkan untuk
kriteria null, dikarenakan tidak ditemukannya
passage yang sesuai. Daftar query pertanyaan
dan evaluasi untuk kata tanya BERAPA dapat
dilihat pada Lampiran 5. Grafik hasil
percobaan untuk kata tanya BERAPA dapat
dilihat pada Gambar 7.

Gambar 7 Grafik hasil percobaan untuk kata
tanya BERAPA.
Hasil Percobaan Keseluruhan Kata Tanya
Menggunakan Lima Dokumen Teratas
Gambar 6 Grafik hasil percobaan untuk kata
tanya DI MANA.

Persentase jawaban pada pembobotan ngram term weight model secara keseluruhan
untuk semua kata tanya SIAPA, KAPAN, DI

10

MANA, dan BERAPA dapat dilihat pada
Gambar 8. Hasil penelitian dengan
pembobotan n-gram term weight model ini
menghasilkan ketepatan jawaban untuk
masing-masing kata tanya dengan kriteria
right sebesar 72.5%, wrong 15%, null 12.5%,
dan unsupported 0%.

3 Melengkapi n-gram term weight model
dengan penambahan Distance Model pada
pembobotan passage.
4 Perlu dilakukan perbaikan metode
perolehan jawaban secara semantik dengan
POS-Tagging untuk mengidentifikasi jenis
kata.

DAFTAR PUSTAKA
Baeza-Yates R, Ribeiro-Neto B. 1999.
Modern Information Retrieval. New York.
ACM Press.

Gambar 8 Grafik hasil percobaan untuk
semua kata tanya.

KESIMPULAN DAN SARAN
Kesimpulan
Hasil penelitian menunjukkan metode ngram
Term
Weight
Model
dapat
diimplementasikan
dalam
pembobotan
passage
dalam
QAS
dan
dapat
menemukembalikan
passage
yang
mengandung kandidat jawaban benar dengan
akurasi yang cukup tinggi, yaitu 72.5% secara
keseluruhan dari semua kata tanya SIAPA,
KAPAN, DI MANA, dan BERAPA. Semakin
mirip struktur query dengan kalimat yang ada
pada passage maka kemungkinan jawaban
yang benar diperoleh dari passage tersebut
akan semakin besar. Pemilihan kandidat
jawaban menggunakan rataan jarak terpendek
namun kandidat jawaban dengan rataan jarak
terpendek belum tentu memiliki jawaban yang
benar.
Saran
Untuk penelitian selanjutnya yang terkait
dengan question answering system dengan
metode n-gram term weight model disarankan
untuk melakukan penelitian dengan:
1 Perbaikan pada proses ekstraksi jawaban
dengan menggunakan metode ekstraksi
jawaban yang lain misalnya metode yang
digunakan oleh Murata et al. (2005).
2 Menggunakan metode lain dalam proses
indexing agar kinerja pencarian diperoleh
lebih cepat.

Ballesteros LA, Li X. 2007. Heuristic and
syntactic for cross-language question
answering. Di dalam: Proceedings of
NTCIR-6 Workshop Meeting. Tokyo, 1518 Mei 2007. Tokyo: Computer Science
Departement, Mount Holyoke College.
hlm 230-233.
Buscaldi D, Sanchis E, Gómez JM, Rosso P,
Soriano. 2009. Answering question with ngram based passage retrieval engine.
Intelligent Information System 34:113-134.
Chaudhuri BB, Mitra M, Majumder P. 2002.
N-gram: a language independent approach
to IR and NLP. Di dalam: International
conference on universal knowledge and
language. Goa, India. 25-29 November
2002.
Cidhy DATK. 2009. Implementasi question
answering system dengan pembobotan
heuristic [skripsi]. Bogor: Fakultas
Matematika dan Ilmu Pengetahuan Alam,
Institut Pertanian Bogor.
Citraningputra P. 2009. Entitas tagging untuk
dokumen
berbahasa
indonesia
menggunakan metode berbasis aturan
[skripsi]. Bogor: Fakultas Matematika dan
Ilmu Pengetahuan Alam, Institut Pertanian
Bogor.
Manning CD, Raghavan P, Schütze H. 2008.
Introduction to Information Retrieval.
Cambridge: Cambridge University Press.
Murata M, Utiyama M, Isahara H. 2005. Use
of multiple documents as evidence with
decreased adding in japanese question
answering system. Journal of Natural
Language Processing 12(2): 209-247.

11

Najibullah A. 2011. Implementasi n-gram
dalam pencarian teks sebagai penunjang
aplikasi perpustakaan kitab berbahasa
Arab [skripsi]. Surabaya: Fakultas
Teknologi Informasi, Institut Teknologi
Sepuluh Nopember.
Rahmawan F. 2012. Implementasi question
answering
system
pada
dokumen
berbahasa indonesia menggunakan n-gram
[skripsi]. Bogor: Fakultas Matematika dan
Ilmu Pengetahuan Alam, Institut Pertanian
Bogor.

Sanur SA. 2011. Pemilihan passage dalam
question answering system
untuk
dokumen berbahasa Indonesia [skripsi].
Bogor: Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian
Bogor.

12

LAMPIRAN

13

Lampiran 1 Antarmuka implementasi

14

Lampiran 2 Hasil percobaan untuk kata tanya „SIAPA‟
Query

No

Jawaban

Keterangan

1

Siapa Asisten Sekretaris Daerah (Assekda)
Bidang Kesejahteraan Rakyat Provinsi
DIY?

Bambang Purnomo

R

2

Siapa Bambang Purnomo?

Asisten Sekretaris Daerah Assekda
Bidang Kesejahteraan Rakyat

R

3

Siapa Juru Bicara Departemen Luar Negeri
Republik Indonesia?

Marty Natalegawa

R

4

Siapa Marty Natalegawa?

Juru Bicara Departemen Luar
Negeri Republik Indonesia

R

5

Siapa menteri pertanian?

Bungaran Saragih

R

6

Siapa yang bekerja sama dengan Unibraw
untuk menangani pasca panen ikan?

lembaga kimia nasional

R

7

Siapa Ketua Umum Dewan Pimpinan Pusat
Himpunan Alumni Institut Pertanian Bogor?

Muwardi P Simatupang

R

8

Siapa Prof. Dr Ir Naik Sinukaban MSc

Null

N

9

Siapa Bungaran Saragih?

Menteri Pertanian

R

10

Siapa menghasilkan penelitian tentang budi
daya pisang dengan kultur jaringan?

Unibraw

Keterangan R: Right

W: Wrong

N: Null

U: Unsupported

R

15

Lampiran 3 Hasil percobaan untuk kata tanya „KAPAN‟
Query

No

Jawaban

Keterangan

1

Kapan dilakukan penelitian di rumah kaca Balittro?

1997/1998

R

2

Kapan Malaysia menyatakan akan menindak tegas para
pekerja asing?

Null

N

3

Kapan Bungaran Saragih menyatakan kelangkaan pupuk
diakibatkan adanya penyebaran yang terjadi secara
sporadic?

Null

N

4

Kapan diadakan semiloka pengelolaan ekosistem pesisir?

31 Juli 2002

R

5

Kapan dilakukan Penelitian secara on-farm adaptif pada dua
lokasi di desa Nepo Kecamatan Mallusetasi, kabupaten
Barru?

Agustus sampai
nopember 2000

R

6

Kapan pengaruh isu pertanian, kenaikan harga pangan,
mempengaruhi sejarah Indonesia?

1965

R

7

Kapan perkenalan Warno dengan cacing?

1998

R

8

Kapan WTO RIO DE JANERIO 20 negara dilaksanakan?

10-14 September
2003

R

9

Kapan diadakan semiloka Pengembangan Kawasan Pantai
sebagai alternative akselerator pembangunan daerah?

31-Jul-02

R

10

Kapan dilaksanakan Konpernas Ekonomi Pertanian XIV
dan Kongres XIII?

senin 17/5

R

Keterangan R: Right

W: Wrong

N: Null

U: Unsupported

16

Lampiran 4 Hasil percobaan untuk kata tanya „DI MANA‟
No

Query

1

Di mana terjadi kekeringan dengan jumlah terbanyak?

Kulonprogo

2

Di mana dilakukan pengembangan tanaman jahe gajah
secara besar-besaran?

Kabupaten
Lebong

3

Di mana dilakukan peresmian Pencanangan Gerakan
Tambahan Dua Juta Ton Jagung (Gentataton)?

Dunggalan,Tibawa,
Gorontalo

R

4

Di mana Bureau of Animal and Plant Health
Inspection and Quarantine (BAPHIQ)?

Taiwan

R

5

Di mana Peter Allgeire menjadi deputi perwakilan
dagang?

AS

R

6

Di mana kegiatan bongkar muat beras import
dilakukan?

Pelabuhan
Tanjung
Perak Surabaya

R

7

Di mana pengolahan sagu skala industry berkembang?

Maluku

R

8

Di mana unsure N diyakini sebagai kunci utama
peningkatan produksi padi?

Sulawesi Selatan

R

9

Di mana terjadi masalah sempitnya lahan pertanian,
inefisiensi, produktivitas rendah, dan fluktuasi harga
produk pertanian?

Indonesia

R

10

Di mana terjadi
tembakau?

Perkebunan Inti Rakyat

W

Keterangan R: Right

penurunan

W: Wrong

Jawaban

produksi tanaman

N: Null

U: Unsupported

Keterangan
W
Rejang

R

17

Lampiran 5 Hasil percobaan untuk kata tanya „BERAPA‟
Query

No

Jawaban

Keterangan

1

Berapa harga jual untuk sapi dengan berat 250 kg?

Rp 3 juta-Rp 4
juta

R

2

Berapa harga pemesanan kursi Rafles?

Rp 275 ribu/unit

R

3

Berapa luas Kalimantan Timur?

24.5 juta hektar

R

4

Berapa luas areal sagu Malaysia?

51.3%

W

5

Berapa usia panen pertama kali lengkeng?

Null

N

6

Berapa luas areal sagu dunia?

51.3%

W

7

Berapa harga beras dalam negri antara bulan Juni-Juli?

Null

N

8

Berapa luas areal sagu Indonesia?

1 128 juta ha

R

9

Berapa jumlah penduduk China?

210 juta

W

10

Berapa luas wilayah yang ditanami tanaman padi di
Kalimantan Timur?

24.5 juta hektar

Keterangan R: Right

W: Wrong

N: Null

U: Unsupported

W