10
Array [0] = Array
[27]=[NAME]Ir.H.Badaruddin[NAME] [32]=[NAME]Thamrin Nor[NAME]
[1] = Array [0]=[ORGANIZATION]Pemprov
Kalteng[ORGANIZATION] [33]=[ORGANIZATION]Pemkab
Kobar[ORGANIZATION] [68]=[NAME]Ir.H.Badaruddin[NAME]
[73]=[NAME]ThamrinNor[NAME]
……………………………
Gambar 15 Kandidat jawaban padan passageteratas
10. Perolehan Entitas Jawaban
Untuk mendapatkan entitas jawaban dilakukan perhitungan terhadap jarak antara
kata pada npassage teratas yang sesuai dengan query dengan kata yang merupakan
kandidat jawaban. Setelah diperoleh bobot atau jarak dari masing-masing kandidat pada
setiap passage, diambil kandidat-kandidat jawaban dengan jarak yang memiliki bobot
kurang dari threshold yang sudah ditetapkan.
Berikut contoh perhitungan jarak kandidat jawaban pada passage yang berada
pada urutan pertama untuk query“Siapa saja pejabat yang menjadi tersangka kasus ilegal
logging? ”.
Tabel 2menunjukkan indeks kandidat jawaban dalam passageyang disimpan dalam
variabel arrayCandidatKey sementara pada Tabel 3 menunjukkan perolehan indeks hasil
wordmatch antara kata-kata pada passage dengan kata-kata pada queryyang disimpan
dalam variabelarrayKey,.Pada tabel 4 berisi perolehan nilai atau bobot jarak untuk
masing-masing kandidat jawaban yang disimpan dalam variabel avrg.Implementasi
perhitungan jarak dapat dilihat pada Gambar 16.
Bobot jarak yang kurang dari thresholdakan menjadi entitas jawaban
terakhir. Threshold yang digunakan dalam penelitian ini adalah 25 dan 50 dari
passage yang berada pada n passage teratas dan memiliki panjang terbesar.
Tabel 2 Perolehan indeks kandidat jawaban
Value Index
Ir.H.Badaruddin 27
Thamrin Nor 32
Tabel 3 Perolehan indeks hasil wordmatch
Value Index
pejabat 16
tersangka 18
kasus 19
ilegal 20
logging 21
kasus 43
logging 45
Tabel 4 Bobot jarak kandidat jawaban
Value Index
Ir.H.Badaruddin 15
Thamrin Nor 18
11. Evaluasi Question Answering System
Dalam tahapan evaluasi digunakan 40 query berupa kalimat tanya. Query dibuat
secara manual oleh penulis. Query tersebut mewakili tipe pertanyaan siapa, kapan,
dimana dan berapa. Evaluasi sistem pada penelitian ini dialokasikan 20 query bersifat
list dan 20 query bersifat factoid.
Pada Tabel 6 dan Tabel 8 dapat dilihat persentase perolehan untuk masing-masing
jenis pertanyaan baik yang bersifat factoid maupun pertanyaan yang bersifat list.Nilai
terbesar untuk masing-masing pertanyaan yaitu kata tanya “Siapa” memperoleh nilai
benar 26, “Dimana” memperoleh nilai 36.33, “Kapan” memperoleh nilai 70 dan
“Berapa” memperoleh nilai 41. Nilai terbesar untuk setiap pertanyaan diperoleh
dari 10 passage teratas dengan threshold 50 kecuali pertanyaan “Berapa”
mendapatkan nilai terbesar 41 pada saat menggunakan passage teratas paling banyak
10 dan threshold sebesar 25.
11
fori=0;itop_passages;i++ {
ifarray_key_existsi, arrayCandidatKey
array_key_existsi, arrayKey{
foreacharrayCandidatKey[i] as key=value{foreach
arrayKey[i]as key2=value2{distance[i][
value][value2]=abskey- key2;
totdis[i][value]+=distance [i][value][value2];
avrg[i][value]= totdis[i][value]count
query; }
} }
Gambar 16 Implementasi perhitungan bobot jarak
Perbandingan dokumen yang ditemukembalikan dapat dilihat pada Tabel 5.
Perbandingan Collection Page untuk semua jumlah n passages teratas dan threshold
selalu lebih besar dari Topic Page. Hal inimenunjukkan bahwa entitas jawaban yang
ditemukembalikan dari dokumen yang sama lebih mudah dibandingkan mendapatkan
entitas jawaban dari dokumen yang berbeda- beda. Mengacu pada tabel yang sama, sistem
QA banyak mengembalikan entitas yang tidak relevan pada saat passages teratas yang
diambil paling banyak 20 dan threshold 50 yaitu 50 dari 20 pertanyaan mendapat nilai
wrong.
Tabel 7 merupakan contoh dari dokumentasi dan penilaian yang mewakili
tiap kasus pada proses penemukembalian entitas jawaban, sedangkan untuk
dokumentasi lengkap dapat dilihat pada Lampiran 1 sampai dengan Lampiran 4 untuk
tiap-tiap jenis pertanyaan.
Tabel 5 Persentase perbandingan nilai right, wrong dan null untuk 20 pertanyaan dan perbandingan sumber dokumen dari entitas jawaban yang ditemukembalikan
Passages Threshold
Right Wrong Null
Collection Page Topic Page
2050 35 15 50
- 2025 35
20 40 5
1050 55 25 20
- 1025 50
20 25 5
Tabel 6 Persentase perolehan jawaban query factoid
Kata Tanya
Right Unsupported Wrong
Siapa 80 0 20 Berapa 60 0 40
Dimana 80 20
Kapan 100 0 Mengacu pada Tabel 7 pertanyaan
nomor 1 memperoleh nilai benar karena jawaban yang ditemukembalikan oleh sistem
QAsama seperti jawaban yang ditentukan penulis sebelumnya. Untuk pertanyaan nomor
2 sistem memperoleh nilai NULL karena QA tidak mengembalikan entitas jawaban
apapun.Hal ini terjadi karena semua kandidat jawaban mendapat bobot jarak melebihi
threshold yang telah ditentukan. Gambar 13 menunjukkan bobotpassage yang diperoleh
pada pertanyaan nomor 2 dan threshold yang digunakan pada pertanyaan ini adalah 15.25.
12 Contoh kasus terakhir, pertanyaan
memperoleh nilai salah. Sistem QA pada kasus ini mengembalikan jawaban, namun
tidak ada jawaban yang tepat dengan jawaban yang telah ditentukan sebelumnya.
12.
Kelebihan dan Kelemahan Sistem
Kelebihan dari Question Answering System yang telah dibangun adalah sistem
dapat menemukembalikan jawaban dalam bentuk list.
Sistem ini memiliki kelemahan berikut : Pemberian tag pada kandidat jawaban
menggunakan aplikasi tagging, sehingga tag pada dokumen tidak sempurna yang
mengakibatkan entitas jawaban yang ditemukembalikan tidak sempurna.
Banyak entitas jawaban yang ditemukembalikan namun tidak relevan
sehingga entitas jawaban benar mendapat pengurangan nilai.
Tidak dilakukan pengkajian semantic dalam penelitian ini. Contohnya adalah
makna yang terdapat dalam hubungan antar kata dan struktur kalimat dalam
suatu passage.
Jawaban yang diperoleh bukan informasi terkini karena tidak ada waktu yang
menunjukkan kapan informasi atau berita dibuat.
KESIMPULAN DAN SARAN
Kesimpulan Kesimpulan dari penelitian ini adalah :
1. Pembobotan yang paling berpengaruh
pada penelitian ini adalah pembobotan berdasarkan hasil pencocokan kata antara
passage dengan kata-kata query. 2.
Nilai terbesar untuk pertanyaan “Siapa”, “Dimana” dan “Kapan” menggunakan
passage teratas paling banyak 10 dan threshold sebesar50 .
3. Entitas jawaban bersifat list dapat berasal
dari dokumen yang sama atau kumpulan entitas jawaban dari dokumen yang
berbeda-beda. 4.
Collection page merupakan sumber dokumen yang lebih baik digunakan
daripada distinct topic page.
Array [0] = Array
[docno] = situshijau.txt [text] = Oktober
[score] = 21.5 [1] = Array
[docno] = situshijau.txt [text] = Agustus-Januari
[score] = 21.5 [2] = Array
[docno] = suarapembar.txt [text] = E-2001
[score] = 33.5
Gambar 17 Bobot jarak entitas jawaban Saran
Penelitian ini perlu disempurnakan dengan :
1. Melakukan pengkajian semanticuntuk
melengkapi pembobotan heuristic dengan pembobotan syntactic.
2. Menambahkan atributtimestamp
sehingga entitas jawaban yang ditemukembalikan merupakan
informasiterkini. 3.
Melakukan analisisthreshold dan menentukan banyaknya kandidat
jawaban yang akan dijadikan entitas jawaban akhir.
4. Menambahkan kata tanya sehingga kata
tanya yang digunakan tidak terbatas hanya pada kata tanya baku.
13 Tabel 7 Contoh dokumentasi pertanyaan dengan menggunakan 10 top passages dan threshold
25
No. Pertanyaan Jawaban
QAS BENAR
SALAH
1. Siapa saja pejabat
yang menjadi tersangka kasus
ilegal logging? Ir.H.Badaruddin
- suarakarya000000-
016.txt Thamrin Nor
-
suarakarya000000- 016.txt
TNI dari dokumen : suarakarya000000-016.txt
Pemkab Kobar- suarakarya000000-016.txt
Pemprov Kalteng- suarakarya000000-016.txt
Megawati- suarakarya000000-016.txt
Ir.H.Badaruddin
-
suarakarya000000-016.txt Thamrin Nor
-
suarakarya000000-016.txt
BENAR 60
CP
2. Kapan saja panen
mete dilakukan? Agustus
-Januari -
situshijau230603- 001.txt
Oktober -
situshijau 23060300-001.txt
NULL -
3. Dimana saja
budidaya pertanian organik dilakukan?
Sleman –suarape
mbaruan090202.tx Jember -
kompas 030502-002.txt
Yogyakarta
- kompas030502-
002.txt Paguyuban Satyagraha
Lestari - kompas030502- 002.txt
Jakarta-kompas030502- 002.txt
Tanah Air- kompas081203.txt
SALAH
Tabel 8 Perolehan rata-rata untuk pertanyaan yang bernilaibenar untuk setiap jenis kata tanyalist
Kata Tanya 20
Top Passages 10
Top Passages 50
Threshold 25 Threshold 50
Threshold 25 Threshold
Siapa 26.00
22.00 26.00
22.00
Dimana
29.00 16.33
36.33 20.33
Kapan 28.00
16.00 70.00
45.33
Berapa 10.00
16.00 30.00
39.00
DAFTAR PUSTAKA
Anggraeni M. 2007. Implementasi Question Answering System dengan Metode Rule-
Based Pada Terjemahan Al-Qurr’an Surat Al-baqarah [skripsi]. Bogor. Fakultas
Matematika dan Ilmu Pengetahuan Alam.Institut Pertanian Bogor.
Baeza-Yates R, Ribeiro-Neto B. 1999.Modern Information
Retrieval.Addison-Wesley. Ballessteros, L. A dan Xiaoyan-Li.
2007.Heuristic and Syantatic for Cross- Languange Question Answering.
Cidhy. 2009. . Implementasi Question Answering System dengan Pemboobtan
Heuristic. [skripsi]. Bogor. Fakultas Matematika dan Ilmu Pengetahuan
Alam.Institut Pertanian Bogor.
Citraningputra. 2009. Named Entity Tagging untuk Dokumen Berbahasa Indonesia
Menggunakan Metode Berbabsis Aturan [skripsi]. Bogor. Fakultas Matematika dan
14 Ilmu Pengetahuan Alam.Institut Pertanian
Bogor. Harabagiu.M. dan Marius A. Pasca. 2000.
Experiment whit Open-Domain Textual Question Answering.
Herdi. 2010 Pembobotan Dalam Proses Pengindeksan Dokumen Bahasa Indonesia
Menggunakan Framework Indri [skripsi]. Bogor.Fakultas Matematika dan Ilmu
Pengetahuan Alam.Institut Pertanian Bogor.
Ikhsani N. 2006. Implementasi Question Answering System dengan Metode Rule-
Based untuk Temu Kembali Informasi Dokumen Berbahasa Indonesia [skripsi].
Bogor. Fakultas Matematika dan Ilmu Pengetahuan Alam.Institut Pertanian
Bogor.
Kartina. 2010. Analisis Pertanyaan untuk Question Answering System pada Dokumen
Berbahasa Indonesia . [skripsi]. Bogor. Fakultas Matematika dan Ilmu
Pengetahuan Alam.Institut Pertanian Bogor.
Lin J. 2004. Introduction to Information Retrieval and Question Answering. College
of Information Studies University of Maryland.
Molla. 2003. Towards Semantic-Based Overlap Measures for Question Answering.
Sianturi R. 2008. Implementasi Question Answering System dengan Metode Rule-
Based untuk Temu Kembali Informasi pada Bnayak Dokumen Berbahasa Indonesia
[skripsi]. Bogor. Fakultas Matematika dan Ilmu Pengetahuan Alam.Institut Pertanian
Bogor.
Yang,et all. 2004. Web-Based List Question Answering.
LAMPIRAN
16 Lampiran 1Hasil pengujian kata tanyaSIAPA
No. Pertanyaan Jawaban
20 Top Passages 10
Top Passages 50
Threshold 25
Threshold 50
Threshold 25
Threshold
1 Siapa saja pejabat yang menjadi tersangka
kasus ilegal logging? Ir.H.Badaruddin - suarakarya000000-
016.txt Thamrin Nor -suarakarya000000-016.txt
60 60 60 60 2
Siapa saja pihak yang mengawasi pemasukan bahan asal hewan impor?
Bea Cukai - suarakarya000000-004.txt Badan POM- suarakarya000000-004.txt
30 10 30 10 3
Siapa saja anggota dari kelompok kerja penyidik penyakit unggas nasional?
Balai Penelitian Veteriner Bogor - gatra300104.txt
Balai Pengujian Mutu dan Sertifikasi Obat Hewan -gatra300104.txt
Fakultas Kedokteran Hewan UGM - gatra300104.txt
Institut Pertanian Bogor - gatra300104.txt
Universitas Airlangga - gatra300104.txt 40 40 40 40
4 Siapa saja pengamat pertanian di Indonesia?
Tejo Pramono- suarapembaruan010903.txt,
Bayu Krisnamurti - mediaindonesia180504.txt
SALAH SALAH SALAH SALAH
5 Siapa saja pihak yang impor gula kristal?
PT Perkebunan Negara - republika150604-002.txt
PT Rajawali Nusantara Indonesia - republika150604-002.txt
Perusahaan Perdagangan Indonesia - republika150604-002.txt
PTPN X - republika150604-002.txt PTPN XI - republika150604-002.txt
PTPN - republika150604-002.txt SALAH SALAH SALAH SALAH
Avr Right 26
22 26
22
17 Lampiran 2 Hasil pengujiankata tanya DIMANA
No. Pertanyaan Jawaban
20 Top Passages 10
Top Passages 50
Threshold 25
Threshold 50
Threshold 25
Threshold
1 Dimana saja praktek illegal logging sering
terjadi? Kalimantan Tengah -
suarakarya000000-016.txt Tanjung Putting - suarakarya000000-
016.txt TNTP - suarakarya000000-016.txt
70 36.67 70 36.67
2 Dimana saja budidaya pertanian organik
dilakukan? Sleman - suarapembaruan090202.tx
Jember - kompas030502-002.txt Yogyakarta - kompas030502-002.txt
SALAH SALAH 16.67 SALAH 3
Dimana saja kota yang menjadi industri kulit? Kabupaten Garut -
suarapembaruan111202.tx Sukaregang -suarapembaruan111202.txt
Magetan - situshijau290403-004.txt Yogyakarta - situshijau290403-004.txt
SALAH SALAH SALAH SALAH
4 Dimana saja terminal agrobisnis?
Jakarta - suarakarya000000-003.txt Tangerang - suarakarya000000-003.txt
Depok - suarakarya000000-003.txt Bekasi- suarakarya000000-003.txt
Bandungan - suaramerdeka240204.txt 70 10 70 10
5 Dimana saja varietas kapas kanesia berada?
Nusa Tenggara Barat - situshijau270703-004.txt
Sulawesi Selatan - suarapembaruan290802-001.txt
Malang - situshijau270703-004.txt Lamongan - suarapembaruan290802-
001.txt 5 35 25 55
Avr Right 29
16.33 36.33
20.33
18 Lampiran 3 Hasil pengujian kata tanya KAPAN
No. Pertanyaan Jawaban
20 Top Passages 10
Top Passages 50
Threshold 25
Threshold 50
Threshold 25
Threshold
1 Kapan saja musim hujan di Indonesia
dimulai? Oktober - republika231202-001.txt
Januari - republika231202-001.txt Desember - suarapembaruan150903.txt
20 30 50 46.67
2 Kapan saja panen mete dilakukan?
Agustus-Januari - situshijau230603- 001.txt
Oktober - situshijau230603-001.txt 100 NULL 100 NULL
3 Kapan saja musim panen besar kopi?
Mei - pikiranrakyat240404.txt juli - pikiranrakyat240404.txt
September - wartapenelitian000000- 004.txt
oktober -pikiranrakyat240404.txt SALAH SALAH 40
40
4 Kapan saja sensus pertanian yang sudah
dilakukan? 1963 - kompas020803.txt
1983 - kompas220399.txt 1993 - republika030304.txt
2003 - kompas020803.txt 20 30 90 50
5 Kapan saja impor komoditas pertanian
naik? 2002 - kompas311203.txt
2003 - kompas311203.txt SALAH 20 70 90
Avr Right
28 16
70 45.33
19 Lampiran 4 Hasil pengujian kata tanya BERAPA
No. Pertanyaan Jawaban
20 Top Passages 10
Top Passages 50
Threshold 25
Threshold 50
Threshold 25
Threshold
1 Berapa saja harga gabah kering giling?
Rp 1.700 - republika060804-003.txt Rp 1.200 - republika060804-003.txt
Rp 1.230 -suarakarya000000-007.txt Rp 1.275 - situshijau280404-002.txt
Rp 1.900 - kompas170402.txt SALAH SALAH 30
40
2 Berapa saja harga buah merah?
Rp 2.000kg - situshijau270703-002.txt 3000 - situshijau270703-002.txt
Rp25.000kg - situshijau130203-002.txt Rp 75.000 - situshijau130203-002.txt
SALAH 30 50 55
3 Berapa saja harga jual kopi per kg?
Rp 1.100 - kompas140802.txt Rp 1.200,00 - pikiranrakyat240404.txt
Rp 1.000 -kompas140802.txt SALAH SALAH SALAH SALAH
4 Berapa saja harga bawangmerah pada musim
kemarau? Rp 6.000 - situshijau180603-001.txt
Rp 7.000 - situshijau180603-001.txt Rp 4.000 - situshijau180603-001.txt
Rp 4.500 - situshijau180603-001.txt 50 50 50 60
5 Berapa saja harga urea di tingkat kecamatan?
Rp 1.140kg - suaramerdeka161101.txt Rp 1.120kg - suaramerdeka161101.txt
Rp 1.500kg- suaramerdeka161101.txt Rp 1.070kg - suaramerdeka161101.txt
Rp 1.080kg - suaramerdeka161101.txt SALAH SALAH 20
40
Avr Right 10
16 30
39
20 Lampiran 5 Fungsi pembobotan passage
function scoreThresholdarrayAllPassage{ threshold
= this-getThreshold;
wordQuestion = this-getWordQuestion; arrayWordMatch = array;
index = 0; ifarrayAllPassage{
foreacharrayAllPassage as allPassages{ count = 0;
foreachallPassages as wordPassage{ ifin_arraystrtolowerwordPassage,wordQuestion{
count++; }
} arrayWordMatch[index] = count;
index++; }
} this-arrayCountMatch=arrayWordMatch;
n = sizeofarrayWordMatch; index = 0;
forindex = 0; indexn; index++{ ifarrayWordMatch[index] = threshold{
do nothing
} else
arrayWordMatch[index] = 0; }
return arrayWordMatch;
}
21 Lanjutan Lampiran 6 Fungsi pembobotan passage
function scoreInSentencearrayAllPassage{ wordQuestion = this-getWordQuestion;
index = 0; arrayInSentence = array;
ifarrayAllPassage{ foreacharrayAllPassage as passage{
duaKalimat=preg_split[.?]+[\s]+,strtolower this-myStripTagpassage;
score = 1; score_1=1;
kalimatPertama=preg_split[\.,?\s], strtolowerduaKalimat[0];
foreachwordQuestion as word{ ifin_arrayword,
kalimatPertama score_1
= score_10;
} ifscore_1==0{
kalimatKedua=preg_split[\.,?\s], strtolowerduaKalimat[1];
foreachwordQuestion as word{ ifin_arrayword,
kalimatKedua score
= score0;
} }
arrayInSentence[index++] =
score; }
} n = sizeofarrayInSentence;
i = 0; fori=0; in; i++{
ifarrayInSentence[i] = 0 arrayInSentence[i]
= arrayInSentence[i]0.5;
} return
arrayInSentence; }
22 LanjutanLampiran 7 Fungsi pembobotan passage
function ScoreInOrderedarrayAllPassage{ arrayScoreOrder = array;
index = 0; echo pre; print_rarrayAllPassage; exit;
ifarrayAllPassage{ foreacharrayAllPassage as passage{
echo passage.hr
; arrayScoreOrder[index++]
= this-
countScoreOrderpassage, this-question; }
} return arrayScoreOrder;
} function scoreWindow2{
this-SCORE_WINDOW=array; max=maxthis-arrayCountMatch;
pembagi=this-PembagiWindowmax; foreachthis-arrayCountMatch as value{
this-SCORE_WINDOW[]=valuepembagi; }
}
23
ABSTRACT AGUS UMRIADI
. Implementation of Question Answering System for Document in Bahasa
Indonesia with List Question.Under direction of JULIO ADISANTOSO.
In the last few years, many studies of Question Answering System QAS have been conducted by a number of research groups around the world. Lately, a question is not only
presented in the form of factoid questions, but also as a list questions where a question requires more than a single-entity of answer. However, recent development on QAS can only accommodate
factoid questions which only require a single-entitys answer. To address this issue, the purpose of this research is to implement QAS for list questions. In order to obtain candidate of answers,
heuristic weighting is performed in the passage which is contained on the top n documents. One thousand documents and 40 queries are used in the experiment. The best results of experiment
show correctness of 26, 39, 36.33 and 70 for “who”, “how manymuch”, “where” and “when” list questions, respectively.
Keywords : QAS, List Question, Question Answering System.
1
PENDAHULUAN Latar Belakang
Sistem temu kembali informasi memiliki kaitan yang sangat erat dengan sistem
pencariansearchengine.Untuk memperoleh suatu informasi sistem pencarian
membutuhkan masukan yang dikenal dengan query yang biasanya berbentuk kata kunci.
Saat ini sudah dikembangkan sistem pencarian menggunakan pertanyaan sebagai
query yang dikenal dengan Question Answering SystemQAS.
Dengan menggunakan pertanyaan sebagai query
diharapkan informasi yang diperoleh oleh pengguna selain relevan juga lebih spesifik.
Ballesteros dan Xiayoan-Li 2007 mengimplementasikan Question Answering
yang digunakan untuk monolingual English dan Chinesse. Dalam mengembalikan kalimat
jawaban atau informasi yang relevan, pemberian skor pada koleksi dokumen secara
heuristic dan bergantung pada syntactic factor yang didefinisikan sebagai aturan-
aturan untuk mengidentifikasi kandidat kalimat relevan atau kalimat jawaban.
Hui Yang dan Tat-Seng Chua 2004 mengimplementasikan
Web-Based List Question Answeringdimana kandidat jawaban
diperoleh dari dua sumber utama yaitu collection pages dandistinct
topic.Ikhsani2006 telah mengimplementasikan QAS untuk
menemukan jawaban dari query pertanyaan hanya dengan menggunakan satu dokumen
bacaan yang menggunakan kalimat baku.
Anggraeini 2007 menyusun QAS untuk surat Al-Baqarah yang terdiri atas beberapa
ayat sebagai dokumen. Sianturi 2008 menyempurnakan penelitian Ikhsani 2006
dengan menggunakan metode Rule-Based pada banyak dokumen bahasa
Indonesia.Selanjutnya, Cidhy 2009mengimplementasikan
Question Answering System dengan pembobotan
heuristic dan Panggudi 2009 membuatNamed Entity Taggeruntuk
dokumen bahasa Indonesia menggunakan metode berbasis aturan. Kartina 2010
menganalisis pertanyaan untukQuestion Answering System pada dokumen bahasa
Indonesia dan Herdi 2010 menggunakan framework
INDRI untuk melakukan pembobotan dalam proses
pengindeksandokumen bahasa Indonesia. Semua QAS yang telah dikembangkan
hanya dapat mengakomodasi pertanyaan bersifat
factoid.Pertanyaan ini hanya membutuhkan satu entitas jawaban.Penelitian
ini mengimplementasikan QAS dengan jenis pertanyaan bersifatlistyang dapat
menghasilkan banyak jawaban. Tujuan
Tujuan dari penelitian ini adalah mengimplementasikan sistem temu kembali
informasi Question Answering System menggunakan query pertanyaan bersifat list
untuk dokumen bahasa Indonesia. Ruang Lingkup
Ruang lingkup penelitian ini adalah : 1.
Korpus dokumen bahasa Indonesia dan kata tanya yaitu siapa, dimana, kapan, dan
berapa. 2.
Pasangan pertanyaan dan jawaban sudah ditentukan oleh penulis dari koleksi
dokumen yang ada.
TINJAUAN PUSTAKA Temu Kembali Informasi
Temu kembali informasi berkaitan dengan merepresentasi, menyimpan, mengorganisasi,
dan mengakses informasi.Merepresentasi dan mengorganisasi suatu informasi harus
membuat pengguna lebih mudah dalam mengakses informasi yang
diinginkannya.Dalam pencarian suatu informasi pengguna harus menerjemahkan
kebutuhan informasinya dalam bentuk query. Berdasarkan query tersebut, sistem temu
kembali informasi akan mengembalikan informasi yang relevan dengan query yang
diberikan oleh pengguna Baeza-Yates Ribeiro-Neto 1999.
Question Answering
Question Answering system merupakan aplikasi yang menggabungkan
konsepInformation Retrieval IR dengan Natural Languange Processing NLP.
Perbedaan mendasar antara QA dan IR terletak pada masukan query dan keluaran
yang dihasilkan.Query yang dimasukkan pada IR berupa kata atau kalimat pernyataan dan
1
PENDAHULUAN Latar Belakang
Sistem temu kembali informasi memiliki kaitan yang sangat erat dengan sistem
pencariansearchengine.Untuk memperoleh suatu informasi sistem pencarian
membutuhkan masukan yang dikenal dengan query yang biasanya berbentuk kata kunci.
Saat ini sudah dikembangkan sistem pencarian menggunakan pertanyaan sebagai
query yang dikenal dengan Question Answering SystemQAS.
Dengan menggunakan pertanyaan sebagai query
diharapkan informasi yang diperoleh oleh pengguna selain relevan juga lebih spesifik.
Ballesteros dan Xiayoan-Li 2007 mengimplementasikan Question Answering
yang digunakan untuk monolingual English dan Chinesse. Dalam mengembalikan kalimat
jawaban atau informasi yang relevan, pemberian skor pada koleksi dokumen secara
heuristic dan bergantung pada syntactic factor yang didefinisikan sebagai aturan-
aturan untuk mengidentifikasi kandidat kalimat relevan atau kalimat jawaban.
Hui Yang dan Tat-Seng Chua 2004 mengimplementasikan
Web-Based List Question Answeringdimana kandidat jawaban
diperoleh dari dua sumber utama yaitu collection pages dandistinct
topic.Ikhsani2006 telah mengimplementasikan QAS untuk
menemukan jawaban dari query pertanyaan hanya dengan menggunakan satu dokumen
bacaan yang menggunakan kalimat baku.
Anggraeini 2007 menyusun QAS untuk surat Al-Baqarah yang terdiri atas beberapa
ayat sebagai dokumen. Sianturi 2008 menyempurnakan penelitian Ikhsani 2006
dengan menggunakan metode Rule-Based pada banyak dokumen bahasa
Indonesia.Selanjutnya, Cidhy 2009mengimplementasikan
Question Answering System dengan pembobotan
heuristic dan Panggudi 2009 membuatNamed Entity Taggeruntuk
dokumen bahasa Indonesia menggunakan metode berbasis aturan. Kartina 2010
menganalisis pertanyaan untukQuestion Answering System pada dokumen bahasa
Indonesia dan Herdi 2010 menggunakan framework
INDRI untuk melakukan pembobotan dalam proses
pengindeksandokumen bahasa Indonesia. Semua QAS yang telah dikembangkan
hanya dapat mengakomodasi pertanyaan bersifat
factoid.Pertanyaan ini hanya membutuhkan satu entitas jawaban.Penelitian
ini mengimplementasikan QAS dengan jenis pertanyaan bersifatlistyang dapat
menghasilkan banyak jawaban. Tujuan
Tujuan dari penelitian ini adalah mengimplementasikan sistem temu kembali
informasi Question Answering System menggunakan query pertanyaan bersifat list
untuk dokumen bahasa Indonesia. Ruang Lingkup
Ruang lingkup penelitian ini adalah : 1.
Korpus dokumen bahasa Indonesia dan kata tanya yaitu siapa, dimana, kapan, dan
berapa. 2.
Pasangan pertanyaan dan jawaban sudah ditentukan oleh penulis dari koleksi
dokumen yang ada.
TINJAUAN PUSTAKA Temu Kembali Informasi
Temu kembali informasi berkaitan dengan merepresentasi, menyimpan, mengorganisasi,
dan mengakses informasi.Merepresentasi dan mengorganisasi suatu informasi harus
membuat pengguna lebih mudah dalam mengakses informasi yang
diinginkannya.Dalam pencarian suatu informasi pengguna harus menerjemahkan
kebutuhan informasinya dalam bentuk query. Berdasarkan query tersebut, sistem temu
kembali informasi akan mengembalikan informasi yang relevan dengan query yang
diberikan oleh pengguna Baeza-Yates Ribeiro-Neto 1999.
Question Answering
Question Answering system merupakan aplikasi yang menggabungkan
konsepInformation Retrieval IR dengan Natural Languange Processing NLP.
Perbedaan mendasar antara QA dan IR terletak pada masukan query dan keluaran
yang dihasilkan.Query yang dimasukkan pada IR berupa kata atau kalimat pernyataan dan
2 keluaran yang dihasilkan adalah dokumen
yang dianggap relevan oleh sistem. Sedangkan pada QA, query berupa kalimat
tanya dan keluarannya berupa jawaban entitas yang dianggap sesuai oleh sistem
sehingga memungkinkan sistem tidak mengembalikan jawaban apapun
Strzalkowski Harabagiu 2008.QA memiliki ide dasar sebagai berikut Lin
2004 :
Menentukan tipe semantik dari jawaban yang diharapkan.
Menentukan dokumen-dokumen yang mengandung kata-kata yang terdapat
dalam pertanyaan query. Mencari entitas jawaban dengan tipe yang
sesuai dengan pertanyaan, dan memiliki kedekatan yang tinggi dengan query.
Gambar 1 menunjukkan proses pada Question Answering System QAS. Dalam
tahapan offline atau indexing dilakukan analisis terhadap teks dokumen. Teks
dokumen yang digunakan sudah memiliki named entity tag didalamnya. Hasil dari
proses indexing digunakan untuk tahapan QAS selanjutnya, yaitu tahapan online yang
terdiri atas analisis pertanyaan, document preselection, seleksi, dan pembobotan.
Modul analisis pertanyaan mengklasifikasi pertanyaan dan menentukan
tipe dari jawaban yang diharapkan. Hasil dari modul ini terdiri atas kata tanya dan kata-kata
yang akan digunakan dalam pembobotan heuristic scoring. Kata-kata yang digunakan
untuk pembobotan heuristic juga digunakan dalam document preselection.
Document preselection menghasilkann dokumen tertinggi. Kata tanya
digunakan untuk mengidentifikasi tipe named entity dari pertanyaan. Perolehan named
entity digunakan untuk menyeleksinpassages yang mengandung kandidat jawaban.
Contohnya adalah kata tanya “Dimana”mengidentifikasi keterangan
tempat, yang diwakili oleh named entity tag LOCATION. Perolehan entitas kandidat
jawaban dilakukan pada npassages dengan bobot tertinggi Molla 2003.
Faktor Heuristic
QAS memiliki tiga modul utama yaitu modul pemrosesan query, modul sistem
pencarian, dan modul ekstraksi jawaban Ballesteros Xiaoyan-Li 2007.
Gambar 1 Arsitektur umum QuestionAnswering SystemMolla 2003
1. Pemrosesan Query