8 digunakan sebagai acuan dalam penelitian
ini:
1. “SIAPA”
ScoreS +=WordMatch Q,S If
containsQ,HUMAN S,Human then
ScoreS += slam_dunk
Algoritme rule untuk kueri pertanyaan dengan kata tanya “SIAPA” pada sistem
yang dibangun pada penelitian ini berbeda dengan algoritme rule yang telah
diimplementasikan oleh Sianturi 2008. Perbedaannya terletak pada penambahan
rule
dan pemberian nilai score.
2. “KAPAN”
ScoreS +=WordMatch Q,S If containsS, {saat, ketika, kala,
semenjak ,
sejak ,
waktu ,
setelah ,
sebelum } and containsS,TIME
then ScoreS += slam_dunk
If containsS,TIME and containsQ,TIME then
ScoreS += confident If containsS, {saat, ketika, kala,
semenjak ,
sejak ,
waktu ,
setelah ,
sebelum } or containsS,TIME
then ScoreS += good_clue
Algoritme rule untuk kueri pertanyaan dengan kata tanya “KAPAN” yang dibangun
pada penelitian ini dengan algoritme rule yang telah diimplementasikan oleh Sianturi
2008 hanya berbeda pada pemberian nilai score.
3. “DIMANA”
ScoreS +=WordMatch Q,S If containsS, {dalam, dari,
pada } and containsS,LOCATION
then ScoreS += slam_dunk
If containsS,LOCATION then ScoreS += good_clue
If containsS, {dalam, dari, pada } then
ScoreS += clue
Algoritme rule yang digunakan sama dengan rule yang telah diimplementasikan
oleh Sianturi 2008.
4. “BERAPA”
ScoreS +=WordMatch Q,S If containsQ,NUMBER and
containsS,NUMBER then ScoreS += slam_dunk
If containsS,NUMBER then ScoreS += confident
Algoritme rule yang digunakan dibuat sendiri oleh penulis.
Fungsi dan notasi yang digunakan dalam rules
tersebut adalah sebagai berikut : 1.
Notasi S = sentence kalimat dokumen. 2.
Notasi Q = query kalimat kueri. 3.
Fungsi contains adalah fungsi untuk memeriksa kalimat dokumen dan kalimat
kueri pertanyaan, apakah mengandung kata yang telah ditentukan.
4. Fungsi WordMatch adalah fungsi untuk
memeriksa kesamaan kata. 5.
Fungsi score adalah fungsi pemberian nilai pada kalimat dokumen
.
Setelah diperoleh nilai dari Wordmatch dan rule
dihitung skor setiap passage.
Pembobotan Heuristic dan Rule-Based
Pembobotan passages gabungan heuristic dan rule-based dilakukan berdasarkan nilai
hasil dari proses pembobotan heuristic yang diperoleh dari pencocokan kata kueri dengan
passages dan nilai pembobotan rule-based
diperoleh dari rule yang digunakan. Formula untuk penggabungan kedua metode:
scoreTotal = αheuristic+1-α rule-based
dengan
α=0.5.
Ekstraksi Jawaban
Tahap berikutnya adalah ekstraksi jawaban dari top passages yang diperoleh. Passage yang
memiliki nilai tertinggi pada pembobotan passages
menjadi top passage. Kata yang menjadi kandidat jawaban adalah kata yang
memiliki entitas sesuai dengan kata tanya pada kueri pertanyaan. Yang perlu diperhatikan
dalam perolehan entitas jawaban adalah top passage
dapat terdiri atas satu atau lebih passage
dan setiap passage dapat memiliki satu atau lebih kandidat jawaban. Jawaban akhir
setiap passage
diperoleh dengan cara menghitung jarak antara setiap kandidat
jawaban pada setiap passage dengan masing- masing kata pada
arrayWordMatch. arrayWordMatch
merupakan array yang menampung kumpulan kata hasil pencocokan
antara keyword dengan kata-kata pada passage. Kandidat jawaban yang memiliki jarak
9 terpendek dianggap sebagai jawaban yang
paling tepat. Contoh hasil percobaan menggunakan kueri
“
Siapa Muwardi P. Simatupang
?”, diperoleh 19 passages pada satu dokumen
teratas. Setelah diambil passage yang mengandung tag NAME atau
ORGANIZATION diperoleh 12 passage dari 19 passage. TopPassage yang diperoleh dengan
heuristic, rule-based
serta gabungan heuristic dan rule-based
adalah sama. Nilai pembobotan untuk rule-based 5,078 ,heuristic 10 dan
gabungan kedua metode adalah 7,53. Top passages
yang diperoleh:
Ini mungkin karena pendekatan pembangunan pertanian masih
bersifat subsisten kata ORGANIZATION Ketua Umum Dewan
Pimpinan Pusat Himpunan Alumni Institut Pertanian Bogor
ORGANIZATION NAME Muwardi P Simatupang
NAME pada acara diskusi Membangun Pertanian
LOCATION Indonesia LOCATION Untuk Meningkatkan Pendapatan
Petani dan Negara di LOCATION Jakarta LOCATION DATE
Kamis224 DATE NAME MuwardiNAME mengatakan
pendekatan subsisten merupakan pendekatan yang menitikberatkan
pada peningkatan produksi
Kandidat jawaban yang diperoleh hanya ada satu yaitu kata Ketua Umum Dewan Pimpinan
Pusat Himpunan Alumni Institut Pertanian Bogor sehingga kata tersebut menjadi jawaban
akhir.
Hasil Percobaan
Hasil percobaan dilakukan dengan membandingkan hasil penelitian yang dilakukan
oleh penulis dengan hasil penelitian Cidhy 2009. Perbandingan dilakukan dengan melihat
perolehan top passage, ketepatan jawaban dan dokumen yang ditemukembalikan dengan
menggunakan tiga pembobotan passages yaitu heuristic
Cidhy 2009, rule-based serta gabungan heuristic dan rule-based dengan
menggunakan 10 dokumen teratas. Jumlah koleksi dokumen yang digunakan
sebanyak 106 dokumen dan sebanyak 40 kueri. Kueri tersebut diambil dari penelitian Cidhy
2009. Proses dokumentasi evaluasi kueri dicatat dalam bentuk tabel yang terdiri atas
sumber dokumen, pertanyaan kueri, perolehan passages
, ketepatan dokumen, ketepatan jawaban, dan koreksi. Kemudian dilakukan
pencocokan antara hasil pencarian yang diperoleh terhadap pasangan dokumen dan
kueri pertanyaan yang seharusnya. Berdasarkan kesesuaian pasangan jawaban dan dokumen,
penilaian dibedakan menjadi 4 jenis yaitu : right
, wrong, unsupported, dan null. Persentase evaluasi hasil percobaan yang dilakukan oleh
Cidhy dan penulis dapat dilihat pada Tabel 2. Berikut pembahasan untuk masing-masing
percobaan :
1. Perbandingan Hasil Percobaan Untuk Kata Tanya SIAPA