Pembobotan Passages Implementation of Question Answering System for Document in Bahasa Indonesia with List Question

9

7. Pemrosesan Passages

Tidak semua passages dalam dokumen digunakan dalam proses pembobotan passages, namun hanya passages yang mengandung tag name entity yang sesuai dengan kata tanya. Tag yang sesuai tersebut disimpan dalam arrayarrayTag, misalkan kata tanya “Siapa” maka tag yang disimpan didalam arrayTag adalah ORGANIZATION dan PERSON. Sebagai contoh dengan menggunakan query “Siapa saja pejabat yang menjadi tersangka kasus ilegal logging?” dari 1 dokumen teratas diperoleh passagessebanyak 30. Kemudian dilakukan seleksi berdasarkan named entity sesuai kata tanya. Dalam contoh queryini passages diseleksi dengan tag ORGANIZATON dan PERSON, sehingga diperoleh passages sebanyak 14passages.

8. Pembobotan Passages

Pada tahapan ini dilakukan pembobotan terhadap passagesyang diseleksi berdasarkan named entity yang dibutuhkan. Pembobotan dilakukan dengan mengikuti tahapan yang terdapat pada jurnal Ballesteros Xiaoyan- Li 2007 yang dijadikan acuan dalam penelitian ini, pembobotan passages terdiri dari: 1. Pembobotan passages dari proses wordmatch sesuai threshold disimpan dalam variabel sThreshold. 2. Pembobotan passages berdasarkan urutan nilai dari wordQuestion dalam passages. Hasilnya disimpan dalam variabel sInordered. 3. Pembobotan passages berdasarkan jumlah nilai dari wordQuestion dalam passages. Hasilnya disimpan dalam variabel sInSentence. 4. Pembobotan berdasarkan hasil dari arrayWordMatch dibagi dengan jumlah kata dari passage dengan bobot arrayWordMatchtertinggi disimpan dalam variabel sWindow. Fungsi yang digunakan dalam pembobotan passages dapat dilihat pada Lampiran 5. Implementasi pembobotan dalam penelitian ini menggunakan fungsi yang telah dikembangkan oleh Chidy 2009, namun penulis melakukan perubahan pada pembobotan sWindow yaitu pada bagian Score = score + count_matchW, pada penelitian Cidhy 2009 W merupakan banyaknya kata pada tiap passage yang dihitung bobotnya, sedangkan pada penelitian ini W adalah banyaknya kata pada passage yang memiliki nilai countmatch terbesar antara query dengan kata pada passageyang berada pada n passage teratas. Setelah diperoleh empat score dari masing-masing passage kemudian dilakukan penjumlahan secara linear Heuristic_score = sThreshold + sInordered + sInSentence + sWindow. Tujuan dari pembobotan passages adalah memperoleh passages dengan bobot tertinggi yang disimpan dalam variabel scorePassageDoc.Banyaknya top passage yang digunakan dalam penelitian ini maksimal adalah 10 passage atau 20 passage. Dari n passage teratas, kandidat jawaban dan penemu kembalian jawaban akan diterapkan. Cuplikan n passage teratasdapat dilihat pada Gambar 14. Cuplikann passage teratas ini menggunakan query “Siapa saja pejabat yang menjadi tersangka kasus ilegal logging?”. [docno] = suarakarya.txt [selected_passage] = Hasil operasi penertibanpengamanan hutan oleh Tim Gabungan yang digelar ………… [score_passage] = 8.113 Gambar 14 Contoh passageteratas Dengan perolehan nilai untuk masing-masing jenis pembobotan yaitu 7, 0.5, 0.5 dan 0.113. . 9. Perolehan Kandidat Jawaban Kandidat jawaban yang dipilih adalah kata yang memilki tag named entity yang sesuai dengan kata tanya yang diperoleh dari npassage teratas. Sebagai contoh dengan menggunakan query “Siapa saja pejabat yang menjadi tersangka kasus ilegal logging?” akan diperoleh kandidat seperti pada Gambar 15.Indeks pada kandidat jawaban digunakan untuk menghitung jarak dengan kata-kata yang sesuai dengan query. 10 Array [0] = Array [27]=[NAME]Ir.H.Badaruddin[NAME] [32]=[NAME]Thamrin Nor[NAME] [1] = Array [0]=[ORGANIZATION]Pemprov Kalteng[ORGANIZATION] [33]=[ORGANIZATION]Pemkab Kobar[ORGANIZATION] [68]=[NAME]Ir.H.Badaruddin[NAME] [73]=[NAME]ThamrinNor[NAME] …………………………… Gambar 15 Kandidat jawaban padan passageteratas

10. Perolehan Entitas Jawaban