Perolehan Entitas Jawaban Evaluasi Question Answering System

10 Array [0] = Array [27]=[NAME]Ir.H.Badaruddin[NAME] [32]=[NAME]Thamrin Nor[NAME] [1] = Array [0]=[ORGANIZATION]Pemprov Kalteng[ORGANIZATION] [33]=[ORGANIZATION]Pemkab Kobar[ORGANIZATION] [68]=[NAME]Ir.H.Badaruddin[NAME] [73]=[NAME]ThamrinNor[NAME] …………………………… Gambar 15 Kandidat jawaban padan passageteratas

10. Perolehan Entitas Jawaban

Untuk mendapatkan entitas jawaban dilakukan perhitungan terhadap jarak antara kata pada npassage teratas yang sesuai dengan query dengan kata yang merupakan kandidat jawaban. Setelah diperoleh bobot atau jarak dari masing-masing kandidat pada setiap passage, diambil kandidat-kandidat jawaban dengan jarak yang memiliki bobot kurang dari threshold yang sudah ditetapkan. Berikut contoh perhitungan jarak kandidat jawaban pada passage yang berada pada urutan pertama untuk query“Siapa saja pejabat yang menjadi tersangka kasus ilegal logging? ”. Tabel 2menunjukkan indeks kandidat jawaban dalam passageyang disimpan dalam variabel arrayCandidatKey sementara pada Tabel 3 menunjukkan perolehan indeks hasil wordmatch antara kata-kata pada passage dengan kata-kata pada queryyang disimpan dalam variabelarrayKey,.Pada tabel 4 berisi perolehan nilai atau bobot jarak untuk masing-masing kandidat jawaban yang disimpan dalam variabel avrg.Implementasi perhitungan jarak dapat dilihat pada Gambar 16. Bobot jarak yang kurang dari thresholdakan menjadi entitas jawaban terakhir. Threshold yang digunakan dalam penelitian ini adalah 25 dan 50 dari passage yang berada pada n passage teratas dan memiliki panjang terbesar. Tabel 2 Perolehan indeks kandidat jawaban Value Index Ir.H.Badaruddin 27 Thamrin Nor 32 Tabel 3 Perolehan indeks hasil wordmatch Value Index pejabat 16 tersangka 18 kasus 19 ilegal 20 logging 21 kasus 43 logging 45 Tabel 4 Bobot jarak kandidat jawaban Value Index Ir.H.Badaruddin 15 Thamrin Nor 18

11. Evaluasi Question Answering System

Dalam tahapan evaluasi digunakan 40 query berupa kalimat tanya. Query dibuat secara manual oleh penulis. Query tersebut mewakili tipe pertanyaan siapa, kapan, dimana dan berapa. Evaluasi sistem pada penelitian ini dialokasikan 20 query bersifat list dan 20 query bersifat factoid. Pada Tabel 6 dan Tabel 8 dapat dilihat persentase perolehan untuk masing-masing jenis pertanyaan baik yang bersifat factoid maupun pertanyaan yang bersifat list.Nilai terbesar untuk masing-masing pertanyaan yaitu kata tanya “Siapa” memperoleh nilai benar 26, “Dimana” memperoleh nilai 36.33, “Kapan” memperoleh nilai 70 dan “Berapa” memperoleh nilai 41. Nilai terbesar untuk setiap pertanyaan diperoleh dari 10 passage teratas dengan threshold 50 kecuali pertanyaan “Berapa” mendapatkan nilai terbesar 41 pada saat menggunakan passage teratas paling banyak 10 dan threshold sebesar 25. 11 fori=0;itop_passages;i++ { ifarray_key_existsi, arrayCandidatKey array_key_existsi, arrayKey{ foreacharrayCandidatKey[i] as key=value{foreach arrayKey[i]as key2=value2{distance[i][ value][value2]=abskey- key2; totdis[i][value]+=distance [i][value][value2]; avrg[i][value]= totdis[i][value]count query; } } } Gambar 16 Implementasi perhitungan bobot jarak Perbandingan dokumen yang ditemukembalikan dapat dilihat pada Tabel 5. Perbandingan Collection Page untuk semua jumlah n passages teratas dan threshold selalu lebih besar dari Topic Page. Hal inimenunjukkan bahwa entitas jawaban yang ditemukembalikan dari dokumen yang sama lebih mudah dibandingkan mendapatkan entitas jawaban dari dokumen yang berbeda- beda. Mengacu pada tabel yang sama, sistem QA banyak mengembalikan entitas yang tidak relevan pada saat passages teratas yang diambil paling banyak 20 dan threshold 50 yaitu 50 dari 20 pertanyaan mendapat nilai wrong. Tabel 7 merupakan contoh dari dokumentasi dan penilaian yang mewakili tiap kasus pada proses penemukembalian entitas jawaban, sedangkan untuk dokumentasi lengkap dapat dilihat pada Lampiran 1 sampai dengan Lampiran 4 untuk tiap-tiap jenis pertanyaan. Tabel 5 Persentase perbandingan nilai right, wrong dan null untuk 20 pertanyaan dan perbandingan sumber dokumen dari entitas jawaban yang ditemukembalikan Passages Threshold Right Wrong Null Collection Page Topic Page 2050 35 15 50 - 2025 35 20 40 5 1050 55 25 20 - 1025 50 20 25 5 Tabel 6 Persentase perolehan jawaban query factoid Kata Tanya Right Unsupported Wrong Siapa 80 0 20 Berapa 60 0 40 Dimana 80 20 Kapan 100 0 Mengacu pada Tabel 7 pertanyaan nomor 1 memperoleh nilai benar karena jawaban yang ditemukembalikan oleh sistem QAsama seperti jawaban yang ditentukan penulis sebelumnya. Untuk pertanyaan nomor 2 sistem memperoleh nilai NULL karena QA tidak mengembalikan entitas jawaban apapun.Hal ini terjadi karena semua kandidat jawaban mendapat bobot jarak melebihi threshold yang telah ditentukan. Gambar 13 menunjukkan bobotpassage yang diperoleh pada pertanyaan nomor 2 dan threshold yang digunakan pada pertanyaan ini adalah 15.25. 12 Contoh kasus terakhir, pertanyaan memperoleh nilai salah. Sistem QA pada kasus ini mengembalikan jawaban, namun tidak ada jawaban yang tepat dengan jawaban yang telah ditentukan sebelumnya. 12. Kelebihan dan Kelemahan Sistem Kelebihan dari Question Answering System yang telah dibangun adalah sistem dapat menemukembalikan jawaban dalam bentuk list. Sistem ini memiliki kelemahan berikut :  Pemberian tag pada kandidat jawaban menggunakan aplikasi tagging, sehingga tag pada dokumen tidak sempurna yang mengakibatkan entitas jawaban yang ditemukembalikan tidak sempurna.  Banyak entitas jawaban yang ditemukembalikan namun tidak relevan sehingga entitas jawaban benar mendapat pengurangan nilai.  Tidak dilakukan pengkajian semantic dalam penelitian ini. Contohnya adalah makna yang terdapat dalam hubungan antar kata dan struktur kalimat dalam suatu passage.  Jawaban yang diperoleh bukan informasi terkini karena tidak ada waktu yang menunjukkan kapan informasi atau berita dibuat. KESIMPULAN DAN SARAN Kesimpulan Kesimpulan dari penelitian ini adalah : 1. Pembobotan yang paling berpengaruh pada penelitian ini adalah pembobotan berdasarkan hasil pencocokan kata antara passage dengan kata-kata query. 2. Nilai terbesar untuk pertanyaan “Siapa”, “Dimana” dan “Kapan” menggunakan passage teratas paling banyak 10 dan threshold sebesar50 . 3. Entitas jawaban bersifat list dapat berasal dari dokumen yang sama atau kumpulan entitas jawaban dari dokumen yang berbeda-beda. 4. Collection page merupakan sumber dokumen yang lebih baik digunakan daripada distinct topic page. Array [0] = Array [docno] = situshijau.txt [text] = Oktober [score] = 21.5 [1] = Array [docno] = situshijau.txt [text] = Agustus-Januari [score] = 21.5 [2] = Array [docno] = suarapembar.txt [text] = E-2001 [score] = 33.5 Gambar 17 Bobot jarak entitas jawaban Saran Penelitian ini perlu disempurnakan dengan : 1. Melakukan pengkajian semanticuntuk melengkapi pembobotan heuristic dengan pembobotan syntactic. 2. Menambahkan atributtimestamp sehingga entitas jawaban yang ditemukembalikan merupakan informasiterkini. 3. Melakukan analisisthreshold dan menentukan banyaknya kandidat jawaban yang akan dijadikan entitas jawaban akhir. 4. Menambahkan kata tanya sehingga kata tanya yang digunakan tidak terbatas hanya pada kata tanya baku. 13 Tabel 7 Contoh dokumentasi pertanyaan dengan menggunakan 10 top passages dan threshold 25 No. Pertanyaan Jawaban QAS BENAR SALAH 1. Siapa saja pejabat yang menjadi tersangka kasus ilegal logging? Ir.H.Badaruddin - suarakarya000000- 016.txt Thamrin Nor - suarakarya000000- 016.txt TNI dari dokumen : suarakarya000000-016.txt Pemkab Kobar- suarakarya000000-016.txt Pemprov Kalteng- suarakarya000000-016.txt Megawati- suarakarya000000-016.txt Ir.H.Badaruddin - suarakarya000000-016.txt Thamrin Nor - suarakarya000000-016.txt BENAR 60 CP 2. Kapan saja panen mete dilakukan? Agustus -Januari - situshijau230603- 001.txt Oktober - situshijau 23060300-001.txt NULL - 3. Dimana saja budidaya pertanian organik dilakukan? Sleman –suarape mbaruan090202.tx Jember - kompas 030502-002.txt Yogyakarta - kompas030502- 002.txt Paguyuban Satyagraha Lestari - kompas030502- 002.txt Jakarta-kompas030502- 002.txt Tanah Air- kompas081203.txt SALAH Tabel 8 Perolehan rata-rata untuk pertanyaan yang bernilaibenar untuk setiap jenis kata tanyalist Kata Tanya 20 Top Passages 10 Top Passages 50 Threshold 25 Threshold 50 Threshold 25 Threshold Siapa 26.00 22.00 26.00 22.00 Dimana 29.00 16.33 36.33 20.33 Kapan 28.00 16.00 70.00 45.33 Berapa 10.00 16.00 30.00 39.00 DAFTAR PUSTAKA Anggraeni M. 2007. Implementasi Question Answering System dengan Metode Rule- Based Pada Terjemahan Al-Qurr’an Surat Al-baqarah [skripsi]. Bogor. Fakultas Matematika dan Ilmu Pengetahuan Alam.Institut Pertanian Bogor. Baeza-Yates R, Ribeiro-Neto B. 1999.Modern Information Retrieval.Addison-Wesley. Ballessteros, L. A dan Xiaoyan-Li. 2007.Heuristic and Syantatic for Cross- Languange Question Answering. Cidhy. 2009. . Implementasi Question Answering System dengan Pemboobtan Heuristic. [skripsi]. Bogor. Fakultas Matematika dan Ilmu Pengetahuan Alam.Institut Pertanian Bogor. Citraningputra. 2009. Named Entity Tagging untuk Dokumen Berbahasa Indonesia Menggunakan Metode Berbabsis Aturan [skripsi]. Bogor. Fakultas Matematika dan 14 Ilmu Pengetahuan Alam.Institut Pertanian Bogor. Harabagiu.M. dan Marius A. Pasca. 2000. Experiment whit Open-Domain Textual Question Answering. Herdi. 2010 Pembobotan Dalam Proses Pengindeksan Dokumen Bahasa Indonesia Menggunakan Framework Indri [skripsi]. Bogor.Fakultas Matematika dan Ilmu Pengetahuan Alam.Institut Pertanian Bogor. Ikhsani N. 2006. Implementasi Question Answering System dengan Metode Rule- Based untuk Temu Kembali Informasi Dokumen Berbahasa Indonesia [skripsi]. Bogor. Fakultas Matematika dan Ilmu Pengetahuan Alam.Institut Pertanian Bogor. Kartina. 2010. Analisis Pertanyaan untuk Question Answering System pada Dokumen Berbahasa Indonesia . [skripsi]. Bogor. Fakultas Matematika dan Ilmu Pengetahuan Alam.Institut Pertanian Bogor. Lin J. 2004. Introduction to Information Retrieval and Question Answering. College of Information Studies University of Maryland. Molla. 2003. Towards Semantic-Based Overlap Measures for Question Answering. Sianturi R. 2008. Implementasi Question Answering System dengan Metode Rule- Based untuk Temu Kembali Informasi pada Bnayak Dokumen Berbahasa Indonesia [skripsi]. Bogor. Fakultas Matematika dan Ilmu Pengetahuan Alam.Institut Pertanian Bogor. Yang,et all. 2004. Web-Based List Question Answering. LAMPIRAN 16 Lampiran 1Hasil pengujian kata tanyaSIAPA No. Pertanyaan Jawaban 20 Top Passages 10 Top Passages 50 Threshold 25 Threshold 50 Threshold 25 Threshold 1 Siapa saja pejabat yang menjadi tersangka kasus ilegal logging?  Ir.H.Badaruddin - suarakarya000000- 016.txt  Thamrin Nor -suarakarya000000-016.txt 60 60 60 60 2 Siapa saja pihak yang mengawasi pemasukan bahan asal hewan impor?  Bea Cukai - suarakarya000000-004.txt  Badan POM- suarakarya000000-004.txt 30 10 30 10 3 Siapa saja anggota dari kelompok kerja penyidik penyakit unggas nasional?  Balai Penelitian Veteriner Bogor - gatra300104.txt  Balai Pengujian Mutu dan Sertifikasi Obat Hewan -gatra300104.txt  Fakultas Kedokteran Hewan UGM - gatra300104.txt  Institut Pertanian Bogor - gatra300104.txt  Universitas Airlangga - gatra300104.txt 40 40 40 40 4 Siapa saja pengamat pertanian di Indonesia?  Tejo Pramono- suarapembaruan010903.txt,  Bayu Krisnamurti - mediaindonesia180504.txt SALAH SALAH SALAH SALAH 5 Siapa saja pihak yang impor gula kristal?  PT Perkebunan Negara - republika150604-002.txt  PT Rajawali Nusantara Indonesia - republika150604-002.txt  Perusahaan Perdagangan Indonesia - republika150604-002.txt  PTPN X - republika150604-002.txt  PTPN XI - republika150604-002.txt  PTPN - republika150604-002.txt SALAH SALAH SALAH SALAH Avr Right 26 22 26 22 17 Lampiran 2 Hasil pengujiankata tanya DIMANA No. Pertanyaan Jawaban 20 Top Passages 10 Top Passages 50 Threshold 25 Threshold 50 Threshold 25 Threshold 1 Dimana saja praktek illegal logging sering terjadi?  Kalimantan Tengah - suarakarya000000-016.txt  Tanjung Putting - suarakarya000000- 016.txt  TNTP - suarakarya000000-016.txt 70 36.67 70 36.67 2 Dimana saja budidaya pertanian organik dilakukan?  Sleman - suarapembaruan090202.tx  Jember - kompas030502-002.txt  Yogyakarta - kompas030502-002.txt SALAH SALAH 16.67 SALAH 3 Dimana saja kota yang menjadi industri kulit?  Kabupaten Garut - suarapembaruan111202.tx  Sukaregang -suarapembaruan111202.txt  Magetan - situshijau290403-004.txt  Yogyakarta - situshijau290403-004.txt SALAH SALAH SALAH SALAH 4 Dimana saja terminal agrobisnis?  Jakarta - suarakarya000000-003.txt  Tangerang - suarakarya000000-003.txt  Depok - suarakarya000000-003.txt  Bekasi- suarakarya000000-003.txt  Bandungan - suaramerdeka240204.txt 70 10 70 10 5 Dimana saja varietas kapas kanesia berada?  Nusa Tenggara Barat - situshijau270703-004.txt  Sulawesi Selatan - suarapembaruan290802-001.txt  Malang - situshijau270703-004.txt  Lamongan - suarapembaruan290802- 001.txt 5 35 25 55 Avr Right 29 16.33 36.33 20.33 18 Lampiran 3 Hasil pengujian kata tanya KAPAN No. Pertanyaan Jawaban 20 Top Passages 10 Top Passages 50 Threshold 25 Threshold 50 Threshold 25 Threshold 1 Kapan saja musim hujan di Indonesia dimulai?  Oktober - republika231202-001.txt  Januari - republika231202-001.txt  Desember - suarapembaruan150903.txt 20 30 50 46.67 2 Kapan saja panen mete dilakukan?  Agustus-Januari - situshijau230603- 001.txt  Oktober - situshijau230603-001.txt 100 NULL 100 NULL 3 Kapan saja musim panen besar kopi?  Mei - pikiranrakyat240404.txt  juli - pikiranrakyat240404.txt  September - wartapenelitian000000- 004.txt  oktober -pikiranrakyat240404.txt SALAH SALAH 40 40 4 Kapan saja sensus pertanian yang sudah dilakukan?  1963 - kompas020803.txt  1983 - kompas220399.txt  1993 - republika030304.txt  2003 - kompas020803.txt 20 30 90 50 5 Kapan saja impor komoditas pertanian naik?  2002 - kompas311203.txt  2003 - kompas311203.txt SALAH 20 70 90 Avr Right 28 16 70 45.33 19 Lampiran 4 Hasil pengujian kata tanya BERAPA No. Pertanyaan Jawaban 20 Top Passages 10 Top Passages 50 Threshold 25 Threshold 50 Threshold 25 Threshold 1 Berapa saja harga gabah kering giling?  Rp 1.700 - republika060804-003.txt  Rp 1.200 - republika060804-003.txt  Rp 1.230 -suarakarya000000-007.txt  Rp 1.275 - situshijau280404-002.txt  Rp 1.900 - kompas170402.txt SALAH SALAH 30 40 2 Berapa saja harga buah merah?  Rp 2.000kg - situshijau270703-002.txt  3000 - situshijau270703-002.txt  Rp25.000kg - situshijau130203-002.txt  Rp 75.000 - situshijau130203-002.txt SALAH 30 50 55 3 Berapa saja harga jual kopi per kg?  Rp 1.100 - kompas140802.txt  Rp 1.200,00 - pikiranrakyat240404.txt  Rp 1.000 -kompas140802.txt SALAH SALAH SALAH SALAH 4 Berapa saja harga bawangmerah pada musim kemarau?  Rp 6.000 - situshijau180603-001.txt  Rp 7.000 - situshijau180603-001.txt  Rp 4.000 - situshijau180603-001.txt  Rp 4.500 - situshijau180603-001.txt 50 50 50 60 5 Berapa saja harga urea di tingkat kecamatan?  Rp 1.140kg - suaramerdeka161101.txt  Rp 1.120kg - suaramerdeka161101.txt  Rp 1.500kg- suaramerdeka161101.txt  Rp 1.070kg - suaramerdeka161101.txt  Rp 1.080kg - suaramerdeka161101.txt SALAH SALAH 20 40 Avr Right 10 16 30 39 20 Lampiran 5 Fungsi pembobotan passage function scoreThresholdarrayAllPassage{ threshold = this-getThreshold; wordQuestion = this-getWordQuestion; arrayWordMatch = array; index = 0; ifarrayAllPassage{ foreacharrayAllPassage as allPassages{ count = 0; foreachallPassages as wordPassage{ ifin_arraystrtolowerwordPassage,wordQuestion{ count++; } } arrayWordMatch[index] = count; index++; } } this-arrayCountMatch=arrayWordMatch; n = sizeofarrayWordMatch; index = 0; forindex = 0; indexn; index++{ ifarrayWordMatch[index] = threshold{ do nothing } else arrayWordMatch[index] = 0; } return arrayWordMatch; } 21 Lanjutan Lampiran 6 Fungsi pembobotan passage function scoreInSentencearrayAllPassage{ wordQuestion = this-getWordQuestion; index = 0; arrayInSentence = array; ifarrayAllPassage{ foreacharrayAllPassage as passage{ duaKalimat=preg_split[.?]+[\s]+,strtolower this-myStripTagpassage; score = 1; score_1=1; kalimatPertama=preg_split[\.,?\s], strtolowerduaKalimat[0]; foreachwordQuestion as word{ ifin_arrayword, kalimatPertama score_1 = score_10; } ifscore_1==0{ kalimatKedua=preg_split[\.,?\s], strtolowerduaKalimat[1]; foreachwordQuestion as word{ ifin_arrayword, kalimatKedua score = score0; } } arrayInSentence[index++] = score; } } n = sizeofarrayInSentence; i = 0; fori=0; in; i++{ ifarrayInSentence[i] = 0 arrayInSentence[i] = arrayInSentence[i]0.5; } return arrayInSentence; } 22 LanjutanLampiran 7 Fungsi pembobotan passage function ScoreInOrderedarrayAllPassage{ arrayScoreOrder = array; index = 0; echo pre; print_rarrayAllPassage; exit; ifarrayAllPassage{ foreacharrayAllPassage as passage{ echo passage.hr ; arrayScoreOrder[index++] = this- countScoreOrderpassage, this-question; } } return arrayScoreOrder; } function scoreWindow2{ this-SCORE_WINDOW=array; max=maxthis-arrayCountMatch; pembagi=this-PembagiWindowmax; foreachthis-arrayCountMatch as value{ this-SCORE_WINDOW[]=valuepembagi; } } 23 ABSTRACT AGUS UMRIADI . Implementation of Question Answering System for Document in Bahasa Indonesia with List Question.Under direction of JULIO ADISANTOSO. In the last few years, many studies of Question Answering System QAS have been conducted by a number of research groups around the world. Lately, a question is not only presented in the form of factoid questions, but also as a list questions where a question requires more than a single-entity of answer. However, recent development on QAS can only accommodate factoid questions which only require a single-entitys answer. To address this issue, the purpose of this research is to implement QAS for list questions. In order to obtain candidate of answers, heuristic weighting is performed in the passage which is contained on the top n documents. One thousand documents and 40 queries are used in the experiment. The best results of experiment show correctness of 26, 39, 36.33 and 70 for “who”, “how manymuch”, “where” and “when” list questions, respectively. Keywords : QAS, List Question, Question Answering System. 1 PENDAHULUAN Latar Belakang Sistem temu kembali informasi memiliki kaitan yang sangat erat dengan sistem pencariansearchengine.Untuk memperoleh suatu informasi sistem pencarian membutuhkan masukan yang dikenal dengan query yang biasanya berbentuk kata kunci. Saat ini sudah dikembangkan sistem pencarian menggunakan pertanyaan sebagai query yang dikenal dengan Question Answering SystemQAS. Dengan menggunakan pertanyaan sebagai query diharapkan informasi yang diperoleh oleh pengguna selain relevan juga lebih spesifik. Ballesteros dan Xiayoan-Li 2007 mengimplementasikan Question Answering yang digunakan untuk monolingual English dan Chinesse. Dalam mengembalikan kalimat jawaban atau informasi yang relevan, pemberian skor pada koleksi dokumen secara heuristic dan bergantung pada syntactic factor yang didefinisikan sebagai aturan- aturan untuk mengidentifikasi kandidat kalimat relevan atau kalimat jawaban. Hui Yang dan Tat-Seng Chua 2004 mengimplementasikan Web-Based List Question Answeringdimana kandidat jawaban diperoleh dari dua sumber utama yaitu collection pages dandistinct topic.Ikhsani2006 telah mengimplementasikan QAS untuk menemukan jawaban dari query pertanyaan hanya dengan menggunakan satu dokumen bacaan yang menggunakan kalimat baku. Anggraeini 2007 menyusun QAS untuk surat Al-Baqarah yang terdiri atas beberapa ayat sebagai dokumen. Sianturi 2008 menyempurnakan penelitian Ikhsani 2006 dengan menggunakan metode Rule-Based pada banyak dokumen bahasa Indonesia.Selanjutnya, Cidhy 2009mengimplementasikan Question Answering System dengan pembobotan heuristic dan Panggudi 2009 membuatNamed Entity Taggeruntuk dokumen bahasa Indonesia menggunakan metode berbasis aturan. Kartina 2010 menganalisis pertanyaan untukQuestion Answering System pada dokumen bahasa Indonesia dan Herdi 2010 menggunakan framework INDRI untuk melakukan pembobotan dalam proses pengindeksandokumen bahasa Indonesia. Semua QAS yang telah dikembangkan hanya dapat mengakomodasi pertanyaan bersifat factoid.Pertanyaan ini hanya membutuhkan satu entitas jawaban.Penelitian ini mengimplementasikan QAS dengan jenis pertanyaan bersifatlistyang dapat menghasilkan banyak jawaban. Tujuan Tujuan dari penelitian ini adalah mengimplementasikan sistem temu kembali informasi Question Answering System menggunakan query pertanyaan bersifat list untuk dokumen bahasa Indonesia. Ruang Lingkup Ruang lingkup penelitian ini adalah : 1. Korpus dokumen bahasa Indonesia dan kata tanya yaitu siapa, dimana, kapan, dan berapa. 2. Pasangan pertanyaan dan jawaban sudah ditentukan oleh penulis dari koleksi dokumen yang ada. TINJAUAN PUSTAKA Temu Kembali Informasi Temu kembali informasi berkaitan dengan merepresentasi, menyimpan, mengorganisasi, dan mengakses informasi.Merepresentasi dan mengorganisasi suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya.Dalam pencarian suatu informasi pengguna harus menerjemahkan kebutuhan informasinya dalam bentuk query. Berdasarkan query tersebut, sistem temu kembali informasi akan mengembalikan informasi yang relevan dengan query yang diberikan oleh pengguna Baeza-Yates Ribeiro-Neto 1999. Question Answering Question Answering system merupakan aplikasi yang menggabungkan konsepInformation Retrieval IR dengan Natural Languange Processing NLP. Perbedaan mendasar antara QA dan IR terletak pada masukan query dan keluaran yang dihasilkan.Query yang dimasukkan pada IR berupa kata atau kalimat pernyataan dan 1 PENDAHULUAN Latar Belakang Sistem temu kembali informasi memiliki kaitan yang sangat erat dengan sistem pencariansearchengine.Untuk memperoleh suatu informasi sistem pencarian membutuhkan masukan yang dikenal dengan query yang biasanya berbentuk kata kunci. Saat ini sudah dikembangkan sistem pencarian menggunakan pertanyaan sebagai query yang dikenal dengan Question Answering SystemQAS. Dengan menggunakan pertanyaan sebagai query diharapkan informasi yang diperoleh oleh pengguna selain relevan juga lebih spesifik. Ballesteros dan Xiayoan-Li 2007 mengimplementasikan Question Answering yang digunakan untuk monolingual English dan Chinesse. Dalam mengembalikan kalimat jawaban atau informasi yang relevan, pemberian skor pada koleksi dokumen secara heuristic dan bergantung pada syntactic factor yang didefinisikan sebagai aturan- aturan untuk mengidentifikasi kandidat kalimat relevan atau kalimat jawaban. Hui Yang dan Tat-Seng Chua 2004 mengimplementasikan Web-Based List Question Answeringdimana kandidat jawaban diperoleh dari dua sumber utama yaitu collection pages dandistinct topic.Ikhsani2006 telah mengimplementasikan QAS untuk menemukan jawaban dari query pertanyaan hanya dengan menggunakan satu dokumen bacaan yang menggunakan kalimat baku. Anggraeini 2007 menyusun QAS untuk surat Al-Baqarah yang terdiri atas beberapa ayat sebagai dokumen. Sianturi 2008 menyempurnakan penelitian Ikhsani 2006 dengan menggunakan metode Rule-Based pada banyak dokumen bahasa Indonesia.Selanjutnya, Cidhy 2009mengimplementasikan Question Answering System dengan pembobotan heuristic dan Panggudi 2009 membuatNamed Entity Taggeruntuk dokumen bahasa Indonesia menggunakan metode berbasis aturan. Kartina 2010 menganalisis pertanyaan untukQuestion Answering System pada dokumen bahasa Indonesia dan Herdi 2010 menggunakan framework INDRI untuk melakukan pembobotan dalam proses pengindeksandokumen bahasa Indonesia. Semua QAS yang telah dikembangkan hanya dapat mengakomodasi pertanyaan bersifat factoid.Pertanyaan ini hanya membutuhkan satu entitas jawaban.Penelitian ini mengimplementasikan QAS dengan jenis pertanyaan bersifatlistyang dapat menghasilkan banyak jawaban. Tujuan Tujuan dari penelitian ini adalah mengimplementasikan sistem temu kembali informasi Question Answering System menggunakan query pertanyaan bersifat list untuk dokumen bahasa Indonesia. Ruang Lingkup Ruang lingkup penelitian ini adalah : 1. Korpus dokumen bahasa Indonesia dan kata tanya yaitu siapa, dimana, kapan, dan berapa. 2. Pasangan pertanyaan dan jawaban sudah ditentukan oleh penulis dari koleksi dokumen yang ada. TINJAUAN PUSTAKA Temu Kembali Informasi Temu kembali informasi berkaitan dengan merepresentasi, menyimpan, mengorganisasi, dan mengakses informasi.Merepresentasi dan mengorganisasi suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya.Dalam pencarian suatu informasi pengguna harus menerjemahkan kebutuhan informasinya dalam bentuk query. Berdasarkan query tersebut, sistem temu kembali informasi akan mengembalikan informasi yang relevan dengan query yang diberikan oleh pengguna Baeza-Yates Ribeiro-Neto 1999. Question Answering Question Answering system merupakan aplikasi yang menggabungkan konsepInformation Retrieval IR dengan Natural Languange Processing NLP. Perbedaan mendasar antara QA dan IR terletak pada masukan query dan keluaran yang dihasilkan.Query yang dimasukkan pada IR berupa kata atau kalimat pernyataan dan 2 keluaran yang dihasilkan adalah dokumen yang dianggap relevan oleh sistem. Sedangkan pada QA, query berupa kalimat tanya dan keluarannya berupa jawaban entitas yang dianggap sesuai oleh sistem sehingga memungkinkan sistem tidak mengembalikan jawaban apapun Strzalkowski Harabagiu 2008.QA memiliki ide dasar sebagai berikut Lin 2004 :  Menentukan tipe semantik dari jawaban yang diharapkan.  Menentukan dokumen-dokumen yang mengandung kata-kata yang terdapat dalam pertanyaan query.  Mencari entitas jawaban dengan tipe yang sesuai dengan pertanyaan, dan memiliki kedekatan yang tinggi dengan query. Gambar 1 menunjukkan proses pada Question Answering System QAS. Dalam tahapan offline atau indexing dilakukan analisis terhadap teks dokumen. Teks dokumen yang digunakan sudah memiliki named entity tag didalamnya. Hasil dari proses indexing digunakan untuk tahapan QAS selanjutnya, yaitu tahapan online yang terdiri atas analisis pertanyaan, document preselection, seleksi, dan pembobotan. Modul analisis pertanyaan mengklasifikasi pertanyaan dan menentukan tipe dari jawaban yang diharapkan. Hasil dari modul ini terdiri atas kata tanya dan kata-kata yang akan digunakan dalam pembobotan heuristic scoring. Kata-kata yang digunakan untuk pembobotan heuristic juga digunakan dalam document preselection. Document preselection menghasilkann dokumen tertinggi. Kata tanya digunakan untuk mengidentifikasi tipe named entity dari pertanyaan. Perolehan named entity digunakan untuk menyeleksinpassages yang mengandung kandidat jawaban. Contohnya adalah kata tanya “Dimana”mengidentifikasi keterangan tempat, yang diwakili oleh named entity tag LOCATION. Perolehan entitas kandidat jawaban dilakukan pada npassages dengan bobot tertinggi Molla 2003. Faktor Heuristic QAS memiliki tiga modul utama yaitu modul pemrosesan query, modul sistem pencarian, dan modul ekstraksi jawaban Ballesteros Xiaoyan-Li 2007. Gambar 1 Arsitektur umum QuestionAnswering SystemMolla 2003

1. Pemrosesan Query