Perolehan Top Document Implementation of Question Answering System for Document in Bahasa Indonesia with List Question

7 Penjelasan untuk konfigurasi yang digunakan pada Sphinx search,yaitu:  source = srcxml, konfigurasi untuk menandakan bahwa sumber yang digunakan atau file yang akan diindeks berupa file dengan format XML.  xmlpipe_field, konfigurasi untuk menyebutkan atribut apa saja yang ingin diproses pada SPHINX.  path=c:sphinxdataqas, konfigurasi untuk mengatur dimana file hasil indexing disimpan, pada dokumen pertanian disimpan pada folder data dengan nama file qas.  docinfo = extern, konfigurasi untuk penyimpanan dokumen hasil indexing. Dalam hal ini konfigurasi extern menunjukkan bahwa hasil indexingakan disimpan dalam file terpisah dengan nama file yang sama.  morphology= stem_en, konfigurasi untuk stemmer, stem_enmenunjukkan bahwa stemmer yang digunakan yaitu english stemmer.  min_word_len = 3, konfigurasi ini menjelaskan panjang minimal kata yang diindeks yaitu minimal 3 karakter.  charset_type = utf-8, konfigurasi ini menunjukkan tipe karakter yang digunakan yaitu utf-8.  enable_star = 0, konfigurasi untuk pengindeksan prefiks. Digunakan nilai 0 yang menunjukkan bahwa tidak dilakukan pengindeksan untuk prefiks.  html_strip = 0, konfigurasi untuk menghilangkan tag. Digunakan nilai 0 yang berarti tidak menghilangkan tag.  Stopwords=c:sphinxdataSto pWords.txt , konfigurasi untuk eliminasi kata buangan.

4. Perolehan Top Document

Tahapan ini dilakukan untuk mendapatkanndokumen teratas yang akan digunakan untuk membentuk kalimat dan passage pada tahap selanjutnya. Dokumen yang digunakan pada penelitian ini paling banyak 10 dokumen dan 20 dokumen.Query dimasukkan secara manual kemudian dilakukan pembobotan oleh SPHINX dengan pembobotan BM25. Kata pada query kecuali kata tanya akan dicocokkan dengan dokumen yang ada. Semua dokumen yang relevan dengan query akan ditemukembalikan dari dokumen dengan bobot tertinggi sampai dengan bobot terendah.Namun pada penelitian ini hanya 10 atau 20 dokumen yang dgunakan. Hal ini dilakukan untuk mempermudah proses pembentukan kalimat dan passage. source srcxml { Type = xmlpipe xmlpipe_command = type C:\sphinx\corpus\korpusqas.xml xmlpipe_field = docno xmlpipe_field = author xmlpipe_field = title xmlpipe_field = content } index qas { source= srcxml path= c:sphinxdataqas docinfo= extern morphology= stem_en min_word_len = 3 charset_type = utf-8 enable_star = 0 html_strip = 0 stopwords = c:sphinxdatastopwords.txt } Gambar 7Konfigurasi SPHINX tempcontent=array; n = res[total]; ifres[matches] temp2=array_slice res[matches],0,10; iftemp2foreach temp2 as data { tempcontent[data[attrs] [docno]] = data[attrs][content]; } }} Gambar 8 Cuplikan implementasi untuk mengambil sepuluh dokumen teratas 8 Hasil dari perolehan n dokumen teratas disimpan dalam arraytempcontent[data[attrs][docno]].Cu plikan implementasi untuk mengambil 10 dokumen teratas dapat dilihat pada Gambar 8.Gambar 9 adalah contoh dari dokumen teratas dengan query, “Siapa saja pejabat yang menjadi tersangka kasus ilegal logging?” [suarakarya000000-016.txt] = Maraknya praktek illegal logging penebangan liar di wilayah provinsi [LOCATION]Kalimantan Tengah[LOCATION] yang terkenal dengan emas hijau hingga kini terus berlangsung, bahkan sampai merambah kawasan Taman Nasional [LOCATION]Tanjung Puting[LOCATION] [LOCATION]TNTP[LOCATION] yang merupakan pusat rehabilitasi orangutan. ……… Gambar 9 Dokumen teratas

5. Pembentukan Kalimat