Pemrosesan Query Pemrosesan Dokumen

6 DOC DOCNOjurnal000000DOCNO TITLE PEMBANGUNANTITLE AUTHORTriharsoAUTHOR TEXT …… PPenyiangan jalur…..…P TEXT DOC Gambar 4 Format dokumen dengan struktur tagXML sphinx:document id=1 docnosuarapem.txtdocno authorAPAFPH-12N-author titleGelombang Protestitle content JAKARTA -Agenda-agenda yang dibahas dalam Konferensi Tingkat MenteriKTM[ORGANIZATION]Organ isasi[ORGANIZATION]………… content Gambar 5 Format dokumen setelah mengalami perubahan struktur tag

2. Pemrosesan Query

Query yang digunakan dalam penelitian ini berupa bahasa alami berbentuk kalimat tanya. Kalimat ini diawali kata tanya dan diakhiri dengan tanda ?. Dalam pemrosesan query yang pertama dilakukan adalah melakukan parsing terhadap kalimat tanya dengan pemisah yang tersimpan dalam variabel pemisahkata yang dapat dilihat pada Gambar 6. Var pemisahkata = [\s\+\,.\\];\ :=`?\[]+”; function setQueryquery {question=preg_splitthis- pemisahkata, strtolowerquery; this-question_word= question[0]; foreachquestion as word{ ifin_arrayword,this- getStopWordsin_arrayword, this-arrayKataTanya strlenword =null this-wordQuestion[]= word; } Gambar 6Implementasi pemrosesan query Parsing pada query dilakukan setelah proses case folding. Case folding adalah membuat huruf pada teks menjadi kecil. Pada proses ini kata-kata pada queryyang termasuk stopwords dihilangkan. Mengacu pada Gambar 6 hasil dari proses parsing disimpan dalam variabel arrayquestion. Pada indeks ke-0 atau question[0] dapat diidentifikasi kata tanya yang disimpan dalam variabel question_word. Kata tanya ini digunakan untuk menentukan tipe jawaban yang ditemukembalikan oleh sistem. Tipe jawaban dicirikan dengan tag named entity yang terdapat pada dokumen. Pada penelitian kali ini kata tanya yang digunakan dibatasi dalam empat jenis, yaitu siapa, kapan, dimana dan berapa. Tabel 1 menunjukkan daftar pasangan jenis kata tanya dan named entity yang menjadi penciri dari jawaban yang akan ditemukembalikan. Tabel 1 Daftar pasangan kata tanya dan named entity No Kata Tanya Tag Named Entity 1 Siapa NAME, ORGANIZATION 2 Kapan DATE,TIME 3 Dimana LOCATION 4 Berapa NUMBER,CURRENCY Untuk nilai question selain kata tanya pada indeks 0 atau question[0], yaitu question[1] sampai question[n] disimpan dalam variabel wordQuestion. Variabel ini digunakan dalam proses perolehan n dokumen teratas dengan menggunakan SPHINX, pembobotan heuristic dan perolehan jawaban.

3. Pemrosesan Dokumen

Sebelum dokumen digunakan dalam perolehan n dokumen teratas, terlebih dahulu dilakukan indexingsesuai dengan cuplikan konfigurasi yang dapat dilihatpada Gambar 7. Proses indexing dilakukan dengan menggunakan SPHINX.Hasil indexing ini akan disimpan dalam fileqas. File ini akan digunakan untuk proses pencarian n dokumen teratas. 7 Penjelasan untuk konfigurasi yang digunakan pada Sphinx search,yaitu:  source = srcxml, konfigurasi untuk menandakan bahwa sumber yang digunakan atau file yang akan diindeks berupa file dengan format XML.  xmlpipe_field, konfigurasi untuk menyebutkan atribut apa saja yang ingin diproses pada SPHINX.  path=c:sphinxdataqas, konfigurasi untuk mengatur dimana file hasil indexing disimpan, pada dokumen pertanian disimpan pada folder data dengan nama file qas.  docinfo = extern, konfigurasi untuk penyimpanan dokumen hasil indexing. Dalam hal ini konfigurasi extern menunjukkan bahwa hasil indexingakan disimpan dalam file terpisah dengan nama file yang sama.  morphology= stem_en, konfigurasi untuk stemmer, stem_enmenunjukkan bahwa stemmer yang digunakan yaitu english stemmer.  min_word_len = 3, konfigurasi ini menjelaskan panjang minimal kata yang diindeks yaitu minimal 3 karakter.  charset_type = utf-8, konfigurasi ini menunjukkan tipe karakter yang digunakan yaitu utf-8.  enable_star = 0, konfigurasi untuk pengindeksan prefiks. Digunakan nilai 0 yang menunjukkan bahwa tidak dilakukan pengindeksan untuk prefiks.  html_strip = 0, konfigurasi untuk menghilangkan tag. Digunakan nilai 0 yang berarti tidak menghilangkan tag.  Stopwords=c:sphinxdataSto pWords.txt , konfigurasi untuk eliminasi kata buangan.

4. Perolehan Top Document