6
DOC DOCNOjurnal000000DOCNO
TITLE PEMBANGUNANTITLE AUTHORTriharsoAUTHOR
TEXT ……
PPenyiangan jalur…..…P TEXT
DOC
Gambar 4 Format dokumen dengan struktur tagXML
sphinx:document id=1 docnosuarapem.txtdocno
authorAPAFPH-12N-author titleGelombang Protestitle
content JAKARTA -Agenda-agenda yang
dibahas dalam Konferensi Tingkat
MenteriKTM[ORGANIZATION]Organ isasi[ORGANIZATION]…………
content
Gambar 5 Format dokumen setelah mengalami perubahan struktur tag
2. Pemrosesan Query
Query yang digunakan dalam penelitian ini berupa bahasa alami berbentuk kalimat
tanya. Kalimat ini diawali kata tanya dan diakhiri dengan tanda ?.
Dalam pemrosesan query yang pertama dilakukan adalah melakukan parsing terhadap
kalimat tanya dengan pemisah yang tersimpan dalam variabel pemisahkata yang
dapat dilihat pada Gambar 6.
Var pemisahkata = [\s\+\,.\\];\
:=`?\[]+”; function setQueryquery
{question=preg_splitthis- pemisahkata, strtolowerquery;
this-question_word= question[0]; foreachquestion as word{
ifin_arrayword,this- getStopWordsin_arrayword,
this-arrayKataTanya strlenword =null
this-wordQuestion[]= word; }
Gambar 6Implementasi pemrosesan query Parsing pada query dilakukan setelah
proses case folding. Case folding adalah membuat huruf pada teks menjadi kecil. Pada
proses ini kata-kata pada queryyang termasuk stopwords dihilangkan. Mengacu pada
Gambar 6 hasil dari proses parsing disimpan dalam variabel arrayquestion. Pada indeks
ke-0 atau question[0] dapat diidentifikasi kata tanya yang disimpan dalam variabel
question_word. Kata tanya ini digunakan untuk menentukan tipe jawaban yang
ditemukembalikan oleh sistem. Tipe jawaban dicirikan dengan tag named entity yang
terdapat pada dokumen.
Pada penelitian kali ini kata tanya yang digunakan dibatasi dalam empat jenis, yaitu
siapa, kapan, dimana dan berapa. Tabel 1 menunjukkan daftar pasangan jenis kata tanya
dan named entity yang menjadi penciri dari jawaban yang akan ditemukembalikan.
Tabel 1 Daftar pasangan kata tanya dan named entity
No Kata
Tanya Tag Named Entity
1 Siapa NAME,
ORGANIZATION 2 Kapan
DATE,TIME 3 Dimana LOCATION
4 Berapa NUMBER,CURRENCY Untuk nilai question selain kata tanya
pada indeks 0 atau question[0], yaitu question[1] sampai question[n] disimpan
dalam variabel wordQuestion. Variabel ini digunakan dalam proses perolehan n
dokumen teratas dengan menggunakan SPHINX, pembobotan heuristic
dan perolehan jawaban.
3. Pemrosesan Dokumen
Sebelum dokumen digunakan dalam perolehan n dokumen teratas, terlebih dahulu
dilakukan indexingsesuai dengan cuplikan konfigurasi yang dapat dilihatpada Gambar 7.
Proses indexing dilakukan dengan
menggunakan SPHINX.Hasil indexing ini akan disimpan dalam fileqas. File ini akan
digunakan untuk proses pencarian n dokumen teratas.
7 Penjelasan untuk konfigurasi yang digunakan
pada Sphinx search,yaitu: source = srcxml, konfigurasi untuk
menandakan bahwa sumber yang digunakan atau file yang akan diindeks
berupa file dengan format XML. xmlpipe_field, konfigurasi untuk
menyebutkan atribut apa saja yang ingin diproses pada SPHINX.
path=c:sphinxdataqas, konfigurasi untuk mengatur dimana file
hasil indexing disimpan, pada dokumen pertanian disimpan pada folder data
dengan nama file qas.
docinfo = extern, konfigurasi untuk penyimpanan dokumen hasil
indexing. Dalam hal ini konfigurasi extern
menunjukkan bahwa hasil indexingakan disimpan dalam file terpisah
dengan nama file yang sama. morphology= stem_en, konfigurasi
untuk stemmer, stem_enmenunjukkan bahwa stemmer yang digunakan yaitu
english stemmer. min_word_len = 3, konfigurasi ini
menjelaskan panjang minimal kata yang diindeks yaitu minimal 3 karakter.
charset_type = utf-8, konfigurasi ini menunjukkan tipe karakter yang
digunakan yaitu utf-8. enable_star = 0, konfigurasi untuk
pengindeksan prefiks. Digunakan nilai 0 yang menunjukkan bahwa tidak dilakukan
pengindeksan untuk prefiks. html_strip = 0, konfigurasi untuk
menghilangkan tag. Digunakan nilai 0 yang berarti tidak menghilangkan tag.
Stopwords=c:sphinxdataSto pWords.txt
, konfigurasi untuk eliminasi kata buangan.
4. Perolehan Top Document