7 Penjelasan untuk konfigurasi yang digunakan
pada Sphinx search,yaitu: source = srcxml, konfigurasi untuk
menandakan bahwa sumber yang digunakan atau file yang akan diindeks
berupa file dengan format XML. xmlpipe_field, konfigurasi untuk
menyebutkan atribut apa saja yang ingin diproses pada SPHINX.
path=c:sphinxdataqas, konfigurasi untuk mengatur dimana file
hasil indexing disimpan, pada dokumen pertanian disimpan pada folder data
dengan nama file qas.
docinfo = extern, konfigurasi untuk penyimpanan dokumen hasil
indexing. Dalam hal ini konfigurasi extern
menunjukkan bahwa hasil indexingakan disimpan dalam file terpisah
dengan nama file yang sama. morphology= stem_en, konfigurasi
untuk stemmer, stem_enmenunjukkan bahwa stemmer yang digunakan yaitu
english stemmer. min_word_len = 3, konfigurasi ini
menjelaskan panjang minimal kata yang diindeks yaitu minimal 3 karakter.
charset_type = utf-8, konfigurasi ini menunjukkan tipe karakter yang
digunakan yaitu utf-8. enable_star = 0, konfigurasi untuk
pengindeksan prefiks. Digunakan nilai 0 yang menunjukkan bahwa tidak dilakukan
pengindeksan untuk prefiks. html_strip = 0, konfigurasi untuk
menghilangkan tag. Digunakan nilai 0 yang berarti tidak menghilangkan tag.
Stopwords=c:sphinxdataSto pWords.txt
, konfigurasi untuk eliminasi kata buangan.
4. Perolehan Top Document
Tahapan ini dilakukan untuk mendapatkanndokumen teratas yang akan
digunakan untuk membentuk kalimat dan passage pada tahap selanjutnya. Dokumen
yang digunakan pada penelitian ini paling banyak 10 dokumen dan 20 dokumen.Query
dimasukkan secara manual kemudian dilakukan pembobotan oleh SPHINX dengan
pembobotan BM25. Kata pada query kecuali kata tanya akan
dicocokkan dengan dokumen yang ada. Semua dokumen yang relevan dengan query
akan ditemukembalikan dari dokumen dengan bobot tertinggi sampai dengan bobot
terendah.Namun pada penelitian ini hanya 10 atau 20 dokumen yang dgunakan. Hal ini
dilakukan untuk mempermudah proses pembentukan kalimat dan passage.
source srcxml {
Type = xmlpipe xmlpipe_command = type
C:\sphinx\corpus\korpusqas.xml xmlpipe_field = docno
xmlpipe_field = author xmlpipe_field = title
xmlpipe_field = content }
index qas {
source= srcxml path= c:sphinxdataqas
docinfo= extern morphology= stem_en
min_word_len = 3 charset_type = utf-8
enable_star = 0 html_strip = 0
stopwords
= c:sphinxdatastopwords.txt
}
Gambar 7Konfigurasi SPHINX
tempcontent=array; n = res[total];
ifres[matches] temp2=array_slice
res[matches],0,10; iftemp2foreach temp2 as
data {
tempcontent[data[attrs] [docno]] =
data[attrs][content]; }
}}
Gambar 8 Cuplikan implementasi untuk mengambil sepuluh dokumen teratas
8 Hasil dari perolehan n dokumen teratas
disimpan dalam arraytempcontent[data[attrs][docno]].Cu
plikan implementasi untuk mengambil 10 dokumen teratas dapat dilihat pada Gambar
8.Gambar 9 adalah contoh dari dokumen teratas dengan query, “Siapa saja pejabat
yang menjadi tersangka kasus ilegal logging?”
[suarakarya000000-016.txt] = Maraknya praktek illegal
logging penebangan liar di wilayah provinsi
[LOCATION]Kalimantan Tengah[LOCATION] yang terkenal
dengan emas hijau hingga kini terus berlangsung, bahkan
sampai merambah kawasan Taman Nasional [LOCATION]Tanjung
Puting[LOCATION] [LOCATION]TNTP[LOCATION]
yang merupakan pusat rehabilitasi orangutan.
………
Gambar 9 Dokumen teratas
5. Pembentukan Kalimat