BAB 4 HASIL DAN PEMBAHASAN
4.1. Pre-pemrosesan Dokumen
Pre-pemrosesan pertama yang dilakukan adalah analisis frase dari sekumpulan dokumen pelatihan. Dari kurang lebih 1,300 dokumen pelatihan,
metode FR-Perceptron mampu mengenali 15,789 frase. Seluruh frase tersebut disimpan dalam file berformat .txt untuk mempercepat penemu-kembaliannya.
Proses penemu-kembaliannya dengan menggunakan metode regular expressions karena waktu yang diperlukan untuk pembandingannya sangat cepat. Pada kamus
frase yang berhasil dibentuk juga ditambahkan beberapa nama negara yang terdiri atas 2 kata.
Pengenalan frase automatis tersebut juga mengenali beberapa frase yang salah. Frase yang salah ini yaitu frase-frase yang tidak ada dalam ejaan Bahasa
Indonesia yang benar. Frase-frase yang salah terkenali ini dikarenakan adanya kata-kata yang saling berdampingan yang secara kebetulan muncul lebih dari satu
kali dalam satu dokumen yang disebabkan oleh adanya topik atau pembahasan yang sangat menonjol dalam satu dokumen, misalnya frase “x meter”, atau “iv
menteri”. Frase “x meter” muncul dikarenakan adanya pendefinisian panjang dari suatu tanaman. Huruf x sering dijadikan simbol pengganti angka dalam
matematika, sehingga dalam beberapa dokumen, huruf tersebut banyak muncul jika ada pendefinisian ukuran.
Untuk kata-kata seperti keputusan presiden atau keputusan menteri, biasanya akan muncul angka atau huruf romawi di sebelum atau sesudah kata
presiden atau menteri. Dalam satu dokumen, biasanya kalimat tentang keputusan menteri atau presiden itu akan muncul lebih dari satu kali, sehingga frase “iv
menteri” bisa terkenali. Pada tahap pengindeksan, hasil pengindeksan disimpan dalam basis data
karena jumlah baris yang dihasilkan sangat banyak. Tahap pengindeksan merupakan tahap akhir dalam pre-pemrosesan dokumen. Hasil pengindeksan
tersebut akan digunakan untuk proses ekstraksi kalimat dan analisis kausalitas pada tahap berikutnya. Algoritme dari proses pelatihan mendapatkan kandidat
frase dapat dilihat di bawah ini.
Public void getCandidatePhrasedocument For each word in a document
If isNounTypeword[i] || isVerbTypeword[i] isNounTypeword[i+1] || isNounTypeword[i+1] then
_temp = word[i] + “ ” + word[i+1] If notExistPhrase_temp
addToList_temp, 1 else
_sumPhrase = getFromList_temp updateList_temp, _sumPhrase
End if End if
Next word
4.2. Parsing