Pre-pemrosesan Dokumen HASIL DAN PEMBAHASAN

BAB 4 HASIL DAN PEMBAHASAN

4.1. Pre-pemrosesan Dokumen

Pre-pemrosesan pertama yang dilakukan adalah analisis frase dari sekumpulan dokumen pelatihan. Dari kurang lebih 1,300 dokumen pelatihan, metode FR-Perceptron mampu mengenali 15,789 frase. Seluruh frase tersebut disimpan dalam file berformat .txt untuk mempercepat penemu-kembaliannya. Proses penemu-kembaliannya dengan menggunakan metode regular expressions karena waktu yang diperlukan untuk pembandingannya sangat cepat. Pada kamus frase yang berhasil dibentuk juga ditambahkan beberapa nama negara yang terdiri atas 2 kata. Pengenalan frase automatis tersebut juga mengenali beberapa frase yang salah. Frase yang salah ini yaitu frase-frase yang tidak ada dalam ejaan Bahasa Indonesia yang benar. Frase-frase yang salah terkenali ini dikarenakan adanya kata-kata yang saling berdampingan yang secara kebetulan muncul lebih dari satu kali dalam satu dokumen yang disebabkan oleh adanya topik atau pembahasan yang sangat menonjol dalam satu dokumen, misalnya frase “x meter”, atau “iv menteri”. Frase “x meter” muncul dikarenakan adanya pendefinisian panjang dari suatu tanaman. Huruf x sering dijadikan simbol pengganti angka dalam matematika, sehingga dalam beberapa dokumen, huruf tersebut banyak muncul jika ada pendefinisian ukuran. Untuk kata-kata seperti keputusan presiden atau keputusan menteri, biasanya akan muncul angka atau huruf romawi di sebelum atau sesudah kata presiden atau menteri. Dalam satu dokumen, biasanya kalimat tentang keputusan menteri atau presiden itu akan muncul lebih dari satu kali, sehingga frase “iv menteri” bisa terkenali. Pada tahap pengindeksan, hasil pengindeksan disimpan dalam basis data karena jumlah baris yang dihasilkan sangat banyak. Tahap pengindeksan merupakan tahap akhir dalam pre-pemrosesan dokumen. Hasil pengindeksan tersebut akan digunakan untuk proses ekstraksi kalimat dan analisis kausalitas pada tahap berikutnya. Algoritme dari proses pelatihan mendapatkan kandidat frase dapat dilihat di bawah ini. Public void getCandidatePhrasedocument For each word in a document If isNounTypeword[i] || isVerbTypeword[i] isNounTypeword[i+1] || isNounTypeword[i+1] then _temp = word[i] + “ ” + word[i+1] If notExistPhrase_temp addToList_temp, 1 else _sumPhrase = getFromList_temp updateList_temp, _sumPhrase End if End if Next word

4.2. Parsing