Proses ekstraksi kalimat diharapkan mampu menyaring kalimat-kalimat yang benar-benar mencirikan dokumen. Hal ini dengan tujuan, proses analisis
kausalitas hanya fokus pada kalimat-kalimat inti saja. Penentuan variabel-variabel yang akan digunakan sebagai perhitungan dalam kombinasi linear akan dianalisis
berikut bobot untuk tiap variabelnya. Langkah
penelitian berikutnya
adalah analisis
kausalitas dan
merepresentasikannya ke dalam graf. Analisis hubungan kausalitas ini dapat dilakukan pertama-tama dengan mengenali sifat kata kerja penghubung antara
subjek dengan objeknya. Kata kerja ini akan direpresentasikan ke dalam verteks, sementara subjek dan objek akan direpresentasikan ke dalam node. Verteks-
verteks dalam Knowledge Graph akan memiliki beberapa simbol berbeda untuk beberapa sifat kata kerja.
3.2. Analisis Frase
Analisis frase
merupakan langkah
pertama penelitian
untuk mengidentifikasi setiap kemungkinan frase yang terdapat dalam dokumen.
Pengenalan frase ini sangat penting dalam peringkasan teks agar kata yang seharusnya menjadi satu frase tidak teringkas. Metode yang digunakan dalam
analisis frase ini adalah FR-Perceptron Learning hasil penelitian dari Carreras Xavier dan Marquez Lluis 2005.
Analisis frase ini akan melakukan pelabelan terhadap kata benda dan kata kerja. Pelabelan yang hanya sebatas kata benda dan kata kerja dilakukan dengan
pertimbangan bahwa frase dibentuk oleh kata benda dan kata kerja dasar. Hasil dari analisis frase ini akan dikumpulkan dalam knowledge base, dan akan terus
dilakukan pembaharuan setiap ada dokumen pengujian yang masuk. Kamus kata benda dan kata kerja ini dibuat dari Kamus Besar Bahasa
Indonesia, yang disimpan dalam 2 dokumen .txt terpisah untuk masing-masing kamus kata benda dan kata kerja. Proses pencariannya menggunakan metode
regular expressions dengan rule exact match. Hal ini dilakukan untuk memercepat
proses pengidentifikasian kata benda dan kata kerja tersebut. Aturan dalam pengidentifikasian frase ini adalah dengan menganggap setiap
sederetan kata yang berurutan, tidak dipisahkan oleh tanda baca dan kata
penghubung, dan kata tersebut merupakan kata dasar yang bersifat kata benda atau kata kerja, adalah kandidat frase. Setiap kandidat frase ini akan dihitung nilai
kemunculannya di semua dokumen yang ada dalam koleksi. Setelah nilai dari setiap kandidat frase ini didapat, langkah berikutnya adalah akan dilakukan
penyaringan berdasarkan nilai kemunculan terkecil.
3.3. Stemming
Proses stemming perlu dilakukan dalam pre-pemrosesan sistem ini dikarenakan token-token graf yang dibentuk memerlukan kata-kata dasar dari
dokumen. Selain itu, proses stemming ini akan disisipkan proses identifikasi sifat imbuhan dalam kata tersebut. Metode stemming yang dilakukan adalah table
lookup Brute Force.
Gambar 1 Representasi Table tRelasiKK Dalam Basis Data Field
makna dalam tabel tRelasiKK tersebut merepresentasikan makna verteks penghubung antar node. Makna yang akan diperbaharui sementara hanya
yang bermakna kausatif causative atau menyebabkan tindakan aktif. Berdasarkan makna-makna imbuhan pada tinjauan pustaka di atas, imbuhan-
imbuhan yang memiliki relasi dengan sifat kausalitas adalah “me-“, “meng-“, “menge-“, “meny-“, “mem-“, “di-“, “-an”, “-kan”, “pe-an”, “peng-an”, “peny-an”,
“pem-an”, dan “per-an”.
3.4. Knowledge Base