penghubung, dan kata tersebut merupakan kata dasar yang bersifat kata benda atau kata kerja, adalah kandidat frase. Setiap kandidat frase ini akan dihitung nilai
kemunculannya di semua dokumen yang ada dalam koleksi. Setelah nilai dari setiap kandidat frase ini didapat, langkah berikutnya adalah akan dilakukan
penyaringan berdasarkan nilai kemunculan terkecil.
3.3. Stemming
Proses stemming perlu dilakukan dalam pre-pemrosesan sistem ini dikarenakan token-token graf yang dibentuk memerlukan kata-kata dasar dari
dokumen. Selain itu, proses stemming ini akan disisipkan proses identifikasi sifat imbuhan dalam kata tersebut. Metode stemming yang dilakukan adalah table
lookup Brute Force.
Gambar 1 Representasi Table tRelasiKK Dalam Basis Data Field
makna dalam tabel tRelasiKK tersebut merepresentasikan makna verteks penghubung antar node. Makna yang akan diperbaharui sementara hanya
yang bermakna kausatif causative atau menyebabkan tindakan aktif. Berdasarkan makna-makna imbuhan pada tinjauan pustaka di atas, imbuhan-
imbuhan yang memiliki relasi dengan sifat kausalitas adalah “me-“, “meng-“, “menge-“, “meny-“, “mem-“, “di-“, “-an”, “-kan”, “pe-an”, “peng-an”, “peny-an”,
“pem-an”, dan “per-an”.
3.4. Knowledge Base
Knowledge Base disini adalah media penyimpanan hasil pelatihan dokumen
untuk pengenalan frase dan sifat-sifat imbuhan dari suatu kata. Knowledge Base ini akan berbentuk dokumen teks dan perangkat enterprise basis data, yang akan
diperbaharui secara berkala setiap ada dokumen pengujian yang masuk. Penggunaan perangkat enterprise basis data SQL Server MySQL digunakan
karena metode stemming yang digunakan table lookup, sehingga memerlukan
perangkat lunak basis data yang mampu menyimpan dengan baik jutaan data. Penyimpanan media teks biasa kurang mampu menanganinya dikarenakan objek
yang akan disimpan begitu banyak. Selain itu juga diharapkan agar representasi ke dalam graf menjadi lebih cepat.
3.5. Peringkasan Teks
Sifat penyederhanaan graf yang akan melakukan reformulasi isi dokumen, mengategorikan peringkasan ini ke dalam abstraksi teks. Namun metode ekstraksi
peringkasan teks melalui identifikasi kalimat utama dengan menggunakan metode kombinasi linear akan dicoba untuk menyederhanakan kalimat-kalimat yang akan
direpresentasikan ke dalam graf. Variabel-variabel yang valid akan dianalisis untuk mendapatkan representasi kepentingan dari isi suatu dokumen. Nilai
threshold dari bobot antara kalimat tersebut akan dianalisis untuk mendapatkan
nilai optimal. 3.6.
Analisis Relasi Kausalitas
Jenis relasi Knowledge Graph yang akan dianalisis adalah relasi kausalitas. Pembentuk relasi kausalitas ini adalah dengan adanya kata kerja
berawalan “me-” atau “di-”, dengan dua kata benda yang mengapitnya subjek dan objek. Pengambilan 2 jenis awalan tersebut dengan alasan hampir semua kata
berimbuhan “me-” atau “di-” memiliki makna kausalitas, sementara untuk imbuhan “pe-” yang juga memiliki makna tindakan aktif, lebih sering muncul
kata-kata yang bermakna pembentuk kata benda dalam beberapa dokumen. Analisis relasi kausalitas ini akan menggunakan metode berbasiskan aturan rule
base . Aturan-aturan ini akan dianalisis dari beberapa dokumen contoh yang
direpresentasi manual. 3.7.
Representasi Graf
Sekumpulan relasi kausalitas yang didapat dari proses sebelumnya akan semakin memudahkan dalam representasi ke dalam graf. Penerjemahan
sekumpulan relasi kausalitas tersebut akan menggunakan representasi graf hasil penelitian Hoede dan Nurdiati 2008 seperti pada Gambar 2 di bawah ini.
Gambar 2 Representasi Kausalitas dari Dua Node Hoede Nurdiati 2008
3.8. Evaluasi Peringkasan Teks