Knowledge Base Peringkasan Teks

penghubung, dan kata tersebut merupakan kata dasar yang bersifat kata benda atau kata kerja, adalah kandidat frase. Setiap kandidat frase ini akan dihitung nilai kemunculannya di semua dokumen yang ada dalam koleksi. Setelah nilai dari setiap kandidat frase ini didapat, langkah berikutnya adalah akan dilakukan penyaringan berdasarkan nilai kemunculan terkecil.

3.3. Stemming

Proses stemming perlu dilakukan dalam pre-pemrosesan sistem ini dikarenakan token-token graf yang dibentuk memerlukan kata-kata dasar dari dokumen. Selain itu, proses stemming ini akan disisipkan proses identifikasi sifat imbuhan dalam kata tersebut. Metode stemming yang dilakukan adalah table lookup Brute Force. Gambar 1 Representasi Table tRelasiKK Dalam Basis Data Field makna dalam tabel tRelasiKK tersebut merepresentasikan makna verteks penghubung antar node. Makna yang akan diperbaharui sementara hanya yang bermakna kausatif causative atau menyebabkan tindakan aktif. Berdasarkan makna-makna imbuhan pada tinjauan pustaka di atas, imbuhan- imbuhan yang memiliki relasi dengan sifat kausalitas adalah “me-“, “meng-“, “menge-“, “meny-“, “mem-“, “di-“, “-an”, “-kan”, “pe-an”, “peng-an”, “peny-an”, “pem-an”, dan “per-an”.

3.4. Knowledge Base

Knowledge Base disini adalah media penyimpanan hasil pelatihan dokumen untuk pengenalan frase dan sifat-sifat imbuhan dari suatu kata. Knowledge Base ini akan berbentuk dokumen teks dan perangkat enterprise basis data, yang akan diperbaharui secara berkala setiap ada dokumen pengujian yang masuk. Penggunaan perangkat enterprise basis data SQL Server MySQL digunakan karena metode stemming yang digunakan table lookup, sehingga memerlukan perangkat lunak basis data yang mampu menyimpan dengan baik jutaan data. Penyimpanan media teks biasa kurang mampu menanganinya dikarenakan objek yang akan disimpan begitu banyak. Selain itu juga diharapkan agar representasi ke dalam graf menjadi lebih cepat.

3.5. Peringkasan Teks

Sifat penyederhanaan graf yang akan melakukan reformulasi isi dokumen, mengategorikan peringkasan ini ke dalam abstraksi teks. Namun metode ekstraksi peringkasan teks melalui identifikasi kalimat utama dengan menggunakan metode kombinasi linear akan dicoba untuk menyederhanakan kalimat-kalimat yang akan direpresentasikan ke dalam graf. Variabel-variabel yang valid akan dianalisis untuk mendapatkan representasi kepentingan dari isi suatu dokumen. Nilai threshold dari bobot antara kalimat tersebut akan dianalisis untuk mendapatkan nilai optimal. 3.6. Analisis Relasi Kausalitas Jenis relasi Knowledge Graph yang akan dianalisis adalah relasi kausalitas. Pembentuk relasi kausalitas ini adalah dengan adanya kata kerja berawalan “me-” atau “di-”, dengan dua kata benda yang mengapitnya subjek dan objek. Pengambilan 2 jenis awalan tersebut dengan alasan hampir semua kata berimbuhan “me-” atau “di-” memiliki makna kausalitas, sementara untuk imbuhan “pe-” yang juga memiliki makna tindakan aktif, lebih sering muncul kata-kata yang bermakna pembentuk kata benda dalam beberapa dokumen. Analisis relasi kausalitas ini akan menggunakan metode berbasiskan aturan rule base . Aturan-aturan ini akan dianalisis dari beberapa dokumen contoh yang direpresentasi manual. 3.7. Representasi Graf Sekumpulan relasi kausalitas yang didapat dari proses sebelumnya akan semakin memudahkan dalam representasi ke dalam graf. Penerjemahan sekumpulan relasi kausalitas tersebut akan menggunakan representasi graf hasil penelitian Hoede dan Nurdiati 2008 seperti pada Gambar 2 di bawah ini. Gambar 2 Representasi Kausalitas dari Dua Node Hoede Nurdiati 2008

3.8. Evaluasi Peringkasan Teks