Analisis Frase Stemming METODE PENELITIAN

Proses ekstraksi kalimat diharapkan mampu menyaring kalimat-kalimat yang benar-benar mencirikan dokumen. Hal ini dengan tujuan, proses analisis kausalitas hanya fokus pada kalimat-kalimat inti saja. Penentuan variabel-variabel yang akan digunakan sebagai perhitungan dalam kombinasi linear akan dianalisis berikut bobot untuk tiap variabelnya. Langkah penelitian berikutnya adalah analisis kausalitas dan merepresentasikannya ke dalam graf. Analisis hubungan kausalitas ini dapat dilakukan pertama-tama dengan mengenali sifat kata kerja penghubung antara subjek dengan objeknya. Kata kerja ini akan direpresentasikan ke dalam verteks, sementara subjek dan objek akan direpresentasikan ke dalam node. Verteks- verteks dalam Knowledge Graph akan memiliki beberapa simbol berbeda untuk beberapa sifat kata kerja.

3.2. Analisis Frase

Analisis frase merupakan langkah pertama penelitian untuk mengidentifikasi setiap kemungkinan frase yang terdapat dalam dokumen. Pengenalan frase ini sangat penting dalam peringkasan teks agar kata yang seharusnya menjadi satu frase tidak teringkas. Metode yang digunakan dalam analisis frase ini adalah FR-Perceptron Learning hasil penelitian dari Carreras Xavier dan Marquez Lluis 2005. Analisis frase ini akan melakukan pelabelan terhadap kata benda dan kata kerja. Pelabelan yang hanya sebatas kata benda dan kata kerja dilakukan dengan pertimbangan bahwa frase dibentuk oleh kata benda dan kata kerja dasar. Hasil dari analisis frase ini akan dikumpulkan dalam knowledge base, dan akan terus dilakukan pembaharuan setiap ada dokumen pengujian yang masuk. Kamus kata benda dan kata kerja ini dibuat dari Kamus Besar Bahasa Indonesia, yang disimpan dalam 2 dokumen .txt terpisah untuk masing-masing kamus kata benda dan kata kerja. Proses pencariannya menggunakan metode regular expressions dengan rule exact match. Hal ini dilakukan untuk memercepat proses pengidentifikasian kata benda dan kata kerja tersebut. Aturan dalam pengidentifikasian frase ini adalah dengan menganggap setiap sederetan kata yang berurutan, tidak dipisahkan oleh tanda baca dan kata penghubung, dan kata tersebut merupakan kata dasar yang bersifat kata benda atau kata kerja, adalah kandidat frase. Setiap kandidat frase ini akan dihitung nilai kemunculannya di semua dokumen yang ada dalam koleksi. Setelah nilai dari setiap kandidat frase ini didapat, langkah berikutnya adalah akan dilakukan penyaringan berdasarkan nilai kemunculan terkecil.

3.3. Stemming

Proses stemming perlu dilakukan dalam pre-pemrosesan sistem ini dikarenakan token-token graf yang dibentuk memerlukan kata-kata dasar dari dokumen. Selain itu, proses stemming ini akan disisipkan proses identifikasi sifat imbuhan dalam kata tersebut. Metode stemming yang dilakukan adalah table lookup Brute Force. Gambar 1 Representasi Table tRelasiKK Dalam Basis Data Field makna dalam tabel tRelasiKK tersebut merepresentasikan makna verteks penghubung antar node. Makna yang akan diperbaharui sementara hanya yang bermakna kausatif causative atau menyebabkan tindakan aktif. Berdasarkan makna-makna imbuhan pada tinjauan pustaka di atas, imbuhan- imbuhan yang memiliki relasi dengan sifat kausalitas adalah “me-“, “meng-“, “menge-“, “meny-“, “mem-“, “di-“, “-an”, “-kan”, “pe-an”, “peng-an”, “peny-an”, “pem-an”, dan “per-an”.

3.4. Knowledge Base