untuk memenuhi kebutuhan tertentu, misalnya bahasa pemodelan atau bahasa pemrograman komputer.
Chomsky adalah orang yang pertama kali merepresentasikan bahasa sebagai rangkaian simbol
[14]
. Chomsky berhasil memperlihatkan bahwa bahasa apapun dapat direpresentasikan dengan suatu cara yang universal. Pemikiran
Chomsky yang merepresentasikan bahasa sebagai kumpulan simbol-simbol dan aturan yang mengatur susunan simbol-simbol tersebut telah membuka peluang
untuk melakukan pemrosesan bahasa secara simbolik dengan teknologi komputer, sehingga melahirkan bidang ilmu Natural Language Processing NLP.
2.4.1 Pengertian Natural Language Processing
Pengolahan bahasa alami NLP adalah bidang ilmu komputer dan linguistik berkaitan dengan interaksi antara komputer dan manusia. Seluler
generasi bahasa sistem komputer yang mengubah informasi dari database ke dalam bahasa manusia yang dapat dibaca
[14]
. Natural language processing, biasanya disingkat dengan NLP, mencoba membuat komputer mampu memahami
suatu perintah yang dituliskan dalam bentuk bahasa sehari-hari dan diharapkan komputer juga merespon dalam bahasa yang mirip dengan bahasa natural. Setelah
komputer bisa memahami perintah dalam bahasa natural, maka diharapakan sistem komputer juga dapat memberikan respon dalam bahasa natural pula.
Pada proses NLP terdapat proses dimana teks masukan akan dipotong berdasarkan setiap kata ataupun karakter penyusunnya. Proses ini dinamakan
proses tokenizing. Hasil setiap pemotongan ini dinamakan token.
2.5 Ekstraksi Informasi
Untuk mendapatkan informasi terstruktur dari teks yang tidak terstruktur, hal pertama yang perlu didefinisikan adalah informasi target sebagai informasi
terstruktur yang akan diekstrak
[8]
. Ekstraksi Informasi adalah pengambilan fakta
dan informasi terstruktur dari isi koleksi teks yang besar. Pengertian fakta disini adalah beragam entitas yang diperhitungkan. Secara singkat ekstraksi informasi
adalah sebuah proses mendapatkan fakta-fakta terstruktur dari data yang tersedia
[11]
. Berdasarkan penjelasan dari kutipan di atas, penulis berpendapat
bahwa ekstraksi informasi adalah proses penyaringan parameter-parameter informasi fakta dari data yang telah tersedia.
2.6 Sistem Berbasis Aturan
Sistem Berbasis Aturan Rule-based System adalah jalan untuk menyimpan atau memanipulasi pengetahuan untuk menintrepentasikan informasi
yang berguna
[7]
. Biasanya sistem ini diimplementasikan dengan aplikasi Artificial Intelligence. Suatu Aturan terdiri dari 2 bagian, yaitu:
1. Antacedent, yaitu bagian yang mengekspresikan situasi atau premis
Pernyataan berawalan IF 2.
Consequent, yaitu bagian yang menyatakan suatu tindakan tertentu atau konklusi yang diterapkan jika situasi atau premis bernilai benar
Pernyataan berawalan THEN. Umumnya, sebuah aturan dapat mempunyai gabungan beberapa
antecedent dengan kata kunci AND konjungsi, OR disjungsi, atau kombinasi keduanya. Metode Aturan dapat dilihat pada ilustrasi berikut.
IF antecedent 1 AND antecedent 2
. .
. AND antecedent n
THEN consequent IF antecedent 1
OR antecedent 2 .
. .
OR antecedent n THEN consequent
Gambar 2.5 Contoh Algoritma Rule-Based Antacedent dan Consequent