NLP dalam Bahasa Indonesia

2.2.4 Natural Language Processing

Natural language processing NLP atau pengolahan bahasa alami adalah cabang ilmu kecerdasan buatan artificial intelligenceAI dengan ilmu linguistik Pushpak, 2010. Yang menjadi perhatian dalam NLP adalah bagaimana membuat komputermesin mengerti bahasa alami manusia sehingga antara manusia dan komputer dapat berinteraksi dengan perantara bahasa alami, baik itu berupa teks ataupun pesan suara speech. NLP banyak memberi kemudahan kepada manusia, diantaranya: aplikasi penerjemah bahasa natural language translation, aplikasi question answeringpersonal assistant, peringkasan dokumen teks otomatis tex summarization, dan masih banyak lagi. Secara garis besar, NLP terbagi menjadi dua bidang, yakni: Natural Language Understanding NLU merupakan bidang yang mengertikan understanding input bahasa alami, dan Natural Language Generation NLG yang menyusun teks bahasa alami.

2.2.4.1 NLP dalam Bahasa Indonesia

Pengolahan bahasa alami mengenal beberapa tingkat pengolahan, yaitu: a Fonetik dan fonologi Sering digunakan dalam sistem berbasis suara speech based system. Berhubungan dengan suara yang menghasilkan kata yang dapat dikenali. b Morfologi Pengetahuan tentang kata dan pembentukannya. Digunakan untuk membedakan satu kata dengan lainnya. c Sintaksis Pembentukan kalimat oleh kata-kata yang saling berhubunganberurutan. Pengaturan tata letak suatu kata dalam kalimat akan membentuk kalimat yang dapat dikenali. Natural Language Processing Komputer Input bahasa alami Output bahasa alami Understanding Generation Gambar 2.2 Dua Fase Utama NLP d Semantik Pemetaan dari struktur sintaksis yang mempelajari arti suatu kata dalam kalimat belum mencangkup konteks dari kalimat tersebut. e Pragmatik Pengetahuan pada tingkatan ini berkaitan dengan masing-masing konteks yang berbeda tergantung pada situasi dan tujuan pembuatan sistem. NLIDB Bahasa Indonesia yang dikembangkan dalam penelitian ini mengolah input berupa teks tertulis, sehingga pengolahan NLP yang digunakan hanyalah morfologi, sintaksis, dan semantik. Terdapat sembilan kelas kata yang secara umum digunakan dalam Bahasa Indonesia Abdul Chaer, 2008, yakni: 1. Kata benda nomina 2. Kata kerja verba 3. Kata sifat adjektiva 4. Kata kerja tambahan adverbia 5. Kata bilangan numeralia 6. Kata depan preposisi 7. Kata penghubung konjungsi 8. Kata ganti pronomina 9. Kata ungkapan interjeksi Namun, dalam penelitian ini, penulis tidak menggunakan kata ganti dan kata ungkapan karena kedua kelas kata tersebut tidak dapat diterapkan sebagai perintah untuk menyeleksi data pada basis data arsip surat. Kumpulan kata dapat membentuk frase. Secara sintaksisgramatikal Bahasa Indonesia, terdapat beberapa kelas kata yang jika disatukan akan membentuk frase Abdul Chaer, 2009, diantaranya adalah: 1. Frase nominal Nomina + nomina; nomina + verba; nomina + adjektiva; adverbial + nomina; numeralia + nomina. 2. Frase verbal Adverbia + verba; verba + nomina; verba + adjektiva. 3. Frase adjektival Adjektiva + nomina; adjektiva + adjektiva; adjektiva + adverbia; 4. Frase preposisional Preposisi + nomina. 5. Frase numeralia numeralia + nomina. Frase-frase tersebut akan membantu dalam menyusun kalimat dengan menggunakan pola-pola kalimat tertentu. Frase-frase ini juga menjadi landasan penyusunan aturan-aturan sintaksis dalam sistem NLIDB Bahasa Indonesia. Pada sistem NLIDB Bahasa Indonesia yang dikembangkan penulis, input sistem adalah berupa kalimat perintah dasar. Menurut Abdul Chaer 2009, Pola kalimat perintah dasar dalam Bahasa Indonesia menggunakan pola inversi, yang artinya predikat mendahului subjek. Pola kalimat inversi dapat berupa: P-S, P-S- K, atau P-S-O-K. Di mana, subjek dan objek dapat disusun oleh kata nomina, frase preposisional, atau frase nominal. Sedangkan, predikat dapat disusun oleh kata kerja, kata sifat, kata kerja tambahan, frase verbal, frase numeralia, frase adjektiva, maupun frase adverbial.

2.2.4.2 Context-Free Grammar CFG