1. Bahasa alami yang digunakan pada penelitian ini dibatasi pada Bahasa
Indonesia baku yang sesuai dengan Ejaan Yang Disempurnakan EYD. 2.
Bahasa alami yang diolah menjadi format SQL dalam penelitian ini dibatasi pada expression SELECT, FROM, dan WHERE, karena ketiga
expression ini dapat menjadi fungsi yang bisa mewakili fungsi lainnya serta merupakan expression dasar yang paling sering digunakan.
3. Perintah bahasa alami yang digunakan dibatasi pada perintah untuk
menampilkanmenyeleksi data karena perintah ini dapat digunakan oleh semua tingkatan user. Berbeda dengan perintah penambahan insert,
pengubahan update, maupun penghapusan delete yang umumnya hanya bisa dilakukan oleh golongan user tertentu saja.
4. Bahasa alami yang akan diolah menjadi SQL berupa sebuah kalimat
perintah sederhana kalimat diawali dengan kata kerja, baik perintah bersyarat ataupun tidak, tidak berupa kalimat bertingkatmajemuk, serta
berpola kalimat inversi predikat mendahului subjek. 5.
Semantik yang digunakan pada penelitian ini terbatas pada domain arsip surat. Kata-kata yang merepresentasikan data-data pada basis data surat
dibuatkan daftar padanan katanya untuk dijadikan rule semantik, semisal “tanggal” dapat direpresentasikan dengan kata “pada”, alamat
direpresentasi kan dengan kata “dari”, “tujuan”, “pengirim”, dan lain
sebagainya.
1.4 Tujuan Penelitian
Tujuan dari penelitian ini adalah sebagai berikut. 1.
Mengetahui tahapan dan metode pengembangan NLIDB Bahasa Indonesia menggunakan kaidah sintaksis dan semantik agar sistem mampu
mentranslasikan query input menjadi SQL. 2.
Mengetahui peranan fitur pembangkitan query alternatif pada sistem NLIDB.
1.5 Manfaat Penelitian
Manfaat yang bisa didapatkan dari penelitian ini adalah:
1. Membantu end user yang awam dengan bahasa SQL untuk dapat
memperoleh data surat pada basis data dengan hanya menginputkan perintah dalam Bahasa Indonesia.
1.6 Metodologi Penelitian
Pada subbab metodelogi penelitian ini akan dijelaskan langkah-langkah dalam penelitian. Adapun subbab bahasan yang akan dijelaskan adalah desain
penelitian, pengumpulan data, persiapan query input, dan metode yang digunakan.
1.6.1 Desain Penelitian
Penelitian ini dilakukan untuk mengetahui bagaimana langkah-langkah dalam mentranslasikan suatu perintah Bahasa Indonesia menjadi query SQL
sehingga dapat mengakses basis data untuk mendapatkan data-data tertentu yang diinginkan. Perintah bahasa alami yang diperlukan adalah perintah yang sesuai
aturan EYD yang benar. Dalam proses pengolahan query bahasa alami tersebut akan diarahkan
menuju output yang diharapkan dengan memberikan opsi query alternatif jika terdapat kesalahan baik pada pengejaan kata, struktur kalimat, maupun maknanya.
Pendekatan yang digunakan adalah dengan penerapan kaidah-kaidah sintaksis dan semantik.
1.6.2 Pengumpulan Data
Data-data yang diperlukan dalam penelitian ini meliputi data kearsipan surat masuk dan surat keluar, kamus kata lexicon, daftar penggolongan kata,
aturan gramatikal, dan beberapa daftar sinonim kata. Semua data ini dikumpulkan dari berbagai sumber literatur dan internet. Khusus data arsip surat diambil sampel
sejumlah 60 data yang terdiri dari 30 surat masuk dan 30 surat keluar yang bersumber dari arsip surat Jurusan Ilmu Komputer Universitas Udayana pada
bulan Januari, September, dan Oktober tahun 2015. Pada kata-kata tertentu, dilakukan penggolongan kata yakni sebagai kata
kunci keyword, column word, operator, stopword serta unknown word agar mempermudah proses pengolahan. Sedangkan, grammar yang disusun berupa
aturan-aturan penggabungan katafrase menjadi kelompok frase ataupun kalimat. Grammar ini dituliskan dalam format Chomsky Normal Form. Semua aturan
gramatikal yang digunakan dikhususkan untuk kalimat perintah, yakni dengan pola kalimat inversi.
1.6.3 Persiapan Query Input
Query-query input yang akan diujikan pada sistem disusun atas dasar perintah-perintah yang lumrah digunakan untuk mencari data surat di berbagai
instansi. Semua query tersebut diterjemahkan ke dalam format SQL secara manual oleh penulis untuk kemudian dijadikan sebagai output goal yang harus dipenuhi
oleh sistem. Keberhasilan sistem menerjemahkan query bahasa Indonesia menjadi SQL dapat diketahui dengan mengacu pada kesesuaiannya terhadap goal SQL
tersebut.
1.6.4 Metode yang Digunakan
Metode-metode yang digunakan pada sistem NLIDB Bahasa Indonesia ini diantaranya:
tokenizing, stemming,
spell correction,
CYK language
understanding, syntactic parsing, semantic mapping, dan beberapa metode tertentu yang dikembangkan sendiri.
Tokenizing, stemming, dan spell correction digunakan saat mengolah query input untuk kemudian di-parsing agar diketahui kesesuaian query input
terhadap aturan gramatikal Bahasa Indonesia yang sudah disusun. Hasil parsing kemudian dijadikan acuan untuk mengelompokkan kata-kata dan menyusun
kombinasi keyword-value sehingga membentuk logical formlogic form pseudo SQL. Terakhir logic form akan ditranslasikan menjadi SQL dan dieksekusi pada
DBMS untuk mendapatkan data dari basis data. Keluaran dari beberapa metode di atas akan ditampilkan oleh sistem sebagai informasi agar user mengetahui arah
translasi query input ke SQL yang dilakukan sistem. Begitupun dengan data pada basis data yang berhasil di-retrieve akan ditampilkan juga sebagai output dari
sistem dengan bentuk tabel.
7
BAB II TINJAUAN PUSTAKA
2.1 Tinjauan Empiris
Penulis melakukan penelitian ini dengan terlebih dahulu mengkaji beberapa publikasi penelitian yang sudah pernah dilakukan dalam kurun waktu
lima tahun terakhir, diantaranya adalah sebagai berikut. a
Natural Language Interface to Database Using Semantic Matching.
Neelu Nihalani, 2011 Penelitian ini menggunakan aturan-aturan semantik pada pre-
processor yang di-generate secara otomatis. Administrator juga dapat melakukan pengaturan terhadap aturan-aturan tersebut. Aturan semantik
didapatkan dari WordNet yang berisi sinonim ataupun arti kata. Dengan menggunakan database Northwind peneliti berhasil membuat NLIDB yang
performanya lebih baik dari pada Microsoft English Query. b
NaLIR Natural Language Interface to Relational Database. Fei Li, 2014
Pada penelitian ini, dikembangkan NLIDB yang interaktif dengan modul interactive communicator yang ditonjolkan. Modul tersebut
memberikan pilihan-pilihan alternatif query kepada user saat ditemukan kesalahan saat memproses query input.
c
Antarmuka Bahasa Alami Untuk Melakukan Query Terhadap Terjemahan Al-Quran.
Suwanto Raharjo, 2014 Penelitian ini menggunakan aturan-aturan produksi untuk
menghasilkan SQL dari query bahasa alami. Aturan produksi tersebut digunakan untuk mencocokkan pola-pola sintaksis tertentu terhadap query
Bahasa Indonesia yang diawali dengan kata tanya 5W 1H. d
Aplikasi Pengolah Bahasa Alami untuk Aplikasi Query Database.
Taryadi, 2010 Pada penelitian ini juga digunakan pola-pola aturan produksi untuk
menghasilkan query SQL. aturan-aturan produksi yang digunakan masih sebatas perintah SELECT sederhana dengan sebuah tabel pada basis data
yang digunakan.
Pada penelitian-penelitian sebelumnya, NLIDB yang memproses Bahasa Inggris sudah mampu melakukan translasi dengan baik menggunakan kaidah-
kaidah sintaksis dan semantik, bahkan dengan menggunakan lebih dari satu tabel pada basis datanya. Sementara, penelitian-penelitian dengan query Bahasa
Indonesia masih banyak menggunakan aturan produksi ataupun pencocokan terhadap pola kalimat tertentu sehingga akan banyak ditemukan kesalahan output
jika diberikan input query yang tidak sesuai dengan aturan pola yang telah disiapkan.
Pada penelitian yang dilakukan penulis, digunakan aturan-aturan sintaksis dan semantik untuk mentranslasikan query Bahasa Indonesia menjadi SQL
dengan memberikan opsi query input alternatif sebagai respon terhadap kesalahan input yang dilakukan user, sehingga SQL yang dihasilkan diharapkan lebih tepat
dan output yang dihasilkan sistem sesuai dengan yang dimaksudkan oleh user. Tantangan yang dihadapi penulis dalam mengembangkan sistem NLIDB
menggunakan Bahasa Indonesia adalah sebagai berikut. 1.
Bidang NLP merupakan bidang yang sangat luas. Oleh karena itu, penelitian-penelitian mengenai NLIDB saat ini kebanyakan dibatasi pada
domain-domain tertentu. Walaupun, beberapa penelitian menggunakan Bahasa Inggris sudah ada yang menggunakan basis data universal yang
bisa bebas digunakan seperti NORTHWIND, namun tidak demikian dengan NLIDB yang menggunakan Bahasa Indonesia. Sistem NLIDB
Bahasa Indonesia yang pernah dikembangkan oleh penelitian terdahulu masih
sebatas menggunakan
domain-domain tertentu
yang dispesifikasikan sendiri.
2. Belum ada sistem NLIDB Bahasa Indonesia yang dapat digunakan oleh
publik, sehingga tidak ada cara untuk membandingkan performa sistem yang dikembangkan penulis dengan sistem lainnya yang berbahasa
Indonesia. 3.
Metode pencarian kata dasar yang digunakan pada penelitian ini adalah dengan metode stemming. Sementara, metode-metode stemmer Bahasa
Indonesia yang terkenal seperti Porter Stemmer ataupun algoritma Nazief- Adriani belum mampu menghasilkan kata dasar yang 100 akurat.
Sedangkan, Indonesian Lemmatizer Derwin Suhartono, 2014 yang memberikan akurasi yang lebih baik dari metode stemming, saat ini masih
sedang dikembangkan. Akan tetapi, mengingat perintah-perintah yang digunakan pada penelitian yang dilakukan penulis terbatas pada perintah
sederhana yang tidak terlalu banyak menggunakan kata berimbuhan yang kompleks, sehingga penulis memutuskan untuk menggunakan metode
stemming. 4.
Bahasa Indonesia sebenarnya sudah memiliki kamus sinonim ataupun arti kata seperti halnya WordNet dan Thesaurus pada Bahasa Inggris, namun
masih dalam tahap penyempurnaan. Pada penelitian yang dilakukan penulis, daftar kelas kata dan sinonimnya disusun secara manual dengan
acuan kamus Kamus Besar Bahasa Indonesia online www.kbbi.web.id. Dengan melihat keterbatasan-keterbatasan yang ada saat ini, penulis
melakukan pengujian performa sistem melalui referensi penelitian-penelitian sebelumnya yang menggunakan Bahasa Indonesia, yakni dengan mengujicobakan
sejumlah dataset perintah Bahasa Indonesia kepada sistem yang sebelumnya sudah disusun goal SQLnya terlebih dahulu. Hasil dari pengujian tersebut berupa
nilai precision dan recall.
2.2 Tinjauan Teoritis