1
BAB I PENDAHULUAN
1.1 Latar Belakang
Basis data merupakan kumpulan data yang berisi informasi yang sesuai bagi sebuah institusiperusahaan Silberschatz, 2002. Data-data yang disimpan
dalam basis data dapat memberikan informasi yang dibutuhkan bagi orang-orang dalam institusi tersebut. Untuk dapat mengakses dan mengolah basis data,
dibutuhkan suatu sistem yang disebut sistem manajemen basis data atau Database Management System DBMS. Sistem manajemen basis data diperkenalkan pada
tahun 1960 dan memiliki tujuan utama untuk menyediakan cara menyimpan dan mengambil informasi basis data secara mudah dan efisien Silberschatz, 2002.
Contoh DBMS adalah dBase, Microsoft Access, LibreOffice Base. Seiring pesatnya perkembangan teknologi informasi, basis data menjadi
semakin besar dan kompleks sehingga DBMS menjadi tidak cukup cepat dalam membaca data. Pada tahun 1970 diperkenalkan RDBMS, singkatan dari
Relational Database Management System. Contohnya adalah MySQL, MariaDB, SQLite. RDBMS mendukung relasional antar tabel menggunakan primary key,
foreign key, dan index. Hal ini menjadikan RDBMS lebih cepat dalam menyimpan dan mengambil data pada basis data. Hingga kini RDBMS paling banyak
digunakan karena mampu mengolah data yang besar dan kompleks. RDBMS mengunakan bahasa standar formal language terstruktur untuk
mengolah basis data yang disebut Structured Query Language SQL. SQL dikembangkan oleh Donald D. Chamberlin dan Raymond F. Boyce pada
pertengahan tahun 1970. Dengan menggunakan perintah-perintah query SQL, pengguna dapat melakukan operasi-operasi tertentu pada basis data, seperti
menampilkan, menambah, mengubah, dan menghapus data. Namun, tidak banyak orang memahami sintaks query SQL dan struktur basis data dan tidak banyak
orang memiliki waktu untuk mempelajarinya Gaori Rao, 2010. Agar pengguna khususnya end user dapat mengakses basis data, maka digunakanlah antar muka
khusus berupa form form-based interface. Dengan antarmuka form, end user dapat mengakses basis data tanpa perlu tahu sintaks SQL atau mempelajari skema
basis data di dalamnya.
Seiring kemajuan ilmu kecerdasan buatan, pengolahan bahasa alami Natural Language ProcessingNLP mulai banyak diaplikasikan pada berbagai
bidang, salah satunya adalah pada pengolahan basis data. NLP merupakan bidang ilmu kecerdasan buatan yang secara khusus mempelajari bagaimana
mesinkomputer mampu “memahami” bahasa alami manusia Bahasa Inggris, Bahasa Indonesia, dsb. dengan memberlakukan berbagai macam pendekatan
Androutsopoulos, 1995. Dengan mengaplikasikan NLP pada pengolahan basis data, pencarian data dapat dilakukan hanya dengan menggunakan sebuah perintah
tertulis dalam bahasa alami. Konsep ini dikenal dengan istilah Natural Language Interface to Database NLIDB. NLIDB adalah suatu antarmuka yang mampu
mengolah bahasa alami manusia menjadi SQL shingga dapat dieksekusi pada suatu database tertentu yang diperuntukkan Androutsopoulos, 1995. Hadirnya
NLIDB memberikan opsi lain bagi end user untuk mengakses basis data selain pengisian form pada antarmuka berbasis form.
NLIDB pertama kali dikembangkan pada tahun 60 hingga 70an. NLIDB yang terkenal terbaik pada saat itu adalah LUNAR, yang merupakan antarmuka
bahasa alami untuk mengakses basis data analisis kimia bebatuan di Bulan. Beberapa NLIDB lainnya yang populer diantaranya adalah: INTELLECT,
LOQUI, PRECISE, MASQUE, dll. Kebanyakan NLIDB tersebut menggunakan antarmuka Bahasa Inggris ke bahasa SQL.
Di Indonesia sendiri, penelitian mengenai NLIDB untuk Bahasa Indonesia telah dilakukan sejak lebih dari sedekade terakhir. Andiyani 2002 menerapkan
query Bahasa Indonesia untuk basis data akademik, Hartati dan Zuliarso 2008 dan Wibisono 2013 menerapkan aturan produksi pada pengolahan bahasa alami
untuk query basis data XML. Publikasi NLIDB Bahasa Indonesia dari tahun ke tahun mengalami pasang surut. Hal ini disebabkan karena kompleksnya
bahasalinguistik, seperti gramatikal, morfologi pembentukan kata, sintaksis, semantik, pragmatik, serta ambiguitas kerancuan atau makna ganda dari suatu
kata atau kalimat. Hingga saat ini, ambiguitas memang menjadi permasalahan utama dalam NLP yang masih sulit ditangani Pusphak, 2010.
Dengan cukup kompleksnya permasalahan dalam bidang NLP, tentu saja pengolahan NLIDB dengan menggunakan pendekatan ataupun aturan produksi
dengan template tertentu seperti yang telah dilakukan pada penelitian-penelitian berbahasa Indonesia sebelumnya, akan lebih sulit untuk menangani kesalahan-
kesalahan struktural maupun makna. Oleh karena itu, penulis memberikan solusi berupa fitur pembangkitan query alternatif yang dapat memberikan opsi query
yang lebih benar. Pembangkitan query alternatif ini akan mengurangi risiko kesalahan output sistem dalam mentranslasikan query Bahasa Indonesia menjadi
SQL. Sebelum ditranslasikan, terlebih dahulu query input dianalisis menggunakan kaidah-kaidah sintaksis dan semantik. Analisis sintaksis memastikan struktur
penulisan perintah yang diinputkan user sesuai dengan aturan gramatikal ketatabahasaan yang benar. Sedangkan, analisis semantik memetakan makna lain
yang terkandung dalam suatu kata sehingga arah translasi SQL tidak jauh dari basis data yang digunakan.
Penelitian ini mengangkat ruang lingkup domain basis data administrasi arsip surat yang digeneralisasi secara umum digunakan oleh sebagian besar
instansi. Basis data arsip surat ini dipilih mengingat sistem pengarsipan surat bagi instansi merupakan hal yang sangat penting. Banyak data yang tersimpan
sehingga banyak informasi penting yang bisa didapatkan oleh instansi tersebut dan orang-orang di dalamnya, seperti sekretaris, pegawai administrasi surat, tata
usaha, dan lainnya.
1.2 Rumusan Masalah