Implementasi Existence-Dependent Aggregation menggunakan Teknik Nesting Penggunaan DBMS untuk Pemerolehan Informasi

2.4 Implementasi Existence-Dependent Aggregation menggunakan Teknik Nesting

Implementasi agregasi pada Oracle menggunakan nested table. Pada teknik ini, bagian informasi berhubungan erat dengan informasi dari seluruh obyek yang diimplementasikan sebagai nested table. Hal ini memberlakukan tipe agregrasi existence-dependent . Jika data dari seluruh obyek dihapus, semua yang terkait dengan bagian obyek akan terhapus. Selain itu, data dalam nested table diakses melalui seluruh obyek. Oleh karena itu, teknik nested table hanya cocok diimplementasikan menggunakan existence-dependent Pardede, 2006.

2.5 Penggunaan DBMS untuk Pemerolehan Informasi

Penggunaan DBMS Database Management System dalam pemerolehan informasi mempunyai beberapa kelebihan dan kekurangan. Index dengan mudah dapat diperluas dan menampung macam-macam tipe data Papadakos, 2008. Kelebihan menggunakan DBMS adalah sebagai berikut : 1. Adanya kemungkinan untuk memperluas cangkupan index Perluasan dilakukan dengan menambahkan kolom dan relasi column dan relation . 2. Proses pembentukan index DBMS yang menangani physical layer mengijinkan untuk tidak harus membuat dan menggabungkan partial indices untuk membuat index dari sebuah korpus besar. 3. Pemeliharaan index Menghapus entri yang menyangkut dokumen tertentu merupakan operasi yang mahal di inverted index. Dengan operasi DBMS dapat dilakukan lebih efisien. 4. Penggunaan single index Sistem pemerolehan informasi klasik menggunakan index yang terpisah, yaitu index untuk menjawab query dan index untuk update. Index baru akan menggantikan index yang pertama dibentuk. Dengan DBMS perbedaan dan duplikasi tidak diperlukan, menggunakan single index untuk proses update dan query tanpa harus menggunakan partial index. 5. Penggunaan distributed query processing Dengan kemajuan DBMS untuk multicore dan sistem cluster secara menguntungkan sistem pemerolehan informasi. Sebagai contoh, PostgreSQL dapat menggunakan lebih dari satu CPUCore untuk melakukan pengiriman query . Kekurangan DBMS adalah sebagai berikut : 1. Penggunaan ruang penyimpanan yang tinggi Kira-kira sebuah inverted index terdiri dari form t, occ dimana t adalah term, sedangkan occ adalah occurrence atau dokumen d dari kemunculan t di dalam corpus. Kemunculannya bisa dari pengindentifikasian dokumen saja, atau juga bobot andor dari t dalam setiap dokumen. Kemunculan term menempati sebagian besar ruang index dan untuk alasan ini penggunaan special number encodings digunakan untuk mengurangi ruangan yang diperlukan. Implementasi langsung dari RDBMS akan menggunakan ruang lebih banyak dari sebuah inverted index. Sebagai contoh, entry t, {d 1 , d 3 , d 5 }. Di RDBMS akan direpresentasikan dengan 3 tuple [t, d 1 ], [t, d 3 ], [t, d 5 ] yang akan memboroskan ruang penyimpanan. 2. Lebih banyaknya operasi IO Terlepas dari kebutuhan ruang penyimpanan yang lebih tinggi, yang diharapkan oleh pembuat MITOS adalah waktu respon query lebih tinggi untuk index berbasis DBMS karena lebih banyaknya operasi IO diperkirakan akan dibutuhkan. Penggunaan set-valued attribute ditawarkan oleh ORDBMS. 22

BAB III ANALISA DAN PERANCANGAN SISTEM

3.1 Gambaran Sistem yang Dikembangkan

Gambaran sistem pemerolehan informasi makalah ilmiah berbahasa Indonesia yang digunakan dalam penelitian ini dapat dilihat pada Gambar 3.1. Kumpulan dokumen koleksi berupa text file dengan ekstensi file pdf. Sistem akan melakukan proses text operation operasi teks pada dokumen menggunakan algoritma stemming Nazief dan Adriani untuk teks Bahasa Indonesia Agusta, 2009, dilanjutkan proses indexing untuk pembentukan inverted index yang disimpan dalam database text RDBMS dengan menggunakan teknologi RDBMS. Sistem mengambil kumpulan term hasil indexing dari database text RDBMS, kemudian menyimpan dalam bentuk inverted index ke database index ready ORDBMS dengan teknologi ORDBMS. Sedangkan, untuk proses pencarian pengguna memasukkan kebutuhan pengguna dalam bentuk kata kunci dan sistem akan melakukan proses operasi teks, dilanjutkan dengan proses query operations dan searching, kemudian dilakukan proses ranking berdasarkan bobotnya yang kemudian akan ditampilkan dokumen hasil melalui user interface.