2.4 Implementasi Existence-Dependent Aggregation menggunakan Teknik Nesting
Implementasi agregasi pada Oracle menggunakan nested table. Pada teknik ini, bagian informasi berhubungan erat dengan informasi dari seluruh obyek yang
diimplementasikan sebagai nested table. Hal ini memberlakukan tipe agregrasi existence-dependent
. Jika data dari seluruh obyek dihapus, semua yang terkait dengan bagian obyek akan terhapus. Selain itu, data dalam nested table diakses
melalui seluruh obyek. Oleh karena itu, teknik nested table hanya cocok diimplementasikan menggunakan existence-dependent Pardede, 2006.
2.5 Penggunaan DBMS untuk Pemerolehan Informasi
Penggunaan DBMS Database Management System dalam pemerolehan informasi mempunyai beberapa kelebihan dan kekurangan. Index dengan mudah
dapat diperluas dan menampung macam-macam tipe data Papadakos, 2008. Kelebihan menggunakan DBMS adalah sebagai berikut :
1. Adanya kemungkinan untuk memperluas cangkupan index Perluasan dilakukan dengan menambahkan kolom dan relasi column dan
relation .
2. Proses pembentukan index DBMS yang menangani physical layer mengijinkan untuk tidak harus
membuat dan menggabungkan partial indices untuk membuat index dari sebuah korpus besar.
3. Pemeliharaan index
Menghapus entri yang menyangkut dokumen tertentu merupakan operasi yang mahal di inverted index. Dengan operasi DBMS dapat dilakukan lebih
efisien. 4. Penggunaan single index
Sistem pemerolehan informasi klasik menggunakan index yang terpisah, yaitu index
untuk menjawab query dan index untuk update. Index baru akan menggantikan index yang pertama dibentuk. Dengan DBMS perbedaan dan
duplikasi tidak diperlukan, menggunakan single index untuk proses update dan query tanpa harus menggunakan partial index.
5. Penggunaan distributed query processing Dengan kemajuan DBMS untuk multicore dan sistem cluster secara
menguntungkan sistem pemerolehan informasi. Sebagai contoh, PostgreSQL dapat menggunakan lebih dari satu CPUCore untuk melakukan pengiriman
query .
Kekurangan DBMS adalah sebagai berikut : 1. Penggunaan ruang penyimpanan yang tinggi
Kira-kira sebuah inverted index terdiri dari form t, occ dimana t adalah term, sedangkan occ adalah occurrence atau dokumen d dari kemunculan t di
dalam corpus. Kemunculannya bisa dari pengindentifikasian dokumen saja, atau juga bobot andor dari t dalam setiap dokumen. Kemunculan term
menempati sebagian besar ruang index dan untuk alasan ini penggunaan special number encodings
digunakan untuk mengurangi ruangan yang diperlukan. Implementasi langsung dari RDBMS akan menggunakan ruang
lebih banyak dari sebuah inverted index. Sebagai contoh, entry t, {d
1
, d
3
, d
5
}. Di RDBMS akan direpresentasikan dengan 3 tuple [t, d
1
], [t, d
3
], [t, d
5
] yang akan memboroskan ruang penyimpanan.
2. Lebih banyaknya operasi IO Terlepas dari kebutuhan ruang penyimpanan yang lebih tinggi, yang
diharapkan oleh pembuat MITOS adalah waktu respon query lebih tinggi untuk index berbasis DBMS karena lebih banyaknya operasi IO diperkirakan
akan dibutuhkan. Penggunaan set-valued attribute ditawarkan oleh ORDBMS.
22
BAB III ANALISA DAN PERANCANGAN SISTEM
3.1 Gambaran Sistem yang Dikembangkan
Gambaran sistem pemerolehan informasi makalah ilmiah berbahasa Indonesia yang digunakan dalam penelitian ini dapat dilihat pada Gambar 3.1.
Kumpulan dokumen koleksi berupa text file dengan ekstensi file pdf. Sistem akan melakukan proses text operation operasi teks pada dokumen menggunakan
algoritma stemming Nazief dan Adriani untuk teks Bahasa Indonesia Agusta, 2009, dilanjutkan proses indexing untuk pembentukan inverted index yang
disimpan dalam database text RDBMS dengan menggunakan teknologi RDBMS. Sistem mengambil kumpulan term hasil indexing dari database text RDBMS,
kemudian menyimpan dalam bentuk inverted index ke database index ready ORDBMS dengan teknologi ORDBMS. Sedangkan, untuk proses pencarian
pengguna memasukkan kebutuhan pengguna dalam bentuk kata kunci dan sistem akan melakukan proses operasi teks, dilanjutkan dengan proses query operations
dan searching, kemudian dilakukan proses ranking berdasarkan bobotnya yang kemudian akan ditampilkan dokumen hasil melalui user interface.