Membangun Inverted Index Inverted Index

Inverted index digunakan untuk mempercepat proses pencarian terms pada koleksi dokumen Grossman-Frieder, 2004. Inverted index memiliki dua komponen pokok yaitu dictionary dan postings lists. Untuk setiap term dalam koleksi, terdapat posting list yang mengandung informasi mengenai term’s occurences di koleksi. Informasi yang ditemukan oleh posting list akan digunakan oleh sistem untuk memproses query pencarian Büttcher-Clarke-Cormack, 2010.

2.1.2.1. Membangun Inverted Index

Tujuan dari membangun inverted index ini adalah untuk memperoleh kecepatan dalam pengindeksan saat melakukan pemerolehan retrieval. Langkah utama dalam membangun inverted index Manning, 2008 yaitu : 1. Kumpulkan dokumen-dokumen untuk diindekskan : 2. Lakukan proses tokenization pada text, kemudian kembalikan setiap dokumen ke dalam list : 3. Lakukan proses berdasarkan ilmu bahasa, kemudian menghasilkan suatu list dari tokens yang sudah ternormalisasi, yang mengindekskan istilah-istilah : 4. Lakukan pengindeksan terhadap dokumen-dokumen yang mengandung istilah-istilah tersebut dengan membuat inverted index yang terdiri dari dictionary dan postings yang direpresentasikan pada gambar 2.4. berikut ini : Gambar 2.4 Inverted Index Manning, 2008 Pada gambar 2.5 berikut ini merupakan gambaran secara keseluruhan dari proses membangun inverted index Manning, 2008. : Gambar 2.5 Membangun Inverted Index Manning, 2008 Pada sisi kiri di gambar 2.5 terdapat serangkaian istilah-istilah yang disimpan dalam kolom “term” yang diurutkan berdasarkan abjad, sedangkan kolom “docID” menyimpan dokumen yang mengandung istilah term tersebut. Kemudian kumpulan istilah yang ada di kolom “term” dan “docID” tersebut akan dipisahkan ke dalam “term”, dan “document frequency” seperti yang digambarkan pada gambar 2.5 sisi kanan. Term dan document frequency tersebut akan disimpan di dictionary. Dictionary berfungsi untuk menyimpan istilah-istilah dan mempunyai pointer untuk menuju ke posting list pada setiap istilah. Informasi term dan document frequency yang terdapat dalam dictionary dapat digunakan untuk meningkatkan efisiensi waktu query dan melakukan pembobotan pada model ranked retrieval . Sedangkan posting list berfungsi untuk menyimpan list dari dokumen yang mengandung suatu istilah tertentu. Selain itu, posting list juga dapat menyimpan informasi lain seperti frekuensi istilah atau posisi istilah atau posisi istilah dalam setiap dokumen Manning, 2008.

2.1.2.2. Boolean Query pada Inverted Index