Inverted index digunakan untuk mempercepat proses pencarian terms pada koleksi
dokumen Grossman-Frieder, 2004. Inverted index memiliki dua komponen pokok yaitu dictionary dan postings lists. Untuk setiap term dalam koleksi,
terdapat posting list yang mengandung informasi mengenai term’s occurences di
koleksi. Informasi yang ditemukan oleh posting list akan digunakan oleh sistem untuk memproses query pencarian Büttcher-Clarke-Cormack, 2010.
2.1.2.1. Membangun Inverted Index
Tujuan dari membangun inverted index ini adalah untuk memperoleh kecepatan dalam pengindeksan saat melakukan pemerolehan retrieval. Langkah
utama dalam membangun inverted index Manning, 2008 yaitu : 1. Kumpulkan dokumen-dokumen untuk diindekskan :
2. Lakukan proses tokenization pada text, kemudian kembalikan setiap dokumen ke dalam list :
3. Lakukan proses berdasarkan ilmu bahasa, kemudian menghasilkan suatu list dari tokens yang sudah ternormalisasi, yang mengindekskan istilah-istilah :
4. Lakukan pengindeksan terhadap dokumen-dokumen yang mengandung istilah-istilah tersebut dengan membuat inverted index yang terdiri dari
dictionary dan postings yang direpresentasikan pada gambar 2.4. berikut ini :
Gambar 2.4 Inverted Index Manning, 2008
Pada gambar 2.5 berikut ini merupakan gambaran secara keseluruhan dari proses membangun inverted index Manning, 2008. :
Gambar 2.5 Membangun Inverted Index Manning, 2008
Pada sisi kiri di gambar 2.5 terdapat serangkaian istilah-istilah yang disimpan dalam kolom “term” yang diurutkan berdasarkan abjad, sedangkan
kolom “docID” menyimpan dokumen yang mengandung istilah term tersebut. Kemudian kumpulan istilah yang ada di kolom “term” dan “docID” tersebut akan
dipisahkan ke dalam “term”, dan “document frequency” seperti yang digambarkan pada gambar 2.5 sisi kanan. Term dan document frequency tersebut akan disimpan
di dictionary. Dictionary
berfungsi untuk menyimpan istilah-istilah dan mempunyai pointer
untuk menuju ke posting list pada setiap istilah. Informasi term dan document
frequency yang terdapat dalam dictionary dapat digunakan untuk meningkatkan efisiensi waktu query dan melakukan pembobotan pada model
ranked retrieval .
Sedangkan posting list berfungsi untuk menyimpan list dari dokumen yang mengandung suatu istilah tertentu. Selain itu, posting list juga dapat menyimpan
informasi lain seperti frekuensi istilah atau posisi istilah atau posisi istilah dalam setiap dokumen Manning, 2008.
2.1.2.2. Boolean Query pada Inverted Index