10
BAB II LANDASAN TEORI
2.1 Sistem Temu Kembali Informasi Information Retrieval
Menurut Gunarso 2004: 1, “Sistem temu kembali informasi adalah sebuah sistem pencarian informasi dari dokumen-dokumen yang tersedia”.
Menurut Rahadian, Allan R Fasilkom UI, 2004: 15, pengguna informasi ingin mewakili suatu kata untuk query dan melakukan satu atau
lebih pencarian, dalam mencari informasi yang penting. Karenanya pengambilan informasi menggunakan perbandingan query dengan indeks kata
atau frame yang penting yang muncul dalam dokumen itu sendiri. IR
melakukan pengindeksan
teks pada
setiap dokumennya.
Pengindeksan teks adalah proses untuk menentukan apa yang akan digunakan untuk mempresentasikan dokumen tertentu. Indeks kata ini yang digunakan
untuk mengindeks dokumen. Pengindeksan dibagi menjadi 2 bagian, yaitu: a. Pengindeksan secara manual
Pengindeksan menentukan kata kunci yang diberikan kepada suatu dokumen berdasarkan perbendaharaan kata yang terkontrol.
Pengindeksan secara manual menggunakan biaya yang sangat mahal.
b. Pengindeksan secara otomatis Program pengindeksan menentukan kata, frase, atau fitur tertentu
dari teks pada dokumen.
11 Mempunyai keunggulan proses yang cepat
Dasar pengindeksan secara otomatis adalah: a. Parse dan pengubahan menjadi token.
Melihat dokumen dan mengenali strukturnya. b. Hilangkan Stopword
Hilangkan kata umum berdasarkan daftar kata seperti misal, dan, atau, dan lain sebagainya.
c. Stemming Pemotongan kata berimbuhan menjadi kata dasar.
d. Bobot kata Pemberian bobot kata yang sering muncul.
Pribadi, Adi, W 2004:1 Hal-hal yang dilakukan oleh sistem temu kembali informasi diantaranya adalah:
a Mengolah record-record
berupa teks
dokumen, yaitu
mengidentifikasi sejumlah istilah yang dianggap mewakili isi dokumen.
b Mengidentifikasi permintaan informasi c Menentukan dan mengambil informasi atau dokumen yang
dibutuhkan sesuai permintaan. Ada beberapa masalah yang ditemui dalam penggunaan sistem temu
kembali informasi adalah sebagai berikut: a Jumlah dokumen yang terambil bisa terlalu sedikit atau terlalu
banyak jika dibandingkan dengan jumlah dokumen yang relevan
12 yang sesuai dengan keinginan pemakai dalam sebuah kumpulan
dokumen. b Isi dokumen yang terambil tidak sesuai dengan keinginan pemakai
user. Permasalahan ini terjadi karena suatu dokumen yang diidentifikasi oleh
sejumlah istilah yang belum tentu sepenuhnya mewakili isi dokumen. Suatu istilah yang dipakai bisa saja memiliki makna ganda. Hal ini menyebabkan
dokumen yang terambil bisa tidak sesuai dengan keinginan pemakai.
2.2 Algoritma Pencarian Searching