INFORMATION RETRIEVAL KESIMPULAN DAN SARAN

BAB II TINJAUAN PUSTAKA Pada bab ini akan dibahas mengenai information retrieval, similarity kemiripan, similarity measure ukuran kemiripan, algoritma genetika kemudian dilanjutkan dengan teknik-teknik yang telah digunakan sebelumnya.

2.1 INFORMATION RETRIEVAL

Rahman [25] mendefinisikan Information Retrieval IR sebagai tindakan, metode dan prosedur untuk menemukan kembali data yang tersimpan, dan selanjutnya menyediakan informasi mengenai subyek yang dibutuhkan. Tindakan tersebut mencakup text indexing, inquiry analysis, dan relevance analysis. Data mencakup teks, tabel, gambar, ucapan, dan video. Informasi yang ditemukan adalah merupakan pengetahuan terkait yang dibutuhkan untuk mendukung penyelesaian masalah dan akuisisi pengetahuan [7]. Sistem Temu Kembali Informasi merupakan sistem yang berfungsi untuk menemukan informasi yang relevan dengan kebutuhan pemakai. Salah satu hal yang perlu diingat adalah bahwa informasi yang diproses terkandung dalam sebuah dokumen yang bersifat tekstual. Dalam konteks ini, temu kembali informasi berkaitan dengan representasi, penyimpanan, dan akses terhadap dokumen representasi dokumen. Dokumen yang ditemukan tidak dapat dipastikan apakah relevan dengan kebutuhan informasi pengguna yang dinyatakan dalam Universitas Sumatera Utara query. Pengguna Sistem Temu Kembali informasi sangat bervariasi dengan kebutuhan informasi yang berbeda-beda. Tujuan dari sistem IR Information Retrieval adalah memenuhi kebutuhan informasi pengguna dengan me-retrieve semua dokumen yang mungkin relevan, pada waktu yang sama me-retrieve sesedikit mungkin dokumen yang tak-relevan. Dokumen sebagai objek data dalam Sistem Temu Kembali Informasi merupakan sumber informasi. Dokumen biasanya dinyatakan dalam bentuk indeks atau kata kunci. Kata kunci dapat diekstrak secara langsung dari teks dokumen atau ditentukan secara khusus oleh spesialis subjek dalam proses pengindeksan yang pada dasarnya terdiri dari proses analisis dan representasi dokumen. Pengindeksan dilakukan dengan menggunakan sistem pengindeksan tertentu, yaitu himpunan kosa kata yang dapat dijadikan sebagai bahasa indeks sehingga diperoleh informasi yang terorganisasi. Sementara itu, pencarian diawali dengan adanya kebutuhan informasi pengguna. Dalam hal ini Sistem Temu Kembali Informasi berfungsi untuk menganalisis pertanyaan query pengguna yang merupakan representasi dari kebutuhan informasi untuk mendapatkan pernyataan-pernyataan pencarian yang tepat. Selanjutnya pernyataan-pernyataan pencarian tersebut dipertemukan dengan informasi yang telah terorganisasi dengan suatu fungsi penyesuaian matching function tertentu sehingga ditemukan dokumen atau sekumpulan dokumen. Menurut Grossman and Ophir [10], sistem ini menggunakan fungsi heuristik untuk mendapatkan dokumen-dokumen yang relevan dengan query pengguna. Sistem IR yang baik memungkinkan pengguna menentukan secara cepat dan akurat apakah isi dari dokumen yang diterima memenuhi kebutuhannya. Dengan tujuan dokumen lebih baik dan lebih representasi, maka dokumen- dokumen tersebut dikelompokkan secara bersama yang sesuai dengan topiknya atau isi yang mirip dikelompokkan. Menurut Frakes and Baeza-Yates [7], ada dua pekerjaan yang ditangani oleh sistem ini, yaitu melakukan pre-processing terhadap database dan kemudian menerapkan metode tertentu untuk menghitung kedekatan relevansi atau similarity antara dokumen di dalam database yang telah dipreprocess dengan Universitas Sumatera Utara query pengguna. Pada tahapan preprocessing, sistem yang berurusan dengan dokumen semi-structured biasanya memberikan tag tertentu pada term-term atau bagian dari dokumen; sedangkan pada dokumen tidak terstruktur proses ini dilewati dan membiarkan term tanpa imbuhan tag. Query yang dimasukkan oleh pengguna dikonversi sesuai aturan tertentu untuk mengekstrak term-term penting yang sejalan dengan term-term yang sebelumnya telah diekstrak dari dokumen dan menghitung relevansi antara query dan dokumen berdasarkan pada term-term tersebut [24]. Sebagai hasilnya, sistem mengembalikan suatu daftar dokumen terurut descending ranking sesuai nilai kemiripannya dengan query pengguna [18]. Menurut Tata [30], setiap dokumen termasuk query direpresentasikan menggunakan model bag-of-words yang mengabaikan urutan dari kata-kata di dalam dokumen, struktur sintaktis dari dokumen dan kalimat. Dokumen ditransformasi ke dalam suatu β€œtasβ€œ berisi kata-kata independen. Term disimpan dalam suatu database pencarian khusus yang ditata sebagai sebuah inverted index. Index ini merupakan konversi dari dokumen asli yang mengandung sekumpulan kata ke dalam daftar kata yang berasosiasi dengan dokumen terkait dimana kata- kata tersebut muncul.

2.2 SIMILARITY KEMIRIPAN