14
4. Indexing pengindeksan, membangun basis data indeks dari koleksi dokumen.
Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan.
Sistem temu kembali informasi menerima query dari pengguna, kemudian melakukan perangkingan terhadap dokumen pada koleksi berdasarkan
kesesuaiannya dengan query. Hasil perangkingan yang diberikan kepada pengguna merupakan dokumen yang menurut sistem relevan dengan query. Namun relevansi
dokumen terhadap suatu query merupakan penilaian pengguna yang subjektif dan dipengaruhi banyak faktor seperti topik, pewaktuan, sumber informasi mapun
tujuan pengguna. Model sistem temu kembali informasi menentukan detail sistem temu
kembali informasi yaitu meliputi representasi dokumen maupun query, fungsi pencarian retrieval function dan notasi kesesuaian relevance notation dokumen
terhadap query.
2.2. Text Preprocessing
Dalam sistem IR sebelum dokumen siap digunakan perlu dilakukan tahap text preprocessing yang terdiri dari case folding, tokenizing, filtering, stemming
yang dilakukan secara berurutan.
2.2.1. Case Folding
Case folding adalah proses pertama kali yang dilakukan dalam rangkaian perancangan klasifikasi dokumen teks. Proses ini merupakan proses dimana kata -
kata di dalam dokumen atau kalimat akan di ubah menjadi huruf kecil a sampai z dan menghilangkan tanda baca. Karakter lain selain huruf akan dianggap delimiter
sehingga karakter tersebut akan dihilangkan atau dihapus. Hal ini dilakukan untuk mencegah terjadinya noise pada saat pengambilan informasi. Untuk selanjutnya,
hasil dari case folding nantinya akan digunakan pada proses tokenisasi.
15
Gambar 2.2. Contoh Case Folding
2.2.2. Tokenizing
Proses tokenisasi adalah proses pemotongan string input berdasarkan tiap kata yang menyusunnya. Hasil pemrosesan akan berupa kata yang disebut dengan
tokenterm. Term ini nantinya akan disimpan ke dalam database untuk dilakukan indexing saat melakukan pencarian.
Gambar 2.3. Contoh Tokenisasi
2.2.3. Filtering
Filtering merupakan proses mengambilan kata-kata penting dari hasil tokenisasi. Tahap filtering dapat dilakukan menggunakan algoritma stoplist
stopword. Stopword adalah kata-kata yang sering muncul pada teks dalam jumlah besar dan dianggap tidak memiliki makna dan akan dihilangkan. Stopword ini dapat
berupa kata penghubung, kata depan, dan kata pengganti, contohnya seperti “yang”,
16
“di”, “dan”, “ke”, “dari” dan lain sebagainya. Tujuan dari proses ini adalah untuk mengurangi jumlah term sehingga hanya kata-kata penting saja yang terdapat pada
dictionary. Kumpulan kata yang termasuk stopwords diambil dari penelitian Asian, 2007.
Gambar 2.4. Contoh Filtering
2.2.4. Stemming
Proses stemming merupakan proses untuk kata dasar dari kata yang sudah mengalami proses stopword. Pencarian kata dasar dapat memperkecil hasil indeks
tanpa harus menghilangkan makna. Proses stemming dilakukan dengan menghilangkan semua imbuhan baik yang terdiri dari awalan prefix, akhiran
surfix, sisipan infix, bentuk perulangan dan kombinasi antara awalan dan akhiran confix. Tujuan dari proses ini adalah untuk mengurangi variasi kata yang
mempunyai kata dasar yang sama. Algoritma Stemming yang akan digunakan pada penelitian ini adalah
Stemming Nazief Adriani karena algoritma ini memiliki tingkat keakuratan presisi yang baik Agusta, 2009.
17
Gambar 2.5. Contoh Stemming
2.3. BM25+