Case Folding Tokenizing Filtering Stemming

14 4. Indexing pengindeksan, membangun basis data indeks dari koleksi dokumen. Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan. Sistem temu kembali informasi menerima query dari pengguna, kemudian melakukan perangkingan terhadap dokumen pada koleksi berdasarkan kesesuaiannya dengan query. Hasil perangkingan yang diberikan kepada pengguna merupakan dokumen yang menurut sistem relevan dengan query. Namun relevansi dokumen terhadap suatu query merupakan penilaian pengguna yang subjektif dan dipengaruhi banyak faktor seperti topik, pewaktuan, sumber informasi mapun tujuan pengguna. Model sistem temu kembali informasi menentukan detail sistem temu kembali informasi yaitu meliputi representasi dokumen maupun query, fungsi pencarian retrieval function dan notasi kesesuaian relevance notation dokumen terhadap query.

2.2. Text Preprocessing

Dalam sistem IR sebelum dokumen siap digunakan perlu dilakukan tahap text preprocessing yang terdiri dari case folding, tokenizing, filtering, stemming yang dilakukan secara berurutan.

2.2.1. Case Folding

Case folding adalah proses pertama kali yang dilakukan dalam rangkaian perancangan klasifikasi dokumen teks. Proses ini merupakan proses dimana kata - kata di dalam dokumen atau kalimat akan di ubah menjadi huruf kecil a sampai z dan menghilangkan tanda baca. Karakter lain selain huruf akan dianggap delimiter sehingga karakter tersebut akan dihilangkan atau dihapus. Hal ini dilakukan untuk mencegah terjadinya noise pada saat pengambilan informasi. Untuk selanjutnya, hasil dari case folding nantinya akan digunakan pada proses tokenisasi. 15 Gambar 2.2. Contoh Case Folding

2.2.2. Tokenizing

Proses tokenisasi adalah proses pemotongan string input berdasarkan tiap kata yang menyusunnya. Hasil pemrosesan akan berupa kata yang disebut dengan tokenterm. Term ini nantinya akan disimpan ke dalam database untuk dilakukan indexing saat melakukan pencarian. Gambar 2.3. Contoh Tokenisasi

2.2.3. Filtering

Filtering merupakan proses mengambilan kata-kata penting dari hasil tokenisasi. Tahap filtering dapat dilakukan menggunakan algoritma stoplist stopword. Stopword adalah kata-kata yang sering muncul pada teks dalam jumlah besar dan dianggap tidak memiliki makna dan akan dihilangkan. Stopword ini dapat berupa kata penghubung, kata depan, dan kata pengganti, contohnya seperti “yang”, 16 “di”, “dan”, “ke”, “dari” dan lain sebagainya. Tujuan dari proses ini adalah untuk mengurangi jumlah term sehingga hanya kata-kata penting saja yang terdapat pada dictionary. Kumpulan kata yang termasuk stopwords diambil dari penelitian Asian, 2007. Gambar 2.4. Contoh Filtering

2.2.4. Stemming

Proses stemming merupakan proses untuk kata dasar dari kata yang sudah mengalami proses stopword. Pencarian kata dasar dapat memperkecil hasil indeks tanpa harus menghilangkan makna. Proses stemming dilakukan dengan menghilangkan semua imbuhan baik yang terdiri dari awalan prefix, akhiran surfix, sisipan infix, bentuk perulangan dan kombinasi antara awalan dan akhiran confix. Tujuan dari proses ini adalah untuk mengurangi variasi kata yang mempunyai kata dasar yang sama. Algoritma Stemming yang akan digunakan pada penelitian ini adalah Stemming Nazief Adriani karena algoritma ini memiliki tingkat keakuratan presisi yang baik Agusta, 2009. 17 Gambar 2.5. Contoh Stemming 2.3. BM25+

Case Folding Tokenizing Filtering Stemming

2.2. Text Preprocessing

2.2.1. Case Folding

2.2.2. Tokenizing

2.2.3. Filtering

2.2.4. Stemming

Parts

Dokumen yang terkait

Rancang Bangun Kotak Pendingin Yang Menggunakan Elemen Pendingin Termoelektrik Dengan Sumber Energi Surya

Rancang Bangun Alat Pengukur Panjang Jalan Menggunakan Sensor Optocoupler Berbasis Mikrokontroler Atmega8

Rancang Bangun Pintu Otomatis Menggunakan Password

Rancang Bangun Kompor Biobriket

Rancang Bangun Multimedia Interaktif Berbasis Augmented Reality Dengan Menggunakan Metode Algoritma Pencarian.

OKAPI BM25 Dalam pencarian informasi

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

RANCANG BANGUN SISTEM INFORMASI GEOGRAFIS PENCARIAN RUTE TERPENDEK DENGAN METODE ANT COLONY

RANCANG BANGUN SISTEM AKUISISI DATA UNTUK PENCARIAN SUMBER RADIASI NUKLIR MENGGUNAKAN ROBOT HEXAPOD

RANCANG BANGUN APLIKASI PENCARIAN RESEP MASAKAN MENGGUNAKAN METODE BOOLEAN RETRIEVAL

Dukungan

Links

Case Folding Tokenizing Filtering Stemming

2.2. Text Preprocessing

2.2.1. Case Folding

2.2.2. Tokenizing

2.2.3. Filtering

2.2.4. Stemming

Parts

Dokumen yang terkait

Rancang Bangun Kotak Pendingin Yang Menggunakan Elemen Pendingin Termoelektrik Dengan Sumber Energi Surya

Rancang Bangun Alat Pengukur Panjang Jalan Menggunakan Sensor Optocoupler Berbasis Mikrokontroler Atmega8

Rancang Bangun Pintu Otomatis Menggunakan Password

Rancang Bangun Kompor Biobriket

Rancang Bangun Multimedia Interaktif Berbasis Augmented Reality Dengan Menggunakan Metode Algoritma Pencarian.

OKAPI BM25 Dalam pencarian informasi

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

RANCANG BANGUN SISTEM INFORMASI GEOGRAFIS PENCARIAN RUTE TERPENDEK DENGAN METODE ANT COLONY

RANCANG BANGUN SISTEM AKUISISI DATA UNTUK PENCARIAN SUMBER RADIASI NUKLIR MENGGUNAKAN ROBOT HEXAPOD

RANCANG BANGUN APLIKASI PENCARIAN RESEP MASAKAN MENGGUNAKAN METODE BOOLEAN RETRIEVAL

Dokumen yang Anda mencari sudah siap untuk unduhkan