10
Sebelum data dikembalikan ke user, dokumen yang di- retrieved
akan diranking berdasarkan kedekatan dokumen dengan query.
2.1.1.2 Text Operation
Text Operation berperan penting dalam proses information
retrieval , karena seluruh proses yang berhubungan dengan penggalian
informasi dari sumber dokumen ataupun teks dilakukan pada proses text operation
. Text operation memilki beberapa langkah yang dapat dilakukan di dalam sebuah sistem Information Retrieval, berikut adalah langkah-
langkah pada text operatrion: Tokenisasi
Penghilangan Stop-word Stemming
Indexing
2.1.1.2.1 Tokenization
Tokenisasi merupakan proses pemenggalan kata dalam suatu dokumen menjadi potongan
– potongan kata yang berdiri sendiri token. Proses ini juga akan menghilangkan tanda baca atau karakter yang melekat
pada kata tersebut dan semua kata menjadi huruf kecil Manning, 2008. Contoh tokenisasi :
• Input :Friends, Romans, Countrymen, Lend, Me, Your, Eyes • Output : Friends Romans Countrymen Lend Me Your Eyes
11 Terkadang token dapat dikatakan juga sebagai term atau kata. Pemotongan
kumpulan karakter biasanya berdasarkan karakter spasi, namun beberapa permasalahan yang terjadi dalam proses tokenisasi yaitu terdapat beberapa
kata yang akan berbeda arti bila dipotong berdasarkan spasi seperti San Fransisco akan memiliki arti yang berbeda bila dipotong menjadi San dan
Fransisco. Setiap dokumen dan query direpresentasikan dengan model bag-of-words
, yaitu model yang mengabaikan urutan dari kata – kata dan
struktur yang ada di dalam dokumen. Dokumen diubah menjadi sebuah wadah yang berisi kata
– kata yang independen.
2.1.1.2.2 Penghilangan Stop Word
Stop-word didefinisikan sebagai term yang tidak berhubungan
non-relevant dengan subjek utama dari data meskipun kata tersebut sering muncul di dalam dokumen. Penghilangan stop-word tidak bersifat
wajib pada beberapa desain dari modern information retrieval, dimana memliki cara sendiri untuk menyelesaikan masalah kata-kata yang sering
digunakan dengan menggunakan data statistik. Contoh stop-word dalam Bahasa Inggris adalah : a, an, the, this, that, these, those, her, his, its, my,
our, their, your, all, few, many, several, some, every, for, and, nor, bit, or, yet, so, also, after, although, if, unless, because, on, beneath, over, of,
during, beside , dan etc. Contoh stop-word dalam bahasa Indonesia : yang,
juga, dari, dia, kami, kamu, aku, saya, ini, itu, atau, dan, tersebut, pada, dengan, adalah, yaitu, ke, tak, tidak, di, pada, jika, maka, ada, pun, lain,
saja, hanya, namun, seperti, kemudian, dan dll.
12 Stop-word
juga bisa dilakukan dengan memotong kata berdasarkan distribusi kata Zipf Distrubution. Zipf Distrubution merupakan
pembagiandistribusi frekuensi kata, dapat digambarkan seperti gambar 2.2. Pada tahap ini dilakukan pemotongan kata yang memiliki frekuensi
sangat tinggi maupun rendah, dengan demikian dapat dikatakan Zipf Distribution
dapat memotong batas kata yang optimum untuk memberikan ciri atau key word dari suatu dokumen.
Gambar 2.2 Distribusi Zipf Manning, 2008
2.1.1.2.3 Stemming