Tokenization Penghilangan Stop Word

10  Sebelum data dikembalikan ke user, dokumen yang di- retrieved akan diranking berdasarkan kedekatan dokumen dengan query.

2.1.1.2 Text Operation

Text Operation berperan penting dalam proses information retrieval , karena seluruh proses yang berhubungan dengan penggalian informasi dari sumber dokumen ataupun teks dilakukan pada proses text operation . Text operation memilki beberapa langkah yang dapat dilakukan di dalam sebuah sistem Information Retrieval, berikut adalah langkah- langkah pada text operatrion:  Tokenisasi  Penghilangan Stop-word  Stemming  Indexing

2.1.1.2.1 Tokenization

Tokenisasi merupakan proses pemenggalan kata dalam suatu dokumen menjadi potongan – potongan kata yang berdiri sendiri token. Proses ini juga akan menghilangkan tanda baca atau karakter yang melekat pada kata tersebut dan semua kata menjadi huruf kecil Manning, 2008. Contoh tokenisasi : • Input :Friends, Romans, Countrymen, Lend, Me, Your, Eyes • Output : Friends Romans Countrymen Lend Me Your Eyes 11 Terkadang token dapat dikatakan juga sebagai term atau kata. Pemotongan kumpulan karakter biasanya berdasarkan karakter spasi, namun beberapa permasalahan yang terjadi dalam proses tokenisasi yaitu terdapat beberapa kata yang akan berbeda arti bila dipotong berdasarkan spasi seperti San Fransisco akan memiliki arti yang berbeda bila dipotong menjadi San dan Fransisco. Setiap dokumen dan query direpresentasikan dengan model bag-of-words , yaitu model yang mengabaikan urutan dari kata – kata dan struktur yang ada di dalam dokumen. Dokumen diubah menjadi sebuah wadah yang berisi kata – kata yang independen.

2.1.1.2.2 Penghilangan Stop Word

Stop-word didefinisikan sebagai term yang tidak berhubungan non-relevant dengan subjek utama dari data meskipun kata tersebut sering muncul di dalam dokumen. Penghilangan stop-word tidak bersifat wajib pada beberapa desain dari modern information retrieval, dimana memliki cara sendiri untuk menyelesaikan masalah kata-kata yang sering digunakan dengan menggunakan data statistik. Contoh stop-word dalam Bahasa Inggris adalah : a, an, the, this, that, these, those, her, his, its, my, our, their, your, all, few, many, several, some, every, for, and, nor, bit, or, yet, so, also, after, although, if, unless, because, on, beneath, over, of, during, beside , dan etc. Contoh stop-word dalam bahasa Indonesia : yang, juga, dari, dia, kami, kamu, aku, saya, ini, itu, atau, dan, tersebut, pada, dengan, adalah, yaitu, ke, tak, tidak, di, pada, jika, maka, ada, pun, lain, saja, hanya, namun, seperti, kemudian, dan dll. 12 Stop-word juga bisa dilakukan dengan memotong kata berdasarkan distribusi kata Zipf Distrubution. Zipf Distrubution merupakan pembagiandistribusi frekuensi kata, dapat digambarkan seperti gambar 2.2. Pada tahap ini dilakukan pemotongan kata yang memiliki frekuensi sangat tinggi maupun rendah, dengan demikian dapat dikatakan Zipf Distribution dapat memotong batas kata yang optimum untuk memberikan ciri atau key word dari suatu dokumen. Gambar 2.2 Distribusi Zipf Manning, 2008

2.1.1.2.3 Stemming