Text Mining Tokenizer TINJAUAN PUSTAKA

retrieval dan rancangan penerapan teknik pada hiperteks akan sama saja, baik pengindeksannya secara local search engine ataupun worldwide search engine. Sistem temu-kembali yang dibangun terdiri dari berbagai macam teknik retrieval seperti teknik Boolean biasa dan Boolean berperingkat serta teknik Extended Boolean berdasarkan p-norm model. Sedangkan teknik pengindeksannya juga terdiri dari beberapa macam antara lain teknik berdasarkan frekuensi kemunculan istilah dan teknik pengindeksan yang dinormalisasi berdasarkan aturan Savoy1993. Pada sistem ini, teknik retrieval, basis data indeks dan kumpulan dokumen berada dalam sebuah komputer server yang sama local.

2.2. Text Mining

Text mining adalah salah satu bidang khusus dari data mining. Sesuai dengan buku The Text Mining Handbook, text mining dapat didefinisikan sebagai suatu proses menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponen- komponen dalam data mining yang salah satunya adalah kategorisasi. Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu pengkategorisasian teks text categorization dan pengelompokan teks text clustering. Text Mining tidak jauh berbeda dengan Data Mining. Yang membedakannya adalah pada sumber datanya, dimana Text Mining bersumber dari kumpulan dokumen atau text. Pada Text Mining, informasi yang akan digali biasanya berisi informasi-informasi yang tidak terstruktur, tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen. Tahapan yang dilakukan secara umum dalam Text Mining adalah: tokenizing, filtering, stemming, tagging dan analyzing.

2.3. Tokenizer

Tokenizer adalah pemrosesan suatu unit dokumen yang mempunyai hasil akhir berupa Tokens unik dan banyaknya frekuensi Tokens yang terdapat dari suatu unit dokumen. Didalam proses Tokenizer terdapat dua proses yaitu proses Tokenization dan proses Parsing. Dengan satu urutan karakter dan satu unit dokumen yang didefinisikan, tokenization adalah pekerjaan pemotongan satu urutan karakter menjadi beberapa bagian yang dinamakan tokens yang biasanya adalah kata, pada saat bersamaan proses tokenization membuang karakter tertentu, seperti pemberian tanda baca. Tokens ini sering dengan bebas menunjuk sebagai istilah atau kata, tetapi tanda baca ini kadang-kadang penting untuk membuat satu perbedaan Tokens. Tokens adalah satu contoh instance dari satu urutan karakter didalam beberapa dokumen tertentu.

2.4. Parsing