retrieval dan rancangan penerapan teknik pada hiperteks akan sama saja, baik pengindeksannya secara local search engine ataupun worldwide search engine.
Sistem temu-kembali yang dibangun terdiri dari berbagai macam teknik retrieval seperti teknik Boolean biasa dan Boolean berperingkat serta teknik
Extended Boolean
berdasarkan p-norm
model. Sedangkan
teknik pengindeksannya juga terdiri dari beberapa macam antara lain teknik berdasarkan
frekuensi kemunculan istilah dan teknik pengindeksan yang dinormalisasi berdasarkan aturan Savoy1993. Pada sistem ini, teknik retrieval, basis data
indeks dan kumpulan dokumen berada dalam sebuah komputer server yang sama local.
2.2. Text Mining
Text mining adalah salah satu bidang khusus dari data mining. Sesuai dengan buku The Text Mining Handbook, text mining dapat didefinisikan sebagai
suatu proses menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponen-
komponen dalam data mining yang salah satunya adalah kategorisasi. Tujuan dari text mining adalah untuk mendapatkan informasi yang
berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau
minimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu pengkategorisasian teks text categorization dan pengelompokan teks text
clustering.
Text Mining tidak jauh berbeda dengan Data Mining. Yang membedakannya adalah pada sumber datanya, dimana Text Mining bersumber
dari kumpulan dokumen atau text. Pada Text Mining, informasi yang akan digali biasanya berisi informasi-informasi yang tidak terstruktur, tujuannya adalah
mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen. Tahapan yang dilakukan secara
umum dalam Text Mining adalah: tokenizing, filtering, stemming, tagging dan analyzing.
2.3. Tokenizer
Tokenizer adalah pemrosesan suatu unit dokumen yang mempunyai hasil akhir berupa Tokens unik dan banyaknya frekuensi Tokens yang terdapat dari
suatu unit dokumen. Didalam proses Tokenizer terdapat dua proses yaitu proses Tokenization dan proses Parsing.
Dengan satu urutan karakter dan satu unit dokumen yang didefinisikan, tokenization adalah pekerjaan pemotongan satu urutan karakter menjadi beberapa
bagian yang dinamakan tokens yang biasanya adalah kata, pada saat bersamaan proses tokenization membuang karakter tertentu, seperti pemberian tanda baca.
Tokens ini sering dengan bebas menunjuk sebagai istilah atau kata, tetapi tanda baca ini kadang-kadang penting untuk membuat satu perbedaan Tokens. Tokens
adalah satu contoh instance dari satu urutan karakter didalam beberapa dokumen tertentu.
2.4. Parsing