Text Mining Tokenizer TINJAUAN PUSTAKA

retrieval dan rancangan penerapan teknik pada hiperteks akan sama saja, baik pengindeksannya secara local search engine ataupun worldwide search engine. Sistem temu-kembali yang dibangun terdiri dari berbagai macam teknik retrieval seperti teknik Boolean biasa dan Boolean berperingkat serta teknik Extended Boolean berdasarkan p-norm model. Sedangkan teknik pengindeksannya juga terdiri dari beberapa macam antara lain teknik berdasarkan frekuensi kemunculan istilah dan teknik pengindeksan yang dinormalisasi berdasarkan aturan Savoy1993. Pada sistem ini, teknik retrieval, basis data indeks dan kumpulan dokumen berada dalam sebuah komputer server yang sama local.

2.2. Text Mining

Text mining adalah salah satu bidang khusus dari data mining. Sesuai dengan buku The Text Mining Handbook, text mining dapat didefinisikan sebagai suatu proses menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponen- komponen dalam data mining yang salah satunya adalah kategorisasi. Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu pengkategorisasian teks text categorization dan pengelompokan teks text clustering. Text Mining tidak jauh berbeda dengan Data Mining. Yang membedakannya adalah pada sumber datanya, dimana Text Mining bersumber dari kumpulan dokumen atau text. Pada Text Mining, informasi yang akan digali biasanya berisi informasi-informasi yang tidak terstruktur, tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen. Tahapan yang dilakukan secara umum dalam Text Mining adalah: tokenizing, filtering, stemming, tagging dan analyzing.

2.3. Tokenizer

Tokenizer adalah pemrosesan suatu unit dokumen yang mempunyai hasil akhir berupa Tokens unik dan banyaknya frekuensi Tokens yang terdapat dari suatu unit dokumen. Didalam proses Tokenizer terdapat dua proses yaitu proses Tokenization dan proses Parsing. Dengan satu urutan karakter dan satu unit dokumen yang didefinisikan, tokenization adalah pekerjaan pemotongan satu urutan karakter menjadi beberapa bagian yang dinamakan tokens yang biasanya adalah kata, pada saat bersamaan proses tokenization membuang karakter tertentu, seperti pemberian tanda baca. Tokens ini sering dengan bebas menunjuk sebagai istilah atau kata, tetapi tanda baca ini kadang-kadang penting untuk membuat satu perbedaan Tokens. Tokens adalah satu contoh instance dari satu urutan karakter didalam beberapa dokumen tertentu.

Text Mining Tokenizer TINJAUAN PUSTAKA

2.2. Text Mining

2.3. Tokenizer

2.4. Parsing

Parts

Dokumen yang terkait

Pencarian Kata Tidak Baku Pada Dokumen Di Balai Bahasa Bandung Menggunakan Stemming Engine Bahasa Indonesia

Sistem Pencarian Turunan Kata pada Al-Quran Menggunakan Light Stemming dan Clustering untuk Pembicara Bahasa Indonesia

STEMMING BAHASA INDONESIA SEBAGAI MEDIA BELAJAR SISWA SEKOLAH MENGGUNAKAN ALGORITMA PORTE.

PDF ini STUDI PERBANDINGAN ALGORITMA ALGORITMA STEMMING UNTUK DOKUMEN TEKS BAHASA INDONESIA | Sahat | Jurnal INKOFAR 1 PB

Pengaruh Algoritma Stemming Nazief-Adriani Terhadap Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa Indonesia

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING

Stemming teks sor-singgih Bahasa Bali

STEMMING WORDS DENGAN N-GRAM DAN LEXEME BASED UNTUK TEKS BERBAHASA KOREA STEMMING WORDS WITH N-GRAM AND LEXEME BASED FOR KOREAN LANGUAGE TEXT

Peran Text Processing Dalam Aplikasi Penerjemah Multi Bahasa Menggunakan Ajax API Google

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA

Dukungan

Links

Text Mining Tokenizer TINJAUAN PUSTAKA

2.2. Text Mining

2.3. Tokenizer

2.4. Parsing

Parts

Dokumen yang terkait

Pencarian Kata Tidak Baku Pada Dokumen Di Balai Bahasa Bandung Menggunakan Stemming Engine Bahasa Indonesia

Sistem Pencarian Turunan Kata pada Al-Quran Menggunakan Light Stemming dan Clustering untuk Pembicara Bahasa Indonesia

STEMMING BAHASA INDONESIA SEBAGAI MEDIA BELAJAR SISWA SEKOLAH MENGGUNAKAN ALGORITMA PORTE.

PDF ini STUDI PERBANDINGAN ALGORITMA ALGORITMA STEMMING UNTUK DOKUMEN TEKS BAHASA INDONESIA | Sahat | Jurnal INKOFAR 1 PB

Pengaruh Algoritma Stemming Nazief-Adriani Terhadap Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa Indonesia

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING

Stemming teks sor-singgih Bahasa Bali

STEMMING WORDS DENGAN N-GRAM DAN LEXEME BASED UNTUK TEKS BERBAHASA KOREA STEMMING WORDS WITH N-GRAM AND LEXEME BASED FOR KOREAN LANGUAGE TEXT

Peran Text Processing Dalam Aplikasi Penerjemah Multi Bahasa Menggunakan Ajax API Google

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA

Dokumen yang Anda mencari sudah siap untuk unduhkan