Analisis Masalah Tahap Pemrosesan Data Teks

BAB III ANALISA DAN PERANCANGAN SISTEM

Analisis dan perancangan berfungsi untuk mempermudah, memahami dan menyusun perancangan pada bab selanjutnya. Selain itu juga berfungsi untuk memberikan gambaran dan solusi pada pembuatan solusi ini.

3.1. Analisis Masalah

Secara garis besar, program ini terdiri atas 4 empat proses, yaitu : a. Proses input data, baik berupa file teks ataupun dientry diketik secara langsung oleh pengguna. b. Proses Tokenizer, yaitu unit pemrosesan dokumen menghasilkan token dan proses parsing dokumen untuk pengenalan token, yang terdapat di dalam data teks yang sudah diinputkan. c. Proses Stoplist, yaitu proses menghilangkan kata-kata buang yang didapat dari data teks. d. Proses Stemming, yaitu proses untuk menghilangkan imbuhan, awalan dan akhiran dari hasil stoplist.

3.2. Tahap Pemrosesan Data Teks

Tokenizer adalah pemrosesan suatu unit dokumen yang mempunyai hasil akhir berupa Tokens unik dan banyaknya frekuensi Tokens yang terdapat dari suatu unit dokumen. Didalam proses Tokenizer terdapat dua proses yaitu proses Tokenization dan proses Parsing. Dengan satu urutan karakter dan satu unit dokumen yang didefinisikan, tokenization adalah pekerjaan pemotongan satu urutan karakter menjadi beberapa bagian yang dinamakan tokens yang biasanya adalah kata, pada saat bersamaan proses tokenization membuang karakter tertentu, seperti pemberian tanda baca. Tokens ini sering dengan bebas menunjuk sebagai istilah atau kata, tetapi tanda baca ini kadang-kadang penting untuk membuat satu perbedaan Tokens. Tokens adalah satu contoh instance dari satu urutan karakter didalam beberapa dokumen tertentu. Salah satu contoh dari Tokenization : Input : Bersyukurlah kita bangsa Indonesia yang begitu memasuki pintu gerbang kemerdekaan, telah memiliki bahasa kesatuan yang sekaligus menjadi bahasa nasional. Hasilnya adalah : Bersyukurlah kita bangsa Indonesia yang begitu memasuki pintu gerbang kemerdekaan telah memiliki bahasa kesatuan yang sekaligus menjadi bahasa nasional Contoh disini dilakukan pemotongan setiap satu kata dan menghilangkan semua karakter tanda baca. Langkah berikutnya adalah dilakukan proses parsing. Parsing adalah proses pengenalan dan pengambilan Token hasil Tokenization dari sekumpulan unit dokumen. Yang biasanya kata – kata. Proses parsing tidak hanya dapat dilakukan dalam proses Information retrieval, melainkan juga pada bidang lain seperti pada pembuatan sebuah compiler dan Bahasa Alami. Sebelumnya perlu diketahui arti dari istilah parser yaitu program yang melakukan proses parsing. Parser dapat di ibaratkan sebagai “otak” dari sebuah kompiler: komponen inilah yang menginferensikan makna dari bahasa dalam string input berdasarkan grammartata bahasa yang telah ditentukan sebelumnya oleh pemrogram. Dari makna atau nilai semantik sebuah rangkaian token, parser dapat segera memproses interpretasi, translasi struktur implisit dalam rangkaian token tersebut, atau menunda pemrosesan sampai didapat struktur utuh dari string input. Contoh proses parsing dapat dilihat pada bagian lampiran. Stoplist Adalah proses pembuangan atau menghilangkan kata-kata buang, yaitu : Kata depan, kata sambung, kata ganti, dan lain-lain. seperti : di, dan, tetapi, dia, yaitu, sedangkan, dan sebagainya. Contoh : Bersyukurlah kita bangsa Indonesia yang begitu memasuki pintu gerbang kemerdekaan, telah memiliki bahasa kesatuan yang sekaligus menjadi bahasa nasional. Menjadi : Bersyukurlah bangsa Indonesia memasuki pintu gerbang kemerdekaan, memiliki bahasa kesatuan sekaligus menjadi bahasa nasional.

Analisis Masalah Tahap Pemrosesan Data Teks

BAB III ANALISA DAN PERANCANGAN SISTEM

3.1. Analisis Masalah

3.2. Tahap Pemrosesan Data Teks

3.3. Algorithma Stemming

Parts

Dokumen yang terkait

Pencarian Kata Tidak Baku Pada Dokumen Di Balai Bahasa Bandung Menggunakan Stemming Engine Bahasa Indonesia

Sistem Pencarian Turunan Kata pada Al-Quran Menggunakan Light Stemming dan Clustering untuk Pembicara Bahasa Indonesia

STEMMING BAHASA INDONESIA SEBAGAI MEDIA BELAJAR SISWA SEKOLAH MENGGUNAKAN ALGORITMA PORTE.

PDF ini STUDI PERBANDINGAN ALGORITMA ALGORITMA STEMMING UNTUK DOKUMEN TEKS BAHASA INDONESIA | Sahat | Jurnal INKOFAR 1 PB

Pengaruh Algoritma Stemming Nazief-Adriani Terhadap Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa Indonesia

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING

Stemming teks sor-singgih Bahasa Bali

STEMMING WORDS DENGAN N-GRAM DAN LEXEME BASED UNTUK TEKS BERBAHASA KOREA STEMMING WORDS WITH N-GRAM AND LEXEME BASED FOR KOREAN LANGUAGE TEXT

Peran Text Processing Dalam Aplikasi Penerjemah Multi Bahasa Menggunakan Ajax API Google

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA

Dukungan

Links

Analisis Masalah Tahap Pemrosesan Data Teks

BAB III ANALISA DAN PERANCANGAN SISTEM

3.1. Analisis Masalah

3.2. Tahap Pemrosesan Data Teks

3.3. Algorithma Stemming

Parts

Dokumen yang terkait

Pencarian Kata Tidak Baku Pada Dokumen Di Balai Bahasa Bandung Menggunakan Stemming Engine Bahasa Indonesia

Sistem Pencarian Turunan Kata pada Al-Quran Menggunakan Light Stemming dan Clustering untuk Pembicara Bahasa Indonesia

STEMMING BAHASA INDONESIA SEBAGAI MEDIA BELAJAR SISWA SEKOLAH MENGGUNAKAN ALGORITMA PORTE.

PDF ini STUDI PERBANDINGAN ALGORITMA ALGORITMA STEMMING UNTUK DOKUMEN TEKS BAHASA INDONESIA | Sahat | Jurnal INKOFAR 1 PB

Pengaruh Algoritma Stemming Nazief-Adriani Terhadap Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa Indonesia

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING

Stemming teks sor-singgih Bahasa Bali

STEMMING WORDS DENGAN N-GRAM DAN LEXEME BASED UNTUK TEKS BERBAHASA KOREA STEMMING WORDS WITH N-GRAM AND LEXEME BASED FOR KOREAN LANGUAGE TEXT

Peran Text Processing Dalam Aplikasi Penerjemah Multi Bahasa Menggunakan Ajax API Google

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA

Dokumen yang Anda mencari sudah siap untuk unduhkan