Case Folding Analisis Proses Preprocessing

3.4.4 Tokenizing

Proses Tokenizing adalah proses pemotongan string input berdasarkan tiap kata yang menyusunnya, memecahkan data kalimat dan memisahkannya menjadi setiap kata . Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan men- scan kalimat dan setiap kata terindentifikasi atau terpisahkan dengan kata yang lain oleh pemisah spasi[7]. Adapun flowchart dari proses preprocessing tokenizing dapat dilihat pada Gambar 3.7 berikut: Mulai Selesai Data kalimat- kalimat Data hasil tokenizing kata Pecah data menjadi tiap kata Gambar 3.7 Flowchart Proses Preprocessing Tokenizing Adapun contoh proses preprocessing untuk tokenizing dapat dilihat pada Tabel 3.4 berikut: Tabel 3.4 Contoh Tokenizing Sebelum Sesudah Tokenizing malaysia memerintahkan penutupan sebagian sekolah selama hari akibat kabut asap tebal menyelimuti kawasan asia tenggara  malaysia  memerintahkan  penutupan  sebagian  sekolah  selama  hari  akibat  kabut  asap  tebal  menyelimuti  kawasan  asia  tenggara

3.4.5 Stopword Removal

Proses stopword removal merupakan proses penghilangan stopword, menghilangkan kata-kata yang masuk ke dalam daftar kamus stopword. Stopword adalah kata-kata yang sering kali muncul berupa kata sambung, kata depan, kata ganti, kata penghubung, dll. Namun artinya tidak deskriptif dan tidak memiliki keterkaitan dengan topik tertentu[6]. Adapun flowchart dari proses preprocessing stopword removal dapat dilihat pada Gambar 3.8 berikut: Mulai Hapus stopword pada data Selesai Data hasil tokenizing Data hasil stopword removal Cek apakah terdapat kata yg masuk dalam kamus stopword ada tidak ya Gambar 3.8 Flowchart Proses Preprocessing Stopword Removal Adapun contoh proses preprocessing untuk stopword removal dapat dilihat pada Tabel 3.5 berikut: Tabel 3.5 Contoh Stopword Removal Sebelum Sesudah Stopword Removal  malaysia  memerintahkan  penutupan  sebagian  sekolah  selama  hari  akibat  kabut  asap  tebal  menyelimuti  kawasan  asia  tenggara  malaysia  memerintahkan  penutupan  sekolah  hari  kabut  asap  tebal  menyelimuti  kawasan  asia  tenggara

Case Folding Analisis Proses Preprocessing

3.4.4 Tokenizing

3.4.5 Stopword Removal

Parts

Dokumen yang terkait

Identifikasi Penyakit Daun Tanaman Kelapa Sawit Menggunakan Support Vector Machine

Implementasi Metode Maximum Marginal Relevance (MMR) Dan Algoritma Steiner Tree Untuk Menentukan Storyline Dokumen Berita

Implementasi Metode Support Vector Machine Dalam Memprediksi Kemenangan Atlet

IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA

Implementasi Support Vector Machine (SVM) Untuk Klasifikasi Dokumen

Klasifikasi Dokumen Berita Menggunakan Metode Support Vector Machine dengan Kernel Radial Basis Function

Klasifikasi Dokumen Berita Menggunakan Metode Support Vector Machine dengan Kernel Radial Basis Function

IMPLEMENTASI METODE SUPPORT VECTOR MACHINE PADA SISTEM PENGENALAN JEJAITAN

Implementasi Metode Terms Frequency-Inverse Document Frequency (TF-IDF) dan Maximum Marginal Relevance untuk Monitoring Diskusi Online

Implementasi Metode HOG dan Support Vector Machine (SVM) Untuk Multiple Smile Detection

Dukungan

Links

Case Folding Analisis Proses Preprocessing

3.4.4 Tokenizing

3.4.5 Stopword Removal

Parts

Dokumen yang terkait

Identifikasi Penyakit Daun Tanaman Kelapa Sawit Menggunakan Support Vector Machine

Implementasi Metode Maximum Marginal Relevance (MMR) Dan Algoritma Steiner Tree Untuk Menentukan Storyline Dokumen Berita

Implementasi Metode Support Vector Machine Dalam Memprediksi Kemenangan Atlet

IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA

Implementasi Support Vector Machine (SVM) Untuk Klasifikasi Dokumen

Klasifikasi Dokumen Berita Menggunakan Metode Support Vector Machine dengan Kernel Radial Basis Function

Klasifikasi Dokumen Berita Menggunakan Metode Support Vector Machine dengan Kernel Radial Basis Function

IMPLEMENTASI METODE SUPPORT VECTOR MACHINE PADA SISTEM PENGENALAN JEJAITAN

Implementasi Metode Terms Frequency-Inverse Document Frequency (TF-IDF) dan Maximum Marginal Relevance untuk Monitoring Diskusi Online

Implementasi Metode HOG dan Support Vector Machine (SVM) Untuk Multiple Smile Detection

Dokumen yang Anda mencari sudah siap untuk unduhkan