Case Folding Analisis Proses Preprocessing

3.4.4 Tokenizing

Proses Tokenizing adalah proses pemotongan string input berdasarkan tiap kata yang menyusunnya, memecahkan data kalimat dan memisahkannya menjadi setiap kata . Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan men- scan kalimat dan setiap kata terindentifikasi atau terpisahkan dengan kata yang lain oleh pemisah spasi[7]. Adapun flowchart dari proses preprocessing tokenizing dapat dilihat pada Gambar 3.7 berikut: Mulai Selesai Data kalimat- kalimat Data hasil tokenizing kata Pecah data menjadi tiap kata Gambar 3.7 Flowchart Proses Preprocessing Tokenizing Adapun contoh proses preprocessing untuk tokenizing dapat dilihat pada Tabel 3.4 berikut: Tabel 3.4 Contoh Tokenizing Sebelum Sesudah Tokenizing malaysia memerintahkan penutupan sebagian sekolah selama hari akibat kabut asap tebal menyelimuti kawasan asia tenggara  malaysia  memerintahkan  penutupan  sebagian  sekolah  selama  hari  akibat  kabut  asap  tebal  menyelimuti  kawasan  asia  tenggara

3.4.5 Stopword Removal

Proses stopword removal merupakan proses penghilangan stopword, menghilangkan kata-kata yang masuk ke dalam daftar kamus stopword. Stopword adalah kata-kata yang sering kali muncul berupa kata sambung, kata depan, kata ganti, kata penghubung, dll. Namun artinya tidak deskriptif dan tidak memiliki keterkaitan dengan topik tertentu[6]. Adapun flowchart dari proses preprocessing stopword removal dapat dilihat pada Gambar 3.8 berikut: Mulai Hapus stopword pada data Selesai Data hasil tokenizing Data hasil stopword removal Cek apakah terdapat kata yg masuk dalam kamus stopword ada tidak ya Gambar 3.8 Flowchart Proses Preprocessing Stopword Removal Adapun contoh proses preprocessing untuk stopword removal dapat dilihat pada Tabel 3.5 berikut: Tabel 3.5 Contoh Stopword Removal Sebelum Sesudah Stopword Removal  malaysia  memerintahkan  penutupan  sebagian  sekolah  selama  hari  akibat  kabut  asap  tebal  menyelimuti  kawasan  asia  tenggara  malaysia  memerintahkan  penutupan  sekolah  hari  kabut  asap  tebal  menyelimuti  kawasan  asia  tenggara