3.4.4 Tokenizing
Proses Tokenizing adalah proses pemotongan string input berdasarkan tiap kata yang menyusunnya, memecahkan data kalimat dan memisahkannya menjadi
setiap kata
.
Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan men- scan kalimat dan setiap kata terindentifikasi atau terpisahkan dengan kata yang lain
oleh pemisah spasi[7]. Adapun flowchart dari proses preprocessing tokenizing dapat dilihat pada Gambar 3.7 berikut:
Mulai
Selesai Data
kalimat- kalimat
Data hasil tokenizing
kata Pecah data
menjadi tiap kata
Gambar 3.7 Flowchart Proses Preprocessing Tokenizing
Adapun contoh proses preprocessing untuk tokenizing dapat dilihat pada Tabel 3.4 berikut:
Tabel 3.4 Contoh Tokenizing
Sebelum Sesudah Tokenizing
malaysia memerintahkan penutupan sebagian sekolah selama hari akibat kabut asap tebal
menyelimuti kawasan asia tenggara malaysia
memerintahkan penutupan
sebagian sekolah
selama hari
akibat kabut
asap tebal
menyelimuti kawasan
asia tenggara
3.4.5 Stopword Removal
Proses stopword removal merupakan proses penghilangan stopword, menghilangkan kata-kata yang masuk ke dalam daftar kamus stopword. Stopword
adalah kata-kata yang sering kali muncul berupa kata sambung, kata depan, kata ganti, kata penghubung, dll. Namun artinya tidak deskriptif dan tidak memiliki
keterkaitan dengan topik tertentu[6]. Adapun flowchart dari proses preprocessing stopword removal dapat dilihat pada Gambar 3.8 berikut:
Mulai
Hapus stopword pada data
Selesai Data hasil
tokenizing
Data hasil stopword
removal Cek apakah
terdapat kata yg masuk dalam
kamus stopword ada
tidak ya
Gambar 3.8 Flowchart Proses Preprocessing Stopword Removal
Adapun contoh proses preprocessing untuk stopword removal dapat dilihat pada Tabel 3.5 berikut:
Tabel 3.5 Contoh Stopword Removal
Sebelum Sesudah Stopword Removal
malaysia memerintahkan
penutupan sebagian
sekolah selama
hari akibat
kabut asap
tebal menyelimuti
kawasan asia
tenggara malaysia
memerintahkan penutupan
sekolah hari
kabut asap
tebal menyelimuti
kawasan asia
tenggara