a. Case Folding dan Tokenizing
Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf „a‟ sampai dengan „z‟ yang diterima. Karakter selain huruf dihilangkan
dan dianggap delimiter. Tahap tokenizing parsing adlah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Contoh dari tahap ini adalah sebagai
berikut dapat dilihat pada gambar 2.7
Teks input
Teks output
Gambar 2.7 Proses Case folding dan tokenizing
b. Filtering
Tahap filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stoplist membuang kata yang kurang penting atau wordlist
menyimpan kata yang penting. Stoplist stopword adalah katakata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words Porter,et all, 1980.
Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya. Contoh dari tahapan ini dapat dilihat pada Gambar 2.8.
Hasil Filter
Gambar
Gambar 2.8 Proses Filtering
Dalam manajemen pengetahuan terdapat transfer pengetahuan logisitic yang dikatakan Sutarno
dalam manajemen
pengetahuan terdapat
transfer pengetahuan
dalam manajemen
pengetahuan terdapat
transfer pengetahuan
manajemen pengetahuan
transfer pengetahuan
Universitas Sumatera Utara
c. Stemming
Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering Cios, 2007. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke
dalam suatu representasi yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit diterapkan pada teks berbahasa Indonesia . Hal ini
dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen. Contoh dari tahap ini dapat dilihat pada Gambar 2.9
Hasil Filtering Gambar 2.9 Proses Stemming Hasil Stemming
Dalam bahasa Indonesia, afiksimbuhan terdiri dari sufiks akhiran, infiks sisipan, dan prefiks awalan. Karena proses penambahan infiks dalam bahasa Indonesia
jarang terjadi maka proses stemming yang akan dibangun hanya mengenai kata yang megalami penambahan prefiks dan sufiks.
d. Analyzing