Case Folding dan Tokenizing Filtering Stemming

a. Case Folding dan Tokenizing

Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf „a‟ sampai dengan „z‟ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. Tahap tokenizing parsing adlah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Contoh dari tahap ini adalah sebagai berikut dapat dilihat pada gambar 2.7 Teks input Teks output Gambar 2.7 Proses Case folding dan tokenizing

b. Filtering

Tahap filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stoplist membuang kata yang kurang penting atau wordlist menyimpan kata yang penting. Stoplist stopword adalah katakata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words Porter,et all, 1980. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya. Contoh dari tahapan ini dapat dilihat pada Gambar 2.8. Hasil Filter Gambar Gambar 2.8 Proses Filtering Dalam manajemen pengetahuan terdapat transfer pengetahuan logisitic yang dikatakan Sutarno dalam manajemen pengetahuan terdapat transfer pengetahuan dalam manajemen pengetahuan terdapat transfer pengetahuan manajemen pengetahuan transfer pengetahuan Universitas Sumatera Utara

c. Stemming

Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering Cios, 2007. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit diterapkan pada teks berbahasa Indonesia . Hal ini dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen. Contoh dari tahap ini dapat dilihat pada Gambar 2.9 Hasil Filtering Gambar 2.9 Proses Stemming Hasil Stemming Dalam bahasa Indonesia, afiksimbuhan terdiri dari sufiks akhiran, infiks sisipan, dan prefiks awalan. Karena proses penambahan infiks dalam bahasa Indonesia jarang terjadi maka proses stemming yang akan dibangun hanya mengenai kata yang megalami penambahan prefiks dan sufiks.

d. Analyzing