37
BAB 3 ANALISIS DAN KEBUTUHAN ALGORITMA
3.1 Analisis Masalah
Beberapa hal dari penjabaran latar belakang yang telah diuraikan pada bab 1, maka didapat analisis masalah yang terjadi dalam penelitian ini adalah sebagai
berikut. Dengan semakin banyaknya dokumen teks yang akan diakses serta meningkatnya pencarian informasi, pengguna semakin kesulitan untuk menemukan
dokumen yang relevan sesuai dnegan query yang diinputkan serta adanya kebutuhan untuk mendapatkan metode stemming yang memiliki performansi
paling baik untuk menemukan kata dasar bahasa Indonesia antara Algoritma Idris dan Algoritma ECS Stemmer.
3.2 Analisis Sistem
Analisis sistem didefinisikan sebagai penguraian dari sistem utama ke dalam sub
– sub sistem dengan tujuan untuk mengidentifikasi permasalahan – permasalahan yang ada dan kebutuhan
– kebutuhan yang diperlukan agar dapat diciptakan suatu simulator yang baik. Dalam mengimplementasikan algoritma Idris
dan Algoritma Enhanced Confix Stripping Stemmer akan dibangun sebuah simulator dengan gambaran sistem yang akan tertera pada gambar 3.1.
Simulator yang akan dibangun memiliki 3 tiga tahap yaitu tokenizing, filtering dan stemming. Untuk penjelasannya setiap tahapan dapat dilihat sebagi
berikut ini: 1.
Tahap pertama adalah tahap dimana akan dilakukan penghapusan tanda baca, angka, serta pengubahan huruf besar menjadi huruf kecil. Kemudian akan
dilakukan pemecah kalimat menjadi kata – kata, karena tanda baca sudah
dihilangkan sebelumnya maka pemisahan kata – kata dalam kalimat ini
dilakukan berdasarkan adanya spasi. 2.
Tahapan yang kedua adalah melakukan penghapusan kata – kata umum sesuai dengan kamus stopword, misalnya dalam, dan, karena, mana, untuk dan
lainnya.
3. Tahapan ketiga yaitu proses stemming merupakan pengelompokan kata secara
morfologis sesuai dengan kelompoknya. Pada tahapan ini akan dilakukan perubahan kata
– kata yang berimbuhan menjadi kata dasar dengan cara menghilangkan imbuhan depan, sisipan maupun akhiran. Pada tahapan
stemming akan dilakukan dengan dua algoritma yaitu algoritma Idris dan algoritma Enhanced Confix Stripping Stemmer. Hasil stemming merupakan
kata dasar dari dua algoritma tersebut yang hasilnya akan dibandingkan guna mengetahui algoritma mana yang paling baik performansinya untuk dokumen
teks bahasa Indonesia.
Sistem
1
Break into token
3
DokumenKata
2
Stop List
Hasil kata dasar Stemming
Algoritma ECS Stemmer
Hasil kata dasar Algoritma Idris
Gambar 3.1 Gambaran Umum Sistem 3.3
Analisis Data Masukkan
Data yang digunakan dalam stemming sebagi data masukkan merupakan kata dasar yang dapat berbentuk kalimat atau paragraf. Jumlah dokumen yang
diinputkan minimal memiliki 100 kata, tiap kata tersebut akan diolah untuk mendapatkan hasil akhir berupa kata dasar.
Dalam penelitian tugas akhir ini data pengolahan kata yang akan digunakan untuk analisis data adalah sebagai berikut :
1. Data masukkan berupa sebuah kata yang dapat berdiri sendiri yang
diinputkan langsung kedalam simulator. 2.
Data masukkan dapat berupa sebuah kalimat yang terdiri dari beberapa kata, atau sebuah paragraf yang terdiri dari beberapa kalimat.
3. Kalimat merupakan sebuah gabungan dari kata-kata yang berawalan huruf
besar dan diakhir kalimat diakhiri dengan tanda titik .. 4.
Data dari teks atau dokumen yang diinputkan berekstensi .txt. 5.
Kemudian data yang selain kata pada dokumen yang diinputkan akan dihilangkan dengan menggunakan tahapan tokenizing, filtering dan kamus
sebagai pembanding kata yang akan distemming.
3.4 Analisis Metode