Analisis Sistem Analisis Perbandingan Algoritma Idris Dan Algoritma Enhanced Confix Stripping (ECS) Stemmer Pada Dokumen Teks Bahasa Indonesia

37 BAB 3 ANALISIS DAN KEBUTUHAN ALGORITMA

3.1 Analisis Masalah

Beberapa hal dari penjabaran latar belakang yang telah diuraikan pada bab 1, maka didapat analisis masalah yang terjadi dalam penelitian ini adalah sebagai berikut. Dengan semakin banyaknya dokumen teks yang akan diakses serta meningkatnya pencarian informasi, pengguna semakin kesulitan untuk menemukan dokumen yang relevan sesuai dnegan query yang diinputkan serta adanya kebutuhan untuk mendapatkan metode stemming yang memiliki performansi paling baik untuk menemukan kata dasar bahasa Indonesia antara Algoritma Idris dan Algoritma ECS Stemmer.

3.2 Analisis Sistem

Analisis sistem didefinisikan sebagai penguraian dari sistem utama ke dalam sub – sub sistem dengan tujuan untuk mengidentifikasi permasalahan – permasalahan yang ada dan kebutuhan – kebutuhan yang diperlukan agar dapat diciptakan suatu simulator yang baik. Dalam mengimplementasikan algoritma Idris dan Algoritma Enhanced Confix Stripping Stemmer akan dibangun sebuah simulator dengan gambaran sistem yang akan tertera pada gambar 3.1. Simulator yang akan dibangun memiliki 3 tiga tahap yaitu tokenizing, filtering dan stemming. Untuk penjelasannya setiap tahapan dapat dilihat sebagi berikut ini: 1. Tahap pertama adalah tahap dimana akan dilakukan penghapusan tanda baca, angka, serta pengubahan huruf besar menjadi huruf kecil. Kemudian akan dilakukan pemecah kalimat menjadi kata – kata, karena tanda baca sudah dihilangkan sebelumnya maka pemisahan kata – kata dalam kalimat ini dilakukan berdasarkan adanya spasi. 2. Tahapan yang kedua adalah melakukan penghapusan kata – kata umum sesuai dengan kamus stopword, misalnya dalam, dan, karena, mana, untuk dan lainnya. 3. Tahapan ketiga yaitu proses stemming merupakan pengelompokan kata secara morfologis sesuai dengan kelompoknya. Pada tahapan ini akan dilakukan perubahan kata – kata yang berimbuhan menjadi kata dasar dengan cara menghilangkan imbuhan depan, sisipan maupun akhiran. Pada tahapan stemming akan dilakukan dengan dua algoritma yaitu algoritma Idris dan algoritma Enhanced Confix Stripping Stemmer. Hasil stemming merupakan kata dasar dari dua algoritma tersebut yang hasilnya akan dibandingkan guna mengetahui algoritma mana yang paling baik performansinya untuk dokumen teks bahasa Indonesia. Sistem 1 Break into token 3 DokumenKata 2 Stop List Hasil kata dasar Stemming Algoritma ECS Stemmer Hasil kata dasar Algoritma Idris Gambar 3.1 Gambaran Umum Sistem 3.3 Analisis Data Masukkan Data yang digunakan dalam stemming sebagi data masukkan merupakan kata dasar yang dapat berbentuk kalimat atau paragraf. Jumlah dokumen yang diinputkan minimal memiliki 100 kata, tiap kata tersebut akan diolah untuk mendapatkan hasil akhir berupa kata dasar. Dalam penelitian tugas akhir ini data pengolahan kata yang akan digunakan untuk analisis data adalah sebagai berikut : 1. Data masukkan berupa sebuah kata yang dapat berdiri sendiri yang diinputkan langsung kedalam simulator. 2. Data masukkan dapat berupa sebuah kalimat yang terdiri dari beberapa kata, atau sebuah paragraf yang terdiri dari beberapa kalimat. 3. Kalimat merupakan sebuah gabungan dari kata-kata yang berawalan huruf besar dan diakhir kalimat diakhiri dengan tanda titik .. 4. Data dari teks atau dokumen yang diinputkan berekstensi .txt. 5. Kemudian data yang selain kata pada dokumen yang diinputkan akan dihilangkan dengan menggunakan tahapan tokenizing, filtering dan kamus sebagai pembanding kata yang akan distemming.

3.4 Analisis Metode