Ekstraksi Dokumen Implementasi Algoritma Rabin-Karp Menggunakan Stemming Nazief Dan Adriani Untuk Mendeteksi Tingkat Kemiripan File Teks Yang Berbentuk Skripsi

interpretasi merupakan tahap akhir dari proses text mining dan akan disajikan ke pengguna dalam bentuk visual Eko, 2011.

2.2 Ekstraksi Dokumen

Teks yang akan dilakukan proses text mining, pada umumnya memiliki beberapa karakteristik diantaranya adalah memiliki dimensi yang tinggi, terdapat noise pada data, dan terdapat struktur teks yang tidak baik. Cara yang digunakan dalam mempelajari suatu data teks, adalah dengan terlebih dahulu menentukan fitur-fitur yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum menentukan fitur-fitur yang mewakili, diperlukan tahap preprocessing yang dilakukan secara umum dalam teks mining pada dokumen, yaitu case folding, tokenizing, filtering, stemming, tagging dan analyzing. Gambar 2.1 Tahap Preprocessing a. Case folding dan Tokenizing Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf “a” sampai dengan “z” yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. Tahap tokenizing parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. b.Filtering Filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stoplist membuang kata yang kurang penting atau wordlist CASE FOLDING TOKENIZING FILTERING STEMMING menyimpan kata penting. Stopliststopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”, “dan”, “di”, “dari”, dan seterusnya. c. Stemming Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa nggris dan lebih sulit diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen Eko, 2011. Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasi kata- kata yang terdapat dalam suatu dokumen ke kata-kata akarnya root word dengan menggunakan aturan-aturan tertentu. Sebagai contoh, kata bersama, kebersamaan, menyamai, akan distem ke root wordnya yaitu “sama”. Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia, selain sufiks, prefiks, dan konfiks juga dihilangkan Ledy, 2009.

2.2.1 Stemming dengan Algoritma Nazief dan Adriani

Stemming adalah proses pemetaan variansi morfologikal kata dalam kata dasar atau kata umumnya stem Adhitia, 2009. Misalnya kata perancangan dan merancang akan diubah menjadi sebuah kata yang sama, yaitu rancang. Proses stemming sangat tergantung kepada bahasa dari kata yang akan di-stem. Hal ini dikarenakan, dalam melakukan proses stemming harus mengaplikasikan aturan morfologikal dari suatu bahasa. Kebanyakan bahasa memiliki kata fungsi dan kata sambung seperti artikel dan preposisi yang hampir selalu muncul pada dokumen teks. Biasanya kata-kata ini tidak memiliki arti yang lebih di dalam memenuhi kebutuhan seorang pencari di dalam mencari informasi. Kata-kata tersebut misalnya a, an, the, on pada bahasa Inggris disebut sebagai Stopwords Chakrabarti, 2003. Pembuangan Stopwords dapat mengurangi besar dari index space dan meningkatkan performa dalam pemrosesan lebih lanjut. Aturan imbuhan yang digunakan pada Bahasa Indonesia lebih kompleks, tidak seperti aturan imbuhan Bahasa Inggris. Pada Bahasa Indonesia terdapat aturan imbuhan yang lebih kompleks yang meliputi awalan, akhiran, sisipan, dan konfiks kombinasi dari awalan dan akhiran. Banyak penelitian yang dilakukan untuk menemukan algoritma stemming yang tepat dan bagus dalam Bahasa Indonesia, antara lain algoritma Nazief Adriani, algoritma Arifin Setiono, dan algoritma Vega Asian et al, 2005. Menurut penelitian Jelita Asian sebagaimana disebutkan dalam Novanta, 2009 menyatakan berdasarkan aturan morfologi Bahasa Indonesia dapat dinyatakan bahwa algoritma Nazief Adriani adalah algoritma yang memiliki hasil terbaik. Nazief Adriani menyimpulkan sebuah kata dasar dapat ditambahkan imbuhan berupa derivation prefix DP di awal danatau diakhiri secara berurutan oleh derivation suffix DS, possesive pronoun PP, dan particle P yang masing-masing bersifat optional. Keterangan diatas dirumuskan pada Gambar 2.2. Gambar 2.2 Format Kata Berimbuhan dalam Bahasa Indonesia Adapun langkah-langkah yang digunakan oleh algoritma Nazief dan Adriani yaitu sebagai berikut: 1. Kata dicari di dalam daftar kamus. Bila kata tersebut ditemukan di dalam kamus, maka dapat diasumsikan kata tersebut adalah kata dasar sehingga algoritma dihentikan. 2. Bila kata di dalam langkah pertama tidak ditemukan di dalam kamus, maka diperiksa apakah sufiks tersebut yaitu sebuah partikel “-lah” atau “-kah”. Bila ditemukan, maka partikel tersebut dihilangkan. 3. Pemeriksaan dilanjutkan pada kata ganti milik “-ku”, “-mu”, “-nya”. Bila ditemukan, maka kata ganti tersebut dihilangkan. 4. Memeriksa akhiran “-i”, “-an”. Bila ditemukan, maka akhiran tersebut dihilangkan. DP + DP + DP + root word + DS + PP + P Hingga langkah ke-4 dibutuhkan ketelitian untuk memeriksa apakah akhiran “-an” merupakan hanya bagian dari akhiran “-kan”, dan memeriksa lagi apakah partikel “- lah”, “-kah” dan kata ganti milik “-ku”, “-mu”, “-nya” yang telah dihilangkan pada langkah 2 dan 3 bukan merupakan bagian dari kata dasar. 5. Memeriksa awalan “se-“, ”ke-“, “di-“, “te-“, “be-“, “pe-“, “me-“. Bila ditemukan, maka awalan tersebut dihilangkan. Pemeriksaan dilakukan dengan berulang mengingat adanya kemungkinan multi-prefix. Langkah ke-5 ini juga membutuhkan ketelitian untuk memeriksa kemungkinan peluluhan awalan Tabel 2.1, perubahan prefix yang disesuaikan dengan huruf-awal kata Tabel 2.2 dan aturan kombinasi prefix-suffix yang diperbolehkan Tabel 2.3. 6. Setelah menyelesaikan semua langkah dengan sukses, maka algoritma akan mengembalikan kata dasar yang ditemukan. Tabel 2.1 Daftar Prefiks yang Meluluh Jenis Prefiks Huruf Hasil Peluluhan pe-me- K -ng- pe-me- P -m- pe-me- S -ny- pe-me- T -n- Tabel 2.2 Daftar Kemungkinan Perubahan Prefiks Prefiks Perubahan se- tidak berubah ke- tidak berubah di- tidak berubah be- ber- te- ter- pe- per-, pen-, pem-, peng- me- men-, mem-, meng- Tabel 2.3 Daftar Kombinasi Prefiks dan Sufiks yang Tidak Diperbolehkan Prefiks Sufiks yang tidak diperbolehkan be- -i di- -an ke- -i, -kan me- -an se- -i, -kan te- -an pe- -kan

2.3 Rabin-Karp