Stemming Synonym Recognition Deteksi Kemiripan Dokumen Teks Menggunakan Algoritma Manber

2.6 Stemming

Stemming adalah teknik pencarian kata dasar dari setiap kata hasil tokenizing. Di dalam bahasa Indonesia, stemming digunakan untuk menghilangkan bubuhan yang melekat pada kata dasar baik imbuhan awalan, akhiran, sisipan, partikel, dan kata ganti orang. Sebagai contoh : “mempermainkannya” = “mem” + ”per” + “main” + “kan” + “nya” Kata “mempermainkannya” merupakan hasil gabungan dari : 1. Satu kata dasar root word : “main” 2. Dua imbuhan awal prefiks : “mem” dan “per” 3. Satu imbuhan akhir sufiks : “kan” 4. Satu kata ganti orang possessive pronoun : “nya” Stemming lebih susah diimplementasikan ke dalam teks berbahasa Indonesia karena bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen Triawati, 2009. Banyak penelitian mengenai teknik stemming, salah satunya adalah Stemming Porter yang akan digunakan pada penelitian ini. Secara singkat langkah penyelesaian pada Stemming Porter adalah sebagai berikut: 1. Menghapus partikel, 2. Menghapus kata ganti possessive pronoun, 3. Menghapus awalan pertama. Jika tidak ditemukan, maka lanjut ke langkah 4a, dan jika ada, maka lanjut ke langkah 4b, 4. a. Menghapus awalan kedua, dan dilanjutkan pada langkah 5a, b. Menghapus akhiran, jika tidak ditemukan, maka kata diasumsikan sebagai kata dasar. Jika ditemukan lanjut ke langkah 5b, 5. a. Menghapus akhiran dan kata akhir diasumsikan sebagai kata dasar. b. Menghapus awalan kedua dan kata akhir diasumsikan sebagai kata dasar. Pendeteksian kemiripan dokumen sangat bergantung pada proses stemming, artinya jika proses stemming tidak berjalan dengan baik, maka hasil yang didapatkan juga tidak akan sesuai. Oleh karena itu, stemming menjadi salah satu kunci untuk mendapatkan hasil deteksi kemiripan dokumen teks yang akurat. Universitas Sumatera Utara

2.7 Synonym Recognition

Synonym Recognition atau pengenalan kata bersinonim adalah teknik yang digunakan untuk mengenali kata dengan penulisan berbeda namun memiliki makna yang sama. Teknik penjiplakan dokumen teks tidak lepas dari penggunaan kata bersinonim sehingga dokumen teks hasil penjiplakan berbeda secara penulisan dari dokumen teks aslinya meskipun makna yang dihasilkan tetaplah sama. Jenis penjiplakan tersebut dapat digolongkan ke dalam Disguised Plagiarism dan Technical Disguise. Jenis penjiplakan ini sangat sulit dideteksi oleh sistem yang tidak mengimplementasikan teknik Synonym Recognition. Di dalam bahasa Indonesia, hampir setiap kata memiliki sinonim, tentu hal ini semakin menyulitkan pendeteksian. Apabila sistem penyimpan kata hanya memiliki sedikit kata bersinonim, maka semakin kecil pula keakuratan pendeteksian. Hal ini juga dipersulit dengan adanya penulisan kata bersinonim yang sama meskipun maknanya berbeda, serta sinonim kata yang menggunakan imbuhan. Synonym Recognition merupakan kunci kedua terpenting setelah stemming. Hal ini diakibatkan karena banyaknya kata sinonim yang berasal dari kata dasar, meskipun beberapa sinonim kata memang memiliki imbuhan. Apabila proses stemming tidak berjalan dengan baik, maka pengenalan kata bersinonim juga menjadi tidak sesuai, dan berdampak pada berkurangnya keakuratan pendeteksian.

2.8 Penelitian Terdahulu