Stemming Rarangken hareup ka- contoh: karasa = terasa, kabawa = terbawa, kageleng

17 12. Rarangkenan R-na. Kata ulang dwilingga dan dwipurwa dapat diberi akhiran -na, contohnya adalah sebagai berikut: kata gede besar menjadi gegedena yang besarnya, dalit sahabat menjadi dalit-dalitna sahabat- sahabatnya. 13. Rarangkenan pang-R-na. Kata ulang dwilingga dapat diberi awalan pang- dan akhiran -na. Contohnya adalah sebagai berikut: alus bagus menjadi pangalus-alusna yang terbagus, bageur baik hati menjadi pangbageur- bageurna yang terbaik hati. 14. Rarangkenan sa-R-na. Kata ulang dwilingga dapat diberi awalan sa- dan akhiran -na. Contohnya adalah sebagai berikut: hade bagus menjadi sahade-hadena sebagus-bagusnya, bisa menjadi sabisa-bisana sebisa- bisanya.

2.2 Stemming

Stemming adalah proses penghilangan prefiks, infiks dan sufiks dari suatu kata. Stemming dilakukan atas dasar asumsi bahwa kata-kata yang memiliki stem yang sama memiliki makna yang serupa sehingga pengguna tidak keberatan untuk memperoleh dokumen-dokumen yang di dalamnya terdapat kata-kata dengan stem yang sama dengan query-nya. Proses stemming tersebut dapat diilustrasikan dengan Gambar 3. Gambar 3 Ilustrasi proses stemming. Teknik-teknik stemming dapat dikategorikan menjadi: - berdasarkan aturan sesuai bahasa tertentu, 18 - berdasarkan kamus, - berdasarkan kemunculan bersama. Stemming dalam sistem temu kembali informasi tergantung pada bahasa yang digunakan dalam dokumen yang akan dicari. Algoritme stemming untuk bahasa Inggris kurang optimal untuk menangani dokumen dalam bahasa Indonesia. Selain itu bahasa Indonesia pastinya juga memiliki daftar kata buang stoplist serta sistem pembentukan kata yang sangat berbeda dengan bahasa Inggris, sehingga diperlukan algoritme stemming yang khusus untuk bahasa Indonesia. Demikian juga untuk bahasa Sunda, juga diperlukan algoritme stemming khusus untuk mencari kata dasar dari suatu kata dalam bahasa Sunda. Terdapat bermacam-macam jenis stemmer, di antaranya adalah: stemmer infleksional yaitu stemmer yang membuang imbuhan inflection dari kata dengan menggunakan aturan tata bahasanya. Contoh dari stemmer ini adalah stemmer yang menggunakan algoritme Potter. Algoritme stemmer infleksional dalam bahasa Indonesia salah satunya diteliti oleh Adriani et al. 2007. Jenis stemmer yang lain adalah stemmer corpus-based, yaitu stemmer yang menggunakan koleksi dokumen untuk mendapatkan kata dasar dari sebuah kata. Siregar 1995 dalam penelitiannya menyatakan, untuk mendapatkan kata dasar dari suatu kata berimbuhan, dilakukan proses stemming dan untuk menguji apakah kata hasil stemming tersebut valid maka kata tersebut dibandingkan dengan Kamus Besar bahasa Indonesia. Adriani et al. 2007, meneliti stemmer morfologi untuk bahasa Indonesia dengan mengemukakan algoritme stemming yang juga membandingkan kata yang akan di-stem dengan Kamus Besar bahasa Indonesia. Pada penelitian lainnya, Ichsan 1996 mengemukakan teknik stemmer corpus-based dengan menggunakan statistic co-occurace dari variasi kata untuk mencari keakuratan hasil stemming. Tala 2003 melakukan modifikasi terhadap algoritme Potter untuk stemming bahasa Indonesia. Semua stemmer-stemmer yang diteliti oleh para peneliti di atas menghasilkan kata dasar dengan menghilangkan imbuhan, sisipan dan akhiran dari kata-kata berimbuhan bahasa Indonesia. 19

2.3 Kesalahan Stemming