Proses Stemming TINJAUAN PUSTAKA

Contohnya dapat dilihat pada Gambar 2.3 dengan kata berlompatan. Gambar 2.3 Contoh kata berlompatan 3. Abjad jari Abjad jari adalah isyarat yang dibentuk dengan jari-jari tangan kanan atau kiri untuk mengeja huruf dan angka. Bentuk isyarat bagi huruf dan angka di dalam Sistem Isyarat Bahasa Indonesia serupa dengan International Manual Alphabet dengan perubahan- perubahan. Abjad jari digunakan untuk : a. Mengisyaratkan nama diri; b. Mengisyaratkan singkatan atau akronim; dan c. Mengisyaratkan kata yang belum ada isyaratnya.

2.2 Proses Stemming

Stemming merupakan suatu proses yang terdapat dalam sistem IR Information Retrieval untuk mengolah kata-kata yang terdapat dalam suatu dokumen dengan menggunakan aturan-aturan tertentu sehingga didapatkan kata dasarnya root word. Sebagai contoh, kata bersama, kebersamaan, menyamai, akan distem ke root word- nya yaitu “sama” Mahendra et al, 2008. Algoritma stemming untuk bahasa yang satu berbeda dengan algoritma stemming untuk bahasa lainnya. Sebagai contoh bahasa Inggris memiliki morfologi yang berbeda dengan bahasa Indonesia sehingga algoritma stemming untuk kedua bahasa tersebut juga berbeda. Proses stemming pada teks berbahasa Indonesia lebih rumitkompleks karena terdapat variasi imbuhan yang harus dibuang untuk Universitas Sumatera Utara mendapatkan root word kata dasar dari sebuah kata. Pada umumnya kata dasar pada bahasa Indonesia terdiri dari kombinasi: Prefiks 1 + Prefiks 2 + Kata dasar + Sufiks 3 + Sufiks 2 + Sufiks 1 Algoritma confix-stripping stemmer adalah algoritma yang akurat dalam stemming bahasa Indonesia karena sesuai dengan aturan morfologi bahasa Indonesia Adriani et al, 2007. Dalam menyelesaikan permasalahan untuk melakukan proses stemming secara tepat, para peneliti telah banyak menggunakan algoritma-algoritma yang dapat memberikan hasil yang sesuai harapan. Mahendra et al 2008 mengembangkan enhanced confix stripping stemmer, sebagai perbaikan dari algoritma confix strippingstemmeruntuk stemmingdokumen berita berbahasa Indonesia. Hasil uji coba membuktikan bahwa enhanced confix stripping stemmerberhasil mengatasi kesalahan-kesalahan confix stripping stemmer dan mampu mereduksi jumlah term hingga 32.66, sedangkan confix stripping stemmer hanya mampu mereduksi 30.95 jumlah term. Tahitoe dan Purwitasari 2006 pada penelitiannya mengimplementasikan metode corpus based stemming untuk memperbaiki kesalahan stemming dari algoritma ECS. Dari hasil uji coba, perbaikan yang dilakukan dapat memperbaiki seluruh kesalahan stemming yang dilakukan oleh algoritma ECS Stemmer. Budhi et al 2006 menggunakan algoritma Porter Stemmer for Bahasa Indonesia untuk proses stemming pada langkah pre-processing yang mengubah sebuah teks dalam bahasa Indonesia menjadi bentuk Compact Transaction. Compact Transaction digunakan sebagai masukan untuk proses Keyword-Based Association Analysis, sebuah metode Text Mining yang dikembangkan dari metode Market Basket Analysis, digunakan untuk membentuk rule-rule asosiasi dari data teks. Dari hasil uji coba didapatkan bahwakesalahan proses stem kata secara otomatis cukup kecil, yaitu 2 sehingga dapat diatasi dengan cepat menggunkan pemeriksaan kembali secara manual terhadap hasil stemmer. Darmawan et al menggunakan algoritma enhanced confix stripping stemmer dalam penelitiannya.Pemilihan algoritma Enhanced confix stripping stemmer merujuk pada penelitian I Putu Adhi Kerta Mahendra yang merupakan salah satu mahasiswa Institut Teknologi Sepuluh November ITS – Surabaya mengenai metode atau algoritma stemming yang spesifik untuk Bahasa Indonesia Mahendra, 2008. Universitas Sumatera Utara Berdasarkan penelitian-penelitian terdahulu maka penulis dalam penelitian ini menggunakan enhanced confix stripping stemmer dalam menyelesaikan permasalahan stemming agar sesuai dengan aturan morfologi pada bahasa isyarat Indonesia.

2.3 Algoritma Enhanced confix strippingStemmer