Successor Variety SV : lebih mengutamakan penyusunan huruf dalam kata N-Gram Conflation : ide dasarnya adalah pengelompokan kata-kata secara bersama Affix Removal penghilangan imbuhan : membuang prefix awalan dan suffix

2.2.2. Metode Stemming Metode stemming memerlukan input berupa term yang terdapat dalam dokumen. Sedangkan outputnya berupa stem. Ada tiga jenis metode stemming, antara lain :

1. Successor Variety SV : lebih mengutamakan penyusunan huruf dalam kata

dibandingkan dengan pertimbangan atas fonem. Contoh untuk kata-kata : corpus, able, axle, accident, ape, about menghasilkan SV untuk kata apple: a. Karena huruf pertama dari kata “ apple” adalah “a”, maka kumpulan kata yang ada substring “a” diikuti “b”, “x”, “c”, “p” disebut SV dari “a” sehingga “a” memiliki 4 SV. b. Karena dua huruf pertama dari kata “apple” adalah “ap”, maka kumpulan kata yang ada substring “ap” hanya diikuti “e” disebut SV dari “ap” sehingga “ap” memiliki 1 SV.

2. N-Gram Conflation : ide dasarnya adalah pengelompokan kata-kata secara bersama

berdasarkan karakter-karakter substring yang teridentifikasi sepanjang N karakter.

3. Affix Removal penghilangan imbuhan : membuang prefix awalan dan suffix

akhiran dari term menjadi suatu stem. Yang paling sering digunakan adalah algoritma Porter Stemmer karena modelnya sederhana dan efisien. a. Jika suatu kata diakhiri dengan “ies” tetapi bukan “eies” atau “aies”, maka “ies” di-replace dengan “y” b. Jika suatu kata diakhiri dengan “es” tetapi bukan “aes” atau “ees” atau “oes”, maka “es” di-replace dengan “e” c. Jika suatu kata diakhiri dengan “s” tetapi bukan “us” atau “ss”, maka “s” di- replace dengan “NULL” . Universitas Sumatera Utara 2.2.3. Porter Stemming Porter Stemming merupakan salah satu teknik stemming yang umum digunakan. Algoritma Porter adalah cara pencarian root word kata dasar yang dilakukan secara stripping imbuhan dan akhiran tanpa memperhatikan sisipin dan tanpa pengecekan kamus kata dasar. Porter Stemmer for Bahasa Indonesia dikembangkan oleh Fadillah Z. Tala pada tahun 2003. Awal mula Porter Stemmer for Bahasa Indonesia berdasarkan English Porter Stemmer yang dikembangkan oleh W.B. Frakes pada tahun 1992. Karena bahasa Inggris datang dari kelas yang berbeda, beberapa modifikasi telah dilakukan untuk membuat algoritma Porter dapat digunakan sesuai dengan bahasa Indonesia seperti pada gambar 2.1. word Remove Particle Remove Possesive Pronoun Remove 1 st Order Prefix Remove 2 nd Order Prefix Remove Suffix fall A rule if fired Remove Suffix Remove 2 nd Order Prefix A rule is fired stem fall Gambar 2.1. Desain Porter Stemmer Tala, 2003 Adapun tahap-tahap algoritma ini adalah : 1. Hapus partikel. 2. Hapus kata ganti kepunyaan. -ku, -mu, -nya 3. Hapus awalan pertama. Jika tidak ada, lanjutkan ke langkah 4a, jika ada hapus awalan dan lanjutkan ke langkah 4b. 4. a. Hapus awalan kedua, lanjutkan ke langkah 5a. Universitas Sumatera Utara b. Hapus akhiran, jika tidak ditemukan maka kata tersebut diasumsikan sebagai root word. Jika ditemukan maka lanjutkan ke langkah 5b. 5. a. Hapus akhiran. Kemudian kata akhir diasumsikan sebagai root word. b. Hapus awalan kedua. Kemudian kata akhir diasumsikan sebagai root word. Ada lima kumpulan aturan pada algoritma Porter Bahasa Indonesia. Aturan tersebut dapat dilihat pada table 2.1 sampai table 2.5. Acuan pemotongan partikel pada infleksi kata bahasa Indonesia dapat dilihat pada tabel 2.1, acuan kata ganti milik orang pertama pada tabel 2.2, kumpulan imbuhan awalan bahasa Indoensia pada tabel 2.3 dan tabel 2.4, serta kumpulan akhiran bahasa Indoneisa dapat dilihat pada tabel 2.5. Tabel 2.1 Aturan untuk Infection Particle Tala, 2003 Akhiran Replacement Additional Condition Contoh -lah Null null Pergilah -kah Null null Mejakah -tah null null Kursitah -pun null null makanpun Tabel 2.2 Aturan untuk Infection Possesive PronounTala, 2003 Akhiran Replacement Additional Condition Contoh -ku null null Pensilku -mu null null Punyamu -nya null null miliknya Universitas Sumatera Utara Tabel 2.3 Aturan untuk First Order Derivational PrefixTala, 2003 Awalan Replacement Addtional Condition Contoh meng- null null Mengambil meny- S V... Menyelesaikan men- null null Mendaki mem- P V... Mempunyai me- null null Melarang peng- null null Penghijauan peny- null null Penyiksaan pen- null null pendaki pem- P V.... Pemahat pem- null null Pembantu di- null null Diberi ter- null null terlepas ke- null null kelaparan Tabel 2.4 Aturan untuk Second Order Derivational PrefixTala, 2003 Awalan Replacement Additional Condition Contoh ber- null null Bersalah bel- null Ajar Belajar be- null Ker Bekerja Universitas Sumatera Utara Tabel 2.4 Aturan untuk Second Order Derivational Prefix lanjutan , Tala, 2003 Akhiran Replacement Addtional Condition Contoh per- null null Peralihan pel- null ajar pelajar pe- null null Pelatih Tabel 2.5 Aturan untuk Derivation SuffixTala, 2003 Akhiran Replacement Addtional Condition Contoh -kan null Prefix bukan anggota ke, peng Salahkan -an null Prefix bukan anggota di, meng, ter Makanan -i null Prefix bukan anggota ber, ke, peng tandai

2.3. Stopword