2.2.2. Metode Stemming Metode stemming memerlukan input berupa term yang terdapat dalam dokumen.
Sedangkan outputnya berupa stem. Ada tiga jenis metode stemming, antara lain :
1. Successor Variety SV : lebih mengutamakan penyusunan huruf dalam kata
dibandingkan dengan pertimbangan atas fonem. Contoh untuk kata-kata : corpus, able, axle, accident, ape, about menghasilkan SV untuk kata apple:
a. Karena huruf pertama dari kata “ apple” adalah “a”, maka kumpulan kata yang ada substring
“a” diikuti “b”, “x”, “c”, “p” disebut SV dari “a” sehingga “a” memiliki 4 SV.
b. Karena dua huruf pertama dari kata “apple” adalah “ap”, maka kumpulan kata yang ada substring
“ap” hanya diikuti “e” disebut SV dari “ap” sehingga “ap” memiliki 1 SV.
2. N-Gram Conflation : ide dasarnya adalah pengelompokan kata-kata secara bersama
berdasarkan karakter-karakter substring yang teridentifikasi sepanjang N karakter.
3. Affix Removal penghilangan imbuhan : membuang prefix awalan dan suffix
akhiran dari term menjadi suatu stem. Yang paling sering digunakan adalah algoritma Porter Stemmer karena modelnya sederhana dan efisien.
a. Jika suatu kata diakhiri dengan “ies” tetapi bukan “eies” atau “aies”, maka “ies” di-replace
dengan “y” b. Jika suatu kata diakhiri dengan “es” tetapi bukan “aes” atau “ees” atau “oes”,
maka “es” di-replace dengan “e” c. Jika suatu kata
diakhiri dengan “s” tetapi bukan “us” atau “ss”, maka “s” di- replace
dengan “NULL”
.
Universitas Sumatera Utara
2.2.3. Porter Stemming Porter Stemming merupakan salah satu teknik stemming yang umum digunakan.
Algoritma Porter adalah cara pencarian root word kata dasar yang dilakukan secara stripping imbuhan dan akhiran tanpa memperhatikan sisipin dan tanpa pengecekan
kamus kata dasar. Porter Stemmer for Bahasa Indonesia dikembangkan oleh Fadillah Z. Tala pada tahun 2003.
Awal mula Porter Stemmer for Bahasa Indonesia berdasarkan English Porter Stemmer yang dikembangkan oleh W.B. Frakes pada tahun 1992. Karena bahasa Inggris
datang dari kelas yang berbeda, beberapa modifikasi telah dilakukan untuk membuat algoritma Porter dapat digunakan sesuai dengan bahasa Indonesia seperti pada gambar
2.1. word
Remove Particle Remove Possesive Pronoun
Remove 1
st
Order Prefix
Remove 2
nd
Order Prefix Remove Suffix
fall A rule if fired
Remove Suffix Remove 2
nd
Order Prefix
A rule is fired
stem
fall
Gambar 2.1. Desain Porter Stemmer Tala, 2003
Adapun tahap-tahap algoritma ini adalah : 1.
Hapus partikel. 2.
Hapus kata ganti kepunyaan. -ku, -mu, -nya 3.
Hapus awalan pertama. Jika tidak ada, lanjutkan ke langkah 4a, jika ada hapus awalan dan lanjutkan ke langkah 4b.
4. a. Hapus awalan kedua, lanjutkan ke langkah 5a.
Universitas Sumatera Utara
b. Hapus akhiran, jika tidak ditemukan maka kata tersebut diasumsikan sebagai root word. Jika ditemukan maka lanjutkan ke langkah 5b.
5. a. Hapus akhiran. Kemudian kata akhir diasumsikan sebagai root word.
b. Hapus awalan kedua. Kemudian kata akhir diasumsikan sebagai root word.
Ada lima kumpulan aturan pada algoritma Porter Bahasa Indonesia. Aturan tersebut dapat dilihat pada table 2.1 sampai table 2.5. Acuan pemotongan partikel pada infleksi
kata bahasa Indonesia dapat dilihat pada tabel 2.1, acuan kata ganti milik orang pertama pada tabel 2.2, kumpulan imbuhan awalan bahasa Indoensia pada tabel 2.3 dan tabel
2.4, serta kumpulan akhiran bahasa Indoneisa dapat dilihat pada tabel 2.5. Tabel 2.1 Aturan untuk Infection Particle Tala, 2003
Akhiran Replacement Additional Condition
Contoh
-lah Null
null Pergilah
-kah Null
null Mejakah
-tah
null null
Kursitah
-pun null
null makanpun
Tabel 2.2 Aturan untuk Infection Possesive PronounTala, 2003
Akhiran Replacement
Additional Condition Contoh
-ku null
null Pensilku
-mu null
null Punyamu
-nya null
null miliknya
Universitas Sumatera Utara
Tabel 2.3 Aturan untuk First Order Derivational PrefixTala, 2003
Awalan Replacement Addtional Condition Contoh
meng- null
null Mengambil
meny- S
V... Menyelesaikan
men- null
null Mendaki
mem-
P V...
Mempunyai
me- null
null Melarang
peng- null
null Penghijauan
peny-
null null
Penyiksaan
pen- null
null pendaki
pem- P
V.... Pemahat
pem-
null null
Pembantu
di- null
null Diberi
ter- null
null terlepas
ke- null
null kelaparan
Tabel 2.4 Aturan untuk Second Order Derivational PrefixTala, 2003
Awalan Replacement Additional Condition Contoh ber-
null null
Bersalah
bel- null
Ajar Belajar
be- null
Ker Bekerja
Universitas Sumatera Utara
Tabel 2.4 Aturan untuk Second Order Derivational Prefix lanjutan , Tala, 2003
Akhiran Replacement Addtional Condition Contoh
per- null
null Peralihan
pel- null
ajar pelajar
pe- null
null Pelatih
Tabel 2.5 Aturan untuk Derivation SuffixTala, 2003
Akhiran Replacement Addtional Condition
Contoh -kan
null Prefix bukan anggota ke, peng
Salahkan
-an null
Prefix bukan anggota di, meng, ter Makanan
-i null
Prefix bukan anggota ber, ke, peng tandai
2.3. Stopword