Algoritma Nazief Adriani LANDASAN TEORI

Proses stemming biasanya menggunakan algoritma. Algoritma stemming telah dikembangkan untuk beberapa bahasa, seperti Algoritma Porter untuk teks bahasa Inggris, Algoritma Porter untuk teks bahasa Indonesia, dan Algoritma Nazief dan Adriani untuk teks bahasa Indonesia Nazief Adriani, 1996. Algoritma Nazief Adriani memiliki keakuratan yang lebih besar dibandingkan Algoritma Porter untuk stemming dalam bahasa Indonesia Agusta, 2009.

2.2 Algoritma Nazief Adriani

Algoritma Nazief Adriani adalah salah satu algoritma untuk stemming bahasa Indonesia. Adapun tahapan yang dimiliki dalam algoritma ini adalah Nazief Adriani,1996: 1. Cari kata yang akan di stemming didalam kamus. Jika ditemukan maka diasumsikan kata tersebut adalah root word maka algoritma berhenti. 2. Infection suffixes “-lah”, “-kah”, “-ku”, “-mu”, atau “-nya” dibuang. Jika berupa partikel “-lah”, “-kah”, “-tah”, atau “-pun” maka langkah ini diulangi untuk menghapus Passive Pronouns “-ku”, “-mu”, atau “-nya”, jika ada 3. Hapus derivation suffixes “-i”, “-an”, atau “-kan”. Jika kata ditemukan dikamus, maka algoritma berhenti. Jika tidak, maka dilanjutkan ke langkah 3a a. Jika “-an” telah dihapus dalam huruf terakhir dari kata tersebut ditemukan dalam kamus, maka algoritma berhenti. Jika tidak, akan dilanjutkan ke langkah 3b. b. Akhiran yang dihapus “-i”, “-an”, atau “-kan” dikembalikan ke tahap 4. Hapus derivation prefix. 9”di-“ ,”ke-“, “se-“, “te-“, “be-“, dan “me-“ jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan seperti pada tabel 2.1. jika ditemukan, maka algoritma berhenti, jika tidak pergi ke langkah 4b. b. For I=1 to 3, tentukan tipe awalan kemudian hapus awalan dan lakukan perubahan pada kata dasar sesuai tabel peluruhan 2.2 jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka Universitas Sumatera Utara algoritma berhenti. Jika awalan kedua sama dengan awalan pertama maka algoritma berhenti. 5. Melakukan recoding. 6. Jika semua langkah selesai tetapi masih tidak berhasil, maka kata awal diasumsikan sebagai root word. Proses selesai. Tabel 2.1 Tabel kombinasi awalan akhiran yang tidak diijinkan Adriani et al, 2007 Awalan Akhiran yang tidak diijinkan be- -i di- -an ke- -i, -kan me- -an se- -i, -kan Tabel 2.2 Tabel aturan peluruhan kata dasar Adriani et al, 2007 Aturan Awalan Peluruhan 1 berV... ber-V..| be-rV.. 2 belajar bel-ajar 3 berClerC2 Be-ClerC2.. dimana C1= {r|l} 4 terV... ter-V... | te-rV... 5 terCer... ter- Cer... dimana C==’r’ 6 teClerC2 te- CleC2... dimana C1=’r’ 7 me{I|r|w|y}V... me-{I|r|w|y}V... 8 mem{b|f|v}... mem-{b|f|v}... 9 Mempe... m-pe... 10 mem{r|V|V}... me-m{rV|V}...|me-p{rV|V}... Universitas Sumatera Utara 11 men{c|d|j|z} men-{c|d|j|z}... 12 menV... me-nV...|me-tV... 13 meng{g|h|q|k}... meng-{g|h|q|k}... 14 mengV... meng-V...|meng-kV... 15 mengeC Meng-C 16 menyV... me-ny...| men-sV... 17 memV... mem-pV... 18 pe{w|y}V... pe-{w|y}V... 19 perV... per-V...|pe-rV... 20 pem{b|f|v}... pem-{b|f|v}... 21 pem{rV|V}... pe-m{rV|V}...|pe-p{rV|V} 22 pen{c|d|j|z}... pen-{c|d|j|z}... 23 penV... pe-nV... | pe-tV... 24 Peng{g|h|q} peng-{g|h|q} 25 pengV peng-V |peng-kV 26 penyV pe-nya|peny-sV 27 pelV pe- IV...; kecuali untuk kata “pelajar” 28 PeCP pe-CP...dimana C={r|w|y|I|m|n} dan P=’er’ 29 perCerV per-CerV... dimana C={r|w|y|I|m|n} Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan- aturan dibawah ini: 1. Aturan untuk reduplikasi. a. Jika kedua kata yang dihubungkan penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh :” buku-buku” root wood- nya adalah “buku” b. Kata lain misalnya “bolak-balik”, “berbalas-balasan”, dan “seolah-olah”. Untuk mendapatkan root word nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word nya yang sama maka diubah menjadi Universitas Sumatera Utara bentuk tunggal, contoh : kata “ berbalas-balasan”, “berbalas” dan “balasan” memiliki root word yang sama yaitu “balas”, maka root wood “berbalas- balasan” adalah “balas”. Sebaliknya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word yang berbeda, maka root word-nya adalah “bolak-balik”. 2. Tambahan bentuk awalan dan akhiran serta aturannya. a. Tipe awalan “mem-“, kata yang diawali dengan awalan “ memp-“ memiliki tipe awalan “mem-“. b. Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-“ memiliki tipe awalan “meng-“..

2.3 Term Frequency-Inverse Document Frequency TF-IDF