ditemukembalikan. Hal tersebut tidak akan diperoleh jika tiap bentuk suatu kata disimpan secara terpisah dalam indeks.
Beberapa algoritma yang telah dikembangkan untuk proses stemming diantaranya Algoritma Porter Bahasa Indonesia dan Inggris dan Algoritma Nazief
Adriani untuk teks berbahasa Indonesia Nazief et al, 1996. Dalam hal ini, Penelitian yang dilakukan Agusta 2009 menunjukkan algoritma Nazief Adriani
memiliki tingkat akurasi yang lebih tinggi dalam proses stemming untuk bahasa Indonesia dibandingkan algoritma Porter.
2.2.2 Processing Tahap yang kedua adalah melakukan processing. Tahap ini merupakan tahap inti
dimana setiap kata akan diolah dengan algoritma tertentu, yang dalam penelitian ini akan digunakan metode TF-IDF. Tahap ini sering disebut juga dengan Analizing.
Dalam tahap processing, dokumen akan dianalisa oleh aplikasi. Secara umum terdapat dua jenis metode yaitu metode yang tidak melakukan perhitungan bobot kalimat dan
yang melakukan perhitungan bobot kalimat. Metode yang tidak menghitung bobot kalimat hanya mengambil beberapa kalimat awal dan akhir. Metode-metode yang
menghitung bobot kalimat menggunakan bobot term kata maupun pasangan kata dari setiap term yang terdapat dalam kalimat tersebut Anggaradana, 2013.
Dalam penelitian ini digunakan metode yang menghitung bobot term, dimana bobot term diperoleh dengan melakukan perhitungan terhadap Term Frequency dan
Inverse Document Frequency dari term tersebut yaitu TF-IDF. Hasil perhitungan dari TF-IDF akan menghasilkan beberapa rekomendasi tag yang berasal dari dalam artikel
tersebut. Selanjutnya digunakan teknik Collaborative tagging untuk mencari rekomendasi tag dari objek yang sudah dipublikasi sebelumnya.
2.3 Algoritma Nazief Adriani
Algoritma Nazief Adriani adalah algoritma yang dikembangkan oleh Bobby Nazief dan Mirna Adriani. Algoritma ini dapat dimanfatkan untuk stemming bahasa
Indonesia. Adapun flow chart algoritma Nazief Adriani dapat dilihat pada gambar 2.2.
Gambar 2.2 Flow Chart Algoritma Nazief Adriani Nazief et al, 1996
Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya
proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia, selain sufiks, prefiks, dan konfiks juga dihilangkan Nazief et al, 1996.
Untuk mengoptimalkan pemotongan sufiks, prefiks, dan konfiks pada kata digunakan tabel kombinasi kata awalan dan akhiran yang tidak diijinkan dan dapat
dilihat pada t
abel 2.1.
Tabel 2.1 Tabel kombinasi awalan akhiran yang tidak diijinkan Adriani, et al. 2007
Awalan Akhiran yang tidak diijinkan
be- -i
di- -an
ke- -i, -kan
me- -an
se- -i, -kan
Adapun pemotongan kata dasar dibuat berdasarkan aturan peluruhan kata dasar seperti terlihat pada
t abel 2.2.
Tabel 2.2 Tabel aturan peluruhan kata dasar Adriani, et al. 2007
Aturan Awalan
Peluruhan
1 berV…
Ber-V.. | be- rV…
2 belajar
bel-ajar 3
berC1erC2 be-
C1erC2.. dimana C1 ={‘r’ | ‘l’} 4
terV… ter-V.. | te-
rV… 5
terCer… ter-
Cer.. dimana C==’r’ 6
teC1erC2 te-
C1erC2… dimana C1=’r’ 7
me{l|r|w|y}V… me-
{l|r|w|y}V… 8
mem{b|f|v}… mem-
{b|f|v}… 9
mempe… mem-
pe… 10
mem{rV|V}… me-
m{rV|V}…|me-p{rV|V}… 11
men{c|d|j|z}… men-
{c|d|j|z}… 12
menV… me-
nV…|me-tV… 13
meng{g|h|q|k }… meng-
{g|h|q|k}… 14
mengV… meng-
V…|meng-kV… 15
mengeC menge-C
16 menyV…
me-ny.. | meny- sV…
17 mempV…
mem- pV…
18 pe{w|y}V…
pe- {w|y}V…
19 perV…
per- V…|pe-rV…
20 pem{b|f|v}…
pem- {b|f|v}…
21 pem{rV|V}…
pe- m{rV|V}…|pe-p{rV|V}
22 pen{c|d|j|z}…
pen- {c|d|j|z}…
23 penV…
pe- nV … | pe-tV …
Tabel 2.2 Tabel aturan peluruhan kata dasar Adriani, et al. 2007Lanjutan
Aturan Awalan
Peluruhan
24 peng{g|h|q}
peng-{g|h|q} 25
pengV peng-V | peng-kV
26 penyV
pe-nya|peny-sV 27
pelV pe-
lV…; kecuali untuk kata pelajar 28
PeCP pe-
CP…dimana C={r|w|y|l|m|n} dan P=er 29
perCerV per-
CerV… dimana C={r|w|y|l|m|n}
Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan- aturan berikut:
1. Aturan untuk reduplikasi a. Jika kedua kata yang dihubungan penghubung adalah kata yang sama maka
root word adalah bentuk tunggalnya, contoh “anak-anak” root word-nya adalah
“anak”. b.
Kata lain misalnya “bolak-balik”, “berbalas-balasan” dan “seolah-olah”. Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika
keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal, contoh: kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki root word
yang sama yaitu “balas”, maka root word “berbalas-balasan” adalah “balas”. Sebaliknnya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word
yang berbeda, maka root word- nya adalah “bolak-balik”.
2. Tambahan untuk awalan dan akhiran serta aturannya. a.
Tipe awalan “mem-”, kata yang diawali dengan awalan “memp-” memiliki tipe awalan “mem-”.
b. Tipe awalan “meng-”, kata yang diawali dengan awalan “mengk-” memiliki
tipe awalan “meng-”.
2.4 Term Frequency-Invers Document Frequency TF-IDF