interpretasi merupakan tahap akhir dari proses text mining dan akan disajikan ke pengguna dalam bentuk visual Eko, 2011.
2.2 Ekstraksi Dokumen
Teks yang akan dilakukan proses text mining, pada umumnya memiliki beberapa karakteristik diantaranya adalah memiliki dimensi yang tinggi, terdapat noise pada
data, dan terdapat struktur teks yang tidak baik. Cara yang digunakan dalam mempelajari suatu data teks, adalah dengan terlebih dahulu menentukan fitur-fitur
yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum menentukan fitur-fitur yang mewakili, diperlukan tahap preprocessing yang dilakukan
secara umum dalam teks mining pada dokumen, yaitu case folding, tokenizing, filtering, stemming, tagging dan analyzing.
Gambar 2.1 Tahap Preprocessing
a. Case folding dan Tokenizing Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil.
Hanya huruf “a” sampai dengan “z” yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. Tahap tokenizing parsing adalah tahap pemotongan string
input berdasarkan tiap kata yang menyusunnya. b.Filtering
Filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stoplist membuang kata yang kurang penting atau wordlist
CASE FOLDING
TOKENIZING
FILTERING
STEMMING
menyimpan kata penting. Stopliststopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah
“yang”, “dan”, “di”, “dari”, dan seterusnya. c. Stemming
Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu
representasi yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa nggris dan lebih sulit diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa
Indonesia tidak memiliki rumus bentuk baku yang permanen Eko, 2011. Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasi kata-
kata yang terdapat dalam suatu dokumen ke kata-kata akarnya root word dengan menggunakan aturan-aturan tertentu. Sebagai contoh, kata bersama, kebersamaan,
menyamai, akan distem ke root wordnya yaitu “sama”. Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks
berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia, selain sufiks, prefiks, dan konfiks juga
dihilangkan Ledy, 2009.
2.2.1 Stemming dengan Algoritma Nazief dan Adriani
Stemming adalah proses pemetaan variansi morfologikal kata dalam kata dasar atau kata umumnya stem Adhitia, 2009. Misalnya kata perancangan dan merancang
akan diubah menjadi sebuah kata yang sama, yaitu rancang. Proses stemming sangat tergantung kepada bahasa dari kata yang akan di-stem. Hal ini dikarenakan, dalam
melakukan proses stemming harus mengaplikasikan aturan morfologikal dari suatu bahasa.
Kebanyakan bahasa memiliki kata fungsi dan kata sambung seperti artikel dan preposisi yang hampir selalu muncul pada dokumen teks. Biasanya kata-kata ini tidak
memiliki arti yang lebih di dalam memenuhi kebutuhan seorang pencari di dalam mencari informasi. Kata-kata tersebut misalnya a, an, the, on pada bahasa Inggris
disebut sebagai Stopwords Chakrabarti, 2003. Pembuangan Stopwords dapat mengurangi besar dari index space dan meningkatkan performa dalam pemrosesan
lebih lanjut.
Aturan imbuhan yang digunakan pada Bahasa Indonesia lebih kompleks, tidak seperti aturan imbuhan Bahasa Inggris. Pada Bahasa Indonesia terdapat aturan
imbuhan yang lebih kompleks yang meliputi awalan, akhiran, sisipan, dan konfiks kombinasi dari awalan dan akhiran.
Banyak penelitian yang dilakukan untuk menemukan algoritma stemming yang tepat dan bagus dalam Bahasa Indonesia, antara lain algoritma Nazief Adriani,
algoritma Arifin Setiono, dan algoritma Vega Asian et al, 2005. Menurut penelitian Jelita Asian sebagaimana disebutkan dalam Novanta, 2009 menyatakan
berdasarkan aturan morfologi Bahasa Indonesia dapat dinyatakan bahwa algoritma Nazief Adriani adalah algoritma yang memiliki hasil terbaik. Nazief Adriani
menyimpulkan sebuah kata dasar dapat ditambahkan imbuhan berupa derivation prefix DP di awal danatau diakhiri secara berurutan oleh derivation suffix DS,
possesive pronoun PP, dan particle P yang masing-masing bersifat optional. Keterangan diatas dirumuskan pada Gambar 2.2.
Gambar 2.2 Format Kata Berimbuhan dalam Bahasa Indonesia
Adapun langkah-langkah yang digunakan oleh algoritma Nazief dan Adriani yaitu sebagai berikut:
1. Kata dicari di dalam daftar kamus. Bila kata tersebut ditemukan di dalam kamus, maka dapat diasumsikan kata tersebut adalah kata dasar sehingga algoritma
dihentikan. 2. Bila kata di dalam langkah pertama tidak ditemukan di dalam kamus, maka
diperiksa apakah sufiks tersebut yaitu sebuah partikel “-lah” atau “-kah”. Bila ditemukan, maka partikel tersebut dihilangkan.
3. Pemeriksaan dilanjutkan pada kata ganti milik “-ku”, “-mu”, “-nya”. Bila ditemukan, maka kata ganti tersebut dihilangkan.
4. Memeriksa akhiran “-i”, “-an”. Bila ditemukan, maka akhiran tersebut dihilangkan.
DP + DP + DP + root word + DS + PP + P
Hingga langkah ke-4 dibutuhkan ketelitian untuk memeriksa apakah akhiran “-an” merupakan hanya bagian dari akhiran “-kan”, dan memeriksa lagi apakah partikel “-
lah”, “-kah” dan kata ganti milik “-ku”, “-mu”, “-nya” yang telah dihilangkan pada langkah 2 dan 3 bukan merupakan bagian dari kata dasar.
5. Memeriksa awalan “se-“, ”ke-“, “di-“, “te-“, “be-“, “pe-“, “me-“. Bila ditemukan, maka awalan tersebut dihilangkan. Pemeriksaan dilakukan dengan berulang
mengingat adanya kemungkinan multi-prefix. Langkah ke-5 ini juga membutuhkan ketelitian untuk memeriksa kemungkinan
peluluhan awalan Tabel 2.1, perubahan prefix yang disesuaikan dengan huruf-awal kata Tabel 2.2 dan aturan kombinasi prefix-suffix yang diperbolehkan Tabel 2.3.
6. Setelah menyelesaikan semua langkah dengan sukses, maka algoritma akan mengembalikan kata dasar yang ditemukan.
Tabel 2.1 Daftar Prefiks yang Meluluh Jenis Prefiks
Huruf Hasil Peluluhan
pe-me- K
-ng- pe-me-
P -m-
pe-me- S
-ny- pe-me-
T -n-
Tabel 2.2 Daftar Kemungkinan Perubahan Prefiks Prefiks
Perubahan
se- tidak berubah
ke- tidak berubah
di- tidak berubah
be- ber-
te- ter-
pe- per-, pen-, pem-, peng-
me- men-, mem-, meng-
Tabel 2.3 Daftar Kombinasi Prefiks dan Sufiks yang Tidak Diperbolehkan Prefiks
Sufiks yang tidak diperbolehkan
be- -i
di- -an
ke- -i, -kan
me- -an
se- -i, -kan
te- -an
pe- -kan
2.3 Rabin-Karp