right satu kali. Pergeseran itu dilakukan karena jika terjadi
ketidakcocokan karakter dan tidak dibuang maka yang terjadi adalah bagian yang tidak cocok dianggap sebagai bagian yang cocok dan kalimat
acuan akan terus bergeser ke kanan . Jika d j, maka kita akan melakukan pergeseran sebelumnya dari bagian kalimat
acuan yang sudah kita bandingkan. Setelah itu kalimat acuan terus bergerak ke kanan dan bagian sebelumnya tidak dihilangkan supaya tidak terjadi kerancuan
ingat perulangan dilakukan terus dari awal.
2.3. Information Retrieval
Information Retrieval adalah suatu bidang ilmu yang mempelajari cara-
cara temu kembali dan penelusuran dokumen. Temuan kembali informasi IR ini sendiri telah dilakukan lebih dari 4000 tahun yang lalu. Orang telah
mengorganisasikan informasi pada masa itu walaupun masih sangat sederhana. Pada tahun 1940 permasalahan dalam hal media penyimpanan dokumen
telah menarik banyak orang. Jumlah dokumen yang tumbuh dengan besar dan cepat mengakibatkan kebutuhan yang semakin besar pula terhadap efisiensi dalam
penyimpanan dan retrieval informasi, akurasi, serta kecepatan akses. Jika hal ini tidak dilakukan, maka akan berakibat sulitnya temu kembali informasi serta
banyaknya informasi yang terjadi. Selanjutnya hal ini akan berakibat pada duplikasi pekerjaan yang sudah pernah dilakukan sebelumnya.
Teknik IR banyak digunakan dalam tiga fase pengklasifikasian teks yang terdiri atas Fabrizio Sebastiani, 2002:
Hak Cipta © milik UPN Veteran Jatim : Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
a. Persiapan dokumen tahap preprocessing termasuk proses indexing.
b. Pembuatan pengklasifikasi melalui proses pembelajaran, dalam tugas akhir
ini menggunakan decision tree classifier.
c. Evaluasi unjuk kerja pengklasifikasi.
2.4. Pre-Processing
Tahap ini merupakan tahap dimana dokumen tekstual ditangani dan disiapkan untuk membuat dokumen-dokumen tersebut siap diproses oleh decision
tree classifier. Dibawah ini merupakan bagan tahapan teks preprocessing yang
dilakukan tahapan dokumen sebelum bisa dilakukan proses training didalamnya.
Gambar 2.1 Bagan Tahapan Teks Pre-Processing
Ada 5 tahapan prosedur teks preprocessing Baeza-Yates dan Ribeiro-
Neto, 1999 yaitu : 1.
stoplist. 2.
Konstruksi struktur kategorisasi kata.
2.4.1. Stoplist
Stoplist merupakan proses menghilangkan kata-kata umum. Misalkan
dalam, dan, karena, mana, untuk dan lainnya. Dalam pembahasan ini hanya batasi
Hak Cipta © milik UPN Veteran Jatim : Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
pada bahasa indonesia saja.
2.5. Stemmer Indonesia
Struktur pembentukan kata dalam Bahasa Indonesia adalah sebagai berikut:
[awalan-1] + [awalan-2] + dasar + [akhiran] + [kepunyaan] + [sandang]
Masing-masing bagian tersebut yang dalam kotak bisa ada atau tidak, digabungkan dengan kata dasar membentuk kata berimbuhan. Di bawah ini
imbuhan yang banyak digunakan dalam Bahasa Indonesia :
1. Kata sandang: -lah, -kah, -pun, -tah.
2. Kata kepunyaan: -ku, -mu, -nya.
3. Akhiran: -i, -an, -kan.
4. Awalan: me-, ber-, pe-, di-, ke-, ter-, se-.
Dalam proses penggabungan awalan, terdapat aturan-aturan berikut: Table 2.1 Daftar Imbuhan Indonesia
Awalan Perubahan
Bentuk Aturan
me | pe meng | peng + V | k | g | h | q … Misal: mengambil = meng +
ambil V = Vokal a, i, u, e, o
meny | peny + s … Misal: penyakit = peny + sakit mem | pem
+ b | f | p | v … Misal: membuat = mem + buat men | pen
+ c | d | j | s | z … Misal: mencari = men + cari me | pe
+ m | n | r | l | y | w | x | + V … Misal: melukis = me + lukis
Hak Cipta © milik UPN Veteran Jatim : Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
ber | per | ter be | pe | te + r + V …
Untuk mencari r yang luluh dengan mencoba kombinasi ‘r + V …’ atau ‘V …’. Misal: peramal =
pe + ramal
ber | per | ter + K | V …, Misal: terambil = ter + ambil K = Konsonan selain Vokal
Dalam pasangan awalan dan akhiran, terdapat pasangan yang tidak diperbolehkan, yaitu:
Table 2.2 Contoh Imbuhan yang tidak diperbolehkan Awalan
Akhiran Tidak Sah ber- | ke- | se- | per-
-i, Misal: ber-tanyai-i di- | me- | ter-
-an, Misal: di-tinggal-an ke- | se- | pe-
-kan, Misal: pen-dapat-kan
Dalam program stemmer, aturan susunan awalan dan akhiran mengesampingkan pengecualian yang jarang. Misalnya untuk kata ajar, yang digabung dengan per-
menjadi pelajar. Juga seperti pasangan ke- -i untuk ke-tahu-i, ini akan dianggap tidak sah.
Terdapat 4 subrutin inti dalam proses mencari kata dasar, yaitu:
Table 2.3 Daftar Subrutin Subrutin
Fungsi Input Output
BuangLuluh Melakukan penyesuaian
kata yang luluh terhadap kata
kata bila ada di kamus atau undef bila tidak ada
Hak Cipta © milik UPN Veteran Jatim : Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
awalan me- dan pe-.
BuangBelakang Membuang akhiran kata,
yaitu: -lah, -kah, -pun, -tah, -ku, -
mu, -nya, -i, -an, -kan.
kata, awala
n1, awala
n2 kata | undef
BuangDepan Membuang awalan kata,
yaitu: me-, ber-, pe-, di-, ke-, ter-,
se-. kata
kata | undef, awalan
BuangImbuhan Membuang imbuhan kata, merupakan subrutin induk
dari proses pemotongan kata.
kata kata | undef
Dalam subrutin BuangImbuhan terdapat proses pembuangan awalan AW, akhiran AK, kata kepunyaan KK, kata sandang KS dan kata dasar D seperti
di bawah. Pada tiap tahap pembuangan dilakukan pengecekan ke kamus untuk mengakhiri pemotongan.
Table 2.4 Contoh subrutin buang depan Tahap Kombinasi
Imbuhan Contoh
1. D
- ikat
2. D + AK
-an ikat-an
3. AW + D
me- meng-ikat
4. AW + D + AK
me- + -kan meng-ikat-kan
5. AW + AW + D
me- + per- mem-per-ikat
6. AW + AW + D + AK
ke- + ter- + -an ke-ter-ikat-an
Contoh pencarian kata dasar untuk kata ‘kebersamaannyalah’ ada di bawah ini. Kata asal akan berubah bentuk dicetak tebal bila berbeda dari sebelumnya pada
proses Buang Depan yang selanjutnya diperiksa hasil potongnya pada Buang Belakang.
Hak Cipta © milik UPN Veteran Jatim : Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Tabel. 2.5 Proses Subrutin Tahap Proses
Kata Asal Hasil Potong
Kata Akhir 1.
Cek Kamus kebersamaan
nyalah -
kebersamaan nyalah
2. Buang Belakang kebersamaan
nyalah kebersama
kebersamaan nyalah
3. Buang Depan
kebersamaan nyalah
bersamaan nyalah
bersamaan nyalah
4. Buang Belakang bersamaan
nyalah bersama
bersamaan nyalah
5. Buang Depan
bersamaan nyalah
samaan nyalah
samaan nyalah
6. Buang Belakang samaan
nyalah sama
sama
Untuk mengetahui ketepatan hasil stemming perlu dilakukan analisa secara manual. Mengingat jumlah kata yang cukup besar 11515 kata, pengamatan
mencakup sebagian saja, yaitu masing-masing 1000 kata teratas dari Berhasil dan Gagal. Hasil analisa dari kata dasar yang salah seperti tabel di bawah ini. Hasil
stemmer dianggap salah dengan aturan berikut:
1. Terjadi pengubahan kata tetapi kata tersebut dianggap tidak tepat, misal:
mengakui aku, bukan kaku. 2.
Tidak terjadi pengubahan kata meskipun kata dasarnya ada dalam kamus, misal: mengetahui tahu.
3. Imbuhan tidak berhasil dipisahkan, meskipun kata tersebut sah sebagai
Bahasa Indonesia, misal: rinciannya rinci, diujicobakan ujicoba.
Kata-kata yang asalnya sudah salah, seperti pernggantian harusnya pergantian, penjelaskan harusnya penjelasan atau tidak terdapat di kamus, bila tidak didapat
kata dasarnya maka dianggap hasil stemming adalah benar.
Hak Cipta © milik UPN Veteran Jatim : Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
Table 2.6 Contoh subrutin Jenis Kesalahan
Contoh
Hasil Stemmer
Seharusnya
Byk
Nama orang, tempat, istilah, singkatan
ryamizard, denpasar, puskesmas
didubeskan -tetap-
-sudah benar-
-
Bahasa asing conduct, trial, pressure -tetap-
-sudah benar-
- Kesalahan kata,
susunan imbuhan, imbuhan kata asing
pernggantian, meingkatkan,
maasalah, penjelaskan, berkapitalisasi, ngejar
-tetap- ganti,
tingkat, masalah,
jelas, kapital,
kejar -
Kata majemuk ketidakhadirannya,
diperjualbelikan, diujicobakan
-tetap- tidakhadir,
jualbeli, jualbeli
14
Aturan khusus mengetahui, belajar,
perbaiki -tetap-
tahu, ajar, baik
3 Kesalahan peluluhan
kata memintainya,
pengakuannya, mengamati
mengukur minta,
kaku, kamat,
kukur pinta,
aku, amat,
ukur 4
Kesalahan kata yang kata dasarnya ada di
kamus memada, alan, domi,
terlah pada, al,
dom, ter -tidak tahu- -
Kata dikenali sebagai bahasa Indonesia tapi
tidak ada di kamus tidak baku
rinciannya, milyaran, perijinan, resikonya,
mengendor -tetap-
rinci, milyar, ijin,
risiko, kendur
5
Kata terlalu banyak dipotong
overstemming menahannya
nah tahan
1
Kata terlalu sedikit dipotong
understemming menempati
empati tempat
1
Secara statistik, dari 2000 kata tersebut terdapat 28 kata yang mengalami kesalahan pencarian kata dasar, sehingga tingkat keberhasilannya adalah 98,6
dengan asumsi semua kata yang ada di kamus adalah benar.
Hak Cipta © milik UPN Veteran Jatim : Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.
2.6. PHP