Information Retrieval Stemmer Indonesia

right satu kali. Pergeseran itu dilakukan karena jika terjadi ketidakcocokan karakter dan tidak dibuang maka yang terjadi adalah bagian yang tidak cocok dianggap sebagai bagian yang cocok dan kalimat acuan akan terus bergeser ke kanan . Jika d j, maka kita akan melakukan pergeseran sebelumnya dari bagian kalimat acuan yang sudah kita bandingkan. Setelah itu kalimat acuan terus bergerak ke kanan dan bagian sebelumnya tidak dihilangkan supaya tidak terjadi kerancuan ingat perulangan dilakukan terus dari awal.

2.3. Information Retrieval

Information Retrieval adalah suatu bidang ilmu yang mempelajari cara- cara temu kembali dan penelusuran dokumen. Temuan kembali informasi IR ini sendiri telah dilakukan lebih dari 4000 tahun yang lalu. Orang telah mengorganisasikan informasi pada masa itu walaupun masih sangat sederhana. Pada tahun 1940 permasalahan dalam hal media penyimpanan dokumen telah menarik banyak orang. Jumlah dokumen yang tumbuh dengan besar dan cepat mengakibatkan kebutuhan yang semakin besar pula terhadap efisiensi dalam penyimpanan dan retrieval informasi, akurasi, serta kecepatan akses. Jika hal ini tidak dilakukan, maka akan berakibat sulitnya temu kembali informasi serta banyaknya informasi yang terjadi. Selanjutnya hal ini akan berakibat pada duplikasi pekerjaan yang sudah pernah dilakukan sebelumnya. Teknik IR banyak digunakan dalam tiga fase pengklasifikasian teks yang terdiri atas Fabrizio Sebastiani, 2002: Hak Cipta © milik UPN Veteran Jatim : Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber. a. Persiapan dokumen tahap preprocessing termasuk proses indexing. b. Pembuatan pengklasifikasi melalui proses pembelajaran, dalam tugas akhir ini menggunakan decision tree classifier. c. Evaluasi unjuk kerja pengklasifikasi.

2.4. Pre-Processing

Tahap ini merupakan tahap dimana dokumen tekstual ditangani dan disiapkan untuk membuat dokumen-dokumen tersebut siap diproses oleh decision tree classifier. Dibawah ini merupakan bagan tahapan teks preprocessing yang dilakukan tahapan dokumen sebelum bisa dilakukan proses training didalamnya. Gambar 2.1 Bagan Tahapan Teks Pre-Processing Ada 5 tahapan prosedur teks preprocessing Baeza-Yates dan Ribeiro- Neto, 1999 yaitu : 1. stoplist. 2. Konstruksi struktur kategorisasi kata.

2.4.1. Stoplist

Stoplist merupakan proses menghilangkan kata-kata umum. Misalkan dalam, dan, karena, mana, untuk dan lainnya. Dalam pembahasan ini hanya batasi Hak Cipta © milik UPN Veteran Jatim : Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber. pada bahasa indonesia saja.

2.5. Stemmer Indonesia

Struktur pembentukan kata dalam Bahasa Indonesia adalah sebagai berikut: [awalan-1] + [awalan-2] + dasar + [akhiran] + [kepunyaan] + [sandang] Masing-masing bagian tersebut yang dalam kotak bisa ada atau tidak, digabungkan dengan kata dasar membentuk kata berimbuhan. Di bawah ini imbuhan yang banyak digunakan dalam Bahasa Indonesia : 1. Kata sandang: -lah, -kah, -pun, -tah. 2. Kata kepunyaan: -ku, -mu, -nya. 3. Akhiran: -i, -an, -kan. 4. Awalan: me-, ber-, pe-, di-, ke-, ter-, se-. Dalam proses penggabungan awalan, terdapat aturan-aturan berikut: Table 2.1 Daftar Imbuhan Indonesia Awalan Perubahan Bentuk Aturan me | pe meng | peng + V | k | g | h | q … Misal: mengambil = meng + ambil V = Vokal a, i, u, e, o meny | peny + s … Misal: penyakit = peny + sakit mem | pem + b | f | p | v … Misal: membuat = mem + buat men | pen + c | d | j | s | z … Misal: mencari = men + cari me | pe + m | n | r | l | y | w | x | + V … Misal: melukis = me + lukis Hak Cipta © milik UPN Veteran Jatim : Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber. ber | per | ter be | pe | te + r + V … Untuk mencari r yang luluh dengan mencoba kombinasi ‘r + V …’ atau ‘V …’. Misal: peramal = pe + ramal ber | per | ter + K | V …, Misal: terambil = ter + ambil K = Konsonan selain Vokal Dalam pasangan awalan dan akhiran, terdapat pasangan yang tidak diperbolehkan, yaitu: Table 2.2 Contoh Imbuhan yang tidak diperbolehkan Awalan Akhiran Tidak Sah ber- | ke- | se- | per- -i, Misal: ber-tanyai-i di- | me- | ter- -an, Misal: di-tinggal-an ke- | se- | pe- -kan, Misal: pen-dapat-kan Dalam program stemmer, aturan susunan awalan dan akhiran mengesampingkan pengecualian yang jarang. Misalnya untuk kata ajar, yang digabung dengan per- menjadi pelajar. Juga seperti pasangan ke- -i untuk ke-tahu-i, ini akan dianggap tidak sah. Terdapat 4 subrutin inti dalam proses mencari kata dasar, yaitu: Table 2.3 Daftar Subrutin Subrutin Fungsi Input Output BuangLuluh Melakukan penyesuaian kata yang luluh terhadap kata kata bila ada di kamus atau undef bila tidak ada Hak Cipta © milik UPN Veteran Jatim : Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber. awalan me- dan pe-. BuangBelakang Membuang akhiran kata, yaitu: -lah, -kah, -pun, -tah, -ku, - mu, -nya, -i, -an, -kan. kata, awala n1, awala n2 kata | undef BuangDepan Membuang awalan kata, yaitu: me-, ber-, pe-, di-, ke-, ter-, se-. kata kata | undef, awalan BuangImbuhan Membuang imbuhan kata, merupakan subrutin induk dari proses pemotongan kata. kata kata | undef Dalam subrutin BuangImbuhan terdapat proses pembuangan awalan AW, akhiran AK, kata kepunyaan KK, kata sandang KS dan kata dasar D seperti di bawah. Pada tiap tahap pembuangan dilakukan pengecekan ke kamus untuk mengakhiri pemotongan. Table 2.4 Contoh subrutin buang depan Tahap Kombinasi Imbuhan Contoh 1. D - ikat 2. D + AK -an ikat-an 3. AW + D me- meng-ikat 4. AW + D + AK me- + -kan meng-ikat-kan 5. AW + AW + D me- + per- mem-per-ikat 6. AW + AW + D + AK ke- + ter- + -an ke-ter-ikat-an Contoh pencarian kata dasar untuk kata ‘kebersamaannyalah’ ada di bawah ini. Kata asal akan berubah bentuk dicetak tebal bila berbeda dari sebelumnya pada proses Buang Depan yang selanjutnya diperiksa hasil potongnya pada Buang Belakang. Hak Cipta © milik UPN Veteran Jatim : Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber. Tabel. 2.5 Proses Subrutin Tahap Proses Kata Asal Hasil Potong Kata Akhir 1. Cek Kamus kebersamaan nyalah - kebersamaan nyalah 2. Buang Belakang kebersamaan nyalah kebersama kebersamaan nyalah 3. Buang Depan kebersamaan nyalah bersamaan nyalah bersamaan nyalah 4. Buang Belakang bersamaan nyalah bersama bersamaan nyalah 5. Buang Depan bersamaan nyalah samaan nyalah samaan nyalah 6. Buang Belakang samaan nyalah sama sama Untuk mengetahui ketepatan hasil stemming perlu dilakukan analisa secara manual. Mengingat jumlah kata yang cukup besar 11515 kata, pengamatan mencakup sebagian saja, yaitu masing-masing 1000 kata teratas dari Berhasil dan Gagal. Hasil analisa dari kata dasar yang salah seperti tabel di bawah ini. Hasil stemmer dianggap salah dengan aturan berikut: 1. Terjadi pengubahan kata tetapi kata tersebut dianggap tidak tepat, misal: mengakui aku, bukan kaku. 2. Tidak terjadi pengubahan kata meskipun kata dasarnya ada dalam kamus, misal: mengetahui tahu. 3. Imbuhan tidak berhasil dipisahkan, meskipun kata tersebut sah sebagai Bahasa Indonesia, misal: rinciannya rinci, diujicobakan ujicoba. Kata-kata yang asalnya sudah salah, seperti pernggantian harusnya pergantian, penjelaskan harusnya penjelasan atau tidak terdapat di kamus, bila tidak didapat kata dasarnya maka dianggap hasil stemming adalah benar. Hak Cipta © milik UPN Veteran Jatim : Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber. Table 2.6 Contoh subrutin Jenis Kesalahan Contoh Hasil Stemmer Seharusnya Byk Nama orang, tempat, istilah, singkatan ryamizard, denpasar, puskesmas didubeskan -tetap- -sudah benar- - Bahasa asing conduct, trial, pressure -tetap- -sudah benar- - Kesalahan kata, susunan imbuhan, imbuhan kata asing pernggantian, meingkatkan, maasalah, penjelaskan, berkapitalisasi, ngejar -tetap- ganti, tingkat, masalah, jelas, kapital, kejar - Kata majemuk ketidakhadirannya, diperjualbelikan, diujicobakan -tetap- tidakhadir, jualbeli, jualbeli 14 Aturan khusus mengetahui, belajar, perbaiki -tetap- tahu, ajar, baik 3 Kesalahan peluluhan kata memintainya, pengakuannya, mengamati mengukur minta, kaku, kamat, kukur pinta, aku, amat, ukur 4 Kesalahan kata yang kata dasarnya ada di kamus memada, alan, domi, terlah pada, al, dom, ter -tidak tahu- - Kata dikenali sebagai bahasa Indonesia tapi tidak ada di kamus tidak baku rinciannya, milyaran, perijinan, resikonya, mengendor -tetap- rinci, milyar, ijin, risiko, kendur 5 Kata terlalu banyak dipotong overstemming menahannya nah tahan 1 Kata terlalu sedikit dipotong understemming menempati empati tempat 1 Secara statistik, dari 2000 kata tersebut terdapat 28 kata yang mengalami kesalahan pencarian kata dasar, sehingga tingkat keberhasilannya adalah 98,6 dengan asumsi semua kata yang ada di kamus adalah benar. Hak Cipta © milik UPN Veteran Jatim : Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

2.6. PHP