Tentang Porter Stemmer Porter Stemmer untuk Bahasa Indonesia

Contoh stop words: dan atau lagi ada akan agar akhir bahkan baik begini dahulu cukup guna entah ingat hampir hanya itu jadi jangan hendak 4. Stemming Stemming adalah proses menghilangkan imbuhan, seperti awalan, sisipan, dan akhiran, pada sebuah kata untuk mendapatkan kata dasarnya. Dalam penelitian ini, algoritma stemming yang akan digunakan adalah algoritma Porter. 5. Membangun index melalui proses sorting dan grouping. Tahap utama dalam membangun sebuah index adalah mengurutkan sorting hasil stemming sehingga daftar term tersebut terurut berdasarkan abjad. Term yang sama kemudian dikelompokkan grouping menjadi satu dan dihitung frekuensi kemunculannya di tiap – tiap dokumen.

1.3. Porter Stemmer

1.3.1. Tentang Porter Stemmer

Porter stemmer atau Porter stemming Porter, 2006 adalah sebuah algoritma untuk menghapus akhiran infleksional dan morfologi yang umum dari kata dalam Bahasa Inggris. Kegunaan utama dari algoritma ini adalah sebagai bagian dari proses normalisasi term yang biasa dilakukan pada saat membangun sebuah sistem Pemerolehan Informasi. Menurut Tala, 2003, algoritma ini berdasarkan pada ide bahwa akhiran dalam Bahasa Inggris umumnya tersusun atas kombinasi akhiran yang kecil dan sederhana. Proses pemotongan dilakukan dalam lima tahap terurut, yang mensimulasikan proses inflectional dan derivational dari sebuah kata. Pada setiap tahapan, sebuah akhiran dihilangkan melalui aturan penggantian substitution. Aturan penggantian substitution diterapkan pada saat satu set kondisi yang ada pada sebuah aturan terpenuhi. Salah satu contoh dari kondisi tersebut adalah panjang minimal jumlah dari rangkaian vokal-konsonan dari kata dasar yang dihasilkan. Panjang minimal ini disebut measure. Contoh kondisi lain yaitu apakah sebuah kata dasar diakhiri dengan huruf mati atau apakah mengandung huruf hidup. Saat semua kondisi dari sebuah aturan terpenuhi, maka aturan tersebut dijalankan, yang menyebabkan penghilangan akhiran; dan kemudian proses dilanjutkan pada tahap berikutnya. Bila kondisi dari sebuah aturan pada suatu tahap tidak terpenuhi, maka kondisi dari aturan berikutnya akan diuji, hingga aturan tersebut dijalankan atau hingga aturan pada tahap tersebut habis.

1.3.2. Porter Stemmer untuk Bahasa Indonesia

Porter Stemmer diadaptasi untuk bahasa Indonesia didasarkan atas pertimbangan bahwa ide utama dari algoritma ini sesuai dengan struktur morfologis dari kata dalam Bahasa Indonesia Tala, 2003. Struktur morfologis dari kata dalam Bahasa Indonesia terdiri dari sebuah kombinasi dari struktur inflectional dan derivational yang kecil dan sederhana, dimana masing – masing tersusun atas akhiran danatau awalan yang sederhana dan kecil. Tahap – tahap terurut dalam Porter Stemmer, yang mensimulasikan proses inflectional dan derivational dari kata dalam Bahasa Inggris juga cocok dengan struktur inflectional dan derivational dari Bahasa Indonesia. Karena Bahasa Inggris dan Bahasa Indonesia adalah dua bahasa yang berbeda, maka aturan – aturan pada tiap tahap dalam Porter Stemmer untuk Bahasa Indonesia mendapat beberapa perubahan untuk menyesuaikan dengan struktur Bahasa Indonesia, seperti aturan untuk penghilangan awalan, konfiks, dan juga penyesuaian ejaan pada kasus dimana karakter pertama pada sebuah kata dasar mengalami perubahan pada saat mendapat penambahan awalan. Tabel 2.1 Aturan 1. Aturan untuk inflectional particles. Akhiran Replacement Measure Condition Additional Condition Contoh -kah NULL 2 NULL bukukah  buku -lah NULL 2 NULL adalah  ada -pun NULL 2 NULL bukupun  buku Tabel 2.2 Aturan 2. Aturan untuk inflectional possessive pronouns. Akhiran Replacement Measure Condition Additional Condition Contoh -ku NULL 2 NULL bukuku  buku -mu NULL 2 NULL bukumu  buku -nya NULL 2 NULL bukunya  buku fail a rule is fired a rule is fired fail Word Remove Particle Remove Possessive Remove 1st Order Prefix Remove 2nd Order Prefix Remove Suffix Remove Suffix Remove 2nd Order Prefix Stem Gambar 2.2 Proses dasar dari Porter stemmer untuk Bahasa Indonesia Tala, 2003. Tabel 2.3 Aturan 3. Aturan untuk first order of derivational prefixes. Awalan Replacement Measure Condition Additional Condition Contoh meng- NULL 2 NULL mengukur  ukur meny- s 2 V… menyapu  sapu men- t 2 V… menduga  duga menuduh  tuduh mem- p 2 V… memilah  pilah me- NULL 2 NULL merusak  rusak peng- NULL 2 NULL pengukur  ukur peny- s 2 V… penyapu  sapu pen- NULL 2 NULL penduga  duga pem- p 2 V… pemilah  pilah pem- NULL 2 NULL pembaca  baca di- NULL 2 NULL diukur  ukur ter- NULL 2 NULL tersapu  sapu ke- NULL 2 NULL kekasih  kasih kata hasil pemotongan diawali dengan huruf hidup vokal. Tabel 2.4 Aturan 4. Aturan untuk second order of derivational prefixes. Awalan Replacement Measure Condition Additional Condition Contoh ber- NULL 2 NULL berlari  lari bel- NULL 2 ajar belajar  ajar be- NULL 2 K er bekerja  kerja per- NULL 2 NULL perjelas  jelas pel- NULL 2 ajar pelajar  ajar pe- NULL 2 NULL pekerja  kerja kata hasil pemotongan diawali dengan huruf mati konsonan. Tabel 2.5 Aturan 5. Aturan untuk derivational suffixes. Akhiran Replacement Measure Condition Additional Condition Contoh -kan NULL 2 awalan ∉ {ke, peng} tarikkan  tarik ambilkan  ambil -an NULL 2 awalan ∉ {di, meng, ter} makanan  makan perjanjian  janji -i NULL 2 V|K… � 1 � 1 , � 1 ≠ �, � 2 ≠ �, dan awalan ∉ {ber, ke, peng} tandai  tanda mendapati  dapat Tabel 2.6 Contoh suku kata dalam Bahasa Indonesia. Measure Contoh Suku Kata kh, ng, ny kh, ng, ny 1 ma, af, nya, nga ma, af, nya, nga 2 maaf, kami, rumpun, kompleks ma-af, ka-mi, rum-pun, kom-pleks 3 mengapa, menggunung, tandai mang-a-pa, meng-gu-nung, tan-da-i

1.4. Klasifikasi Teks