Indexing Klasifikasi Teks LANDASAN TEORI

1.2. Indexing

Tahap – tahap dalam membangun sebuah index Manning, Raghavan, Schutze, 2008 adalah sebagai berikut: 1. Tokenization Tokenization adalah proses memotong rangkaian kata yang terdapat dalam sebuah dokumen menjadi potongan – potongan kata yang berdiri sendiri, yang disebut token, dan dalam waktu bersamaan juga menghilangkan karakter – karakter tertentu, seperti tanda baca. Input: Friends, Romans, Countrymen, lend me yours ears; Output: 2. Normalzation Normalization adalah proses menyamakan ejaan sebuah kata yang mewakili makna yang sama. Misalnya, e-mail, E-mail, Email, dan email; keempat kata tersebut mewakili makna yang sama namun memiliki penulisan yang berbeda. Dalam melakukan proses normalisasi dapat digunakan salah satu kata sebagai acuan, misalnya dipilih kata email sebagai acuan, maka penulisan kata e-mail, E- mail, dan Email akan diubah menjadi email. 3. Stop words removal Stop words removal adalah proses menghilangkan stop words dari kumpulan kata yang didapat dari hasil tokenization. Stop words adalah beberapa kata yang sangat umum yang kurang membantu kurang berpengaruh dalam proses klasifikasi. Penghilang stopword diharapkan dapat mengefisienkan dan meningkatkan akurasi proses klasifikasi. Friends Romans Countrymen lend me yours ears Contoh stop words: dan atau lagi ada akan agar akhir bahkan baik begini dahulu cukup guna entah ingat hampir hanya itu jadi jangan hendak 4. Stemming Stemming adalah proses menghilangkan imbuhan, seperti awalan, sisipan, dan akhiran, pada sebuah kata untuk mendapatkan kata dasarnya. Dalam penelitian ini, algoritma stemming yang akan digunakan adalah algoritma Porter. 5. Membangun index melalui proses sorting dan grouping. Tahap utama dalam membangun sebuah index adalah mengurutkan sorting hasil stemming sehingga daftar term tersebut terurut berdasarkan abjad. Term yang sama kemudian dikelompokkan grouping menjadi satu dan dihitung frekuensi kemunculannya di tiap – tiap dokumen.

1.3. Porter Stemmer

1.3.1. Tentang Porter Stemmer

Porter stemmer atau Porter stemming Porter, 2006 adalah sebuah algoritma untuk menghapus akhiran infleksional dan morfologi yang umum dari kata dalam Bahasa Inggris. Kegunaan utama dari algoritma ini adalah sebagai bagian dari proses normalisasi term yang biasa dilakukan pada saat membangun sebuah sistem Pemerolehan Informasi. Menurut Tala, 2003, algoritma ini berdasarkan pada ide bahwa akhiran dalam Bahasa Inggris umumnya tersusun atas kombinasi akhiran yang kecil dan sederhana. Proses pemotongan dilakukan dalam lima tahap terurut, yang mensimulasikan proses inflectional dan derivational dari sebuah kata. Pada setiap tahapan, sebuah akhiran dihilangkan melalui aturan penggantian substitution. Aturan penggantian substitution diterapkan pada saat satu set kondisi yang ada pada sebuah aturan terpenuhi. Salah satu contoh dari kondisi tersebut adalah panjang minimal jumlah dari rangkaian vokal-konsonan dari kata dasar yang dihasilkan. Panjang minimal ini disebut measure. Contoh kondisi lain yaitu apakah sebuah kata dasar diakhiri dengan huruf mati atau apakah mengandung huruf hidup. Saat semua kondisi dari sebuah aturan terpenuhi, maka aturan tersebut dijalankan, yang menyebabkan penghilangan akhiran; dan kemudian proses dilanjutkan pada tahap berikutnya. Bila kondisi dari sebuah aturan pada suatu tahap tidak terpenuhi, maka kondisi dari aturan berikutnya akan diuji, hingga aturan tersebut dijalankan atau hingga aturan pada tahap tersebut habis.

1.3.2. Porter Stemmer untuk Bahasa Indonesia

Porter Stemmer diadaptasi untuk bahasa Indonesia didasarkan atas pertimbangan bahwa ide utama dari algoritma ini sesuai dengan struktur morfologis dari kata dalam Bahasa Indonesia Tala, 2003. Struktur morfologis dari kata dalam Bahasa Indonesia terdiri dari sebuah kombinasi dari struktur inflectional dan derivational yang kecil dan sederhana, dimana masing – masing tersusun atas akhiran danatau awalan yang sederhana dan kecil. Tahap – tahap terurut dalam Porter Stemmer, yang mensimulasikan proses inflectional dan derivational dari kata dalam Bahasa Inggris juga cocok dengan struktur inflectional dan derivational dari Bahasa Indonesia. Karena Bahasa Inggris dan Bahasa Indonesia adalah dua bahasa yang berbeda, maka aturan – aturan pada tiap tahap dalam Porter Stemmer untuk Bahasa Indonesia mendapat beberapa perubahan untuk menyesuaikan dengan struktur Bahasa Indonesia, seperti aturan untuk penghilangan awalan, konfiks, dan juga penyesuaian ejaan pada kasus dimana karakter pertama pada sebuah kata dasar mengalami perubahan pada saat mendapat penambahan awalan. Tabel 2.1 Aturan 1. Aturan untuk inflectional particles. Akhiran Replacement Measure Condition Additional Condition Contoh -kah NULL 2 NULL bukukah  buku -lah NULL 2 NULL adalah  ada -pun NULL 2 NULL bukupun  buku Tabel 2.2 Aturan 2. Aturan untuk inflectional possessive pronouns. Akhiran Replacement Measure Condition Additional Condition Contoh -ku NULL 2 NULL bukuku  buku -mu NULL 2 NULL bukumu  buku -nya NULL 2 NULL bukunya  buku fail a rule is fired a rule is fired fail Word Remove Particle Remove Possessive Remove 1st Order Prefix Remove 2nd Order Prefix Remove Suffix Remove Suffix Remove 2nd Order Prefix Stem Gambar 2.2 Proses dasar dari Porter stemmer untuk Bahasa Indonesia Tala, 2003. Tabel 2.3 Aturan 3. Aturan untuk first order of derivational prefixes. Awalan Replacement Measure Condition Additional Condition Contoh meng- NULL 2 NULL mengukur  ukur meny- s 2 V… menyapu  sapu men- t 2 V… menduga  duga menuduh  tuduh mem- p 2 V… memilah  pilah me- NULL 2 NULL merusak  rusak peng- NULL 2 NULL pengukur  ukur peny- s 2 V… penyapu  sapu pen- NULL 2 NULL penduga  duga pem- p 2 V… pemilah  pilah pem- NULL 2 NULL pembaca  baca di- NULL 2 NULL diukur  ukur ter- NULL 2 NULL tersapu  sapu ke- NULL 2 NULL kekasih  kasih kata hasil pemotongan diawali dengan huruf hidup vokal. Tabel 2.4 Aturan 4. Aturan untuk second order of derivational prefixes. Awalan Replacement Measure Condition Additional Condition Contoh ber- NULL 2 NULL berlari  lari bel- NULL 2 ajar belajar  ajar be- NULL 2 K er bekerja  kerja per- NULL 2 NULL perjelas  jelas pel- NULL 2 ajar pelajar  ajar pe- NULL 2 NULL pekerja  kerja kata hasil pemotongan diawali dengan huruf mati konsonan. Tabel 2.5 Aturan 5. Aturan untuk derivational suffixes. Akhiran Replacement Measure Condition Additional Condition Contoh -kan NULL 2 awalan ∉ {ke, peng} tarikkan  tarik ambilkan  ambil -an NULL 2 awalan ∉ {di, meng, ter} makanan  makan perjanjian  janji -i NULL 2 V|K… � 1 � 1 , � 1 ≠ �, � 2 ≠ �, dan awalan ∉ {ber, ke, peng} tandai  tanda mendapati  dapat Tabel 2.6 Contoh suku kata dalam Bahasa Indonesia. Measure Contoh Suku Kata kh, ng, ny kh, ng, ny 1 ma, af, nya, nga ma, af, nya, nga 2 maaf, kami, rumpun, kompleks ma-af, ka-mi, rum-pun, kom-pleks 3 mengapa, menggunung, tandai mang-a-pa, meng-gu-nung, tan-da-i

1.4. Klasifikasi Teks

Klasifikasi teks menurut Davies Goker, 2009 adalah proses mengklasifikasikan atau memberi label pada dokumen dalam beberapa cara, untuk membuat dokumen – dokumen tersebut lebih mudah dikelola. Klasifikasi teks sering digunakan pada kumpulan teks yang lebih sedikit, seperti email perseorangan, atau katalog perpustakaan. Kompleksitasnya terdapat pada kategori dan label yang digunakan, misalnya sering ada semantik, sesuai dengan aspek- aspek tersembunyi dari dokumen, dan hingga kesepakatan sosial bersama di antara para pengguna dokumen. Perbedaan utama antara klasifikasi teks dan jenis – jenis lain dari pemerolehan informasi adalah bahwa klasifikasi teks melibatkan sebuah keputusan kualitatif. Dokumen tidak hanya diberi peringkat, beberapa diberi label dan beberapa tidak. Ini dilakukan karena suatu alasan, khususnya untuk menyaring atau mengarahkan dokumen sesuai dengan kapan dan bagaimana dokumen tersebut mungkin dibutuhkan. Klasifikasi teks adalah bagian dari konteks penggunaan yang lebih luas yang berbeda dari beberapa area dari pemerolehan informasi. Poin – poin utama yang dapat diringkas adalah sebagai berikut: 1. Klasifikasi teks dimaksudkan untuk membuat sekumpulan dokumen lebih mudah dikelola dalam beberapa cara. 2. Pengelolaan yang efektif dari dokumen bergantung dari tujuan yang dimaksudkan dari pengelolaan tersebut, baik dari pengirim dan penerima. 3. Tujuan yang dimaksudkan dari sebuah dokumen tercermin dalam struktur dan susunan dokumen tersebut, serta dalam penggunaan bahasanya. Beberapa pendekatan dan contoh metode yang digunakan dalam proses klasifikasi teks, yaitu: • Defining features. Contoh: ID3 dan COBWEB. • Spatial boundaries. Contoh: support vector machines SVM. • Prototypes. Contoh: Rocchio’s relevance feedback. • Probabilistic models. Contoh: Bayes’ rule. • Exemplar models. Contoh: k-nearest neighbour algorithm kNN. • Hidden dependency models. Contoh: neural networks.

1.5. Naive Bayes