1.2. Indexing
Tahap – tahap dalam membangun sebuah index Manning, Raghavan, Schutze, 2008 adalah sebagai berikut:
1. Tokenization
Tokenization adalah proses memotong rangkaian kata yang terdapat dalam sebuah dokumen menjadi potongan – potongan kata yang berdiri sendiri, yang disebut
token, dan dalam waktu bersamaan juga menghilangkan karakter – karakter tertentu, seperti tanda baca.
Input: Friends, Romans, Countrymen, lend me yours ears; Output:
2. Normalzation
Normalization adalah proses menyamakan ejaan sebuah kata yang mewakili makna yang sama. Misalnya, e-mail, E-mail, Email, dan email; keempat kata
tersebut mewakili makna yang sama namun memiliki penulisan yang berbeda. Dalam melakukan proses normalisasi dapat digunakan salah satu kata sebagai
acuan, misalnya dipilih kata email sebagai acuan, maka penulisan kata e-mail, E- mail, dan Email akan diubah menjadi email.
3. Stop words removal
Stop words removal adalah proses menghilangkan stop words dari kumpulan kata yang didapat dari hasil tokenization. Stop words adalah beberapa kata yang sangat
umum yang kurang membantu kurang berpengaruh dalam proses klasifikasi. Penghilang stopword diharapkan dapat mengefisienkan dan meningkatkan akurasi
proses klasifikasi. Friends
Romans Countrymen
lend me
yours ears
Contoh stop words: dan
atau lagi
ada akan
agar akhir
bahkan baik
begini dahulu
cukup guna
entah ingat
hampir hanya
itu jadi
jangan hendak
4. Stemming
Stemming adalah proses menghilangkan imbuhan, seperti awalan, sisipan, dan akhiran, pada sebuah kata untuk mendapatkan kata dasarnya. Dalam penelitian ini,
algoritma stemming yang akan digunakan adalah algoritma Porter.
5. Membangun index melalui proses sorting dan grouping.
Tahap utama dalam membangun sebuah index adalah mengurutkan sorting hasil stemming sehingga daftar term tersebut terurut berdasarkan abjad. Term yang
sama kemudian dikelompokkan grouping menjadi satu dan dihitung frekuensi kemunculannya di tiap – tiap dokumen.
1.3. Porter Stemmer
1.3.1. Tentang Porter Stemmer
Porter stemmer atau Porter stemming Porter, 2006 adalah sebuah algoritma untuk menghapus akhiran infleksional dan morfologi yang umum dari kata dalam
Bahasa Inggris. Kegunaan utama dari algoritma ini adalah sebagai bagian dari proses normalisasi term yang biasa dilakukan pada saat membangun sebuah
sistem Pemerolehan Informasi. Menurut Tala, 2003, algoritma ini berdasarkan pada ide bahwa akhiran dalam Bahasa Inggris umumnya tersusun atas kombinasi
akhiran yang kecil dan sederhana. Proses pemotongan dilakukan dalam lima tahap terurut, yang mensimulasikan proses inflectional dan derivational dari sebuah
kata. Pada setiap tahapan, sebuah akhiran dihilangkan melalui aturan penggantian substitution. Aturan penggantian substitution diterapkan pada saat satu set
kondisi yang ada pada sebuah aturan terpenuhi. Salah satu contoh dari kondisi tersebut adalah panjang minimal jumlah dari rangkaian vokal-konsonan dari
kata dasar yang dihasilkan. Panjang minimal ini disebut measure. Contoh kondisi lain yaitu apakah sebuah kata dasar diakhiri dengan huruf mati atau apakah
mengandung huruf hidup. Saat semua kondisi dari sebuah aturan terpenuhi, maka aturan tersebut
dijalankan, yang menyebabkan penghilangan akhiran; dan kemudian proses dilanjutkan pada tahap berikutnya. Bila kondisi dari sebuah aturan pada suatu
tahap tidak terpenuhi, maka kondisi dari aturan berikutnya akan diuji, hingga aturan tersebut dijalankan atau hingga aturan pada tahap tersebut habis.
1.3.2. Porter Stemmer untuk Bahasa Indonesia
Porter Stemmer diadaptasi untuk bahasa Indonesia didasarkan atas pertimbangan bahwa ide utama dari algoritma ini sesuai dengan struktur morfologis dari kata
dalam Bahasa Indonesia Tala, 2003. Struktur morfologis dari kata dalam Bahasa Indonesia terdiri dari sebuah kombinasi dari struktur inflectional dan derivational
yang kecil dan sederhana, dimana masing – masing tersusun atas akhiran danatau awalan yang sederhana dan kecil. Tahap – tahap terurut dalam Porter Stemmer,
yang mensimulasikan proses inflectional dan derivational dari kata dalam Bahasa Inggris juga cocok dengan struktur inflectional dan derivational dari Bahasa
Indonesia. Karena Bahasa Inggris dan Bahasa Indonesia adalah dua bahasa yang berbeda, maka aturan – aturan pada tiap tahap dalam Porter Stemmer untuk
Bahasa Indonesia mendapat beberapa perubahan untuk menyesuaikan dengan struktur Bahasa Indonesia, seperti aturan untuk penghilangan awalan, konfiks, dan
juga penyesuaian ejaan pada kasus dimana karakter pertama pada sebuah kata dasar mengalami perubahan pada saat mendapat penambahan awalan.
Tabel 2.1 Aturan 1. Aturan untuk inflectional particles.
Akhiran Replacement
Measure Condition
Additional Condition
Contoh
-kah NULL
2 NULL
bukukah buku -lah
NULL 2
NULL adalah ada
-pun NULL
2 NULL
bukupun buku
Tabel 2.2 Aturan 2. Aturan untuk inflectional possessive pronouns.
Akhiran Replacement
Measure Condition
Additional Condition
Contoh
-ku NULL
2 NULL
bukuku buku -mu
NULL 2
NULL bukumu buku
-nya NULL
2 NULL
bukunya buku
fail a rule is fired
a rule is fired fail
Word Remove Particle
Remove Possessive Remove 1st Order Prefix
Remove 2nd Order Prefix Remove Suffix
Remove Suffix Remove 2nd Order Prefix
Stem
Gambar 2.2 Proses dasar dari Porter stemmer untuk Bahasa Indonesia Tala, 2003.
Tabel 2.3 Aturan 3. Aturan untuk first order of derivational prefixes.
Awalan Replacement
Measure Condition
Additional Condition
Contoh
meng- NULL
2 NULL
mengukur ukur meny-
s 2
V… menyapu sapu
men- t
2 V…
menduga duga menuduh tuduh
mem- p
2 V…
memilah pilah me-
NULL 2
NULL merusak rusak
peng- NULL
2 NULL
pengukur ukur peny-
s 2
V… penyapu sapu
pen- NULL
2 NULL
penduga duga pem-
p 2
V… pemilah pilah
pem- NULL
2 NULL
pembaca baca di-
NULL 2
NULL diukur ukur
ter- NULL
2 NULL
tersapu sapu ke-
NULL 2
NULL kekasih kasih
kata hasil pemotongan diawali dengan huruf hidup vokal.
Tabel 2.4 Aturan 4. Aturan untuk second order of derivational prefixes.
Awalan Replacement
Measure Condition
Additional Condition
Contoh
ber- NULL
2 NULL
berlari lari bel-
NULL 2
ajar belajar ajar
be- NULL
2 K er
bekerja kerja per-
NULL 2
NULL perjelas jelas
pel- NULL
2 ajar
pelajar ajar pe-
NULL 2
NULL pekerja kerja
kata hasil pemotongan diawali dengan huruf mati konsonan.
Tabel 2.5 Aturan 5. Aturan untuk derivational suffixes.
Akhiran Replacement Measure
Condition Additional Condition
Contoh
-kan NULL
2 awalan
∉ {ke, peng} tarikkan tarik
ambilkan ambil -an
NULL 2
awalan ∉ {di, meng, ter}
makanan makan perjanjian janji
-i NULL
2 V|K…
�
1
�
1
, �
1
≠ �, �
2
≠ �, dan awalan
∉ {ber, ke, peng} tandai tanda
mendapati dapat
Tabel 2.6 Contoh suku kata dalam Bahasa Indonesia.
Measure Contoh
Suku Kata kh, ng, ny
kh, ng, ny 1
ma, af, nya, nga ma, af, nya, nga
2 maaf, kami, rumpun, kompleks
ma-af, ka-mi, rum-pun, kom-pleks 3
mengapa, menggunung, tandai mang-a-pa, meng-gu-nung, tan-da-i
1.4. Klasifikasi Teks
Klasifikasi teks menurut
Davies Goker, 2009 adalah proses
mengklasifikasikan atau memberi label pada dokumen dalam beberapa cara, untuk membuat dokumen – dokumen tersebut lebih mudah dikelola. Klasifikasi teks
sering digunakan pada kumpulan teks yang lebih sedikit, seperti email perseorangan, atau katalog perpustakaan. Kompleksitasnya terdapat pada kategori
dan label yang digunakan, misalnya sering ada semantik, sesuai dengan aspek- aspek tersembunyi dari dokumen, dan hingga kesepakatan sosial bersama di
antara para pengguna dokumen. Perbedaan utama antara klasifikasi teks dan jenis – jenis lain dari pemerolehan informasi adalah bahwa klasifikasi teks melibatkan
sebuah keputusan kualitatif. Dokumen tidak hanya diberi peringkat, beberapa
diberi label dan beberapa tidak. Ini dilakukan karena suatu alasan, khususnya untuk menyaring atau mengarahkan dokumen sesuai dengan kapan dan
bagaimana dokumen tersebut mungkin dibutuhkan. Klasifikasi teks adalah bagian dari konteks penggunaan yang lebih luas
yang berbeda dari beberapa area dari pemerolehan informasi. Poin – poin utama yang dapat diringkas adalah sebagai berikut:
1. Klasifikasi teks dimaksudkan untuk membuat sekumpulan dokumen lebih
mudah dikelola dalam beberapa cara. 2.
Pengelolaan yang efektif dari dokumen bergantung dari tujuan yang dimaksudkan dari pengelolaan tersebut, baik dari pengirim dan penerima.
3. Tujuan yang dimaksudkan dari sebuah dokumen tercermin dalam struktur dan
susunan dokumen tersebut, serta dalam penggunaan bahasanya.
Beberapa pendekatan dan contoh metode yang digunakan dalam proses klasifikasi teks, yaitu:
• Defining features. Contoh: ID3 dan COBWEB.
• Spatial boundaries. Contoh: support vector machines SVM.
• Prototypes. Contoh: Rocchio’s relevance feedback.
• Probabilistic models. Contoh: Bayes’ rule.
• Exemplar models. Contoh: k-nearest neighbour algorithm kNN.
• Hidden dependency models. Contoh: neural networks.
1.5. Naive Bayes