12
6. Topic Filter
Jika suatu halaman relevant, maka akan dimasukkan ke dalam relevant page database. Jika tidak relevant maka akan masuk ke dalam irrelevant table.
7. Relevant Page Database
Relevant Page Database berisi halaman URL yang relevant. Halaman yang relevant akan dimasukkan ke dalam URLqueue.Bobot atau nilai dari URL yaitu
nilai dari relevansi halaman tersebut. 8.
Irrelevant Table Jika suatu halaman tidak relevant, maka akan dimasukkan ke dalam irrelevant
table. Halaman yang tidak memiliki relevansi pada irrelevant table tidak akan melakukan proses crawling lagi.
2.3. Algoritma Porter Stemmer
Stemming adalah proses menghapus variasi kata untuk mendapatkan kata dasar yang mengacu pada morfologi kata. Stemming khusus bahasa Inggris ditemukan oleh
Martin Porter pada tahun 1980.
Algoritma Porter stemmer adalah proses penghilangan akhiran morphological dan inflexional yang umumnya terdapat dalam bahasa Ingris Porter, 1980. Algoritma
ini mencari kata dasar dari suatu kata yang berimbuhan dengan membuang imbuhan- imbuhan akhiran pada kata-kata bahasa Inggris karena bahasa Inggris tidak
mengenal awalan.
Kondisi stem akar kata pada algoritma Porterstemmer:
1. Ukuran measure, dinotasikan dengan m, dari sebuah stem berdasarkan pada
urutan vokal-konsonan. m = 0, contoh : TR, EE, TREE, Y, BY
m = 1, contoh : TROUBLE, OATS, TREES, IVY m = 2, contoh : TROUBLES, PRIVATE, OATEN
13
2. Xberarti stem berakhir dengan huruf X
3. vberarti stem mengandung sebuah vokal
4. d berarti stem diakhiri dengan konsonan double
5. o berarti stem diakhiri dengan konsonan – vokal – konsonan secara berurutan
dimana konsonan akhir bukan w, x, atau y. Pada sebagian kondisi mungkin juga terdapat ekspresi dengan, and, or and
not, seperti: 1.
m1 and S or T Pada bagian m1 dengan berakhir di s atau t. 2.
d and not L or S or Zstem diakhiri dengan konsonan double, tidak akhiran L atau S atau Z
Aturan-aturan dalam
proses stemming
pada algoritma
Porterstemmerhttp:tartarus.orgmartinPorterStemmerdef.txt: 1.
Langkah 1 Langkah 1a: remove plural suffixation, yaitu mengganti atau menghapus
akhiran kata berbentuk jamak hingga mendapatkan stem.
Tabel 2.1 Aturan Stemming Step 1ahttp:tartarus.orgmartinPorterStemmerdef.txt
Conditions Suffix Replacement
Examples
NULL SSES
SS caresses
caress NULL
IES I
ponies poni
ties ti
NULL SS
SS caress
caress NULL
S NULL
cats cat
Langkah 1b: remove verbal inflection. Jika kata mengandung huruf vokal- konsonan berurutan, maka akhiran -eed berubah -ee. Pada akhiran -ed dan -
ing, kata tidak akan mengalami perubahan jika kata tersebut hanya memiliki satu huruf vokal, dan jika lebih dari satu huruf vokal, akhiran -ed dan -ing akan
dihapus.
14
Tabel 2.2 Aturan Stemming Step
1b http:tartarus.orgmartinPorterStemmerdef.txt
Conditions Suffix
Replacement Examples
m0 EED
EE feed
feed agreed
agree v
ED NULL
plastered plaster
bled bled
v ING
NULL motoring
motor singing
sing
Continued for -ed and -ing rules, merupakan tahap selanjutnya pada akhiran - ed dan -ing. Kata yang diakhiri oleh double konsonan tidak berakhir oleh
huruf l, s, z maka kata tersebut akan diganti dengan satu huruf konsonan saja. Suatu kata akan ditambahkan e, jika kata diakhiri oleh huruf konsonan-vokal-
konsonan secara berurutan konsonan akhir bukan w ,x, y dan hanya memiliki satu urutan vokal-konsonan didalamnya.
Tabel 2.3 Continued for
–ed and –ing ruleshttp:tartarus.orgmartinPorterStemmerdef.txt
Conditions Suffix
Replacement Examples
NULL AT
ATE conflateed
conflate NULL
BL BLE
troubleed trouble
NULL IZ
IZE sizeed
size d and not L or S or
Z NULL
Single letter hopping
hop tanned
tan falling
fall hissing
hiss fizzed
fizz m=1 and o
NULL E
failing fail
filing file
15
Langkah 1c: -y dan -i, jika dalam sebuah kata terdapat huruf vokal, maka akhiran y diganti dengan -i.
Tabel 2.4 Aturan Stemming Step 1chttp:tartarus.orgmartinPorterStemmerdef.txt
Conditions Suffix Replacement Examples
v Y
I happy
happi sky
sky
2.
Langkah 2: peel one suffix off for multiple suffixes yaitu sebuah kata memiliki sebuah huruf vokal-konsonan secara berurutan.
Tabel 2.5 Aturan Stemming Step 2
http:tartarus.orgmartinPorterStemmerdef.txt
Conditions Suffix
Replacement Examples
m0 ATIONAL
ATE relational
relate m0
TIONAL TION
conditional condition
rational rational
m0 ENCI
ENCE valenci
valence m0
ANCI ANCE
hesitanci hesitance
m0 IZER
IZE digitizer
digitize m0
ABLI ABLE
conformabli conformable
m0 ALLI
AL radicalli
radical m0
ENTLI ENT
differentli different
m0 ELI
E vileli
vile m0
OUSLI OUS
analogousli analogous
m0 IXATION
IZE vietnamization
vietnamize m0
ATION ATE
predication predicate
m0 ATOR
ATE operator
operate m0
ALISM AL
feudalism feudal
m0 IVENESS
IVE decisiveness
decisive m0
FULNESS FUL
hopefulness hopeful
m0 OUSNESS
OUS callousness
callous m0
ALITI AL
formaliti formal
m0 IVITI
IVE sensitiviti
sensitive m0
BILITI BLE
sensibiliti sensible
3.
Langkah 3:kata yang memiliki akhiran -icate, -icitii atau -ical akan diubah
menjadi -ic, kata berakhiran-ative, -ful, -ness akan dihapus, dan kata berakhiran - alize akan menjadi -al. Dimana, kata tersebut harus memiliki sebuah vokal-
konsonan secara berurutan.
16
Tabel 2.6 Aturan Stemming Step
3http:tartarus.orgmartinPorterStemmerdef.txt Conditions
Suffix Replacement
Examples
m0 ICATE
IC triplicate
triplic m0
ATIVE NULL
formative form
m0 ALIZE
AL formalize
formal m0
ICITI IC
electriciti electric
m0 ICAL
IC electrical
electric m0
FULL NULL
hopeful hope
m0 NESS
NULL goodness
good
4.
Langkah 4: delete last suffix. Sebuah akhiran akan dihapus jika kata tersebut memiliki dua huruf vokal-konsonan secara berurutan.
Tabel 2.7 Aturan Stemming Step 4
http:tartarus.orgmartinPorterStemmerdef.txt Conditions
Suffix Replacement
Examples
m1 AL
NULL revival
reviv m1
ANCE NULL
allowance allow
m1 ENCE
NULL inference
infer m1
ER NULL
airliner airlin
m1 IC
NULL gyroscopic
gyroscop m1
ABLE NULL
adjustable adjust
m1 IBLE
NULL defensible
defens m1
ANT NULL
irritant irrit
m1 EMENT
NULL replacement
replac m1
MENT NULL
adjustment adjust
m1 ENT
NULL dependent
depend m1 and S or
T ION
NULL adoption
adopt m1
ISM NULL
communism commun
m1 OU
NULL homologous
homolog
Tabel 2.7 Aturan Stemming Step 4 lanjutan
http:tartarus.orgmartinPorterStemmerdef.txt
Conditions Suffix
Replacement Examples
m1 ATE
NULL activate
active m1
ITI NULL
angulariti angular
17
m1 OUS
NULL homologous
homolog m1
IVE NULL
effective effect
m1 IZE
NULL bowdlerize
bowdler
5. Langkah 5 :
Langkah 5a: remove e. Akhiran –eakan dihapus jika kata tersebut memiliki dua vokal-konsonan berurutan konsonan akhir tidak w, x, y dan tidak diakhiri
konsonan-vokal-konsonan secara berurutan.
Tabel 2.8 Aturan Stemming Step 5a
http:tartarus.orgmartinPorterStemmerdef.txt Conditions
Suffix Replacement
Examples
m1 E
NULL probate
probat rate
rate m=1 and not o
E NULL
cease ceas
Langkah 5b: reduction. Akhiran akan diganti menjadi satu huruf konsonan jika, kata memiliki sebuah vokal-konsonan berurutan dan tidak berakhir
dengan double konsonan.
Tabel 2.9 Stemming Step 5b
http:tartarus.orgmartinPorterStemmerdef.txt Conditions
Suffix Replacement
Examples
m1 and d an L NULL
Single Letter controll
control roll
roll
2.4. Bahasa Pemrograman PHP