23
3.1.3. Tabel_relevansi
Pada tabel_relevansi terdapat 10 field yaitu id, id_topik, id_page, keyword_topik_ sama, keyword_page_sama, wkt_sama, wkp_sama, wkt, wkp, relevansi. Seperti Tabel
3.3.
Tabel 3.3Tabel_relevansi
Pada Tabel 3.3, akan dibandingkan satu halaman dengan halaman yang lainnya. Halaman yang memiliki kesamaan kata, akan ditentukan wkt weight keyword
topik dan wkp weight keyword page. Setelah hasil didapatkan akan ditentukan relevansinya. Sehingga diketahui seberapa besar keterkaitan halaman jurnal satu
dengan yang lainnya.
3.2. Analisis Sistem
Pada penelitian ini akan dilakukan analisis sistem yaitu mencakup proses crawling dan metode Porter Stemmer. Proses dalam sistem ini dilakukan oleh admin dan user.
3.2.1. Admin
Tahapan-tahapan yang dilakukan oleh admin yaitu:
1. Memasukkan link ke dalam textbox yang ada pada halaman proses crawling.
2. Dalam proses crawling, url dan konten yang ada akan di download dan akan
masuk otomatis ke dalam tabel_konten 3.
Setelah selesai proses crawling, akan dilakukan penghapusan stopword.
id id_
topik id_
page keyword_
topik_sama keyword_
page_ sama wkt_sama
wkp_sama wkt
wkp relevansi
1 1
2 cell=9
high=3 compar=3
cancer=2 studi=2
cell=2 high=2 compar=3
cancer=3 studi=4
2.1111111 111111
1.1666666 666667
12.2 2222
2222 222
8.66 666
666 666
67
0.023251 74825174
8
2 1
3 high=3
studi=2 high=2
studi=3 0.5555555
5555556 1
12.2 2222
2222 222
12
0.003787 87878787
88
24
4. Setelah penghapusan stopword, maka akan dilakukan proses stemming. Pada
proses ini semua imbuhan dihapus, dan yang tinggal berupa kata dasar saja. 5.
Selanjutnya akan dilakukan penghitungan bobot dan normalisasi. Pada proses ini akan didapatkan bobot keyword.
6. Kemudian dilakukan perbandingan antara wkt weight keyword topic dan wkp
weight keyword page. Setelah dilakukan perbandingan, maka akan dihitung nilai relevansinya. Flowchart dapat dilihat pada Gambar 3.1.
Mulai
Input url rss
Halaman website
Get title, url, and content
Apakah feed tersedia?
Proses Text Preprocessing
Penghapusan Stopwords
Proses Stemming
Ya Tidak
Hitung bobot dan normalisasi
w = wiwmax Membandingkan
masing-masing jurnal
Hitung Nilai Relevansi
Selesai Nilai
Relevansi
Gambar 3.1 Flowchart Sistem
25
3.2.1.1. Text preprocessing
Tahapan-tahapan yang dilakukan dalam text preprocessing diantaranya yaitu : 1.
Memasukkan link ke dalam halaman proses crawling dan akan dilakukan proses crawling.
2. Kemudian dilakukan penggabungan judul dan konten yang ada pada
tabel_konten. 3.
Lalu dilakukan pengubahan semua huruf menjadi huruf kecil. 4.
Menghapus semua tanda baca. 5.
Semua kata yang sudah diproses dapat ditampilkan. Seperti pada Gambar 3.2.
Mulai
Penggabungan judul dan konten
toLowerCase
Data jurnal yang sudah mengalami
proses text preprocessing
Selesai Mengahapus
tanda baca Data
Jurnal
Gambar 3.2 Flowchart Text Preprocessing
26
3.2.1.2. Penghapusan
Stopwords
http:dev.mysql.comdocrefman5.1enfulltextstopwords.html
Tahapan-tahapan dalam penghilangan stopwords diantaranya yaitu : 1.
Yang diproses adalah kata-kata yang telah melewati proses text preprocessing. 2.
Kata diubah ke dalam bentuk array. 3.
Membandingkan kata yang ada di array dengan kata pada stopwords. 4.
Proses penghilangan akan dilakukan jika ditemukan kata yang sama pada array dengan yang ada di stopwords. Sedangkan penghilangan stopwords tidak
dilakukan jika tidak terdapat kesamaan kata pada array dan pada stopwords. 5.
Proses penghilangan stopwords selesai. Seperti pada Gambar 3.3.
Mulai
Data Jurnal yang telah melewati
proses text processing
Mengubah kata yang ada ke dalam bentuk array
Membandingkan kata yang ada di array dengan
yang ada di stopwords
Sesuai? Tidak
dihapus Hapus
Sisa kata
Selesai tidak
ya
Gambar 3.3 Flowchart Proses Stopwords
27
3.2.1.3. Stemming Porter Stemmer
Pada penelitian ini algoritma yang dipakai yaitu algoritma Porter Stemmer.Adapun langkah-langkah
atau aturan
yang ada
dalam algoritma
ini yaitu
http:tartarus.orgmartinPorterStemmerdef.txt :
1. Kata-kata yang sudah mengalami penghilangan stopwords.
2. Remove plural suffixation yaitu menghapus dan mengganti akhiran kata
berbentuk jamak -sses - ss, -ies - i, -ss - ss, -s - null kebentuk tunggal. 3.
Remove verbal inflection. a
Mengubah kata dalam bentuk continues atau participle kebentuk dasarnya. Akhiran
–eed akan berubah menjadi ee jika kata mengandung huruf vokal konsonan berurutan. Pada akhiran
–ed dan –ing, kata tidak akan mengalami perubahan jika kata tersebut memiliki satu huruf vokal. Akhiran
–ed dan –ing akan dihapus jika kata memiliki lebih dari satu huruf vokal.
b Continued for –ed and –ing rules. Tahap selanjutnya untuk akhiran –ed dan –
ing. Kata yang diakhiri oleh double letter akan diganti dengan single letter
tidak berakhir dengan huruf l, s, z. Jika kata diakhiri oleh huruf konsonan-vokal-konsonan secara berurutan
bukan konsonan akhir w, x, y dan memiliki satu urutan vokal konsonan didalamnya, maka kata tersebut akan ditambahkan
–e. 4.
Akhiran -y diganti dengan –i jika dalam kata tersebut memiliki huruf vokal. 5.
Peel one suffix off for multiple suffixes. Jika suatu kata memiliki akhiran ganda, maka kata tersebut akan diubah dengan akhiran tunggal. Pada langkah ini, akan
dilakukan penghapusan akhiran jika pada kata tersebut memiliki huruf vokal- konsonan secara berurutan. Contohnya: relational - relate, conditional -
condition. 6.
Kata yang memiliki akhiran –icate, -icitii, -ical akan diubah menjadi –ic. Kata berakhiran
–alize akan diganti menjadi –al. Kata berakhiran –active, -ful, -nes akan dihapus. Kata tersebut harus memiliki vokal-konsonan secara berurutan.
7. Delete last suffix. Sebuah akhiran akan dihapus jika kata tersebut memiliki dua
huruf vokal-konsonan secara berurutan. Contohnya: allowance - allow, adjustment - adjust.
28
8. Remove –e. Jika sebuah kata memiliki dua vokal-konsonan secara berurutan
konsonan akhir bukan w, x, y dan tidak diakhiri konsonan-vokal-konsonan secara berurutan, maka akhiran
–e akan dihapus. 9.
Reduction. Akhiran akan diganti menjadi satu huruf konsonan jika kata tersebut memiliki vokal-konsonan secara berurutan. Contohnya: controll - control.
Seperti pada Gambar 3.4.
Mulai
Kata yang akan di stemming
Cek term jamak “-sses”,
“-ies”, “-ss”, “-s” Sesuai?
Penghapusan dan mengganti term jamak ke
bentuk tunggal - sses -
- ss , -ies - -I , -ss -
- s , -s - null
ya
Cek term dalam bentuk continues atau participle
“-eed”, “-ed”, “-ing” tidak
Sesuai? Penghapusan dan
mengganti term ke bentuk dasar -
eed - -ed , - ed - null, -i g - null
Cek jika ada akhiran double letter dan
pe a baha -e u tuk beberapa suffix
tidak ya
Ganti akhiran double letter ke single letter dan
ta bahka -e u tuk beberapa suffix -
at - - ate , -bl - -ble , -iz -
- ize
Sesuai? tidak
P2 ya
Cek jika ada akhira - y
Sesuai? Ga ti akhira -y de ga
- I
P1 tidak
ya
Gambar 3.4 Flowchart Proses Stemming
29
P1 P2
Cek kata jika memiliki akhiran
ganda huruf vokal konsonan secara
berurutan Sesuai?
Ganti akhiran ganda ke akhiran tunggal
- atio al - -ate ,
- tio al - -tio
ya
Mengindeks huruf terakhir untuk
membuang akhiran spesifik
tidak
Sesuai? Pemotongan
imbuhan ya
Mengindeks penultimate letter
untuk membuang akhiran spesifik jika
memiliki m 1 tidak
Sesuai? Pemotongan
imbuhan ya
Cek kata jika memiliki huruf
terakhir -e tidak
Sesuai? Hapus huruf terakhir
- e
ya
Cek jika ada duplikasi huruf pada
akhir kata tidak
Sesuai? Hapus satu huruf
terakhir ya
Kata dasar tidak
Selesai
Gambar 3.4 Flowchart Proses Stemminglanjutan
30
3.2.1.4. Focused Crawler
Pada penelitian ini, focused crawler berfungsi untuk melakukan proses crawling dari sebuah halaman, menghitung bobot stem dan menghitung relevansi dari masing-
masing jurnal. Jurnal yang sudah di-crawlingakan dimasukkan ke dalam tabel konten agar
dapat melewati proses selanjutnya. Setelah proses crawling selesai, maka proses selanjutnya adalah melakukan pembobotan stem seperti pada Tabel 3.2.
Pada Tabel 3.2, semua kata akan melewati proses stemming, dan akan memiliki bobot stem pada setiap kata. Contohnya, pada id_keyword nomor 1, kata
„cell‟ memiliki bobot 9. Bobot stem tersebut didapat dari jurnal yang ada pada id_konten dimana kata „cell‟ dapat ditemukan sebanyak 9 kata. Kata yang ada pada
keyword, diambil dari kata yang dimana memiliki bobot stem 30 tertinggi. Setelah proses pembobotan stem selesai, maka selanjutnya akan dilakukan proses normalisasi
seperti pada Tabel 3.4. Flowchart proses normalisasi dapat dilihat pada Gambar 3.2. Pada Tabel 3.4, akan dilakukan proses normalisasi untuk menentukan bobot.
Bobot dapat dicari dengan rumus yaitu :
Contoh kata „cell‟ dapat dihitung : ,
31
Mulai
Kata dasar keyword setelah
melewati proses Stemming
Hitung frekuensi kata wi
Tentukan jumlah nilai kata terbesar
wmax
Hitung nilai bobot kata w=wiwmax
Bobot kata keyword
Selesai
Gambar 3.5 Flowchart Proses Normalisasi
32
Tabel 3.4 Proses Normalisasi
No Id Konten Normalisasi
1 1
Keyword Wi
Wmax W = WiWmax
adenocarcinoma cell
scc xenograft
region distribut
cto fdg
cuatsm necrot
origin intratumor
high compar
overlap accumul
live deriv
adduct colon
cancer cucuatsm
characterist pimonidazol
tumor occur
studi observ
lung dualtrac
9 9
8 8
7 6
5 4
4 4
3 3
3 3
3 3
2 2
2 2
2 2
2 2
2 2
2 2
2 1
9 9
9 9
9 9
9 9
9 9
9 9
9 9
9 9
9 9
9 9
9 9
9 9
9 9
9 9
9 9
1 1
0.88888888888889 0.88888888888889
0.77777777777778 0.66666666666667
0.55555555555556 0.44444444444444
0.44444444444444 0.44444444444444
0.33333333333333 0.33333333333333
0.33333333333333 0.33333333333333
0.33333333333333 0.33333333333333
0.22222222222222 0.22222222222222
0.22222222222222 0.22222222222222
0.22222222222222 0.22222222222222
0.22222222222222 0.22222222222222
0.22222222222222 0.22222222222222
0.22222222222222 0.22222222222222
0.22222222222222 0.11111111111111
33
Jika bobot keyword dari suatu kata sudah dihitung, maka selanjutnya akan ditentukan nilai relevansinya seperti pada tabel 3.5. Flowchart relevansi dapat dilihat
pada Gambar 3.6.
Mulai
Nilai pada proses
normalisasi
Membandingkan masing-masing
jurnal
Ambil kata yang sama beserta nilai
bobotnya
Hitung total bobot dari masing-masing
jurnal wkt dan wkp
Hitung relevansi
Nilai relevansi
Selesai
Gambar 3.6 Flowchart Menghitung Relevansi
34
Tabel 3.5 Tabel menentukan nilai relevansi
Keyword Topik 1 adenocarcinoma=9 cell=9 scc=8 xenograft=8 region=7 distribut=6 cto=5 fdg=4 cuatsm=4 necrot=4 origin=3 intratumor=3 high=3
compar=3 overlap=3 accumul=3 live=3 deriv=2 adduct=2 colon=2 cancer=2 cucuatsm=2 characterist=2 pimonidazol=2 tumor=2 occur=2
studi=2 observ=2 lung=2 dualtrac=1 Keyword Page2
Ffphpa=12 uptak=10 amino=8 acid=8 radiotrac=5 ffet=4 imag=4 studi=4
prepar=3 cancer=3
pet=3 emt=3
compar=3 min=2
crosscoupl=2 asc=2 pdmediat=2 suvmin=2 maximum=2 transport=2 reach=2 cell=2 evalu=2 small=2 anim=2 reaction=2 high=2
radiochem=2 inhibit=2 cellular=2 Keyword Topik
Sama cell=9 high=3 compar=3 cancer=2 studi=2
Keyword Page Sama
cell=2 high=2 compar=3 cancer=3 studi=4 sama
2.1111111111111
sama
1.1666666666667 12.222222222222
148.84
8.6666666666667 75.099
√ 105.7252
Relevansi 0.023251748251748
Pada Tabel 3.5, akan diketahui nilai relevansi dengan membandingkan masing- masing jurnal. Contohnya jurnal dengan id konten satu keyword topik 1 dengan id
konten dua keyword page 2. Masing-masing jurnal akan diambil keyword yang sama yaitu:
Keyword topik sama : cell=9 high=3 compar=3 cancer=2 studi=2 Keyword page sama : cell=2 high=2 compar=3 cancer=3 studi=4
Dapat dilihat pada Tabel 3.5 masing-masing jurnal memiliki kata yang sama yaitu „cell‟, „high‟, „compar‟, „cancer‟, dan „studi‟. Setelah mendapatkan keyword
35
yang sama, maka akan dihitung bobot keyword topik dan bobot keyword page yang sama.
Bobot maksimal dari keyword topik yaitu 5
= 2.1111111111 Setelah diketahui weight keyword topik sama sebesar 2.1111111111, maka
akan dihitung juga weight keyword page sama.
Bobot maksimal dari keyword page yaitu 12
1.16666666666667 Selanjutnya, untuk mendapatkan nilai relevansi, terlebih dahulu akan dihitung
total dari weight keyword topik dengan total dari weight keyword page.
Jumlah seluruh bobot term dari keyword topik yaitu: adenocarcinoma9 + cell9 +scc8 + xenograft8+ region7 + distribut6 + cto5
+ fdg4 + cuatsm4 + necrot4 + origin3 + intratumor3 + hight3 + compar3 + overlap3 + accumul3 + live3 + deriv2 + adduct2 + colon2 + cancer2 +
cucuatsm2 + characterist2 + pimonidazol2 + tumor2+ occur2 + studi2 + observ2 +lung2 + dualtrac1 = 110
36
Weight maksimal dari keyword topik yaitu 9
Jumlah bobot term dari keyword page yaitu : ffphpa12 + uptak10 + amino8 + acid8 + radiotrac5 + ffet4 + imag4 +
studi4 + prepar3 + cancer3 + pet3 + emt3 + compar3 + min2 + crosscoupl2 + asc2 + pdmediat2 + suvmin2 + maximum2 + transport2 +
reach2 +cell2 + evalu2 + small2 + anim2 + reaction2 + high2 + radiochem2 + inhibit2 + cellular2 = 104
Weight maksimal dari keyword page yaitu 12
Kemudian, setelah total dari masing-masing wkt weight keyword topic dan wkp weight keyword page dihitung, maka langkah selanjutnya akan dihitung nilai
relevansinya. √
√
√
Dari hasil perhitungan di atas, diperoleh nilai relevansi antara id konten satu dengan id konten dua sebesar
0.023251748251748
. Tetapi, tidak menutup kemungkinan
37
jika dalam melakukan suatu perbandingan, konten tidak memiliki nilai relevansi. Seperti pada Tabel 3.6.
Tabel 3.6Nilai relevansi = 0
Keyword Topik 1 droplet=5 structur=4 surfac=4 contactfre=3 process=3 review=2
discuss=2 probe=2 materi=2 deposit=2 evapor=2 quasi=2 tempor=1 resolv=1 rasterscan=1 spatial=1 assembl=1 artifici=1 biolog=1
conform=1 nucleat=1 diffract=1 techniqu=1 site=1 facilit=1 interpret=1 data=1 pin=1 solidif=1 orient=1
Keyword Page 2 larger=1 wavelength=1 narrow=1 order=1 interv=1 microstructur=1
modul=1 factor=1
dispers=1 gap=1
reson=1 develop=1
freeelectron=1 laser=1 uniqu=1 region=1 shorterwavelength=1 clarifi=1 contribut=1 characterist=1 studi=1 spectrum=2 observ=2
emiss=3 spontan=3 klystron=3 optic=3 harmon=5 higher=5 Keyword Topik
Sama -
Keyword Page Sama
- sama
sama 10.2
104.4 9.4
88.36 √
95.88 Relevansi
Pada Tabel 3.6, dilakukan perbandingan antara id konten satu dengan id konten dua. Hasil dari perbandingannya tidak memiliki keyword topik sama dan
keyword page sama. Hal tersebut disebabkan karena kata yang ada pada keyword topik satu tidak ada ditemukan pada keyword page dua. Weight keyword topic sama
dan weight keyword page sama tidak dapat dihitung karena dari masing-masing
38
keyword tidak ditemukan persamaan kata. Sedangkan untuk total weight keyword topic dan weight keyword page dapat dihitung sebagai berikut.
Jumlah seluruh bobot term dari keyword topik yaitu : droplet5 + structur4 +surfac4 + contactfre3+ process3 + review2 +
discuss2 + probe2 + materi2 + deposit2 + evapor2 + quasi2 + tempor1 + resolv1 + rasterscan1 + spatial1 + assembl1 + artifici1 + biolog1 +
conform1 + nucleat1 + diffract1 + techniqu1 + site1 + facilit1+ interpret1 + data1 + pin1 + solidif1 + orient1 = 51
Weight maksimal dari keyword topik yaitu 5
Jumlah bobot term dari keyword page yaitu : Larger1 + wavelength1 + narrow1 order1 + interv1 + microstructur1 +
modul1 + factor1 + dispers1 + gap1 + reson1 + develop1 + freeelectron1 + laser1 + uniqu1 + region1 + shorterwavelength1 + clarifi1 + contribut1 +
characterist1+ studi1 + spectrum2 + observ2 + emiss3 + spontan3 + klystron3 + optic3 + harmon5 + higher5 = 46
Weight maksimal dari keyword page yaitu 5
√
39
√
Jadi, jika dibandingkan keyword topik satu dengan keyword page dua tidak memiliki hubungan relevansi = 0. Semakin tinggi nilai relevansi maka semakin
dekat hubungan antara topik satu dengan topik yang lainya.
3.2.2. User
Pada sistem ini, user akan melakukan pencarian dengan memasukkan keyword pada halaman pencarian.User dapat membaca jurnal dan mendapatkan jurnal yang memiliki
relevansi dengan jurnal yang dibaca.Flowchart pencarian dapat dilihat pada Gambar 3.7.
Mulai
Pilih Judul jurnal
Selesai Input
keyword
Jurnal dan relevansi
Gambar 3.7 Flowchart Pencarian
3.3. Perancangan Sistem