Analisis Sistem TINJAUAN PUSTAKA

23 3.1.3. Tabel_relevansi Pada tabel_relevansi terdapat 10 field yaitu id, id_topik, id_page, keyword_topik_ sama, keyword_page_sama, wkt_sama, wkp_sama, wkt, wkp, relevansi. Seperti Tabel 3.3. Tabel 3.3Tabel_relevansi Pada Tabel 3.3, akan dibandingkan satu halaman dengan halaman yang lainnya. Halaman yang memiliki kesamaan kata, akan ditentukan wkt weight keyword topik dan wkp weight keyword page. Setelah hasil didapatkan akan ditentukan relevansinya. Sehingga diketahui seberapa besar keterkaitan halaman jurnal satu dengan yang lainnya.

3.2. Analisis Sistem

Pada penelitian ini akan dilakukan analisis sistem yaitu mencakup proses crawling dan metode Porter Stemmer. Proses dalam sistem ini dilakukan oleh admin dan user. 3.2.1. Admin Tahapan-tahapan yang dilakukan oleh admin yaitu: 1. Memasukkan link ke dalam textbox yang ada pada halaman proses crawling. 2. Dalam proses crawling, url dan konten yang ada akan di download dan akan masuk otomatis ke dalam tabel_konten 3. Setelah selesai proses crawling, akan dilakukan penghapusan stopword. id id_ topik id_ page keyword_ topik_sama keyword_ page_ sama wkt_sama wkp_sama wkt wkp relevansi 1 1 2 cell=9 high=3 compar=3 cancer=2 studi=2 cell=2 high=2 compar=3 cancer=3 studi=4 2.1111111 111111 1.1666666 666667 12.2 2222 2222 222 8.66 666 666 666 67 0.023251 74825174 8 2 1 3 high=3 studi=2 high=2 studi=3 0.5555555 5555556 1 12.2 2222 2222 222 12 0.003787 87878787 88 24 4. Setelah penghapusan stopword, maka akan dilakukan proses stemming. Pada proses ini semua imbuhan dihapus, dan yang tinggal berupa kata dasar saja. 5. Selanjutnya akan dilakukan penghitungan bobot dan normalisasi. Pada proses ini akan didapatkan bobot keyword. 6. Kemudian dilakukan perbandingan antara wkt weight keyword topic dan wkp weight keyword page. Setelah dilakukan perbandingan, maka akan dihitung nilai relevansinya. Flowchart dapat dilihat pada Gambar 3.1. Mulai Input url rss Halaman website Get title, url, and content Apakah feed tersedia? Proses Text Preprocessing Penghapusan Stopwords Proses Stemming Ya Tidak Hitung bobot dan normalisasi w = wiwmax Membandingkan masing-masing jurnal Hitung Nilai Relevansi Selesai Nilai Relevansi Gambar 3.1 Flowchart Sistem 25 3.2.1.1. Text preprocessing Tahapan-tahapan yang dilakukan dalam text preprocessing diantaranya yaitu : 1. Memasukkan link ke dalam halaman proses crawling dan akan dilakukan proses crawling. 2. Kemudian dilakukan penggabungan judul dan konten yang ada pada tabel_konten. 3. Lalu dilakukan pengubahan semua huruf menjadi huruf kecil. 4. Menghapus semua tanda baca. 5. Semua kata yang sudah diproses dapat ditampilkan. Seperti pada Gambar 3.2. Mulai Penggabungan judul dan konten toLowerCase Data jurnal yang sudah mengalami proses text preprocessing Selesai Mengahapus tanda baca Data Jurnal Gambar 3.2 Flowchart Text Preprocessing 26 3.2.1.2. Penghapusan Stopwords http:dev.mysql.comdocrefman5.1enfulltextstopwords.html Tahapan-tahapan dalam penghilangan stopwords diantaranya yaitu : 1. Yang diproses adalah kata-kata yang telah melewati proses text preprocessing. 2. Kata diubah ke dalam bentuk array. 3. Membandingkan kata yang ada di array dengan kata pada stopwords. 4. Proses penghilangan akan dilakukan jika ditemukan kata yang sama pada array dengan yang ada di stopwords. Sedangkan penghilangan stopwords tidak dilakukan jika tidak terdapat kesamaan kata pada array dan pada stopwords. 5. Proses penghilangan stopwords selesai. Seperti pada Gambar 3.3. Mulai Data Jurnal yang telah melewati proses text processing Mengubah kata yang ada ke dalam bentuk array Membandingkan kata yang ada di array dengan yang ada di stopwords Sesuai? Tidak dihapus Hapus Sisa kata Selesai tidak ya Gambar 3.3 Flowchart Proses Stopwords 27 3.2.1.3. Stemming Porter Stemmer Pada penelitian ini algoritma yang dipakai yaitu algoritma Porter Stemmer.Adapun langkah-langkah atau aturan yang ada dalam algoritma ini yaitu http:tartarus.orgmartinPorterStemmerdef.txt : 1. Kata-kata yang sudah mengalami penghilangan stopwords. 2. Remove plural suffixation yaitu menghapus dan mengganti akhiran kata berbentuk jamak -sses - ss, -ies - i, -ss - ss, -s - null kebentuk tunggal. 3. Remove verbal inflection. a Mengubah kata dalam bentuk continues atau participle kebentuk dasarnya. Akhiran –eed akan berubah menjadi ee jika kata mengandung huruf vokal konsonan berurutan. Pada akhiran –ed dan –ing, kata tidak akan mengalami perubahan jika kata tersebut memiliki satu huruf vokal. Akhiran –ed dan –ing akan dihapus jika kata memiliki lebih dari satu huruf vokal. b Continued for –ed and –ing rules. Tahap selanjutnya untuk akhiran –ed dan – ing.  Kata yang diakhiri oleh double letter akan diganti dengan single letter tidak berakhir dengan huruf l, s, z.  Jika kata diakhiri oleh huruf konsonan-vokal-konsonan secara berurutan bukan konsonan akhir w, x, y dan memiliki satu urutan vokal konsonan didalamnya, maka kata tersebut akan ditambahkan –e. 4. Akhiran -y diganti dengan –i jika dalam kata tersebut memiliki huruf vokal. 5. Peel one suffix off for multiple suffixes. Jika suatu kata memiliki akhiran ganda, maka kata tersebut akan diubah dengan akhiran tunggal. Pada langkah ini, akan dilakukan penghapusan akhiran jika pada kata tersebut memiliki huruf vokal- konsonan secara berurutan. Contohnya: relational - relate, conditional - condition. 6. Kata yang memiliki akhiran –icate, -icitii, -ical akan diubah menjadi –ic. Kata berakhiran –alize akan diganti menjadi –al. Kata berakhiran –active, -ful, -nes akan dihapus. Kata tersebut harus memiliki vokal-konsonan secara berurutan. 7. Delete last suffix. Sebuah akhiran akan dihapus jika kata tersebut memiliki dua huruf vokal-konsonan secara berurutan. Contohnya: allowance - allow, adjustment - adjust. 28 8. Remove –e. Jika sebuah kata memiliki dua vokal-konsonan secara berurutan konsonan akhir bukan w, x, y dan tidak diakhiri konsonan-vokal-konsonan secara berurutan, maka akhiran –e akan dihapus. 9. Reduction. Akhiran akan diganti menjadi satu huruf konsonan jika kata tersebut memiliki vokal-konsonan secara berurutan. Contohnya: controll - control. Seperti pada Gambar 3.4. Mulai Kata yang akan di stemming Cek term jamak “-sses”, “-ies”, “-ss”, “-s” Sesuai? Penghapusan dan mengganti term jamak ke bentuk tunggal - sses - - ss , -ies - -I , -ss - - s , -s - null ya Cek term dalam bentuk continues atau participle “-eed”, “-ed”, “-ing” tidak Sesuai? Penghapusan dan mengganti term ke bentuk dasar - eed - -ed , - ed - null, -i g - null Cek jika ada akhiran double letter dan pe a baha -e u tuk beberapa suffix tidak ya Ganti akhiran double letter ke single letter dan ta bahka -e u tuk beberapa suffix - at - - ate , -bl - -ble , -iz - - ize Sesuai? tidak P2 ya Cek jika ada akhira - y Sesuai? Ga ti akhira -y de ga - I P1 tidak ya Gambar 3.4 Flowchart Proses Stemming 29 P1 P2 Cek kata jika memiliki akhiran ganda huruf vokal konsonan secara berurutan Sesuai? Ganti akhiran ganda ke akhiran tunggal - atio al - -ate , - tio al - -tio ya Mengindeks huruf terakhir untuk membuang akhiran spesifik tidak Sesuai? Pemotongan imbuhan ya Mengindeks penultimate letter untuk membuang akhiran spesifik jika memiliki m 1 tidak Sesuai? Pemotongan imbuhan ya Cek kata jika memiliki huruf terakhir -e tidak Sesuai? Hapus huruf terakhir - e ya Cek jika ada duplikasi huruf pada akhir kata tidak Sesuai? Hapus satu huruf terakhir ya Kata dasar tidak Selesai Gambar 3.4 Flowchart Proses Stemminglanjutan 30 3.2.1.4. Focused Crawler Pada penelitian ini, focused crawler berfungsi untuk melakukan proses crawling dari sebuah halaman, menghitung bobot stem dan menghitung relevansi dari masing- masing jurnal. Jurnal yang sudah di-crawlingakan dimasukkan ke dalam tabel konten agar dapat melewati proses selanjutnya. Setelah proses crawling selesai, maka proses selanjutnya adalah melakukan pembobotan stem seperti pada Tabel 3.2. Pada Tabel 3.2, semua kata akan melewati proses stemming, dan akan memiliki bobot stem pada setiap kata. Contohnya, pada id_keyword nomor 1, kata „cell‟ memiliki bobot 9. Bobot stem tersebut didapat dari jurnal yang ada pada id_konten dimana kata „cell‟ dapat ditemukan sebanyak 9 kata. Kata yang ada pada keyword, diambil dari kata yang dimana memiliki bobot stem 30 tertinggi. Setelah proses pembobotan stem selesai, maka selanjutnya akan dilakukan proses normalisasi seperti pada Tabel 3.4. Flowchart proses normalisasi dapat dilihat pada Gambar 3.2. Pada Tabel 3.4, akan dilakukan proses normalisasi untuk menentukan bobot. Bobot dapat dicari dengan rumus yaitu : Contoh kata „cell‟ dapat dihitung : , 31 Mulai Kata dasar keyword setelah melewati proses Stemming Hitung frekuensi kata wi Tentukan jumlah nilai kata terbesar wmax Hitung nilai bobot kata w=wiwmax Bobot kata keyword Selesai Gambar 3.5 Flowchart Proses Normalisasi 32 Tabel 3.4 Proses Normalisasi No Id Konten Normalisasi 1 1 Keyword Wi Wmax W = WiWmax adenocarcinoma cell scc xenograft region distribut cto fdg cuatsm necrot origin intratumor high compar overlap accumul live deriv adduct colon cancer cucuatsm characterist pimonidazol tumor occur studi observ lung dualtrac 9 9 8 8 7 6 5 4 4 4 3 3 3 3 3 3 2 2 2 2 2 2 2 2 2 2 2 2 2 1 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 1 1 0.88888888888889 0.88888888888889 0.77777777777778 0.66666666666667 0.55555555555556 0.44444444444444 0.44444444444444 0.44444444444444 0.33333333333333 0.33333333333333 0.33333333333333 0.33333333333333 0.33333333333333 0.33333333333333 0.22222222222222 0.22222222222222 0.22222222222222 0.22222222222222 0.22222222222222 0.22222222222222 0.22222222222222 0.22222222222222 0.22222222222222 0.22222222222222 0.22222222222222 0.22222222222222 0.22222222222222 0.11111111111111 33 Jika bobot keyword dari suatu kata sudah dihitung, maka selanjutnya akan ditentukan nilai relevansinya seperti pada tabel 3.5. Flowchart relevansi dapat dilihat pada Gambar 3.6. Mulai Nilai pada proses normalisasi Membandingkan masing-masing jurnal Ambil kata yang sama beserta nilai bobotnya Hitung total bobot dari masing-masing jurnal wkt dan wkp Hitung relevansi Nilai relevansi Selesai Gambar 3.6 Flowchart Menghitung Relevansi 34 Tabel 3.5 Tabel menentukan nilai relevansi Keyword Topik 1 adenocarcinoma=9 cell=9 scc=8 xenograft=8 region=7 distribut=6 cto=5 fdg=4 cuatsm=4 necrot=4 origin=3 intratumor=3 high=3 compar=3 overlap=3 accumul=3 live=3 deriv=2 adduct=2 colon=2 cancer=2 cucuatsm=2 characterist=2 pimonidazol=2 tumor=2 occur=2 studi=2 observ=2 lung=2 dualtrac=1 Keyword Page2 Ffphpa=12 uptak=10 amino=8 acid=8 radiotrac=5 ffet=4 imag=4 studi=4 prepar=3 cancer=3 pet=3 emt=3 compar=3 min=2 crosscoupl=2 asc=2 pdmediat=2 suvmin=2 maximum=2 transport=2 reach=2 cell=2 evalu=2 small=2 anim=2 reaction=2 high=2 radiochem=2 inhibit=2 cellular=2 Keyword Topik Sama cell=9 high=3 compar=3 cancer=2 studi=2 Keyword Page Sama cell=2 high=2 compar=3 cancer=3 studi=4 sama 2.1111111111111 sama 1.1666666666667 12.222222222222 148.84 8.6666666666667 75.099 √ 105.7252 Relevansi 0.023251748251748 Pada Tabel 3.5, akan diketahui nilai relevansi dengan membandingkan masing- masing jurnal. Contohnya jurnal dengan id konten satu keyword topik 1 dengan id konten dua keyword page 2. Masing-masing jurnal akan diambil keyword yang sama yaitu:  Keyword topik sama : cell=9 high=3 compar=3 cancer=2 studi=2  Keyword page sama : cell=2 high=2 compar=3 cancer=3 studi=4 Dapat dilihat pada Tabel 3.5 masing-masing jurnal memiliki kata yang sama yaitu „cell‟, „high‟, „compar‟, „cancer‟, dan „studi‟. Setelah mendapatkan keyword 35 yang sama, maka akan dihitung bobot keyword topik dan bobot keyword page yang sama. Bobot maksimal dari keyword topik yaitu 5 = 2.1111111111 Setelah diketahui weight keyword topik sama sebesar 2.1111111111, maka akan dihitung juga weight keyword page sama. Bobot maksimal dari keyword page yaitu 12 1.16666666666667 Selanjutnya, untuk mendapatkan nilai relevansi, terlebih dahulu akan dihitung total dari weight keyword topik dengan total dari weight keyword page. Jumlah seluruh bobot term dari keyword topik yaitu: adenocarcinoma9 + cell9 +scc8 + xenograft8+ region7 + distribut6 + cto5 + fdg4 + cuatsm4 + necrot4 + origin3 + intratumor3 + hight3 + compar3 + overlap3 + accumul3 + live3 + deriv2 + adduct2 + colon2 + cancer2 + cucuatsm2 + characterist2 + pimonidazol2 + tumor2+ occur2 + studi2 + observ2 +lung2 + dualtrac1 = 110 36 Weight maksimal dari keyword topik yaitu 9 Jumlah bobot term dari keyword page yaitu : ffphpa12 + uptak10 + amino8 + acid8 + radiotrac5 + ffet4 + imag4 + studi4 + prepar3 + cancer3 + pet3 + emt3 + compar3 + min2 + crosscoupl2 + asc2 + pdmediat2 + suvmin2 + maximum2 + transport2 + reach2 +cell2 + evalu2 + small2 + anim2 + reaction2 + high2 + radiochem2 + inhibit2 + cellular2 = 104 Weight maksimal dari keyword page yaitu 12 Kemudian, setelah total dari masing-masing wkt weight keyword topic dan wkp weight keyword page dihitung, maka langkah selanjutnya akan dihitung nilai relevansinya. √ √ √ Dari hasil perhitungan di atas, diperoleh nilai relevansi antara id konten satu dengan id konten dua sebesar 0.023251748251748 . Tetapi, tidak menutup kemungkinan 37 jika dalam melakukan suatu perbandingan, konten tidak memiliki nilai relevansi. Seperti pada Tabel 3.6. Tabel 3.6Nilai relevansi = 0 Keyword Topik 1 droplet=5 structur=4 surfac=4 contactfre=3 process=3 review=2 discuss=2 probe=2 materi=2 deposit=2 evapor=2 quasi=2 tempor=1 resolv=1 rasterscan=1 spatial=1 assembl=1 artifici=1 biolog=1 conform=1 nucleat=1 diffract=1 techniqu=1 site=1 facilit=1 interpret=1 data=1 pin=1 solidif=1 orient=1 Keyword Page 2 larger=1 wavelength=1 narrow=1 order=1 interv=1 microstructur=1 modul=1 factor=1 dispers=1 gap=1 reson=1 develop=1 freeelectron=1 laser=1 uniqu=1 region=1 shorterwavelength=1 clarifi=1 contribut=1 characterist=1 studi=1 spectrum=2 observ=2 emiss=3 spontan=3 klystron=3 optic=3 harmon=5 higher=5 Keyword Topik Sama - Keyword Page Sama - sama sama 10.2 104.4 9.4 88.36 √ 95.88 Relevansi Pada Tabel 3.6, dilakukan perbandingan antara id konten satu dengan id konten dua. Hasil dari perbandingannya tidak memiliki keyword topik sama dan keyword page sama. Hal tersebut disebabkan karena kata yang ada pada keyword topik satu tidak ada ditemukan pada keyword page dua. Weight keyword topic sama dan weight keyword page sama tidak dapat dihitung karena dari masing-masing 38 keyword tidak ditemukan persamaan kata. Sedangkan untuk total weight keyword topic dan weight keyword page dapat dihitung sebagai berikut. Jumlah seluruh bobot term dari keyword topik yaitu : droplet5 + structur4 +surfac4 + contactfre3+ process3 + review2 + discuss2 + probe2 + materi2 + deposit2 + evapor2 + quasi2 + tempor1 + resolv1 + rasterscan1 + spatial1 + assembl1 + artifici1 + biolog1 + conform1 + nucleat1 + diffract1 + techniqu1 + site1 + facilit1+ interpret1 + data1 + pin1 + solidif1 + orient1 = 51 Weight maksimal dari keyword topik yaitu 5 Jumlah bobot term dari keyword page yaitu : Larger1 + wavelength1 + narrow1 order1 + interv1 + microstructur1 + modul1 + factor1 + dispers1 + gap1 + reson1 + develop1 + freeelectron1 + laser1 + uniqu1 + region1 + shorterwavelength1 + clarifi1 + contribut1 + characterist1+ studi1 + spectrum2 + observ2 + emiss3 + spontan3 + klystron3 + optic3 + harmon5 + higher5 = 46 Weight maksimal dari keyword page yaitu 5 √ 39 √ Jadi, jika dibandingkan keyword topik satu dengan keyword page dua tidak memiliki hubungan relevansi = 0. Semakin tinggi nilai relevansi maka semakin dekat hubungan antara topik satu dengan topik yang lainya. 3.2.2. User Pada sistem ini, user akan melakukan pencarian dengan memasukkan keyword pada halaman pencarian.User dapat membaca jurnal dan mendapatkan jurnal yang memiliki relevansi dengan jurnal yang dibaca.Flowchart pencarian dapat dilihat pada Gambar 3.7. Mulai Pilih Judul jurnal Selesai Input keyword Jurnal dan relevansi Gambar 3.7 Flowchart Pencarian

3.3. Perancangan Sistem