10
2.2. Focused Crawler
Pada tahun 1999, Soumen Chakrabarti memperkenalkan focused crawler. Focused crawler berfungsi untuk menelusuri link yang mengarah pada page target dan
berusaha semaksimal mungkin menghindari link yang tidak mengarah padapagetarget Maimunah Kuspriyanto, 2008. Focused crawler adalah teknik untuk
mengunduhurldan konten dari halaman web. Pada penelitian ini url dan konten yang sudah diunduh akan secara otomatis masuk ke dalam database.
Setelah selesai proses crawling,focused crawler juga akan menghitung bobot dan relevansi. Relevansi yang didapat akan menentukan jurnal terkait masing-masing
jurnal. Hal tersebut akan menghemat penggunaan waktu dan sumber daya ketika melakukan pencarian jurnal. Apabila dalam suatu halaman web terdapat kata yang
sesuai dengan kata kunci, maka halaman dianggap memiliki kecocokan dengan apa yang dicari oleh user Sulastri Zuliarso, 2010.
Relevant Page Database
Seed URL
URL Queue
Web Page Downloader
Irrelevant Table
Parser Extractor
Relevance Calculator
Topic Filter Topic Spesific
Weight Table
Irrelevant Relevant
Internet
Gambar 2.4 Arsitektur Focused Crawler Pal Anshika et al., 2009
11
Keterangan : 1.
SeedURLs dan URL Queue Seed URLs bibit URL akan dimasukkan ke dalam antrian URL yang disebut
URLQueue. Dalam antrian URL Queue akan dilakukan proses pengurutan berdasakan nilai link tertinggi pada URL yang didapat. URLakan dihapus jika
proses crawling selesai. Proses ini berlanjut hingga URL dan URL Queue kosong. 2.
Web Page Downloader Halaman yang ada pada URL Queue akan diunduh olehweb page downloader
melalui internet. Halaman tersebut akan disimpan sementara di dalam cache. 3.
Parser dan Extractor Halaman yang tersimpan dalam cache akan mengalami proses penguraian
parser yaitu penghapusan tag html. Setelah itu dilakukan proses penghilangan imbuhan bentuk kata dasar oleh Porter Stemmer. Kata yang memiliki kata dasar
yang sama kan digabungkan. 4.
Topic Spesific Weight Table Topic Spesific Weight Table berfungsi sebagai pembanding untuk mendapatkan
relevansi suatu halaman.Rumus menghitung bobot stem untuk mendapatkan Topic Spesific Weight Table yaitu:
w weight = Bobot keyword wi= Bobot dari stem
wmax= Nilai tertinggi dari bobot stem
5. Relevance Calculator
Rumus untuk menghitung relevansi suatu halaman, yaitu: √
√ Keterangan :
12
6. Topic Filter
Jika suatu halaman relevant, maka akan dimasukkan ke dalam relevant page database. Jika tidak relevant maka akan masuk ke dalam irrelevant table.
7. Relevant Page Database
Relevant Page Database berisi halaman URL yang relevant. Halaman yang relevant akan dimasukkan ke dalam URLqueue.Bobot atau nilai dari URL yaitu
nilai dari relevansi halaman tersebut. 8.
Irrelevant Table Jika suatu halaman tidak relevant, maka akan dimasukkan ke dalam irrelevant
table. Halaman yang tidak memiliki relevansi pada irrelevant table tidak akan melakukan proses crawling lagi.
2.3. Algoritma Porter Stemmer