Focused Crawler TINJAUAN PUSTAKA

10

2.2. Focused Crawler

Pada tahun 1999, Soumen Chakrabarti memperkenalkan focused crawler. Focused crawler berfungsi untuk menelusuri link yang mengarah pada page target dan berusaha semaksimal mungkin menghindari link yang tidak mengarah padapagetarget Maimunah Kuspriyanto, 2008. Focused crawler adalah teknik untuk mengunduhurldan konten dari halaman web. Pada penelitian ini url dan konten yang sudah diunduh akan secara otomatis masuk ke dalam database. Setelah selesai proses crawling,focused crawler juga akan menghitung bobot dan relevansi. Relevansi yang didapat akan menentukan jurnal terkait masing-masing jurnal. Hal tersebut akan menghemat penggunaan waktu dan sumber daya ketika melakukan pencarian jurnal. Apabila dalam suatu halaman web terdapat kata yang sesuai dengan kata kunci, maka halaman dianggap memiliki kecocokan dengan apa yang dicari oleh user Sulastri Zuliarso, 2010. Relevant Page Database Seed URL URL Queue Web Page Downloader Irrelevant Table Parser Extractor Relevance Calculator Topic Filter Topic Spesific Weight Table Irrelevant Relevant Internet Gambar 2.4 Arsitektur Focused Crawler Pal Anshika et al., 2009 11 Keterangan : 1. SeedURLs dan URL Queue Seed URLs bibit URL akan dimasukkan ke dalam antrian URL yang disebut URLQueue. Dalam antrian URL Queue akan dilakukan proses pengurutan berdasakan nilai link tertinggi pada URL yang didapat. URLakan dihapus jika proses crawling selesai. Proses ini berlanjut hingga URL dan URL Queue kosong. 2. Web Page Downloader Halaman yang ada pada URL Queue akan diunduh olehweb page downloader melalui internet. Halaman tersebut akan disimpan sementara di dalam cache. 3. Parser dan Extractor Halaman yang tersimpan dalam cache akan mengalami proses penguraian parser yaitu penghapusan tag html. Setelah itu dilakukan proses penghilangan imbuhan bentuk kata dasar oleh Porter Stemmer. Kata yang memiliki kata dasar yang sama kan digabungkan. 4. Topic Spesific Weight Table Topic Spesific Weight Table berfungsi sebagai pembanding untuk mendapatkan relevansi suatu halaman.Rumus menghitung bobot stem untuk mendapatkan Topic Spesific Weight Table yaitu: w weight = Bobot keyword wi= Bobot dari stem wmax= Nilai tertinggi dari bobot stem 5. Relevance Calculator Rumus untuk menghitung relevansi suatu halaman, yaitu: √ √ Keterangan : 12 6. Topic Filter Jika suatu halaman relevant, maka akan dimasukkan ke dalam relevant page database. Jika tidak relevant maka akan masuk ke dalam irrelevant table. 7. Relevant Page Database Relevant Page Database berisi halaman URL yang relevant. Halaman yang relevant akan dimasukkan ke dalam URLqueue.Bobot atau nilai dari URL yaitu nilai dari relevansi halaman tersebut. 8. Irrelevant Table Jika suatu halaman tidak relevant, maka akan dimasukkan ke dalam irrelevant table. Halaman yang tidak memiliki relevansi pada irrelevant table tidak akan melakukan proses crawling lagi.

2.3. Algoritma Porter Stemmer