BAB 4 IMPLEMENTASI DAN PENGUJIAN
Pada bab ini membahas tentang hasil site ordering mengunakan Larger Site First Algorithm, hasil dari proses crawling dan hasil dari proses content extraction yang
diperoleh dari implementasi Larger Site First Algorithm dan Naive Bayes Classifier dalam Focused Crawler terdistribusi yang sesuai dengan analisis dan perancangan yang
telah dibahas pada Bab 3.
4.1. Hasil Site Ordering
Bagian ini dijabarkan hasil yang diperoleh dari site ordering menggunakan algoritma larger site first dilakukan crawler master dengan menghitung jumlah link yang ada pada
halaman tersebut dan mengurutkannya mulai dari yang terbesar sampai yang terkecil, jika terdapat URL yang tidak dapat dikunjungi atau URL yang melebihi batas waktu
request timeout maka URL tersebut dinyatakan tidak memiliki link link=0 yang mengakibatkan URL tersebut berada di urutan terbawah. Pseudocode dapat dilihat pada
gambar 4.1. Untuk hasil pengurutannya dapat dilihat pada tabel 4.1
Tabel 4.1 Hasil Site Ordering menggunakan Larger Site First Algorithm Sebelum
Sesudah
http:anakkitasehat.com http:health.detik.com
http:artikelkesehatananak.com http:www.vemale.comtagskesehata
n-anak http:artikeltentangkesehatan.com
http:bidanku.com http:bebeclub.co.idarticle
http:www.depkes.go.id http:bidanku.com
https:www.klikdokter.com http:dechacare.com
http:dechacare.com http:dikes.badungkab.go.idindex.phpars
ip-artikel http:www.posyandu.org
http:doktersehat.com http:duniaanak.org
Universitas Sumatera Utara
http:duniaanak.org http:www.informasikesehatan.my.id
http:family.fimela.com https:anakbayibalita.wordpress.com
http:health.detik.com http:family.fimela.com
http:ibuhamil.com http:bebeclub.co.idarticle
http:webkesehatan.com http:artikeltentangkesehatan.com
http:www.4life-4transferfactor.com http:artikelkesehatananak.com
http:www.alodokter.com http:www.infoibu.com
http:www.anakdanbalita.net https:www.progoldparentingclub.co.id
http:www.beritahu.me http:www.infoanak.com
http:www.caramedis.com http:www.caramedis.com
http:www.depkes.go.id https:www.ibudanbalita.com
http:www.doktergratis.org http:webkesehatan.com
http:www.infoanak.com http:www.beritahu.me
http:www.infoibu.com http:dikes.badungkab.go.idindex.phpars
ip-artikel http:www.informasikesehatan.my.id https:www.tanyadok.com
http:www.kesehatan-ibuanak.net http:www.anakdanbalita.net
http:www.posyandu.org http:ibuhamil.com
http:www.vemale.comtagskesehata n-anak
http:www.4life-4transferfactor.com https:anakbayibalita.wordpress.com
https:www.dancow.co.id https:www.dancow.co.id
http:www.doktergratis.org https:www.ibudanbalita.com
http:www.alodokter.com https:www.klikdokter.com
http:www.kesehatan-ibuanak.net https:www.progoldparentingclub.co.
id http:anakkitasehat.com
https:www.tanyadok.com http:doktersehat.com
Gambar 4.1. Pseudocode site ordering
Inisialisasi seeds URL yang tersedia
FOR setiap URL
IF tidak ada respon
Link = 0
ELSE Link = jumlah link yang ada
Urut URL berdasarkan link yang terbanyak
Universitas Sumatera Utara
4.2. Hasil Crawling