antara topik kesehatan atau tidak. Jika hasil yang didapatkan lebih condong ke topik kesehatan maka artikel tersebut akan disimpan.
3.2.2. Tahapan Percobaan Sistem
Tahapan ini bertujuan untuk menghitung tingkat akurasi algoritma Naive Bayes Classifier dengan menggunakan dataset yang telah didapatkan, mencari jumlah
thread yang optimal dan pengaruh penggunaan algoritma larger sites first pada page ordering.
Untuk jumlah thread yang optimal percobaan dilakukan dengan mengobservasi penggunaan memory dan cpu setiap thread nya. Percobaan dilakukan dengan
metode page ordering Larger Sites First dan tanpa Larger Sites First. Percobaan juga dilakukan untuk jumlah bandwidth yang berbeda. Tabel 3.4 menunjukkan
percobaan yang dilakukan.
Tabel 3.4 Rancangan percobaaan thread dan bandwith No.
Jumlah Thread
Bandwidth With LSF
Without LSF Lama
Crawling
1. 100
2 Mbps
60 menit
2 200
2 Mbps
60 menit
3 500
2 Mbps
60 menit
4 1000
2 Mbps
60 menit
5 2000
2 Mbps
60 menit
6 100
3 Mbps
60 menit
7 200
3 Mbps
60 menit
8 500
3 Mbps
60 menit
9 1000
3 Mbps
60 menit
10 2000
3 Mbps
60 menit
11 100
5 Mbps
60 menit
12 200
5 Mbps
60 menit
13 500
5 Mbps
60 menit
14 1000
5 Mbps
60 menit
15 2000
5 Mbps
60 menit
3.2.3. Perancangan Sistem Bagian Depan Front End
Perancangan sistem bagian depan front-end pada penelitian ini menggunakan Graphical User Interface GUI. Sistem front-end dirancang untuk membantu
pengguna dalam mengkonfigurasi crawler yang akan dilakukan. GUI dirancang dalam 2 jenis yaitu untuk crawler master dan crawler slaves.
Universitas Sumatera Utara
1 Crawler Master
Crawler master dapat mengkonfigurasi database yang akan dipakai, mulai dari nama host, username, password, nama database dan dapat
meng-export SQL Structured Query Language yang telah disediakan kedalam database pengguna. Gambaran rancangan tampilan konfigurasi
database dapat dilihat pada gambar 3.4.
Gambar 3.4. Konfigurasi database Crawler master
Crawler master juga dapat mengkonfigurasi distributed mode seperti menambahkan ip address crawler slaves yang rancangannya dapat
dilihat pada gambar 3.5.
Gambar 3.5. Konfigurasi distributed mode Crawler master
Universitas Sumatera Utara
Crawler master dapat mengkonfigurasi crawler yang akan digunakan seperti direktori penyimpanan storage folder, kedalaman URL depth
yang dihitung dari URL root yang ilustrasinya dapat dilihat pada gambar 3.6, crawler dapat di resume URL yang telah dikunjungi akan disimpan
dan dapat dilanjutkan dilain waktu, menggunakan proxy, mengecek robots.txt pada setiap website, menggunakan algoritma larger site first,
jumlah thread yang akan digunakan, menentukan topik focused crawler, mem-filter URL, konten dan minimum termkata yang dikunjungi dan
menentukan lama durasi crawler yang dapat dilihat pada gambar 3.7.
Gambar 3.6. Ilustrasi crawler depth
Gambar 3.7. Konfigurasi Crawler Crawler master
Universitas Sumatera Utara
Crawler master dapat meng-edit seeds URL yang akan di-crawl pada tab seeds yang rancangannya dapat dilihat pada gambar 3.8.
Gambar 3.8. Konfigurasi Seeds Crawler master
Selain itu pengguna juga dapat menyunting VM argument yang akan dipakai pada tombol “Edit VM Argument” dan melihat info dari aplikasi
crawler pada tab ‘Info’.
2 Crawler Slaves
Pada mode terdistribusi crawler slaves dapat mengkonfigurasi setiap ip address yang ingin dipakai serta melihat info aplikasi. Gambaran
rancangan tampilan crawler slaves dapat dilihat pada gambar 3.9.
Gambar 3.9. Konfigurasi pada crawler slaves
Universitas Sumatera Utara
BAB 4 IMPLEMENTASI DAN PENGUJIAN
Pada bab ini membahas tentang hasil site ordering mengunakan Larger Site First Algorithm, hasil dari proses crawling dan hasil dari proses content extraction yang
diperoleh dari implementasi Larger Site First Algorithm dan Naive Bayes Classifier dalam Focused Crawler terdistribusi yang sesuai dengan analisis dan perancangan yang
telah dibahas pada Bab 3.
4.1. Hasil Site Ordering
Bagian ini dijabarkan hasil yang diperoleh dari site ordering menggunakan algoritma larger site first dilakukan crawler master dengan menghitung jumlah link yang ada pada
halaman tersebut dan mengurutkannya mulai dari yang terbesar sampai yang terkecil, jika terdapat URL yang tidak dapat dikunjungi atau URL yang melebihi batas waktu
request timeout maka URL tersebut dinyatakan tidak memiliki link link=0 yang mengakibatkan URL tersebut berada di urutan terbawah. Pseudocode dapat dilihat pada
gambar 4.1. Untuk hasil pengurutannya dapat dilihat pada tabel 4.1
Tabel 4.1 Hasil Site Ordering menggunakan Larger Site First Algorithm Sebelum
Sesudah
http:anakkitasehat.com http:health.detik.com
http:artikelkesehatananak.com http:www.vemale.comtagskesehata
n-anak http:artikeltentangkesehatan.com
http:bidanku.com http:bebeclub.co.idarticle
http:www.depkes.go.id http:bidanku.com
https:www.klikdokter.com http:dechacare.com
http:dechacare.com http:dikes.badungkab.go.idindex.phpars
ip-artikel http:www.posyandu.org
http:doktersehat.com http:duniaanak.org
Universitas Sumatera Utara