Tahapan Percobaan Sistem Perancangan Sistem Bagian Depan Front End

antara topik kesehatan atau tidak. Jika hasil yang didapatkan lebih condong ke topik kesehatan maka artikel tersebut akan disimpan.

3.2.2. Tahapan Percobaan Sistem

Tahapan ini bertujuan untuk menghitung tingkat akurasi algoritma Naive Bayes Classifier dengan menggunakan dataset yang telah didapatkan, mencari jumlah thread yang optimal dan pengaruh penggunaan algoritma larger sites first pada page ordering. Untuk jumlah thread yang optimal percobaan dilakukan dengan mengobservasi penggunaan memory dan cpu setiap thread nya. Percobaan dilakukan dengan metode page ordering Larger Sites First dan tanpa Larger Sites First. Percobaan juga dilakukan untuk jumlah bandwidth yang berbeda. Tabel 3.4 menunjukkan percobaan yang dilakukan. Tabel 3.4 Rancangan percobaaan thread dan bandwith No. Jumlah Thread Bandwidth With LSF Without LSF Lama Crawling 1. 100 2 Mbps   60 menit 2 200 2 Mbps   60 menit 3 500 2 Mbps   60 menit 4 1000 2 Mbps   60 menit 5 2000 2 Mbps   60 menit 6 100 3 Mbps   60 menit 7 200 3 Mbps   60 menit 8 500 3 Mbps   60 menit 9 1000 3 Mbps   60 menit 10 2000 3 Mbps   60 menit 11 100 5 Mbps   60 menit 12 200 5 Mbps   60 menit 13 500 5 Mbps   60 menit 14 1000 5 Mbps   60 menit 15 2000 5 Mbps   60 menit

3.2.3. Perancangan Sistem Bagian Depan Front End

Perancangan sistem bagian depan front-end pada penelitian ini menggunakan Graphical User Interface GUI. Sistem front-end dirancang untuk membantu pengguna dalam mengkonfigurasi crawler yang akan dilakukan. GUI dirancang dalam 2 jenis yaitu untuk crawler master dan crawler slaves. Universitas Sumatera Utara 1 Crawler Master Crawler master dapat mengkonfigurasi database yang akan dipakai, mulai dari nama host, username, password, nama database dan dapat meng-export SQL Structured Query Language yang telah disediakan kedalam database pengguna. Gambaran rancangan tampilan konfigurasi database dapat dilihat pada gambar 3.4. Gambar 3.4. Konfigurasi database Crawler master Crawler master juga dapat mengkonfigurasi distributed mode seperti menambahkan ip address crawler slaves yang rancangannya dapat dilihat pada gambar 3.5. Gambar 3.5. Konfigurasi distributed mode Crawler master Universitas Sumatera Utara Crawler master dapat mengkonfigurasi crawler yang akan digunakan seperti direktori penyimpanan storage folder, kedalaman URL depth yang dihitung dari URL root yang ilustrasinya dapat dilihat pada gambar 3.6, crawler dapat di resume URL yang telah dikunjungi akan disimpan dan dapat dilanjutkan dilain waktu, menggunakan proxy, mengecek robots.txt pada setiap website, menggunakan algoritma larger site first, jumlah thread yang akan digunakan, menentukan topik focused crawler, mem-filter URL, konten dan minimum termkata yang dikunjungi dan menentukan lama durasi crawler yang dapat dilihat pada gambar 3.7. Gambar 3.6. Ilustrasi crawler depth Gambar 3.7. Konfigurasi Crawler Crawler master Universitas Sumatera Utara Crawler master dapat meng-edit seeds URL yang akan di-crawl pada tab seeds yang rancangannya dapat dilihat pada gambar 3.8. Gambar 3.8. Konfigurasi Seeds Crawler master Selain itu pengguna juga dapat menyunting VM argument yang akan dipakai pada tombol “Edit VM Argument” dan melihat info dari aplikasi crawler pada tab ‘Info’. 2 Crawler Slaves Pada mode terdistribusi crawler slaves dapat mengkonfigurasi setiap ip address yang ingin dipakai serta melihat info aplikasi. Gambaran rancangan tampilan crawler slaves dapat dilihat pada gambar 3.9. Gambar 3.9. Konfigurasi pada crawler slaves Universitas Sumatera Utara

BAB 4 IMPLEMENTASI DAN PENGUJIAN

Pada bab ini membahas tentang hasil site ordering mengunakan Larger Site First Algorithm, hasil dari proses crawling dan hasil dari proses content extraction yang diperoleh dari implementasi Larger Site First Algorithm dan Naive Bayes Classifier dalam Focused Crawler terdistribusi yang sesuai dengan analisis dan perancangan yang telah dibahas pada Bab 3.

4.1. Hasil Site Ordering

Bagian ini dijabarkan hasil yang diperoleh dari site ordering menggunakan algoritma larger site first dilakukan crawler master dengan menghitung jumlah link yang ada pada halaman tersebut dan mengurutkannya mulai dari yang terbesar sampai yang terkecil, jika terdapat URL yang tidak dapat dikunjungi atau URL yang melebihi batas waktu request timeout maka URL tersebut dinyatakan tidak memiliki link link=0 yang mengakibatkan URL tersebut berada di urutan terbawah. Pseudocode dapat dilihat pada gambar 4.1. Untuk hasil pengurutannya dapat dilihat pada tabel 4.1 Tabel 4.1 Hasil Site Ordering menggunakan Larger Site First Algorithm Sebelum Sesudah http:anakkitasehat.com http:health.detik.com http:artikelkesehatananak.com http:www.vemale.comtagskesehata n-anak http:artikeltentangkesehatan.com http:bidanku.com http:bebeclub.co.idarticle http:www.depkes.go.id http:bidanku.com https:www.klikdokter.com http:dechacare.com http:dechacare.com http:dikes.badungkab.go.idindex.phpars ip-artikel http:www.posyandu.org http:doktersehat.com http:duniaanak.org Universitas Sumatera Utara