Secara umum klasifikasi menggunakan naive bayes classifier pada focused crawler mempunyai tingkat akurasi sebesar 90, yang keakuratannya dapat berkurang apabila
terdapat kata kunci kesehatan pada artikel bukan kesehatan dikarenakan pada naive bayes classifier menghitung frekuensi kemunculan kata dan tidak melihat
keterkaitannya dengan kata yang lain. Untuk performa crawling menggunakan algoritma larger site first lebih besar dibandingkan dengan yang tidak
menggunakannya. Apabila semakin banyak thread maka semakin banyak pula hasil crawling yang didapatkan yang dibatasi oleh kemampuan komputer. Jika melebihi batas
kemampuan maka justru akan menurunkan performa. Dan dapat disimpulkan bahwa penggunaan jumlah thread yang efektif pada penelitian kali ini adalah menggunakan
500 thread. Pada pemakaian bandwith apabila semakin besar bandwith maka semakin tinggi hasil yang didapatkan. Untuk jumlah ukuran file tidak selalu berbanding lurus
dengan jumlah file yang didapatkan. Apabila semakin banyak thread yang dipakai maka tidak mempengaruhi penggunaan heap memory, melainkan dipengaruhi oleh inisialisasi
oleh pengguna. Dan apabila semakin banyak thread yang dipakai maka semakin banyak cpu usage yang dibutuhkan, yang dapat diminimalisir oleh penambahan jumlah heap
memory yang dipakai.
4.5. Implementasi Sistem Bagian Depan Front-End
Pada bagian ini dijabarkan tampilan serta prosedur operasional dari antarmuka front end yang telah dibangun yang hanya bisa diakses untuk OS Windows dan Linux yang
berbasis GUI.
4.5.1. Tampilan Antarmuka
Antarmuka front-end dalam penelitian ini dibangun atas dua macam yaitu untuk Crawler Master dan Crawler Slaves.
4.5.1.1.Tampilan Crawler Master
Antarmuka front-end crawler master dalam penelitian ini dibangun berdasarkan rancangan yang telah dijabarkan pada Bab 3 yaitu:
1 Konfigurasi Database
Pada bagian ini pengguna dapat meng-export SQL yang telah disediakan dan mengkonfigurasi pengaturan database yang akan
Universitas Sumatera Utara
digunakan pada saat crawling. Tampilannya dapat dilihat pada gambar 4.18.
Gambar 4.18. Tampilan ‘DB Config’ pada crawler master
2 Konfigurasi penggunaan mode terdistribusi
Pada bagian ini pengguna dapat memilih dapat menggunakan mode terdistribusi apa tidak dan mengkonfigurasi IP Address yang
digunakan slaves node. Tampilannya dapat dilihat pada gambar 4.19.
Gambar 4.19. Tampilan ‘Distributed Mode’ pada crawler master
3 Konfigurasi Crawler
Pada bagian ini pengguna dapat mengkonfigurasi crawler yang akan digunakan seperti storage, depth, thread dll dan sebagian fitur
Universitas Sumatera Utara
tersebut tidak dapat digunakan pada mode terdistribusi. Tampilannya dapat dilihat pada gambar 4.20.
Gambar 4.20. Tampilan ‘Crawler Config’ pada crawler master
4 Daftar seeds URL
Pada bagian ini pengguna dapat menynting seeds URL yang akan digunakan. Tampilannya dapat dilihat pada gambar 4.21.
Gambar 4.21. Tampilan ‘Seeds’ URL pada crawler master
4.5.1.2.Tampilan Crawler Slaves
Crawler slaves digunakan hanya jika pengguna ingin menggunakan mode terdistribusi. Pengguna dapat mengkonfigurasi IP Address yang
digunakan slaves node. Dan satu komputer dapat memiliki lebih dari satu node.
Universitas Sumatera Utara
Gambar 4.22. Tampilan ‘Crawler Config’ pada crawler master
4.5.2. Prosedur Operasional
4.5.2.1.Single Mode Non Distributed
Pengguna hanya perlu menjalankan crawler master mengkonfigurasi pada tab DB Config, Crawler Config, Seeds dan pada tab
“Distributed Mode
” uncheck “Use Distributed Mode”. Lalu pengguna dapat menyunting VM Argument
pada tombol “Edit VM Argument” yang tampilannya seperti pada gambar 4.23.
Gambar 4.23. Tampilan ‘Edit VM Argument’ pada crawler master
Apabila pengguna menggunakan OS non GUI maka dapat menjalankan file run.batrun.sh dan mengedit file crawler.cfg didalam folder
resources.
Universitas Sumatera Utara
4.5.2.2.Distributed Mode
Pertama sekali yang dilakukan adalah menjalankan slaves node pada setiap komputer yang ingin dijadikan slaves node dengan cara
menjalankan crawler slaves dan mengkonfigurasi setiap IP address yang akan digunakan
lalu tekan tombol “START” seperti pada gambar 4.24. Apabila pengguna menggunakan OS non GUI maka dapat menjalankan
file run.batrun.sh dan mengedit file ip.cfg didalam direktori “resources”.
Gambar 4.24. Contoh tampilan menjalankan node pada crawler slaves
Apabila berhasil maka akan muncul informasi jumlah node yang aktif seperti pada gambar 4.25.
Gambar 4.25. Contoh tampilan informasi node yang aktif
Selanjutnya pengguna menjalankan program crawler master dan mengkonfigurasi pada tab
“DB Config”, “Crawler Config”, “Seeds” dan pada tab
“Distributed Mode: pastikan check “Use Distributed Mode” dan isi IP address slaves yang digunakan lalu tekan tombol
“START” seperti pada gambar 4.26. Apabila pengguna menggunakan OS non GUI maka
dapat menjalankan file run.batrun.sh dan mengedit file crawler.cfg dan ip.cfg didalam direktori
“resources”.
Universitas Sumatera Utara
Gambar 4.26. Contoh tampilan menjalankan crawler master pada ‘Distributed Mode’
Lalu apabila sukses maka slaves node akan mulai meng-crawling halaman web seperti pada gambar 4.27.
Gambar 4.27. Contoh tampilan sedang melakukan crawling
Universitas Sumatera Utara
BAB 5 KESIMPULAN DAN SARAN