Secara  umum  klasifikasi  menggunakan  naive  bayes  classifier  pada  focused  crawler mempunyai tingkat akurasi sebesar 90, yang  keakuratannya dapat berkurang apabila
terdapat  kata  kunci  kesehatan  pada  artikel  bukan  kesehatan  dikarenakan  pada  naive bayes  classifier  menghitung  frekuensi  kemunculan  kata  dan  tidak  melihat
keterkaitannya  dengan  kata  yang  lain.  Untuk  performa  crawling  menggunakan algoritma  larger  site  first  lebih  besar  dibandingkan  dengan  yang  tidak
menggunakannya.  Apabila  semakin  banyak  thread  maka  semakin  banyak  pula  hasil crawling yang didapatkan yang dibatasi oleh kemampuan komputer. Jika melebihi batas
kemampuan  maka  justru  akan  menurunkan  performa.  Dan  dapat  disimpulkan  bahwa penggunaan jumlah thread yang efektif pada penelitian kali ini adalah menggunakan
500 thread. Pada pemakaian bandwith apabila semakin besar bandwith maka semakin tinggi  hasil  yang didapatkan. Untuk jumlah ukuran file tidak selalu berbanding lurus
dengan jumlah file yang didapatkan. Apabila semakin banyak thread yang dipakai maka tidak mempengaruhi penggunaan heap memory, melainkan dipengaruhi oleh inisialisasi
oleh pengguna. Dan apabila semakin banyak thread yang dipakai maka semakin banyak cpu usage yang dibutuhkan, yang dapat diminimalisir oleh penambahan jumlah  heap
memory yang dipakai.
4.5. Implementasi Sistem Bagian Depan Front-End
Pada bagian ini dijabarkan tampilan serta prosedur operasional dari antarmuka front end yang  telah  dibangun  yang  hanya  bisa  diakses  untuk  OS  Windows  dan  Linux  yang
berbasis GUI.
4.5.1. Tampilan Antarmuka
Antarmuka front-end dalam  penelitian ini dibangun  atas dua macam  yaitu untuk Crawler Master dan Crawler Slaves.
4.5.1.1.Tampilan Crawler Master
Antarmuka  front-end  crawler  master  dalam  penelitian  ini  dibangun berdasarkan rancangan yang telah dijabarkan pada Bab 3 yaitu:
1 Konfigurasi Database
Pada  bagian  ini  pengguna  dapat  meng-export  SQL  yang  telah disediakan  dan  mengkonfigurasi  pengaturan  database  yang  akan
Universitas Sumatera Utara
digunakan pada saat crawling. Tampilannya dapat dilihat pada gambar 4.18.
Gambar 4.18. Tampilan ‘DB Config’ pada crawler master
2 Konfigurasi penggunaan mode terdistribusi
Pada  bagian  ini  pengguna  dapat  memilih  dapat  menggunakan mode  terdistribusi  apa  tidak  dan  mengkonfigurasi  IP  Address  yang
digunakan slaves node. Tampilannya dapat dilihat pada gambar 4.19.
Gambar 4.19. Tampilan ‘Distributed Mode’ pada crawler master
3 Konfigurasi Crawler
Pada bagian ini pengguna dapat  mengkonfigurasi crawler  yang akan  digunakan  seperti  storage,  depth,  thread  dll  dan  sebagian  fitur
Universitas Sumatera Utara
tersebut  tidak  dapat  digunakan  pada  mode  terdistribusi.  Tampilannya dapat dilihat pada gambar 4.20.
Gambar 4.20. Tampilan ‘Crawler Config’ pada crawler master
4 Daftar seeds URL
Pada bagian ini pengguna dapat menynting seeds URL yang akan digunakan. Tampilannya dapat dilihat pada gambar 4.21.
Gambar 4.21. Tampilan ‘Seeds’ URL pada crawler master
4.5.1.2.Tampilan Crawler Slaves
Crawler  slaves  digunakan  hanya  jika  pengguna  ingin  menggunakan mode  terdistribusi.  Pengguna  dapat  mengkonfigurasi  IP  Address  yang
digunakan slaves node. Dan satu komputer dapat memiliki lebih dari satu node.
Universitas Sumatera Utara
Gambar 4.22. Tampilan ‘Crawler Config’ pada crawler master
4.5.2. Prosedur Operasional
4.5.2.1.Single Mode Non Distributed
Pengguna  hanya  perlu  menjalankan  crawler  master  mengkonfigurasi pada tab DB Config, Crawler Config, Seeds dan pada tab
“Distributed Mode
”  uncheck  “Use  Distributed  Mode”.  Lalu  pengguna  dapat menyunting  VM  Argument
pada  tombol  “Edit  VM  Argument”  yang tampilannya seperti pada gambar 4.23.
Gambar 4.23. Tampilan ‘Edit VM Argument’ pada crawler master
Apabila pengguna menggunakan  OS non GUI maka dapat menjalankan file  run.batrun.sh  dan  mengedit  file  crawler.cfg  didalam  folder
resources.
Universitas Sumatera Utara
4.5.2.2.Distributed Mode
Pertama  sekali  yang  dilakukan  adalah  menjalankan  slaves  node  pada setiap  komputer  yang  ingin  dijadikan  slaves  node  dengan  cara
menjalankan crawler slaves dan mengkonfigurasi setiap IP address yang akan digunakan
lalu tekan tombol “START” seperti pada gambar 4.24. Apabila pengguna menggunakan  OS non GUI maka dapat menjalankan
file run.batrun.sh dan mengedit file ip.cfg didalam direktori “resources”.
Gambar 4.24. Contoh tampilan menjalankan node pada crawler slaves
Apabila berhasil maka akan muncul informasi jumlah node yang aktif seperti pada gambar 4.25.
Gambar 4.25. Contoh tampilan informasi node yang aktif
Selanjutnya  pengguna  menjalankan  program  crawler  master  dan mengkonfigurasi pada tab
“DB Config”, “Crawler Config”, “Seeds” dan pada tab
“Distributed Mode: pastikan check “Use Distributed Mode” dan isi IP address slaves yang digunakan lalu tekan tombol
“START” seperti pada gambar 4.26. Apabila pengguna menggunakan  OS non GUI maka
dapat menjalankan file run.batrun.sh dan mengedit file crawler.cfg dan ip.cfg didalam direktori
“resources”.
Universitas Sumatera Utara
Gambar 4.26. Contoh tampilan menjalankan crawler master pada ‘Distributed Mode’
Lalu  apabila  sukses  maka  slaves  node  akan  mulai  meng-crawling halaman web seperti pada gambar 4.27.
Gambar 4.27. Contoh tampilan sedang melakukan crawling
Universitas Sumatera Utara
BAB 5 KESIMPULAN DAN SARAN