Tampilan Antarmuka Prosedur Operasional

Secara umum klasifikasi menggunakan naive bayes classifier pada focused crawler mempunyai tingkat akurasi sebesar 90, yang keakuratannya dapat berkurang apabila terdapat kata kunci kesehatan pada artikel bukan kesehatan dikarenakan pada naive bayes classifier menghitung frekuensi kemunculan kata dan tidak melihat keterkaitannya dengan kata yang lain. Untuk performa crawling menggunakan algoritma larger site first lebih besar dibandingkan dengan yang tidak menggunakannya. Apabila semakin banyak thread maka semakin banyak pula hasil crawling yang didapatkan yang dibatasi oleh kemampuan komputer. Jika melebihi batas kemampuan maka justru akan menurunkan performa. Dan dapat disimpulkan bahwa penggunaan jumlah thread yang efektif pada penelitian kali ini adalah menggunakan 500 thread. Pada pemakaian bandwith apabila semakin besar bandwith maka semakin tinggi hasil yang didapatkan. Untuk jumlah ukuran file tidak selalu berbanding lurus dengan jumlah file yang didapatkan. Apabila semakin banyak thread yang dipakai maka tidak mempengaruhi penggunaan heap memory, melainkan dipengaruhi oleh inisialisasi oleh pengguna. Dan apabila semakin banyak thread yang dipakai maka semakin banyak cpu usage yang dibutuhkan, yang dapat diminimalisir oleh penambahan jumlah heap memory yang dipakai.

4.5. Implementasi Sistem Bagian Depan Front-End

Pada bagian ini dijabarkan tampilan serta prosedur operasional dari antarmuka front end yang telah dibangun yang hanya bisa diakses untuk OS Windows dan Linux yang berbasis GUI.

4.5.1. Tampilan Antarmuka

Antarmuka front-end dalam penelitian ini dibangun atas dua macam yaitu untuk Crawler Master dan Crawler Slaves. 4.5.1.1.Tampilan Crawler Master Antarmuka front-end crawler master dalam penelitian ini dibangun berdasarkan rancangan yang telah dijabarkan pada Bab 3 yaitu: 1 Konfigurasi Database Pada bagian ini pengguna dapat meng-export SQL yang telah disediakan dan mengkonfigurasi pengaturan database yang akan Universitas Sumatera Utara digunakan pada saat crawling. Tampilannya dapat dilihat pada gambar 4.18. Gambar 4.18. Tampilan ‘DB Config’ pada crawler master 2 Konfigurasi penggunaan mode terdistribusi Pada bagian ini pengguna dapat memilih dapat menggunakan mode terdistribusi apa tidak dan mengkonfigurasi IP Address yang digunakan slaves node. Tampilannya dapat dilihat pada gambar 4.19. Gambar 4.19. Tampilan ‘Distributed Mode’ pada crawler master 3 Konfigurasi Crawler Pada bagian ini pengguna dapat mengkonfigurasi crawler yang akan digunakan seperti storage, depth, thread dll dan sebagian fitur Universitas Sumatera Utara tersebut tidak dapat digunakan pada mode terdistribusi. Tampilannya dapat dilihat pada gambar 4.20. Gambar 4.20. Tampilan ‘Crawler Config’ pada crawler master 4 Daftar seeds URL Pada bagian ini pengguna dapat menynting seeds URL yang akan digunakan. Tampilannya dapat dilihat pada gambar 4.21. Gambar 4.21. Tampilan ‘Seeds’ URL pada crawler master 4.5.1.2.Tampilan Crawler Slaves Crawler slaves digunakan hanya jika pengguna ingin menggunakan mode terdistribusi. Pengguna dapat mengkonfigurasi IP Address yang digunakan slaves node. Dan satu komputer dapat memiliki lebih dari satu node. Universitas Sumatera Utara Gambar 4.22. Tampilan ‘Crawler Config’ pada crawler master

4.5.2. Prosedur Operasional

4.5.2.1.Single Mode Non Distributed Pengguna hanya perlu menjalankan crawler master mengkonfigurasi pada tab DB Config, Crawler Config, Seeds dan pada tab “Distributed Mode ” uncheck “Use Distributed Mode”. Lalu pengguna dapat menyunting VM Argument pada tombol “Edit VM Argument” yang tampilannya seperti pada gambar 4.23. Gambar 4.23. Tampilan ‘Edit VM Argument’ pada crawler master Apabila pengguna menggunakan OS non GUI maka dapat menjalankan file run.batrun.sh dan mengedit file crawler.cfg didalam folder resources. Universitas Sumatera Utara 4.5.2.2.Distributed Mode Pertama sekali yang dilakukan adalah menjalankan slaves node pada setiap komputer yang ingin dijadikan slaves node dengan cara menjalankan crawler slaves dan mengkonfigurasi setiap IP address yang akan digunakan lalu tekan tombol “START” seperti pada gambar 4.24. Apabila pengguna menggunakan OS non GUI maka dapat menjalankan file run.batrun.sh dan mengedit file ip.cfg didalam direktori “resources”. Gambar 4.24. Contoh tampilan menjalankan node pada crawler slaves Apabila berhasil maka akan muncul informasi jumlah node yang aktif seperti pada gambar 4.25. Gambar 4.25. Contoh tampilan informasi node yang aktif Selanjutnya pengguna menjalankan program crawler master dan mengkonfigurasi pada tab “DB Config”, “Crawler Config”, “Seeds” dan pada tab “Distributed Mode: pastikan check “Use Distributed Mode” dan isi IP address slaves yang digunakan lalu tekan tombol “START” seperti pada gambar 4.26. Apabila pengguna menggunakan OS non GUI maka dapat menjalankan file run.batrun.sh dan mengedit file crawler.cfg dan ip.cfg didalam direktori “resources”. Universitas Sumatera Utara Gambar 4.26. Contoh tampilan menjalankan crawler master pada ‘Distributed Mode’ Lalu apabila sukses maka slaves node akan mulai meng-crawling halaman web seperti pada gambar 4.27. Gambar 4.27. Contoh tampilan sedang melakukan crawling Universitas Sumatera Utara

BAB 5 KESIMPULAN DAN SARAN