Kesimpulan Saran KESIMPULAN DAN SARAN

BAB 5 KESIMPULAN DAN SARAN

Bab ini membahas tentang kesimpulan dari penerapan metode yang diajukan untuk perancangan Focused Web Crawler dengan sistem terdistribusi dan saran untuk pengembangan yang dapat dilakukan pada penelitian selanjutnya

5.1. Kesimpulan

Berdasarkan penerapan metode dari arsitektur umum yang dirancang Focused Web Crawler dengan sistem terdistribusi, didapatkan beberapa kesimpulan yakni: 1. Klasifikasi pada focused crawler menggunakan naive bayes yang mempunyai tingkat akurasi sebesar 90. 2. Keakuratan klasifikasi dapat berkurang apabila terdapat kata kunci kesehatan pada artikel bukan kesehatan dikarenakan pada naive bayes classifier menghitung frekuensi kemunculan kata dan tidak melihat keterkaitannya dengan kata yang lain. 3. Kecepatan pengambilan data dari web crawler dapat ditingkatkan dengan menggunakan sistem terdistribusi. 4. Kecepatan web crawler yang menggunakan algoritma larger site first lebih tinggi dibandingkan dengan yang tidak menggunakannya. 5. Semakin banyak thread maka semakin banyak pula hasil crawling yang didapatkan, yang dibatasi oleh kemampuan komputer. Jika melebihi batas kemampuan maka justru akan menurunkan kecepatannya. 6. Penggunaan jumlah thread yang efektif pada penelitian kali ini adalah menggunakan 500 thread. 7. Semakin banyak thread yang dipakai maka tidak mempengaruhi penggunaan heap memory, melainkan dipengaruhi oleh inisialisasi oleh pengguna Universitas Sumatera Utara 8. Semakin banyak thread yang dipakai maka semakin banyak cpu usage yang dibutuhkan, yang dapat diminimalisir oleh penambahan jumlah heap memory yang dipakai

5.2. Saran

Saran yang dapat penulis berikan untuk pengembangan selanjutnya adalah sebagai berikut: 1. Menggunakan algoritma site ordering yang mempunyai performa yang lebih tinggi. 2. Menggunakan algoritma klasifikasi yang mempunyai keakuratan yang lebih tinggi sehingga dapat mengakuratkan hasil pada artikel semi kesehatan. 3. Mengatasi jika meng-crawling halaman yang menggunakan javascript yang menyebabkan URL tidak berubah tetapi memiliki konten yang berbeda, dikarenakan crawling masih menggunakan URL sebagai acuannya. Universitas Sumatera Utara

BAB 2 LANDASAN TEORI