Focused Web Crawler Dengan Sistem Terdistribusi

BAB 1
PENDAHULUAN

1.1. Latar Belakang
Perkembangan internet yang semakin pesat membuat masyarakat dapat memperoleh
informasi dengan cepat. Informasi yang disajikan pun beragam jenis, seperti kesehatan,
keuangan, teknologi dan lain sebagainya. Pemanfaatan informasi dari internet sangat
tepat di terapkan di Indonesia, karena masyarakat indonesia yang sudah terbiasa dengan
internet. Dimana menurut siaran pers yang dikemukakan oleh Asosiasi Penyelenggara
Jasa Internet Indonesia (APJII), di Tahun 2014 pengguna internet di Indonesia
mencapai 88,1 juta atau setara dengan 34,9% dari jumlah penduduk Indonesia (APJII,
2015).
Salah satu pemanfaatan informasi dari internet yang dapat diterapkan di Indonesia
adalah sebagai salah satu sumber informasi kesehatan. Dengan jumlah artikel kesehatan
di internet yang terus meningkat, maka internet dapat menjadi sumber informasi
kesehatan yang cost effective atau berbiaya murah.
Mengingat beragamnya jenis informasi yang terdapat di situs-situs di internet, maka
dibutuhkan suatu mekanisme mengumpulkan informasi kesehatan yang akurat dan
efisien.
Pengumpulan artikel dari internet dapat dilakukan dengan menggunakan metode
mesin crawler. Mesin crawler atau disebut juga dengan spider web adalah sebuah

program yang melintasi struktur HTML dari web, dimulai dari sebuah alamat awal
(seed) dan secara rekursif mengunjungi alamat web di dalam halaman web. Penelitian
terkait dengan algoritma mesin crawler terus dilakukan oleh banyak peneliti. Pada
tahun 2014, Rashmi Janbandhu, Prashant Dahiwale dan M. M. Raghuwanshi mereka
mengungkapkan bahwa Focused Crawling Algorithm mempunyai kelebihan daripada
algoritma yang lainnya, dimana algoritma ini mempunyai response time yang paling

Universitas Sumatera Utara

2

kecil daripada yang lain. Focused Crawling algorithm adalah algoritma Crawler yang
akan mengambil data dengan spesifikasi tertentu, misalkan dengan topik ‘kesehatan’,
maka crawler hanya akan mengambil halaman web yang hanya berhubungan dengan
topik kesehatan. Algoritma ini akan mencari kesamaan dari halaman yang sedang dicrawl dengan query yang diberikan (Chakrabarti, et al., 1999). Pemilihan urutan alamat

situs atau page ordering juga mempengaruhi performa dari suatu web crawler . Dimana
pada penelitian yang dilakukan oleh Ricardo Baeza-Yates, Mauricio Marin, Carlos
Castillo, Andrea Rodriguez pada tahun 2005 mengungkapkan metode Larger-SitesFirst terbukti mempunyai performa yang lebih baik dari algoritma lainnya. Algoritma


ini mengurutkan website yang akan di-crawl berdasarkan halaman yang dimiliki dari
terbanyak sampai yang terkecil.
Berdasarkan hal ini, penerapan algoritma focused crawling dengan metode Larger
Sites First untuk page ordering dapat diterapkan untuk pengumpulan artikel kesehatan

dari internet dengan response time lebih baik. Tahapan pengumpulan artikel kesehatan
dengan algoritma focused

crawler

juga

meliputi algoritma ekstraksi dan

pengklasifikasian artikel. Ekstraksi artikel dilakukan untuk dapat mengetahui isi
kandungan artikel sehingga artikel dapat di klasifikasikan apakah termasuk artikel
kesehatan atau bukan. Algoritma klasifikasi yang digunakan yaitu algoritma Naive
Bayes Classifier.

Peningkatan performa mesin crawler juga dapat dilakukan dengan cara

perancangan mesin crawler terdistribusi dan juga memanfaatkan penggunaan
multithread. Beberapa penelitian terdahulu telah membuktikan bahwa sistem

terdistribusi dapat meningkatkan performa dari suatu mesin crawler dan penggunaan
thread dengan jumlah tertentu juga dapat meningkatkan efisiensi waktu pengumpulan.

Berdasarkan latar belakang tersebut, pada skripsi ini penulis merancang sebuah
“Focused Web Crawler dengan Sistem Terdistribusi”. Penelitian ini dilakukan untuk
mendapatkan focused crawler dengan sistem terdistribusi yang memiliki performa yang
tinggi dengan menggunakan Naive Bayes Classifier (NBC), algoritma Larger-SitesFirst dalam page ordering dan penggunaan multithread yang optimal.

Universitas Sumatera Utara

3

1.2. Rumusan Masalah
Adapun rumusan masalah pada penelitian ini adalah:





Bagaimana cara mesin crawler mengumpulkan artikel khusus di bidang kesehatan?
Bagaimana cara meningkatkan kecepatan pengambilan data dari web crawler
dengan sistem terdistribusi?

1.3. Tujuan Penelitian
Tujuan utama yang ingin dicapai pada penelitian ini adalah menghasilkan focused web
crawler terdistribusi untuk mengumpulkan artikel kesehatan.

1.4. Batasan Masalah
Dalam melakukan penelitian ini, peneliti membatasi ruang masalah yang akan diteliti.
Batasan-batasan masalah yang digunakan adalah :
1. Seeds awal yang digunakan sebanyak 32 URL yang merupakan situs berbahasa
Indonesia
2. Topik yang digunakan adalah kesehatan.
3. Konten yang diambil merupakan artikel.
4. Dataset kesehatan untuk klasifikasi diacu dari www.idai.or.id, www.depkes.go.id
dan www.kateglo.com.
5. Crawler tidak akan meng-crawl external link dari URL seeds.
6. Jumlah node yang digunakan untuk sistem terdistribusi adalah satu master dan 4

slaves.

1.5. Manfaat Penelitian
Manfaat yang diperoleh dari penelitian ini adalah:
1. Menghasilkan suatu metode untuk pengumpulan artikel kesehatan berbahasa
indonesia.
2. Mampu mengintegrasikan hasil penelitian peneliti lain untuk membangun sebuah
focused web crawler yang efisien.

Universitas Sumatera Utara

4

1.6. Metodologi Penelitian
Tahapan-tahapan yang akan dilakukan dalam pelaksanaan penelitian ini adalah sebagai
berikut :
1. Studi Literatur
Tahap ini dilaksanakan untuk mengumpulkan dan mempelajari informasiinformasi yang diperoleh dari buku, jurnal dan berbagai sumber referensi lain yang
berkaitan dengan penelitian seperti focused web crawler , Naive Bayyes Classifier,
Sistem Terditribusi, Multi Thread, Larger Sites First.


2. Analisis Permasalahan
Pada tahap ini dilakukan analisis terhadap berbagai informasi yang telah diperoleh
dari berbagai sumber yang terkait dengan penelitian agar didapatkan metode yang tepat
untuk menyelesaikan masalah dalam penelitian ini.
3. Perancangan Sistem
Tahap ini dilakukan perancangan sistem untuk menyelesaikan permasalahan yang
terdapat di dalam tahap analisis. Kemudian dilanjutkan dengan mengimplementasikan
hasil analisis dan perancangan ke dalam sistem.
4. Implementasi dan Pengujian
Pada tahap ini dilakukan implementasi ke dalam kode sesuai dengan analisis dan
perancangan yang telah dilakukan pada tahap sebelumnya. Dan dilakukan pengujian
terhadap hasil yang didapatkan melalui implementasi algoritma Larger Sites First dan
Naive Bayes Classifier dalam Focused Crawler terdistribusi.

5. Analisis dan Pengambilan Kesimpulan
Pada tahap ini dilakukan analisis data yang didapatkan dari implementasi algoritma
Larger Sites First dan Naive Bayes Classifier dalam Focused Crawler terdistribusi dan

menyipulkan hasil analisis tersebut.


1.7. Sistematika Penulisan
Sistematika penulisan dari skripsi ini terdiri atas lima bagian utama sebagai berikut:
Bab 1: Pendahuluan

Universitas Sumatera Utara

5

Bab ini berisi latar belakang dari penelitian yang dilaksanakan, rumusan masalah, tujuan
penelitian, batasan masalah, manfaat penelitian, metodologi penelitian, serta
sistematika penulisan.

Bab 2: Landasan Teori
Bab ini berisi teori-teori yang diperlukan untuk memahami permasalahan yang dibahas
pada penelitian ini. Teori-teori yang berhubungan dengan Web Crawler , Focused
Crawling Algorithm, Larger Site-First, Multithreading, Naive Bayes Classifier dan

sistem terdistribusi akan dibahas pada bab ini.


Bab 3: Analisis dan Perancangan
Bab ini menjelaskan tentang analisis dan perancangan sistem yang bangun untuk
focused crawler dengan sistem terdistribusi. Adapun dua tahapan yang dibahas pada

bab ini yaitu tahap analisis dan tahap perancangan sistem. Pada analisis sistem meliputi
kebutuhan perangkat lunak dan perangkat kerasdan pada perancangan sistem meliputi
tahapan untuk perancangan sistem terdistribusi dan juga tahapan percobaan yang
dilakukan.

Bab 4: Implementasi dan Pengujian
Bab ini berisi pembahasan tentang implementasi dari perancangan yang telah
dijabarkan pada bab 3. Selain itu, hasil yang didapatkan selama proses yang terjadi pada
penelitian juga dijabarkan pada bab ini.

Bab 5: Kesimpulan dan Saran
Bab ini berisi ringkasan serta kesimpulan dari rancangan yang telah dibahas pada bab
3, serta hasil penelitian yang dijabarkan pada bab 4, serta pada bagian akhir bab ini akan
berisi saran-saran yang diajukan untuk pengembangan penelitian selanjutnya.

Universitas Sumatera Utara