3.2.1. Tahapan Perancangan Sistem
Perancangan sistem meliputi perancangan crawler master dan crawler slaves. Kedua jenis crawler ini memiliki perbedaan tugas sehingga memiliki tahapan
perancangan yang berbeda.
3.2.1.1. Perancangan Crawler Master
Berikut ini adalah beberapa tugas dari crawler master sebagai berikut: 1
Memanajemen seeds URL Pada penelitian ini seeds URL yang digunakan dapat dilihat pada tabel
3.1.
Tabel 3.1 Daftar seeds URL No.
URL
1 http:anakkitasehat.com 2 http:artikelkesehatananak.com
3 http:artikeltentangkesehatan.com 4 http:bebeclub.co.idarticle
5 http:bidanku.com 6 http:dechacare.com
7 http:dikes.badungkab.go.idindex.phparsip-artikel 8 http:doktersehat.com
9 http:duniaanak.org
10 http:family.fimela.com 11 http:health.detik.com
12 http:ibuhamil.com 13 http:webkesehatan.com
14 http:www.4life-4transferfactor.com 15 http:www.alodokter.com
16 http:www.anakdanbalita.net 17 http:www.beritahu.me
18 http:www.caramedis.com 19 http:www.depkes.go.id
20 http:www.doktergratis.org 21 http:www.infoanak.com
22 http:www.infoibu.com 23 http:www.informasikesehatan.my.id
24 http:www.kesehatan-ibuanak.net 25 http:www.posyandu.org
26 http:www.vemale.comtagskesehatan-anak 27 https:anakbayibalita.wordpress.com
28 https:www.dancow.co.id
Universitas Sumatera Utara
29 https:www.ibudanbalita.com 30 https:www.klikdokter.com
31 https:www.progoldparentingclub.co.id 32 https:www.tanyadok.com
URL ini dipilih karena menurut penulis berisi konten-konten artikel yang berhubungan dengan topik yang dipilih dalam hal ini ‘kesehatan’
2 Membagikan seeds URL untuk setiap crawler slaves
Crawler master membagikan seeds URL yang ada ke semua crawler slaves yang ada, pseudocode yang diimplimentasikan dalam penelitan.
Gambar 3.2. Pseudocode pembagian seeds URL
Setiap job memiliki tugas untuk meng-crawl seeds URL yang telah ditetapkan. Setiap pembuatan job, apache ignite dalam fitur computer
grid akan otomatis membagikan job pada setiap node yang ada, dimana ilustrasinya dapat dilihat pada gambar 3.3.
Gambar 3.3. Ilustrasi pembagian job pada Apache Ignite
3 Site ordering
Pada penelitian ini penulis membuat dua model site ordering yaitu dengan algoritma Larger Sites First dan tanpa Larger Sites First.
Inisialisasi seeds URL yang tersedia FOR setiap URL yang tersedia
Buat job
Crawling URL
Universitas Sumatera Utara
Perancangan untuk algoritma ini adalah user dapat memilih apakah akan menggunakan Larger Site First atau tidak.
Algoritma ini mengurutkan dari website terbesar sampai yang terkecil, yang dapat diketahui dengan menghitung jumlah link yang dimilikinya.
Semakin banyak link yang dimiliki maka semakin besar website tersebut.
4 Training
Hal pertama yang dilakukan pada tahap ini adalah mengumpulkan dataset mengenai topik dataset kesehatan. Dalam penelitian ini
terdapat 2 dataset yaitu dataset kesehatan dan bukan kesehatan. Penulis menjadikan kata-kata kunci bidang kesehatan menjadi dataset kesehatan
yang akan diinginkan untuk proses training. Penulis memperoleh kata kunci kesehatan dari http:www.idai.or.id, http:www.depkes.go.id
dan http:www.kateglo.com. Untuk dari situs http:www.idai.or.id penulis mengambil 284 artikel
yang terdapat pada situs tersebut dan menghitung nilai TF-IDF dari artikel-artikel tersebut dan mengambil 1000 nilai TF-IDF paling besar
lalu menyaring kembali secara manual dan akhirnya didapatkan sebanyak 367 kata.
Untuk dari situs http:www.depkes.go.id penulis mengambil kata kunci kesehatan
dari halaman
kamus http:www.depkes.go.idfolderviewfull-contentstructure-
kamus.html dan hanya mengambil kata yang bukan merupakan singkatan dan hanya memiliki satu katadan didapatkan sebanyak 697
kata. Untuk dari situs http:www.kateglo.com penulis mengambil kata-kata
dari halaman
glosarium http:www.kateglo.com?phrase=mod=glossary
pada bidang
kedokteran dan farmasi dan hanya memiliki satu kata, sehingga didapatkan sebanyak 5435 kata untuk bidang kedokteran dan 2493 kata
untuk bidang farmasi.
Universitas Sumatera Utara
Penulis juga mengambil kata-kata untuk bidang selain kesehatan dari situs http:www.kateglo.com yaitu bidang ekonomi, keuangan,
olahraga, otomotif, politik dan teknologi informasi. Untuk lebih lengkapnya dapat dilihat pada tabel 3.2 dan 3.3.
Tabel 3.2 Kata kunci bidang kesehatan Sumber
Jumlah Kata
http:www.idai.or.id 367
http:www.depkes.go.id 697
http:www.kateglo.com Kedokteran 5435
http:www.kateglo.com Farmasi 2493
Jumlah 8992
Tabel 3.3 Kata kunci bidang bukan kesehatan Sumber
Jumlah Kata
http:www.kateglo.com Ekonomi 264
http:www.kateglo.com Keuangan 257
http:www.kateglo.com Olahraga 15
http:www.kateglo.com Otomotif 140
http:www.kateglo.com Politik 683
http:www.kateglo.com Teknologi Informasi
366 Jumlah
1461
3.2.1.2. Perancangan Crawler Slaves