Perancangan Crawler Master Tahapan Perancangan Sistem

3.2.1. Tahapan Perancangan Sistem

Perancangan sistem meliputi perancangan crawler master dan crawler slaves. Kedua jenis crawler ini memiliki perbedaan tugas sehingga memiliki tahapan perancangan yang berbeda.

3.2.1.1. Perancangan Crawler Master

Berikut ini adalah beberapa tugas dari crawler master sebagai berikut: 1 Memanajemen seeds URL Pada penelitian ini seeds URL yang digunakan dapat dilihat pada tabel 3.1. Tabel 3.1 Daftar seeds URL No. URL 1 http:anakkitasehat.com 2 http:artikelkesehatananak.com 3 http:artikeltentangkesehatan.com 4 http:bebeclub.co.idarticle 5 http:bidanku.com 6 http:dechacare.com 7 http:dikes.badungkab.go.idindex.phparsip-artikel 8 http:doktersehat.com 9 http:duniaanak.org 10 http:family.fimela.com 11 http:health.detik.com 12 http:ibuhamil.com 13 http:webkesehatan.com 14 http:www.4life-4transferfactor.com 15 http:www.alodokter.com 16 http:www.anakdanbalita.net 17 http:www.beritahu.me 18 http:www.caramedis.com 19 http:www.depkes.go.id 20 http:www.doktergratis.org 21 http:www.infoanak.com 22 http:www.infoibu.com 23 http:www.informasikesehatan.my.id 24 http:www.kesehatan-ibuanak.net 25 http:www.posyandu.org 26 http:www.vemale.comtagskesehatan-anak 27 https:anakbayibalita.wordpress.com 28 https:www.dancow.co.id Universitas Sumatera Utara 29 https:www.ibudanbalita.com 30 https:www.klikdokter.com 31 https:www.progoldparentingclub.co.id 32 https:www.tanyadok.com URL ini dipilih karena menurut penulis berisi konten-konten artikel yang berhubungan dengan topik yang dipilih dalam hal ini ‘kesehatan’ 2 Membagikan seeds URL untuk setiap crawler slaves Crawler master membagikan seeds URL yang ada ke semua crawler slaves yang ada, pseudocode yang diimplimentasikan dalam penelitan. Gambar 3.2. Pseudocode pembagian seeds URL Setiap job memiliki tugas untuk meng-crawl seeds URL yang telah ditetapkan. Setiap pembuatan job, apache ignite dalam fitur computer grid akan otomatis membagikan job pada setiap node yang ada, dimana ilustrasinya dapat dilihat pada gambar 3.3. Gambar 3.3. Ilustrasi pembagian job pada Apache Ignite 3 Site ordering Pada penelitian ini penulis membuat dua model site ordering yaitu dengan algoritma Larger Sites First dan tanpa Larger Sites First. Inisialisasi seeds URL yang tersedia FOR setiap URL yang tersedia Buat job Crawling URL Universitas Sumatera Utara Perancangan untuk algoritma ini adalah user dapat memilih apakah akan menggunakan Larger Site First atau tidak. Algoritma ini mengurutkan dari website terbesar sampai yang terkecil, yang dapat diketahui dengan menghitung jumlah link yang dimilikinya. Semakin banyak link yang dimiliki maka semakin besar website tersebut. 4 Training Hal pertama yang dilakukan pada tahap ini adalah mengumpulkan dataset mengenai topik dataset kesehatan. Dalam penelitian ini terdapat 2 dataset yaitu dataset kesehatan dan bukan kesehatan. Penulis menjadikan kata-kata kunci bidang kesehatan menjadi dataset kesehatan yang akan diinginkan untuk proses training. Penulis memperoleh kata kunci kesehatan dari http:www.idai.or.id, http:www.depkes.go.id dan http:www.kateglo.com. Untuk dari situs http:www.idai.or.id penulis mengambil 284 artikel yang terdapat pada situs tersebut dan menghitung nilai TF-IDF dari artikel-artikel tersebut dan mengambil 1000 nilai TF-IDF paling besar lalu menyaring kembali secara manual dan akhirnya didapatkan sebanyak 367 kata. Untuk dari situs http:www.depkes.go.id penulis mengambil kata kunci kesehatan dari halaman kamus http:www.depkes.go.idfolderviewfull-contentstructure- kamus.html dan hanya mengambil kata yang bukan merupakan singkatan dan hanya memiliki satu katadan didapatkan sebanyak 697 kata. Untuk dari situs http:www.kateglo.com penulis mengambil kata-kata dari halaman glosarium http:www.kateglo.com?phrase=mod=glossary pada bidang kedokteran dan farmasi dan hanya memiliki satu kata, sehingga didapatkan sebanyak 5435 kata untuk bidang kedokteran dan 2493 kata untuk bidang farmasi. Universitas Sumatera Utara Penulis juga mengambil kata-kata untuk bidang selain kesehatan dari situs http:www.kateglo.com yaitu bidang ekonomi, keuangan, olahraga, otomotif, politik dan teknologi informasi. Untuk lebih lengkapnya dapat dilihat pada tabel 3.2 dan 3.3. Tabel 3.2 Kata kunci bidang kesehatan Sumber Jumlah Kata http:www.idai.or.id 367 http:www.depkes.go.id 697 http:www.kateglo.com Kedokteran 5435 http:www.kateglo.com Farmasi 2493 Jumlah 8992 Tabel 3.3 Kata kunci bidang bukan kesehatan Sumber Jumlah Kata http:www.kateglo.com Ekonomi 264 http:www.kateglo.com Keuangan 257 http:www.kateglo.com Olahraga 15 http:www.kateglo.com Otomotif 140 http:www.kateglo.com Politik 683 http:www.kateglo.com Teknologi Informasi 366 Jumlah 1461

3.2.1.2. Perancangan Crawler Slaves