Institutional Repository | Satya Wacana Christian University: Penerapan Web Crawlerdalam pencarian E-Book T1 672007230 BAB II

(1)

6

Bab 2

Tinjauan Pustaka

2.1

Penelitian Terdahulu

Penerapan Web Crawler dalam Pencarian e-Book ini merupakan hasil pengembangan dari penelitian terhadap Web Crawler yang sudah ada. Penelitian terdahulu yang mengembangkan Web Crawler adalah aplikasi Web crawler

berdasarkan Breadth First Search dan Back-Link, Dalam penelitian ini telah diteliti tantangan bagaimana memprioritaskan antrian URL untuk menelusuri halaman yang lebih relevan berdasarkan Breadth First Search dan banyaknya Back-link. Pengembangnya adalah mahasiswa Fakultas Teknologi Informasi, Universitas Stikubank Semarang (Sulastri dan Zuliarso, 2010).

Penelitian terhadap penggunaan Internet menunjukkan beberapa hal yang menarik antara lain, hampir 80 persen pengguna Internet menggunakan search engine, lebih dari 52 persen pengguna Internet menggunakan search engine yang sama setiap kali menggunakan search engine, dan kurang dari 46 persen pengguna merasa selalu berhasil mendapatkan apa yang dicarinya dengan menggunakan search engine tersebut. Hal ini menunjukkan pentingnya peranan Internet search engine bagi

user dalam proses pencarian informasi yang dibutuhkan (Ozsoyoglu, 2003).


(2)

2.2

Web Crawler

Web Crawler adalah program yang melintasi Internet

secara otomatis dengan mengambil sebuah halaman web dan kemudian secara rekursif mengambil semua halaman–halaman terkait (Mayocchi, 2001; Boldi, Codenotti, Santini & Vigna, 2002) .

2.2.1 Fungsi utama Web Crawler

Fungsi utama Web Crawler adalah untuk melakukan penjelajahan dan pengambilan halaman-halaman web yang ada di

Internet. Hasil pengumpulan situs web selanjutnya akan diindeks oleh mesin pencari sehingga mempermudah pencarian informasi di Internet.

Secara umum sebuah mesin pencari web terdiri dari tiga bagian, yaitu:

1. Spider atau crawler atau link finder: Program komputer yang menelusuri link dari sebuah halaman web ke halaman web yang lain di Internet.

2. Index: Database yang terorganisir dan dapat dicari isinya, merupakan penyimpanan hasil penelusuran

crawler.

3. Mekanisme pencarian dan pengambilan informasi: perangkat lunak yang dipakai oleh pemakai untuk mencari data yang terdapat pada index dan menyusun hasilnya berdasarkan aturan yang ditentukan (algoritma


(3)

tertentu). Bagian ketiga ini sering disebut “search engine”.

Web Crawler melakukan proses validasi terhadap code

HTML dan tautan yang ditemukan pada situs yang dikunjungi. Setelah melakukan validasi, halaman web dan tautan tersebut diunduh kemudian diuraikan ke dalam tempat penyimpanan utama. Data yang dibawa oleh Web Crawler secara sederhana hanya berupa text dan metadata. Sedangkan data tautan yang ditemukan pada halaman web yang dikunjungi akan ditempatkan pada seeds (tempat penyimpanan data URL) masuk ke dalam antrian kunjungan selanjutnya Web Crawler. Secara simultan

WebCrawler mengunjungi situs-situs yang alamatnya terdapat di dalam antrian sampai data URL habis atau dihentikan oleh

administrator.

2.2.2 Dasar Web Crawler

Walaupun banyak aplikasi Web Crawler, pada intinya semuanya secara fundamental sama dan tidak berbeda jauh. Berikut ini proses yang dilakukan Web Crawler pada saat berkerja (Sulastri dan Zuliarso, 2010):

1. Mengunduh halaman web.

2. Menguraikan halaman yang diunduh dan mengambil semua link.


(4)

Web Crawler mengambil URL dan mengunduh halaman dari Internet berdasarkan URL yang diberikan. Tahap kedua, Web crawler menguraikan keseluruhan halaman yang diunduh dan mengambil link dari halaman lain. Tiap link dalam halaman didefinisikan dengan sebuah penanda HTML. Langkah ketiga dari Web Crawler adalah mengulangi proses. Semua crawler

bekerja dengan rekursif atau bentuk perulangan, tetapi ada dua cara berbeda untuk menanganinya. Link dapat di-crawling dalam cara depth-first atau breadth-first (Sulastri dan Zuliarso, 2010).

Breadth-first crawling adalah algoritma yang melakukan pencarian secara melebar yang mengunjungi link secara preorder

yaitu mengunjungi suatu link kemudian mengunjungi semua link

yang bertetangga dengan link tersebut terlebih dahulu. Selanjutnya, link yang belum dikunjungi dan bertetangga dengan

link yang tadi dikunjungi, demikian seterusnya (kustanto, mutia, Viqarunnisa, 2005).

Breadth-first crawling menguji tiap link pada sebuah halaman sebelum memproses ke halaman berikutnya. Jadi, algoritma ini menelusuri tiap link pada halaman pertama dan kemudian menelusuri tiap link pada halaman pertama pada link

pertama dan begitu seterusnya sampai tiap level pada link telah dikunjungi (Menczer, Pant, Srinivasan and Ruiz, 2001; Chakrabarti, van den Berg, Domc, 1999; Angkawattanawit, Rungsawang, 2002).


(5)

Gambar 2.1 Breadth-first crawling (Gozali & Faezal. 2004).

Alternatif lainnya adalah Depth first crawling. Dalam hal ini. Crawling atau spider akan menelusuri halaman web dengan mengikuti link mulai dari link pertama pada halaman awal level 0 dilanjutkan pada link pertama pada level 1 dan begitu seterusnya sampai akhir dari link tersebut. Selanjutnya proses secara

iterative akan dilanjutkan dengan melakukan proses index mulai dari link kedua yang berada pada halaman utama level 0 sampai seluruh link yang ada pada halaman utama level 0 tersebut selesai di index.


(6)

Gambar 2.2 Depth first crawling (Gozali & Faezal, 2004).

Dalam mengikuti link pada sebuah alamat situs web yang dikunjungi, seberapa jauh kedalaman level yang diikuti spider

tersebut diatur sendiri oleh pembuatnya. Ada spider yang mengindeks sebuah alamat situs web secara tuntas, ada yang mengikuti link tanpa menghiraukan letak dari halaman tersebut.

Beberapa search engine bahkan membatasi kedalaman

spidering mereka untuk menghemat tempat penyimpanan yang dibutuhkan dan untuk menghindari loop yang terjadi pada sebuah situs web. Kecepatan dan banyaknya informasi yang diperoleh

spider juga dipengaruhi oleh kedalaman ini. (Gozali & Faezal, 2004).

Keberadaan Internet khususnya web menimbulkan tantangan baru didalam teknologi penelusuran informasi atau

information retrieval. Jumlah informasi yang ada di web


(7)

terdapat lebih dari 350 juta halaman web dan bertambah hampir sejuta halaman setiap hari, bahkan dari hasil penelitian diperkirakan lebih dari 600 Giga byte data halaman web yang berubah setiap bulannya. Kecepatan pertumbuhan informasi pada halaman web ini menyebabkan terbatasnya kemampuan dari

search engine yang menggunakan kedua cara spidering tersebut diatas (Ozsoyoglu & Alhamdani, 2003).

Untuk mempercepat proses spidering serta memperbanyak informasi yang dimiliki pada database, beberapa situs bahkan memiliki lebih dari satu spider, misalnya, google.com memiliki beberapa spider yang bekerja sangat cepat dalam mengumpulkan data tentang halaman situs web. Cara ini disebut multi-threaded spidering.

Setiap spider dapat membuka lebih dari 300 koneksi halaman web dalam waktu yang bersamaan. Pada performa terbaiknya, sebuah spider dapat membuka ratusan bahkan ribuan halaman web perdetik dan mengumpulkan sekitar 600 KByte data perdetik (Bharat & Broder,1998).

2.2.3 Desain Web Crawler

Penerapan Crawler pertama dilakukan oleh Mathew Gray’s Wanderer pada musim semi 1993 yang bertepatan dengan diluncurkan MOSAIC NCSA yaitu sebuah penjelajah web


(8)

Windows dan UNIX (berbasis Motif). Peramban web tersebut dinamai MOSAIC.

Gambar 2.3 Arsitektur Web Crawler (Heydon & Narajork, 1999)

 Manager Crawler

Mengambil satu set URL dari link Extractor dan mengirim URL selanjutnya ke DNS resolver untuk mendapatkan alamat IP-nya. Hal ini dapat menghemat banyak waktu karena spider tidak harus setiap waktu mengirimkan permintaan DNS setiap kali ingin menggunduh halaman.

 File Robot.txt

Robot.txt adalah sarana dimana pembuat web (web author)

menunjukkan halaman mana yang ingin web crawler hindari.

Crawler juga harus menghormati keinginan para author.

 Spider

Download robot.txt file dan halaman lain yang diminta oleh manager crawler dan diijinkan oleh web author. File-file robot.txt dikirimkan ke manager crawler untuk processing dan


(9)

 Link Extractor

Link extractor ini digunakan untuk melihat halaman yang diunduh oleh spiders, extract URL dari link pada halaman tersebut dan mengirim URL ke manager crawler untuk diunduh.

Setiap Crawler harus memenuhi dua syarat berikut (Suel dan Shkapenyuk, 2002):

1. Crawler harus memiliki rancangan strategi yang baik. 2. Mempunyai sistem arsitektur yang sangat optimal

sehingga dapat mengunduh halaman dalam jumlah banyak tiap detiknya.

Kebanyakan search engines menggunakan lebih dari satu

crawler dan mengendalikannya dalam sebuah metode distribusi.

Search engines mempunyai beberapa kelebihan: 1. Meningkatkan pemanfaatan sumber daya.

2. Pendistribusian tugas crawling menjadi lebih efektif tanpa hambatan.


(10)

2.3

E-Book

E-Book sendiri merupakan buku atau dokumen/artikel dalam format elektronik yang mempunyai banyak manfaat antara lain :

1. Ukuran fisik yang kecil. 2. Tidak lapuk.

3. Mudah diproses. 4. Mudah dibawa.

5. Mudah didistribusikan.

6. Penggandaan ( duplikasi, copying ) e-Book sangat murah dan mudah.

E-Book adalah singkatan dari Electronic Book atau buku elektronik. e-Book tidak lain adalah sebuah bentuk buku yang dapat dibuka secara elektronis melalui komputer. e-Book ini berupa file dengan format bermacam-macam,

ada yang berupa PDF (portable document format) yang dapat dibuka dengan program Acrobat Reader atau sejenisnya. Ada juga yang dengan bentuk format HTML, yang dapat dibuka dengan browser secara offline (Anandianingsih, 2005).


(1)

Gambar 2.1 Breadth-first crawling (Gozali & Faezal. 2004).

Alternatif lainnya adalah Depth first crawling. Dalam hal ini. Crawling atau spider akan menelusuri halaman web dengan mengikuti link mulai dari link pertama pada halaman awal level 0 dilanjutkan pada link pertama pada level 1 dan begitu seterusnya sampai akhir dari link tersebut. Selanjutnya proses secara iterative akan dilanjutkan dengan melakukan proses index mulai dari link kedua yang berada pada halaman utama level 0 sampai seluruh link yang ada pada halaman utama level 0 tersebut selesai di index.


(2)

Gambar 2.2 Depth first crawling (Gozali & Faezal, 2004). Dalam mengikuti link pada sebuah alamat situs web yang dikunjungi, seberapa jauh kedalaman level yang diikuti spider tersebut diatur sendiri oleh pembuatnya. Ada spider yang mengindeks sebuah alamat situs web secara tuntas, ada yang mengikuti link tanpa menghiraukan letak dari halaman tersebut.

Beberapa search engine bahkan membatasi kedalaman spidering mereka untuk menghemat tempat penyimpanan yang dibutuhkan dan untuk menghindari loop yang terjadi pada sebuah situs web. Kecepatan dan banyaknya informasi yang diperoleh spider juga dipengaruhi oleh kedalaman ini. (Gozali & Faezal, 2004).

Keberadaan Internet khususnya web menimbulkan tantangan baru didalam teknologi penelusuran informasi atau information retrieval. Jumlah informasi yang ada di web berkembang dengan sangat pesat, diperkirakan pada tahun 1998


(3)

terdapat lebih dari 350 juta halaman web dan bertambah hampir sejuta halaman setiap hari, bahkan dari hasil penelitian diperkirakan lebih dari 600 Giga byte data halaman web yang berubah setiap bulannya. Kecepatan pertumbuhan informasi pada halaman web ini menyebabkan terbatasnya kemampuan dari search engine yang menggunakan kedua cara spidering tersebut diatas (Ozsoyoglu & Alhamdani, 2003).

Untuk mempercepat proses spidering serta memperbanyak informasi yang dimiliki pada database, beberapa situs bahkan memiliki lebih dari satu spider, misalnya, google.com memiliki beberapa spider yang bekerja sangat cepat dalam mengumpulkan data tentang halaman situs web. Cara ini disebut multi-threaded spidering.

Setiap spider dapat membuka lebih dari 300 koneksi halaman web dalam waktu yang bersamaan. Pada performa terbaiknya, sebuah spider dapat membuka ratusan bahkan ribuan halaman web perdetik dan mengumpulkan sekitar 600 KByte data perdetik (Bharat & Broder,1998).

2.2.3 Desain Web Crawler

Penerapan Crawler pertama dilakukan oleh Mathew Gray’s Wanderer pada musim semi 1993 yang bertepatan dengan diluncurkan MOSAIC NCSA yaitu sebuah penjelajah web berbasis grafis pertama yang berjalan di atas sistem operasi


(4)

Windows dan UNIX (berbasis Motif). Peramban web tersebut dinamai MOSAIC.

Gambar 2.3 Arsitektur Web Crawler (Heydon & Narajork, 1999)

 Manager Crawler

Mengambil satu set URL dari link Extractor dan mengirim URL selanjutnya ke DNS resolver untuk mendapatkan alamat IP-nya. Hal ini dapat menghemat banyak waktu karena spider tidak harus setiap waktu mengirimkan permintaan DNS setiap kali ingin menggunduh halaman.

 File Robot.txt

Robot.txt adalah sarana dimana pembuat web (web author) menunjukkan halaman mana yang ingin web crawler hindari. Crawler juga harus menghormati keinginan para author.

 Spider

Download robot.txt file dan halaman lain yang diminta oleh manager crawler dan diijinkan oleh web author. File-file robot.txt dikirimkan ke manager crawler untuk processing dan extracting URL tersebut.


(5)

 Link Extractor

Link extractor ini digunakan untuk melihat halaman yang diunduh oleh spiders, extract URL dari link pada halaman tersebut dan mengirim URL ke manager crawler untuk diunduh.

Setiap Crawler harus memenuhi dua syarat berikut (Suel dan Shkapenyuk, 2002):

1. Crawler harus memiliki rancangan strategi yang baik. 2. Mempunyai sistem arsitektur yang sangat optimal

sehingga dapat mengunduh halaman dalam jumlah banyak tiap detiknya.

Kebanyakan search engines menggunakan lebih dari satu crawler dan mengendalikannya dalam sebuah metode distribusi. Search engines mempunyai beberapa kelebihan:

1. Meningkatkan pemanfaatan sumber daya.

2. Pendistribusian tugas crawling menjadi lebih efektif tanpa hambatan.


(6)

2.3

E-Book

E-Book sendiri merupakan buku atau dokumen/artikel dalam format elektronik yang mempunyai banyak manfaat antara lain :

1. Ukuran fisik yang kecil. 2. Tidak lapuk.

3. Mudah diproses. 4. Mudah dibawa.

5. Mudah didistribusikan.

6. Penggandaan ( duplikasi, copying ) e-Book sangat murah dan mudah.

E-Book adalah singkatan dari Electronic Book atau buku elektronik. e-Book tidak lain adalah sebuah bentuk buku yang dapat dibuka secara elektronis melalui komputer. e-Book ini berupa file dengan format bermacam-macam,

ada yang berupa PDF (portable document format) yang dapat dibuka dengan program Acrobat Reader atau sejenisnya. Ada juga yang dengan bentuk format HTML, yang dapat dibuka dengan browser secara offline (Anandianingsih, 2005).