FOCUSED CRAWLER UNTUK MENGOPTIMALKAN PENCARIAN JURNAL MENGGUNAKAN METODE PORTER STEMMER SKRIPSI CYNTHIA ARILLA SEMBIRING 091402124
FOCUSED CRAWLER UNTUK MENGOPTIMALKAN
PENCARIAN JURNAL MENGGUNAKAN
METODE PORTER STEMMER
SKRIPSI
CYNTHIA ARILLA SEMBIRING
091402124
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2014
FOCUSED CRAWLER UNTUK MENGOPTIMALKAN
PENCARIAN JURNAL MENGGUNAKAN
METODE PORTER STEMMER
SKRIPSI Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Sarjana Teknologi Informasi
CYNTHIA ARILLA SEMBIRING
091402124 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGIINFORMASI UNIVERSITAS SUMATERA UTARA MEDAN
2014
PERSETUJUAN
Judul : FOCUSED CRAWLER UNTUK MENGOPTIMALKAN PENCARIAN JURNAL MENGGUNAKAN METODE PORTER STEMMER
Kategori : SKRIPSI Nama : CYNTHIA ARILLA SEMBIRING Nomor Induk Mahasiswa : 091402124 Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI Fakultas : ILMU KOMPUTER DAN TEKNOLOGI
INFORMASI (FASILKOM-TI) UNIVERSITAS SUMATERA UTARA
Diluluskan di Medan, 29 Agustus 2014
Komisi Pembimbing : Pembimbing 2 Pembimbing 1 Dani Gunawan, S.T., M.T. M. Andri Budiman,ST.,M.Comp.Sc., M.E.M.
NIP 198209152012121002 NIP 197510082008011011 Diketahui/Disetujui oleh Program Studi S1 Teknologi Informasi Ketua, M. Anggia Muchtar,S.T., MM.IT.
NIP 198001102008011010
PERNYATAAN
FOCUSED CRAWLER UNTUK MENGOPTIMALKAN
PENCARIAN JURNAL MENGGUNAKAN METODE PORTER STEMMER SKRIPSI Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 29 Agustus 2014 Cynthia Arilla Sembiring 091402124
UCAPAN TERIMA KASIH
Puji dan syukur penulis sampaikan kehadirat Tuhan Yesus Kristus yang telah memberikan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh ijazah Sarjana Teknologi Informasi, Program Studi S1 Teknologi Informasi Universitas Sumatera Utara. Untuk itu penulis mengucapkan terima kasih kepada:
1. Skripsi ini penulis persembahkan untuk kedua orang tua dan keluarga penulis yang telah memberikan dukungan dan motivasi, ayah penulis Drs.
Pancaria Sembiring, M.BA dan ibu penulis Lasmaria Sitorus yang selalu sabar dalam mendidik dan membesarkan penulis. Adik penulis Yudhistira Sembiring dan Yudhawira Sembiring yang selalu memberikan dorongan dan dukungan kepada penulis.
2. Bapak M. Andri Budiman, ST., M.Comp.Sc., M.E.M. dan Bapak Dani Gunawan, S.T., M.T. selaku dosen pembimbing penulis yang telah meluangkan waktu, pikiran, saran, dan kritiknya untuk penulis dalam menyelesaikan skripsi ini.
3. Bapak Dedy Arisandi, S.T., M.Kom. dan Ibu Sarah Purnamawati, S.T., M.Sc. yang telah bersedia menjadi dosen penguji dan memberikan saran dan kritik yang membangun dalam penyelesaian skripsi ini.
4. Ketua dan Sekretaris Program Studi S1 Teknologi Informasi, Bapak M.
Anggia Muchtar, S.T., MM.IT. dan Bapak Mohammad Fadly Syahputra, B.Sc., M.Sc.IT.
5. Seluruh dosen Departemen Teknologi Informasi dan Ilmu Komputer USU yang telah memberikan ilmu, dukungan, arahan dan bantuannya selama proses perkuliahan, serta Ibu Delima dan Bang Faisal, sebagai staf Tata Usaha Program Studi Teknologi Informasi Universitas Sumatera Utara.
6. Erwin Sitorus yang telah memberikan dukungan kepada penulis selama ini.
7. Sahabat-sahabat yang selalu mendukung dan memberi semangat kepada penulis, Fida Elvi Anderia Sebayang, S.TI., Stella Maris Harefa, S.TI., Ade Chania Sion Sagala, S.TI., Riska Vinesia Butarbutar, S.TI., Jihan Meutia Fauzen, S.TI., Annifa Iqramitha, S.TI., dan semua teman angkatan 2009.
8. Sahabat penulis Yustira Sinaga, S.E., Rotua Panjaitan, S.E. dan Venta Sitorus S.E., yang selalu mendoakan dan memberi semangat.
9. Seluruh rekan kuliah sejawat yang tidak dapat disebutkan satu persatu. Penulis menyadari bahwa masih banyakkekurangan dalam skripsi ini, untuk itu penulis mengharapkan saran dan kritik yang bersifat membangun dari semua pihak
ABSTRAK
Maraknya perkembangan media online seperti jurnal ilmiah membuat seseorang sulit untuk menemukan jurnal yang sesuai dengan yang diinginkan. Oleh sebab itu, dibutuhkan sebuah aplikasi pencarian jurnal dengan menampilkan jurnal terkait (related post) dari jurnal yang dicari sehingga dapat mengoptimalkan pencarian jurnal. Penelitian ini menggunakan teknik focused crawler yaitu teknik untuk mengunduh url dan konten yang ada pada suatu halaman website tertentu dan algoritma Porter
stemmer untuk mengubah kata berimbuhan ke bentuk kata dasar. Focused crawler
juga digunakan untuk menghitung nilai bobot dan relevansi. Nilai relevansi dibutuhkan agar dapat diketahui jurnal yang memiliki nilai terdekat dengan jurnal yang lainnya (related post). Hasil Pengujian menyimpulkan bahwa semakin banyak data jurnal maka akan semakin dekat nilai relevansi masing-masing jurnal, sehingga dapat mengoptimalkan pencarian jurnal.
Kata kunci:focused crawler, crawling, Porter stemmer, relevansi, related post, search engine, jurnal.
FOCUSED CRAWLER TO OPTIMIZE SEARCHING OF JOURNAL USING
PORTER STEMMER ALGORITHM
ABSTRACT
The plethora of online media such as scientific journals, can make people really get difficulties to find the appropriate journals as they need. Therefore, an application of journal searching which searching related journal or related post is needed. This research uses focused crawler technique as a technique to download url and content in certain pages of a website and the Porter stemmer algorithm to transmute the affix word to become basic words. Focused crawler technique is also used to the weight of the stemmed word and its relevancy. Relevant value is needed to know the closest journal which has the closest values to the other journals (related post). The result of the research concludes that more journals are searched the more relevant the value we get and thus the search is optimized.
Keywords: focused crawler, crawling, Porter stemmer, relevance, related post, search engine, journal.
DAFTAR ISI
Halaman PERSETUJUAN ii
PERNYATAAN iii
UCAPAN TERIMA KASIH iv
ABSTRAK v
ABSTRACT vi
DAFTAR ISI viii
DAFTAR TABEL ix
DAFTAR GAMBAR x
BAB 1 PENDAHULUAN
1
1.1. Latar Belakang
2
1.2. Rumusan Masalah
2
1.3. Batasan Masalah
2
1.4. Tujuan Penelitian
3
1.5. Manfaat Penelitian
3
1.6. Metodologi Penelitian
3
1.7. Sistematika Penulisan
4 BAB 2 TINJAUAN PUSTAKA
5
2.1. Search Engine
5
2.1.1. Sejarah Search Engine
5
2.1.2. Prinsip Umum Search Engine
6
2.1.3. Cara Kerja Search Engine
7
2.1.4. Sifat Search Engine
8
2.1.5. Algoritma Umum dalam Search Engine
9
2.2. Focused Crawler
10
2.3. Algoritma Porter Stemmer
12
2.4. Bahasa Pemrograman PHP
17
2.5. DatabaseMySQL
18
2.6. Penelitian Terdahulu
18 BAB 3 ANALISIS DAN PERANCANGAN SISTEM
21
3.1. Analisis Data
21
3.1.1. Data Konten (Data Jurnal)
21
3.1.2. Tabel_Keyword
22
3.1.3. Tabel_Relevansi
23
3.2. Analisis Sistem
23
3.2.1. Admin
23
3.2.1.1. Text Preprocessing
25
3.2.1.2. Penghapusan Stopwords
26
3.2.1.3. StemmingPorter Stemmer
27
3.2.1.4. Focused Crawler
30
3.2.2. User
39
3.3. Perancangan Sistem
40
3.3.1. DiagramUse Case
40
3.3.2. Definisi Use Case
40
3.3.3. General Architecture
42 BAB 4 IMPLEMENTASI DAN PENGUJIAN
43
4.1. Implementasi Sistem
43
4.1.1. Spesifikasi Perangkat Keras dan
43 Perangkat Lunak yang Digunakan
4.1.2. Tampilan Halaman Utama User
43
4.1.3. Tampilan Halaman Pencarian
44
4.1.4. Tampilan Halaman Baca
45
4.1.5. Tampilan Halaman Proses Crawling
45
4.1.6. Tampilan Halaman Stemming
46
4.1.7. Tampilan Halaman Bobot dan Normalisasi
46
4.1.8. Tampilan Halaman Tabel Relevansi
47
4.2. Pengujian Sistem
47
4.2.1. Pengujian Sistem Tahap Crawling
47
4.2.2. Hasil Pengujian Proses Stemming
48
4.2.3. Hasil Pengujian Bobot dan Normalisasi
49
4.2.4. Hasil Pengujian Nilai Relevansi
49
4.2.5. Hasil Pengujian Pencarian
50 BAB 5 KESIMPULAN DAN SARAN
55
5.1. Kesimpulan
55
5.2. Saran
55 DAFTAR PUSTAKA
56
- –ed and –ing rules
17 Tabel 2.10. Penelitian Terdahulu
41 Tabel 4.1. Tabel Perbandingan Jurnal
37 Tabel 3.7. Definisi Use case
34 Tabel 3.6. Nilai Relevansi = 0
32 Tabel 3.5. Tabel Menentukan Nilai relevansi
23 Tabel 3.4. Proses Normalisasi
22 Tabel 3.3. Tabel_Relevansi
21 Tabel 3.2. Tabel_Keyword
20 Tabel 3.1. Tabel_Konten
17 Tabel 2.9. Aturan Stemming Step 5b
DAFTAR TABEL
16 Tabel 2.8. Aturan Stemming Step 5a
16 Tabel 2.7. Aturan Stemming Step 4
15 Tabel 2.6. Aturan Stemming Step 3
15 Tabel 2.5.Aturan Stemming Step 2
14 Tabel 2.4.Aturan Stemming Step 1c
14 Tabel 2.3.Continued for
13 Tabel 2.2.Aturan Stemming Step 1b
Halaman Tabel 2.1.Aturan Stemming Step 1a
50
DAFTAR GAMBAR
42 Gambar 4.1. Tampilan Halaman Utama User
53 Gambar 4.13. Hasil Pengujian Pencarian Jurnal (2)
50 Gambar 4.12. Hasil Pengujian Pencarian Jurnal (1)
49 Gambar 4.11. Hasil Pengujian Nilai Relevansi
48 Gambar 4.10. Hasil Pengujian Bobot dan Normalisasi
48 Gambar 4.9. Hasil Pengujian Proses Stemming
47 Gambar 4.8. Database Tabel_Konten
47 Gambar 4.7. Tampilan Halaman Relevansi
46 Gambar 4.6. Tampilan Halaman Bobot dan Normalisasi
45 Gambar 4.5. Tampilan Halaman Stemming
45 Gambar 4.4. Tampilan Halaman Proses Crawling
44 Gambar 4.3. Tampilan Halaman Baca
44 Gambar 4.2. Tampilan Halaman Pencarian
40 Gambar 3.9. General Architecture
Halaman
39 Gambar 3.8. Diagam Use case
33 Gambar 3.7. Flowchart Pencarian
31 Gambar 3.6. Flowchart Menghitung Relevansi
28 Gambar 3.5. Flowchart Proses Normalisasi
26 Gambar 3.4. Flowchart Proses Stemming
25 Gambar 3.3. Flowchart Proses Stopwords
24 Gambar 3.2. Flowchart Text Preprocessing
10 Gambar 3.1. Flowchart Sistem
8 Gambar 2.4. Arsitektur Focused Crawler
6 Gambar 2.3. Arsitektur Search Engine
5 Gambar 2.2. Hasil Pencarian dari Archie
Gambar 2.1. Tampilan dari Arhie53