FOCUSED CRAWLER UNTUK MENGOPTIMALKAN PENCARIAN JURNAL MENGGUNAKAN METODE PORTER STEMMER SKRIPSI CYNTHIA ARILLA SEMBIRING 091402124

  

FOCUSED CRAWLER UNTUK MENGOPTIMALKAN

PENCARIAN JURNAL MENGGUNAKAN

METODE PORTER STEMMER

SKRIPSI

CYNTHIA ARILLA SEMBIRING

091402124

  

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

2014

  FOCUSED CRAWLER UNTUK MENGOPTIMALKAN

PENCARIAN JURNAL MENGGUNAKAN

METODE PORTER STEMMER

  SKRIPSI Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah

  Sarjana Teknologi Informasi

CYNTHIA ARILLA SEMBIRING

  091402124 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGIINFORMASI UNIVERSITAS SUMATERA UTARA MEDAN

  2014

  

PERSETUJUAN

  Judul : FOCUSED CRAWLER UNTUK MENGOPTIMALKAN PENCARIAN JURNAL MENGGUNAKAN METODE PORTER STEMMER

  Kategori : SKRIPSI Nama : CYNTHIA ARILLA SEMBIRING Nomor Induk Mahasiswa : 091402124 Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI Fakultas : ILMU KOMPUTER DAN TEKNOLOGI

  INFORMASI (FASILKOM-TI) UNIVERSITAS SUMATERA UTARA

  Diluluskan di Medan, 29 Agustus 2014

  Komisi Pembimbing : Pembimbing 2 Pembimbing 1 Dani Gunawan, S.T., M.T. M. Andri Budiman,ST.,M.Comp.Sc., M.E.M.

  NIP 198209152012121002 NIP 197510082008011011 Diketahui/Disetujui oleh Program Studi S1 Teknologi Informasi Ketua, M. Anggia Muchtar,S.T., MM.IT.

  NIP 198001102008011010

  

PERNYATAAN

FOCUSED CRAWLER UNTUK MENGOPTIMALKAN

  PENCARIAN JURNAL MENGGUNAKAN METODE PORTER STEMMER SKRIPSI Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

  Medan, 29 Agustus 2014 Cynthia Arilla Sembiring 091402124

UCAPAN TERIMA KASIH

  Puji dan syukur penulis sampaikan kehadirat Tuhan Yesus Kristus yang telah memberikan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh ijazah Sarjana Teknologi Informasi, Program Studi S1 Teknologi Informasi Universitas Sumatera Utara. Untuk itu penulis mengucapkan terima kasih kepada:

  1. Skripsi ini penulis persembahkan untuk kedua orang tua dan keluarga penulis yang telah memberikan dukungan dan motivasi, ayah penulis Drs.

  Pancaria Sembiring, M.BA dan ibu penulis Lasmaria Sitorus yang selalu sabar dalam mendidik dan membesarkan penulis. Adik penulis Yudhistira Sembiring dan Yudhawira Sembiring yang selalu memberikan dorongan dan dukungan kepada penulis.

  2. Bapak M. Andri Budiman, ST., M.Comp.Sc., M.E.M. dan Bapak Dani Gunawan, S.T., M.T. selaku dosen pembimbing penulis yang telah meluangkan waktu, pikiran, saran, dan kritiknya untuk penulis dalam menyelesaikan skripsi ini.

  3. Bapak Dedy Arisandi, S.T., M.Kom. dan Ibu Sarah Purnamawati, S.T., M.Sc. yang telah bersedia menjadi dosen penguji dan memberikan saran dan kritik yang membangun dalam penyelesaian skripsi ini.

  4. Ketua dan Sekretaris Program Studi S1 Teknologi Informasi, Bapak M.

  Anggia Muchtar, S.T., MM.IT. dan Bapak Mohammad Fadly Syahputra, B.Sc., M.Sc.IT.

  5. Seluruh dosen Departemen Teknologi Informasi dan Ilmu Komputer USU yang telah memberikan ilmu, dukungan, arahan dan bantuannya selama proses perkuliahan, serta Ibu Delima dan Bang Faisal, sebagai staf Tata Usaha Program Studi Teknologi Informasi Universitas Sumatera Utara.

  6. Erwin Sitorus yang telah memberikan dukungan kepada penulis selama ini.

  7. Sahabat-sahabat yang selalu mendukung dan memberi semangat kepada penulis, Fida Elvi Anderia Sebayang, S.TI., Stella Maris Harefa, S.TI., Ade Chania Sion Sagala, S.TI., Riska Vinesia Butarbutar, S.TI., Jihan Meutia Fauzen, S.TI., Annifa Iqramitha, S.TI., dan semua teman angkatan 2009.

  8. Sahabat penulis Yustira Sinaga, S.E., Rotua Panjaitan, S.E. dan Venta Sitorus S.E., yang selalu mendoakan dan memberi semangat.

  9. Seluruh rekan kuliah sejawat yang tidak dapat disebutkan satu persatu. Penulis menyadari bahwa masih banyakkekurangan dalam skripsi ini, untuk itu penulis mengharapkan saran dan kritik yang bersifat membangun dari semua pihak

  

ABSTRAK

  Maraknya perkembangan media online seperti jurnal ilmiah membuat seseorang sulit untuk menemukan jurnal yang sesuai dengan yang diinginkan. Oleh sebab itu, dibutuhkan sebuah aplikasi pencarian jurnal dengan menampilkan jurnal terkait (related post) dari jurnal yang dicari sehingga dapat mengoptimalkan pencarian jurnal. Penelitian ini menggunakan teknik focused crawler yaitu teknik untuk mengunduh url dan konten yang ada pada suatu halaman website tertentu dan algoritma Porter

  

stemmer untuk mengubah kata berimbuhan ke bentuk kata dasar. Focused crawler

  juga digunakan untuk menghitung nilai bobot dan relevansi. Nilai relevansi dibutuhkan agar dapat diketahui jurnal yang memiliki nilai terdekat dengan jurnal yang lainnya (related post). Hasil Pengujian menyimpulkan bahwa semakin banyak data jurnal maka akan semakin dekat nilai relevansi masing-masing jurnal, sehingga dapat mengoptimalkan pencarian jurnal.

  Kata kunci:focused crawler, crawling, Porter stemmer, relevansi, related post, search engine, jurnal.

  

FOCUSED CRAWLER TO OPTIMIZE SEARCHING OF JOURNAL USING

PORTER STEMMER ALGORITHM

ABSTRACT

  The plethora of online media such as scientific journals, can make people really get difficulties to find the appropriate journals as they need. Therefore, an application of journal searching which searching related journal or related post is needed. This research uses focused crawler technique as a technique to download url and content in certain pages of a website and the Porter stemmer algorithm to transmute the affix word to become basic words. Focused crawler technique is also used to the weight of the stemmed word and its relevancy. Relevant value is needed to know the closest journal which has the closest values to the other journals (related post). The result of the research concludes that more journals are searched the more relevant the value we get and thus the search is optimized.

  Keywords: focused crawler, crawling, Porter stemmer, relevance, related post, search engine, journal.

DAFTAR ISI

  Halaman PERSETUJUAN ii

  PERNYATAAN iii

  UCAPAN TERIMA KASIH iv

  ABSTRAK v

  ABSTRACT vi

  DAFTAR ISI viii

  DAFTAR TABEL ix

  DAFTAR GAMBAR x

  BAB 1 PENDAHULUAN

  1

  1.1. Latar Belakang

  2

  1.2. Rumusan Masalah

  2

  1.3. Batasan Masalah

  2

  1.4. Tujuan Penelitian

  3

  1.5. Manfaat Penelitian

  3

  1.6. Metodologi Penelitian

  3

  1.7. Sistematika Penulisan

  4 BAB 2 TINJAUAN PUSTAKA

  5

  2.1. Search Engine

  5

  2.1.1. Sejarah Search Engine

  5

  2.1.2. Prinsip Umum Search Engine

  6

  2.1.3. Cara Kerja Search Engine

  7

  2.1.4. Sifat Search Engine

  8

  2.1.5. Algoritma Umum dalam Search Engine

  9

  2.2. Focused Crawler

  10

  2.3. Algoritma Porter Stemmer

  12

  2.4. Bahasa Pemrograman PHP

  17

  2.5. DatabaseMySQL

  18

  2.6. Penelitian Terdahulu

  18 BAB 3 ANALISIS DAN PERANCANGAN SISTEM

  21

  3.1. Analisis Data

  21

  3.1.1. Data Konten (Data Jurnal)

  21

  3.1.2. Tabel_Keyword

  22

  3.1.3. Tabel_Relevansi

  23

  3.2. Analisis Sistem

  23

  3.2.1. Admin

  23

  3.2.1.1. Text Preprocessing

  25

  3.2.1.2. Penghapusan Stopwords

  26

  3.2.1.3. StemmingPorter Stemmer

  27

  3.2.1.4. Focused Crawler

  30

  3.2.2. User

  39

  3.3. Perancangan Sistem

  40

  3.3.1. DiagramUse Case

  40

  3.3.2. Definisi Use Case

  40

  3.3.3. General Architecture

  42 BAB 4 IMPLEMENTASI DAN PENGUJIAN

  43

  4.1. Implementasi Sistem

  43

  4.1.1. Spesifikasi Perangkat Keras dan

  43 Perangkat Lunak yang Digunakan

  4.1.2. Tampilan Halaman Utama User

  43

  4.1.3. Tampilan Halaman Pencarian

  44

  4.1.4. Tampilan Halaman Baca

  45

  4.1.5. Tampilan Halaman Proses Crawling

  45

  4.1.6. Tampilan Halaman Stemming

  46

  4.1.7. Tampilan Halaman Bobot dan Normalisasi

  46

  4.1.8. Tampilan Halaman Tabel Relevansi

  47

  4.2. Pengujian Sistem

  47

  4.2.1. Pengujian Sistem Tahap Crawling

  47

  4.2.2. Hasil Pengujian Proses Stemming

  48

  4.2.3. Hasil Pengujian Bobot dan Normalisasi

  49

  4.2.4. Hasil Pengujian Nilai Relevansi

  49

  4.2.5. Hasil Pengujian Pencarian

  50 BAB 5 KESIMPULAN DAN SARAN

  55

  5.1. Kesimpulan

  55

  5.2. Saran

  55 DAFTAR PUSTAKA

  56

  • –ed and –ing rules

  17 Tabel 2.10. Penelitian Terdahulu

  41 Tabel 4.1. Tabel Perbandingan Jurnal

  37 Tabel 3.7. Definisi Use case

  34 Tabel 3.6. Nilai Relevansi = 0

  32 Tabel 3.5. Tabel Menentukan Nilai relevansi

  23 Tabel 3.4. Proses Normalisasi

  22 Tabel 3.3. Tabel_Relevansi

  21 Tabel 3.2. Tabel_Keyword

  20 Tabel 3.1. Tabel_Konten

  17 Tabel 2.9. Aturan Stemming Step 5b

  

DAFTAR TABEL

  16 Tabel 2.8. Aturan Stemming Step 5a

  16 Tabel 2.7. Aturan Stemming Step 4

  15 Tabel 2.6. Aturan Stemming Step 3

  15 Tabel 2.5.Aturan Stemming Step 2

  14 Tabel 2.4.Aturan Stemming Step 1c

  14 Tabel 2.3.Continued for

  13 Tabel 2.2.Aturan Stemming Step 1b

  Halaman Tabel 2.1.Aturan Stemming Step 1a

  50

  

DAFTAR GAMBAR

  42 Gambar 4.1. Tampilan Halaman Utama User

  53 Gambar 4.13. Hasil Pengujian Pencarian Jurnal (2)

  50 Gambar 4.12. Hasil Pengujian Pencarian Jurnal (1)

  49 Gambar 4.11. Hasil Pengujian Nilai Relevansi

  48 Gambar 4.10. Hasil Pengujian Bobot dan Normalisasi

  48 Gambar 4.9. Hasil Pengujian Proses Stemming

  47 Gambar 4.8. Database Tabel_Konten

  47 Gambar 4.7. Tampilan Halaman Relevansi

  46 Gambar 4.6. Tampilan Halaman Bobot dan Normalisasi

  45 Gambar 4.5. Tampilan Halaman Stemming

  45 Gambar 4.4. Tampilan Halaman Proses Crawling

  44 Gambar 4.3. Tampilan Halaman Baca

  44 Gambar 4.2. Tampilan Halaman Pencarian

  40 Gambar 3.9. General Architecture

  Halaman

  39 Gambar 3.8. Diagam Use case

  33 Gambar 3.7. Flowchart Pencarian

  31 Gambar 3.6. Flowchart Menghitung Relevansi

  28 Gambar 3.5. Flowchart Proses Normalisasi

  26 Gambar 3.4. Flowchart Proses Stemming

  25 Gambar 3.3. Flowchart Proses Stopwords

  24 Gambar 3.2. Flowchart Text Preprocessing

  10 Gambar 3.1. Flowchart Sistem

  8 Gambar 2.4. Arsitektur Focused Crawler

  6 Gambar 2.3. Arsitektur Search Engine

  5 Gambar 2.2. Hasil Pencarian dari Archie

Gambar 2.1. Tampilan dari Arhie

  53