IMPLEMENTASI PROSES PENCARIAN TEKS DENGAN METODE VECTOR SPACE MODEL PADA SEARCH ENGINE DALAM ENSIKLOPEDIA LAMPUNG BERBASIS WEB

ABSTRAK

IMPLEMENTASI PROSES PENCARIAN TEKS DENGAN METODE
VECTOR SPACE MODEL PADA SEARCH ENGINE DALAM
ENSIKLOPEDIA LAMPUNG BERBASIS WEB

Oleh

INDAH DWI TIARA

Penelitian ini membahas metode pencarian kata yang digunakan search engine
pada website Ensiklopedia Lampung. Dalam proses pencarian teks pada website
diterapkan metode vector space model untuk mengukur kemiripan anatara suatu
dokumen dengan suatu query.Kemiripan tersebut diukur berdasarkan perhitungan
nilai cosinus dari dua vektor yaitu dokumen dan kata kunci .

Pada aplikasi ini, search engine yang digunakan dikembangkan dari aplikasi
www.spider.eu yang memberikan sejumlah alamat website yang dapat dikunjungi
dengan teknik spider atau lebih dikenal dengan teknik crawler.
Kata Kunci: Crawler, Search Engine, Metode Vector Space Model.


ABSTRACT

THE IMPLEMENTASI OF TEXT SEARCHING PROCESS WITH
VECTOR SPACE MODEL ON SEARCH ENGINE FOR LAMPUNG
ENCYCLOPEDIA WEB-BASED

BY

INDAH DWI TIARA

The research discusses abaout method of text searching used for search engine on
website of Lampung Encyclopedia. The process of text searching uses vector
space model to count the correspondence between document and query. The
correspondance is counted. By using the counting of cosinus value in to vector,
they are document and query.

In this applications, Search engine is developed from www.spider.eu, serach
engine that gives some website addresses to be visited using spider technic or well
known as crawler technic.


Key Word: Crawler, Search Engine, Metode Vector Space Model.

BIODATA DIRI

Nama

: Indah Dwi Tiara

Tempat Lahir

: Bandar Lampung

Tgl Lahir

: 02 Agustus 1989

Agama

: Islam


NPM

: 0717032006

Fakultas

: Maatematika dan Ilmu Pengetahuan Alam

Jurusan/Prodi

: Ilmu Komputer/Ilmu Komputer

IPK

: 2.89

Tgl Lulus Ujian Skripsi

: 4 Mei 2012


Alamat

: Jl. Griya Nuza Blok Z No.5 Way Halim Permai
Bandar Lampung

Asal SMA

: SMA Negeri 1 Natar

Nama Orang Tua

: Syamsu

Pembimbing

: 1.Didik Kurniawan, S.Si, M.T
2. Amanto, S.Si, M.Si

Penguji


: Ir. Machudor Yusman, M.Kom.

Tes Toefl

: 1. Nomor

Judul Skripsi

: 3018/UN.26/14/DT/2012

2. Tanggal

: 26 April 2012

3. Nilai

: 480

: IMPLEMENTASI PROSES PENCARIAN TEKS
DENGAN METODE VECTOR SPACE MODEL

PADA SEARCH ENGINE DALAM ENSIKLOPEDIA
LAMPUNG BERBASIS WEB

ABSTRACT

THE IMPLEMENTASI OF TEXT SEARCHING PROCESS WITH
VECTOR SPACE MODEL ON SEARCH ENGINE FOR LAMPUNG
ENCYCLOPEDIA WEB-BASED

BY

INDAH DWI TIARA

The research discusses abaout method of text searching used for search engine on
website of Lampung Encyclopedia. The process of text searching uses vector
space model to count the correspondence between document and query. The
correspondance is counted. By using the counting of cosinus value in to vector,
they are document and query.

In this applications, Search engine is developed from www.spider.eu, serach

engine that gives some website addresses to be visited using spider technic or well
known as crawler technic.

Key Word: Crawler, Search Engine, Metode Vector Space Model.

ABSTRAK

IMPLEMENTASI PROSES PENCARIAN TEKS DENGAN METODE
VECTOR SPACE MODEL PADA SEARCH ENGINE DALAM
ENSIKLOPEDIA LAMPUNG BERBASIS WEB

Oleh

INDAH DWI TIARA

Penelitian ini membahas metode pencarian kata yang digunakan search engine
pada website Ensiklopedia Lampung. Dalam proses pencarian teks pada website
diterapkan metode vector space model untuk mengukur kemiripan anatara suatu
dokumen dengan suatu query.Kemiripan tersebut diukur berdasarkan perhitungan
nilai cosinus dari dua vektor yaitu dokumen dan kata kunci .


Pada aplikasi ini, search engine yang digunakan dikembangkan dari aplikasi
www.spider.eu yang memberikan sejumlah alamat website yang dapat dikunjungi
dengan teknik spider atau lebih dikenal dengan teknik crawler.
Kata Kunci: Crawler, Search Engine, Metode Vector Space Model.

IMPLEMENTASI PROSES PENCARIAN TEKS DENGAN METODE
VECTOR SPACE MODEL PADA SEARCH ENGINE DALAM
ENSIKLOPEDIA LAMPUNG BERBASIS WEB
( SKRIPSI )

Oleh :
Indah Dwi Tiara
0717032006

JURUSAN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS LAMPUNG
2012


DAFTAR GAMBAR

Gambar

Halaman

2.1 Tampilan Sistem Pencarian Lengkap .......................................................

21

2.2 Desain Arsitektur Web Crawling ..............................................................

27

2.3 Desain Arsitektur World Wide Web ..........................................................

39

3.1 Desain Interface ........................................................................................


48

3.2 Desain Arsitektur Pengembangan Sistem Pada Metode Prototype ..........

49

4.1 DFD Level 0 Pada Sistem Search Engine Ensiklopedia Lampung ..........

52

4.2 DFD Link Dokumen .................................................................................

53

4.3 DFD Query ................................................................................................

55

4.4 Use Case Diagram Sistem Ensiklopedia Lampung ...................................


56

4.5 ERD ...........................................................................................................

57

4.6 Form Database Spider Db .........................................................................

58

4.7 Form Database Link Keyword ..................................................................

59

4.8 Form Menu Utama ....................................................................................

67

4.9 Form Data Pencarian .................................................................................

68

4.10 Form Ranking Halaman Web ..................................................................

68

4.11 Form Hasil Pencarian Data ......................................................................

69

4.12 Form Admin Login .................................................................................

70

4.13 Form Pengindexan ..................................................................................

70

4.14 Form Pengindexan URL .........................................................................

71

4.15 Form Akhir Pengindexan ........................................................................

71

4.16 Form Daftar Hasil Pengindexan ..............................................................

72

4.17 Form Statistic ..........................................................................................

72

4.18 Diagram Grafik Penilaian Konten / Isi Pada Sistem ...............................

83

4.19 Diagram Hasil Perhitungan Dari Penilaian Proses Interaksi ...................

84

DAFTAR ISI

Halaman
DAFTAR ISI .................................................................................................. i
DAFTAR GAMBAR ..................................................................................... v
DAFTAR TABEL

vi

I. PENDAHULUAN ...................................................................................... 1
1.1 Latar Belakang .................................................................................... 1
1.2 Rumusan Masalah ................................................................................ 3
1.3 Batasan Masalah ................................................................................... 3
1.4 Tujuan Penelitian .................................................................................. 4
1.5 Manfaat Penelitian ................................................................................ 4

II. TINJAUAN PUSTAKA ........................................................................... 6
2.1 Metode Search Engine Vector Space Model ........................................ 6
2.2 Penilaian Pembobotan Panjang Dan Model Ruang Vektor ................. 7
2.2.1 Jangka Frekuensi Dan Bobot ...................................................... 7
2.2.2 Invers Dokumen Frekuensi ........................................................ 8
2.2.3 Pembobotan tf-idf ....................................................................... 10
2.2.4 Ruang Vektor Model Untuk Mencetak ..................................... 12
2.2.4.1 Perkalian Titik ............................................................... 12
2.2.4.2 Vektor Sebagian Pertanyaan ......................................... 14
2.2.5 Fungsi Varian tf-idf ................................................................... 15
2.2.5.1 Sublinear tf-idf ............................................................... 15

iii

2.2.5.2 Normalisasi Maksimum tf ............................................. 16
2.3 Sistem Pencarian Komputasi Skor Secara Lengkap.............................. 17
2.3.1 Efisien Penilaian Dan Peringkat ...................................................17
2.3.1.1 Indeks Eliminasi ... ............................................................18
2.3.2 Komponen Dari Informasi Temu Kembali ................................ 19
2.3.2.1 Indeks Berjenjang .......................................................... 19
2.3.2.2 Merancang Fungsi Parsing Dan Penilaian ..................... 20
2.3.3 Ruang Vector Scoring dan Interaksi Permintaan Operator ........ 22
2.3.3.1 Pengambilan Boolean .................................................... 23
2.3.3.2 Wilcard Quries ............................................................... 24
2.3.3.3 Frasa Query .................................................................... 24
2.4 Ensiklopedia ......................................................................................... 25
2.5 Pengertian Search Engine ..................................................................... 26
2.5.1 Kategori Search Engine Secara Umum ...................................... 27
2.5.2 Cara Kerja Search Engine .......................................................... 29
2.6 Webmaster Dan Search Engine ............................................................ 34
2.7 Optimasi Penggunaan Keyword ........................................................... 35
2.8 WWW ( World Wide Web ) .................................................................. 38

III. METODOLOGI PENELITIAN .......................................................... 40
3.1 Waktu dan Tempat Penelitian ............................................................. 40
3.2 Bahan Dan Alat .................................................................................. 40
3.3 Langkah Penelitian ............................................................................. 41

IV. HASIL DAN PEMBAHASAN .............................................................. 50
4.1 Penerapan Metode Prototype ............................................................ 51
4.1.1 Rencana Kebutuhan Analisis .................................................. 51
4.1.1.1 Data Flow Diagram ( DFD ) ....................................... 51
4.1.1.2 DFD Level 0 ............................................................... 52
4.1.1.3 DFD Link Dokumen ................................................... 52
4.1.1.4 Use Case Diagram ...................................................... 55
4.1.1.5 ERD ............................................................................ 57

iv

4.1.1.6 Perancangan Database ................................................. 57
4.2 Perancangan Source Code................................................................. 59
4.2.1 Source Code Koneksi Database ............................................... 60
4.2.2 Source Code Searching Menu Utama ..................................... 61
4.2.3 Source Code Indexing URL .................................................... 63
4.2.4 Source Code Function ............................................................. 66
4.3 Implementasi Sistem .......................................................................... 66
4.3.1 Form Menu Utama ................................................................... 67
4.3.2 Form Data Pencarian................................................................ 67
4.3.3 Form Rangking Halaman Web ................................................ 68
4.3.4 Form Hasil Pencarian Data ..................................................... 69
4.3.5 Form Admin Login .................................................................. 69
4.3.6 Form Pengindexan .................................................................. 70
4.3.7 Form Pengindexan URL .......................................................... 70
4.3.8 Form Akhir Pengindexan ......................................................... 71
4.3.9 Form Daftar Hasil Pengindexan ............................................... 71
4.3.10 Form Statistic ......................................................................... 72
4.4 Pengujian Sistem ................................................................................ 73
4.4.1 Pengujian Perhitungan Bobot .................................................. 73
4.4.2 Pengujian Sistem Kuisioner ..................................................... 80
4.4.3 Analisis Hasil Pengujian .......................................................... 84

V. KESIMPULAN DAN SARAN
5.1. Kesimpulan ........................................................................................ 86
5.2. Saran .................................................................................................. 87

DAFTAR PUSTAKA .................................................................................... 88
LAMPIRAN ................................................................................................... 89

DAFTAR PUSTAKA

Anh, Vo Ngoc, and Alistair Moffat. 2005. Inverted index compression using
Word aligned binary codes. At: http://dx.doi.org/10.1023/B:INRT

Anh, Vo Ngoc, and Alistair Moffat. 2006b. Pruned query evaluation using precomputed impacts. At: http://doi.acm.org/

Bartell, Brian Theodore. 1994. Optimizing ranking functions: A connectionist
approach to adaptive information retrieval. San Diego: University of California.

Bar-Yossef, Ziv, and Maxim Gurevich. 2006. Random sampling from a search
engine’s index. At: http://doi.acm.org/10.1145/
Brain Pinkerton 2000. WebCrawler:Finding

what people want. Washington:

University of Washington.

Brown, Eric W. 1995. Execution Performance Issues in Full Text Information
Retrieval. , Amherst: University of Massachusets.

Carmel, David, Doron Cohen, Ronald Fagin, Eitan Farchi, Michael Herscovici,
Yoelle S. Maarek, and Aya Soffer. 2001. Static index pruning for information
retrieval systems. At: http://doi.acm.org/

http://id.wikipedia.org/wiki/Ensiklopedia.

Kristhoper David Harjono, Vector Pada Metode Search Vector Space,
INTEGRAL Vol. 10 No. 2, Juli 2005

Ledford, Jerri L. 2007. Search Engine Optimization Bible. Wiley Publishing, Inc.
Indiana. 411 Hlm.

Jonathan Sarwono. 2010. Search Engine. Yogyakarta

DAFTAR TABEL

Tabel

Halaman

2.1 Frekuensi Koleksi Dan Frekuensi Dokumen Yang Berbeda ..................... 8
2.2 Contoh Nilai df .......................................................................................... 10
2.3 Nilai Dokumen tf ........................................................................................ 12
2.4 Nilai tf Euclidean Ternormalisasi Untuk Dokumen .................................. 13
4.1 Term Dokumen .................................. ...................................................... 76
4.2 Hasil Perhitungan ............................................................... ...................... 79
4.3 Perhitungan Kemiripan ............................................................................. 79
4.4 Ranking ..................................................................................................... 79
4.5 Evaluasi Kuisioner Penilaian Konten / Isi Sistem ..................................... 81
4.6 Evaluasi Kuisioner Penilaian Proses Interaksi .......................................... 82

MOTTO

“Hasil dari suatu perjuangan adalah hal yang bernilai , tetapi
perjuangan untuk mendapatkannya jauh lebih bernilai “
(Indah Dwi Tiara)

“Hai orang-orang yang beriman, Jadikanlah sabar dan shalatmu
Sebagai penolongmu, sesungguhnya Allah beserta orang-orang yang
sabar” (Al-Baqarah: 153)

Tugas kita bukanlah untuk berhasil. Tugas kita adalah untuk mencoba, karena didalam
mencoba itulah kita menemukan dan belajar membangun kesempatan untuk berhasil
( Mario Teguh )

PERSEMBAHAN

Kupersembahkan karyaku ini kepada:
Allah SWT atas limpahan berkat dan rahmat-Nya jualah sehingga skripsi ini
dapat terselesaikan
Kupersembahkan karya sederhana penuh perjuangan dan kesabaran ini sebagai
ungkapan rasa sayangku dan baktiku kepada :
Kedua Orangtuaku tercinta, yang telah mendidik dan membesarkanku serta
mencurahkan segala kasih sayang dan perhatiannya sejak aku dilahirkan hingga
kini ku dewasa.
Dan seseorang yang selalu menemani dan memberikanku semangat serta
motivasi dan doa yang tlah diberikan terhadap penulis agar tetap berjuang dan
berusaha . ( AR )

RIWAYAT HIDUP

Penulis dilahirkan di Tanjung Karang, Bandar Lampung
pada tanggal 2 Agustus 1989, sebagai anak ke dua dari dua
bersaudara, dari pasangan Bapak Syamsu dan Ibu Dra.Siti
Nurjanah

Pendidikan Sekolah Dasar (SD) diselesaikan di SD ALAZHAR,Bandar Lampung pada tahun 2001, Sekolah
Lanjutan Tingkat Pertama (SLTP) di SLTPN 1 Bandar Lampung pada tahun
2004, dan Sekolah Menengah Atas (SMA) di SMAN 1 Natar Lampung Selatan
pada tahun 2007.

Tahun 2007, penulis terdaftar sebagai mahasiswi Jurusan Ilmu Komputer Fakultas
Matematika Ilmu Pengetahuan Alam Unila melalui jalur PKAB Selama menjadi
mahasiswi , penulis aktif berorganisasi diantaranya adalah :
1. Anggota Generasi Muda Himpunan Mahasiswa Jurusan Matematika
(GEMATIKA) FMIPA pada tahun 2007
2.

Anggota Himpunanan Mahasiswa Jurusan Matematika (HIMATIKA) pada
tahun 2008-2009

Pada bulan Juli sampai dengan Agustus tahun 2010, penulis melakukan kerja
praktik di PT.Telekomunikasi Indonesia, Tbk. yang beralamat di Jl. Sultan Agung
No.1 Kedaton Bandar Lampung.

SANWACANA

Puji syukur penulis ucapkan kehadirat ALLAH SWT, karena atas rahmat dan
hidayah-Nya skripsi ini dapat diselesaikan.
Skripsi dengan judul “Implementasi Proses Pencarian Teks Dengan Metode
Vector Space Model Pada Search Engine Dalam Ensiklopedia Lampung
Berbasis Web” adalah salah satu syarat untuk memperoleh gelar sarjana Ilmu
Komputer di Universitas Lampung.

Dalam kesempatan ini penulis mengucapkan terimakasih kepada berbagai pihak
yang secara langsung maupun tidak langsung telah membantu penulis sehingga
skripsi ini dapat terselesaikan. Penulis mengucapkan terimakasih kepada:
1. Bapak Didik Kurniawan, S.Si, M.T.,selaku pembimbing pertama yang telah
memberikan bimbingan dan motivasi dalam pembuatan skripsi ini.
2. Bapak Amanto, S.Si, M.Si., selaku dosen pembimbing kedua yang telah
memberikan bimbingan, saran dan koreksi dalam pembuatan skripsi ini.
3. Bapak Ir.Machudor Yusman,M.Kom., selaku Ketua Jurusan Ilmu Komputer
dan pembahas yang telah memberikan koreksi dan saran dalam pembuatan
skripsi ini.
4. Bapak Dwi Sakethi, S.Si, M.Kom., selaku Sekretaris Jurusan Ilmu Komputer
Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Lampung.

5. Bapak Dr. Sutyarso, M.S., selaku Dekan Fakultas Matematika dan Ilmu
Pengetahuan Alam.
6. Ibu Fitriani, S.Si, M.Sc., selaku pembimbing akademik selama penulis
menjadi mahasiswa Ilmu Komputer Fakultas Matematika dan Ilmu
Pengetahuan Alam Universitas Lampung.
7. Seluruh dosen dan karyawan Jurusan Matematika Fakultas Matematika dan
Ilmu Pengetahuan Alam.
8. Ayahanda Syamsu Ibunda Dra.Siti Nurjanah, serta kakak penulis Prarindra
Afwan,S.P., atas saran yang telah diberikan .
9. Teman-teman Ilmu Komputer 2007, terutama, Renny, Nyimas, Winda, Like,
Eko, Anggi, Aziza, Nurhayati, Fitriawan , Cepi, Hendar, Mardonius, Gozali,
Vita, Wika, Sapta, Friska dll.
10. Sahabat-sahabat yang mendukung menyukseskan skripsi ini , terutama Guntur
Budi , Agus Riyadi , Fida Filia , M.Dyaz al-kaisya , Pritta Karianthi , Intan
Puspita , terima kasih atas dukungan dan kebersamaan kalian.

Akhir kata, Penulis menyadari bahwa skripsi ini masih jauh dari kesempurnaan,
akan tetapi sedikit harapan semoga skripsi yang sederhana ini dapat berguna dan
bermanfaat bagi kita semua. Amiin.

Bandar Lampung, 4 Mei 2012
Penulis,

Indah Dwi Tiara

Tf

idf

Wdt = tf . idf

Q
D1
D2
D3
D4
D5
D6
D7
D8
Term
Q D1 D2 D3 D4 D5 D6 D7 D8 D9 df D / df Log10 (D / df)
1
1
9
0,954
0,954
Rakor
1
1
2
4,5
0,653
0,653
0,653
Pemerintah
1
2
1
2
2
8
1,125
0,051
0,051
2,601
0,051
2,601
2,601
Kota
3
3
3
0,477
1,431
Metro
2
2
4,5
0,653
1,306
Walikota
1
1
9
0,954
0,954
Karang
1
1
9
0,954
0,954
Teluk
1
1
9
0,954
0,954
Praja
1
1
2
4,5
0,653
0,653
Daerah
1
1
9
0,954
0,954
Ilmu
1
1
9
0,954
0,954
Pertanian
1
1
9
0,954
0,954
Surya
1
1
9
0,954
0,954
Dharma
2
2
4,5
0,653
1,306
Sekolah
2
2
4,5
0,653
1,306
Tinggi
1
1
9
0,954
0,954
Perkebunan
5
1
6
1,5
0,176
0,88 0,176
Bandar
1
1
1
1
1
1
1
1
8 1,125
0,051
0,051 0,051 0,051 0,051 0,051 0,051 0,051 0,051
Lampung
1
2
1
4
2,25
0,352
0,352 0,704
0,352
Kabupaten
1
1
9
0,954
0,954 0,954
Barat
1
1
9
0,954
1,306
Tuan
2
2
4,5
0,653
0,954
Rumah
1
1
9
0,954
1,431
Sendiri
3
3
3
0,477
0,954
Bahasa
1
1
9
0,954
0,954
Bentuk
1
1
9
0,954
0,954
Tulisan
1
1
9
0,954
0,954
Hubungan
1
1
1
0,954
0,954
Aksara
9

Pallawa

1

1

9

0,954

D9

0,653

0,051

0,954

82

India
Selatan
Geografis

1
1

1
2

1

Bujur
Timur

1
1
1

1
1
1

Lintang
Selatan
Berjarak

1
1
1

1
1
1

9
4,5
9

0,954
0,653

0.954
0,653 0,653

9
9

0,954
0,954
0,954

0,954
0,954
0,954

1
1
1

9
9

0,954
0,954
0,954

0,954
0,954
0,954

Pesawaran
Potensi

1
1

1
1

1
1

9
9

0,954
0,954

0,954
0,954

Agraris

1

1

1

9

0,954

0,954

83

D1

6,765

2,601

D2

2,601

2,601

D3

WD5 * Wdi
D4
D5
D6

D7

6,765

2,601

D8

D9

6,765

2,601

2,601

2,601

2,601

2,601

Q

D1

D2

Panjang Vektor
D3
D4
D5
D6

0,000
0,000
2,601
0,000
0,000
0,000
0,000
0,000
0,000

0,910
0,426
6,765
2,047
1,705

2,601

6,765

0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
2,601

D7

D8

D9

0,426
6,765

0,910
0,910
0,910
0,426

6,765

6,765

0,123

0,495

0,426
0,910
0,910
0,910
0,910
1,705
1,705
0,910
0,744
6,765

0,030
6,765 6,765

6,765

6,765

6,765

0,123
0,910
0,910
1,705
0,910
2,047
0,910
0,910
0,910
0,910
0,910
0,910
0,426

0,426

0,910
0,910
0,910
0,910
0,910
0,910
0,910
0,910
0,910
9,366

5,202

9,366

2,601

2,601

2,601

2,601

6,765

2,601

5,202

18,741

13,017

22,264 6,795 8,224 10,29 14,698

12,651

9,921

2,280

4,329

3,607

4,718

3,556

3,149

2,606 2,867 3,207 3,833