IMPLEMENTASI PROSES PENCARIAN TEKS DENGAN METODE VECTOR SPACE MODEL PADA SEARCH ENGINE DALAM ENSIKLOPEDIA LAMPUNG BERBASIS WEB
ABSTRAK
IMPLEMENTASI PROSES PENCARIAN TEKS DENGAN METODE
VECTOR SPACE MODEL PADA SEARCH ENGINE DALAM
ENSIKLOPEDIA LAMPUNG BERBASIS WEB
Oleh
INDAH DWI TIARA
Penelitian ini membahas metode pencarian kata yang digunakan search engine
pada website Ensiklopedia Lampung. Dalam proses pencarian teks pada website
diterapkan metode vector space model untuk mengukur kemiripan anatara suatu
dokumen dengan suatu query.Kemiripan tersebut diukur berdasarkan perhitungan
nilai cosinus dari dua vektor yaitu dokumen dan kata kunci .
Pada aplikasi ini, search engine yang digunakan dikembangkan dari aplikasi
www.spider.eu yang memberikan sejumlah alamat website yang dapat dikunjungi
dengan teknik spider atau lebih dikenal dengan teknik crawler.
Kata Kunci: Crawler, Search Engine, Metode Vector Space Model.
ABSTRACT
THE IMPLEMENTASI OF TEXT SEARCHING PROCESS WITH
VECTOR SPACE MODEL ON SEARCH ENGINE FOR LAMPUNG
ENCYCLOPEDIA WEB-BASED
BY
INDAH DWI TIARA
The research discusses abaout method of text searching used for search engine on
website of Lampung Encyclopedia. The process of text searching uses vector
space model to count the correspondence between document and query. The
correspondance is counted. By using the counting of cosinus value in to vector,
they are document and query.
In this applications, Search engine is developed from www.spider.eu, serach
engine that gives some website addresses to be visited using spider technic or well
known as crawler technic.
Key Word: Crawler, Search Engine, Metode Vector Space Model.
BIODATA DIRI
Nama
: Indah Dwi Tiara
Tempat Lahir
: Bandar Lampung
Tgl Lahir
: 02 Agustus 1989
Agama
: Islam
NPM
: 0717032006
Fakultas
: Maatematika dan Ilmu Pengetahuan Alam
Jurusan/Prodi
: Ilmu Komputer/Ilmu Komputer
IPK
: 2.89
Tgl Lulus Ujian Skripsi
: 4 Mei 2012
Alamat
: Jl. Griya Nuza Blok Z No.5 Way Halim Permai
Bandar Lampung
Asal SMA
: SMA Negeri 1 Natar
Nama Orang Tua
: Syamsu
Pembimbing
: 1.Didik Kurniawan, S.Si, M.T
2. Amanto, S.Si, M.Si
Penguji
: Ir. Machudor Yusman, M.Kom.
Tes Toefl
: 1. Nomor
Judul Skripsi
: 3018/UN.26/14/DT/2012
2. Tanggal
: 26 April 2012
3. Nilai
: 480
: IMPLEMENTASI PROSES PENCARIAN TEKS
DENGAN METODE VECTOR SPACE MODEL
PADA SEARCH ENGINE DALAM ENSIKLOPEDIA
LAMPUNG BERBASIS WEB
ABSTRACT
THE IMPLEMENTASI OF TEXT SEARCHING PROCESS WITH
VECTOR SPACE MODEL ON SEARCH ENGINE FOR LAMPUNG
ENCYCLOPEDIA WEB-BASED
BY
INDAH DWI TIARA
The research discusses abaout method of text searching used for search engine on
website of Lampung Encyclopedia. The process of text searching uses vector
space model to count the correspondence between document and query. The
correspondance is counted. By using the counting of cosinus value in to vector,
they are document and query.
In this applications, Search engine is developed from www.spider.eu, serach
engine that gives some website addresses to be visited using spider technic or well
known as crawler technic.
Key Word: Crawler, Search Engine, Metode Vector Space Model.
ABSTRAK
IMPLEMENTASI PROSES PENCARIAN TEKS DENGAN METODE
VECTOR SPACE MODEL PADA SEARCH ENGINE DALAM
ENSIKLOPEDIA LAMPUNG BERBASIS WEB
Oleh
INDAH DWI TIARA
Penelitian ini membahas metode pencarian kata yang digunakan search engine
pada website Ensiklopedia Lampung. Dalam proses pencarian teks pada website
diterapkan metode vector space model untuk mengukur kemiripan anatara suatu
dokumen dengan suatu query.Kemiripan tersebut diukur berdasarkan perhitungan
nilai cosinus dari dua vektor yaitu dokumen dan kata kunci .
Pada aplikasi ini, search engine yang digunakan dikembangkan dari aplikasi
www.spider.eu yang memberikan sejumlah alamat website yang dapat dikunjungi
dengan teknik spider atau lebih dikenal dengan teknik crawler.
Kata Kunci: Crawler, Search Engine, Metode Vector Space Model.
IMPLEMENTASI PROSES PENCARIAN TEKS DENGAN METODE
VECTOR SPACE MODEL PADA SEARCH ENGINE DALAM
ENSIKLOPEDIA LAMPUNG BERBASIS WEB
( SKRIPSI )
Oleh :
Indah Dwi Tiara
0717032006
JURUSAN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS LAMPUNG
2012
DAFTAR GAMBAR
Gambar
Halaman
2.1 Tampilan Sistem Pencarian Lengkap .......................................................
21
2.2 Desain Arsitektur Web Crawling ..............................................................
27
2.3 Desain Arsitektur World Wide Web ..........................................................
39
3.1 Desain Interface ........................................................................................
48
3.2 Desain Arsitektur Pengembangan Sistem Pada Metode Prototype ..........
49
4.1 DFD Level 0 Pada Sistem Search Engine Ensiklopedia Lampung ..........
52
4.2 DFD Link Dokumen .................................................................................
53
4.3 DFD Query ................................................................................................
55
4.4 Use Case Diagram Sistem Ensiklopedia Lampung ...................................
56
4.5 ERD ...........................................................................................................
57
4.6 Form Database Spider Db .........................................................................
58
4.7 Form Database Link Keyword ..................................................................
59
4.8 Form Menu Utama ....................................................................................
67
4.9 Form Data Pencarian .................................................................................
68
4.10 Form Ranking Halaman Web ..................................................................
68
4.11 Form Hasil Pencarian Data ......................................................................
69
4.12 Form Admin Login .................................................................................
70
4.13 Form Pengindexan ..................................................................................
70
4.14 Form Pengindexan URL .........................................................................
71
4.15 Form Akhir Pengindexan ........................................................................
71
4.16 Form Daftar Hasil Pengindexan ..............................................................
72
4.17 Form Statistic ..........................................................................................
72
4.18 Diagram Grafik Penilaian Konten / Isi Pada Sistem ...............................
83
4.19 Diagram Hasil Perhitungan Dari Penilaian Proses Interaksi ...................
84
DAFTAR ISI
Halaman
DAFTAR ISI .................................................................................................. i
DAFTAR GAMBAR ..................................................................................... v
DAFTAR TABEL
vi
I. PENDAHULUAN ...................................................................................... 1
1.1 Latar Belakang .................................................................................... 1
1.2 Rumusan Masalah ................................................................................ 3
1.3 Batasan Masalah ................................................................................... 3
1.4 Tujuan Penelitian .................................................................................. 4
1.5 Manfaat Penelitian ................................................................................ 4
II. TINJAUAN PUSTAKA ........................................................................... 6
2.1 Metode Search Engine Vector Space Model ........................................ 6
2.2 Penilaian Pembobotan Panjang Dan Model Ruang Vektor ................. 7
2.2.1 Jangka Frekuensi Dan Bobot ...................................................... 7
2.2.2 Invers Dokumen Frekuensi ........................................................ 8
2.2.3 Pembobotan tf-idf ....................................................................... 10
2.2.4 Ruang Vektor Model Untuk Mencetak ..................................... 12
2.2.4.1 Perkalian Titik ............................................................... 12
2.2.4.2 Vektor Sebagian Pertanyaan ......................................... 14
2.2.5 Fungsi Varian tf-idf ................................................................... 15
2.2.5.1 Sublinear tf-idf ............................................................... 15
iii
2.2.5.2 Normalisasi Maksimum tf ............................................. 16
2.3 Sistem Pencarian Komputasi Skor Secara Lengkap.............................. 17
2.3.1 Efisien Penilaian Dan Peringkat ...................................................17
2.3.1.1 Indeks Eliminasi ... ............................................................18
2.3.2 Komponen Dari Informasi Temu Kembali ................................ 19
2.3.2.1 Indeks Berjenjang .......................................................... 19
2.3.2.2 Merancang Fungsi Parsing Dan Penilaian ..................... 20
2.3.3 Ruang Vector Scoring dan Interaksi Permintaan Operator ........ 22
2.3.3.1 Pengambilan Boolean .................................................... 23
2.3.3.2 Wilcard Quries ............................................................... 24
2.3.3.3 Frasa Query .................................................................... 24
2.4 Ensiklopedia ......................................................................................... 25
2.5 Pengertian Search Engine ..................................................................... 26
2.5.1 Kategori Search Engine Secara Umum ...................................... 27
2.5.2 Cara Kerja Search Engine .......................................................... 29
2.6 Webmaster Dan Search Engine ............................................................ 34
2.7 Optimasi Penggunaan Keyword ........................................................... 35
2.8 WWW ( World Wide Web ) .................................................................. 38
III. METODOLOGI PENELITIAN .......................................................... 40
3.1 Waktu dan Tempat Penelitian ............................................................. 40
3.2 Bahan Dan Alat .................................................................................. 40
3.3 Langkah Penelitian ............................................................................. 41
IV. HASIL DAN PEMBAHASAN .............................................................. 50
4.1 Penerapan Metode Prototype ............................................................ 51
4.1.1 Rencana Kebutuhan Analisis .................................................. 51
4.1.1.1 Data Flow Diagram ( DFD ) ....................................... 51
4.1.1.2 DFD Level 0 ............................................................... 52
4.1.1.3 DFD Link Dokumen ................................................... 52
4.1.1.4 Use Case Diagram ...................................................... 55
4.1.1.5 ERD ............................................................................ 57
iv
4.1.1.6 Perancangan Database ................................................. 57
4.2 Perancangan Source Code................................................................. 59
4.2.1 Source Code Koneksi Database ............................................... 60
4.2.2 Source Code Searching Menu Utama ..................................... 61
4.2.3 Source Code Indexing URL .................................................... 63
4.2.4 Source Code Function ............................................................. 66
4.3 Implementasi Sistem .......................................................................... 66
4.3.1 Form Menu Utama ................................................................... 67
4.3.2 Form Data Pencarian................................................................ 67
4.3.3 Form Rangking Halaman Web ................................................ 68
4.3.4 Form Hasil Pencarian Data ..................................................... 69
4.3.5 Form Admin Login .................................................................. 69
4.3.6 Form Pengindexan .................................................................. 70
4.3.7 Form Pengindexan URL .......................................................... 70
4.3.8 Form Akhir Pengindexan ......................................................... 71
4.3.9 Form Daftar Hasil Pengindexan ............................................... 71
4.3.10 Form Statistic ......................................................................... 72
4.4 Pengujian Sistem ................................................................................ 73
4.4.1 Pengujian Perhitungan Bobot .................................................. 73
4.4.2 Pengujian Sistem Kuisioner ..................................................... 80
4.4.3 Analisis Hasil Pengujian .......................................................... 84
V. KESIMPULAN DAN SARAN
5.1. Kesimpulan ........................................................................................ 86
5.2. Saran .................................................................................................. 87
DAFTAR PUSTAKA .................................................................................... 88
LAMPIRAN ................................................................................................... 89
DAFTAR PUSTAKA
Anh, Vo Ngoc, and Alistair Moffat. 2005. Inverted index compression using
Word aligned binary codes. At: http://dx.doi.org/10.1023/B:INRT
Anh, Vo Ngoc, and Alistair Moffat. 2006b. Pruned query evaluation using precomputed impacts. At: http://doi.acm.org/
Bartell, Brian Theodore. 1994. Optimizing ranking functions: A connectionist
approach to adaptive information retrieval. San Diego: University of California.
Bar-Yossef, Ziv, and Maxim Gurevich. 2006. Random sampling from a search
engine’s index. At: http://doi.acm.org/10.1145/
Brain Pinkerton 2000. WebCrawler:Finding
what people want. Washington:
University of Washington.
Brown, Eric W. 1995. Execution Performance Issues in Full Text Information
Retrieval. , Amherst: University of Massachusets.
Carmel, David, Doron Cohen, Ronald Fagin, Eitan Farchi, Michael Herscovici,
Yoelle S. Maarek, and Aya Soffer. 2001. Static index pruning for information
retrieval systems. At: http://doi.acm.org/
http://id.wikipedia.org/wiki/Ensiklopedia.
Kristhoper David Harjono, Vector Pada Metode Search Vector Space,
INTEGRAL Vol. 10 No. 2, Juli 2005
Ledford, Jerri L. 2007. Search Engine Optimization Bible. Wiley Publishing, Inc.
Indiana. 411 Hlm.
Jonathan Sarwono. 2010. Search Engine. Yogyakarta
DAFTAR TABEL
Tabel
Halaman
2.1 Frekuensi Koleksi Dan Frekuensi Dokumen Yang Berbeda ..................... 8
2.2 Contoh Nilai df .......................................................................................... 10
2.3 Nilai Dokumen tf ........................................................................................ 12
2.4 Nilai tf Euclidean Ternormalisasi Untuk Dokumen .................................. 13
4.1 Term Dokumen .................................. ...................................................... 76
4.2 Hasil Perhitungan ............................................................... ...................... 79
4.3 Perhitungan Kemiripan ............................................................................. 79
4.4 Ranking ..................................................................................................... 79
4.5 Evaluasi Kuisioner Penilaian Konten / Isi Sistem ..................................... 81
4.6 Evaluasi Kuisioner Penilaian Proses Interaksi .......................................... 82
MOTTO
“Hasil dari suatu perjuangan adalah hal yang bernilai , tetapi
perjuangan untuk mendapatkannya jauh lebih bernilai “
(Indah Dwi Tiara)
“Hai orang-orang yang beriman, Jadikanlah sabar dan shalatmu
Sebagai penolongmu, sesungguhnya Allah beserta orang-orang yang
sabar” (Al-Baqarah: 153)
Tugas kita bukanlah untuk berhasil. Tugas kita adalah untuk mencoba, karena didalam
mencoba itulah kita menemukan dan belajar membangun kesempatan untuk berhasil
( Mario Teguh )
PERSEMBAHAN
Kupersembahkan karyaku ini kepada:
Allah SWT atas limpahan berkat dan rahmat-Nya jualah sehingga skripsi ini
dapat terselesaikan
Kupersembahkan karya sederhana penuh perjuangan dan kesabaran ini sebagai
ungkapan rasa sayangku dan baktiku kepada :
Kedua Orangtuaku tercinta, yang telah mendidik dan membesarkanku serta
mencurahkan segala kasih sayang dan perhatiannya sejak aku dilahirkan hingga
kini ku dewasa.
Dan seseorang yang selalu menemani dan memberikanku semangat serta
motivasi dan doa yang tlah diberikan terhadap penulis agar tetap berjuang dan
berusaha . ( AR )
RIWAYAT HIDUP
Penulis dilahirkan di Tanjung Karang, Bandar Lampung
pada tanggal 2 Agustus 1989, sebagai anak ke dua dari dua
bersaudara, dari pasangan Bapak Syamsu dan Ibu Dra.Siti
Nurjanah
Pendidikan Sekolah Dasar (SD) diselesaikan di SD ALAZHAR,Bandar Lampung pada tahun 2001, Sekolah
Lanjutan Tingkat Pertama (SLTP) di SLTPN 1 Bandar Lampung pada tahun
2004, dan Sekolah Menengah Atas (SMA) di SMAN 1 Natar Lampung Selatan
pada tahun 2007.
Tahun 2007, penulis terdaftar sebagai mahasiswi Jurusan Ilmu Komputer Fakultas
Matematika Ilmu Pengetahuan Alam Unila melalui jalur PKAB Selama menjadi
mahasiswi , penulis aktif berorganisasi diantaranya adalah :
1. Anggota Generasi Muda Himpunan Mahasiswa Jurusan Matematika
(GEMATIKA) FMIPA pada tahun 2007
2.
Anggota Himpunanan Mahasiswa Jurusan Matematika (HIMATIKA) pada
tahun 2008-2009
Pada bulan Juli sampai dengan Agustus tahun 2010, penulis melakukan kerja
praktik di PT.Telekomunikasi Indonesia, Tbk. yang beralamat di Jl. Sultan Agung
No.1 Kedaton Bandar Lampung.
SANWACANA
Puji syukur penulis ucapkan kehadirat ALLAH SWT, karena atas rahmat dan
hidayah-Nya skripsi ini dapat diselesaikan.
Skripsi dengan judul “Implementasi Proses Pencarian Teks Dengan Metode
Vector Space Model Pada Search Engine Dalam Ensiklopedia Lampung
Berbasis Web” adalah salah satu syarat untuk memperoleh gelar sarjana Ilmu
Komputer di Universitas Lampung.
Dalam kesempatan ini penulis mengucapkan terimakasih kepada berbagai pihak
yang secara langsung maupun tidak langsung telah membantu penulis sehingga
skripsi ini dapat terselesaikan. Penulis mengucapkan terimakasih kepada:
1. Bapak Didik Kurniawan, S.Si, M.T.,selaku pembimbing pertama yang telah
memberikan bimbingan dan motivasi dalam pembuatan skripsi ini.
2. Bapak Amanto, S.Si, M.Si., selaku dosen pembimbing kedua yang telah
memberikan bimbingan, saran dan koreksi dalam pembuatan skripsi ini.
3. Bapak Ir.Machudor Yusman,M.Kom., selaku Ketua Jurusan Ilmu Komputer
dan pembahas yang telah memberikan koreksi dan saran dalam pembuatan
skripsi ini.
4. Bapak Dwi Sakethi, S.Si, M.Kom., selaku Sekretaris Jurusan Ilmu Komputer
Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Lampung.
5. Bapak Dr. Sutyarso, M.S., selaku Dekan Fakultas Matematika dan Ilmu
Pengetahuan Alam.
6. Ibu Fitriani, S.Si, M.Sc., selaku pembimbing akademik selama penulis
menjadi mahasiswa Ilmu Komputer Fakultas Matematika dan Ilmu
Pengetahuan Alam Universitas Lampung.
7. Seluruh dosen dan karyawan Jurusan Matematika Fakultas Matematika dan
Ilmu Pengetahuan Alam.
8. Ayahanda Syamsu Ibunda Dra.Siti Nurjanah, serta kakak penulis Prarindra
Afwan,S.P., atas saran yang telah diberikan .
9. Teman-teman Ilmu Komputer 2007, terutama, Renny, Nyimas, Winda, Like,
Eko, Anggi, Aziza, Nurhayati, Fitriawan , Cepi, Hendar, Mardonius, Gozali,
Vita, Wika, Sapta, Friska dll.
10. Sahabat-sahabat yang mendukung menyukseskan skripsi ini , terutama Guntur
Budi , Agus Riyadi , Fida Filia , M.Dyaz al-kaisya , Pritta Karianthi , Intan
Puspita , terima kasih atas dukungan dan kebersamaan kalian.
Akhir kata, Penulis menyadari bahwa skripsi ini masih jauh dari kesempurnaan,
akan tetapi sedikit harapan semoga skripsi yang sederhana ini dapat berguna dan
bermanfaat bagi kita semua. Amiin.
Bandar Lampung, 4 Mei 2012
Penulis,
Indah Dwi Tiara
Tf
idf
Wdt = tf . idf
Q
D1
D2
D3
D4
D5
D6
D7
D8
Term
Q D1 D2 D3 D4 D5 D6 D7 D8 D9 df D / df Log10 (D / df)
1
1
9
0,954
0,954
Rakor
1
1
2
4,5
0,653
0,653
0,653
Pemerintah
1
2
1
2
2
8
1,125
0,051
0,051
2,601
0,051
2,601
2,601
Kota
3
3
3
0,477
1,431
Metro
2
2
4,5
0,653
1,306
Walikota
1
1
9
0,954
0,954
Karang
1
1
9
0,954
0,954
Teluk
1
1
9
0,954
0,954
Praja
1
1
2
4,5
0,653
0,653
Daerah
1
1
9
0,954
0,954
Ilmu
1
1
9
0,954
0,954
Pertanian
1
1
9
0,954
0,954
Surya
1
1
9
0,954
0,954
Dharma
2
2
4,5
0,653
1,306
Sekolah
2
2
4,5
0,653
1,306
Tinggi
1
1
9
0,954
0,954
Perkebunan
5
1
6
1,5
0,176
0,88 0,176
Bandar
1
1
1
1
1
1
1
1
8 1,125
0,051
0,051 0,051 0,051 0,051 0,051 0,051 0,051 0,051
Lampung
1
2
1
4
2,25
0,352
0,352 0,704
0,352
Kabupaten
1
1
9
0,954
0,954 0,954
Barat
1
1
9
0,954
1,306
Tuan
2
2
4,5
0,653
0,954
Rumah
1
1
9
0,954
1,431
Sendiri
3
3
3
0,477
0,954
Bahasa
1
1
9
0,954
0,954
Bentuk
1
1
9
0,954
0,954
Tulisan
1
1
9
0,954
0,954
Hubungan
1
1
1
0,954
0,954
Aksara
9
Pallawa
1
1
9
0,954
D9
0,653
0,051
0,954
82
India
Selatan
Geografis
1
1
1
2
1
Bujur
Timur
1
1
1
1
1
1
Lintang
Selatan
Berjarak
1
1
1
1
1
1
9
4,5
9
0,954
0,653
0.954
0,653 0,653
9
9
0,954
0,954
0,954
0,954
0,954
0,954
1
1
1
9
9
0,954
0,954
0,954
0,954
0,954
0,954
Pesawaran
Potensi
1
1
1
1
1
1
9
9
0,954
0,954
0,954
0,954
Agraris
1
1
1
9
0,954
0,954
83
D1
6,765
2,601
D2
2,601
2,601
D3
WD5 * Wdi
D4
D5
D6
D7
6,765
2,601
D8
D9
6,765
2,601
2,601
2,601
2,601
2,601
Q
D1
D2
Panjang Vektor
D3
D4
D5
D6
0,000
0,000
2,601
0,000
0,000
0,000
0,000
0,000
0,000
0,910
0,426
6,765
2,047
1,705
2,601
6,765
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
2,601
D7
D8
D9
0,426
6,765
0,910
0,910
0,910
0,426
6,765
6,765
0,123
0,495
0,426
0,910
0,910
0,910
0,910
1,705
1,705
0,910
0,744
6,765
0,030
6,765 6,765
6,765
6,765
6,765
0,123
0,910
0,910
1,705
0,910
2,047
0,910
0,910
0,910
0,910
0,910
0,910
0,426
0,426
0,910
0,910
0,910
0,910
0,910
0,910
0,910
0,910
0,910
9,366
5,202
9,366
2,601
2,601
2,601
2,601
6,765
2,601
5,202
18,741
13,017
22,264 6,795 8,224 10,29 14,698
12,651
9,921
2,280
4,329
3,607
4,718
3,556
3,149
2,606 2,867 3,207 3,833
IMPLEMENTASI PROSES PENCARIAN TEKS DENGAN METODE
VECTOR SPACE MODEL PADA SEARCH ENGINE DALAM
ENSIKLOPEDIA LAMPUNG BERBASIS WEB
Oleh
INDAH DWI TIARA
Penelitian ini membahas metode pencarian kata yang digunakan search engine
pada website Ensiklopedia Lampung. Dalam proses pencarian teks pada website
diterapkan metode vector space model untuk mengukur kemiripan anatara suatu
dokumen dengan suatu query.Kemiripan tersebut diukur berdasarkan perhitungan
nilai cosinus dari dua vektor yaitu dokumen dan kata kunci .
Pada aplikasi ini, search engine yang digunakan dikembangkan dari aplikasi
www.spider.eu yang memberikan sejumlah alamat website yang dapat dikunjungi
dengan teknik spider atau lebih dikenal dengan teknik crawler.
Kata Kunci: Crawler, Search Engine, Metode Vector Space Model.
ABSTRACT
THE IMPLEMENTASI OF TEXT SEARCHING PROCESS WITH
VECTOR SPACE MODEL ON SEARCH ENGINE FOR LAMPUNG
ENCYCLOPEDIA WEB-BASED
BY
INDAH DWI TIARA
The research discusses abaout method of text searching used for search engine on
website of Lampung Encyclopedia. The process of text searching uses vector
space model to count the correspondence between document and query. The
correspondance is counted. By using the counting of cosinus value in to vector,
they are document and query.
In this applications, Search engine is developed from www.spider.eu, serach
engine that gives some website addresses to be visited using spider technic or well
known as crawler technic.
Key Word: Crawler, Search Engine, Metode Vector Space Model.
BIODATA DIRI
Nama
: Indah Dwi Tiara
Tempat Lahir
: Bandar Lampung
Tgl Lahir
: 02 Agustus 1989
Agama
: Islam
NPM
: 0717032006
Fakultas
: Maatematika dan Ilmu Pengetahuan Alam
Jurusan/Prodi
: Ilmu Komputer/Ilmu Komputer
IPK
: 2.89
Tgl Lulus Ujian Skripsi
: 4 Mei 2012
Alamat
: Jl. Griya Nuza Blok Z No.5 Way Halim Permai
Bandar Lampung
Asal SMA
: SMA Negeri 1 Natar
Nama Orang Tua
: Syamsu
Pembimbing
: 1.Didik Kurniawan, S.Si, M.T
2. Amanto, S.Si, M.Si
Penguji
: Ir. Machudor Yusman, M.Kom.
Tes Toefl
: 1. Nomor
Judul Skripsi
: 3018/UN.26/14/DT/2012
2. Tanggal
: 26 April 2012
3. Nilai
: 480
: IMPLEMENTASI PROSES PENCARIAN TEKS
DENGAN METODE VECTOR SPACE MODEL
PADA SEARCH ENGINE DALAM ENSIKLOPEDIA
LAMPUNG BERBASIS WEB
ABSTRACT
THE IMPLEMENTASI OF TEXT SEARCHING PROCESS WITH
VECTOR SPACE MODEL ON SEARCH ENGINE FOR LAMPUNG
ENCYCLOPEDIA WEB-BASED
BY
INDAH DWI TIARA
The research discusses abaout method of text searching used for search engine on
website of Lampung Encyclopedia. The process of text searching uses vector
space model to count the correspondence between document and query. The
correspondance is counted. By using the counting of cosinus value in to vector,
they are document and query.
In this applications, Search engine is developed from www.spider.eu, serach
engine that gives some website addresses to be visited using spider technic or well
known as crawler technic.
Key Word: Crawler, Search Engine, Metode Vector Space Model.
ABSTRAK
IMPLEMENTASI PROSES PENCARIAN TEKS DENGAN METODE
VECTOR SPACE MODEL PADA SEARCH ENGINE DALAM
ENSIKLOPEDIA LAMPUNG BERBASIS WEB
Oleh
INDAH DWI TIARA
Penelitian ini membahas metode pencarian kata yang digunakan search engine
pada website Ensiklopedia Lampung. Dalam proses pencarian teks pada website
diterapkan metode vector space model untuk mengukur kemiripan anatara suatu
dokumen dengan suatu query.Kemiripan tersebut diukur berdasarkan perhitungan
nilai cosinus dari dua vektor yaitu dokumen dan kata kunci .
Pada aplikasi ini, search engine yang digunakan dikembangkan dari aplikasi
www.spider.eu yang memberikan sejumlah alamat website yang dapat dikunjungi
dengan teknik spider atau lebih dikenal dengan teknik crawler.
Kata Kunci: Crawler, Search Engine, Metode Vector Space Model.
IMPLEMENTASI PROSES PENCARIAN TEKS DENGAN METODE
VECTOR SPACE MODEL PADA SEARCH ENGINE DALAM
ENSIKLOPEDIA LAMPUNG BERBASIS WEB
( SKRIPSI )
Oleh :
Indah Dwi Tiara
0717032006
JURUSAN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS LAMPUNG
2012
DAFTAR GAMBAR
Gambar
Halaman
2.1 Tampilan Sistem Pencarian Lengkap .......................................................
21
2.2 Desain Arsitektur Web Crawling ..............................................................
27
2.3 Desain Arsitektur World Wide Web ..........................................................
39
3.1 Desain Interface ........................................................................................
48
3.2 Desain Arsitektur Pengembangan Sistem Pada Metode Prototype ..........
49
4.1 DFD Level 0 Pada Sistem Search Engine Ensiklopedia Lampung ..........
52
4.2 DFD Link Dokumen .................................................................................
53
4.3 DFD Query ................................................................................................
55
4.4 Use Case Diagram Sistem Ensiklopedia Lampung ...................................
56
4.5 ERD ...........................................................................................................
57
4.6 Form Database Spider Db .........................................................................
58
4.7 Form Database Link Keyword ..................................................................
59
4.8 Form Menu Utama ....................................................................................
67
4.9 Form Data Pencarian .................................................................................
68
4.10 Form Ranking Halaman Web ..................................................................
68
4.11 Form Hasil Pencarian Data ......................................................................
69
4.12 Form Admin Login .................................................................................
70
4.13 Form Pengindexan ..................................................................................
70
4.14 Form Pengindexan URL .........................................................................
71
4.15 Form Akhir Pengindexan ........................................................................
71
4.16 Form Daftar Hasil Pengindexan ..............................................................
72
4.17 Form Statistic ..........................................................................................
72
4.18 Diagram Grafik Penilaian Konten / Isi Pada Sistem ...............................
83
4.19 Diagram Hasil Perhitungan Dari Penilaian Proses Interaksi ...................
84
DAFTAR ISI
Halaman
DAFTAR ISI .................................................................................................. i
DAFTAR GAMBAR ..................................................................................... v
DAFTAR TABEL
vi
I. PENDAHULUAN ...................................................................................... 1
1.1 Latar Belakang .................................................................................... 1
1.2 Rumusan Masalah ................................................................................ 3
1.3 Batasan Masalah ................................................................................... 3
1.4 Tujuan Penelitian .................................................................................. 4
1.5 Manfaat Penelitian ................................................................................ 4
II. TINJAUAN PUSTAKA ........................................................................... 6
2.1 Metode Search Engine Vector Space Model ........................................ 6
2.2 Penilaian Pembobotan Panjang Dan Model Ruang Vektor ................. 7
2.2.1 Jangka Frekuensi Dan Bobot ...................................................... 7
2.2.2 Invers Dokumen Frekuensi ........................................................ 8
2.2.3 Pembobotan tf-idf ....................................................................... 10
2.2.4 Ruang Vektor Model Untuk Mencetak ..................................... 12
2.2.4.1 Perkalian Titik ............................................................... 12
2.2.4.2 Vektor Sebagian Pertanyaan ......................................... 14
2.2.5 Fungsi Varian tf-idf ................................................................... 15
2.2.5.1 Sublinear tf-idf ............................................................... 15
iii
2.2.5.2 Normalisasi Maksimum tf ............................................. 16
2.3 Sistem Pencarian Komputasi Skor Secara Lengkap.............................. 17
2.3.1 Efisien Penilaian Dan Peringkat ...................................................17
2.3.1.1 Indeks Eliminasi ... ............................................................18
2.3.2 Komponen Dari Informasi Temu Kembali ................................ 19
2.3.2.1 Indeks Berjenjang .......................................................... 19
2.3.2.2 Merancang Fungsi Parsing Dan Penilaian ..................... 20
2.3.3 Ruang Vector Scoring dan Interaksi Permintaan Operator ........ 22
2.3.3.1 Pengambilan Boolean .................................................... 23
2.3.3.2 Wilcard Quries ............................................................... 24
2.3.3.3 Frasa Query .................................................................... 24
2.4 Ensiklopedia ......................................................................................... 25
2.5 Pengertian Search Engine ..................................................................... 26
2.5.1 Kategori Search Engine Secara Umum ...................................... 27
2.5.2 Cara Kerja Search Engine .......................................................... 29
2.6 Webmaster Dan Search Engine ............................................................ 34
2.7 Optimasi Penggunaan Keyword ........................................................... 35
2.8 WWW ( World Wide Web ) .................................................................. 38
III. METODOLOGI PENELITIAN .......................................................... 40
3.1 Waktu dan Tempat Penelitian ............................................................. 40
3.2 Bahan Dan Alat .................................................................................. 40
3.3 Langkah Penelitian ............................................................................. 41
IV. HASIL DAN PEMBAHASAN .............................................................. 50
4.1 Penerapan Metode Prototype ............................................................ 51
4.1.1 Rencana Kebutuhan Analisis .................................................. 51
4.1.1.1 Data Flow Diagram ( DFD ) ....................................... 51
4.1.1.2 DFD Level 0 ............................................................... 52
4.1.1.3 DFD Link Dokumen ................................................... 52
4.1.1.4 Use Case Diagram ...................................................... 55
4.1.1.5 ERD ............................................................................ 57
iv
4.1.1.6 Perancangan Database ................................................. 57
4.2 Perancangan Source Code................................................................. 59
4.2.1 Source Code Koneksi Database ............................................... 60
4.2.2 Source Code Searching Menu Utama ..................................... 61
4.2.3 Source Code Indexing URL .................................................... 63
4.2.4 Source Code Function ............................................................. 66
4.3 Implementasi Sistem .......................................................................... 66
4.3.1 Form Menu Utama ................................................................... 67
4.3.2 Form Data Pencarian................................................................ 67
4.3.3 Form Rangking Halaman Web ................................................ 68
4.3.4 Form Hasil Pencarian Data ..................................................... 69
4.3.5 Form Admin Login .................................................................. 69
4.3.6 Form Pengindexan .................................................................. 70
4.3.7 Form Pengindexan URL .......................................................... 70
4.3.8 Form Akhir Pengindexan ......................................................... 71
4.3.9 Form Daftar Hasil Pengindexan ............................................... 71
4.3.10 Form Statistic ......................................................................... 72
4.4 Pengujian Sistem ................................................................................ 73
4.4.1 Pengujian Perhitungan Bobot .................................................. 73
4.4.2 Pengujian Sistem Kuisioner ..................................................... 80
4.4.3 Analisis Hasil Pengujian .......................................................... 84
V. KESIMPULAN DAN SARAN
5.1. Kesimpulan ........................................................................................ 86
5.2. Saran .................................................................................................. 87
DAFTAR PUSTAKA .................................................................................... 88
LAMPIRAN ................................................................................................... 89
DAFTAR PUSTAKA
Anh, Vo Ngoc, and Alistair Moffat. 2005. Inverted index compression using
Word aligned binary codes. At: http://dx.doi.org/10.1023/B:INRT
Anh, Vo Ngoc, and Alistair Moffat. 2006b. Pruned query evaluation using precomputed impacts. At: http://doi.acm.org/
Bartell, Brian Theodore. 1994. Optimizing ranking functions: A connectionist
approach to adaptive information retrieval. San Diego: University of California.
Bar-Yossef, Ziv, and Maxim Gurevich. 2006. Random sampling from a search
engine’s index. At: http://doi.acm.org/10.1145/
Brain Pinkerton 2000. WebCrawler:Finding
what people want. Washington:
University of Washington.
Brown, Eric W. 1995. Execution Performance Issues in Full Text Information
Retrieval. , Amherst: University of Massachusets.
Carmel, David, Doron Cohen, Ronald Fagin, Eitan Farchi, Michael Herscovici,
Yoelle S. Maarek, and Aya Soffer. 2001. Static index pruning for information
retrieval systems. At: http://doi.acm.org/
http://id.wikipedia.org/wiki/Ensiklopedia.
Kristhoper David Harjono, Vector Pada Metode Search Vector Space,
INTEGRAL Vol. 10 No. 2, Juli 2005
Ledford, Jerri L. 2007. Search Engine Optimization Bible. Wiley Publishing, Inc.
Indiana. 411 Hlm.
Jonathan Sarwono. 2010. Search Engine. Yogyakarta
DAFTAR TABEL
Tabel
Halaman
2.1 Frekuensi Koleksi Dan Frekuensi Dokumen Yang Berbeda ..................... 8
2.2 Contoh Nilai df .......................................................................................... 10
2.3 Nilai Dokumen tf ........................................................................................ 12
2.4 Nilai tf Euclidean Ternormalisasi Untuk Dokumen .................................. 13
4.1 Term Dokumen .................................. ...................................................... 76
4.2 Hasil Perhitungan ............................................................... ...................... 79
4.3 Perhitungan Kemiripan ............................................................................. 79
4.4 Ranking ..................................................................................................... 79
4.5 Evaluasi Kuisioner Penilaian Konten / Isi Sistem ..................................... 81
4.6 Evaluasi Kuisioner Penilaian Proses Interaksi .......................................... 82
MOTTO
“Hasil dari suatu perjuangan adalah hal yang bernilai , tetapi
perjuangan untuk mendapatkannya jauh lebih bernilai “
(Indah Dwi Tiara)
“Hai orang-orang yang beriman, Jadikanlah sabar dan shalatmu
Sebagai penolongmu, sesungguhnya Allah beserta orang-orang yang
sabar” (Al-Baqarah: 153)
Tugas kita bukanlah untuk berhasil. Tugas kita adalah untuk mencoba, karena didalam
mencoba itulah kita menemukan dan belajar membangun kesempatan untuk berhasil
( Mario Teguh )
PERSEMBAHAN
Kupersembahkan karyaku ini kepada:
Allah SWT atas limpahan berkat dan rahmat-Nya jualah sehingga skripsi ini
dapat terselesaikan
Kupersembahkan karya sederhana penuh perjuangan dan kesabaran ini sebagai
ungkapan rasa sayangku dan baktiku kepada :
Kedua Orangtuaku tercinta, yang telah mendidik dan membesarkanku serta
mencurahkan segala kasih sayang dan perhatiannya sejak aku dilahirkan hingga
kini ku dewasa.
Dan seseorang yang selalu menemani dan memberikanku semangat serta
motivasi dan doa yang tlah diberikan terhadap penulis agar tetap berjuang dan
berusaha . ( AR )
RIWAYAT HIDUP
Penulis dilahirkan di Tanjung Karang, Bandar Lampung
pada tanggal 2 Agustus 1989, sebagai anak ke dua dari dua
bersaudara, dari pasangan Bapak Syamsu dan Ibu Dra.Siti
Nurjanah
Pendidikan Sekolah Dasar (SD) diselesaikan di SD ALAZHAR,Bandar Lampung pada tahun 2001, Sekolah
Lanjutan Tingkat Pertama (SLTP) di SLTPN 1 Bandar Lampung pada tahun
2004, dan Sekolah Menengah Atas (SMA) di SMAN 1 Natar Lampung Selatan
pada tahun 2007.
Tahun 2007, penulis terdaftar sebagai mahasiswi Jurusan Ilmu Komputer Fakultas
Matematika Ilmu Pengetahuan Alam Unila melalui jalur PKAB Selama menjadi
mahasiswi , penulis aktif berorganisasi diantaranya adalah :
1. Anggota Generasi Muda Himpunan Mahasiswa Jurusan Matematika
(GEMATIKA) FMIPA pada tahun 2007
2.
Anggota Himpunanan Mahasiswa Jurusan Matematika (HIMATIKA) pada
tahun 2008-2009
Pada bulan Juli sampai dengan Agustus tahun 2010, penulis melakukan kerja
praktik di PT.Telekomunikasi Indonesia, Tbk. yang beralamat di Jl. Sultan Agung
No.1 Kedaton Bandar Lampung.
SANWACANA
Puji syukur penulis ucapkan kehadirat ALLAH SWT, karena atas rahmat dan
hidayah-Nya skripsi ini dapat diselesaikan.
Skripsi dengan judul “Implementasi Proses Pencarian Teks Dengan Metode
Vector Space Model Pada Search Engine Dalam Ensiklopedia Lampung
Berbasis Web” adalah salah satu syarat untuk memperoleh gelar sarjana Ilmu
Komputer di Universitas Lampung.
Dalam kesempatan ini penulis mengucapkan terimakasih kepada berbagai pihak
yang secara langsung maupun tidak langsung telah membantu penulis sehingga
skripsi ini dapat terselesaikan. Penulis mengucapkan terimakasih kepada:
1. Bapak Didik Kurniawan, S.Si, M.T.,selaku pembimbing pertama yang telah
memberikan bimbingan dan motivasi dalam pembuatan skripsi ini.
2. Bapak Amanto, S.Si, M.Si., selaku dosen pembimbing kedua yang telah
memberikan bimbingan, saran dan koreksi dalam pembuatan skripsi ini.
3. Bapak Ir.Machudor Yusman,M.Kom., selaku Ketua Jurusan Ilmu Komputer
dan pembahas yang telah memberikan koreksi dan saran dalam pembuatan
skripsi ini.
4. Bapak Dwi Sakethi, S.Si, M.Kom., selaku Sekretaris Jurusan Ilmu Komputer
Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Lampung.
5. Bapak Dr. Sutyarso, M.S., selaku Dekan Fakultas Matematika dan Ilmu
Pengetahuan Alam.
6. Ibu Fitriani, S.Si, M.Sc., selaku pembimbing akademik selama penulis
menjadi mahasiswa Ilmu Komputer Fakultas Matematika dan Ilmu
Pengetahuan Alam Universitas Lampung.
7. Seluruh dosen dan karyawan Jurusan Matematika Fakultas Matematika dan
Ilmu Pengetahuan Alam.
8. Ayahanda Syamsu Ibunda Dra.Siti Nurjanah, serta kakak penulis Prarindra
Afwan,S.P., atas saran yang telah diberikan .
9. Teman-teman Ilmu Komputer 2007, terutama, Renny, Nyimas, Winda, Like,
Eko, Anggi, Aziza, Nurhayati, Fitriawan , Cepi, Hendar, Mardonius, Gozali,
Vita, Wika, Sapta, Friska dll.
10. Sahabat-sahabat yang mendukung menyukseskan skripsi ini , terutama Guntur
Budi , Agus Riyadi , Fida Filia , M.Dyaz al-kaisya , Pritta Karianthi , Intan
Puspita , terima kasih atas dukungan dan kebersamaan kalian.
Akhir kata, Penulis menyadari bahwa skripsi ini masih jauh dari kesempurnaan,
akan tetapi sedikit harapan semoga skripsi yang sederhana ini dapat berguna dan
bermanfaat bagi kita semua. Amiin.
Bandar Lampung, 4 Mei 2012
Penulis,
Indah Dwi Tiara
Tf
idf
Wdt = tf . idf
Q
D1
D2
D3
D4
D5
D6
D7
D8
Term
Q D1 D2 D3 D4 D5 D6 D7 D8 D9 df D / df Log10 (D / df)
1
1
9
0,954
0,954
Rakor
1
1
2
4,5
0,653
0,653
0,653
Pemerintah
1
2
1
2
2
8
1,125
0,051
0,051
2,601
0,051
2,601
2,601
Kota
3
3
3
0,477
1,431
Metro
2
2
4,5
0,653
1,306
Walikota
1
1
9
0,954
0,954
Karang
1
1
9
0,954
0,954
Teluk
1
1
9
0,954
0,954
Praja
1
1
2
4,5
0,653
0,653
Daerah
1
1
9
0,954
0,954
Ilmu
1
1
9
0,954
0,954
Pertanian
1
1
9
0,954
0,954
Surya
1
1
9
0,954
0,954
Dharma
2
2
4,5
0,653
1,306
Sekolah
2
2
4,5
0,653
1,306
Tinggi
1
1
9
0,954
0,954
Perkebunan
5
1
6
1,5
0,176
0,88 0,176
Bandar
1
1
1
1
1
1
1
1
8 1,125
0,051
0,051 0,051 0,051 0,051 0,051 0,051 0,051 0,051
Lampung
1
2
1
4
2,25
0,352
0,352 0,704
0,352
Kabupaten
1
1
9
0,954
0,954 0,954
Barat
1
1
9
0,954
1,306
Tuan
2
2
4,5
0,653
0,954
Rumah
1
1
9
0,954
1,431
Sendiri
3
3
3
0,477
0,954
Bahasa
1
1
9
0,954
0,954
Bentuk
1
1
9
0,954
0,954
Tulisan
1
1
9
0,954
0,954
Hubungan
1
1
1
0,954
0,954
Aksara
9
Pallawa
1
1
9
0,954
D9
0,653
0,051
0,954
82
India
Selatan
Geografis
1
1
1
2
1
Bujur
Timur
1
1
1
1
1
1
Lintang
Selatan
Berjarak
1
1
1
1
1
1
9
4,5
9
0,954
0,653
0.954
0,653 0,653
9
9
0,954
0,954
0,954
0,954
0,954
0,954
1
1
1
9
9
0,954
0,954
0,954
0,954
0,954
0,954
Pesawaran
Potensi
1
1
1
1
1
1
9
9
0,954
0,954
0,954
0,954
Agraris
1
1
1
9
0,954
0,954
83
D1
6,765
2,601
D2
2,601
2,601
D3
WD5 * Wdi
D4
D5
D6
D7
6,765
2,601
D8
D9
6,765
2,601
2,601
2,601
2,601
2,601
Q
D1
D2
Panjang Vektor
D3
D4
D5
D6
0,000
0,000
2,601
0,000
0,000
0,000
0,000
0,000
0,000
0,910
0,426
6,765
2,047
1,705
2,601
6,765
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
2,601
D7
D8
D9
0,426
6,765
0,910
0,910
0,910
0,426
6,765
6,765
0,123
0,495
0,426
0,910
0,910
0,910
0,910
1,705
1,705
0,910
0,744
6,765
0,030
6,765 6,765
6,765
6,765
6,765
0,123
0,910
0,910
1,705
0,910
2,047
0,910
0,910
0,910
0,910
0,910
0,910
0,426
0,426
0,910
0,910
0,910
0,910
0,910
0,910
0,910
0,910
0,910
9,366
5,202
9,366
2,601
2,601
2,601
2,601
6,765
2,601
5,202
18,741
13,017
22,264 6,795 8,224 10,29 14,698
12,651
9,921
2,280
4,329
3,607
4,718
3,556
3,149
2,606 2,867 3,207 3,833