Pencarian Kata dan Sinonim Kata Dalam Dokumen Dengan Menggunakan Algoritma Two Sliding Windows

7

BAB 1
PENDAHULUAN

1.1.Latar Belakang
Saat ini informasi sangat mudah didapatkan terutama melalui media internet. Dengan
banyaknya informasi yang terkumpul atau tersimpan dalam jumlah yang banyak, user
akan kesulitan mendapatkan informasi berbentuk dokumen yang diinginkan.
Semakin bertambahnya dokumen, penggunaan sistem pencarian pola teks ataupun
informasi yang terdapat di dalamnya menjadi penting. Dengan adanya sistem pencarian
teks banyak menghemat waktu pengerjaan untuk menemukan informasi yang terdapat
dalam dokumen.
Sistem tersebut menerima kata kunci (keyword) yang ditulis oleh user dan
melakukan pencocokan dengan database. Selama ada penyimpanan dan pencarian
kembali dokumen, sistem dapat bekerja dengan baik.
Tiap dokumen teks bisa diolah untuk menemukan informasi baru. Di dalam
dokumen tersebut terkadang terdapat kata penghubung yang saling berhubungan dan
menimbulkan makna yang berbeda, sedangkan dalam bahasa seringkali terdapat
sinonim kata yang sama maknanya dengan kata kunci pencarian.
Dalam beberapa dokumen seperti artikel bahasa terkadang memiliki kata-kata yang

masi jarang digunakan atau dijumpai seperti beranda, telaga, bilik, misai, dan jeram.
Kata-kata tersebut mengandung persamaan kata dengan kata-kata umum yang sudah
sering digunakan dalam pembicaraan sehari-hari.Akan tetapi, kata kunci pencarian
yang umumnya dicari oleh user, dominan berupa kata-kata umum yang sering dijumpai.
Beberapa penelitian telah dilakukan berhubung dengan sistem pencarian kata antara
lain Februariyanti, et al membuat prototipe mesin pencari dokumen teks, algoritma yang
diuji menggunakan algoritma indeks inverted untuk proses indeks kata

Universitas Sumatera Utara

2

(term) dan menghitung cosine similaritas untuk menghitung kesamaan kata dalam
dokumen. (Februariyanti, et al. 2010). Hasil uji menunjukan bahwa algoritma dapat
digunakan untuk menghitung tingkat similaritas (kesamaan) dokumen berdasarkan kata
kunci yang diinputkan oleh pengguna tetapi tidak berdasarkan persamaan makna kata
yang sering muncul di dalam dokumen .
Bari, et al (2010) menerapkan pencarian kata dengan vector space model untuk
melakukan perhitungan kemiripan data berdasarkan kata yang diinput. Kemiripan data
dipertimbangkan berdasarkan tingkat kemunculan data tersebut.

Oleh karena itu, apabila dihadapkan dengan jumlah dokumen yang banyak dan
kemunculan kata baku yang masih jarang dijumpai, diperlukan adanya suatu metode
untuk menyelesaikan permasalahan tersebut. Metode yang diajukan didalam penelitian
ini adalah metode stemming yang merupakan salah satu teknik text mining untuk
mendapatkan kata dasar dan diakhiri dengan eliminasi kata-kata umun yang muncul
dalam jumlah besar dan dianggap tidak memiliki makna (stopword).
Dalam implementasinya, metode ini akan menggunakan algoritma pattern matching
sebagai algoritma pencarian kata dalam dokumen. Salah satu metode yang digunakan
dalam pencocokan pola (pattern matching) yaitu algoritma two sliding windows (TSW)
yang mempunyai keunggulan dalam fase pencarian (searching phase).
Berdasarkan penelitian yang dilakukan oleh Hudaib et al, algoritma TSW
mempunyai performasi yang lebih unggul khususnya jika pola tersebut berada diakhir
teks. Hasil pengujian menunjukkan percobaan dan perbandingan dengan algoritma
lainnya seperti algoritma Knuth-Morris-Pratt dan Boyer-Moore lebih cepat dan
membutuhkan usaha yang lebih sedikit. Pada mulanya, algoritma ini memulai preprocessing phase untuk membagi string menjadi dua bagian (two windows) sebanyak
n/2 ukuran string. Kemudian, dilakukan scanning pada fase pencarian dari kiri dan
kanan secara paralel dan bersamaan( Hudaib et al, 2008 ).
Dengan demikian, dalam skripsi ini penulis akan menggunakan algoritma two
sliding windows pada pencarian sinonim kata dalam dokumen.


Universitas Sumatera Utara

3

1.2. Rumusan Masalah
Terdapat kesulitan dalam memahami kata dalam bahasa Indonesia yang jarang
digunakan dalam pembicaraan sehari-hari misalnya kata baku yang terdapat di dalam
artikel atau jurnal. Oleh karena itu, dibutuhkan suatu pendekatan untuk mengatasi
permasalahan persamaan kata dalam dokumen.

1.3. Tujuan Penelitian
Penelitian ini bertujuan untuk mencari makna kata dan sinonim kata dalam dokumen
dengan menggunakan algoritma two sliding windows.
1.4. Batasan Masalah
Agar penelitian dapat berjalan dengan baik dan terarah, maka penelitian ini akan
menggunakan batasan sebagai berikut:

1. Dokumen yang diproses berupa artikel atau jurnal ilmiah.
2. Pencarian kata menggunakan bahasa Indonesia.
3. Sinonim kata yang dipakai hanya dibatasi pada kata benda dan kata kerja.

4. Referensi kata dasar dari KBBI ( Kamus Besar Bahasa Indonesia ).
5. Referensi sinonim kata dari thesaurus Indonesia.

1.5. Manfaat Penelitian
Hasil dari penelitian ini diharapkan dapat memberikan manfaat, yaitu :
1. Menambah referensi penelitian mengenai berbagai sistem yang menyangkut
pencarian kata atau informasi.
2. Memberikan pendekatan hasil yang lebih optimal dengan penerapan
algoritma two sliding windows.
3. Menambah pengetahuan mengenai penggunaan algoritma TSW yang lebih
cepat dalam menghadapi jumlah data yang kompleks.
4. Menjadi salah satu alternatif algoritma pencarian bagi sistem temu daya
informasi.

Universitas Sumatera Utara

4

1.6.Metodologi Penelitian
Penelitian akan dilakukan dengan tahapan-tahapan metodologi penelitian sebagai

berikut :

1. Studi Literatur
Pada tahap ini dilakukan studi kepustakaan dengan melakukan pengumpulan
referensi melalui berbagai macam buku, jurnal, artikel, dan sumber referensi
lainnya yang berkaitan dengan penelitian ini.
2. Pengumpulan Data
Pada tahap ini dilakukan pengumpulan data dan informasi berupa kamus data
dan sejumlah jurnal ilmiah yang akan diperlukan dalam penelitian ini.
3. Analisis dan Perancangan
Pada tahap ini dilakukan analisis terhadap studi literatur untuk mendapatkan
pendekatan kata dalam dokumen. Setelah itu, dilakukan perancangan arsitektur
sistem yang akan dibangun berdasarkan analisis yang telah dibuat sebelumnya.
4. Implementasi
Pata tahap ini, perancangan sistem yang telah dibuat akan diimplementasikan ke
dalam suatu aplikasi yang dibuat dengan menggunakan bahasa pemrograman
PHP dan database MySQL.
5. Pengujian
Pada tahap ini dilakukan pengujian aplikasi yang telah dibuat untuk mengetahui
apakah aplikasi tersebut sudah berjalan dengan benar dan sesuai dengan

perancangan yang telah dilakukan sebelumnya.
6. Penyusunan Laporan
Pada tahap ini diakukan penyusunan dokumentasi dari hasil analisis dan
implementasi dari aplikasi yang telah dibuat.

1.7.Sistematika Penulisan
Sistematika penulisan skripsi ini terdiri dari lima bagian utama, yaitu :

Universitas Sumatera Utara

5

Bab 1: Pendahuluan
Bab ini akan menjelaskan tentang latar belakang penelitian, rumusan masalah, batasan
masalah, tujuan penelitian, manfaat penelitian, metodologi penelitian, dan sistematika
penulisan.
Bab 2: Landasan Teori
Bab ini berisi tentang teori dan penelitian terdahulu yang digunakan untuk
menyelesaikan permasalahan yang akan dibahas dalam penelitian ini.
Bab 3: Analisa dan Perancangan Sistem

Pada bab ini penulis menjelaskan arsitektur sistem yang akan dibangun dan pemrosesan
stemming dengan menggunakan algoritma Porter serta pencarian teks dibantu dengan
algoritma two sliding windows.
Bab 4: Implementasi dan Pengujian Sistem
Pada bab ini dibahas implementasi dari metode yang digunakan serta pengujian hasil
penelitian dengan kriteria yang telah ditentukan.
Bab 5: Kesimpulan dan Saran
Bab ini memuat kesimpulan dari penelitian yang dilakukan serta saran yang diharapkan
dapat bermanfaat untuk pengembangan penelitian selanjutnya.

Universitas Sumatera Utara