Tabel 2.4 Aturan untuk Second Order Derivational Prefix lanjutan , Tala, 2003
Akhiran Replacement Addtional Condition Contoh
per- null
null Peralihan
pel- null
ajar pelajar
pe- null
null Pelatih
Tabel 2.5 Aturan untuk Derivation SuffixTala, 2003
Akhiran Replacement Addtional Condition
Contoh -kan
null Prefix bukan anggota ke, peng
Salahkan
-an null
Prefix bukan anggota di, meng, ter Makanan
-i null
Prefix bukan anggota ber, ke, peng tandai
2.3. Stopword
2.3.1. Definisi Stopword Penghilangan kata-kata yang frekuensinya terlalu banyak terdapat dalam dokumen.
Frekuensi kata-kata yang terlalu banyak bukan merupakan kata kunci yang tepat. Faktanya sebuah kata yang frekuensi kemunculannya lebih banyak dari dokumen tidak
berguna untuk tujuan retrieval. Kata-kata seperti itu dinamakan stopwords dan biasanya tidak dimasukkan ke dalam index terms. Kata depan dan kata penghubung biasanya
menjadi kandidat sebagai stopwords. Berikut ini adalah contoh stopwords dalam bahasa Indonesia : yang, juga, dari, dia,
kami, kamu, aku, saya, ini, itu, atau, dan, tersebut, pada, dengan, adalah, yaitu, ke, tak, tidak, di, pada, jika, maka, ada, pun, lain, saja, hanya, namun, seperti, kemudian.
Universitas Sumatera Utara
2.4. Pattern matching
2.4.1. Definisi Pattern Matching Pattern Matching adalah suatu teknik pencarian string yang berisi teks atau data biner
dari sekumpulan karakter berdasarkan pola yang ingin dicari. Berhubung pengenalan pola pattern recognition, pencocokan biasanya harus mempunyai nilai yang tepat
atau sama. Beberapa algoritma pencocokan pola yang sering digunakan antara lain Knuth-
Moris-Pratt algorithm, Boyer-Moore, Rabin-Karp, Two Sliding Windows dan lain sebagainya.
2.4.2. Algoritma Two Sliding Windows TSW Pada umumnya, algoritma TSW mendeteksi teks dari dua sisi secara bersamaan.
Algoritma ini membagi teks menjadi dua bagian windows dan tiap bagian memiliki panjang sebesar n2 . Bagian kiri left window akan melakukan pemindaian dari kiri ke
kanan dan bagian kanan right window melakukan pemindaian dari kanan ke kiri. Kemudian kedua windows tersebut bekerja bersamaaan secara paralel. Algoritma
ini akan berhenti jika salah satu dari windows telah menemukan pola atau pola tersebut tidak ditemukan di dalam keseluruhan teks. Algoritma TSW mengimplementasikan ide
dari algoritma Berry-Ravindran mengenai fungsi bad character shift untuk mendapatkan nilai shift pada saat fase pencarian. Disamping itu, algoritma BR juga
digunakan oleh Hussain, et al 2010 untuk menentukan nilai pergeseran dan diterapkan pada algoritma pencarian Bidirectional. Perbedaan utama dari algoritma TSW dan
algoritma BR antara lain : 1.
TSW menggunakan dua slide sementara algoritma BR hanya menggunakan satu slide untuk melakukan pencarian teks.
2. TSW menggunakan dua array , tiap array merupakan array satu dimensi yang
memiliki ukuran sebesar m – 1. Array tersebut digunakan untuk menyimpan
nilai shift yang sudah terkalkulasi pada proses algoritma. Disamping itu, algoritma BR menggunakan array dua dimensi untuk menyimpan nilai shift
pada pemrosesannya. Menggunakan array satu dimensi mempersingkat waktu pemrosesan dan mengurangi pemakaian memori yang diperlukan untuk
menyimpan nilai shift.
Universitas Sumatera Utara
2.4.2.1. Pre-processing Phase Fase pre-processing menghasilkan dua array berupa nextl dan nextr. Nilai dari nextl
dihitung berdasarkan algoritma bad character Berry-Ravindran BR. Nextl berisi nilai shift yang diperlukan untuk mencari teks pada sisi kiri. Untuk menghitungnya,
algoritma ini mempertimbangkan dua karakter a dan b berturut-turut yang didapat sesaat setelah pergeseran window selesai. Nilai indeks dari dua karakter tersebut dari dihitung
dari sebelah kiri m+1 dan m+2 .
Bad char shiftl a, b = � { − � +
+ � [ − ] =
� [�][� + ] = � [ ] =
ℎ �� }
Gambar 2.2 . Bad charactershift a dan b pada nextl Ravindran et al, 1999
Sedangkan nilai nextr berisi nilai shift yang diperlukan untuk mencari teks pada sisi kanan dan menyimpan nilai indeks dua karakter tersebut dari teks sebelah kanan n-m-
1 dan n-m-2.
shiftr a, b = � { +
− −
− � +
� [ − ] = � [�][� + ] =
� [ ] = ℎ ��
}
Gambar 2.3. Bad character shift a dan b pada nextr Ravindran et al, 1999
2.4.2.2. Searching Phase Dalam fase ini, teks akan dideteksi dari dua arah, kiri ke kanan dan kanan ke kiri. Ketika
fase pencarian dimulai dari kiri, bagian kiri left window akan bergeser satu persatu ke kanan dan bagian kanan right window akan bergeser ke kiri. Kedua window akan
terus bergeser hingga pola yang dicari telah ditemukan atau window mencapai titik yang terletak di pertengahan teks.
Universitas Sumatera Utara
2.5 Penelitian terdahulu