2.2.2 Algoritma Knuth Morris Pratt String Matching
Algoritma Knuth Morris Pratt merupakan salah satualgoritma yang sering digunakan untuk menyelesaikan masalah pencocokan string. Algoritma ini adalah
penyempurnaan dari algoritma pencocokan string dengan menggunakan algoritma brute force. Pada algoritma bruteforce, setiap kali ditemukan ketidak cocokan
patterndengan teks, maka patternakan digeser satu ke kanan. Sedangkan pada algoritma Knuth-Morris-Pratt, kita memelihara informasi yang digunakan untuk
melakukan jumlah pergeseran. Algoritma menggunakan informasi tersebut untuk membuat pergeseran angka lebih jauh, tidak hanya satu karakter seperti pada
algoritma brute force. Dengan algoritma Knuth Morris Pratt ini, waktu pencarian dapat dikurangi secara signifikan. Algoritma Knuth Morris Pratt ini dikembangakan
oleh D. E. Knuth, bersama-sama dengan J. H. Morris dan V. R. Pratt.
Algoritma Knuth-Morris-Prath memelihara informasi yang digunakan saat melakukan pergeseran. Informasi ini digunakan untukmelakukan pergeseran yang
lebih jauh, tidak seperti brute force yangmelakukan pergeseran perkarakter. Pergeseran dilakukan berdasarkan suffix kesamaan suffix dan prefix dalam pattern dan
yang ditemukan di dalam teks.Dalam algoritma Knuth Morris Pratt ini kita akan menemui beberapa definisi yang nantinya akan digunakan dalam algoritma ini.
2.2.3 Fungsi Pinggiran
Algoritma Knuth Morris Pratt melakukan proses awal atau preproccesing terhadap pattern P dengan menghitung fungsi pinggiran dalam literatur lain menyebut fungsi
overlap, fungsi failure, dsb yang mengindikasikan pergeseran s terbesar yang mungkin dengan menggunakan perbandingan yang dibentuk sebelum pencarian
string. Fungsi pinggiran hanya bergantung pada karakter-karakter di dalam pattern, dan bukan pada karakter-karekter di dalam teks yang dicari. Oleh karena itu, kita
dapat melakukan perhitungan fungsi awalah sebelum pencarian string dilakukan. Fungsi pinggiran bj didefinisikan sebagai ukuran awalan terpanjang dari P yang
Universitas Sumatera Utara
merupakan akhiran dari P[1..j]. Sebagai contoh, tinjau pattern P = abcabd. Nilai F untuk setiap karakter di dalam P adalah sebagai berikut.
Tabel 2.1 Fungsi Pinggiran Untuk Pattern abcabd
j 1
2 3
4 5
6 Pj
A b
c a
b d
Bj 1
1 2
Di bawah ini adalah algoritma untuk menghitung fungsi pinggiran. procedure HitungPinggiran
input m : integer, P : array[1..m] of char,output b : array[1..m] of integer
{ Menghitung nilai b[1..m] untuk pattern P[1..m] }
Deklarasi
k,q : integer
Algoritma:
b[1] 0 q 2
k 0
for q 2 to m do
while k 0 and P[q] P[k+1] do
k b[k] endwhile
if P[q]=P[k+1] then k k+1
endif b[q]=k
endfor Keterangan :
Fungsi tersebut akan menghasilkan output berupa array integer yang merupakan angka-angka pinggiran untuk setiap posisi iterasi pada pattern. Barulah kemudian
dapat diproses pencocokkan antara pattern dan teks yang diberikan.
Universitas Sumatera Utara
2.2.4 Fungsi Pembandingan String
Kemudian cara untuk melakukan pencocokan stringdengan menggunakan algoritma Knuth Morris Pratt adalah sebagai berikut. Misal kita akan mencocokan teks T =
abcabcabd dan kita mempunyai patternP = abcabd. 123456789 Teks = abcabcabd
Pattern = abcabd Mula-mula kita hitung fungsi pinggiran dari pattern P tersebut. Fungsi
pinggiran P = abacabd tertera seperti table 1 di atas. Kemudian lakukan langkah- langkah berikut. Samakan ujung kiri pattern dengan ujung kiri teks. Karakter-karakter
pada karakter 1-5 sama, tetapi pada posisi ke 6 tidak sama. Hal itu karena karakter ke 6 pada teks yaitu c tidak sama dengan karakter ke 6 pada patternyaitu d. Untuk
mencocokan kembali, kita harus menggeser pattern. Jika dalam brute force kita akan menggeser pattern 1 karakter ke kanan. Namun jika menggunakan algoritma Knuth
Morris Pratt jumlah pergeseran patternditentukan oleh pinggiran dari awalan P yang bersesuaian. Pada contoh di atas, awalan yang bersesuaian adalah abcab, dengan
panjang l = 5. Pinggiran terpanjang untuk string P[1..5] adalah ab yang panjangnya adalah b5 = 2. Jarak pergeseran adalah l – b = 5 – 2 = 3. Jadi, pattern P digeser
sejauh 3 karakter dan perbandingan dilakukan mulai pada posisi j = 3 dihitung dari awalpattern. Kukuh, 2013 .
j 1
2 3
4 5
6 P[j]
A b
c a
b d
bj 1
2 Teks: abcabcabd
Pattern: abcabd ↑
j = 3
Telah itu kita kembali membandingkan karakter per karekter seperti di proses sebelumnya sampai kita menemukan teks yang sama dengan pattern hingga karakter
terakhir. Algoritma Knuth Morris Pratt selengkapnya adalah sebagai berikut:
Universitas Sumatera Utara
procedure KMPsearchinput m,n:integer, input P : array[1..m] of char,input T :
array[1..n] of char, output idx : integer
{ Mencari kecocokan pattern P di dalam
teks T dengan algoritma Knuth-Morris- Pratt. Jika ditemukan P di dalam T,
lokasi awal kecocokan disimpan di dalam peubah idx.
Masukan: pattern P yang panjangnya m dan teks T yang panjangnya n.
Teks T direpresentasika sebagai string array of character
Keluaran: posisi awal kecocokan idx. Jika P tidak ditemukan, idx = -
1. }
Deklarasi
i, j : integer ketemu : boolean
b : array[1..m] of integer procedure HitungPinggiraninput m :
integer, P : array[1..m] of char, output b : array[1..m] of integer
{ Menghitung nilai b[1..m] untuk pattern P[1..m] }
Algoritma:
HitungPinggiranm, P, b j 0
i 1 ketemu false
Universitas Sumatera Utara
while i n and not ketemu do whilej 0 and P[j+1] T[i] do
j b[j] endwhile
if P[j+1]=T[i] then j j+1
endif if j = m then
ketemu true else
i i+1 endif
endwhile if ketemu then
idx i-m+1 { catatan: jika indeks array dimulai dari 0, maka idx i-m }
else idx -1
endif Thomas, 2007
2.2.4 Klasifikasi Pencocokan
String
Pencocokan stringstring matching secara garis besar dapat dibedakan menjadi dua yaitu :
1. Exact string matching, merupakan pencocokan stringsecara tepat dengan susunan
karakter dalam stringyang dicocokkan memiliki jumlah maupun urutan karakter dalam stringyang sama. Contoh : kata step akan menunjukkan kecocokan hanya
dengan kata step. 2.
Inexact string matching atau Fuzzy string matching, merupakan pencocokan stringsecarasamar, maksudnya pencocokan stringdimanastringyang dicocokkan
memiliki kemiripandimana keduanya memiliki susunan karakteryang berbeda mungkin
jumlah atau urutannyatetapi string-stringtersebut memiliki
kemiripanbaik kemiripan tekstualpenulisan approximate string matching atau
Universitas Sumatera Utara
kemiripan ucapanphonetic string matching. Inexact string matching masih dapat dibagi lagi menjadi dua yaitu :
a. Pencocokan stringberdasarkan kemiripan penulisan approximate string
matching merupakan pencocokan stringdengan dasar kemiripan dari segi penulisannya jumlahah karakter, susunan karakter dalam dokumen.Tingkat
kemiripan ditentukan dengan jauh tidaknya beda penulisan dua buah stringyang dibandingkan tersebut dan nilai tingkat kemiripan ini ditentukan
oleh pemrogram programmer. Contoh : compuler dengan compiler, memiliki jumlahah karakter yang
sama tetapi ada dua karakter yang berbeda. Jika perbedaan dua karakter ini dapat ditoleransi sebagai sebuah kesalahan penulisan maka dua stringtersebut
dikatakan cocok. b.
Pencocokan stringberdasarkan kemiripan ucapan phonetic string matching merupakan pencocokan stringdengan dasar kemiripan dari segi
pengucapannya meskipun ada perbedaan penulisan dua stringyang dibandingkan tersebut.
Contoh step dengan step dari tulisan berbeda tetapi dalam pengucapannya mirip sehingga dua string tersebut dianggap cocok. Contoh yang lain adalah step, dengan
steppe, sttep, stepp,stepe. Exact string matching bermanfaat jika pengguna ingin mencari stringdalam dokumen yang sama persis dengan stringmasukan. Tetapi jika
pengguna menginginkan pencarian stringyang mendekati dengan stringmasukan atau terjadi kesalahan penulisan stringmasukan maupun dokumen objek pencarian, maka
inexact string matching yang bermanfaat. Pada Implementasi Algoritma Knuth Morris Pratt untun mencari kata atau
istilah pada komputer berbasis Android maka masuk dalam klasifikasi pencocokan stringExact string matching yang merupakan pencocokan stringsecara tepat dengan
susunan karakter dalam stringyang dicocokkan memiliki jumlah maupun urutan karakter dalam stringyang sama
Universitas Sumatera Utara
2.3 MobileDevice