Implementasi Algoritma Pencocokan String Knuth-Morrispratt Dalam Pembuatan Kamus Kedokteran Pada Platform Android

BAB 2

LANDASAN TEORI

2.1. Information Retrieval System
2.1.1. Pengertian Information Retrieval System
Information retrieval system merupakan bagian dari bidang ilmu komputer yang
bertujuan untuk pengambilan informasi dari dokumen-dokumen yang didasarkan pada
isi dan konteks dari dokumen-dokumen itu sendiri. Definisi Information Retrieval
System menurut Gerald J. Kowalski adalah suatu sistem yang mampu melakukan
penyimpanan, pencarian, dan pemeliharaan informasi. Informasi dalam konteks yang
dibahas dalam buku ini dapat berupa informasi teks (termasuk data numerik dan
tanggal), gambar, audio, video, dan objek multimedia lainnya (J. Kowalski, G, 2000)
Definisi menurut Christoper Manning adalah proses menemukan suatu tema
utama (biasanya berupa dokumen) dari suatu data yang tidak terstruktur dalam koleksi
yang besar (tersimpan dalam komputer) untuk memenuhi kebutuhan informasi yang
relevan.
Data tidak terstruktur adalah data yang tidak memiliki susunan semantik, atau
dapat juga dikatakan data yang tidak memiliki struktur yang mudah dikenali oleh
komputer, data ini biasanya berupa teks. Walaupun dalam kenyataannya tidak ada
data yang benar-benar bersifat “tidak terstruktur”, termasuk teks, karena teks juga

memiliki struktur, seperti judul, paragraf, dan catatan kaki yang mana biasanya
struktur tersebut direpresentasikan dalam suatu dokumen dengan memberikan tanda
(markup) yang jelas untuk masing-masing struktur tersebut. Selain memfasilitasi
penemuan kembali pada data yang tidak terstruktur, IR juga memfasilitasi pencarian
data semi-struktur, misalnya untuk menemukan dokumen dengan judul dokumen yang

Universitas Sumatera Utara

6
mengandung

kata

“Java”

dengan badan

teks

yang


mengandung

kata

“threading”(Manning, 2008).
Sebagai suatu bidang tersendiri dalam ilmu komputer, IR memiliki beberapa sub
bidang, yaitu sebagai berikut:
1. Document routing, filtering, dan selective dissemination. Tema ini berbalik
arah dengan proses IR pada umumnya. Jika proses IR yang umum adalah
membandingkan dokumen dengan query yang dimasukan user, sedangkan
pada document routing, filtering, dan selective dissemination sistem akan
membandingkan antar dokumen berdasarkan query untuk mendapatkan
dokumen yang dapat menarik minat pengguna.
Contoh pada tema ini adalah agregator berita, misalnya dengan menggunakan
proses routing untuk memisahkan berita berdasarkan tema tertentu (bisnis,
politik, olahraga, dan sebagainya).
2. Text clustering and categorization system, adalah sistem IR yang akan
mengelompokkan dokumen berdasarkan kunci tertentu.
3. Summarization system atau peringkas teks, sistem ini akan membuat ringkasan

dari teks yang diberikan.
Contohnya adalah snippet yang ditampilkan pada hasil pencarian web.
4. Information extraction system, topik IR ini berfungsi mengidentifikasi entitas
bernama, seperti nama tempat dan tanggal. Sistem ini juga dapat
menkombinasikan informasi-informasi ke dalam rekaman terstruktur yang
mendeskripsikan hubungan antara entitas-entitas tersebut.
Misalkan untuk membuat daftar buku dan pengarangnya dari web
data, ekstraksi informasi dari legal document (seperti undang-undang,
peraturan pemerintah, dan sebagainya).
5. Topic detection and tracking system (sistem pendeteksi dan pelacakan topik),
sistem ini berguna untuk mengidentifikasi topik peristiwa dalam berita dan
sumber-sumber informasi yang sama.
6. Expert search system (sistem pencari keahlian), sistem ini akan melakukan
pengidentifikasian keahlian dari seorang anggota organisasi.
7. Question answering system (sistem tanya jawab), adalah sistem yang
mengintegrasikan informasi dari berbagai sumber untuk memberikan jawaban
yang singkat dari pertanyaan tertentu. Sistem ini kadang juga digabungkan
dengan tema IR lain seperti pencarian, peringkas teks, dan ekstraksi informasi.

Universitas Sumatera Utara


7
Jika sistem IR yang umum adalah mengembalikan dokumen yang relevan
kepada user berdasarkan query yang diinputkan, namun pada sistem tanya
jawab yang dikembalikan adalah berupa kalimat singkat untuk menjawab
pertanyaan user.
8.

Multimedia

information

retrieval

system,

adalah

tema


IR

yang

mengembangkan teknik-teknik IR pada data multimedia seperti gambar, video,
musik, dan pidato. Contoh dari sub-bidang ini adalah pencarian gambar,
pencarian musik, video, dan sebagainya (Butcher, S, 2010).

2.2. Pencocokan String (String Matching)
2.2.1. Pengertian Pencocokan String
Pencocokan string merupakan bagian terpenting dari sebuah proses pencarian string
(string searching) dalam sebuah dokumen. Hasil dari pencarian sebuah string dalam
dokumen tergantung dari teknik atau cara pencocokan string yang digunakan.
Pencocokan string diartikan sebagai sebuah permasalahan untuk menemukan pola
susunan karakter string di dalam string lain atau bagian dari isi teks (Syaroni, 2005).
Pencarian string yang juga bisa disebut pencocokan string (string matching)
merupakan algoritma untuk melakukan pencarian semua kemunculan string pendek
pattern [ 0…n-1] yang disebut pattern di string yang lebih panjang teks [0…m-1]
yang disebut teks (Charras, 1997).


2.2.2. Kerangka Kerja Pencocokan String
Persoalan pencarian string dirumuskan sebagai berikut:
1. Sebuah teks, yaitu sebuah (long) string yang panjangnya n karakter.
2. Pattern, yaitu sebuah string dengan panjang m.
Dengan sebuah nilai karakter (m -1 and not (P[i] = P[j]))
j := kmpNext[j];
i := i+1;
j := j+1;
if (P[i] = P[j])
kmpNext[i] := kmpNext[j];
else
kmpNext[i] := j;
endif
endwhile
}

Dan berikut adalah pseudocode algoritma KMP pada fase pencarian:
procedure KMPSearch(
input m, n : integer,
input P : array[0..n-1] of char,

input T : array[0..m-1] of char,
output ketemu : array[0..m-1] of boolean
)

Universitas Sumatera Utara

15

Deklarasi:
i, j, next : integer
kmpNext : array[0..n] of integer
Algoritma:
preKMP(n, P, kmpNext)
i:=0
while (i