SISTEM TANYA JAWAB DENGAN MENGGUNAKAN KOLEKSI DOKUMEN CERITA WAYANG Skripsi

SISTEM TANYA JAWAB DENGAN MENGGUNAKAN KOLEKSI DOKUMEN CERITA WAYANG

Skripsi Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Teknik

Jurusan Teknik Informatika Oleh : Angela Ami Asmarani

NIM : 055314057

PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2009

QUESTION ANSWERING SYSTEM

USING WAYANG STORY DOCUMENTS

A Thesis

Presented as Partial Fulfillment of the Requirements

To Obtain the Sarjana Teknik Degree

In Department of Informatics Engineering

By : Angela Ami Asmarani

Student ID : 055314057

INFORMATICS ENGINEERING STUDY PROGRAM

INFORMATICS ENGINEERING DEPARTMENT

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2009

SKRIPSI

SISTEM TANYA JAWAB DENGAN MENGGUNAKAN KOLEKSI

DOKUMEN CERITA WAYANG

Oleh :

Angela Ami Asmarani

NIM : 055314057

Telah Disetujui oleh :

Pembimbing

Sri Hartati Wijono, S.Si., M.Kom Tanggal …. Agustus 2009

SKRIPSI SISTEM TANYA JAWAB DENGAN MENGGUNAKAN KOLEKSI DOKUMEN CERITA WAYANG

Yang dipersiapkan dan disusun oleh : Angela Ami Asmarani NIM : 055314057 Telah dipertahankan di depan Tim Penguji

Pada tanggal 16 Juni 2009 Dan dinyatakan memenuhi syarat.

Susunan Tim Penguji Tanda Tangan Ketua : Alb. Agung Hadhiatma, S.T., M.T. _ _ _ _ _ _ _ _ _ Sekretaris : Sri Hartati Wijono, S.Si., M.Kom _ _ _ _ _ _ _ _ _ Anggota : Puspaningtyas Sanjoyo Adi, S.T., M.T. _ _ _ _ _ _ _ _ _

Yogyakarta,………………………….

Fakultas Sains dan Teknologi Universitas Sanata Dharma Dekan, (Yosef Agung Cahyanta, S.T, M.T.)

HALAMAN PERSEMBAHAN

Skripsi ini kupersembahkan untuk : untuk Tuhan Yang Maha Menakjubkan, yang selalu penuh kejutan dan selalu membuatku terkejut dengan seluruh keajaiban semestanya, baik ketika mataku terbuka maupun tertutup.

untuk keluargaku yang juga menakjubkan, untuk semua dukungan dan kehangatan

untuk almamaterku, untuk Indonesia dan kebudayaannya, dan, untuk setiap orang yang mampelajari Information Retrieval

PERNYATAAN KEASLIAN KARYA

Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini

tidak memuat karya/bagian karya orang lain, kecuali yang telah disebutkan dalam

kutipan dan daftar pustaka, sebagaimana layaknya karya ilmiah.

Yogyakarta, 11 Agustus 2009 Penulis Angela Ami Asmarani

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS

Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dharma : Nama : Angela Ami Asmarani

NIM : 055314057

Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan

Universitas Sanata Dharma karya ilmiah saya yang berjudul :

SISTEM TANYA JAWAB DENGAN MENGGUNAKAN KOLEKSI

DOKUMEN CERITA WAYANG

Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan

kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan

dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data,

mendistribusikannya secara terbatas, dan mempublikasikannya di internet dan media

lain untuk kepentingan akademis tanpa perlu meminta izin dari saya maupun

memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai

penulis. Demikian pernyataan ini saya buat dengan sebenarnya.

Yogyakarta, 11 Agustus 2009 Penulis,

ABSTRAK

Sistem tanya jawab adalah sistem yang menerima pertanyaan dari user dalam

bahasa alami, dan mengembalikan teks pendek sebagai jawabannya. Sistem

memperoleh jawaban dari koleksi dokumen (corpus) yang dimilikinya. Sistem tanya

jawab terdiri atas beberapa tahap pemrosesan antara lain: analisa pertanyaan,

preprocessing koleksi dokumen, pencarian kandidat dokumen, dan ekstraksi jawaban.

Skripsi ini membahas pembuatan sistem tanya jawab yang menggunakan

koleksi dokumen cerita wayang, sehingga pertanyaan user juga dibatasi seputar cerita

wayang. Dalam menjawab pertanyaan, sistem menggunakan metode pembobotan

kueri dan formula scoring untuk me-ranking kandidat jawaban.

Sistem ini dapat menerima pertanyaan seputar cerita wayang yang dibatasi pada

lima tipe jawaban yaitu Person, Location, Relation, Weapon, dan Number.

Diujicobakan pada 100 pertanyaan, sistem mampu menjawab 22 pertanyaan dengan

tepat, atau tingkat keberhasilannya adalah 22%.

ABSTRACT

Question answering system is a system that receives a user’s question in a

natural language, and returns short text as an answer. System retrieves the answer

from its corpus. Question answering system consists of some processing state i.e:

question analysis, document collection preprocessing, candidate document searching,

and answer extraction.

This paper discusses about the making of question answering system using

wayang story documents as the corpus, so that user’s question is about wayang stories

only. In answering the question, system uses query weight method and scoring

formula to rank candidate answers.

This system can receive questions around wayang story but the questions are

limited by five type of answer: Person, Location, Relation, Weapon, and Number.

Being tested on 100 questions, the system could answer 22 questions correctly. In

other words, the level of success is 22%.

KATA PENGANTAR

Puji syukur kepada Tuhan Yang Maha Esa yang telah memberikan segala

karunia-Nya sehingga penulis dapat menyelesaikan skripsi dengan judul “Sistem

Tanya Jawab dengan Menggunakan Koleksi Dokumen Cerita Wayang”.

Dalam kesempatan ini, penulis ingin mengucapkan terima kasih yang sebesar-

besarnya kepada semua pihak yang turut memberikan dukungan, semangat dan

bantuan hingga selesainya skripsi ini :

1. Ibu Sri Hartati Wijono, S.Si., M.Kom atas semua bantuan, bimbangan, kesabaran, waktu, dan semangat yang telah ibu berikan, membuat skripsi ini dapat terselesaikan. Apa jadinya semua ini tanpa bantuan ibu?

2. Bapak Puspaningtyas Sanjoyo Adi, S.T., M.T. sebagai Kaprodi dan sebagai dosen penguji, atas saran dan kritikan yang diberikan.

3. Bapak Alb. Agung Hadhiatma, S.T., M.T. dan sebagai dosen penguji, atas saran dan kritikan yang diberikan.

4. Seluruh Dosen TI yang selama empat tahun ini telah membagikan ilmunya yang sangat berguna kepada penulis.

5. Laboran Laboratorium Komputer yang telah membantu mempersiapkan jalannya pendadaran.

6. Seluruh Staff Universitas Sanata Dharma, yang atas kerja kerasnya, membuat perkuliahan menjadi terasa nyaman.

7. Kedua orangtuaku, Tarsisius Sunarto dan Hilaria Warsiari, adikku, Thomas

Aquino Adam Nurcahyo, kakakku, Agatha Uni Asmarani, atas kasih sayang, perhatian, dukungan, semangat dan doa yang mengiringi proses pembuatan skripsi ini.

8. Linus Wedar Duanto, Fenti Iskandari, dan Agnes Tyas, yang sangat banyak

membantu dalam proses pembuatan skripsi ini, atas dukungan, semangat, dan bantuan.

9. Serta semua pihak yang telah membantu kelancaran dalam penulisan tugas akhir ini. Penulis mengucapkan banyak terima kasih.

Yogyakarta, Agustus 2009 Penulis

DAFTAR ISI HALAMAN JUDUL BAHASA INDONESIA .................................................. i HALAMAN JUDUL BAHASA INGGRIS ........................................................ ii

HALAMAN PERSETUJUAN PEMBIMBING ................................................ iii

HALAMAN PENGESAHAN ............................................................................ iv

HALAMAN PERSEMBAHAN ........................................................................ v

PERNYATAAN KEASLIAN KARYA ............................................................ vi

HALAMAN PERSETUJUAN PUBLIKASI...................................................... vii

ABSTRAK ......................................................................................................... viii

ABSTRACT ......................................................................................................... ix

KATA PENGANTAR ....................................................................................... x

DAFTAR ISI ...................................................................................................... xii

DAFTAR TABEL .............................................................................................. xvii

DAFTAR GAMBAR ......................................................................................... xviii

BAB I PENDAHULUAN

1.1 Latar Belakang ........................................................................................ 1

1.2 Rumusan Masalah ................................................................................... 3

1.3 Batasan Masalah ..................................................................................... 3

1.4 Tujuan dan Manfaat ................................................................................ 4

1.5 Metodologi Penelitian ............................................................................. 4

BAB II LANDASAN TEORI

2.1 Information Retrieval .............................................................................. 7

2.2 Sistem Tanya Jawab................................................................................ 9

2.3 Ad Hoc Retrieval .................................................................................... 10

2.4 Kueri........................................................................................................ 10

2.5 Segmentasi .............................................................................................. 12

2.6 Stemming ................................................................................................. 12

2.7 Parsing .................................................................................................... 15

2.8 Stopword, Stoplist, dan Stopword Removal ............................................ 15

2.9 Indexing................................................................................................... 16

2.10 Ranking ................................................................................................... 16

2.11 Diagram Aliran Data .............................................................................. 18

2.12 Perl dan XAMPP..................................................................................... 20

BAB III ANALISA DAN DESAIN SISTEM

3.1. Perancangan Sistem ................................................................................ 25

3.1.1.Preproses (Proses 1) .......................................................................... 27

a. Segmentasi dokumen (Sub Proses 1.1P).................................. 29

b. Pembuatan file kosakata (Sub Proses 1.2P) ............................. 29

c. Pembuatan file Token (Proses 1.3P) ........................................ 32

d. Stemming File (Sub Proses 1.4P) ............................................. 33

f. Pembuatan File Sinonim (Sub Proses 1.6P) ............................ 37

d. Ekstraksi Jawaban (Sub Proses 3.4)......................................... 60

4.1.2 Struktur File pada Folder Index ........................................................ 88

4.1.1 Struktur File pada Folder Preproses.................................................. 83

4.1 Implementasi Fisik ........................................................................................ 82

BAB IV IMPLEMENTASI

3.3. Desain Antar Muka ................................................................................. 79

3.2. Diagram Berjenjang Sistem .................................................................... 78

3.1.4.Kamus Data....................................................................................... 70

c. Pencarian dan Ranking Passage (Sub Proses 3.3) ................... 58

g. Membuat File Stoplist (Sub Proses 1.7P) ................................ 39 h.

b. Pencarian dan Ranking Dokumen (Sub Proses 3.2)................. 57

a. Analisa Pertanyaan (Sub Proses 3.1) ....................................... 52

3.1.3.Pengolahan Pertanyaan dan Pencarian Jawaban (Proses 3).............. 51

b. Pembuatan File Index Passage (Sub Proses 2.3P .................... 51

a. Pembuatan File Index Dokumen (Sub Proses 2.1P) ................ 49

3.1.2.Indexing (Proses 2)............................................................................ 48

Remove Stopword (Sub Proses 1.8P) ....................................... 40 i. Parsing / Tagging (Sub Proses 1.9P) ....................................... 41 j. Pembuatan Passage (Sub Proses 1.10P) .................................. 43

4.1.3 Struktur File pada Folder Koleksi ..................................................... 90

4.2.1 Program Pembuatan Kosakata .......................................................... 96

4.2.2 Program Stem File ............................................................................ 97

4.2.3 Program Stem Koleksi ...................................................................... 99

4.2.4 Program Pembuatan Stoplist ............................................................. 100

4.2.5 Program Stopword Removal ............................................................. 101

4.2.6 Program Parsing ................................................................................ 101

4.2.7 Program Pembuatan Passage............................................................. 102

4.2.8 Program Pembuatan Index Dokumen ............................................... 105

4.2.9 Program Pembuatan Index Passage .................................................. 106

4.2.10 Program Analisa Pertanyaan ............................................................. 107

4.2.11 Program Pencarian dan Ranking Dokumen ...................................... 109

4.2.12 Program Pencarian dan Ranking Passage ......................................... 110

4.2.13 Program Ekstraksi Jawaban .............................................................. 112

4.3 Implementasi Antarmuka .............................................................................. 116

4.3.1 Halaman Home / Form Pertanyaan ................................................... 116

4.3.2 Halaman Jawaban.............................................................................. 117

4.3.3 Halaman Tentang Sistem .................................................................. 118

4.3.4 Halaman Kredit ................................................................................. 119

4.3.5 Halaman Cara Kerja Sistem .............................................................. 120

4.3.6 Halaman Evaluasi ............................................................................. 120

BAB V ANALISA HASIL IMPLEMENTASI

5.2 Analisa Uji Coba ........................................................................................... 122

BAB IV KESIMPULAN DAN SARAN

6.1 Kesimpulan ................................................................................................... 126

6.2 Saran.............................................................................................................. 127

DAFTAR PUSTAKA ......................................................................................... 128

LAMPIRAN

DAFTAR TABEL

Tabel 1: inflectional pasrticles................................................................ 13

Tabel 2 : inflectional possessive pronouns ............................................ 13

Tabel 3 : first order of derivational prefixes........................................... 14

Tabel 4 : second order of derivational prefixes ...................................... 14

Tabel 5 : derivational suffixes................................................................. 15

Tabel 3.1.3 Tabel kata passage ............................................................... 65Table 3.1.4 Kamus Data.......................................................................... 70

DAFTAR GAMBAR Gambar 2.1.a : Diagram proses Pemerolehan Informasi

................................. 8

Gambar 2.6.a desain Stemming ......................................................................... 13

Gambar 2.11.a contoh DAD ............................................................................... 18

Gambar 2.11.b contoh DAD ............................................................................... 20

Gambar 3.1.a diagram konteks system .............................................................. 25

Gambar 3.1.b Diagram Aliran Data level 1

...................................................... 26

Gambar 3.1.1.a DAD level 2 proses 1 ............................................................... 28

Gambar 3.1.1.b Flowchart Pembuatan File Kosakata ...................................... 31

Gambar 3.1.1.c desain Stemming ...................................................................... 34

Gambar 3.1.1.d desain proses Stemming ........................................................... 35

gambar 3.1.1e flowchart proses parsing

........................................................... 42

gambar 3.1.1.f gambar flowchart pembuatan passage ...................................... 45

Gambar 3.1.1.g gambar file-file preproses ........................................................ 47

Gambar 3.1.1.h koleksi-koleksi dokumen .......................................................... 48

gambar 3.1.2.a DAD level 2 Proses 2 ................................................................ 49

gambar 3.1.2.b Flowchart pembuatan file index

............................................... 50

Gambar 3.1.3.a DAD level 2 proses 3 ............................................................... 52

gambar 3.1.3.b DAD level 3 proses 3.1 ............................................................. 53

gambar 3.1.3.c Flowchart pengelompokkan pertanyaan jawaban .................... 55

gambar 3.1.3.e DAD level 3 proses 3.3 ............................................................. 59

gambar 3.1.3.f Flowchart skor passage 1 ........................................................... 61

gambar 3.1.3.g Flowchart skor passage 2

......................................................... 62

gambar 3.1.3.h Flowchart skor passage 3 .......................................................... 63

gambar 3.1.3.i Flowchart skor kandidat 1 .......................................................... 67

gambar 3.1.3.j Flowchart skor kandidat 2 ......................................................... 68

Gambar 3.3.a Diagram berjenjang .................................................................... 78

Gambar 3.4.a Form pertanyaan

........................................................................ 79

Gambar 3.4.b Jawaban Pertanyaan .................................................................. 79

Gambar 3.4.c tampilan Tentang program. ........................................................ 79

Gambar 3.4.d tampilan Kredit ........................................................................... 80

Gambar 3.4.e tampilan Bagaimana Sistem bekerja .......................................... 80

Gambar 3.4.f halaman evaluasi

........................................................................ 81

Gambar 4.1.a implementasi program ................................................................. 82

Gambar 4.1.b folder file ..................................................................................... 83

Gambar 4.1.1a folder preproses ......................................................................... 83

Gambar 4.1.1.b folder sinonim .......................................................................... 85

Gambar 4.1.1.c folder token

.............................................................................. 86

Gambar 4.1.1.d folder stem ............................................................................... 87

Gambar 4.1.1.e folder suffix .............................................................................. 88

Gambar 4.1.2.a. folder index ............................................................................. 89

Gambar 4.1.3.b folder koleksi-scan ................................................................... 91

Gambar 4.1.3.c folder koleksi-segmen ............................................................... 92

Gambar 4.1.3.d folder koleksi-parsing

.............................................................. 94

Gambar 4.1.3e folder koleksi-passage ............................................................... 95

Gambar 4.3.1.a halaman home .......................................................................... 116

Gambar 4.3.1.b form pertanyaan ....................................................................... 117

Gambar 4.3.2.a halaman jawaban ..................................................................... 117

Gambar 4.3.3.a halaman tentang

...................................................................... 118

Gambar 4.3.4.a halaman kredit system .............................................................. 119

Gambar 4.3.5.a halaman cara kerja system ...................................................... 120

Gambar 4.3.6.a halaman evaluasi ...................................................................... 120

BAB 1 PENDAHULUAN

1.1 LATAR BELAKANG

Dengan adanya komputer dan internet, pertukaran informasi dapat terjadi dengan sangat cepat, dan saat ini, informasi sudah menjadi sebuah kebutuhan.

Informasi yang dapat kita peroleh sangat banyak, tetapi hanya beberapa informasi saja yang diperlukan, dan sering terjadi kesulitan dalam mencari informasi yang dibutuhkan dari miliaran informasi yang ada di internet. Untuk itulah maka diciptakan mesin pencari. Mesin pencari adalah sebuah sistem yang dirancang untuk membantu seseorang menemukan file-file yang disimpan dalam komputer maupun di dalam server.

Saat ini dengan adanya mesin pencari, pencarian dokumen yang dibutuhkan dapat dilakukan dengan memasukkan kata-kata kunci dari dokumen yang dimaksud. Kemudian, mesin pencari akan mengembalikan informasi mengenai dokumen-dokumen yang relevan terhadap kata kunci yang diberikan. Tetapi, seringkali, yang dibutuhkan bukanlah sebuah dokumen, melainkan hanya sebagian dari dokumen itu. Misalnya saat ingin mengetahui “siapa yang menculik Sinta?”. Bila menggunakan mesin pencari untuk menemukan jawaban dari

pertanyaan tersebut, maka mesin pencari akan mengembalikan dokumen-

dokumen Ramayana. Dokumen tersebut harus dibaca untuk mendapatkan

bukan keseluruhan cerita Ramayana. Untuk menjawab permasalahan itu, maka

dibutuhkan Sistem Tanya Jawab.

Sistem Tanya Jawab menerima masukan berupa pertanyaan dengan bahasa

natural, atau bahasa sehari-hari, kemudian memproses pertanyaan tersebut

menjadi sebuah kueri, kueri tersebut digunakan untuk mencari jawaban pada

koleksi dokumen.

Saat ini sudah banyak penerapan Sistem Tanya Jawab, baik Sistem Tanya

Jawab dengan tema tertentu maupun Sistem Tanya Jawab secara umum. Beberapa

[Gu]

yang sudah dikerjakan di Indonesia adalah Sistem Tanya Jawab Alkitab yang

menggunakan koleksi dokumen Alkitab berbahasa Inggris untuk mendapatkan

jawaban dari pertanyaan yang diberikan. Pertanyaannya pun juga berkisar

mengenai Alkitab dan menggunakan bahasa Inggris.

Sistem Tanya Jawab yang umum, biasanya menggunakan koleksi dokumen

dari world wide web, dan pertanyaannya pun dapat apa saja. Dalam skripsi ini,

Tema yang dipilih adalah cerita wayang, sementara untuk koleksi dokumennya

menggunakan koleksi dokumen cerita wayang dari penyimpanan lokal (tidak

menggunakan koleksi dari world wide web). Skripsi ini memilih tema tersebut

dengan harapan dapat lebih fokus dalam menangani pertanyaan dan pencarian

jawabannya.

1.2 RUMUSAN MASALAH

Dari latar belakang masalah di atas dapat dirumuskan menjadi beberapa masalah sebagai berikut :

1. Bagaimana memproses pertanyaan menjadi sebuah kueri?

2. Bagaimana mencari dokumen yang relevan dengan kueri?

3. Bagaimana mengekstrak jawaban dari dokumen yang relevan?

1.3 BATASAN MASALAH

1. Sistem ini hanya menggunakan koleksi dokumen teks cerita wayang berbahasa Indonesia, yaitu cerita Mahabarata dan Ramayana yang disimpan di penyimpanan local (bukan world wide web).

2. Pertanyaan yang diajukan menggunakan bahasa Indonesia dengan kalimat sederhana.

3. Pertanyaan yang diajukan berkisar tentang cerita wayang.

4. Jawaban pertanyaan dibatasi pada tipe person, tempat, jumlah (angka), relasi, dan senjata.

5. Jawaban pertanyaan terdiri dari satu atau dua kata.

6. Untuk lebih memahami konteks, ditambahkan potongan cerita dimana jawaban berada.

7. Sistem ini merupakan sistem Ad Hoc, dimana koleksi dokumen tidak bertambah, hanya pertanyaannya saja yang berubah.

9. Skripsi ini terfokus pada pembuatan sistem tanya jawab, sehingga pembuatan website tidak dibahas secara detail.

1.4 TUJUAN DAN MANFAAT Tujuan dari pembuatan skripsi ini adalah membuat sebuah sistem yang mampu menerima masukan berupa pertanyaan dalam bahasa natural dan memberikan jawaban yang sesuai.

Manfaat dari pembuatan skripsi ini adalah untuk mengenalkan cerita wayang.

1.5 METODOLOGI PENELITIAN

1. Studi pustaka mengenai Sistem Tanya Jawab, Information Retrieval dan Perl.

2. Mengumpulkan koleksi dokumen cerita wayang dalam bahasa Indonesia.

3. Membuat contoh kueri (pertanyaan) dari koleksi dokumen tersebut.

4. Pembuatan sistem menggunakan metode waterfall. Langkah-langkahnya yaitu:

Perancangan sistem
Implementasi Sistem • Melakukan uji coba dengan sample kueri yang sudah dikumpulkan.
Menghitung ketepatan sistem dalam menjawab pertanyaan (evaluasi)

1.6 SISTEMATIKA PENULISAN

BAB I PENDAHULUAN Bab I berisi tentang penjelasan awal masalah, masalah apa yang dihadapai, rumusan masalah, batasan masalah, dan metode penelitian. BAB II LANDASAN TEORI Bab II berisi landasan-landasan teori yang akan mendunkung pembuatan skripsi antara lain mengenai Information Retrieval, Sistem Tanya Jawab, dan

fungsi-fungsi bahasa Perl yang akan di gunakan dalam pembuatan program.

BAB III ANALISIS DAN PERANCANGAN SISTEM Bab III berisi tentang analisis dan perancangan sistem yang akan dibuat, Diagram Alir Data, flowchart, diagram berjenjang, dan disain user interface. BAB IV IMPLEMENTASI SISTEM Bab IV berisi pembuatan dan implementasi sistem, bahasan script (kode program) yang digunakan. BAB V ANALISA HASIL IMPLEMENTASI Bab V berisi penerapan dan pengujian sistem beserta hasil evaluasi sistem.

Bab V berisi kesimpulan dari keseluruhan pembuatan sistem dan saran untuk pengembangan sistem ke depan.

BAB II LANDASAN TEORI

2.1 Information Retrieval

Definisi Pemerolehan Informasi atau Information Retrieval (IR) adalah menemukan sebuah material atau informasi dari sebuah koleksi dokumen berskala besar yang tidak terstruktur yang dapat memenuhi sebuah kebutuhan informasi. IR digunakan untuk mengatasi "banjir informasi". Aplikasi- Aplikasi IR antara lain digunakan untuk: 1. mesin pencari pada internet.

2. Automatic summarization , merupakan sistem yang dapat membuat sebuah ringkasan dari sebuah dokumen atau lebih.

3. Document classification , adalah sistem yang memilah-milah sekumpulan dokumen ke dalam klasifikasinya.

4. Recommender systems , adalah sistem yang memberikan rekomendasi berdasarkan data yang ada.

5. Question answering , adalah sistem yang menerima pertanyaan dan mencari jawabannya pada koleksi dokumen yang dimilikinya.

Proses dalam IR secara umum dapat dijelaskan pada gambar 2.1

User

_Interface

Text Operations

_Query _Operations Searching Ranking ^Indexing ^{DB Manager} ^Module ^Index ^Text ^Database ^{User feedback} ^{Retrieved docs} _{Ranked docs} ^{User need} ^Text ^Text ^{Logical view} ^{Inverted file}

Gambar 2.1.a : Diagram proses Pemerolehan Informasi

Penjelasan proses Pemerolehan Informasi: Dari sisi database, database diproses sebagai berikut :

1. Text database, melalui DB Manager Module diolah dalam proses text operation .

2. Hasil dari text operation digunakan dalam proses indexing 3. Proses indexing menghasilkan sebuah file index.

Dari sisi user:

1. User menginputkan kebutuhan user

2. Kebutuhan user tersebut diolah dalam text operation agar dapat dibentuk

menjadi sebuah kueri.

3. Kebutuhan user yang telah diolah kemudian dibuat menjadi kueri.

4. Dilakukan pencarian dengan menggunakan kueri pada file index.

5. Hasil dari pencarian kemudian di ranking dan ditampilkan pada user.

6. Pemerolehan informasi juga memungkinkan terjadinya feedback dari

user . Feedback ini kemudian digunakan untuk pembuatan kueri.

2.2 Sistem Tanya Jawab Sistem tanya jawab (QA) adalah salah satu jenis Information Retrieval.

Sistem ini mampu me-retrieve jawaban dari pertanyaan yang diajukan dalam bahasa alami dari koleksi dokumen yang dimilikinya (dapat juga dari world wide web). Dari seluruh jenis aplikasi Information Retrieval, QA merupakan aplikasi yang paling banyak menggunakan pemrosesan bahasa alami, dan diyakini merupakan generasi berikutnya dari mesin pencari. Berdasarkan koleksi dokumennya, QA terbagi menjadi dua :

Closed-domain question answering

: merupakan QA system yang menangani pertanyaan dengan domain tertentu, contohnya adalah bidang otomotif, kesehatan, alkitab dan lain-lain. QA system dengan closed- domain dapat dikatakan lebih mudah, karena pemrosesan bahasa

alaminya dapat mengenali istilah-istilah dalam domain tersebut.

Open-domain question answering

: merupakan QA system yang menangani semua pertanyaan dan hanya dapat mengenali istilah umum dan pengetahuan tentang dunia. Selain itu, dibandingkan dengan closed- domain , Open-domain menangani koleksi data yang jauh lebih banyak untuk menemukan jawaban.

Proses dari QA system antara lain adalah :

1. Pemrosesan Kueri

2. Pencarian Dokumen

3. Ekstraksi Jawaban

2.3 Ad Hoc Retrieval Merupakan tipe retrival dimana koleksi dokumen tetap sementara kueri berubah-ubah.

2.4 Kueri Kueri adalah bentuk lain dari pertanyaan atau kebutuhan. Kueri dalam IR adalah kueri yang hasilnya memungkinkan untuk diurutkan (ranked). Ada beberapa jenis kueri, di antaranya adalah Keyword-Based Querying, Pattern Matching , dan Structural Queries.

Keyword-Based Querying adalah kueri yang terdiri dari kata kunci-kata kunci dari dokumen yang akan dicari. Keyword-Based Querying populer karena intuitive, ekspresinya mudah , dan memudahkan ranking secara cepat. Kueri ini dapat terdiri dari satu kata kunci atau beberapa susunan kata kunci yang

1. Single-word Queries Pada kueri ini, sebuah dokumen dianggap merupakan sekumpulan kata- kata, tidak memperhatikan kalimat atau konteks di mana suatu kata berada. Hasil dari kueri ini adalah dokumen-dokumen yang setidaknya memiliki atau mengandung paling tidak satu kata dari kata-kata kunci pada kueri. Hasilnya di-ranking berdasarkan banyaknya jumlah kata kunci kueri yang ditemukan dalam dokumen itu dengan menggunakan metode statistik “term frequency” yang akan menghitung berapa kali kata itu muncul dalam sebuah dokumen, dan “inverse document frequency” yang akan menghitung jumlah dokumen yang mengandung kata-kata tersebut.

2. Context Queries Context Queries memiliki dasar bahwa kata-kata yang kemunculannya dekat satu sama lain mungkin lebih tinggi tingkat relevansinya dibandingkan bila kata-kata itu muncul secara terpisah. Context Queries dibagi menjadi Phrase Query dan Proximity Query. Phrase Query adalah kueri yang mengijinkan kata-kata tersebut muncul dengan jarak yang dekat atau jarak minimum yang ditentukan. Proximity adalah kueri yang memperbolehkan jarak maksimum dari kemunculan kata-kata kunci tersebut.

3. Boolean Queries

Boolean Queries merupakan kueri yang paling tua. Terdiri dari kata-kata kunci dan operator Boolean yang bekerja sebagai operand. Operator yang biasa digunakan adalah operator OR, AND, dan BUT.

2.5 Segmentasi Segmentasi adalah membagi sesuatu menjadi bagian-bagian yang lebih kecil dengan aturan tertentu.

2.6 Stemming Stemming adalah proses penghilangan prefiks dan sufiks dari sebuah kata untuk mendapatkan kata dasarnya. Stemming dilakukan atas dasar asumsi bahwa kata- kata yang memiliki kata dasar yang sama memiliki makna yang serupa sehingga dokumen-dokumen yang di dalamnya terdapat kata-kata dengan kata dasar yang sama juga relevan dengan kuerinya. Terdapat beberapa metode untuk melakukan Stemming diantaranya adalah metode Porter, Lovins, Dawson, dan Krovetz. Ada juga algoritma Proter Stemmer yang telah dimodifikasi untuk Bahasa Indonesia.

Porter Stemmer for Bahasa Indonesia dikembangkan oleh Fadillah Z. Tala pada tahun 2003. Implementasi Porter Stemmer for Bahasa Indonesia berdasarkan English Porter Stemmer yang dikembangkan oleh W.B. Frakes pada tahun 1992.

Karena bahasa Inggris datang dari kelas yang berbeda, beberapa modifikasi telah dilakukan untuk membuat Algoritma Porter dapat digunakan sesuai dengan bahasa Indonesia. Desain Porter Stemmer for Bahasa Indonesia dapat dilihat pada gambar 2.8.a

Gambar 2.6.a desain Stemming

Pada gambar 2.8.a terlihat beberapa langkah ‘removal’ menurut aturan yang ada

pada tabel 1 sampai dengan tabel 5.

Tabel 1: kelompok rule pertama : inflectional particles

Tabel 2 : kelompok rule kedua : inflectional possessive pronouns Tabel 3 : Kelompok rule ketiga : first order of derivational prefixes Tabel 4 : Kelompok rule keempat : second order of derivational prefixes

Tabel 5 : Kelompok rule kelima : derivational suffixes

2.7 Parsing Untuk pemrosesan, dokumen dipilah menjadi unit-unit yang lebih kecil misalnya berupa kata, frasa atau kalimat. Unit pemrosesan tersebut disebut sebagai token. Parsing merujuk pada proses pengenalan token yang terdapat dalam rangkaian teks. Oleh karena itu bagian dasar dalam parsing adalah algoritma pengambil token dari teks yang disebut tokenizer. Proses ini memerlukan pengetahuan bahasa untuk menangani karakter-karakter khusus, serta menentukan batasan satuan unit dalam dokumen.

2.8 Stopword, Stoplist, dan Stopword Removal Stopwords adalah kata-kata yang tidak signifikan dalam sebuah dokumen seperti kata-kata “dan”, “hingga”, “di”, “ke”, “dari”. Stoplist adalah daftar stopword . Tujuan dari penghilangan stopword adalah untuk mengurangi jumlah kata-kata yang hasrus diproses. Dengan dihilangkannya stopword, proses retrieval dapat lebih cepat.

2.9 Indexing Indexing adalah membuat sebuah struktur data dari seluruh dokumen untuk mempercepat proses pencarian. Indeks biasanya digunakan untuk koleksi dokumen yang bersifat semi-statis. Semi-statis maksudnya adalah koleksi dokumen tersebut dapat bertambah atau berubah jumlahnya namun dalam interval waktu tertentu, tidak berubah setiap detik. Salah satu metode indexing adalah : Inverted Files (inverted index) Inverted files adalah mekanisme dalam mengindeks sebuah koleksi dari dokumen teks yang bertujuan untuk mempercepat proses pencarian. Struktur inverted file terbagi menjadi dua elemen : vocabulary dan occurrences.

Vocabulary adalah kumpulan dari kata yang berbeda yang terdapat di dalam teks. Occurrences adalah daftar dari semua posisi teks dimana kata-kata tersebut muncul.

2.10 Ranking Dalam skripsi ini ranking adalah proses mengurutkan sekumpulan dokumen berdasarkan tingkat relevansinya terhadap kueri. Salah satu metodenya adalah dengan menggunakan Term Frequency digabungkan dengan Inverse Document Frequency .

Term Frequency (tf) adalah jumlah kemunculan suatu kata dalam sebuah

Inverse document frequency (idf) adalah inverse document frequency dari suatu kata.

Rumus dalam penggunaan tf*idf adalah : Dimana : W ij = weight (bobot) dari kata i pada dokumen j tf ij = jumlah kemunculan kata I pada dokumen j idf i = inverse document frequency dari kata i N = jumlah seluruh dokumen df = i jumlah dokumen yang mengandung kata i kemudian tingkat similiaritinya dihitung dengan menggunakan Similarity Measure-Inner Product dengan rumus: Dimana : Sim (d j , q) = tingkat kesamaan dokumen j terhadap kueri dj = dokumen j q = kueri t

= terms (jumlah kata dalam kueri) W ij = bobot kata i pada dokumen j

W iq = bobot kata i pada kueri

2.11 Diagram Aliran Data [Whitten]

Diagram Aliran Data adalah suatu model proses yg digunakan utk menggambarkan aliran data yg melalui sebuah sistem dan bagaimana proses atau kerja yg dilakukan oleh sistem. Sinonimnya adalah bubble chart, transformation graph, dan process model.

Gambar 2.11.a contoh DAD Simbol dalam Diagram Aliran Data

Data flow

Menggambarkan data yang bergerak atau berpindah. Sebuah data flow dapat juga digunakan untuk merepresentasikan pembuatan (creation), pembacaan (reading), penghapusan (deletion) atau perubahan (updating) data dalam sebuah file atau database (disebut sebagai sebuah data store).

External Agent Orang di luar sistem yang berinteraksi dengan sistem
Data store Melambangkan sebagai database atau file.
Proses Melambangkan sebuah proses.
Diverging Data flow

Menyatukan beberapa aliran data ataupun untuk memecah aliran data menjadi beberapa lairan data yang asalnya dari satu aliran data.

Gambar 2.11.b contoh DAD

2.12 Perl dan XAMPP Perl adalah bahasa pemrograman yang dapat digunakan untuk lintas platform.

Bahasa pemrograman ini di buat oleh Larry Wall dan pertama kali dirilis pada tahun 1987. Perl merupakan software open source dibawah Artistic License atau GNU General Public License (GPL). Bahasa ini dapat digabungkan dengan HTML, XML, dan bahasa mark-up lainnya, selain itu bahasa ini mendukung pemrograman secara procedural maupun object-oriented. Interpreter Perl dapat digabungkan dengan sistem lain.

Perl merupakan bahasa pemrograman web yang populer untuk kemampuan

dengan web server untuk mempercepat proses, kecepatannya mencapai

SISTEM TANYA JAWAB DENGAN MENGGUNAKAN KOLEKSI DOKUMEN CERITA WAYANG Skripsi