DALAM KAMUS PEWAYANGAN MESIN PENCARI DATA TOKOH DAN CERITA WAYANG
MESIN PENCARI DATA TOKOH DAN CERITA WAYANG
DALAM KAMUS PEWAYANGAN SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Teknik Program Studi Teknik Informatika OLEH: Y. YENI KRISTIAWAN NIM : 055314039 JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA
SEARCH ENGINE DATA DETECTOR OF PUPPET
CHARACTER AND STORY IN PUPPETRY DICTIONARY
FINAL PROJECT
Presented as Partial Fulfillment of the Requirements
To Obtain the Sarjana Teknik Degree
In Informatics Engineering
By:
Y. YENI KRISTIAWAN
NIM : 055314039
DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2009
PERNYATAAN KEASLIAN KARYA
Saya menyatakan bahwa skripsi yang saya tulis ini tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka, sebagaimana layaknya karya ilmiah.
Yogyakarta, 16 Juli 2009 Penulis Y. Yeni Kristiawan
LEMBAR PERNYATAAN PERSETUJUAN
PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMISYang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma : Nama : Y. Yeni Kristiawan NIM : 055314039
Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul :
MESIN PENCARI DATA TOKOH DAN CERITA WAYANG DALAM
KAMUS PEWAYANGAN
Beserta perangkat yang diperlukan ( bila ada ). Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikan secara terbatas, dan mempublikasikannya di Internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis. Demikian pernyataan ini yang saya buat dengan sebenarnya. Dibuat di Yogyakarta Pada tanggal : 16 Juli 2009 Yang menyatakan
HALAMAN PERSEMBAHAN
Skripsi ini saya persembahkan untuk: Ibu, Bapak dan Mas Toro atas dukungan, semangat, kasih sayang dan dukungan kalian semua, tanpa kalian semua ini tidak akan berarti.
Buat pacar dan semua sahabatku atas semua dukungan dan kritik kalian dalam penyusunan skripsi ini.
Teman-teman TI angkatan 2005, terimakasih atas semua yang telah kalian berikan buat aku.
HALAMAN MOTO
Nikmati dan syukurilah hari ini, seolah hari ini adalah hari terakhir dalam hidup kita.
Kae manungsa golek upa angkara Sesingidan mawuni ngGawa bandha donya mBuwang rasa agama
Nyingkiri sesanti ati Tan wedi dosa
Tan eling bakal mati (Durma Macepat)
KATA PENGANTAR
Puji syukur saya haturkan kepada Tuhan Yesus Kristus yang telah melimpahkan berkat-Nya. Sehingga saya dapat menyelesaikan Laporan Tugas Akhir ini.
Pada kesempatan ini saya ingin mengucapkan terima kasih kepada pihak – pihak yang telah membantu saya dalam menyelesaikan skripsi ini, baik dalam hal bimbingan, perhatian, kasih sayang, semangat, kritik, dan saran yang telah diberikan. Ucapan terima kasih ini saya sampaikan antara lain kepada :
1. Bapak Yosef Agung Cahyanta, S.T., M.T., selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.
2. Bapak Puspaningtyas Sanjaya Adi, S.T., M.T., selaku Ketua Jurusan Teknik Informatika Universitas Sanata Dharma.
3. Bapak JB. Budi Darmawan S.T., M.Sc, selaku Dosen Pembimbing Akademik Teknik Informatika angkatan 2005.
4. Bapak Alb. Agung Hadhiatma, S.T, M.T, selaku Dosen Pembimbing TA.
Terima kasih atas bimbingan selama saya mengerjakan Laporan Skripsi ini.
5. Kedua orangtua dan kakak, terima kasih atas dukungan, kasih sayang dan semangat yang tiada henti sehingga saya dapat menyelesaikan Tugas Akhir ini.
6. Seluruh pihak yang membantu saya baik secara langsung maupun tidak langsung, yang tidak dapat saya sebutkan satu persatu.
Saya menyadari masih banyak kekurangan yang terdapat pada laporan ini. Saran dan kritik selalu saya harapkan dari pembaca untuk perbaikan – perbaikan di masa yang akan datang.
Akhir kata, saya berharap tulisan ini dapat bermanfaat bagi kemajuan dan perkembangan ilmu pengetahuan dan berbagai pihak pengguna pada umumnya.
Yogyakarta, Juli 2009 Penulis
ABSTRAKSI
Dalam pewayangan terdapat begitu banyak tokoh dan judul kriteria atau lakon wayang, hal ini menyebabkan banyaknya dokumen dalam pewayangan.
Oleh karena banyaknya dokumen yang ada akan mempersulit proses pencarian dokumen berdasarkan kriteria tertentu.
Tugas akhir ini bertujuan untuk membangun aplikasi yang dapat digunakan untuk membantu proses pencarian dokumen wayang dari koleksi dokumen yang dimiliki dan dapat mengelola jika ada dokumen baru yang ditambahkan ke dalam koleksi dokumen. Aplikasi ini dikembangkan menggunakan perangkat lunak Visual Basic Versi 6 dan basis data SQL SERVER 2000.
Hasil yang dapat diperoleh mengunakan aplikasi ini adalah dapat mempermudah pengguna untuk mencari dokumen wayang berdasarkan kriteria tertentu dengan tingkat kemiripan yang paling tinggi.
ABSTRACT
In the puppetry found figure very much and story title or puppet story, this matter causes document quantity in puppetry. Therefore, document quantity existence will complicate document livelihood process based on certain criteria.
The aim from this task ends to build application that can be used to help livelihood process puppet document from document collection that has and can managed if there new document that is added into document collection. This application is developed to use Visual Basic Version 6 software and database SQL SERVER 2000.
The result that obtainable use this application can simplify user to look for puppet document based on certain criteria with resemblance highest scor.
DAFTAR ISI
HALAMAN JUDUL ............................................................................................... i HALAMAN PERSETUJUAN............................................................................... iii HALAMAN PENGESAHAN ............................................................................... iv PERNYATAAN KEASLIAN KARYA ..................................................................v LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS .............................................................. vi HALAMAN PERSEMBAHAN ........................................................................... vii HALAMAN MOTO ............................................................................................ viii KATA PENGANTAR ........................................................................................... ix ABSTRAKSI ......................................................................................................... xi ABSTRACT.......................................................................................................... xii DAFTAR ISI........................................................................................................ xiii DAFTAR TABEL............................................................................................... xvii DAFTAR GAMBAR ......................................................................................... xviii
BAB I .......................................................................................................................1 PENDAHULUAN ...................................................................................................1
1.1 Latar Belakang ..........................................................................................1
1.2 Rumusan Masalah .....................................................................................2
1.3 Batasan Masalah........................................................................................2
1.4 Tujuan Penelitian.......................................................................................3
1.5 Metode Penelitian......................................................................................3
BAB III ..................................................................................................................23 ANALISIS DAN PERANCANGAN ....................................................................23
3.3.1.2 Diagram Use Case ........................................................................25
3.3.1.1 Actor.............................................................................................24
3.3.1 Model Use Case ...............................................................................24
3.3 Perancangan Sistem.................................................................................24
3.2 Metode Pengumpulan Data .....................................................................24
3.1.1 Analisis Kebutuhan ..........................................................................23
3.1 Analisa Sistem.........................................................................................23
2.5 Evaluasi Sistem Temu Kembali Informasi..............................................21
1.6 Sistematika Penulisan................................................................................4
2.4 Algoritma TF/IDF ...................................................................................20
2.3 Teknik-teknik Temu-kembali Informasi .................................................17
2.2.2 Porter Stemmer for Bahasa Indonesia.............................................14
2.2.1 Stemming..........................................................................................13
2.2 Pengindeksan (Indexing) Dalam Sistem Temu-Kembali Informasi .......11
2.1 Pengertian Sistem Temu-kembali Informasi.............................................6
BAB II......................................................................................................................6 LANDASAN TEORI...............................................................................................6
3.3.1.3 Tabel Use Case.............................................................................26
3.3.2 Data Flow Diagram (DFD) ..............................................................26
3.3.3 Bagan Alir Program .........................................................................29
3.3.3.1 Algoritma proses indexing ...........................................................30
3.3.3.2 Algoritma proses pencarian dokumen..........................................38
3.3.4 Perancangan Database.....................................................................46
3.3.4.1 Conceptual Database Design.......................................................46
3.3.4.2 Logical Database Design .............................................................46
3.3.4.3 Physical Database Design ...........................................................47
3.4 Perancangan Antarmuka (Interface)........................................................49
1. Desain Menu Utama................................................................................50
2. Desain Form Pencarian ...........................................................................51
3. Desain Form Login..................................................................................52
4. Desain Form Menu Utama Admin ..........................................................52
5. Desain Form Admin Tambah Dokumen .................................................53
6. Desain Form Admin Manage Stoplist .....................................................54
BAB IV ..................................................................................................................55 IMPLEMENTASI..................................................................................................55
4.1 Spesifikasi Software dan Hardware yang digunakan ..............................55
4.1.1 Spesifikasi Software.........................................................................55
4.1.2 Spesifikasi Hardware .......................................................................55
4.2 Koneksi Basisdata dengan Sistem...........................................................55
4.3 Pembuatan Antarmuka (Interface) ..........................................................56
4.3.1 Form Menu Utama ...........................................................................56
4.3.2 Form Cari Dokumen Wayang ..........................................................57
4.3.3 Form About ......................................................................................68
4.3.4 Form Login ......................................................................................68
4.3.5 Form Menu Admin ..........................................................................69
4.3.6 Form Tambah Dokumen ..................................................................70
4.3.7 Form Manage Stopword ..................................................................74
BAB V ...................................................................................................................79 ANALISIS HASIL.................................................................................................79
5.1 Analisa Hasil Program ............................................................................79
5.2 Kelebihan dan Kekurangan Sistem .......................................................101
5.2.1 Kelebihan Sistem ...........................................................................101
5.2.2 Kekurangan Sistem ........................................................................102
BAB VI ................................................................................................................103 KESIMPULAN DAN SARAN............................................................................103
6.1 Kesimpulan............................................................................................103
6.2 Saran......................................................................................................104 DAFTAR PUSTAKA ..........................................................................................105 LAMPIRAN
DAFTAR TABEL
49 Tabel 5.1 Perhitungan TF*IDF Untuk Kata Kunci “Semar” ………………...
97 Tabel 5.10 Urutan Dokumen Untuk Kata Kunci “Subali dan Sugriwa” …….
93 Tabel 5.9 Hasil Perhitungan TF*IDF Untuk Kata Kunci “Subali dan Sugriwa” ……………………………………………………………………..
92 Tabel 5.8 Hasil Perhitungan Interpolasi dan Average ……………………….
92 Tabel 5.7 Hasil Perhitungan Interpolasi Recall-Precision …………………...
87 Tabel 5.6 Hasil Perhitungan Recall-Precision ……………………………….
84 Tabel 5.5 Nilai Recall-Precision Untuk Kata Kunci “Bima” ………………..
83 Tabel 5.4 Nilai Recall-Precision Untuk Kata Kunci “Semar” ……………….
83 Tabel 5.3 Urutan Dokumen Untuk Kata Kunci “Semar” ……………………
82 Tabel 5.2 Hasil Pengurutan Dokumen Untuk Kata Kunci “Semar” …………
49 Tabel 3.6 Tabel Admin ………………………………………………………
Tabel 2.1 Kelompok rule pertama: inflectional particles ……………………48 Tabel 3.5 Tabel Stoplist ……………………………………………………...
48 Tabel 3.4 Tabel Dokumen …………………………………………………...
47 Tabel 3.3 Tabel Term List …………………………………………………...
26 Tabel 3.2 Tabel Term ………………………………………………………..
18 Tabel 3.1 Tabel Use Case ……………………………………………………
16 Tabel 2.6 Tabel Extended Boolean …………………………………………..
16 Tabel 2.5Kelompok rule kelima: derivatioanal suffixes ……………………
16 Tabel 2.4 Kelompok rule kempat:second order of derivational prefixes ……
15 Tabel 2.3 Kelompok rule ketiga: first order of derivational prefixes ……….
15 Tabel 2.2 Kelompok rule kedua: inflectional possessive pronouns …………
98
DAFTAR GAMBAR
33 Gambar 3.11 Flowchart Proses Perhitungan Frekuensi Kata …………………
52 Gambar 3.23 Desain Form Tambah Dokumen ………………………………..
52 Gambar 3.22 Desain Form Menu Utama Admin ……………………………..
51 Gambar 3.21 Desai Form Login ………………………………………………
50 Gambar 3.20 Desain Form Pencarian …………………………………………
46 Gambar 3.19 Desain Menu Utama ……………………………………………
46 Gambar 3.18 Relasi Antar Tabel ……………………………………………...
45 Gambar 3.17 Diagram E-R ……………………………………………………
43 Gambar 3.16 Flowchart Proses Tampil Hasil Query ………………………....
41 Gambar 3.15 Flowchart Proses Query ke Database …………………………..
38 Gambar 3.14 Flowchart Proses Pembuatan Kondisi Where Statement Untuk Query ………..………………………………………………………………...
37 Gambar 3.13 Blok Diagram Proses Pencarian Dokumen …………………….
35 Gambar 3.12 Flowchart Proses Filtering ……………………………………...
32 Gambar 3.10 Flowchart Proses Romoving Stopword ………………………...
Gambar 1.1 Fase-fase dalam Waterfall Model menurut referesnsi Presman …31 Gambar 3.9 Flowchart Proses Parsing ………………………………………...
30 Gambar 3.8 Blok Diagram Proses Indexing …………………………………..
29 Gambar 3.7 Ilustrasi Proses Indexing …………………………………………
28 Gambar 3.6 DFD Level 1 Proses 2 Proses admin manage stoplist …………...
28 Gambar 3.5 DFD Level 0 User ………………………………………………..
27 Gambar 3.4 DFD Level 0 Admin ……………………………………………..
27 Gambar 3.3 Diagram Berjenjang ……………………………………………...
25 Gambar 3.2 Diagram Konteks ………………………………………………...
15 Gambar 3.1 Diagram Use Case …………………………………………….....
9 Gambar 2.3 Algoritma Porter stemming for Bahasa Indonesia ………………
8 Gambar 2.2 Bagian-bagian Sistem Temu Kembali Informasi …………...…...
4 Gambar 2.1 Ilustrasi Sistem Temu Kembali Informasi ……………………….
53
Gambar 3.24 Desain Form Manage Stoplist ……………………………….....85 Gambar 5.3 Hasil Pencarian Dokumen Kata Kunci “Bima” ………………….
5.9 Hasil Pencarian dengan Kata Kunci “bagong+gareng&petruk,semar(Ismaya)”…………………………………….. 100
99 Gambar
94 Gambar 5.8 Hasil Pencarian dengan Kata Kunci “Subali dan Sugriwa” ……..
91 Gambar 5.7 Grafik Interpolasi Recall-Precision ……………………………...
90 Gambar 5.6 Hasil Pencarian Dokumen Dengan Kata kunci “Sita” …………...
88 Gambar 5.5 Hasil Pencarian Dokumen Dengan Kata kunci “Shinta” ………...
87 Gambar 5.4 Grafik Recall-Precision Untuk Kata Kunci “Bima” …..…….......
80 Gambar 5.2 Grafik Recall-Precision Untuk Kata Kunci “Semar” …..…….....
54 Gambar 4.1 Form Menu Utama …………………………………………….....
75 Gambar 5.1 Hasil Pencarian Dokumen Kata Kunci “Semar” ………………...
71 Gambar 4.7 Form Mange Stoplist ………………………………………….....
70 Gambar 4.6 Form Tambah Dokumen …………………………………………
69 Gambar 4.5 Form Manu Utama Admin ……………………………………....
68 Gambar 4.4 Form Login ………………………………………………………
57 Gambar 4.3 Form About ………………………………………………………
56 Gambar 4.2 Form Cari Dokumen ……………………………………………..
Gambar 5.10 Pesan Konfirmasi Pencarian Dokumen ………………………... 101BAB I PENDAHULUAN
1.1 Latar Belakang
Dalam pewayangan terdapat begitu banyak tokoh dan judul kriteria atau lakon wayang, hal ini menyebabkan banyaknya dokumen dalam pewayangan.
Oleh karena banyaknya dokumen yang ada akan mempersulit proses pencarian dokumen berdasarkan kriteria tertentu. Contohnya ketika kita ingin mencari dokumen yang membahas tentang tokoh Arjuna dari 100 dokumen yang dimiliki, kita harus membaca isi dari setiap dokumen satu persatu sebanyak 100 kali. Atau kita ingin mencari dokumen yang berhubungan dengan judul kriteria atau lakon Mahabarata, kita juga harus membaca semua koleksi dokumen yang dimiliki satu persatu. Masalahnya adalah bagaimana memilih dokumen dari keseluruhan koleksi dokumen yang dimiliki dengan kriteria pencarian tertentu tapi dengan tingkat kesesuaian yang paling maksimal, kemudian menyajikan isi dari dokumen yang berhasil dicari kepada user.
Sistem temu-kembali informasi (information retrieval system) adalah solusi yang tepat untuk menangani banyaknya dokumen dalam pewayangan.
Sistem temu-kembali informasi terbagi dalam beberapa proses, yakni proses indexing, pencarian dokumen yang relevan dengan query dari user.
Teknik untuk melakukan proses indexing dokumen adalah dengan memberikan bobot terhadap tiap kata berdasarkan frekuensi kemunculan kata proses indexing ini teknik yang dapat digunakan untuk mencari dokumen yang relevan dengan query dari user adalah berdasarkan jumlah frekuensi kemunculan kata yang paling banyak, dengan teknik ini akan ditemukan urutan dokumen yang berhasil ditemukan berdasarkan jumlah frekuensi kemunculan kata.
1.2 Rumusan Masalah
Dari latar belakang masalah di atas dapat dirumuskan menjadi beberapa masalah sebagai berikut:
1. Bagaimana mengimplementasikan program bantu pencarian atau mesin pencari untuk mempermudah pencarian dokumen dari koleksi dokumen wayang berdasarkan kriteria tertentu dengan tingkat kesesuaian yang tertinggi?
1.3 Batasan Masalah
Dalam aplikasi mesin pencari data tokoh dan kriteria wayang dilakukan beberapa batasan sebagai berikut:
1. Dokumen yang dapat diproses adalah dokumen teks (*.txt).
2. Teknik temu-kembali informasi yang dipakai adalah teknik Boolean biasa dengan operator “OR”.
3. Pencarian dokumen berdasarkan jumlah frekuensi kemunculan kata.
1.4 Tujuan Penelitian
Adapun tujuan penulisan skripsi adalah sebagai berikut:
1. Membuat program bantu pencarian atau mesin pencari untuk mempermudah pencarian dokumen dari koleksi dokumen wayang berdasarkan kriteria tertentu dengan tingkat kesesuaian yang tinggi.
1.5 Metode Penelitian
Dalam penyusunan skripsi dan pembuatan program bantu pencarian data tokoh dan kriteria wayang, dipakai beberapa metode untuk mencari informasi yang diperlukan, yaitu:
1. Metode studi literatur Mencari dan mengumpulkan literatur-litaratur yang berkaitan dengan permasalahan yang dikerjakan, yaitu mengenai Sistem temu-kembali informasi (information retrieval system), data tokoh dan kriteria wayang melalui internet, buku-buku dan media informasi lainnya, selain itu juga menegenai Visual Basic dan SQL Server .
2. Metode pengembangan sistem Metode pengembangan system yang dipakai dalam pembuatan program bantu pencarian data tokoh dan kriteria wayang menggunakan metode Linear
Sequential Model/ Waterfall Model. Model ini adalah model klasik yang
bersifat sistematis, berurutan dalam membangun software. Berikut ini adalah gambaran dari waterfall model.
Fase-fase dalam Waterfall Model menurut referensi Pressman:
1. Analisa: Membuat bagan alir program, diagram arus data (DFD) dan ER- Diagram.
2. Desain: Membuat desain database dan desain antarmuka (interfaces)..
3. Implementasi: Menerapkan hasil analisa dan desain pada tahap sebelumnya.
4. Testing: Menguji dan menganalisa hasil program.
Gambar 1.1 Fase-fase dalam Waterfall Model menurut referensi Pressman1.6 Sistematika Penulisan
BAB I PENDAHULUAN Memberikan gambaran secara umum tetntang isi skripsi yang meliputi: latar belakang, rumusan masalah, batasan masalah, tujuan dan manfaat, metode penelitian dan sistematika penulisan.
BAB II LANDASAN TEORI Berisi konsep dasar sistem temu-kembali informasi (information retrieval
system), bagian-bagian dari sistem temu kembali informasi, teknik-teknik temu-kembali informasi, dan evaluasi sistem temu kembali informasi.
BAB III ANALISIS dan PERANCANGAN SISTEM Berisi analisis kebutuhan, metode pengumpulan data, diagram arus data, kamus data, E-R diagram sistem, perancangan proses, perancangan basis data, perancangan modul, perancangan tampilan masukan dan keluaran untuk pengguna, dan perancangan teknologi.
BAB IV IMPLEMENTASI Berisi penjelasan dan fungsi program bantu pencarian sebagai alat bantu pencarian data tokoh dan kriteria wayang. BAB V ANALISIS HASIL Berisi evaluasi program sistem temu kembali informasi, kelebihan dan kekurangan program. BAB VI KESIMPULAN dan SARAN Berisi kesimpulan dan saran dari pembuatan program bantu pencarian data tokoh dan kriteria wayang. DAFTAR PUSTAKA LAMPIRAN
BAB II LANDASAN TEORI
2.1 Pengertian Sistem Temu-kembali Informasi
Pada dasarnya sistem temu-kembali informasi adalah suatu proses untuk mengidentifikasi, kemudian memanggil (retrieve) suatu dokumen dari suatu simpanan (file), sebagai jawaban atas pemintaan informasi. Menurut Lancaster (1968) dalam Rijsbergen (1979): “Sebuah information retrieval system (Sistem Temu-kembali Informasi) tidak memberitahu (yakni tidak mengubah pengetahuan) pengguna mengenai masalah yang ditanyakannya. Sistem tersebut hanya memberi-tahukan keberadaan (atau ketidakberadaan) dan keterangan dokumen-dokumen yang berhubungan dengan permintaannya”.
Pengertian lain menyatakan bahwa sistem temu kembali informasi adalah proses yang berhubungan dengan representasi, penyimpanan, pencarian dengan pemanggilan informasi yang relevan dengan kebutuhan informasi yang diinginkan pengguna. (Ingwerson, 1992 : 49). Pendapat ini menunjukan bahwa pada sistem temu kembali informasi terkandung sejumlah kegiatan yang meliputi proses penyimpanan, penyediaan representasi, identifikasi serta pencarian atau penelusuran dokumen yang relevan pada suatu database, dalam rangka memenuhi kebutuhan informasi dari pengguna. Dari sekian banyak sistem temu kembali yang ada,salah satu diantaranya adalah sistem temu kembali informasi berbasis teks atau tekstual.
Sifat pencarian sistem temu-kembali informasi berbeda dengan sistem temu-kembali data (misalnya dalam sistem manajemen basis data) dalam beberapa segi, antara lain spesifikasi kueri yang tidak lengkap, dan tingkat ketanggapan kesalahan yang tidak peka (Rijsbergen, 1979). Alasan utamanya adalah Sistem Temu-kembali Informasi menangani teks bahasa alami yang tidak selalu terstruktur dengan baik dan bersifat ambigu (Baeza-Yates & Ribeiro-Neto, 1999).
Sistem Temu-kembali Informasi bekerja berdasarkan kueri yang diberikan pengguna yang menghasilkan daftar dokumen yang dianggap relevan. Selanjutnya pengguna dapat menggunakan hasil tersebut untuk mengakses informasi lebih lanjut. Sistem Temu-kembali Informasi mungkin saja tidak menghasilkan apa-apa jika memang tidak ditemukan dokumen yang relevan. Juga perlu diingat bahwa tidak ada jaminan bahwa seluruh materi yang ditemukembalikan tersebut relevan dengan yang diinginkan pengguna dan belum tentu seluruh materi yang relevan dengan permintaan pengguna berhasil ditemukembalikan.
Sistem temu-kembali informasi pada prinsipnya adalah suatu sistem yang sederhana. Misalkan ada sebuah kumpulan dokumen dan seorang user yang memformulasikan sebuah pertanyaan (request atau query). Jawaban dari pertanyaan tersebut adalah sekumpulan dokumen yang relevan dan membuang dokumen yang tidak relevan. Secara matematis hal tersebut dapat dituliskan sebagai berikut : n
2
Q D
- Q = pertanyaan (queri)
- D = dokumen
- n = jumlah dokumen
n
= jumlah kemungkinan himpunan bagian dari dokumen yang
- 2 ditemukan.
Sistem temu-kembali akan mengambil salah satu dari kemungkinan tersebut.
Sistem temu-kembali informasi pada dasarnya dibagi dalam dua komponen utama yaitu sistem pengindeksan (indexing) yang menghasilkan basis data sistem dan temu-kembali yang merupakan gabungan dari user interface dan look-up-table.
Sistem temu kembali informasi (information retrieval system) digunakan untuk menemukan kembali (retrieve) informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis.
Sistem Koleksi
Query Dokumen
Temu Kembali Informasi
1. Dok1
2. Dok2 Hasil
3. Dok3 Hasil Pencarian Pencarian
Gambar 2.1 Ilustrasi Sistem Temu Kembali InformasiSalah satu aplikasi umum dari sistem temu kembali informasi adalah Pengguna dapat mencari halaman-halaman web yang dibutuhkannya melalui search engine.
Sistem temu kembali informasi terutama berhubungan dengan pencarian informasi yang isinya tidak memiliki struktur. Demikian pula ekspresi kebutuhan pengguna yang disebut query, juga tidak memiliki struktur. Hal ini yang membedakan sistem temu kembali informasi dengan sistem basis data. Dokumen adalah contoh informasi yang tidak terstruktur. Isi dari suatu dokumen sangat tergantung pada pembuat dokumen tersebut.
Sebagai suatu sistem, sistem temu kembali informasi memiliki beberapa bagian yang membangun sistem secara keseluruhan. Gambaran bagian-bagian yang terdapat pada suatu sistem temu kembali informasi digambarkan pada Gambar 2.2.
Ranked Documents
Document Collection
Query
Text Operations Text Operations
1. Dok1
2. Dok2
3. Dok3 . .
Query formulation Indexing Terms
Ranking Collection
Index Index
Gambar 2.2 memperlihatkan bahwa terdapat dua buah alur operasi pada sistem temu kembali informasi. Alur pertama dimulai dari koleksi dokumen danalur kedua dimulai dari query pengguna. Alur pertama yaitu pemrosesan terhadap koleksi dokumen menjadi basis data indeks tidak tergantung pada alur kedua.
Sedangkan alur kedua tergantung dari keberadaan basis data indeks yang dihasilkan pada alur pertama.
Bagian-bagian dari sistem temu kembali informasi menurut gambar 2.2 meliputi :
1. Text Operations (operasi terhadap teks) yang meliputi pemilihan kata-kata dalam query maupun dokumen (term selection) dalam pentransformasian dokumen atau query menjadi terms index (indeks dari kata-kata).
2. Query formulation (formulasi terhadap query) yaitu memberi bobot pada indeks kata-kata query.
3. Ranking (perangkingan), mencari dokumen-dokumen yang relevan terhadap query dan mengurutkan dokumen tersebut berdasarkan kesesuaiannya dengan query.
4. Indexing (pengindeksan), membangun basis data indeks dari koleksi dokumen. Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan. Sistem temu kembali informasi menerima query dari pengguna, kemudian melakukan perangkingan terhadap dokumen pada koleksi berdasarkan kesesuaiannya dengan query. Hasil perangkingan yang diberikan kepada Namun relevansi dokumen terhadap suatu query merupakan penilaian pengguna yang subjektif dan dipengaruhi banyak faktor seperti topik, pewaktuan, sumber informasi maupun tujuan pengguna.
Model sistem temu kembali informasi menentukan detail sistem temu kembali informasi yaitu meliputi representasi dokumen maupun query, fungsi pencarian (retrieval function) dan notasi kesesuaian (relevance notation) dokumen terhadap query.
2.2 Pengindeksan (Indexing) Dalam Sistem Temu-Kembali Informasi
Indexing merupakan sebuah proses untuk melakukan pengindeksan
terhadap kumpulan dokumen yang akan disediakan sebagai informasi kepada pemakai. Proses pengindeksan bisa secara manual ataupun secara otomatis.
Dewasa ini, sistem pengindeksan secara manual mulai digantikan oleh sistem pengindeksan otomatis. Adapun tahapan dari pengindeksan adalah sebagai berikut:
- Parsing Dokumen yaitu proses pengambilan kata-kata dari kumpulan dokumen.
- Stoplist yaitu proses pembuangan kata buang seperti: tetapi, yaitu, sedangkan, dan sebagainya.
- Stemming yaitu proses penghilangan/ pemotongan dari suatu kata menjadi bentuk dasar. Kata “diadaptasikan” atau “beradaptasi” menjadi kata “adaptasi” sebagai istilah.
- Term Weighting dan Inverted File yaitu proses pemberian bobot pada istilah.
Didalam memberikan bobot pada sebuah istilah, terdapat berbagai macam teknik antara lain yaitu :
1. Teknik pembobotan berdasarkan frekuensi kemunculan istilah pada satu dokumen. Teknik pembobotan ini cukup sederhana dimana bobot suatu istilah pada sebuah dokumen berdasarkan jumlah kemunculannya pada dokumen tersebut.
2. Teknik pembobotan berdasarkan rumus Savoy(1993) yaitu: W = ntf * nidf ,
ik ik k n log df
tf k ik
dimana ntf = dan nidf =
ik k log n
Max tf j ij
Dimana : adalah bobot istilah k pada dokumen i.
- W ik merupakan frekuensi dari istilah k dalam dokumen i.
- tf ik n adalah jumlah dokumen dalam kumpulan dokumen.
adalah jumlah dokumen yang mengandung istilah k.
- df k tf adalah frekuensi istilah terbesar pada satu dokumen.
- Max j ij
Pada teknik pembobotan ini, bobot istilah telah dinormalisasi. Dalam menentukan bobot suatu istilah tidak hanya berdasarkan frekuensi kemunculan istilah di satu dokumen, tetapi juga memperhatikan frekuensi terbesar pada suatu istilah yang dimiliki oleh dokumen bersangkutan. Hal ini untuk menentukan yang sama. Selain itu teknik ini juga memperhitungkan jumlah dokumen yang mengandung istilah yang bersangkutan dan jumlah keseluruhan dokumen. Hal ini berguna untuk mengetahui posisi relatif bobot istilah bersangkutan pada suatu dokumen dibandingkan dengan dokumen-dokumen lain yang memiliki istilah yang sama. Sehingga jika sebuah istilah mempunyai frekuensi kemunculan yang sama pada dua dokumen belum tentu mempunyai bobot yang sama.
2.2.1 Stemming
Stemming adalah proses penghilangan prefiks dan sufiks dari kueri dan
istilah-istilah dokumen. Stemming dilakukan atas dasar asumsi bahwa kata-kata yang memiliki stem yang sama memiliki makna yang serupa sehingga pengguna tidak keberatan untuk memperoleh dokumen-dokumen yang di dalamnya terdapat kata-kata dengan stem yang sama dengan kuerinya. Teknik-teknik stemming dapat dikategorikan menjadi:
- Berdasarkan aturan sesuai bahasa tertentu
- Berdasarkan kamus
Proses ini memiliki dua tujuan. Dalam hal efisiensi, stemming mengurangi jumlah kata-kata unik dalam indeks sehingga mengurangi kebutuhan ruang penyimpanan untuk indeks dan mempercepat proses pencarian. Dalam hal keefektifan, stemming meningkatkan recall dengan mengurangi bentuk-bentuk kata ke bentuk dasarnya atau stem-nya. Sehingga dokumen-dokumen yang menyertakan suatu kata dalam berbagai bentuknya memiliki kecenderungan yang suatu kata disimpan secara terpisah dalam indeks. Akan tetapi, stemming dapat menurunkan tingkat precision jika setiap bentuk suatu stem diperoleh, sedangkan yang relevan hanyalah bentuk yang sama dengan yang digunakan dalam kueri.
Parsing dan stemming dalam suatu IRS tergantung pada bahasa yang digunakan
dalam dokumen yang akan dicari. IRS untuk Bahasa Inggris kurang optimal untuk menangani dokumen dalam Bahasa Indonesia. Bahasa Indonesia memiliki daftar kata buang (stoplist) serta sistem pembentukan kata yang sangat berbeda dengan bahasa Inggris, sehingga diperlukan IRS yang khusus untuk Bahasa Indonesia.
2.2.2 Porter Stemmer for Bahasa Indonesia
Porter Stemmer for Bahasa Indonesia dikembangkan oleh Fadillah Z. Tala
pada tahun 2003. Implementasi Porter Stemmer for Bahasa Indonesia berdasarkan English Porter Stemmer yang dikembangkan oleh W.B. Frakes pada tahun 1992. Karena bahasa Inggris datang dari kelas yang berbeda, beberapa modifikasi telah dilakukan untuk membuat Algoritma Porter dapat digunakan sesuai dengan bahasa Indonesia. Desain dari Porter Stemmer for Bahasa
Indonesia dapat dilihat pada gambar 2.3 di bawah ini:
Gambar 2.3 Algoritma Porter Stemmer for Bahasa IndonesiaPada gambar 2.3 terlihat beberapa langkah 'removal' menurut aturan yang ada pada tabel 2.1 sampai dengan tabel 2.5.
Tabel 2.1: Kelompok rule pertama : inflectional particles
Suffix Replacement Measure Additional Example Condition Condition
kah NULL
2 NULL bukukah → buku lah NULL
2 NULL adalah → ada pun NUUL
2 NULL bukupun → buku
Tabel 2.2: Kelompok rule kedua :inflectional possesive pronouns
Suffix Replacement Measure Additional Example Condition Condition
ku NULL
2 NULL bukuku → buku mu NULL
2 NULL Bukumu Tabel 2.3: Kelompok rule ketiga: first order of derivational prefixes
Prefix Replacement Measure Condition Additional Condition Example
2 prefix Є{di, meng, ter} makanan
2 NULL pekerja → kerja
Tabel 2.5: Kelompok rule kelima: derivational suffixes
Suffix Replacement Measure Condition Additional Condition Example
kan NULL
2 prefix Є{ke,peng} tarikan
→ tarik (meng)ambilkan
→ ambil an NULL
→ makan (per)janjian
2 NULL perjelas → jelas pel NULL
→ janji i NUUL
2 V|K…
c1c1
,
c1
≠ s,
c2
≠ i and prefix tandai → tanda