DALAM KAMUS PEWAYANGAN MESIN PENCARI DATA TOKOH DAN CERITA WAYANG

  

MESIN PENCARI DATA TOKOH DAN CERITA WAYANG

DALAM KAMUS PEWAYANGAN SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Teknik Program Studi Teknik Informatika OLEH: Y. YENI KRISTIAWAN NIM : 055314039 JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA

  

SEARCH ENGINE DATA DETECTOR OF PUPPET

CHARACTER AND STORY IN PUPPETRY DICTIONARY

FINAL PROJECT

Presented as Partial Fulfillment of the Requirements

To Obtain the Sarjana Teknik Degree

  

In Informatics Engineering

By:

Y. YENI KRISTIAWAN

  

NIM : 055314039

DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

  

2009

PERNYATAAN KEASLIAN KARYA

  Saya menyatakan bahwa skripsi yang saya tulis ini tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka, sebagaimana layaknya karya ilmiah.

  Yogyakarta, 16 Juli 2009 Penulis Y. Yeni Kristiawan

  

LEMBAR PERNYATAAN PERSETUJUAN

PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

  Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma : Nama : Y. Yeni Kristiawan NIM : 055314039

  Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul :

  

MESIN PENCARI DATA TOKOH DAN CERITA WAYANG DALAM

KAMUS PEWAYANGAN

  Beserta perangkat yang diperlukan ( bila ada ). Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikan secara terbatas, dan mempublikasikannya di Internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis. Demikian pernyataan ini yang saya buat dengan sebenarnya. Dibuat di Yogyakarta Pada tanggal : 16 Juli 2009 Yang menyatakan

HALAMAN PERSEMBAHAN

  Skripsi ini saya persembahkan untuk: Ibu, Bapak dan Mas Toro atas dukungan, semangat, kasih sayang dan dukungan kalian semua, tanpa kalian semua ini tidak akan berarti.

  Buat pacar dan semua sahabatku atas semua dukungan dan kritik kalian dalam penyusunan skripsi ini.

  Teman-teman TI angkatan 2005, terimakasih atas semua yang telah kalian berikan buat aku.

HALAMAN MOTO

  Nikmati dan syukurilah hari ini, seolah hari ini adalah hari terakhir dalam hidup kita.

  Kae manungsa golek upa angkara Sesingidan mawuni ngGawa bandha donya mBuwang rasa agama

  Nyingkiri sesanti ati Tan wedi dosa

  Tan eling bakal mati (Durma Macepat)

KATA PENGANTAR

  Puji syukur saya haturkan kepada Tuhan Yesus Kristus yang telah melimpahkan berkat-Nya. Sehingga saya dapat menyelesaikan Laporan Tugas Akhir ini.

  Pada kesempatan ini saya ingin mengucapkan terima kasih kepada pihak – pihak yang telah membantu saya dalam menyelesaikan skripsi ini, baik dalam hal bimbingan, perhatian, kasih sayang, semangat, kritik, dan saran yang telah diberikan. Ucapan terima kasih ini saya sampaikan antara lain kepada :

  1. Bapak Yosef Agung Cahyanta, S.T., M.T., selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.

  2. Bapak Puspaningtyas Sanjaya Adi, S.T., M.T., selaku Ketua Jurusan Teknik Informatika Universitas Sanata Dharma.

  3. Bapak JB. Budi Darmawan S.T., M.Sc, selaku Dosen Pembimbing Akademik Teknik Informatika angkatan 2005.

  4. Bapak Alb. Agung Hadhiatma, S.T, M.T, selaku Dosen Pembimbing TA.

  Terima kasih atas bimbingan selama saya mengerjakan Laporan Skripsi ini.

  5. Kedua orangtua dan kakak, terima kasih atas dukungan, kasih sayang dan semangat yang tiada henti sehingga saya dapat menyelesaikan Tugas Akhir ini.

  6. Seluruh pihak yang membantu saya baik secara langsung maupun tidak langsung, yang tidak dapat saya sebutkan satu persatu.

  Saya menyadari masih banyak kekurangan yang terdapat pada laporan ini. Saran dan kritik selalu saya harapkan dari pembaca untuk perbaikan – perbaikan di masa yang akan datang.

  Akhir kata, saya berharap tulisan ini dapat bermanfaat bagi kemajuan dan perkembangan ilmu pengetahuan dan berbagai pihak pengguna pada umumnya.

  Yogyakarta, Juli 2009 Penulis

  

ABSTRAKSI

  Dalam pewayangan terdapat begitu banyak tokoh dan judul kriteria atau lakon wayang, hal ini menyebabkan banyaknya dokumen dalam pewayangan.

  Oleh karena banyaknya dokumen yang ada akan mempersulit proses pencarian dokumen berdasarkan kriteria tertentu.

  Tugas akhir ini bertujuan untuk membangun aplikasi yang dapat digunakan untuk membantu proses pencarian dokumen wayang dari koleksi dokumen yang dimiliki dan dapat mengelola jika ada dokumen baru yang ditambahkan ke dalam koleksi dokumen. Aplikasi ini dikembangkan menggunakan perangkat lunak Visual Basic Versi 6 dan basis data SQL SERVER 2000.

  Hasil yang dapat diperoleh mengunakan aplikasi ini adalah dapat mempermudah pengguna untuk mencari dokumen wayang berdasarkan kriteria tertentu dengan tingkat kemiripan yang paling tinggi.

  

ABSTRACT

  In the puppetry found figure very much and story title or puppet story, this matter causes document quantity in puppetry. Therefore, document quantity existence will complicate document livelihood process based on certain criteria.

  The aim from this task ends to build application that can be used to help livelihood process puppet document from document collection that has and can managed if there new document that is added into document collection. This application is developed to use Visual Basic Version 6 software and database SQL SERVER 2000.

  The result that obtainable use this application can simplify user to look for puppet document based on certain criteria with resemblance highest scor.

  

DAFTAR ISI

  HALAMAN JUDUL ............................................................................................... i HALAMAN PERSETUJUAN............................................................................... iii HALAMAN PENGESAHAN ............................................................................... iv PERNYATAAN KEASLIAN KARYA ..................................................................v LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS .............................................................. vi HALAMAN PERSEMBAHAN ........................................................................... vii HALAMAN MOTO ............................................................................................ viii KATA PENGANTAR ........................................................................................... ix ABSTRAKSI ......................................................................................................... xi ABSTRACT.......................................................................................................... xii DAFTAR ISI........................................................................................................ xiii DAFTAR TABEL............................................................................................... xvii DAFTAR GAMBAR ......................................................................................... xviii

  BAB I .......................................................................................................................1 PENDAHULUAN ...................................................................................................1

  1.1 Latar Belakang ..........................................................................................1

  1.2 Rumusan Masalah .....................................................................................2

  1.3 Batasan Masalah........................................................................................2

  1.4 Tujuan Penelitian.......................................................................................3

  1.5 Metode Penelitian......................................................................................3

  BAB III ..................................................................................................................23 ANALISIS DAN PERANCANGAN ....................................................................23

  3.3.1.2 Diagram Use Case ........................................................................25

  3.3.1.1 Actor.............................................................................................24

  3.3.1 Model Use Case ...............................................................................24

  3.3 Perancangan Sistem.................................................................................24

  3.2 Metode Pengumpulan Data .....................................................................24

  3.1.1 Analisis Kebutuhan ..........................................................................23

  3.1 Analisa Sistem.........................................................................................23

  2.5 Evaluasi Sistem Temu Kembali Informasi..............................................21

  1.6 Sistematika Penulisan................................................................................4

  2.4 Algoritma TF/IDF ...................................................................................20

  2.3 Teknik-teknik Temu-kembali Informasi .................................................17

  2.2.2 Porter Stemmer for Bahasa Indonesia.............................................14

  2.2.1 Stemming..........................................................................................13

  2.2 Pengindeksan (Indexing) Dalam Sistem Temu-Kembali Informasi .......11

  2.1 Pengertian Sistem Temu-kembali Informasi.............................................6

  BAB II......................................................................................................................6 LANDASAN TEORI...............................................................................................6

  3.3.1.3 Tabel Use Case.............................................................................26

  3.3.2 Data Flow Diagram (DFD) ..............................................................26

  3.3.3 Bagan Alir Program .........................................................................29

  3.3.3.1 Algoritma proses indexing ...........................................................30

  3.3.3.2 Algoritma proses pencarian dokumen..........................................38

  3.3.4 Perancangan Database.....................................................................46

  3.3.4.1 Conceptual Database Design.......................................................46

  3.3.4.2 Logical Database Design .............................................................46

  3.3.4.3 Physical Database Design ...........................................................47

  3.4 Perancangan Antarmuka (Interface)........................................................49

  1. Desain Menu Utama................................................................................50

  2. Desain Form Pencarian ...........................................................................51

  3. Desain Form Login..................................................................................52

  4. Desain Form Menu Utama Admin ..........................................................52

  5. Desain Form Admin Tambah Dokumen .................................................53

  6. Desain Form Admin Manage Stoplist .....................................................54

  BAB IV ..................................................................................................................55 IMPLEMENTASI..................................................................................................55

  4.1 Spesifikasi Software dan Hardware yang digunakan ..............................55

  4.1.1 Spesifikasi Software.........................................................................55

  4.1.2 Spesifikasi Hardware .......................................................................55

  4.2 Koneksi Basisdata dengan Sistem...........................................................55

  4.3 Pembuatan Antarmuka (Interface) ..........................................................56

  4.3.1 Form Menu Utama ...........................................................................56

  4.3.2 Form Cari Dokumen Wayang ..........................................................57

  4.3.3 Form About ......................................................................................68

  4.3.4 Form Login ......................................................................................68

  4.3.5 Form Menu Admin ..........................................................................69

  4.3.6 Form Tambah Dokumen ..................................................................70

  4.3.7 Form Manage Stopword ..................................................................74

  BAB V ...................................................................................................................79 ANALISIS HASIL.................................................................................................79

  5.1 Analisa Hasil Program ............................................................................79

  5.2 Kelebihan dan Kekurangan Sistem .......................................................101

  5.2.1 Kelebihan Sistem ...........................................................................101

  5.2.2 Kekurangan Sistem ........................................................................102

  BAB VI ................................................................................................................103 KESIMPULAN DAN SARAN............................................................................103

  6.1 Kesimpulan............................................................................................103

  6.2 Saran......................................................................................................104 DAFTAR PUSTAKA ..........................................................................................105 LAMPIRAN

  

DAFTAR TABEL

  49 Tabel 5.1 Perhitungan TF*IDF Untuk Kata Kunci “Semar” ………………...

  97 Tabel 5.10 Urutan Dokumen Untuk Kata Kunci “Subali dan Sugriwa” …….

  93 Tabel 5.9 Hasil Perhitungan TF*IDF Untuk Kata Kunci “Subali dan Sugriwa” ……………………………………………………………………..

  92 Tabel 5.8 Hasil Perhitungan Interpolasi dan Average ……………………….

  92 Tabel 5.7 Hasil Perhitungan Interpolasi Recall-Precision …………………...

  87 Tabel 5.6 Hasil Perhitungan Recall-Precision ……………………………….

  84 Tabel 5.5 Nilai Recall-Precision Untuk Kata Kunci “Bima” ………………..

  83 Tabel 5.4 Nilai Recall-Precision Untuk Kata Kunci “Semar” ……………….

  83 Tabel 5.3 Urutan Dokumen Untuk Kata Kunci “Semar” ……………………

  82 Tabel 5.2 Hasil Pengurutan Dokumen Untuk Kata Kunci “Semar” …………

  49 Tabel 3.6 Tabel Admin ………………………………………………………

Tabel 2.1 Kelompok rule pertama: inflectional particles ……………………

  48 Tabel 3.5 Tabel Stoplist ……………………………………………………...

  48 Tabel 3.4 Tabel Dokumen …………………………………………………...

  47 Tabel 3.3 Tabel Term List …………………………………………………...

  26 Tabel 3.2 Tabel Term ………………………………………………………..

  18 Tabel 3.1 Tabel Use Case ……………………………………………………

  16 Tabel 2.6 Tabel Extended Boolean …………………………………………..

  16 Tabel 2.5Kelompok rule kelima: derivatioanal suffixes ……………………

  16 Tabel 2.4 Kelompok rule kempat:second order of derivational prefixes ……

  15 Tabel 2.3 Kelompok rule ketiga: first order of derivational prefixes ……….

  15 Tabel 2.2 Kelompok rule kedua: inflectional possessive pronouns …………

  98

  

DAFTAR GAMBAR

  33 Gambar 3.11 Flowchart Proses Perhitungan Frekuensi Kata …………………

  52 Gambar 3.23 Desain Form Tambah Dokumen ………………………………..

  52 Gambar 3.22 Desain Form Menu Utama Admin ……………………………..

  51 Gambar 3.21 Desai Form Login ………………………………………………

  50 Gambar 3.20 Desain Form Pencarian …………………………………………

  46 Gambar 3.19 Desain Menu Utama ……………………………………………

  46 Gambar 3.18 Relasi Antar Tabel ……………………………………………...

  45 Gambar 3.17 Diagram E-R ……………………………………………………

  43 Gambar 3.16 Flowchart Proses Tampil Hasil Query ………………………....

  41 Gambar 3.15 Flowchart Proses Query ke Database …………………………..

  38 Gambar 3.14 Flowchart Proses Pembuatan Kondisi Where Statement Untuk Query ………..………………………………………………………………...

  37 Gambar 3.13 Blok Diagram Proses Pencarian Dokumen …………………….

  35 Gambar 3.12 Flowchart Proses Filtering ……………………………………...

  32 Gambar 3.10 Flowchart Proses Romoving Stopword ………………………...

Gambar 1.1 Fase-fase dalam Waterfall Model menurut referesnsi Presman …

  31 Gambar 3.9 Flowchart Proses Parsing ………………………………………...

  30 Gambar 3.8 Blok Diagram Proses Indexing …………………………………..

  29 Gambar 3.7 Ilustrasi Proses Indexing …………………………………………

  28 Gambar 3.6 DFD Level 1 Proses 2 Proses admin manage stoplist …………...

  28 Gambar 3.5 DFD Level 0 User ………………………………………………..

  27 Gambar 3.4 DFD Level 0 Admin ……………………………………………..

  27 Gambar 3.3 Diagram Berjenjang ……………………………………………...

  25 Gambar 3.2 Diagram Konteks ………………………………………………...

  15 Gambar 3.1 Diagram Use Case …………………………………………….....

  9 Gambar 2.3 Algoritma Porter stemming for Bahasa Indonesia ………………

  8 Gambar 2.2 Bagian-bagian Sistem Temu Kembali Informasi …………...…...

  4 Gambar 2.1 Ilustrasi Sistem Temu Kembali Informasi ……………………….

  53

Gambar 3.24 Desain Form Manage Stoplist ……………………………….....

  85 Gambar 5.3 Hasil Pencarian Dokumen Kata Kunci “Bima” ………………….

  5.9 Hasil Pencarian dengan Kata Kunci “bagong+gareng&petruk,semar(Ismaya)”…………………………………….. 100

  99 Gambar

  94 Gambar 5.8 Hasil Pencarian dengan Kata Kunci “Subali dan Sugriwa” ……..

  91 Gambar 5.7 Grafik Interpolasi Recall-Precision ……………………………...

  90 Gambar 5.6 Hasil Pencarian Dokumen Dengan Kata kunci “Sita” …………...

  88 Gambar 5.5 Hasil Pencarian Dokumen Dengan Kata kunci “Shinta” ………...

  87 Gambar 5.4 Grafik Recall-Precision Untuk Kata Kunci “Bima” …..…….......

  80 Gambar 5.2 Grafik Recall-Precision Untuk Kata Kunci “Semar” …..…….....

  54 Gambar 4.1 Form Menu Utama …………………………………………….....

  75 Gambar 5.1 Hasil Pencarian Dokumen Kata Kunci “Semar” ………………...

  71 Gambar 4.7 Form Mange Stoplist ………………………………………….....

  70 Gambar 4.6 Form Tambah Dokumen …………………………………………

  69 Gambar 4.5 Form Manu Utama Admin ……………………………………....

  68 Gambar 4.4 Form Login ………………………………………………………

  57 Gambar 4.3 Form About ………………………………………………………

  56 Gambar 4.2 Form Cari Dokumen ……………………………………………..

Gambar 5.10 Pesan Konfirmasi Pencarian Dokumen ………………………... 101

BAB I PENDAHULUAN

1.1 Latar Belakang

  Dalam pewayangan terdapat begitu banyak tokoh dan judul kriteria atau lakon wayang, hal ini menyebabkan banyaknya dokumen dalam pewayangan.

  Oleh karena banyaknya dokumen yang ada akan mempersulit proses pencarian dokumen berdasarkan kriteria tertentu. Contohnya ketika kita ingin mencari dokumen yang membahas tentang tokoh Arjuna dari 100 dokumen yang dimiliki, kita harus membaca isi dari setiap dokumen satu persatu sebanyak 100 kali. Atau kita ingin mencari dokumen yang berhubungan dengan judul kriteria atau lakon Mahabarata, kita juga harus membaca semua koleksi dokumen yang dimiliki satu persatu. Masalahnya adalah bagaimana memilih dokumen dari keseluruhan koleksi dokumen yang dimiliki dengan kriteria pencarian tertentu tapi dengan tingkat kesesuaian yang paling maksimal, kemudian menyajikan isi dari dokumen yang berhasil dicari kepada user.

  Sistem temu-kembali informasi (information retrieval system) adalah solusi yang tepat untuk menangani banyaknya dokumen dalam pewayangan.

  Sistem temu-kembali informasi terbagi dalam beberapa proses, yakni proses indexing, pencarian dokumen yang relevan dengan query dari user.

  Teknik untuk melakukan proses indexing dokumen adalah dengan memberikan bobot terhadap tiap kata berdasarkan frekuensi kemunculan kata proses indexing ini teknik yang dapat digunakan untuk mencari dokumen yang relevan dengan query dari user adalah berdasarkan jumlah frekuensi kemunculan kata yang paling banyak, dengan teknik ini akan ditemukan urutan dokumen yang berhasil ditemukan berdasarkan jumlah frekuensi kemunculan kata.

  1.2 Rumusan Masalah

  Dari latar belakang masalah di atas dapat dirumuskan menjadi beberapa masalah sebagai berikut:

  1. Bagaimana mengimplementasikan program bantu pencarian atau mesin pencari untuk mempermudah pencarian dokumen dari koleksi dokumen wayang berdasarkan kriteria tertentu dengan tingkat kesesuaian yang tertinggi?

  1.3 Batasan Masalah

  Dalam aplikasi mesin pencari data tokoh dan kriteria wayang dilakukan beberapa batasan sebagai berikut:

  1. Dokumen yang dapat diproses adalah dokumen teks (*.txt).

  2. Teknik temu-kembali informasi yang dipakai adalah teknik Boolean biasa dengan operator “OR”.

  3. Pencarian dokumen berdasarkan jumlah frekuensi kemunculan kata.

  1.4 Tujuan Penelitian

  Adapun tujuan penulisan skripsi adalah sebagai berikut:

  1. Membuat program bantu pencarian atau mesin pencari untuk mempermudah pencarian dokumen dari koleksi dokumen wayang berdasarkan kriteria tertentu dengan tingkat kesesuaian yang tinggi.

  1.5 Metode Penelitian

  Dalam penyusunan skripsi dan pembuatan program bantu pencarian data tokoh dan kriteria wayang, dipakai beberapa metode untuk mencari informasi yang diperlukan, yaitu:

  1. Metode studi literatur Mencari dan mengumpulkan literatur-litaratur yang berkaitan dengan permasalahan yang dikerjakan, yaitu mengenai Sistem temu-kembali informasi (information retrieval system), data tokoh dan kriteria wayang melalui internet, buku-buku dan media informasi lainnya, selain itu juga menegenai Visual Basic dan SQL Server .

  2. Metode pengembangan sistem Metode pengembangan system yang dipakai dalam pembuatan program bantu pencarian data tokoh dan kriteria wayang menggunakan metode Linear

  Sequential Model/ Waterfall Model. Model ini adalah model klasik yang

  bersifat sistematis, berurutan dalam membangun software. Berikut ini adalah gambaran dari waterfall model.

  Fase-fase dalam Waterfall Model menurut referensi Pressman:

  1. Analisa: Membuat bagan alir program, diagram arus data (DFD) dan ER- Diagram.

  2. Desain: Membuat desain database dan desain antarmuka (interfaces)..

  3. Implementasi: Menerapkan hasil analisa dan desain pada tahap sebelumnya.

  4. Testing: Menguji dan menganalisa hasil program.

Gambar 1.1 Fase-fase dalam Waterfall Model menurut referensi Pressman

1.6 Sistematika Penulisan

  BAB I PENDAHULUAN Memberikan gambaran secara umum tetntang isi skripsi yang meliputi: latar belakang, rumusan masalah, batasan masalah, tujuan dan manfaat, metode penelitian dan sistematika penulisan.

  BAB II LANDASAN TEORI Berisi konsep dasar sistem temu-kembali informasi (information retrieval

  system), bagian-bagian dari sistem temu kembali informasi, teknik-teknik temu-kembali informasi, dan evaluasi sistem temu kembali informasi.

  BAB III ANALISIS dan PERANCANGAN SISTEM Berisi analisis kebutuhan, metode pengumpulan data, diagram arus data, kamus data, E-R diagram sistem, perancangan proses, perancangan basis data, perancangan modul, perancangan tampilan masukan dan keluaran untuk pengguna, dan perancangan teknologi.

  BAB IV IMPLEMENTASI Berisi penjelasan dan fungsi program bantu pencarian sebagai alat bantu pencarian data tokoh dan kriteria wayang. BAB V ANALISIS HASIL Berisi evaluasi program sistem temu kembali informasi, kelebihan dan kekurangan program. BAB VI KESIMPULAN dan SARAN Berisi kesimpulan dan saran dari pembuatan program bantu pencarian data tokoh dan kriteria wayang. DAFTAR PUSTAKA LAMPIRAN

BAB II LANDASAN TEORI

2.1 Pengertian Sistem Temu-kembali Informasi

  Pada dasarnya sistem temu-kembali informasi adalah suatu proses untuk mengidentifikasi, kemudian memanggil (retrieve) suatu dokumen dari suatu simpanan (file), sebagai jawaban atas pemintaan informasi. Menurut Lancaster (1968) dalam Rijsbergen (1979): “Sebuah information retrieval system (Sistem Temu-kembali Informasi) tidak memberitahu (yakni tidak mengubah pengetahuan) pengguna mengenai masalah yang ditanyakannya. Sistem tersebut hanya memberi-tahukan keberadaan (atau ketidakberadaan) dan keterangan dokumen-dokumen yang berhubungan dengan permintaannya”.

  Pengertian lain menyatakan bahwa sistem temu kembali informasi adalah proses yang berhubungan dengan representasi, penyimpanan, pencarian dengan pemanggilan informasi yang relevan dengan kebutuhan informasi yang diinginkan pengguna. (Ingwerson, 1992 : 49). Pendapat ini menunjukan bahwa pada sistem temu kembali informasi terkandung sejumlah kegiatan yang meliputi proses penyimpanan, penyediaan representasi, identifikasi serta pencarian atau penelusuran dokumen yang relevan pada suatu database, dalam rangka memenuhi kebutuhan informasi dari pengguna. Dari sekian banyak sistem temu kembali yang ada,salah satu diantaranya adalah sistem temu kembali informasi berbasis teks atau tekstual.

  Sifat pencarian sistem temu-kembali informasi berbeda dengan sistem temu-kembali data (misalnya dalam sistem manajemen basis data) dalam beberapa segi, antara lain spesifikasi kueri yang tidak lengkap, dan tingkat ketanggapan kesalahan yang tidak peka (Rijsbergen, 1979). Alasan utamanya adalah Sistem Temu-kembali Informasi menangani teks bahasa alami yang tidak selalu terstruktur dengan baik dan bersifat ambigu (Baeza-Yates & Ribeiro-Neto, 1999).

  Sistem Temu-kembali Informasi bekerja berdasarkan kueri yang diberikan pengguna yang menghasilkan daftar dokumen yang dianggap relevan. Selanjutnya pengguna dapat menggunakan hasil tersebut untuk mengakses informasi lebih lanjut. Sistem Temu-kembali Informasi mungkin saja tidak menghasilkan apa-apa jika memang tidak ditemukan dokumen yang relevan. Juga perlu diingat bahwa tidak ada jaminan bahwa seluruh materi yang ditemukembalikan tersebut relevan dengan yang diinginkan pengguna dan belum tentu seluruh materi yang relevan dengan permintaan pengguna berhasil ditemukembalikan.

  Sistem temu-kembali informasi pada prinsipnya adalah suatu sistem yang sederhana. Misalkan ada sebuah kumpulan dokumen dan seorang user yang memformulasikan sebuah pertanyaan (request atau query). Jawaban dari pertanyaan tersebut adalah sekumpulan dokumen yang relevan dan membuang dokumen yang tidak relevan. Secara matematis hal tersebut dapat dituliskan sebagai berikut : n

  

2

   

  Q D

  • Q = pertanyaan (queri)
  • D = dokumen
  • n = jumlah dokumen

  n

  = jumlah kemungkinan himpunan bagian dari dokumen yang

  • 2 ditemukan.

  Sistem temu-kembali akan mengambil salah satu dari kemungkinan tersebut.

  Sistem temu-kembali informasi pada dasarnya dibagi dalam dua komponen utama yaitu sistem pengindeksan (indexing) yang menghasilkan basis data sistem dan temu-kembali yang merupakan gabungan dari user interface dan look-up-table.

  Sistem temu kembali informasi (information retrieval system) digunakan untuk menemukan kembali (retrieve) informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis.

  Sistem Koleksi

  Query Dokumen

  Temu Kembali Informasi

  1. Dok1

  2. Dok2 Hasil

  3. Dok3 Hasil Pencarian Pencarian

Gambar 2.1 Ilustrasi Sistem Temu Kembali Informasi

  Salah satu aplikasi umum dari sistem temu kembali informasi adalah Pengguna dapat mencari halaman-halaman web yang dibutuhkannya melalui search engine.

  Sistem temu kembali informasi terutama berhubungan dengan pencarian informasi yang isinya tidak memiliki struktur. Demikian pula ekspresi kebutuhan pengguna yang disebut query, juga tidak memiliki struktur. Hal ini yang membedakan sistem temu kembali informasi dengan sistem basis data. Dokumen adalah contoh informasi yang tidak terstruktur. Isi dari suatu dokumen sangat tergantung pada pembuat dokumen tersebut.

  Sebagai suatu sistem, sistem temu kembali informasi memiliki beberapa bagian yang membangun sistem secara keseluruhan. Gambaran bagian-bagian yang terdapat pada suatu sistem temu kembali informasi digambarkan pada Gambar 2.2.

  Ranked Documents

  Document Collection

  Query

  Text Operations Text Operations

  1. Dok1

  2. Dok2

  3. Dok3 . .

  Query formulation Indexing Terms

  Ranking Collection

  Index Index

Gambar 2.2 memperlihatkan bahwa terdapat dua buah alur operasi pada sistem temu kembali informasi. Alur pertama dimulai dari koleksi dokumen dan

  alur kedua dimulai dari query pengguna. Alur pertama yaitu pemrosesan terhadap koleksi dokumen menjadi basis data indeks tidak tergantung pada alur kedua.

  Sedangkan alur kedua tergantung dari keberadaan basis data indeks yang dihasilkan pada alur pertama.

  Bagian-bagian dari sistem temu kembali informasi menurut gambar 2.2 meliputi :

  1. Text Operations (operasi terhadap teks) yang meliputi pemilihan kata-kata dalam query maupun dokumen (term selection) dalam pentransformasian dokumen atau query menjadi terms index (indeks dari kata-kata).

  2. Query formulation (formulasi terhadap query) yaitu memberi bobot pada indeks kata-kata query.

  3. Ranking (perangkingan), mencari dokumen-dokumen yang relevan terhadap query dan mengurutkan dokumen tersebut berdasarkan kesesuaiannya dengan query.

  4. Indexing (pengindeksan), membangun basis data indeks dari koleksi dokumen. Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan. Sistem temu kembali informasi menerima query dari pengguna, kemudian melakukan perangkingan terhadap dokumen pada koleksi berdasarkan kesesuaiannya dengan query. Hasil perangkingan yang diberikan kepada Namun relevansi dokumen terhadap suatu query merupakan penilaian pengguna yang subjektif dan dipengaruhi banyak faktor seperti topik, pewaktuan, sumber informasi maupun tujuan pengguna.

  Model sistem temu kembali informasi menentukan detail sistem temu kembali informasi yaitu meliputi representasi dokumen maupun query, fungsi pencarian (retrieval function) dan notasi kesesuaian (relevance notation) dokumen terhadap query.

2.2 Pengindeksan (Indexing) Dalam Sistem Temu-Kembali Informasi

  Indexing merupakan sebuah proses untuk melakukan pengindeksan

  terhadap kumpulan dokumen yang akan disediakan sebagai informasi kepada pemakai. Proses pengindeksan bisa secara manual ataupun secara otomatis.

  Dewasa ini, sistem pengindeksan secara manual mulai digantikan oleh sistem pengindeksan otomatis. Adapun tahapan dari pengindeksan adalah sebagai berikut:

  • Parsing Dokumen yaitu proses pengambilan kata-kata dari kumpulan dokumen.
  • Stoplist yaitu proses pembuangan kata buang seperti: tetapi, yaitu, sedangkan, dan sebagainya.
  • Stemming yaitu proses penghilangan/ pemotongan dari suatu kata menjadi bentuk dasar. Kata “diadaptasikan” atau “beradaptasi” menjadi kata “adaptasi” sebagai istilah.

  • Term Weighting dan Inverted File yaitu proses pemberian bobot pada istilah.

  Didalam memberikan bobot pada sebuah istilah, terdapat berbagai macam teknik antara lain yaitu :

  1. Teknik pembobotan berdasarkan frekuensi kemunculan istilah pada satu dokumen. Teknik pembobotan ini cukup sederhana dimana bobot suatu istilah pada sebuah dokumen berdasarkan jumlah kemunculannya pada dokumen tersebut.

  2. Teknik pembobotan berdasarkan rumus Savoy(1993) yaitu: W = ntf * nidf ,

  ik ik k   n log   df

    tfkik

  dimana ntf = dan nidf =

  ik k log n

    Max tf j ij

  Dimana : adalah bobot istilah k pada dokumen i.

  • W ik merupakan frekuensi dari istilah k dalam dokumen i.
  • tf ik  n adalah jumlah dokumen dalam kumpulan dokumen.

  adalah jumlah dokumen yang mengandung istilah k.

  • df k tf adalah frekuensi istilah terbesar pada satu dokumen.
  • Max j ij

  Pada teknik pembobotan ini, bobot istilah telah dinormalisasi. Dalam menentukan bobot suatu istilah tidak hanya berdasarkan frekuensi kemunculan istilah di satu dokumen, tetapi juga memperhatikan frekuensi terbesar pada suatu istilah yang dimiliki oleh dokumen bersangkutan. Hal ini untuk menentukan yang sama. Selain itu teknik ini juga memperhitungkan jumlah dokumen yang mengandung istilah yang bersangkutan dan jumlah keseluruhan dokumen. Hal ini berguna untuk mengetahui posisi relatif bobot istilah bersangkutan pada suatu dokumen dibandingkan dengan dokumen-dokumen lain yang memiliki istilah yang sama. Sehingga jika sebuah istilah mempunyai frekuensi kemunculan yang sama pada dua dokumen belum tentu mempunyai bobot yang sama.

2.2.1 Stemming

  Stemming adalah proses penghilangan prefiks dan sufiks dari kueri dan

  istilah-istilah dokumen. Stemming dilakukan atas dasar asumsi bahwa kata-kata yang memiliki stem yang sama memiliki makna yang serupa sehingga pengguna tidak keberatan untuk memperoleh dokumen-dokumen yang di dalamnya terdapat kata-kata dengan stem yang sama dengan kuerinya. Teknik-teknik stemming dapat dikategorikan menjadi:

  • Berdasarkan aturan sesuai bahasa tertentu
  • Berdasarkan kamus

  Proses ini memiliki dua tujuan. Dalam hal efisiensi, stemming mengurangi jumlah kata-kata unik dalam indeks sehingga mengurangi kebutuhan ruang penyimpanan untuk indeks dan mempercepat proses pencarian. Dalam hal keefektifan, stemming meningkatkan recall dengan mengurangi bentuk-bentuk kata ke bentuk dasarnya atau stem-nya. Sehingga dokumen-dokumen yang menyertakan suatu kata dalam berbagai bentuknya memiliki kecenderungan yang suatu kata disimpan secara terpisah dalam indeks. Akan tetapi, stemming dapat menurunkan tingkat precision jika setiap bentuk suatu stem diperoleh, sedangkan yang relevan hanyalah bentuk yang sama dengan yang digunakan dalam kueri.

  

Parsing dan stemming dalam suatu IRS tergantung pada bahasa yang digunakan

  dalam dokumen yang akan dicari. IRS untuk Bahasa Inggris kurang optimal untuk menangani dokumen dalam Bahasa Indonesia. Bahasa Indonesia memiliki daftar kata buang (stoplist) serta sistem pembentukan kata yang sangat berbeda dengan bahasa Inggris, sehingga diperlukan IRS yang khusus untuk Bahasa Indonesia.

2.2.2 Porter Stemmer for Bahasa Indonesia

  Porter Stemmer for Bahasa Indonesia dikembangkan oleh Fadillah Z. Tala

  pada tahun 2003. Implementasi Porter Stemmer for Bahasa Indonesia berdasarkan English Porter Stemmer yang dikembangkan oleh W.B. Frakes pada tahun 1992. Karena bahasa Inggris datang dari kelas yang berbeda, beberapa modifikasi telah dilakukan untuk membuat Algoritma Porter dapat digunakan sesuai dengan bahasa Indonesia. Desain dari Porter Stemmer for Bahasa

  Indonesia dapat dilihat pada gambar 2.3 di bawah ini:

Gambar 2.3 Algoritma Porter Stemmer for Bahasa Indonesia

  Pada gambar 2.3 terlihat beberapa langkah 'removal' menurut aturan yang ada pada tabel 2.1 sampai dengan tabel 2.5.

  Tabel 2.1: Kelompok rule pertama : inflectional particles

  Suffix Replacement Measure Additional Example Condition Condition

  kah NULL

  2 NULL bukukah → buku lah NULL

  2 NULL adalah → ada pun NUUL

  2 NULL bukupun → buku

  Tabel 2.2: Kelompok rule kedua :inflectional possesive pronouns

  Suffix Replacement Measure Additional Example Condition Condition

  ku NULL

  2 NULL bukuku → buku mu NULL

  2 NULL Bukumu Tabel 2.3: Kelompok rule ketiga: first order of derivational prefixes

  Prefix Replacement Measure Condition Additional Condition Example

  2 prefix Є{di, meng, ter} makanan

  2 NULL pekerja → kerja

  Tabel 2.5: Kelompok rule kelima: derivational suffixes

  Suffix Replacement Measure Condition Additional Condition Example

  kan NULL

  2 prefix Є{ke,peng} tarikan

  → tarik (meng)ambilkan

  → ambil an NULL

  → makan (per)janjian

  2 NULL perjelas → jelas pel NULL

  → janji i NUUL

  2 V|K…

  c1c1

  ,

  c1

  ≠ s,

  c2

  ≠ i and prefix tandai → tanda