SKRIPSI SISTEM TEMU KEMBALI INFORMASI DE

SKRIPSI SISTEM TEMU-KEMBALI INFORMASI DENGAN METODE VECTOR SPACE MODEL PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS

Firnas Nadirman 04/181070/EPA/00481

DEPARTEMEN PENDIDIKAN NASIONAL UNIVERSITAS GADJAH MADA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM YOGYAKARTA

SKRIPSI SISTEM TEMU-KEMBALI INFORMASI DENGAN METODE VECTOR SPACE MODEL PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS

Firnas Nadirman 04/181070/EPA/00481

Sebagai salah satu syarat untuk memperoleh derajat sarjana S1 pada Program Studi Ilmu Komputer

DEPARTEMEN PENDIDIKAN NASIONAL UNIVERSITAS GADJAH MADA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM YOGYAKARTA 2006

SKRIPSI INFORMATION RETRIEVAL SYSTEM WITH VECTOR SPACE MODEL METHOD AT SEARCHING TEXT DOCUMENT FILE

Firnas Nadirman 04/181070/EPA/00481

Submitted to complete Sarjana S1 degree on the Computer Science Study Program

DEPARTEMEN PENDIDIKAN NASIONAL UNIVERSITAS GADJAH MADA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM YOGYAKARTA 2006

SKRIPSI SISTEM TEMU-KEMBALI INFORMASI DENGAN METODE VECTOR SPACE MODEL PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS

Firnas Nadirman 04/181070/EPA/00481

Dinyatakan lulus ujian skripsi oleh tim penguji

pada tanggal : 13 Januari 2006

Tim Penguji

Dosen Pembimbing Ketua Tim Penguji

Sigit Priyanta, S.Si., M.Kom Drs. Janoe Hendarto, M.Kom

Penguji Penguji

Drs. Azhari, M.T. Drs. Suprapto, M.Kom

KATA PENGANTAR

Puji syukur penulis panjatkan kepada Allah SWT atas segala karunia-Nya, sehingga skripsi dengan judul “SISTEM TEMU-KEMBALI INFORMASI

DENGAN METODE VECTOR SPACE MODEL PADA PENCARIAN FILE

DOKUMEN BERBASIS TEKS” dapat diselesaikan.

Penulis mengambil tema tentang sistem temu-kembali informasi di dalam skripsi ini karena keingintahuan penulis mengenai ilmu pencarian informasi dengan metode temu-kembali informasi. Di dalam skripsi ini juga penulis menjelaskan pengembangan sebuah sistem temu-kembali informasi yang digunakan di dalam sebuah sistem penyimpanan dokumen teks berbasis web.

Penulis pertama kali mengucapkan terima kasih yang sebesar-besarnya kepada bapak Sigit Priyanta selaku dosen pembimbing yang telah membantu penulis selama bimbingan skripsi ini. Beliau juga selalu memberikan motivasi kepada penulis untuk menyelesaikan skripsi ini tepat pada waktunya.

Selain beliau, penulis didalam menyelesaikan skripsi ini juga mendapat banyak sekali bantuan secara moral maupun materiil dari berbagai pihak, maka pada kesempatan ini penulis ingin mengucapkan terima kasih kepada:

1. Kedua orang tua serta adik dan kakak penulis yang tercinta, yang senantiasa memberikan dukungannya.

2. Bapak Janoe Hendarto selaku pembimbing akademik selama penulis melaksanakan studi.

3. Bapak Ahmad Ridha atas waktunya untuk berdiskusi dengan penulis.

4. Yulia sebagai sahabat terbaik penulis yang selalu memberikan dorongan dan dukungannya selama ini.

5. Widi, Farid, Dijas, Opus, Rahmad, Medha, Tina, Yaya, Okti, Abriel dan teman-teman seangkatan sejak diploma yang selalu memberikan dukungan dan sarannya kepada penulis

6. Harry, Rere, Isam, Dankos, Fajar, Lira, Anggun, Yudith, Arif dan Adib sebagai kakak kelas penulis sejak diploma yang menjadi sumber motivasi bagi penulis.

7. Semua teman kos, khususnya Mas Cahyo yang bersedia mencarikan buku untuk membantu penulis menyelesaikan skripsi ini.

8. Rio, Tiar, Roy, Siska, Mba Datu, Mba Leli dan seluruh teman-teman seangkatan penulis yang tidak bisa disebutkan semuanya.

9. Civitas Akademik Program Studi Swadaya Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Gadjah Mada yang telah membantu dan bekerja sama dengan penulis selama masa studi.

Penulis menyadari bahwa di dalam pembuatan skripsi ini masih terdapat begitu banyak kekurangan, oleh karena itu penulis memohon saran dan kritik yang membangun bagi kesempurnaan skripsi ini. Semoga skripsi ini dapat bermanfaat bagi pembacanya.

Yogyakarta, Januari 2006

INTISARI SISTEM TEMU-KEMBALI INFORMASI DENGAN METODE VECTOR SPACE MODEL PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS

Oleh Firnas Nadirman 04/181070/EPA/00481

Seiring berkembangnya teknologi, penyimpanan dokumen dalam bentuk file semakin banyak digunakan. Selain karena mengurangi jumlah ruang penyimpanan, media penyimpanannya dalam bentuk harddisk harganya pun relatif murah. Akan tetapi, file-file tersebut akan terus bertambah setiap harinya dan untuk mencari informasi dari isi file-file tersebut akan menjadi sulit. Untuk itu dikembangkanlah metode ilmu pencarian yang dikenal dengan temu-kembali informasi (information retrieval).

Metode-metode temu-kembali informasi sudah dikenal sejak lama, salah satu dari metode tersebut yang paling banyak digunakan karena kemudahan implementasinya adalah Vector Space Model (VSM). Pada metode ini dokumen hasil pencarian akan diurutkan berdasarkan bobot dari kata pencarian yang terdapat di dalam dokumen tersebut. Salah satu algoritma pembobotannya adalah algoritma tf·idf yang dipengaruhi oleh frekuensi kemunculan kata pada sebuah dokumen dan frekuensi dari dokumen yang memiliki kata tersebut.

Pada metode VSM, sistem temu-kembali informasi sebelum melakukan pencarian dokumen akan memecah isi teks dari dokumen-dokumen tersebut menjadi indeks kata. Indeks ini yang akan digunakan untuk proses pencarian. Proses pembentukan indeks dari teks yang terdapat di dalam dokumen akan melalui beberapa tahapan yaitu parsing, penghilangan stopwords dan penghitungan bobot. Dan juga pada proses pencarian, query dari pengguna akan melalui proses yang hampir sama pada proses pembentukan indeks. Setelah itu akan dibentuk vektor dokumen dan vektor query untuk diolah sehingga akan mendapatkan bobot dari dokumen hasil pencarian. Dengan metode ini dapat dicari informasi dari dokumen yang disimpan secara cepat, serta dokumen dari hasil pencarian dapat diurutkan berdasarkan bobot informasinya.

xiv

ABSTRACT INFORMATION RETRIEVAL SYSTEM WITH VECTOR SPACE MODEL METHOD AT SEARCHING TEXT DOCUMENT FILE

by Firnas Nadirman 04/181070/EPA/00481

Along expand the technology, depository of document in file format is more and more used. Besides, because lessening amount of depository space, [his/its] storage media in the form of harddisk of its price even also cheap relative. However, the file will be non-stoped to increase every day and to look for information from content of the file will become difficult. So Information Retrieval Method was developed for the searching technique.

Method of information retrieval have been found since along past year, one of the method which is at most used because easier of implementation is Vector Space Model (VSM). At this method, document of result of searching will sort pursuant to weight from term of keywords which the documents have. One of algorithm of its weight is algorithm called tf·idf influenced by frequency of term frequency and inversed document frequency.

At method VSM, information retrieval system before conducting of document search will break content of text from the document to become index term. The index will be used for the search process. Process forming make an index to from text which is there are in document will through some step that is parsing, remove the stopwords and weight calculation. And for the search process, query given from user will also through process which is much the same to at process of create index terms. Afterwards will be formed document vector and query vector to be processed so that will get weight from document for the result. With this method, document can be searched by information from the content kept quickly, and also document from the search result earn to sort pursuant to information weight.

xv

1. BAB I PENDAHULUAN

1.1 Latar Belakang

Penggunaan sebuah komputer untuk menyimpan dokumen teks dalam bentuk file sampai saat ini sudah banyak dilakukan. Setelah munculnya internet pada akhir tahun 1980 yang terkenal dengan World Wide Web (Baeza-Yates & Ribeiro-Neto, 1999) yang bertujuan untuk memberikan berita atau informasi kepada masyarakat di seluruh dunia, berbagai macam informasi dalam bentuk file semakin mudah didapatkan. Dilihat dari perkembangannya sekarang kurang lebih hampir 353 juta host (Internet Systems Consortium, 2005) di internet diakses oleh 957 juta orang di seluruh dunia (Internet World Stats, 2005) dengan menggunakan teknologi komputer sebagai media untuk penyimpanan dan pengaksesannya. Jumlah tersebut akan terus meningkat setiap tahunnya. Dari jumlah pemakaian komputer sampai saat ini membuat komputer merupakan salah satu alat yang dibutuhkan untuk mencari informasi.

Dengan banyaknya jumlah informasi yang beredar saat ini menimbulkan sebuah masalah untuk melakukan pencarian informasi yang diinginkan dengan cepat dan akurat. Menurut survey di Inggris pada tahun 2001, 36% pengguna internet di Inggris menghabiskan waktu selama dua jam di internet untuk mencari informasi yang akurat, dan sisanya sudah frustasi dalam dua belas menit jika tidak menemukan informasi yang diinginkannya (Nua Internet Surveys, 2002). Sampai saat ini sudah banyak dikembangkan algoritma yang efisien untuk Dengan banyaknya jumlah informasi yang beredar saat ini menimbulkan sebuah masalah untuk melakukan pencarian informasi yang diinginkan dengan cepat dan akurat. Menurut survey di Inggris pada tahun 2001, 36% pengguna internet di Inggris menghabiskan waktu selama dua jam di internet untuk mencari informasi yang akurat, dan sisanya sudah frustasi dalam dua belas menit jika tidak menemukan informasi yang diinginkannya (Nua Internet Surveys, 2002). Sampai saat ini sudah banyak dikembangkan algoritma yang efisien untuk

Dari permasalahan tersebut dikembangkanlah suatu ilmu yang diberi nama temu-kembali informasi (information retrieval). Temu-kembali informasi berkaitan dengan representasi penyimpanan, struktur dan akses dari dokumen- dokumen yang bertujuan untuk memudahkan pencarian sebuah informasi. Representasi dari dokumen itu nantinya harus mudah diakses oleh pengguna untuk mendapatkan informasi.

Akan tetapi, dilihat dari karakteristik pengguna mengenai kebutuhan informasi, untuk membuat sebuah sistem temu-kembali informasi yang cepat dan akurat tidaklah mudah. User pertama kali harus mengubah kebutuhan informasi kedalam sebuah bahasa query yang dapat di proses oleh sistem temu-kembali informasi. Salah satu caranya yaitu dengan memasukan satu atau beberapa istilah. Istilah tersebut nantinya di cocokkan dengan representasi data yang disebut indeks

Indeks merupakan struktur data yang paling banyak digunakan oleh sistem temu-kembali informasi. Indeks adalah gugus kata atau konsep terpilih sebagai penunjuk ke informasi (atau dokumen) terkait. Indeks dalam berbagai bentuk, merupakan inti setiap sistem temu-kembali informasi modern karena menyediakan akses yang lebih cepat ke data dan juga mempercepat pemrosesan query (Baeza-Yates & Ribeiro-Neto, 1999). Konsep indeks ini sebelumnya sudah banyak digunakan di dalam sebuah buku untuk membantu pencarian suatu istilah.

Elemen dari bahasa indeks adalah istilah yang diperoleh dari teks dalam sebuah dokumen yang diuraikan (Rijsbergen, 1979). Nantinya indeks ini digunakan dalam mencari sebuah dokumen dengan menggunakan metode temu-kembali informasi.

Melihat dari penggunaan indeks, penulis mencoba menggunakan konsep temu-kembali informasi yang di terapkan di dalam sebuah sistem penyimpanan dokumen teks berbasis web. Dengan menerapkan konsep temu-kembali informasi, diharapkan sistem tersebut dapat melakukan pencarian dokumen berdasarkan informasinya secara cepat.

1.2 Rumusan Masalah Permasalahan yang diambil dari penelitian ini yaitu untuk membuat suatu sistem yang dapat mencari informasi di dalam dokumen dengan menggunakan konsep temu-kembali informasi yang diterapkan di dalam sebuah sistem penyimpanan dokumen. Selain itu, permasalahan lainnya adalah untuk melakukan pencarian dokumen-dokumen yang disimpan oleh sistem berdasarkan informasinya.

1.3. Batasan Masalah

Agar penelitian lebih jelas dan lebih terarah, maka perlu diadakan pembatasan masalah. Pada penelitian ini faktor-faktor yang mempengaruhi temu- kembali informasi dibatasi oleh tiga faktor saja, yaitu jenis dokumen, ukuran dokumen yang diindeks dan relevansi dari setiap dokumen yang dihasilkan pada saat pencarian dokumen. Selain itu faktor lainnya seperti stemming (pemotongan imbuhan) dan pengelompokkan kata yang berpengaruh di dalam pengindeksan dan pencarian dokumen perlu dibatasi mengingat waktu yang terbatas.

1.4. Tujuan Penelitian

Berdasarkan perumusan masalah tersebut di atas maka tujuan penelitian yang ingin dicapai adalah:

1. Mengembangkan dan mengimplementasikan pengindeksan otomatis untuk membangun sistem pencarian dokumen di dalam sebuah sistem penyimpanan dokumen teks dengan konsep temu-kembali informasi.

2. Untuk dapat melakukan pencarian dokumen secara cepat dan akurat dengan menerapkan konsep temu-kembali informasi.

3. Mengukur keakuratan dari hasil pencarian sistem berdasarkan relevansi dokumen, dari query yang diberikan.

1.5. Manfaat Penelitian

Dengan adanya penelitian dan tulisan ini diharapkan dapat memberikan konstribusi nyata pada pengembangan teknologi dan ilmu pengetahuan khususnya dapat bermanfaat langsung bagi IT. Dengan menerapkan konsep temu-kembali informasi pada sebuah sistem penyimpanan data diharapakan pencarian informasi dapat dilakukan lebih cepat dibandingkan dengan tidak menggunakan konsep temu-kembali informasi. Konsep dari temu-kembali informasi ini dapat diterapkan di dalam sistem penyimpanan data maupun di dalam digital library.

1.6. Metode Penelitian

Metode penelitian yang digunakan adalah:

1. Studi Pustaka

Metode studi pustaka ini dilakukan dengan mengambil referensi dari buku dan jurnal dari penelitian yang berhubungan dengan konsep temu-kembali informasi

2. Analisis dan Perancangan Sistem Sebelum membuat sebuah sistem temu-kembali informasi harus dilakukan

terlebih dahulu analisis kebutuhan dari sistem tersebut. Selanjutnya dilanjutkan dengan perancangan dengan menjabarkan langkah-langkah pembuatan sistem untuk nantinya implementasi dari sistem dapat berjalan dengan baik dan sesuai dengan yang di harapkan.

3. Implementasi Sistem

Setelah mempelajari langkah-langkah pembuatan sistem temu-kembali informasi, maka sistem diimplementasikan. Implementasi sistem dilakukan dengan menggunakan perangkat lunak Apache 2.053, bahasa pemrograman PHP 5.0.5 dan basis data MySQL 4.0.20a.

4. Evaluasi Sistem

Evaluasi sistem dilakukan dengan mengukur kemampuan pencarian sistem temu-kembali tersebut.

1.7. Sistematika Penulisan

Untuk mempermudah dalam pembuatan dan pembahasan penelitian ini, maka penulis menggunakan sistematika penulisan sebagai berikut:

BAB I. PENDAHULUAN

Pada bab ini penulis akan membahas tentang latar belakang masalah, perumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metode penelitian, sistematika penulisan dan tinjauan pustaka.

BAB II. LANDASAN TEORI Bab kedua ini bersisi teori-teori dasar yang menguraikan tentang

perkembangan sistem temu-kembali informasi. BAB III. ANALISIS DAN PERANCANGAN

Bab ketiga ini menjelaskan analisis dan perancangan dari sistem temu- kembali informasi yang dikembangkan.

BAB IV. HASIL PENELITIAN DAN PEMBAHASAN

Pada bab ini penulis akan membahas implementasi dari sistem temu- kembali informasi yang di bangun dan evaluasi dari sistem tersebut.

BAB V. KESIMPULAN DAN SARAN

Pada bab ini penulis mengemukakan tentang kesimpulan yang diambil mengenai pembuatan sistem temu-kembali informasi. Disamping itu penulis juga akan memberikan saran yang sekiranya dapat bermanfaat untuk penelitian selanjutnya.

1.8. Tinjauan Pustaka

Temu-kembali informasi dikembangkan sejak 25 tahun yang lalu dan sampai saat ini banyak digunakan oleh search engine di dalam pencarian informasi di internet.

Temu-kembali informasi berfokus pada proses yang terlibat di dalam representasi, media penyimpanan, mencari dan menemukan informasi yang relevan dari informasi yang diinginkan oleh user. Hal ini ditulis oleh Ingwersen (1992) di dalam buku yang berjudul Information Retrieval Interaction.

Menurut Rijsbergen (1979), temu-kembali informasi berbeda dengan temu-kembali data dilihat dari kemampuan kesamaan, pengambilan kesimpulan, model, klasifikasi, bahasa query, klasifikasi query, hasil yang diinginkan, dan respon kesalahannya.

Sistem temu-kembali informasi digunakan untuk mencari dokumen yang relevan. Di dalam sebuah jurnal penelitian, Mizzaro (1998) mengklasifikasikan jenis-jenis relevansi terhadap sebuah dokumen. Nantinya relevansi terhadap dokumen ini dapat digunakan untuk menganalisis dari sebuah sistem temu- kembali informasi.

Salah satu model temu-kembali informasi yang di gunakan adalah Vector Space Model (VSM). Model ini merupakan salah satu model tradisional yang dikembangkan oleh Salton (1969). Di dalam buku berjudul Modern Information Retrieval yang ditulis oleh Baeza-Yates dan Ribeiro-Neto (1999) dinyatakan bahwa model ini sangat populer sampai saat ini karena kemudahan dan kecepatannya.

Pembobotan dilakukan untuk memperoleh rangking dari dokumen hasil pencarian. Bartell et all (2002) menyatakan bahwa rangking hasil pencarian dari dokumen di dalam sistem temu-kembali informasi berbasis teks dengan model VSM dapat mengurutkan dokumen-dokumen tersebut dari yang paling relevan Pembobotan dilakukan untuk memperoleh rangking dari dokumen hasil pencarian. Bartell et all (2002) menyatakan bahwa rangking hasil pencarian dari dokumen di dalam sistem temu-kembali informasi berbasis teks dengan model VSM dapat mengurutkan dokumen-dokumen tersebut dari yang paling relevan

Banyak penelitian yang pernah dilakukan mengenai sistem temu-kembali informasi, salah satunya adalah Implementasi Operasi Boolean Sistem Retrieval Informasi untuk Dokumen Digital (Faren, 2005). Penelitian tersebut mengenai sistem temu-kembali informasi berbasis model boolean pada pencarian informasi di dalam file berekstensi .txt.

2. BAB II LANDASAN TEORI

2.1 Temu-kembali Informasi (Information Retrieval)

Temu-kembali informasi adalah aktifitas utama yang dilakukan oleh sebuah penyedia informasi atau pusat pelayanan informasi, termasuk perpustakaan dan jenis dari layanan lainnya yang menyediakan informasi kepada masyarakat umum. Menurut sebuah ensiklopedia, temu-kembali informasi adalah seni dan ilmu dalam pencarian informasi di sekumpulan dokumen-dokumen, pencarian informasi di dokumen itu sendiri, pencarian metadata yang menjelaskan sekumpulan dokumen, atau pencarian di dalam basis data (WIKIPEDIA, 2005). Nantinya hasil akhir dari temu-kembali informasi adalah sebuah sistem yang dapat melakukan penemu-kembalian informasi atau disebut sistem temu-kembali informasi.

Menurut Lancaster (1968) di dalam Rijsbergen (1979): “sebuah sistem temu-kembali informasi tidak memberitahu (yakni tidak mengubah pengetahuan) pengguna mengenai masalah yang ditanyakannya. Sistem tersebut hanya memberitahukan keberadaan (atau ketidakberadaan) dan keterangan dokumen- dokumen yang berhubungan dengan permintaannya”.

Sistem temu-kembali informasi berbeda dengan sistem temu-kembali data. Sistem temu-kembali data tujuan utamanya untuk menentukan dokumen yang memiliki kata kunci yang sesuai dengan query yang diberikan oleh pengguna di dalam sekumpulan dokumen. Hal ini belum dapat memecahkan masalah Sistem temu-kembali informasi berbeda dengan sistem temu-kembali data. Sistem temu-kembali data tujuan utamanya untuk menentukan dokumen yang memiliki kata kunci yang sesuai dengan query yang diberikan oleh pengguna di dalam sekumpulan dokumen. Hal ini belum dapat memecahkan masalah

Sifat pencarian sistem temu-kembali informasi berbeda dengan sistem temu-kembali data (misalnya dalam sistem manajemen basis data) dalam beberapa segi, antara lain spesifikasi query yang tidak lengkap, dan tingkat ketanggapan kesalahan yang tidak peka (Rijsbergen, 1979). Hal ini dapat dilihat pada Tabel

Tabel 2.1 Perbedaan sistem temu-kembali data dan sistem temu-kembali informasi (Rijsbergen, 1979)

Data Retrieval

Information Retrieval

Matching

Partial (best) Match Inference

Exact Match

Deduksi

Induksi

Model Deterministik Probabilistik Klasifikasi Monothetic Polythetic Bahasa Query

Artificial Natural Spesifikasi Query Lengkap

Tidak Lengkap Item yang diinginkan

Matching

Relevan

Respon Error

Sensitif

Tidak Sensitif

Kerangka dari sistem temu-kembali informasi sederhana terbagi menjadi dua bagian. Bagian yang pertama adalah bagian si pencari informasi atau pengguna dari sistem. Pengguna dari sistem temu-kembali informasi harus menerjemahkan informasi yang dicarinya agar dapat diproses oleh sistem dengan cara memasukan kata kunci. Kata kunci tersebut nanti di proses menjadi sebuah Kerangka dari sistem temu-kembali informasi sederhana terbagi menjadi dua bagian. Bagian yang pertama adalah bagian si pencari informasi atau pengguna dari sistem. Pengguna dari sistem temu-kembali informasi harus menerjemahkan informasi yang dicarinya agar dapat diproses oleh sistem dengan cara memasukan kata kunci. Kata kunci tersebut nanti di proses menjadi sebuah

Pencari Informasi

Dokumen

Formulasi Pengindeksan pencarian

Query Representasi dokumen

Fungsi Kesamaan

Daftar dari dokumen yang relevan

Gambar 2.1 Kerangka dari sistem temu-kembali informasi sederhana (Ingwersen, 1992)

Perlu diingat bahwa pencarian sebuah informasi di dalam sistem temu- kembali informasi belum tentu mengembalikan seluruh dokumen yang relevan. Bisa hanya sebagian atau tidak sama sekali. Sistem temu-kembali informasi Perlu diingat bahwa pencarian sebuah informasi di dalam sistem temu- kembali informasi belum tentu mengembalikan seluruh dokumen yang relevan. Bisa hanya sebagian atau tidak sama sekali. Sistem temu-kembali informasi

2.2 Pengindeksan

Mencari sebuah informasi yang relevan sangat tidak mungkin dapat dilakukan oleh sebuah komputer, meskipun dilakukan oleh sebuah komputer yang memiliki spesifikasi yang canggih. Agar komputer dapat mengetahui sebuah dokumen itu relevan terhadap sebuah informasi, komputer memerlukan sebuah model yang mendeskripsikan bahwa dokumen tersebut relevan atau tidak. Salah satu caranya adalah dengan menggunakan indeks istilah.

Indeks adalah bahasa yang digunakan di dalam sebuah buku konvensional untuk mencari informasi berdasarkan kata atau istilah yang mengacu ke dalam suatu halaman. Dengan menggunakan indeks si pencari informasi dapat dengan mudah menemukan informasi yang diinginkannya. Pada sistem temu-kembali informasi, indeks ini nantinya yang digunakan untuk merepresentasikan informasi di dalam sebuah dokumen.

Elemen dari indeks adalah istilah indeks (index term) yang didapatkan dari teks yang dipecah di dalam sebuah dokumen. Elemen lainnya adalah bobot istilah (term weighting) sebagai penentuan rangking dari kriteria relevan sebuah dokumen yang memiliki istilah yang sama.

Baeza-Yates dan Ribeiro-Neto (1999) menjelaskan tentang proses pembuatan indeks dari sebuah dokumen teks atau dikenal dengan proses analisis teks (automatic teks analysis) melalui beberapa tahap: Baeza-Yates dan Ribeiro-Neto (1999) menjelaskan tentang proses pembuatan indeks dari sebuah dokumen teks atau dikenal dengan proses analisis teks (automatic teks analysis) melalui beberapa tahap:

b. Penyaringan kata meliputi penghilangan kata yang memiliki arti niliai paling rendah (stopwords) untuk proses penemu-kembalian.

c. Penghilangan imbuhan kata, baik awalan maupun akhiran kata. Penghilangan imbuhan kata ini dikenal dengan stemming.

d. Pemilihan istilah untuk menentukan kata atau stem (atau kelompok kata) yang akan digunakan sebagai elemen indeks.

e. Pembentukan kategori istilah terstruktur seperti kelompok persamaan kata yang digunakan untuk perluasan dari query dasar yang diberikan oleh pengguna sistem temu-kembali informasi dengan istilah lain yang sesuai.

Pengindeksan dapat dilakukan dengan dua cara yaitu manual dan otomatis. Idealnya, untuk mendapatkan indeks istilah yang sempurna sebuah pengindeksan dilakukan secara manual (konvensional). Akan tetapi, menurut Salton (1968) sistem pencarian dan analisa teks yang sepenuhnya otomatis tidak menghasilkan kinerja temu-kembali yang lebih buruk dibandingkan dengan sistem konvensional yang menggunakan pengindeksan dokumen manual dan formulasi pencarian manual. Untuk lebih jelasnya mengenai proses pengindeksan dari sebuah dokumen yang memiliki sekumpulan teks menjadi istilah dapat dilihat pada Gambar 2.2.

teks terstruktur

Aksen, spasi,

dll . teks

utuh Penyaringan

kata

Pengelompokan kata

Stemming

Pengindeksan manual atau otomatis

Indeks Istilah

Gambar 2.2 Tahapan didalam pemrosesan teks (Baeza-Yates dan Ribeiro-Neto, 1999)

2.3 Parsing

Parsing adalah proses pengenalan token (tokenizing) didalam rangkain teks (Grossman, 2002). Di dalam pembuatan sebuah indeks istilah, dokumen dipecah-pecah menjadi unit-unit yang lebih kecil misalnya berupa kata, frasa atau kalimat. Unit tersebut biasanya disebut sebagai token. Sedangkan algoritma untuk memecahkan kumpulan kalimat atau frasa menjadi token disebut tokenizer.

Pemrosesan parsing sangat dipengaruhi oleh pengetahuan bahasa yang digunakan di dalam sebuah dokumen untuk menangani karakter-karakter khusus, serta untuk memberikan batasan-batasan token di dalam sebuah dokumen.

Parsing akan menghasilkan daftar istilah beserta informasi tambahan seperti frekuensi kemunculan istilah di dalam sebuah dokumen dan posisi-posisi ke berapa saja istilah itu muncul di sebuah dokumen untuk digunakan pada pemrosesan selanjutnya. Namun sebelumnya, terlebih dahulu dilakukan pembuangan kata-kata yang tidak perlu (stopwords) misalnya kata-kata seperti “yang”, “hingga”, “dan”, “dengan”, dll. Penghilangan kata-kata ini dilakukan agar pencarian informasi lebih terarah karena kata-kata tersebut tidak signifikan di dalam menentukan informasi suatu dokumen.

2.4 Inverted index

Inverted index adalah salah satu mekanisme untuk pengindeksan sebuah koleksi teks yang digunakan untuk mempercepat proses pencarian. Struktur dari inverted index terdiri dari dua elemen yaitu kosakata dan posisinya di dalam sebuah dokumen (Baeza-Yates dan Ribeiro-Neto, 1999). Posisi dari sebuah istilah di dalam indeks pada sebuah buku, diterjemahkan dalam bentuk nomor halaman.

Pada inverted index, setiap istilah di masukan ke dalam inverted list yang menyimpan daftar dari istilah yang menujuk ke sejumlah dokumen yang memiliki istilah tersebut. Inverted list juga kadang-kadang di sebut posting list (Witten et all, 1999).

Misalkan istilah T 1 terdapat dalam dokumen D 1 , D 2 , dan D 3 sedangkan istilah T 2 terdapat dalam dokumen D 1 dan D 2 maka inverted index yang dihasilkan seperti berikut:

T 1 →D 1 ,D 2 ,D 3

T 2 →D 1 ,D 2

Penggunaan inverted index di dalam sistem temu-kembali informasi memiliki kelemahan yaitu lambat di dalam pengindeksan, tetapi cepat di dalam proses pencarian informasi.

Menurut Grossman (2002), Inverted Index adalah struktur yang dioptimasi untuk proses penemukembalian sedangkan proses update hanya menjadi pertimbangan sekunder. Struktur tersebut membalik teks sehingga indeks memetakan istilah-istilah ke dokumen-dokumen (sebagaimana indeks sebuah buku yang memetakan istilah-istilah ke nomor halaman).

2.5 Pembobotan Istilah (Term Weighting)

Istilah di dalam suatu indeks harus bisa membedakan kepentingan dari sebuah dokumen pada sebuah informasi. Caranya yaitu dengan pemberian bobot kepada sebuah istilah terhadap suatu dokumen. Semakin tinggi bobot dari sebuah istilah maka semakin penting istilah tersebut dibandingkan dengan istilah lainnya di dalam sebuah dokumen. Bobot dari istilah ini dicantumkan pada inverted index untuk digunakan dalam proses penemu-kembalian dokumen.

Pada saat pencarian istilah tunggal digunakan untuk mengidentifikasi dari isi sekumpulan dokumen, pembedaan harus dilakukan antar istilah tunggal berdasarkan perkiraan nilai istilah tersebut sebagai pendeskripsi sebuah dokumen.

Hal ini menunjukkan penggunaan dari bobot istilah yang di cantumkan pada saat proses pengidentifikasian (Salton dan Buckley, 1987).

Sebagai contoh terhadap sebuah record R dinyatakan seperti:

R= {T i1 , 0.2; T i2 , 0.5 ; T i3 , 0,8}

Dari pernyataan tersebut dapat diambil kesimpulan bahwa istilah ketiga memiliki bobot 0.8, sedangkan istilah pertama memiliki bobot yang jauh lebih kecil yaitu sebesar 0.2.

Penggunaan dari bobot istilah selain untuk membedakan kepentingan suatu istilah di dalam sebuah dokumen juga dapat digunakan untuk menggunakan pengurutan saat penemukembalian dengan susunan menurun dari bobot yang besar ke kecil sesuai dengan bobot istilah-istilah yang sama antara query dan dokumen.

2.5.1 Pembobotan tf·idf

Pada model pengindeksan yang berdasarkan pada frekuensi istilah dapat diperkirakan bahwa istilah-istilah indeks terbaik adalah istilah-istilah yang sering muncul dalam dokumen individual tetapi jarang muncul dalam keseluruhan koleksi. Sebuah penanda kepentingan jenis ini yang umum adalah perkalian (tf·idf) dengan bobot w ij sebuah istilah T i dalam dokumen D i , didefinisikan sebagai frekuensi istilah dikalikan dengan fungsi inverse document frequency.

Baeza-Yates dan Ribeiro-Neto (1999), menyebutkan bahwa pembobotan (tf·idf) terdiri dari dua faktor, yaitu:

1. tf (term frequency) 1. tf (term frequency)

freq i , j

max l freq l , j

2. idf (inverse document frequency)

idf adalah frekuensi kemunculan suatu istilah k i di dalam seluruh dokumen. Penggunaan faktor idf didasarkan pada istilah yang muncul pada setiap dokumen tidak memberikan suatu ciri khusus untuk menentukan dokumen yang relevan dari yang tidak relevan. Jika jumlah seluruh dokumen di dalam sistem dinyatakan dengan nilai N dan jumlah dokumen yang memiliki istilah k i tersebut dinyatakan dengan n i , maka nilai idf i -nya dapat dinyatakan dengan:

idf i = log

Dari dua faktor tersebut maka pembobotan tf·idf dapat dinyatakan dengan:

w i , j = f i , j × log

2.6 Vector Space Model

Salah satu model matematika yang digunakan pada sistem temu-kembali informasi untuk menentukan bahwa sebuah dokumen itu relevan terhadap sebuah informasi adalah Vector Space Model (VSM). Model ini akan menghitung derajat Salah satu model matematika yang digunakan pada sistem temu-kembali informasi untuk menentukan bahwa sebuah dokumen itu relevan terhadap sebuah informasi adalah Vector Space Model (VSM). Model ini akan menghitung derajat

Pada VSM, setiap dokumen dan query dari pengguna direpresentasikan sebagai ruang vektor berdimensi n. Biasanya digunakan nilai bobot istilah (term weigthing) sebagai nilai dari vektor pada dokumen nilai 1 untuk setiap istilah yang muncul pada vektor query.

Pada model ini, bobot dari query dan dokumen dinyatakan dalam bentuk vektor, seperti:

Q = (w q1 ,w q2 ,w q3 , . . . ,w qt ) dan D i = (w i1 ,w i2 ,w i3 ,...,w it )

Dengan w qj dan w ij sebagai bobot istilah T j dalam query Q dan dokumen

D i . Selanjutnya koefisien kesamaan antara query dan dokumen dapat diperoleh dengan formula inner product:

sim ( Q , D i ) = w qj ⋅ w ij ∑

Namun dengan formula di atas, dokumen yang lebih panjang dengan jumlah istilah yang lebih banyak memiliki kemungkinan lebih besar untuk dianggap relevan dengan istilah-istilah query tertentu dibandingkan dokumen- dokumen yang lebih pendek. Sehingga pada kebanyakan lingkungan penemu- kembalian, vektor dokumen ternormalisasi lebih disukai namun proses normalisasi vektor query tidak diperlukan karena ukurannya yang umumnya pendek dan perbedaan panjang antar-query relatif kecil. Sehingga formula di atas digantikan dengan formula ternormalisasi: Namun dengan formula di atas, dokumen yang lebih panjang dengan jumlah istilah yang lebih banyak memiliki kemungkinan lebih besar untuk dianggap relevan dengan istilah-istilah query tertentu dibandingkan dokumen- dokumen yang lebih pendek. Sehingga pada kebanyakan lingkungan penemu- kembalian, vektor dokumen ternormalisasi lebih disukai namun proses normalisasi vektor query tidak diperlukan karena ukurannya yang umumnya pendek dan perbedaan panjang antar-query relatif kecil. Sehingga formula di atas digantikan dengan formula ternormalisasi:

sim ( Q , D i ) = t

ij ) × ( w qj ∑ )

2.7 Recall dan Precision

Evaluasi dari sistem temu-kembali informasi dipengaruhi oleh dua parameter utama yaitu recall dan precision. Recall adalah rasio antara dokumen relevan yang berhasil ditemukembalikan dari seluruh dokumen relevan yang ada di dalam sistem, sedangkan precision adalah rasio dokumen relevan yang berhasil ditemukembalikan dari seluruh dokumen yang berhasil ditemu-kembalikan (Grossman, 2002).

Dokumen relevan yang ditemukembalikan

Seluruh Koleksi |Ra|

Gambar 2.3 Recall dan Precision pada contoh hasil temu-kemabali informasi (Baeza-Yates dan Ribeiro-Neto, 1999)

Berdasarkan Gambar 2.3 recall dan precision dapat dinyatakan sebagai berikut:

Re call =

Ra

Pr ecision =

Ra

Dengan menggunakan nilai dari parameter recall dan precision akan dicari nilai dari average precision untuk menghitung keefektifan dan keakuratan dari algoritma sistem temu-kembali informasi. Average precision adalah suatu ukuran evaluasi sistem temu-kembali informasi yang diperoleh dengan cara menghitung

rata-rata precision pada seluruh tingkat recall (Grossman, 2002).

Sedangkan untuk menentukan nilai dari recall dan precision harus didapatkan jumlah dokumen yang relevan terhadap suatu topik informasi. Satu- satunya cara untuk mendapatkannya yaitu dengan membaca dokumen itu satu per satu.

Menurut Rijsbergen (1979) relevansi merupakan sesuatu yang sifatnya subyektif. Setiap orang mempunyai perbedaan untuk mengartikan sesuatu dokumen tersebut relevan terhadap sebuah topik informasi.

Menurut Mizzaro (1998), evaluasi pada sebuah sistem temu-kembali informasi dengan menggunakan recall dan precision sudah cukup baik untuk menjadi ukuran dari sistem tersebut.

2.8 Model Pengembangan Perangkat Lunak Waterfall

Salah satu model klasik yang digunakan dalam mengembangkan sebuah perangkat lunak adalah model waterfall. Pressman (2005) menyebutkan model ini merupakan model klasik yang menyarankan sistematika pendekatan sekuensial didalam pengembangan perangkat lunak yang dimulai dari spesifikasi kebutuhan Salah satu model klasik yang digunakan dalam mengembangkan sebuah perangkat lunak adalah model waterfall. Pressman (2005) menyebutkan model ini merupakan model klasik yang menyarankan sistematika pendekatan sekuensial didalam pengembangan perangkat lunak yang dimulai dari spesifikasi kebutuhan

Gambar 2.4 Model Pengembangan Waterfall (Pressman, 2005)

Dari Gambar 2.4, model pengembangan waterfall pada awalnya dimulai dari tahap komunikasi. Pada tahap ini pihak pelanggan melakukan komunikasi dengan pihak pengembang perangkat lunak mengenai masalah yang didapatkan sehingga dibutuhkan suatu solusi untuk membuat perangkat lunak didalam memecahkan masalah tersebut. Pada tahap ini kebutuhan perangkat lunak didefinisikan dan inisiasi proyek pembuatan perangkat lunak dilakukan bersama- sama oleh pihak pelanggan dan pihak pengembang.

Tahap perencanaan pada model ini meliputi kegiatan perencanaan pembuatan perangkat lunak. Pada kegiatan ini, estimasi waktu pembuatan perangkat lunak, penjadwalan serta kegiatan yang akan dilakukan untuk menunjang pembuatan perangkat lunak dibahas bersama-sama oleh pihak pengembang dan pelanggan.

Dari tahap perencanaan nantinya akan dilanjutkan ke tahap pemodelan. Pada tahap ini kegiatan utamanya yaitu analisis kebutuhan perangkat lunak yang merupakan proses pengumpulan kebutuhan yang diintensifkan dan difokuskan, khususnya pada perangkat lunak. Tujuannya yaitu untuk memahami sifat program yang akan dibangun. Perekayasa perangkat lunak harus memahami domain informasi, tingkah laku, cara kerja dan antar muka yang diperlukan. Kebutuhan baik untuk sistem maupun perangkat lunak didokumentasikan dan dilihat lagi dengan pelanggan.

Selain analisis kebutuhan perangkat lunak, pada tahap ini juga meliputi kegiatan desain perangkat lunak. Pada kegiatan desain perangkat lunak dilakukan proses multi langkah yang berfokus pada empat atribut sebuah perangkat lunak yang berbeda; struktur data, arsitektur perangkat lunak, representasi interface, dan detail (algoritma) prosedural. Proses desain menerjemahkan syarat/kebutuhan ke dalam sebuah representasi perangkat lunak yang dapat diperkirakan demi kualitas sebelum dimulai pemunculan kode. Sebagaimana persyaratan, desain didokumentasikan dan menjadi bagian dari konfigurasi perangkat lunak.

Setelah melalui tahap perencanaan maka pengembangan perangkat lunak dilanjutkan ke tahap berikutnya, yaitu tahap pembangunan. Pada tahap ini pengembang perangkat lunak mulai melakukan implementasi yang meliputi pengenerasian kode dan pengujian perangkat lunak. Pada kegiatan implementasi hasil desain harus diterjemahkan ke dalam bentuk mesin yang bisa dibaca. Tugas ini dilakukan dengan mengikuti langkah-langkah pembuatan kode. Jika desain pada tahap sebelumnya sudah dilakukan secara lengkap, pembuatan kode dapat diselesaikan secara mekanis.

Kegiatan implementasi pada akhirnya akan menghasilkan perangkat lunak yang siap diuji. Proses pengujian berfokus pada logika internal perangkat lunak, memastikan bahwa semua pernyataan sudah diuji, dan pada eksternal fungsional yaitu mengarahkan pengujian untuk menemukan kesalahan-kesalahan dan memastikan bahwa input yang dibatasi akan memberikan hasil yang sesuai dengan hasil yang dibutuhkan.

Tahap yang terakhir dari pengembangan perangkat lunak pada model waterfall adalah tahap pengiriman. Pada tahap ini seluruh perangkat lunak sudah selesai dan diserahkan kepada pelanggan. Akan tetapi, pada tahap ini perangkat lunak akan mengalami perubahan setelah dikirmkan kepada pelanggan. Perubahan akan terjadi karena kesalahan-kesalahan ditentukan, karena perangkat lunak harus disesuaikan untuk mengakomodasi perubahan-perubahan di dalam lingkungan eksternalnya, atau karena pelanggan membutuhkan perkembangan fungsional. Pada tahap ini kegiatan utama bagi para pengembang perangkat lunak adalah pemeliharaan. Pemeliharaan perangkat lunak mengaplikasikan lagi setiap fase program sebelumnya dan tidak membuat baru lagi.

2.9 Data Flow Diagram (DFD)

DFD merupakan diagram untuk menggambarkan aliran data di dalam sistem untuk fase analisis pada pengembangan perangkat lunak. DFD dapat digunakan untuk menyajikan sebuah sistem atau perangkat lunak pada setiap tingkat abstraksi. DFD menggunakan gambaran input-proses-output dari sistem yang akan dibuat. Pada DFD objek data akan dialirkan ke dalam perangkat lunak, lalu akan ditransformasikan pada elemen proses, dan hasilnya akan dikeluarkan dari perangkat lunak (Pressman, 2005).

Elemen-elemen dasar dari DFD adalah :

Prosedur atau konsumer informasi yang ada di luar bound sistem untuk dimodelkan.

Transfer informasi (fungsi) yang ada di dalam bound sistem untuk dimodelkan.

Objek data; anak panah menunjukkan arah aliran data.

Repositori data yang disimpan untuk digunakan oleh satu atau lebih proses.

Pada DFD aliran data digambarkan dalam bentuk hirarki, yaitu model DFD yang pertama (biasanya disebut DFD level 0 atau diagram konteks) merepresentasikan sistem secara keseluruhan. Bagian DFD lainnya menjelaskan dari konteks diagram tersebut, dan menyediakan secara detail proses yang digunakan pada setiap bagian level.

2.10 Bagan Alir (Flow Chart)

Bagan alir merupakan Representasi grafis yang paling luas dipakai untuk desain prosedural. Konstruksi dari bagan alir sangat sederhana. Sebuah kotak digunakan untuk mengindikasikan suatu langkah pemrosesan. Diamon merepresentasikan suatu kondisi logis dan anak panah memperlihatkan aliran kontrol (Presman, 2002). Gambar 2.5 mengilurtrasikan tiga kondisi prosedural dengan menggunakan bagan alir.

Tugas Pertama

F Kondisi

Tugas Berikutnya

Bagian Else

Bagian Then

Urutan

If-then-else

Tugas Loop

F Bagian Case

Kondisi Case

Kondisi Loop F

Do - While

Repeat - Until

Pemilihan

Gambar 2.5 Konstruksi Bagan Alir

2.11 Basis Data (Database)

Basis Data terdiri dari dua kata, yaitu Basis dan Data. Basis dapat diartikan sebagai markas atau gudang yaitu tempat bersarang/berkumpul. Sedangkan Data adalah representasi fakta dunia nyata yang mewakili suatu objek seperti manusia, barang, hewan, peristiwa, konsep, keadaan dan sebagainya, yang direkam dalam bentuk angka, huruf, simbol, teks, gambar, bunyi atau kombinasinya (Fathansyah, 2001).

Beberapa definisi tentang basis data :

1. Basis data merupakan himpunan kelompok data (arsip) yang saling berhubungan yang diorganisasi sedemikian rupa agar kelak dapat dimanfaatkan kembali dengan cepat dan mudah.

2. Kumpulan data yang saling berhubungan yang disimpan secara bersama sedemikian rupa dan tanpa pengulangan (redudansi) yang tidak perlu, untuk memenuhi berbagai kebutuhan.

3. Kumpulan file/tabel/arsip yang saling berhubungan yang disimpan dalam media penyimpanan elektronis.

Menurut Connoly (1998), basis data adalah koleksi dari relasi data logikal (dan deskripsi dari data ini), yang dirancang untuk mencari informasi yang dibutuhkan oleh organisasi. Sedangkan menurut C.J Date (2004), basis data adalah sebuah koleksi dari data yang tahan lama yang digunakan oleh sistem aplikasi dari perusahaan tertentu

Prinsip utama basis data adalah pengaturan data/arsip. Sedangkan tujuan utamanya adalah kemudahan dan kecepatan dalam pengambilan kembali data/arsip. Satu hal yang juga harus diperhatikan, bahwa basis data bukan hanya sekedar penyimpanan data secara elektronis (dengan bantuan komputer). Artinya, tidak semua bentuk penyimpanan data secara elektronis bisa disebut basis data. Kita dapat menyimpan dokumen berisi data dalam file teks (dengan program pengolah kata), file spread sheet, dan lain-lain, tetapi tidak bisa disebut sebagai basis data karena di dalamnya tidak ada pemilihan dan pengelompokan data sesuai jenis/fungsi data, sehingga akan menyulitkan pencarian data kelak. Dalam sebuah basis data yang sangat ditonjolkan adalah pengaturan / pemilihan / Prinsip utama basis data adalah pengaturan data/arsip. Sedangkan tujuan utamanya adalah kemudahan dan kecepatan dalam pengambilan kembali data/arsip. Satu hal yang juga harus diperhatikan, bahwa basis data bukan hanya sekedar penyimpanan data secara elektronis (dengan bantuan komputer). Artinya, tidak semua bentuk penyimpanan data secara elektronis bisa disebut basis data. Kita dapat menyimpan dokumen berisi data dalam file teks (dengan program pengolah kata), file spread sheet, dan lain-lain, tetapi tidak bisa disebut sebagai basis data karena di dalamnya tidak ada pemilihan dan pengelompokan data sesuai jenis/fungsi data, sehingga akan menyulitkan pencarian data kelak. Dalam sebuah basis data yang sangat ditonjolkan adalah pengaturan / pemilihan /

3. BAB III ANALISIS DAN PERANCANGAN

Pengembangan perangkat lunak dengan menggunakan model pengembangan waterfall meliputi beberapa tahapan. Di dalam penelitian ini, pengembangan sistem temu-kembali informasi ini hanya akan dibahas tahap pemodelan dan pembangunan perangkat lunak yang meliputi analisis, perancangan, pembuatan serta pengujian perangkat lunak. Pada bab ini akan dibahas mengenai analisis dan perancangan pengembangan sistem temu-kembali informasi, sedangkan mengenai implementasi dan pengujian sistem akan dibahas di bab selanjutnya.

3.1 Analisis

Sistem temu-kembali yang akan dibangun merupakan bagian dari sistem pencarian penyimpanan data. Akan tetapi, pada pembahasan analisis dan perancangan serta implementasi dan pengujian pada bab selanjutnya akan lebih diutamakan kepada sistem temu-kembali informasi saja.

Untuk lebih jelasnya mengenai sistem penyimpanan data secara garis besar akan dijelaskan sebagai berikut :

• Sistem penyimpanan data akan menyimpan file dokumen berbasis teks yang dimasukan oleh administrator pada media penyimpanan.

• Dokumen teks akan dikelompokkan menjadi kelompok dokumen sesuai dengan jenis/karakteristiknya. Kelompok dokumen ini selanjutnya akan • Dokumen teks akan dikelompokkan menjadi kelompok dokumen sesuai dengan jenis/karakteristiknya. Kelompok dokumen ini selanjutnya akan

• Informasi mengenai file dokumen (nama dokumen, bagian, letak file, ukuran file, tipe file, dll) akan disimpan ke dalam basis data. Nantinya basis data ini yang akan digunakan dan diakses oleh sistem untuk menampilkan dan

memberikan dokumen (informasi dokumen) kepada pengguna. Pada sistem penyimpanan nantinya akan disimpan file dokumen dengan

format word, pdf, dan excel. Pengguna yang ingin mencari file dokumen dengan informasi tertentu harus mengambil file dokumen tersebut dan membacanya satu per satu untuk mendapatkan dokumen yang cocok dengan informasi yang ingin dicari. Dengan banyaknya dokumen yang disimpan di dalam sistem penyimpanan, maka cara pencarian tersebut akan tidak efektif. Untuk itu dibutuhkan sistem pencarian yang dapat mencari informasi dari isi file dokumen yang disimpan di dalam sistem penyimpanan data.

Sistem pencarian harus dapat membaca dan menganalisis isi informasi yang dimiliki oleh file dokumen yang disimpan. Sistem pencarian juga harus dapat mengurutkan hasil pencarian dokumen berdasarkan keakuratan pencarian informasi dari file dokumen untuk memudahkan pengguna dalam mencari informasi. Sistem pencarian juga harus menyesuaikan dengan struktur data dari sistem penyimpanan yang sudah dibuat.

3.2 Perancangan

Perancangan merupakan tahapan mempelajari dan mengumpulkan kebutuhan perangkat lunak. Analisis kebutuhan menyediakan representasi dari Perancangan merupakan tahapan mempelajari dan mengumpulkan kebutuhan perangkat lunak. Analisis kebutuhan menyediakan representasi dari

Sistem temu-kembali informasi yang akan dibangun menggunakan model ruang vektor (Vector Space Model). Proses utama yang digunakan oleh sistem temu-kembali informasi adalah indexing yang lebih lanjut akan dijelaskan pada tahap perancangan.

Sistem ini nantinya akan dibagi menjadi dua bagian besar, yaitu proses indexing yang berhubungan dengan dokumen-dokumen dan proses query yang berhubungan dengan pengguna. Pengaturan indexing dokumen berbasis teks menjadi kumpulan indeks istilah akan dilakukan oleh administrator. Sedangkan proses query pengguna akan direpresentasikan melalui pengiriman kata kunci berupa teks untuk diproses menjadi query yang dapat digunakan oleh sistem ini untuk mencari informasi di dalam dokumen yang disimpan. Gambaran mengenai sistem temu-kembali informasi pada sistem penyimpanan data dapat dilihat pada Gambar 3.1.

File

Sistem Temu-

Pilihan

User

Kata Kunci

kembali Informasi

Index

Administrator

Informasi Dokumen

Gambar 3.1 Diagram Konteks

Dari diagaram konteks maka dapat diturunkan menjadi Data Flow Diagram (DFD) level 1. DFD adalah sebuah teknik grafis yang menggambarkan aliran data yang bergerak dari input ke output. Selain itu DFD juga menyajikan fungsi-fungsi sistem yang mengolah data input dan menghasilkan data output. Diagram alur data dapat digunakan untuk menyajikan suatu sistem perangkat lunak pada setiap tingkat abstraksi.

Dari bentuk diagram konteks sistem temu-kembali informasi, maka bentuk DFD level 1 dari sistem temu-kembali informasi dapat dilihat pada Gambar 3.2. Pada Gambar 3.2 DFD level 1 dapat dilihat 2 proses utama dalam sistem temu- kembali informasi, yaitu proses Indexing yang diberi nama dengan mesin indeks

In d e k s Is tila h

Teks

1 P ilih a n A d m in is tra to r

M e s in In d e k s

In d e x

dan proses Query yang diberi nama dengan proses cari.

Gambar 3.2 Data Flow Diagram Level 1

3.2.1 DFD Level 1

Pada Gambar 3.2, DFD level 1 memiliki 3 proses yaitu :

1. Mesin Indeks

2. Proses Cari

3. Menampilkan Informasi Data

Proses 1 dan 2 merupakan proses utama yang digunakan untuk sistem temu-kembali informasi, sedangkan proses 3 merupakan bagian dari sistem penyimpanan data. Proses 1 merupakan proses indexing, sedangkan proses 2 merupakan proses querying.

3.2.1.1 Proses 1 Mesin Indeks

Pada proses ini dokumen-dokumen yang sudah disimpan pada sistem akan diproses untuk dijadikan indeks istilah yang akan digunakan dalam proses cari.

Salah satu input dari proses ini merupakan pilihan indeks, yaitu pilihan yang diberikan oleh administrator untuk melaksanakan indeks. Pilihan itu terdiri dari tiga macam, yaitu :

1. Seluruh dokumen, yaitu pilihan bagi administrator untuk mengindeks seluruh dokumen yang disimpan di dalam sistem.

2. Bagian, yaitu pilihan bagi administrator untuk mengindeks seluruh dokumen berdasarkan pada suatu bagian di dalam sistem.

3. Dokumen, yaitu pilihan bagi administrator untuk mengindeks satu atau lebih dokumen tertentu yang terdapat di dalam sistem.

Setelah administrator memilih pilihan indeks, maka sistem akan melakukan pengindeksan berdasarkan pilihan indeks yang dipilih oleh administrator. Selanjutnya dokumen teks sebagai input yang kedua akan diproses menjadi istilah indeks serta dihitung nilai bobotnya, lalu disimpan ke dalam basis data. Proses Setelah administrator memilih pilihan indeks, maka sistem akan melakukan pengindeksan berdasarkan pilihan indeks yang dipilih oleh administrator. Selanjutnya dokumen teks sebagai input yang kedua akan diproses menjadi istilah indeks serta dihitung nilai bobotnya, lalu disimpan ke dalam basis data. Proses

3.2.1.2 Proses 2 Proses Cari

Input pada Proses 1 Proses Cari dari entitas eksternal User adalah kata kunci. Kata kunci ini akan diproses menjadi query untuk mendapatkan dokumen sesuai dengan informasi yang ingin dicari oleh pengguna. Proses pada kata kunci untuk diubah menjadi sebuah query pada sistem temu-kembali informasi juga memiliki beberapa tahapan yang hampir sama dengan pemrosesan teks pada pengindeksan dokumen yaitu parsing, penghilangan stopwords, cek frasa serta fungsi kesamaan untuk mengurutkan dokumen dari bobotnya yang paling besar ke yang paling kecil. Tahap pencarian dokumen menggunakan fungsi kesamaan ruang vektor, yang sudah dibahas pada bab sebelumnya untuk mendapatkan kesamaan dokumen dengan query yang diberikan oleh pengguna.

Dokumen yang terkait

SISTEM OTOMATISASI SONAR (LV MAX SONAR EZ1) DAN DIODA LASER PADA KAPAL SELAM

15 214 17

ANALISIS SISTEM TEBANG ANGKUT DAN RENDEMEN PADA PEMANENAN TEBU DI PT PERKEBUNAN NUSANTARA X (Persero) PABRIK GULA DJOMBANG BARU

36 327 27

ANALISIS KOMPARATIF PENDAPATAN DAN EFISIENSI ANTARA BERAS POLES MEDIUM DENGAN BERAS POLES SUPER DI UD. PUTRA TEMU REJEKI (Studi Kasus di Desa Belung Kecamatan Poncokusumo Kabupaten Malang)

23 307 16

ANALISIS SISTEM PENGENDALIAN INTERN DALAM PROSES PEMBERIAN KREDIT USAHA RAKYAT (KUR) (StudiKasusPada PT. Bank Rakyat Indonesia Unit Oro-Oro Dowo Malang)

160 705 25

i SKRIPSI AKTIVITAS HUMAS DALAM MENJALIN HUBUNGAN DENGAN MEDIA MASSA (Studi pada Perum Bulog Divre NTB Bulan November 2014)

8 126 17

DAMPAK INVESTASI ASET TEKNOLOGI INFORMASI TERHADAP INOVASI DENGAN LINGKUNGAN INDUSTRI SEBAGAI VARIABEL PEMODERASI (Studi Empiris pada perusahaan Manufaktur yang Terdaftar di Bursa Efek Indonesia (BEI) Tahun 2006-2012)

12 142 22

SIMULASI SISTEM KENDALI KECEPATAN MOBIL SECARA OTOMATIS

1 82 1

ANALISIS KELAYAKAN FINANSIAL TERNAK ITIK PETELUR DENGAN SISTEM INTENSIF DAN TRADISIONAL DI KABUPATEN PRINGSEWU

10 119 159

STUDI PERBANDINGAN HASIL BELAJAR DAN KETERAMPILAN PROSES SAINS DITINJAU DARI PENGGUNAAN MODEL PEMBELAJARAN BERBASIS TEKNOLOGI INFORMASI DAN KOMUNIKASI

6 77 70

PENGGUNAAN BAHAN AJAR LEAFLET DENGAN MODEL PEMBELAJARAN THINK PAIR SHARE (TPS) TERHADAP AKTIVITAS DAN HASIL BELAJAR SISWA PADA MATERI POKOK SISTEM GERAK MANUSIA (Studi Quasi Eksperimen pada Siswa Kelas XI IPA1 SMA Negeri 1 Bukit Kemuning Semester Ganjil T

47 275 59