3. Fika – Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index

  Vol 2, No 3 Juni 2012

   ISSN 2088-2130 Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index Fika Hastarita Rachman

  Jurusan Teknik Informatika, Fakultas Teknik, Universitas Trunojoyo Madura Jl. Raya Telang PO.BOX 2 Kamal, Bangkalan, Madura 69192 hastarita.fika@gmail.com

  ABSTRAK Pertambahan data setiap tahun untuk dokumen naskah publikasi di salah satu program studi perguruan tinggi menjadi penyebab semakin dibutuhkannya sarana untuk pencarian data yang lebih cepat dan sesuai dengan keinginan pengguna. Pencarian yang telah digunakan masih bersifat word maching berdasarkan kata kunci pada judul ataupun penyusunnya. Hal ini menyebabkan munculnya dokumen yang hanya relevan berdasarkan judulnya atau penyusunnya saja, tetapi tidak berdasarkan isi dari dokumen tersebut. Sehingga banyak dokumen relevan yang tidak terpanggil. Penerapan sistem temu kembali informasi terhadap koleksi dokumen, diharapkan mampu menjawab kebutuhan tersebut. Penelitian ini melakukan kajian penerapan sistem temu kembali informasi dalam mesin pencarian abstrak naskah publikasi dengan menggunakan preprocessing, inverted index, pembobotan tf-idf dan model pencarian ruang vektor. Pada pengujian sistem diperoleh hasil bahwa sistem ini mampu menghasilkan dokumen pencarian dengan tingkat recall sebesar 84,7%, dan precision sebesar 39,7%. Hal ini berarti sistem mampu meningkatkan performa pencarian, terutama untuk hal kelengkapan perolehan dokumen yang diinginkan pengguna.

  Kata kunci : sistem temu kembali informasi, recall, precision ABSTRACT

  Added publication manuscript documents each year in one departement of university is causes of the need to search data more quickly accordance with the user need. Search that has been used is still a word maching based on keywords in the title or composer. This led to the emergence of relevant documents only by their title or composer, but not based on the content of the document.Many relevant documents that not called. Application of information retrieval system on the document collection, expected to answer those needs. This study reviewing the application of information retrieval in search engines publication abstract using preprocessing, inverted index, tf-idf weighted and vector space model. The result of system testing is able to produce a document search with a recall rate of 84.7% and precision of 39.7%. This means that the system can improve the search performance, especially for the completeness acquisition documents of the user's need.

  Keywords: information retrieval system, recall, precision.

  PENDAHULUAN

  retrieval dan browsing. Kedua istilah itu sama-

  Proses yang dilakukan Sistem Temu Kembali Informasi secara umum terlihat pada Gambar 1. Pada gambar terlihat adanya beberapa tahapan proses yang akan dilalui mulai dari query pengguna sampai dengan hasil keluaran sistem.

  Gambar 1. Interaksi pengguna dengan Sistem Temu Kembali Informasi

  saling terkait dalam penggunaannya. Proses menghasilkan dokumen sesuai dengan query dari pengguna inilah yang disebut proses temu kembali informasi [3].

  page melalui query. Retrieval dan browsing dapat

  Sedangkan data atau informasi retrieval adalah proses mencari informasi yang dimiliki suatu web

  Browsing adalah proses mencari informasi dari satu link ke link lainnya.

  sama menghasilkan suatu informasi dan biasanya dilakukan pada antarmuka web, tetapi berbeda proses.

  Di dunia informasi terdapat beberapa cara yang dapat dilakukan untuk proses pencarian dokumen. Gambar 2.1 mengilustrasikan interaksi pengguna dalam menemukan suatu informasi yang diinginkan. Terdapat 2 (dua) istilah yang biasanya dilakukan, yaitu data atau informasi

  Seiring bertambahnya tahun, semakin banyak lulusan S2 dan semakin banyak pula Naskah Publikasi yang dihasilkan. Saat ini, beberapa Program Studi memiliki sarana untuk mempublikasikan Naskah Publikasi tersebut secara onlineSetelah menganalisa beberapa

  Sistem Temu Kembali Informasi

  Teori yang digunakan adalah teori Processing, Stemming Bahasa Indonesia, Model Pencarian Ruang Vektor dan Pengukuran Performa Sistem.

  Dasar Teori

  Sehingga pada penelitian ini dilakukan analisa terhadap sistem temu kembali informasi yang dibuat dengan model inverted index, model pencarian ruang vektor dengan adanya stemming. Mengacu pada keakuratan hasil penelitian terdahulu [2], maka algoritma stemming yang digunakan adalah algoritma stemming Nazief Andriani.

  Sistem Temu Kembali Informasi terdiri dari beberapa sub bagian untuk menjalankan tugasnya. Dan masing-masing bagian memiliki beberapa model. Untuk model pencarian terdapat model klasik dan model terstruktur. Model klasik terdiri dari model teoritis (model boolean), model algebraic (model ruang vektor), dan probabilistik. Dengan adanya model-model tersebut, muncul pertanyaan penelitian: apakah stemming juga berpengaruh terhadap performa sistem dengan model pencarian ruang vektor diukur dari recall dan precision.

  Sistem Temu Kembali Informasi dalam mesin pencarian dokumen mampu menghasilkan dokumen dengan tingkat relevansi yang tinggi. Adanya penelitian mengenai peningkatan performa Sistem Temu Kembali Informasi melalui stemming, menjadi salah satu objek penelitian. Pengaruh stemming Bahasa Indonesia terhadap peningkatan nilai recall hasil pencarian sistem temu kembali informasi dengan menggunakan mesin pencarian zettair telah dilakukan dan menghasilkan nilai recall yang tinggi [1]. Dalam proses pencariannya, Zettair menggunakan model pencarian boolean.

  yang digunakan pada sistem terkomputerisasi tersebut masih bersifat data retrieval, dalam artian pencariannya masih terbatas menggunakan kata kunci (keyword) berdasarkan subyek, judul atau penyusun dari setiap dokumen. Pencarian tersebut memiliki kelemahan, yaitu dokumen yang dihasilkan dari pencarian terkadang tidak sesuai dengan yang diinginkan pengguna.

  online library diperoleh hasil bahwa pencarian

  Vol 2, No 3 Juni 2012 Gambar 2. Tahapan proses sistem temu kembali informasi [3]

  Proses retrieval merupakan proses kompleks yang dapat dibagi menjadi subproses. Terdapat dua buah alur operasi pada sistem temu kembali informasi. Alur pertama dimulai dari koleksi dokumen dan alur kedua dimulai dari query yang dimasukkan pengguna dalam sistem. Alur yang pertama tidak tergantung pada alur kedua, pemrosesan koleksi dokumen dilakukan sampai menghasilkan basis data indeks. Sedangkan alur kedua tergantung pada basis data indeks hasil pemrosesan yang pertama.

  Sistem temu kembali informasi secara umum terdiri dari 2 (dua) tahapan besar yaitu

  indexing dan pencarian. Setelah menghimpun

  dokumen (dalam hal ini naskah publikasi dalam bentuk pdf dan abstrak dalam bentuk text) akan dilakukan proses preprocessing dilanjutkan dengan proses indexing, yaitu membangun suatu daftar indeks (inverted index).

  Kemudian dilakukan proses pembobotan terhadap indeks tersebut. Term indeks dan bobot disimpan untuk selanjutnya diproses mencari kemiripan vektor dengan kata kunci yang dihasilkan dari proses indexing query. Hasil perhitungan kemiripan diranking untuk dikembalikan kepada pengguna. Rancangan arsitektur sistem untuk sistem temu kembali informasi terlihat pada Gambar 3. Dalam hal ini proses tokenisasi (tokenization), penghilangan

  stopword, stemming dan indexing masuk kedalam tahapan preprocessing.

  Dari arsitektur sistem secara keseluruhan, terdapat bagian yang digambarkan detail dalam bentuk flowchart, yaitu proses preprocessing (tokenisasi, stemming , inverted index , pembobotan tf-idf) dan proses pencarian menggunakan model pencarian ruang vektor /

  VSM (Vektor Space Model). Terdapat beberapa proses dalam pengolahan data abstrak dokumen. Proses penghilangan tanda baca menjadi spasi adalah proses penting, karena dalam pencarian tanda baca tidak digunakan. Proses tokenisasi juga harus dilakukan, sebab dalam proses ini dihasilkan token-token yang nantinya digunakan sebagai inputan dalam proses selanjutnya.

  Dalam proses tokenisasi, data abstrak yang berbentuk teks dipisah dengan pemisah spasi menjadi term-term yang akan diolah selanjutnya. Penghilangan stopword dilakukan ketika termnya memiliki bentuk yang sama dengan list term stopword pada korpus stopword.

  Term yang tidak terkena proses stopword akan

  masuk dalam tahapan stemming, inverted index dan pembobotan tf-idf.

  Fika Hastarita Rachman, Sistem Temu Kembali...

  Vol 2, No 3 Juni 2012

Gambar 3. Rancangan arsitektur sistem temu kembali informasi

  Dan untukkonfiks (awalan-akhiran), terdiridari:

  

Pre Processing ke - an, ber - an, pe - an, peng - an, peny - an,

  Proses text operation sebagai pem - an, per - an, se

  • – nya. Dalam penulisannya

  

Preprocessing, karena dilakukan sebelum proses juga terdapat infiks (sisipan), reduplikasi dan

utama temu kembali informasi dilakukan [4]. kata-kata majemuk yang berafiks [7].

  Tujuan dari preprocessing adalah mengoptimalkan performa dari analisis data. Algoritma Nazief dan Adriani [1], memiliki Analisis data sangat bergantung pada tahap-tahap sebagai berikut:

  preprocessing dan model representasi data. Ini 1. Cari kata yang akan distem dalam kamus.

  adalah langkah yang paling penting sebelum Jika ditemukan maka diasumsikan bahwa menyimpan representasi dokumen untuk kata tesebut adalah root word. Maka mengukur kemiripan. algoritma berhenti.

  Dalam preprocessing terdapat beberapa

  2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “- proses yang menggunakan istilah-istilah dalam mu”, atau “-nya”) dibuang. Jika berupa system temu kembali informasi. Diantaranya particles

  (“-lah”, “-kah”, “-tah” atau “-pun”)

  

stopword dan stemming. Stopwords adalah kata maka langkah ini diulangi lagi untuk

  umum (common words) yang biasanya muncul menghapus Possesive Pronouns (“-ku”, “- dalam jumlah besar dan dianggap tidak memiliki mu”, atau “-nya”), jika ada. makna [5]. Sedangkan stemming adalah proses

  3. Hapus Derivation Suffixes (“-i”, “-an” atau “- untuk memecah setiap kata menjadi suatu bentuk kan”). Jika kata ditemukan di kamus, maka kata dasar. Stem(akar kata) adalah bagian dari algoritma berhenti. Jikatidakmakakelangkah kata yang tersisa setelah dihilangkan imbuhan 3a (awalan dan akhiran) dan sisipannya. Sebelum a.

  Jika “-an” telah dihapus dan huruf dilakukan proses pembuangan stopwords , terakhir dari kata tersebut adalah “-k”, dilakukan proses case folding, yaitu pengubahan maka “-k” juga ikut dihapus. Jika kata semua huruf dalam dokumen menjadi huruf kecil tersebut ditemukan dalam kamus maka [6]. algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.

  Stemming Bahasa Indonesia b.

  Akhiran yang dihapus (“-i”, “-an” atau “- Ada banyak ragam pembentukan kata dalam kan”) dikembalikan, lanjut langkah 4. Bahasa Indonesia. Sebagian besar kata dibentuk

  4. Hapus Derivation Prefix. Jika pada langkah 3 dengan cara menggabungkan beberapa ada sufiks yang dihapus maka pergi ke komponen yang berbeda. Afiks (imbuhan) akan langkah 4a, jika tidak pergi ke langkah 4b. mengubah makna dan pembentukan kata. Prefiks

  a. Periksa tabel kombinasi awalan-akhiran (awalan) melekat di awal kata dasar, diantaranya: yang tidak diijinkan. Jika ditemukan ber-, di-, ke-, me-, pe-, se-, ter-. Awalan yang maka algoritma berhenti, jika tidak pergi mengalami peluluhan: meng-, mem-, meny-, per-, ke langkah 4b. pem-, peng-, peny-. Untuk sufiks (akhiran),

  b. For i = 1 to 3, tentukan tipe awalan terdiri dari: -an, -kan, -i, -pun, -lah, -kah, -nya. kemudian hapus awalan. Jika root word

  Fika Hastarita Rachman, Sistem Temu Kembali...

  belum juga ditemukan lakukan langkah

  6. Jika semua langkah telah selesai tetapi tidak 5, jika sudah maka algoritma berhenti. juga berhasil maka kata awal diasumsikan Catatan: jika awalan kedua sama dengan sebagai root word. Proses selesai.

  5. Melakukan recoding.

  

Tabel 1. Kombinasi awalan akhiran yang tidak diijinkan

Tabel 2. Aturan tipe awalan untuk kata yang diawali dengan “Te-“

Tabel 3. Jenis awalan berdasarkan tipe awalannya

  Model Ruang Vektor

  Model vektor adalah teknik standart dari sistem temu kembali informasi dimana dokumennya direpresentasikan dalam kata yang terkandung didalamnya. Model ruang vektor dibuat oleh Gerard Salton pada tahun 1960-an, model ini menkonversi teks dalam bentuk matrik

  Gambar 4. Tampilan ruang vektor dari dokumen dan

  dan vektor, kemudian digunakan teknik analisis

  query

  matrik untuk menemukan relasi dan kunci dari koleksi dokumen yang sesuai dengan query yang Kesamaan antar dokumen dapat diukur dibutuhkan pengguna [8]. Representasi dokumen dengan fungsi similaritas (mengukur kesamaan) dan query dalam bentuk vektor dapat terlihat atau fungsi jarak(mengukur ketidaksamaan). pada Gambar 4. Salah satu ukuran kemiripan teks yang populer

  [9] adalah cosine similarity. Ukuran ini menghitung nilai cosinus sudut antara dua vektor. Jika terdapat dua vektor dokumen dj dan queryq, serta t term diekstrak dari koleksi dokumen maka nilai cosinus antara dj dan q didefinisikan

  Vol 2, No 3 Juni 2012

  sebagai: t

  ( w . w ) ij iq jd . q i 1 similarity ( d j , q )   j t t Parameter ini menunjukkan tingkat d . q 2 2 w . w ij iq keberhasilan mengenali suatu event dari

    i 1 i 1 seluruh event yang seharusnya dikenali.

  Pengukuran Performa Sistem

  Nilai performansi sistem temu kembali informasi menunjukkan keberhasilan dari suatu sistem dalam mengembalikan informasi yang dibutuhkan oleh user . Pengukuran yang

  METODE

  seringkali digunakan untuk mengukur performa kerja sistem temu kembali informasi adalah Jalan penelitian yang dilakukan meliputi 5 recall dan precision. tahapan yaitu tahap 1 pemahaman awal, tahap 2 perancangan sistem, tahap 3 pembuatan sistem,

  1. Precision (ketepatan) tahap 4 pengujian sistem, dan tahap 5 adalah Parameter ini menunjukkan tingkat ketepatan dokumentasi. Gambaran detail alurnya terlihat hasil pencarian terhadap suatu event. pada diagram alir pada Gambar 5.

  

Gambar 5.Alur metodologi penelitian Dari analisa sistem diketahui terdapat beberapa masalah yang nantinya digunakan adalah:  Adanya dokumen tesis yang semakin bertambah setiap tahunnya sehingga dibutuhkan sistem pencarian dengan performa yang baik.  Kurang optimalnya penggunaan website referensi bagi pengguna perpustakaan jurusan dari sisi pencarian dokumen yang dibutuhkan.

  Dengan dukungan fasilitas website referensi, sumber daya yang dapat mengoperasikan komputer dengan baik (admin perpustakaan), dan sumber data digital yang ada, maka muncul peluang pengembangan sistem sekarang ke sistem baru melalui pembuatan mesin pencarian data digital dokumen dengan model sistem temu kembali informasi. Yang dijadikan sebagai sumber data digitalnya adalah data Tesis S2 salah satu perguruan tinggi negeri. Pengguna yang terlibat adalah pengguna umum sebagai pencari data dan administrasi perpustakaan yang berfungsi untuk manage data. Gambaran umum sistem secara keseluruhan terlihat pada Gambar 6.

  Admin  Dapat login dan logout dalam sistem  Dapat merubah password  Dapat menambahkan dokumen baru  Dapat mengedit info dokumen yang sudah ada  Dapat menghapus dokumen Anggota  Dapat melakukan pencarian dokumen  Dapat membuka/mendownload dokumen yang dipilih dari daftar dokumen hasil pencarian Pengguna Umum  Dapat melakukan pencarian dokumen

  Fika Hastarita Rachman, Sistem Temu Kembali...

  1. Tidak adanya algoritma untuk mengatasi suatu kata yang bersisipan, seperti: ‟kinerja‟

  Hasil ujicoba algoritma stemming membuktikan bahwa algoritma stemming Nazief- Adriani, memiliki beberapa kelemahan.Diantaranya:

  adalah list stopword hasil penelitian Fadilah Z.Tala, sebanyak 364 kata.

  stopword. data yang digunakan sebagai korpus

  Pada ujicoba proses stopword removal, proses berjalan lancar. Terbukti dengan adanya penghapusan kata yang sama dengan list

  Terdapat beberapa ujicoba yang dilakukan terhadap 100 dokumen abstrak naskah publikasi Tesis dengan 12 variasi query pencarian. Dalam ujicoba proses tokenisasi (tokenization), terdapat hasil tokenisasi berupa kata yang disimpan dalam suatu array dan telah terdefinisi pada program. Tokenisasi untuk naskah dokumen dilakukan pada saat dokumen mengalami proses penyimpanan ke dalam database .

  Tabel 4. Daftar Kebutuhan Pengguna Aktor Requirement

  Gambar 6. Gambaran umum sistem pencarian dokumen

  Kelengkapan fitur dalam sistem didukung oleh adanya kebutuhan pengguna dalam melakukan hal-hal tertentu. Daftar kebutuhan pengguna terlihat pada Tabel 4. Dalam tabel tersebut diuraikan kebutuhan-kebutuhan yang diinginkan oleh aktor pengguna sistem.

  4. Sistem harus memiliki fasilitas download dokumen hasil pencarian bagi anggota.

  3. Sistem harus mampu melakukan pembobotan/perankingan hasil dokumen

HASIL DAN PEMBAHASAN

  2. Sistem harus memiliki fasilitas input query dengan Bahasa Indonesia dan mampu untuk melakukan pencarian dokumen yang ada dalam koleksi dokumen.

  penghilangan stopword, dan stemming) data dokumen dalam bentuk digital untuk menghasilkan data indeks.

  preprocessing (case folding, tokenisasi,

  1. Sistem harus mampu melakukan

  Setelah dilakukan analisa sistem sebelumnya dan kelayakan sistem digunakan, maka terlihat bahwa dalam pembuatannya nanti diharapkan sistem memiliki kemampuan:

  2. Tidak adanya algoritma untuk mengatasi suatu kata yang imbuhannya meluluh, seperti: „pengembangan‟, „penerapan‟, „pemasaran‟

  Dengan adanya kendala tersebut,

  term /bentuk dasar yang dihasilkan proses ini belum kesemuanya berbentuk kata dasar.

  Setelah dilakukan ujicoba sistem secara keseluruhan dengan 100 dokumen abstrak dan 12 query pencarian diperoleh jumlah dokumen terambil dan dokumen relevan yang berbeda

  Tabel 5. Query pencarian ujicoba sistem Kode Isi Query Pencarian

  Q1 kepuasan pelanggan terhadap aplikasi Q2 aplikasi mobile dengan wireless Q3 Sistem jaringan computer Q4 pengolahan sinyal digital Q5 pengenalan sinyal suara dengan fuzzy Q6 evaluasi kegunaan SIAK Q7 evaluasi kinerja Q8 pendukung keputusan universitas Q9 Citra satelit Q10 evaluasi kesuksesan administrasi

  Q11 penggunaan aplikasi pemerintahan Q12 analisa manfaat terhadap masyarakat

  Hasil ujicoba proses inverted index dan pembobotan tf-idf berlangsung dengan baik, sesuai dengan prosedur dalam perancangan. hasil 7299 index dan 2883 term. Nilai precision rata-rata yang dihasilkan adalah 0,397 dan nilai

  recall rata-rata yang dihasilkan adalah 0,847.

  Grafik pada Gambar 7 menunjukkan bahwa ada perbedaan jumlah dokumen yang terambil pada sistem menggunakan stemming dan dokumen yang relevan dengan keinginan pengguna pada tiap-tiap query pencarian.

  Vol 2, No 3 Juni 2012

80 Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10 Q11 Q12

  30

  40

  50

  60

  70

  Indeks Query J um la h da ta Relevan Terambil Terambil Relevan

  

Gambar 7. Grafik perbandingan dokumen relevan terambil pada sistem

  Dari hasil pengujian diketahui bahwa rata-rata waktu pencarian adalah ±20 detik. Setelah dianalisa dengan melakukan perhitungan nilai big O maka diperoleh hasil bahwa sistem memiliki nilai pertumbuhan data yang sebanding dengan nilai kuadratik jumlah dari token yang akan diproses. Dengan kata lain perhitungan big O nya adalah O(n 2 ), dengan n adalah jumlah token yang digunakan. Token adalah hasil dari proses tokenisasi yang masukannya berupa data dokumen teks.

  Sehingga secara tidak langsung nilai kompleksitas waktu dari algoritma yang

  10

  20 digunakan sebanding dengan jumlah dokumen yang digunakan. Semakin banyak dokumen koleksi, maka semakin besar pula nilai

  Kata-kata dalam list stopword juga berpengaruh terhadap hasil pencarian. Hal ini terbukti ketika kata ‟sistem‟ dijadikan masukan, maka hasil keluaran adalah banyak dokumen, sehingga berpengaruh juga terhadap pengukuran

  precision . Gambar 8 menggambarkan tampilan

  utama sistem pencarian yang berbasis sistem Terlihat fitur yang diberikan hanya fitur pencarian dan info-info umum.

  

Gambar 8. Tampilan bagi pengguna umum

  Sedangkan tampilan utama untuk aktor admin tersedia beberapa fitur sesuai dengan fungsi dan kerja dari aktor tersebut, diantaranya: fitur tambah dokumen koleksi, list untuk naskah tesis, pencarian dokumen, tambah anggota dan lainnya.

  SIMPULAN

  1. Model sistem temu kembali informasi dengan penggunaan stemming, dan pencarian ruang vector, serta inverted index mampu menghasilkan dokumen yang dibutuhkan pengguna.

  2. Penggunaan algoritma stemming dapat mempengaruhi nilai similarity vector yang diperoleh. Untuk penggunaan algoritma Nazief Adriani dalam sistem ini, diperoleh pengukuran recall (kelengkapan) sebesar 84,7% dan precision sebesar 39,7%. Hal ini berarti system mampu meningkatkan performa pencarian, terutama untuk hal kelengkapan perolehan dokumen yang diinginkan pengguna berdasarkan query yang dimasukkan.

  SARAN

  Dalam pengembangan sistem selanjutnya diharapkan pengembang sistem mampu mengembangkan system ke arah yang lebih luas lagi.

  1. Dalam proses pencarian Sistem Temu Kembali Informasi dibuat adanya klustering, sehingga hasil pencariannya lebih optimal dengan stopword list yang semakin luas sesuai dengan bidang dalam dokumen koleksi

  2. Penggunaan stemming untuk dua atau lebih bahasa dalam penerapan Sistem Temu Kembali Informasi (misal: Inggris dan Indonesia), sehingga dokumen yang dijadikan korpus lebih luas.

  3. Adanya proses kesamaan term, antara term yang dijadikan query dengan beberapa term yang memiliki arti yang sama, semisal: cinta Fika Hastarita Rachman, Sistem Temu Kembali... dengan love sehingga dapat meningkatkan performa pencarian

  4. Adanya penelitian mengenai peningkatan performa kinerja Sistem Temu Kembali Informasi

  , “Clustering Berita Berbahasa Indonesia”, KNSI, 2008. [7] Anonymous, Kamus Elektronik Indodic,

  Vol 2, No 3 Juni 2012

  36 No.4, Desember, 2007.

  Similarity Predicates”, Sigmod Record, Vol.

  [9] Sandeep, T., Patel M., Jignesh, “ Estimating the Selectivity of tf-idf based Cosine

  Computer Science and Network Security, 2007.

  ”, IJCSNS International Journal of

  “Modified Vector Space Model for Protein Retrieval

  URL: Tanggal akses: 28 April 2011. [8] Said, A., Mohammad, A., Rosni, N, Aini,

  Pembentukan Kata-kata Bahasa Indonesia,

  . URL : Tanggal akses: 14 Maret 2011. [6] Wibisono, Y., Khondra, A.

  5. Adanya penelitian dengan menggunakan algoritma stemming yang kompleks, yang mampu mengenali bentuk-bentuk kata berimbuhan, bersisipan, mengalami peluluhandan kata majemuk

  Indonesia

  2005. [5] Yudi, 2008, Stopword Untuk Bahasa

  Clustering and Neural Network Clustering for Suggestion Supervisitors and Examiners”,

  , “An Analysis of Hierarchical

  [4] Nisa, N.

DAFTAR PUSTAKA

  [3] Ricardo Y. B., Berthier Ribeiro N.B, “Modern Information Retrieval”, ACM Press, New York, 1999.

  A. , “Perbandingan Algoritma Stemming Porter dengan Algoritma Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia “, Konferensi nasional Sistem dan Informatika , Bali, 2009.

  [2] Lady,

  Artikel ACM Transactions on Asian Language Information Processing, Vol.6, No.4, Artikel 13, Desember 2007.

  [1] Mirna. A, Asian, J., Bobby N., Tahagoghi W., Hugh E., “Stemming Indonesian: A Confix- Stripping Approach”,