besar dibandingkan dengan istilah yang berada pada description.
Lingkup Implemental
Lingkungan implementasi
yang akan
digunakan adalah sebagai berikut: Perangkat Lunak :
• Sistem operasi Windows XP Professional
• Java 1.6
• Apache Tomcat 6
• MySQL 5
Perangkat Keras : •
Processor Intel dual core 1.6 GB •
RAM 1 GB HASIL DAN PEMBAHASAN
Koleksi Dokumen
Penelitian ini
menggunakan koleksi
dokumen RSS versi 2.0 yang didapatkan dari beberapa situs berita berbahasa Indonesia di
antaranya situs berita Antara, Detik, Kompas, Liputan6, Okezone, dan Tempointeraktif, yang
diunduh pada tanggal 22, 23 dan 27 Agustus 2009. Contoh dari salah satu dokumen RSS
berita dapat dilihat pada Lampiran 1.
Untuk menguji kinerja sistem temu kembali informasi digunakan koleksi dokumen
sebanyak 173 dokumen RSS. Dari 173 dokumen RSS yang dipergunakan hanya 167
dokumen yang terindeks oleh sistem dan diperoleh 1720 buah berita Tabel 3. Hal ini
dikarenakan beberapa dokumen RSS tidak memenuhi aturan penulisan XML yang benar.
Untuk melakukan uji coba, dibentuk daftar pasangan kueri dan jumlah dokumen yang
relevan yang
akan dipergunakan
untuk mengukur
kinerja sistem
temu kembali
informasi yang dibuat. Adapun daftar kueri yang akan diujikan terhadap dokumen dapat
dilihat pada Tabel 4.
Tahap-tahap Penelitian Text Operation
1. Parsing
Dokumen masukan diproses secara sekuensial dan menghasilkan sebuah token.
Proses parsing dilakukan dalam dua tahapan yaitu:
Tabel 3 Situs berita dan jumlah RSS yang diunduh
Situs Berita
Jumlah Dokumen XML
RSS Jumla
h Berita
Antara 27
350 Detik
3 22
Liputan 6 3
30 Kompas
47 666
Okezone 48
306 Tempo
39 346
Total 167
1720
Tabel 4 Daftar kueri untuk pengujian sistem
No Kueri
Dokumen Relevan
1 Kebakaran
7 2
Gempa bumi 5
3 Inter Milan
15 4
Kebakaran hutan 5
5 Nuklir Iran
4 6
Pembunuhan Nasrudin 5
7 Tari pendet
29 8
Virus komputer 6
9 Pemakaman Michael
Jackson 7
10 Pemilu di Afghanistan
7 a. Parsing tahap satu
Proses parsing tahap satu adalah sebagai berikut:
• Dokumen dimuat ke dalam memori, dengan menggunakan JDOM external library yang
digunakan dalam Java, kemudian dilakukan proses pembacaan secara sekuensial untuk
mendapatkan setiap token berita yang ada di dalam dokumen RSS. Sebuah berita dalam
dokumen RSS direpresentasikan dalam sebuah elemen item Gambar 4 sehingga
proses
parsing dilakukan
berdasarkan elemen tersebut untuk mendapatkan berita
yang terdapat pada dokumen RSS.
Gambar 4 Representasi berita dalam dokumen RSS.
• Setiap token berita yang diperoleh dibentuk sebuah identitas yang unik yang akan
digunakan sebagai nama berkas dari token berita tersebut dengan menggunakan teknik
enkripsi MD5. Nama file dan token berita disimpan ke dalam basis data. Hasil dari
proses parsing tahap satu dapat dilihat pada Lampiran 2.
Dari proses parsing tahap satu dihasilkan 1720 berita dari 167 dokumen RSS.
b. Parsing tahap dua Setiap token berita yang diperoleh dari
tahap satu diproses kembali, parsing di sini bertujuan untuk mendapatkan token istilah
satuan perkata dari token berita. Tidak semua informasi yang ada pada
token berita dipergunakan, hanya informasi yang tersimpan dalam elemen title dan
description yang diolah, di mana elemen
title dan description merepresentasikan
judul dan deskripsi berita. Berikut ini adalah proses parsing tahap dua:
• Dengan menggunakan JDOM isi dari
elemen item dan description diambil. •
Proses pengambilan token istilah dengan cara membaca satu persatu karakter. Sebuah
karakter dapat berupa salah satu dari tiga jenis berikut:
o whitespace,
berarti karakter
ini merupakan karakter pemisah token
o alphanumeric,
berarti karakter
ini merupakan huruf atau angka
o other, berarti karakter ini tidak termasuk
jenis-jenis di atas. •
Jika karakter yang ditemukan merupakan huruf atau angka maka karakter tersebut
menjadi karakter pertama dari istilah. •
Karakter-karakter selanjutnya
menjadi bagian
dari istilah
tersebut hingga
ditemukan karakter whitespace atau akhir dari istilah.
Istilah yang didapatkan dari hasil parsing
tahap kedua disebut token istilah, yang kemudian diubah ke dalam bentuk
lower case Ridha 2002.
2. Stemming