Parsing Information Retrieval for RSS News Document in Bahasa Indonesia.

besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : • Sistem operasi Windows XP Professional • Java 1.6 • Apache Tomcat 6 • MySQL 5 Perangkat Keras : • Processor Intel dual core 1.6 GB • RAM 1 GB HASIL DAN PEMBAHASAN Koleksi Dokumen Penelitian ini menggunakan koleksi dokumen RSS versi 2.0 yang didapatkan dari beberapa situs berita berbahasa Indonesia di antaranya situs berita Antara, Detik, Kompas, Liputan6, Okezone, dan Tempointeraktif, yang diunduh pada tanggal 22, 23 dan 27 Agustus 2009. Contoh dari salah satu dokumen RSS berita dapat dilihat pada Lampiran 1. Untuk menguji kinerja sistem temu kembali informasi digunakan koleksi dokumen sebanyak 173 dokumen RSS. Dari 173 dokumen RSS yang dipergunakan hanya 167 dokumen yang terindeks oleh sistem dan diperoleh 1720 buah berita Tabel 3. Hal ini dikarenakan beberapa dokumen RSS tidak memenuhi aturan penulisan XML yang benar. Untuk melakukan uji coba, dibentuk daftar pasangan kueri dan jumlah dokumen yang relevan yang akan dipergunakan untuk mengukur kinerja sistem temu kembali informasi yang dibuat. Adapun daftar kueri yang akan diujikan terhadap dokumen dapat dilihat pada Tabel 4. Tahap-tahap Penelitian Text Operation

1. Parsing

Dokumen masukan diproses secara sekuensial dan menghasilkan sebuah token. Proses parsing dilakukan dalam dua tahapan yaitu: Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita Jumlah Dokumen XML RSS Jumla h Berita Antara 27 350 Detik 3 22 Liputan 6 3 30 Kompas 47 666 Okezone 48 306 Tempo 39 346 Total 167 1720 Tabel 4 Daftar kueri untuk pengujian sistem No Kueri Dokumen Relevan 1 Kebakaran 7 2 Gempa bumi 5 3 Inter Milan 15 4 Kebakaran hutan 5 5 Nuklir Iran 4 6 Pembunuhan Nasrudin 5 7 Tari pendet 29 8 Virus komputer 6 9 Pemakaman Michael Jackson 7 10 Pemilu di Afghanistan 7 a. Parsing tahap satu Proses parsing tahap satu adalah sebagai berikut: • Dokumen dimuat ke dalam memori, dengan menggunakan JDOM external library yang digunakan dalam Java, kemudian dilakukan proses pembacaan secara sekuensial untuk mendapatkan setiap token berita yang ada di dalam dokumen RSS. Sebuah berita dalam dokumen RSS direpresentasikan dalam sebuah elemen item Gambar 4 sehingga proses parsing dilakukan berdasarkan elemen tersebut untuk mendapatkan berita yang terdapat pada dokumen RSS. Gambar 4 Representasi berita dalam dokumen RSS. • Setiap token berita yang diperoleh dibentuk sebuah identitas yang unik yang akan digunakan sebagai nama berkas dari token berita tersebut dengan menggunakan teknik enkripsi MD5. Nama file dan token berita disimpan ke dalam basis data. Hasil dari proses parsing tahap satu dapat dilihat pada Lampiran 2. Dari proses parsing tahap satu dihasilkan 1720 berita dari 167 dokumen RSS. b. Parsing tahap dua Setiap token berita yang diperoleh dari tahap satu diproses kembali, parsing di sini bertujuan untuk mendapatkan token istilah satuan perkata dari token berita. Tidak semua informasi yang ada pada token berita dipergunakan, hanya informasi yang tersimpan dalam elemen title dan description yang diolah, di mana elemen title dan description merepresentasikan judul dan deskripsi berita. Berikut ini adalah proses parsing tahap dua: • Dengan menggunakan JDOM isi dari elemen item dan description diambil. • Proses pengambilan token istilah dengan cara membaca satu persatu karakter. Sebuah karakter dapat berupa salah satu dari tiga jenis berikut: o whitespace, berarti karakter ini merupakan karakter pemisah token o alphanumeric, berarti karakter ini merupakan huruf atau angka o other, berarti karakter ini tidak termasuk jenis-jenis di atas. • Jika karakter yang ditemukan merupakan huruf atau angka maka karakter tersebut menjadi karakter pertama dari istilah. • Karakter-karakter selanjutnya menjadi bagian dari istilah tersebut hingga ditemukan karakter whitespace atau akhir dari istilah. Istilah yang didapatkan dari hasil parsing tahap kedua disebut token istilah, yang kemudian diubah ke dalam bentuk lower case Ridha 2002.

2. Stemming