Parsing Stemming Information Retrieval for RSS News Document in Bahasa Indonesia.

berbagai tingkat recall, biasanya digunakan sebelas tingkat recall standar yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. Adakalanya tingkat recall yang diperoleh tiap kueri berbeda dengan sebelas tingkat recall standar yang ada. Untuk kasus yang seperti ini dibutuhkan prosedur interpolasi. Jika j r , } { 10 ,..., 2 , 1 , ∈ j adalah tingkat recall standar ke- j maka : 1 max + ≤ ≤ = j r r j r j r P r P , dengan demikian, precision interpolasi pada tingkat recall standar ke-j adalah precision tertinggi pada setiap tingkat recall antara j hingga 1 + j Baeza-Yates Ribeiro-Neto 1999. Hash Function Hash function adalah suatu metode yang digunakan untuk mengubah data yang ada menjadi sebuah bilangan yang relatif kecil small number yang akan menjadi “sidik jari” fingerprint dari data terebut. Fungsi ini memecah dan mengolah data untuk menghasilkan kode atau nilai hash-nya. Nilai dari suatu fungsi hash akan memiliki panjang yang tetap untuk masukan dengan panjang yang sembarang. Secara umum, fungsi hash memiliki beberapa sifat utama, yaitu : fungsi satu arah, artinya untuk suatu nilai fungsi hash y, sulit menemukan nilai input x yang memenuhi persamaan Hx=y, dan collision freeresistant, artinya sulit untuk menemukan 2 buah nilai input yang memunyai nilai fungsi hash yang sama. Salah satu fungsi hash yang banyak digunakan adalah Message Digest 5 MD5. Algoritme MD-5 secara garis besar adalah mengambil pesan yang memunyai panjang variabel diubah menjadi ‘sidik jari’ atau ‘intisari pesan’ yang memunyai panjang tetap yaitu 128 bit. METODE PENELITIAN Koleksi Dokumen Dokumen berita yang akan digunakan pada penelitian berasal dari beberapa situs berita di Indonesia seperti Antara, Detik, Liputan 6, Kompas, Okezone, dan Tempo. Data yang digunakan adalah data dengan format RSS versi 2.0. Pemilihan ukuran kesamaan Beberapa ukuran kesamaan yang dapat digunakan dalam VSM di antaranya inner product , cosine, dice, jaccard, overlap dan asymmetric . Pada penelitian yang dilakukan oleh Rorvig 1999, dibandingkan lima ukuran kesamaan cosine, dice, jaccard, overlap, dan asymetric hasil uji menunjukkan bahwa ukuran kesamaan cosine dan overlap memiliki kinerja temu kembali yang lebih baik dibanding yang lain. Hasil penelitian yang dilakukan oleh Rahman 2006 yang melakukan perbandingan kinerja empat ukuran kesamaan cosine, dice, jaccard, dan overlap, hasil uji menunjukkan bahwa ukuran kesamaan cosine memberikan kinerja temu kembali yang lebih baik dibandingkan dengan tiga ukuran kesamaan lainnya. dice dan jaccard tidak jauh berbeda sedangkan overlap memiliki kinerja yang paling rendah. Merujuk kepada hasil kedua penelitian tersebut maka ukuran kesamaan yang akan digunakan dalam penelitian ini adalah ukuran cosine . Tahap-tahap Penelitian Gambar 1 menunjukkan gambaran sistem secara umum yang akan dibuat dalam penelitian ini Gambar 1 Sistem temu kembali informasi Baeza Ribeiro 1999. Tahapan-tahapan yang dilakukan dalam penelitian ini adalah : Text operation Proses yang dilakukan dalam text operation adalah proses parsing dan stemming.

1. Parsing

Parsing dilakukan dengan pengambilan token dari dokumen RSS dengan menggunakan XML Parser. Pada proses ini yang termasuk ke dalam stoplist daftar kata-kata buangan akan diabaikan. Parsing dilakukan dalam dua tahap yaitu : • Parsing tahap satu Parsing pada tahap satu bertujuan untuk mengambil dan memisahkan setiap berita menjadi token berita. Setiap token berita dalam dokumen RSS direpresentasikan dalam elemen item. Untuk mencegah adanya duplikasi berita maka digunakan hash function MD5 yang bertujuan untuk menghasilkan identitas yang unik untuk setiap token berita berdasarkan isi dari token tersebut. • Parsing tahap dua Parsing tahap dua bertujuan untuk parsing isi token berita yang didapat dari proses parsing tahap satu. Pada tahapan ini dilakukan parsing terhadap isi dari setiap token berita sehingga dihasilkan token istilah. Token istilah beserta identitas token berita digunakan dalam proses indexing .

2. Stemming

Stemming adalah proses pemotongan kata untuk mengembalikan kata ke bentuk dasarnya sehingga dapat meningkatkan hasil recall. Algoritme stemmer yang digunakan dalam penelitian ini diadopsi dari Tala stemmer. Tala stemmer memodifikasi algoritme Porter stemmer untuk bahasa Indonesia. Selain menggunakan daftar imbuhan dan aturan yang ada pada Tala stemmer, pada penelitian ini dilakukan penambahan aturan pemotongan dan imbuhan yang dapat dilihat pada Tabel 1 dan 2. Bahasa Indonesia memiliki Struktur morfologi sebagai berikut: [prefiks1] + [prefiks2] + kata dasar + [sufiks] + [kata ganti kepunyaan] + [partikel] dengan tanda [ ] menunjukkan pilihan. Struktur tersebut dapat digunakan sebagai panduan dalam proses stemming. Desain dasar dari proses stemming dapat dilihat pada Gambar 2. Pemotongan kata dilakukan dengan menghilangkan partikel, kata ganti kepunyaan, prefiks awalan, infiks sisipan, sufiks akhiran, dan konfiks gabungan antara prefiks dan sufiks. Hanya saja pemotongan imbuhan yang berupa sisipan sulit dilakukan untuk itu dalam penelitian ini sisipan atau infiks diabaikan. Daftar imbuhan dapat dilihat pada Tabel 1, sedangkan aturan pemotongan imbuhan dapat dilihat pada Gambar 3. Tabel 1 Daftar imbuhan untuk proses stemming hasil adopsi Tala stemmer Tabel 2 Penambahan aturan pemotongan imbuhan Imbuhan Penambahan Aturan C men dan pen V + t C V V + k meng dan peng e - “e” Gambar 2 Desain dasar dari Tala stemmer untuk bahasa Indonesia Tala 2003. Imbuhan Porter Stemmer tambahan Partikel kah, lah, pun, tah Kata ganti kepunyaan ku, mu, nya Sufiks kan, an, i Prefiks be, di, ke, me, pe, bel, ber, mem, men, pel, per, pem, pen, ter, meng, meny, peng, peny se Sebagaimana algoritme Tala, digunakan suatu fungsi penghitung ukuran kata untuk mencegah stemming menghasilkan stem yang terlalu pendek. Diasumsikan minimal stem hasil berukuran dua kecuali jika token berukuran kurang dari dua. Jumlah vokal dalam kata akan digunakan sebagai penentu ukuran kata kecuali kata-kata tanpa vokal yang terdiri atas tiga karakter atau lebih dianggap memiliki ukuran dua untuk mengakomodasi singkatan yang hanya terdiri atas konsonan Ridha 2002. Selain menggunakan daftar imbuhan proses stemming dalam penelitian ini menggunakan aturan gugus konsonan dalam proses pemotongannya, serta menggunakan kamus kata dasar bahasa Indonesia untuk melakukan pemeriksaan apakah kata yang dihasilkan merupakan kata dasar atau bukan. Gambar 3 Lima aturan pemotongan imbuhan Tala 2003. Indexing Pada tahapan ini dibangun sebuah indeks kata dari hasil text operation , dengan menggunakan teknik inverted index. Searching Proses pencarian kueri dilakukan dengan menghitung tingkat relevansi kueri dengan dokumen yang ada. Algoritme pencarian yang digunakan pada inverted index adalah Vocabulary search, yaitu kueri dicari di dalam perbendaharan kata yang terdapat pada indeks. Hal yang perlu ditekankan adalah kueri harus dipisahkan per kata parsing. Ranking Pada tahapan ini dilakukan pengurutan dokumen berdasarkan tingkat relevansi antara kueri dan dokumen. User Interface Perancangan dan pembuatan user interface dari sistem yang akan menjembatani pengguna dengan sistem itu sendiri. Evaluasi Sistem Evaluasi dilakukan dengan mengukur kinerja temu kembali dengan menggunakan pendekatan recall–precission. Sistem akan mengembalikan daftar dokumen terurut menurun berdasarkan hasil fungsi kesamaan kueri dan dokumen . Batasan dan asumsi Batasan dan asumsi yang akan digunakan dalam penelitian ini adalah sebagai berikut : 1. Dokumen dan kueri menggunakan karakter ASCII. 2. Dokumen yang digunakan adalah dokumen berekstensi XML dengan format RSS versi 2.0. 3. Pengindeksan hanya dilakukan untuk isi dari elemen title dan description. Tag, atribut dan elemen lain seperti link dan pubdate tidak diindeks karena diangggap tidak terlalu penting dalam RSS berita. 4. Tidak ada kesalahan penulisan XML dalam dokumen RSS. 5. Pengujian dilakukan dengan membandingkan kinerja sistem yang menggunakan pembobotan judul dengan pembobotan normal. 6. Istilah yang terdapat pada elemen title judul berita memiliki bobot dua kali lebih besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : • Sistem operasi Windows XP Professional • Java 1.6 • Apache Tomcat 6 • MySQL 5 Perangkat Keras : • Processor Intel dual core 1.6 GB • RAM 1 GB HASIL DAN PEMBAHASAN Koleksi Dokumen Penelitian ini menggunakan koleksi dokumen RSS versi 2.0 yang didapatkan dari beberapa situs berita berbahasa Indonesia di antaranya situs berita Antara, Detik, Kompas, Liputan6, Okezone, dan Tempointeraktif, yang diunduh pada tanggal 22, 23 dan 27 Agustus 2009. Contoh dari salah satu dokumen RSS berita dapat dilihat pada Lampiran 1. Untuk menguji kinerja sistem temu kembali informasi digunakan koleksi dokumen sebanyak 173 dokumen RSS. Dari 173 dokumen RSS yang dipergunakan hanya 167 dokumen yang terindeks oleh sistem dan diperoleh 1720 buah berita Tabel 3. Hal ini dikarenakan beberapa dokumen RSS tidak memenuhi aturan penulisan XML yang benar. Untuk melakukan uji coba, dibentuk daftar pasangan kueri dan jumlah dokumen yang relevan yang akan dipergunakan untuk mengukur kinerja sistem temu kembali informasi yang dibuat. Adapun daftar kueri yang akan diujikan terhadap dokumen dapat dilihat pada Tabel 4. Tahap-tahap Penelitian Text Operation

1. Parsing