berbagai tingkat recall, biasanya digunakan sebelas tingkat recall standar yaitu 0.0, 0.1, 0.2,
0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. Adakalanya tingkat recall yang diperoleh
tiap kueri berbeda dengan sebelas tingkat recall standar yang ada. Untuk kasus yang seperti ini
dibutuhkan prosedur interpolasi. Jika j
r ,
} {
10 ,...,
2 ,
1 ,
∈ j
adalah tingkat recall standar ke-
j
maka : 1
max +
≤ ≤
= j
r r
j r
j r
P r
P ,
dengan demikian, precision interpolasi pada tingkat recall standar ke-j adalah precision
tertinggi pada setiap tingkat recall antara j hingga
1 +
j Baeza-Yates Ribeiro-Neto
1999.
Hash Function
Hash function adalah suatu metode yang
digunakan untuk mengubah data yang ada menjadi sebuah bilangan yang relatif kecil
small number yang akan menjadi “sidik jari” fingerprint dari data terebut. Fungsi ini
memecah
dan mengolah
data untuk
menghasilkan kode atau nilai hash-nya. Nilai dari suatu fungsi hash akan memiliki panjang
yang tetap untuk masukan dengan panjang yang sembarang. Secara umum, fungsi hash memiliki
beberapa sifat utama, yaitu : fungsi satu arah, artinya untuk suatu nilai fungsi hash y, sulit
menemukan nilai input x yang memenuhi persamaan Hx=y, dan collision freeresistant,
artinya sulit untuk menemukan 2 buah nilai input yang memunyai nilai fungsi hash yang
sama.
Salah satu fungsi hash yang banyak digunakan adalah Message Digest 5 MD5.
Algoritme MD-5 secara garis besar adalah mengambil pesan yang memunyai panjang
variabel diubah menjadi ‘sidik jari’ atau ‘intisari pesan’ yang memunyai panjang tetap yaitu 128
bit.
METODE PENELITIAN Koleksi Dokumen
Dokumen berita yang akan digunakan pada penelitian berasal dari beberapa situs berita di
Indonesia seperti Antara, Detik, Liputan 6, Kompas, Okezone, dan Tempo. Data yang
digunakan adalah data dengan format RSS versi 2.0.
Pemilihan ukuran kesamaan
Beberapa ukuran kesamaan yang dapat digunakan dalam VSM di antaranya inner
product , cosine, dice, jaccard, overlap dan
asymmetric .
Pada penelitian yang dilakukan oleh Rorvig 1999, dibandingkan lima ukuran kesamaan
cosine, dice, jaccard, overlap, dan asymetric hasil uji menunjukkan bahwa ukuran kesamaan
cosine dan overlap memiliki kinerja temu
kembali yang lebih baik dibanding yang lain. Hasil penelitian yang dilakukan oleh Rahman
2006 yang melakukan perbandingan kinerja empat ukuran kesamaan cosine, dice, jaccard,
dan overlap, hasil uji menunjukkan bahwa ukuran kesamaan cosine memberikan kinerja
temu kembali yang lebih baik dibandingkan dengan tiga ukuran kesamaan lainnya. dice dan
jaccard
tidak jauh berbeda sedangkan overlap memiliki kinerja yang paling rendah.
Merujuk kepada hasil kedua penelitian tersebut maka ukuran kesamaan yang akan
digunakan dalam penelitian ini adalah ukuran cosine
.
Tahap-tahap Penelitian
Gambar 1 menunjukkan gambaran sistem secara umum yang akan dibuat dalam penelitian
ini
Gambar 1 Sistem temu kembali informasi Baeza Ribeiro 1999.
Tahapan-tahapan yang
dilakukan dalam
penelitian ini adalah :
Text operation
Proses yang dilakukan dalam text operation adalah proses parsing dan stemming.
1. Parsing
Parsing dilakukan
dengan pengambilan token dari dokumen RSS
dengan menggunakan XML Parser. Pada
proses ini yang termasuk ke dalam stoplist daftar kata-kata buangan akan diabaikan.
Parsing dilakukan dalam dua tahap yaitu :
• Parsing
tahap satu Parsing
pada tahap satu bertujuan untuk mengambil dan memisahkan setiap berita
menjadi token berita. Setiap token berita dalam dokumen RSS direpresentasikan
dalam elemen item. Untuk mencegah adanya duplikasi berita maka digunakan
hash function
MD5 yang bertujuan untuk menghasilkan identitas yang unik untuk
setiap token berita berdasarkan isi dari token tersebut.
• Parsing
tahap dua Parsing
tahap dua bertujuan untuk parsing
isi token berita yang didapat dari proses parsing tahap satu. Pada tahapan ini
dilakukan parsing terhadap isi dari setiap token berita sehingga dihasilkan token
istilah. Token istilah beserta identitas token berita digunakan dalam proses
indexing
.
2. Stemming
Stemming adalah proses pemotongan
kata untuk mengembalikan kata ke bentuk dasarnya sehingga dapat meningkatkan
hasil recall. Algoritme stemmer yang digunakan dalam penelitian ini diadopsi
dari
Tala stemmer.
Tala stemmer
memodifikasi algoritme Porter stemmer untuk
bahasa Indonesia.
Selain menggunakan daftar imbuhan dan aturan
yang ada pada Tala stemmer, pada penelitian ini dilakukan penambahan aturan
pemotongan dan imbuhan yang dapat dilihat pada Tabel 1 dan 2.
Bahasa Indonesia memiliki Struktur morfologi sebagai berikut:
[prefiks1] + [prefiks2] + kata dasar + [sufiks] + [kata ganti kepunyaan] +
[partikel] dengan tanda [ ] menunjukkan pilihan.
Struktur tersebut
dapat digunakan
sebagai panduan dalam proses stemming. Desain dasar dari proses stemming dapat
dilihat pada Gambar 2. Pemotongan kata dilakukan dengan
menghilangkan partikel,
kata ganti
kepunyaan, prefiks
awalan, infiks
sisipan, sufiks akhiran, dan konfiks gabungan antara prefiks dan sufiks.
Hanya saja pemotongan imbuhan yang berupa sisipan sulit dilakukan untuk itu
dalam penelitian ini sisipan atau infiks diabaikan. Daftar imbuhan dapat dilihat
pada Tabel 1, sedangkan aturan pemotongan imbuhan dapat dilihat pada Gambar 3.
Tabel 1 Daftar imbuhan untuk proses stemming hasil adopsi Tala stemmer
Tabel 2 Penambahan aturan pemotongan imbuhan
Imbuhan Penambahan
Aturan C
men dan pen V + t
C V
V + k meng dan peng
e - “e”
Gambar 2 Desain dasar dari Tala stemmer untuk bahasa Indonesia Tala 2003.
Imbuhan Porter Stemmer
tambahan
Partikel kah, lah, pun, tah
Kata ganti kepunyaan
ku, mu, nya Sufiks
kan, an, i Prefiks
be, di, ke, me, pe, bel, ber, mem,
men, pel, per, pem, pen, ter,
meng, meny, peng, peny
se
Sebagaimana algoritme Tala, digunakan suatu fungsi penghitung ukuran kata untuk
mencegah stemming menghasilkan stem yang terlalu pendek. Diasumsikan minimal
stem hasil berukuran dua kecuali jika token
berukuran kurang dari dua. Jumlah vokal dalam kata akan digunakan sebagai penentu
ukuran kata kecuali kata-kata tanpa vokal yang terdiri atas tiga karakter atau lebih
dianggap memiliki ukuran dua untuk mengakomodasi singkatan yang hanya
terdiri atas konsonan Ridha 2002.
Selain menggunakan daftar imbuhan proses stemming dalam penelitian ini
menggunakan aturan gugus konsonan dalam proses pemotongannya, serta menggunakan
kamus kata dasar bahasa Indonesia untuk melakukan pemeriksaan apakah kata yang
dihasilkan merupakan kata dasar atau bukan.
Gambar 3 Lima aturan pemotongan imbuhan Tala 2003.
Indexing
Pada tahapan ini dibangun sebuah indeks kata
dari hasil
text operation
, dengan
menggunakan teknik inverted index.
Searching
Proses pencarian kueri dilakukan dengan menghitung tingkat relevansi kueri dengan
dokumen yang ada. Algoritme pencarian yang digunakan
pada inverted
index adalah
Vocabulary search, yaitu kueri dicari di dalam
perbendaharan kata yang terdapat pada indeks. Hal yang perlu ditekankan adalah kueri harus
dipisahkan per kata parsing.
Ranking
Pada tahapan ini dilakukan pengurutan dokumen berdasarkan tingkat relevansi antara
kueri dan dokumen.
User Interface
Perancangan dan pembuatan user interface dari sistem yang akan menjembatani pengguna
dengan sistem itu sendiri.
Evaluasi Sistem
Evaluasi dilakukan
dengan mengukur
kinerja temu kembali dengan menggunakan pendekatan recall–precission. Sistem akan
mengembalikan daftar
dokumen terurut
menurun berdasarkan hasil fungsi kesamaan kueri dan dokumen
.
Batasan dan asumsi
Batasan dan asumsi yang akan digunakan dalam penelitian ini adalah sebagai berikut :
1. Dokumen dan kueri menggunakan karakter ASCII.
2. Dokumen yang digunakan adalah dokumen berekstensi XML dengan format RSS versi
2.0. 3. Pengindeksan hanya dilakukan untuk isi
dari elemen title dan description. Tag, atribut dan elemen lain seperti link dan
pubdate tidak diindeks karena diangggap
tidak terlalu penting dalam RSS berita. 4. Tidak ada kesalahan penulisan XML dalam
dokumen RSS. 5. Pengujian
dilakukan dengan
membandingkan kinerja
sistem yang
menggunakan pembobotan judul dengan pembobotan normal.
6. Istilah yang terdapat pada elemen title judul berita memiliki bobot dua kali lebih
besar dibandingkan dengan istilah yang berada pada description.
Lingkup Implemental
Lingkungan implementasi
yang akan
digunakan adalah sebagai berikut: Perangkat Lunak :
• Sistem operasi Windows XP Professional
• Java 1.6
• Apache Tomcat 6
• MySQL 5
Perangkat Keras : •
Processor Intel dual core 1.6 GB •
RAM 1 GB HASIL DAN PEMBAHASAN
Koleksi Dokumen
Penelitian ini
menggunakan koleksi
dokumen RSS versi 2.0 yang didapatkan dari beberapa situs berita berbahasa Indonesia di
antaranya situs berita Antara, Detik, Kompas, Liputan6, Okezone, dan Tempointeraktif, yang
diunduh pada tanggal 22, 23 dan 27 Agustus 2009. Contoh dari salah satu dokumen RSS
berita dapat dilihat pada Lampiran 1.
Untuk menguji kinerja sistem temu kembali informasi digunakan koleksi dokumen
sebanyak 173 dokumen RSS. Dari 173 dokumen RSS yang dipergunakan hanya 167
dokumen yang terindeks oleh sistem dan diperoleh 1720 buah berita Tabel 3. Hal ini
dikarenakan beberapa dokumen RSS tidak memenuhi aturan penulisan XML yang benar.
Untuk melakukan uji coba, dibentuk daftar pasangan kueri dan jumlah dokumen yang
relevan yang
akan dipergunakan
untuk mengukur
kinerja sistem
temu kembali
informasi yang dibuat. Adapun daftar kueri yang akan diujikan terhadap dokumen dapat
dilihat pada Tabel 4.
Tahap-tahap Penelitian Text Operation
1. Parsing