Metode Pembobotan Kata Berbasis Sebaran untuk Temu Kembali Informasi Dokumen Bahasa Indonesia

METODE PEMBOBOTAN KATA BERBASIS SEBARAN
UNTUK TEMU KEMBALI INFORMASI
DOKUMEN BAHASA INDONESIA

PUTRI DEWI PURNAMA SARI

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

METODE PEMBOBOTAN KATA BERBASIS SEBARAN
UNTUK TEMU KEMBALI INFORMASI
DOKUMEN BAHASA INDONESIA

PUTRI DEWI PURNAMA SARI

Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

ABSTRACT
PUTRI DEWI PURNAMA SARI. Term Weight Method based on Term Distribution for
Information Retrieval on Indonesian Documents. Supervised by JULIO ADISANTOSO.
Term weight algorithm plays an important role in the process of document searching, which
is greatly influenced by the precision and recall results of the Search Engine. Currently, TF-IDF
term weight algorithm is widely applied in language models to build the search engine systems.
Since term frequency is not the only discriminator which is necessary to be considered in term
weighting and make each weight suitable to indicate the term’s importance, term weighting
algorithm based on term distribution has been developed. In a single document, a term with higher
frequency and closer to hypo-dispersion distribution usually contains more semantic information
and should be given higher weight. One the other hand, in collection of documents, the term with
higher frequency and hypo-dispersion distribution usually contains less information. This research

implements term weight based on term distribution, with Local Term Weight Algorithm and
Global Term Weight Algorithm for the documents in Indonesian Language. The result of this
research is a Search Engine with an average precision of 84.8%.
Keyword : IDF, Term Weight, TF, TFIDF

Judul Skripsi
Nama
NRP

: Metode Pembobotan Kata Berbasis Sebaran untuk Temu Kembali Informasi
Dokumen Bahasa Indonesia
: Putri Dewi Purnama Sari
: G64080076

Menyetujui:
Pembimbing

Ir. Julio Adisantoso, M.Kom
NIP. 19620714 198601 1 002


Mengetahui:
Ketua Departemen Ilmu Komputer

Dr. Ir. Agus Buono, M.Si, M.Kom
NIP. 19660702 199302 1 001

Tanggal Lulus :

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wata’ala yang telah
memberikan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir dengan
judul Metode Pembobotan Kata Berbasis Sebaran untuk Temu Kembali Informasi Dokumen
Bahasa Indonesia. Penulis juga menyampaikan terima kasih kepada seluruh pihak yang telah
berperan dalam tugas akhir ini, yaitu:
 Ayahanda Sudirman Limi, Ibunda Yetty Marianis, serta keluarga besar penulis (Maimunah,
Okdista, Andi Saputra, Syarifah, Dadang K, Maulina, Saka, Syaqeela, dan Alee) yang selalu
memberikan doa, nasihat, semangat, dan kasih sayang yang luar biasa kepada penulis.
 Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir yang memberikan
bimbingan, ide, dukungan, semangat serta kesabaran dalam pengerjaan tugas akhir ini.
 Bapak Toto H, S.Kom, M.Si selaku dosen pembimbing akademik penulis yang sabar.

 Bapak Ahmad Ridha, S.Kom, MS dan Bapak Sony H. Wijaya, S.Kom, M.Kom selaku dosen
penguji yang telah memberi masukan dan saran pada tugas akhir penulis.
 Rekan satu bimbingan Susi Handayani, Fania R K, Meri Marlina, Meriska Defriani, Anita,
Hafidzhia Dzikrul A, Alfa Nugraha, Risky Utama P, dan Nofel Saputra. Terima kasih atas
bantuan, kebersamaan dan semangatnya dalam menyelesaikan tugas akhir ini.
 Wido Aryo Andhika , Wangi Saraswati, Brenda K, Siska Susanti, Zola Mukhda, Aditya Nur J,
Santia Risky K, Dyah Kenyar NH, Ihsan Mentaya, dan Abdul Rahman Halim. Terima kasih
atas semangat dan dukungannya yang telah diberikan kepada penulis. Semoga kita bisa
berjumpa kembali kelak sebagai orang-orang sukses.
 Seluruh staf dan pimpinan BEM KM IPB Bersahabat yang terus menyebarkan energi positif,
khususnya Kementrian Budaya Olahraga dan Seni 2010-2011 (ka Dean, Bunda Icha, ka Andre,
ka Ari, ka Nina, ka Indah, ka Rommy, ka Mitha, Ruri, Deni, Suci, Rahma, Amel, Rocky, Dziki,
Eris), OMI 2011, IAC 2011 dan divisi Publikasi Dokumentasi Gebyar Nusantara 2011.
 Seluruh panitia OMI 2012 khususnya Cici, Tri, Alfi, Johan, BPH dan seluruh pimpinan OMI
2012 yang selalu memberikan kebersamaan dan dukungan mental kepada penulis selama
melaksanakan tugas akhir ini.
 Seluruh keluarga besar KOST ARINI (kak Sarah, kak Nova, kak Rani, Ima, Ardini, Tika,
Prista, Ayu, Timeh, Jay, Dita, dan Vio) yang selalu bersedia mendengarkan keluh kesah, dan
memberikan semangat kepada penulis selama melaksanakan tugas akhir ini.
 Keluarga kecil penulis yaitu UROSITA (Ella Rahmadani, Fauziah Azzahro, Winahyu Hapsari,

Fatima Rosniar, Ratna Anggun Kartika, dan Arini Khairiyah) yang sabar memberikan energi
positif, dukungan dan semangat bagi penulis.
 Seluruh rekan-rekan Ilmu Komputer angkatan 45 atas segala kebersamaan, bantuan, canda
tawa, dan kenangan indah serta semangat bagi penulis slama masa studi. Semoga kita semua
bisa berjumpa kembali kelak sebagai orang-orang sukses.
Penulis berharap tugas akhir ini dapat memberikan manfaat, khususnya bagi bidang temu
kembali informasi. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat
kekurangan dalam berbagai hal. Penulis berharap adanya masukan yang bersifat membangun dari
pembaca demi kesempurnaan tugas akhir ini.
Bogor, Agustus 2012

Putri Dewi Purnama Sari

RIWAYAT HIDUP
Putri Dewi Purnama Sari dilahirkan di Jakarta pada tanggal 20 April 1991 dari pasangan
Bapak Sudirman Limi dan Ibu Yetty Marianis. Pada tahun 2008, penulis lulus dari SMA Negeri
31 Jakarta dan menjadi mahasiswa di Departemen Ilmu Komputer Institut Pertanian Bogor (IPB)
melalui Undangan Seleksi Masuk IPB (USMI).
Selama menjadi mahasiswa, penulis menjadi asisten praktikum di beberapa matakuliah,
yaitu Penerapan Komputer (2009,2010,2012), Algoritma dan Pemrograman (2011) dan Bahasa

Pemrograman (2011). Pada bulan Juli hingga Agustus 2011, penulis melaksanakan Praktik Kerja
Lapangan di Badan Kepegawaian Pendidikan dan Pelatihan (BKPP) Kota Bogor.
Selain itu, penulis aktif menjadi anggota BEM KM IPB (Badan Eksekutif Mahasiswa
Keluarga Mahasiswa Institut Pertanian Bogor). Pada tahun 2009-2010 penulis sebagai staf
Kementerian Pengembangan Sumberdaya Mahasiswa (PSDM). Penulis melaksanakan berbagai
kegiatan mahasiswa salah satunya mengadakan sekolah kepemimpinan dan wirausaha bagi
mahasiswa tingkat pertama IPB dengan nama Leadership and Enterpreneurship School (LES).
Pada tahun 2010-2011, penulis sebagai staf Kementerian Budaya Olahraga dan Seni
(BOS). Penulis ikut serta dalam mengadakan kegiatan olahraga, seni, dan budaya untuk mehasiswa
IPB, yaitu OMI (Olimpiade Mahasiswa IPB), IAC (IPB Art Contest), dan GENUS (Gebyar
Nusantara). Pada tahun 2012, penulis aktif dalam kepanitiaan OMI 2012, yang merupakan
kepanitiaan terakhir bagi penulis saat menjadi mahasiswa IPB.

DAFTAR ISI
Halaman
DAFTAR TABEL ............................................................................................................................ vi
DAFTAR GAMBAR ...................................................................................................................... vi
DAFTAR LAMPIRAN ................................................................................................................... vi
PENDAHULUAN
Latar Belakang ............................................................................................................................. 1

Tujuan .......................................................................................................................................... 1
Ruang Lingkup ............................................................................................................................ 1
METODE
Koleksi Dokumen ........................................................................................................................ 1
Pengindeksan ............................................................................................................................... 2
Tokenisasi .................................................................................................................................... 2
Pembuangan Stop words .............................................................................................................. 2
Pembobotan sebaran kata ............................................................................................................. 2
Kesamaan dokumen dan kueri ..................................................................................................... 3
Evaluasi Sistem ............................................................................................................................ 4
Lingkungan Implementasi ........................................................................................................... 4
HASIL DAN PEMBAHASAN
Koleksi Dokumen ........................................................................................................................ 4
Pengindeksan Dokumen .............................................................................................................. 5
Tokenisasi .................................................................................................................................... 5
Pembuangan Stopword ................................................................................................................ 5
Pembobotan Sebaran Kata ........................................................................................................... 5
Kesamaan Dokumen dan Kueri ................................................................................................... 8
Pengujian Kinerja Sistem............................................................................................................. 8
Perbandingan Hasil Uji Kueri ...................................................................................................... 9

SIMPULAN DAN SARAN
Simpulan .................................................................................................................................... 10
Saran .......................................................................................................................................... 10
DAFTAR PUSTAKA ..................................................................................................................... 10
LAMPIRAN .................................................................................................................................... 12

DAFTAR TABEL
Halaman
1
2
3
4
5
6
7
8
9
10
11
12

13
14
15
16

Relevant dan retrieved dokumen ................................................................................................. 4
Deskripsi dokumen uji ................................................................................................................ 4
Contoh hasil parsing kalimat ...................................................................................................... 5
Hasil perhitungan peluang(r) ....................................................................................................... 6
Hasil perhitungan v dan n pada dokumen dok001 ...................................................................... 6
Hasil perhitungan Uj, Sj, dan bobot lokal pada dokumen dok001 ............................................... 6
Perbandingan hubungan distribusi dan bobot lokal ..................................................................... 6
Hasil perhitungan peluang(r’) ..................................................................................................... 7
Hasil perhitungan n’, chi’, dan Uj’ .............................................................................................. 7
Hasil perhitungan p’, dan Sj’ dengan N’=324 ............................................................................. 7
Hasil perhitungan Uj’, Sj’ dengan persamaan(2) dan bobot global ............................................ 7
Hasil perhitungan Uj’, Sj’ dengan persamaan(1) dan bobot Global............................................ 8
Perbandingan hubungan distribusi dan bobot global ................................................................... 8
Hasil perhitungan bobot lokal, global, dan sebaran kata pada dok001........................................ 8
Perbedaan hasil AVP untuk proses parsing 3, 4, dan 5 kalimat .................................................. 9

Perbandingan 15 kueri pada sistem ........................................................................................... 10

DAFTAR GAMBAR
Halaman
1
2
3
4

Tahapan pembangunan sistem. ..................................................................................................... 2
Contoh dokumen. .......................................................................................................................... 4
Grafik recall precision. ................................................................................................................. 9
Perbandingan pembobotan sebaran kata dan TFIDF. .................................................................. 10

DAFTAR LAMPIRAN
Halaman
1
2
3
4

5
6
7
8
9
10

Daftar kueri uji dan dokumen yang relevan .............................................................................. 13
Contoh dokumen koleksi pengujian .......................................................................................... 14
Daftar stopword ......................................................................................................................... 15
Daftar AVP masing-masing kueri pada pengujian parsing 3 kalimat ....................................... 19
Daftar AVP masing-masing kueri pada pengujian parsing 4 kalimat ....................................... 20
Daftar AVP masing-masing kueri pada pengujian parsing 5 kalimat ....................................... 21
Daftar AVP masing-masing kueri pada pengujian pembobotan TFIDF .................................. 22
Antarmuka halaman utama sistem pencarian jurnal hortikultura .............................................. 23
Antarmuka hasil pencarian ........................................................................................................ 23
Antarmuka pemilihan dokumen ................................................................................................ 23

vi

1

PENDAHULUAN
Latar Belakang
Mesin pencari digunakan oleh pengguna
untuk memberikan kemudahan dalam temu
kembali informasi berdasarkan kueri tertentu.
Informasi yang dikembalikan oleh mesin
pencari berupa dokumen terurut sesuai
kedekatan kueri dengan dokumen dalam
koleksi. Mesin pencari telah banyak
dikembangkan dengan berbagai metode dan
sistem pengindeksan.
Pengindeksan adalah proses pembentukan
inverted index (Manning et al. 2008). Salah
satu tahap dari pengindeksan adalah
pembobotan, yaitu pemberian bobot pada kata
dalam koleksi. Bobot tersebut menentukan
kata apa saja yang menjadi penciri bagi
masing-masing dokumen dalam koleksi.
Pembobotan memegang peranan penting bagi
sistem temu kembali informasi. Pembobotan
kata
yang kurang tepat dalam proses
pengindeksan dapat menurunkan kinerja
sistem secara keseluruhan.
Terdapat beberapa metode pembobotan
kata yang digunakan dalam pengindeksan
dokumen. Salah satu metode yang digunakan
ialah TFIDF. Metode TFIDF menggunakan
frekuensi kata pada dokumen sebagai penentu
nilai bobot kata. Notasi SMART merupakan
variasi dari pembobotan TFIDF. Notasi
SMART
digunakan
untuk
membantu
merepresentasikan kombinasi pembobotan
kata. Contoh representasi kombinasi vektor
dokumen dan kueri adalah ddd.qqq, ddd
menggambarakan pembobotan kata
dari
vektor dokumen dan qqq menggambarkan
pembobotan vektor kueri. Huruf tersebut
merepresentasikan penggunaan rumus pada
notasi SMART untuk menghitung frekuensi
kata (hurufpertama), frekuensi dokumen
(hurufkedua),
dan
proses
normalisasi
(hurufketiga) (Manning et al. 2008).
Beberapa penelitian pembobotan dokumen
antara lain Ridha (2002) yang menggunakan
istilah tunggal dengan pembobotan TFIDF
dan BM25, Herdi (2010) menggunakan
pembobotan TFIDF dan BM25 pada mesin
pencari dengan framework Indri. Pada
penelitian tersebut, hasil kinerja TFIDF dan
BM25 memberi bobot sama pada sebuah kata,
tanpa memperhatikan sebarannya.
Xia dan Chai (2011) mengungkapkan
bahwa pada perhitungan bobot kata lokal yang
diukur dalam suatu dokumen, kata yang
mempunyai frekuensi tinggi dan distribusi

penyebaran luas seharusnya diberi bobot yang
lebih tinggi dari kata yang frekuensinya
rendah dan distribusi penyebaran intensif.
Selain itu, pada perhitungan bobot kata global
yang diukur pada seluruh koleksi dokumen,
kata yang mempunyai frekuensi tinggi dan
distribusi penyebarannya luas biasanya berisi
sedikit informasi sehingga bobot yang
diberikan pada kata tersebut rendah.
Berdasarkan Xia dan Chai (2011),
penelitian ini akan mengimplementasikan
pembobotan yang terfokus pada sebaran kata
pada dokumen bahasa Indonesia. Pembobotan
sebaran kata yang digunakan adalah sebaran
kata lokal (dokumen) dan global (koleksi).
Tujuan
Tujuan
penelitian
ini
adalah
mengimplementasikan metode pembobotan
kata menggunakan sebaran kata sebagai
alternatif pembobotan dalam sistem IR
dokumen Bahasa Indonesia.
Ruang Lingkup
Ruang lingkup dalam penelitian ini adalah:
1 Dokumen
yang
digunakan
dalam
penelitian
adalah
dokumen
XML
berbahasa Indonesia.
2 Dokumen yang relevan dengan kueri uji,
ditentukan berdasarkan pustaka yang ada
di lab Information Retrieval Ilmu
Komputer IPB.
3 Kesalahan dalam pengetikan dalam korpus
tidak diperhatikan.

METODE
Penelitian
ini
dilaksanakan
dalam
beberapa tahapan, yaitu: pengumpulan koleksi
dokumen (korpus), pengindeksan dokumen,
pengindeksan kueri, perhitungan ukuran
kesamaan antara dokumen dan kueri,
pemeringkatan dokumen, dan perhitungan
evaluasi hasil temu-kembali sistem. Tahapantahapan tersebut dapat dilihat pada Gambar1.
Koleksi Dokumen
Dokumen yang digunakan sebagai
dokumen uji adalah korpus yang berasal dari
Laboratorium Temu Kembali Informasi IPB.
Dokumen berjumlah 324 jurnal hortikultura
dan kueri uji berjumlah 15 kueri dengan daftar
dokumen yang relevan. Daftar kueri uji dan
dokumen yang relevan terdapat pada
Lampiran 1.

2

DOKUMEN
DOKUMEN
KUERI
KUERI

Pengindeksan
Dokumen
Tokenization
Tokenization

Pembuangan
Pembuangan
Stop
Stop words
words

Pengindeksan
Pengindeksan
kueri
kueri

kata. Input dari proses pembobotan sebaran
kata adalah kata terpilih yang akan digunakan
untuk membangun inverted index dari koleksi
dokumen. Menurut Xia dan Chai (2011)
pembobotan berdasarkan sebaran kata
memiliki dua titik fokus, yaitu sebaran kata
lokal(dalam suatu dokumen individu) dan
sebaran kata global(dalam koleksi dokumen).
Nilai bobot dari suatu kata terpilih adalah
perkalian antara kedua pembobotan tersebut.
Pembobotan Lokal

Pembobotan
Pembobotan
sebaran
sebaran kata
kata

Matriks
Matriks
termtermdokumen
dokumen

Matriks
Matriks
termtermkueri
kueri

Kesamaan
Kesamaan
dokumen
dokumen dan
dan
kueri
kueri

Peringkat
Peringkat
dokumen
dokumen

Pembobotan lokal terdiri dari luas
distribusi seragam kata ke-j pada dokumen
(Uj) dan perluasan penyebaran kata ke-j pada
dokumen (Sj). Pada pembobotan kata lokal
terdapat hubungan antara luas distribusi
seragam kata dan bobot kata, yaitu positif non
linear. Artinya, kata yang luas distribusi
seragam tinggi mempunyai bobot kata yang
tinggi.
Pada perhitungan luas distribusi seragam
kata digunakan teori K.Pearson Chi Square
dengan rumus:
m
2

Evaluasi
Evaluasi

Gambar 1 Tahapan pembangunan sistem.
Pengindeksan
Proses pengindeksan terdiri atas proses
tokenisasi, pembuangan stopwords, dan
pembobotan (Manning et al. 2008). Pada
penelitian ini metode pembobotan yang
dilakukan adalah metode sebaran kata.
Tokenisasi
Tokenisasi menerima masukan berupa
rangkaian karakter dan memilahnya menjadi
token dengan aturan sebagai berikut:
1 Suatu token dimulai oleh huruf atau angka
2 Token dipisahkan oleh karakter whitespace
3 Karakter-karakter khusus yang mengikuti
huruf atau angka akan dihilangkan.

i=1

dengan

Pembobotan sebaran kata
Pembobotan yang digunakan pada
penelitian ini adalah pembobotan sebaran

2

: frekuensi kata ke-j pada paragraf ke-i
: frekuensi kata ke-j di dokumen
: peluang kata ke-j ada di paragraf ke-i
: frekuensi kata ke-j di paragraf ke-i jika
kata ke-j tersebar
Nilai
yang rendah menyatakan kata ke
j mendekati distribusi seragam. Nilai rendah
tersebut bertentangan dengan hubungan
distribusi seragam pada dokumen dan bobot
kata, sehingga rumus distribusi seragam(Uj)
adalah
Uj =
Uj =

Pembuangan Stop words
Stop words adalah kata-kata umum yang
biasanya muncul dalam jumlah yang besar
dan dianggap tidak memiliki makna (Manning
et al. 2008). Pada penelitian ini stopwords
diperoleh dari Herdi (2010).

v n
n

= ∑

1
1

1
1 ∑m
i=1

2
(v -n )
n

Pada perhitungan perluasan penyebaran
kata (Sj) digunakan rumus:
Sj = l

dengan :

(1

⁄ )

: total paragraf yang mengandung term ke-j
: total paragraf pada dokumen

3

Pembobotan lokal dari kata ke-j dalam
dokumen d adalah
dl

dl

1

=l

=l

l

1

⁄ )

(1

vi n

1 ∑m
i=1

Pembobotan Global

2

n

Pembobotan global terdiri atas luas
distribusi seragam kata ke-j pada koleksi (Uj’)
dan perluasan penyebaran kata ke-j pada
koleksi (Sj’). Pada pembobotan global,
terdapat hubungan antara luas distribusi
seragam kata dan bobot kata, yaitu negatif non
linear. Artinya, kata yang luas distribusi
seragamnya tinggi mempunyai bobot kata
yang rendah.
Pada perhitungan luas distribusi seragam
kata, digunakan teori K.Pearson Chi Square
dengan rumus:
m

=∑
i=1

dengan:

(v n )

Uj = 1
2

(v -n )
n

Pada perhitungan perluasan penyebaran
kata di koleksi (Sj’), digunakan rumus:

dengan :



Pembobotan global dari kata ke-j dalam
dokumen d adalah
=l

2

(1

1



…….(2)

sehingga bobot global kata ke-j dalam
dokumen d adalah
d

d

=l

=l
1

(1

)

.l

1

Oleh karena itu, pembobotan sebaran kata ke-j
pada dokumen d adalah:
dl

d

………….(3)

Hasil matriks term-dokumen dokumen dan
kueri akan diukur kesamaannya menggunakan
ukuran kemiripan kosinus (Cosine Similarity).
Ukuran kemiripan kosinus yang digunakan
menggunakan
persamaan(4).
Nilai
pengukuran kesamaan pada sistem akan
mengembalikan dokumen relevan menurut
sistem.
Ukuran kesamaan kosinus (cosine
similarity) adalah sebuah model matematika
yang digunakan untuk menghitung kesamaan
antara kueri dan dokumen (Manning et al.
2008). Dokumen dan kueri dengan kata
penciri digambarkan sebagai model vektor
sehingga dapat dihitung kesamaannya (Salton
1989).
Kueri dan dokumen dinyatakan dalam
vektor sebagai berikut:

Q  (wq1 , wq 2 ,, wqt ) dan

Di  (wi1 , wi 2 ,, wit )

: total dokumen yang mengandung term
ke-j
: total dokumen pada koleksi

d

Sj’= l

Kesamaan dokumen dan kueri

Nilai
yang rendah menyatakan kata
ke-j mendekati distribusi seragam. Nilai
rendah tersebut sesuai dengan hubungan
distribusi seragam pada koleksi dan bobot
kata, sehingga rumus distribusi seragam(Uj’)
adalah

1

total dokumen di koleksi dan
merupakan
total adalah total dokumen yang mengandung
kata ke-j. Oleh karena itu, nilai Sj’ dapat
dirumuskan sebagai

Wj,d =

: frekuensi kata ke-j pada dokumen ke-i
: frekuensi kata ke-j di koleksi
’ : peluang kata ke-j ada di dokumen ke-i
: frekuensi kata ke-j di dokumen ke-i jika
kata ke-j tersebar

Sj’ = l

dt

2

n

Uj =1 ∑m
i=1

Nilai ’ menunjukkan penyebaran kata
dalam koleksi, yang dapat juga menunjukkan
kepentingan suatu kata dalam dokumen. Pada
pembobotan TFIDF, nilai ini dapat
disetarakan dengan d t = l
, N merupakan

)

dengan wqj dan wij sebagai bobot istilah Tj
dalam kueri Q dan dokumen Di. Dengan
demikian koefisien kesamaan antara kueri dan
dokumen dapat diperoleh dengan rumus inner
= ∑tj=1 w .w
product : sim ,

Namun dengan formula tersebut, dokumen
yang lebih panjang dengan lebih banyak kata
penciri memiliki kemungkinan lebih besar

4

untuk dianggap relevan dengan istilah-istilah
kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor
dokumen perlu dinormalisasi. Ukuran
kesamaan antara kueri Q dan dokumen Di
menjadi persamaan:
sim

=

,

∑tj=1 w .w
√∑tj=1 w

2

….…(4)

Formula ini merepresentasikan kosinus
sudut antara vektor kueri dan vektor dokumen
sebagai vektor-vektor dalam ruang t dimensi,
dengan t sebagai jumlah istilah unik dalam
sistem (Salton 1989).
Evaluasi Sistem
. Pada proses evaluasi hasil temu-kembali
dilakukan penilaian kinerja sistem dengan
melakukan pengukuran recall-precision untuk
menentukan tingkat keefektifan proses temukembali. Dua ukuran utama untuk keefektifan
penemu kembalian yang telah digunakan sejak
lama adalah recall dan precision (Salton
1989). Recall adalah perbandingan jumlah
materi relevan yang ditemukembalikan
terhadap jumlah materi yang relevan,
sedangkan precision adalah perbandingan
jumlah materi relevan yang ditemukembalikan
terhadap
jumlah
materi
yang
ditemukembalikan.
Tabel 1 Relevant dan retrieved documents
Relevant
non relevant
retrieved

true positive(tp)

false positive(fp)

Non
retrieved

false negative
(fn)

true negative(tn)

Lingkungan Implementasi
Lingkungan implementasi yang digunakan
adalah sebagai berikut:
 Perangkat lunak:
1 Sistem
operasi
Windows
7
Professional sebagai sistem operasi,
2 PHP sebagai bahasa pemrograman,
3 XAMPP version 1.7.2 sebagai web
server, dan
4 Microsoft Office 2010 sebagai aplikasi
yang digunakan untuk melakukan
perhitungan dalam evaluasi sistem.
 Perangkat keras:
1 Processor Intel Dual-Core 2.10 GHz
2 RAM 2 GB
3 Harddisk dengankapasitas 160 GB

HASIL DAN PEMBAHASAN
Koleksi Dokumen
Penelitian ini menggunakan 324 jurnal
hortikultura yang berasal dari Laboratorium
Temu Kembali Informasi Departemen Ilmu
Komputer IPB. Deksripsi dokumen uji yang
digunakan dapat dilihat pada Tabel 2. Gambar
2 dan Lampiran 2 menunjukkan contoh salah
satu dokumen yang digunakan dalam
penelitian.
Tabel 2 Deskripsi dokumen uji
Dokumen
Ukuran rata-rata dokumen
Ukuran seluruh dokumen
Ukuran dokumen terbesar
Ukuran dokumen terkecil

dok001.txt
Akhir-akhir ini
kentang menjadi tanaman
prioritas dan mempunyai
nilai. ...

Berdasarkan Tabel 1, recall (R) dan precision
(P) dapat dinyatakan sebagai persamaan
sebagai berikut:
=

t
t

dan

=

bytes
1329
430834
2866
445

t
t

n



.........(5)

Recall dan Precision dihitung berdasarkan
persamaan(3). Average precision (AVP)
dihitung berdasarkan 11 standard recall
levels, yaitu 0%, 10%, 20%, 30%, 40%, 50%,
60%, 70%, 80%, 90%, 100% dengan
menggunakan interpolasi maksimum (BaezaYates & Ribeiro-Neto 1999).

Gambar 2 Contoh dokumen.
Koleksi dokumen memiliki format teks
(*.txt) dengan struktur tag XML pada masingmasing dokumen. Tag XML yang digunakan
dalam koleksi dokumen, yaitu:


, mewakili keseluruhan
dokumen. Di dalamnya terdapat tag lain
yang mendeskripsikan isi dokumen secara
lebih jelas.

5




, menunjukkan ID
dari dokumen tanaman obat.
,
menunjukkan isi atau informasi dari
dokumen.

Jumlah kueri uji yang akan digunakan
dalam penelitian ini adalah 15 kueri uji yang
berasal dari Laboratorium Temu Kembali
Informasi. Daftar kueri uji yang digunakan
dapat dilihat pada Lampiran 1.
Pengindeksan Dokumen
Pemrosesan dokumen dilakukan melalui
tiga tahapan, yaitu: tokenisasi, pembuangan
stopword, dan pembobotan. Pembobotan yang
dilakukan adalah pembobotan sebaran kata.
Tokenisasi
Tahap tokenisasi dilakukan pada fungsi
get_token. Fungsi tersebut melakukan
pemecahan kata pada dokumen koleksi,
penghilangan karakter yang bersifat separator
seperti titik, koma, tanda seru, tanda tanya,
dan karakter lainnya yang dianggap kurang
representatif
dalam
mencirikan
suatu
dokumen.

pada Lampiran 3. Hasil dari tahap ini akan
digunakan sebagai input pada tahap
selanjutnya yaitu pembobotan.
Pembobotan Sebaran Kata
Pembobotan yang dilakukan dalam skripsi
ini adalah pembobotan sebaran kata.
Pembobotan sebaran kata terdiri atas tiga
tahap, yaitu pembobotan kata lokal,
pembobotan kata global, dan perkalian antara
lokal dan global. Pada tulisan ini, akan
diberikan contoh 5 dokumen (dok001,
dok002, dok003, dok006, dan dok248) dan 5
kata (organik, pupuk, kentang, tanaman, dan
pertanian). Contoh tersebut digunakan untuk
menggambarkan tahap pengerjaan dan hasil
perhitungan pada penelitian ini.
Pembobotan Kata Lokal
Pembobotan kata lokal merupakan
pencarian bobot kata berbasis sebaran pada
suatu dokumen. Secara umum, bobot kata
lokal terdiri atas 2 bagian, yaitu
luas
distribusi seragam kata (Uj) dan perluasan
penyebaran kata (Sj) pada suatu dokumen.
Untuk mengukur luas keseragaman sebaran
kata digunakan teori K.Pearson Chi Square.

Dokemen
koleksi
diproses
secara
sekuensial per karakter dari awal sehingga
menghasilkan sebuah token. Tahapan untuk
memperoleh token adalah sebagai berikut:
1 Sistem menggolongkan karakter menjadi 4
jenis, yaitu :
a whitespace, berarti karakter ini
merupakan karakter pemisah token
b alpha, berarti karakter ini merupakan
huruf
c numeric, berarti karakter ini merupakan
angka
d other, berarti karakter ini tidak
termasuk jenis-jenis a,b,dan c.
2 Sistem mengubah jenis karakter numeric
dan other menjadi whitespace.
3 Sistem melakukan pemisahan kata
berdasarkan whitespace.
4 Kata yang dianggap token adalah yang
mempunyai panjang lebih dari dua.

Tahap awal yang dilakukan pada
penelitian ini untuk mendapatkan hasil Chi
Square adalah membuat paragraf dari isi
dokumen yang ada. Proses pembuatan
paragraf pada penelitian ini adalah parsing
dokumen. Setiap paragraf berisi lima kalimat.
Hasil dari proses parsing dokumen disimpan
dalam parsing.txt. Parsing.txt digunakan
sebagai input untuk mendapatkan frekuensi
kata per paragraf pada setiap dokumen.

Pembuangan Stopword

Pada Tabel 3 dapat dilihat hasil parsing
kalimat pada 5 dokumen contoh. Tabel 3 juga
menggambarkan bahwa jumlah paragraf yang
dihasilkan oleh dokumen beragam, mulai dari
satu paragraf hingga empat paragraf
tergantung jumlah kalimat yang dimiliki oleh
dokumen.

Pembuangan stopword dilakukan setelah
proses tokenisasi pada dokumen koleksi.
Prosesnya dengan melakukan perbandingan
antara kata hasil tokenisasi dengan stopword.
Jika terdapat stopword dalam daftar token,
maka dilakukan penghapusan kata. Daftar
stopword yang digunakan dalam penelitian ini
diperoleh dari Herdi (2010) dan dilampirkan

Tabel 3 Contoh hasil parsing kalimat
Jumlah
Jumlah
Dokumen
Kalimat
Paragraf
dok001
11
3
dok002

11

3

dok003

4

1

dok006

9

2

dok248

17

4

Proses selanjutnya adalah perhitungan
peluang(r) dari setiap paragraf di suatu

6

dokumen. Peluang ditentukan dengan jumlah
kata pada paragraf(Ci) dibagi jumlah token
pada dokumen(Cm). Hasil perhitungan dari 5
contoh dokumen dapat dilihat pada Tabel 4.
Pada dok002, paragraf 2 memiliki jumlah kata
lebih banyak sehingga peluang(r) paragraf 2
lebih besar dari paragraf lain. Dokumen yang
hanya memiliki 1 paragraf(dok003), maka
peluang(r) paragraf tersebut adalah 1. Pada
dok248, paragraf 1 dan 3 memiliki jumlah
kata yang sama, sehingga dihasilkan
peluang(r) yang sama.
Tabel 4 Hasil perhitungan peluang(r)
Jumlah
Dokumen
Paragraf
Kata
dok001

r

pada Tabel 6 organik memiliki nilai U yang
terbesar.
Pada perhitungan perluasan penyebaran
kata(Sj) sebuah kata,
harus dilihat kata
tersebut tersebar di dokumen atau tidak. Nilai
yang diperlukan adalah total paragraf yang
mengandung kata tersebut(p) dan total
paragraf pada dokumen(N). Berdasarkan
Tabel 5 kata organik dan kentang merupakan
kata yang tersebar di ke-3 paragraf sehingga
nilai S adalah 1.
Proses terakhir tahap ini adalah
perhitungan bobot kata lokal pada setip kata j
(
). Hasil tahap ini berupa lokal.txt yang
digunakan pada tahap selanjutnya. Hasil
perhitungan bobot kata lokal dapat dilihat
pada Tabel 6. Kata organik mendapat nilai
tertinggi, artinya organik merupakan kata
penting dalam dokumen dok001. Sebaliknya
pada kata pertanian mendapat nilai terendah,
artinya pertanian bukan merupakan kata
penting dalam dokumen dok001.

1

42

0.442

2

44

0.463

3

9

0.095

1

45

0.346

2

71

0.546

3

14

0.108

dok003

1

40

1.000

dok006

1

62

0.564

2

48

0.436

organik

0.455

1.000

0.54

1

50

0.338

pupuk

0.184

0.736

0.18

2

40

0.270

kentang

0.317

1.000

0.39

3

50

0.338

tanaman

0.283

0.415

0.16

4

8

0.054

pertanian

0.094

0.415

0.05

dok002

dok248

Perhitungan selanjutnya adalah frekuensi
kata pada setiap paragraf(v), dan dokumen(n).
Hasil perhitungan dok001 pada kata organik,
pupuk, kentang, tanaman, dan pertanian dapat
dilihat pada Tabel 5. Nilai v, n, dan r
digunakan untuk menghitung nilai chi-square.
Tabel 5

Hasil perhitungan v dan n pada
dokumen dok001

Kata

v1

v2

v3

n

chij

organik

2

5

1

8

1.197

pupuk

1

6

0

7

4.427

kentang

4

1

1

6

2.150

tanaman

2

0

0

2

2.523

pertanian

0

0

1

1

9.555

Kata organik mempunyai nilai chisquare(chij) yang terendah. Nilai terendah
tersebut menyatakan kata organik mendekati
distribusi seragam, dan memiliki nilai
distribusi seragam(Uj) yang tinggi. Terbukti

Tabel 6 Hasil perhitungan Uj, Sj, dan bobot
lokal pada dokumen dok001
Kata
Uj
Sj Lokal

Tabel 7
Kata

Perbandingan hubungan distribusi
dan bobot lokal
p
n
Uj Lokal

organik

3

8

0.455

0.54

pupuk

2

7

0.184

0.18

kentang

3

6

0.317

0.39

tanaman

1

2

0.283

0.16

pertanian

1

1

0.094

0.05

Pada Xia dan Chai (2011), hubungan
antara luas distribusi seragam dan bobot kata
pada suatu dokumen adalah korelasi positif
non linear. Pada penelitian ini hal tersebut
terbukti pada kata organik yang memiliki luas
distribusi seragam yang tinggi dan bobot lokal
yang
dihasilkan
juga
tinggi.
Hasil
perbandingan hubungan distribusi seragam
dan bobot kata tersebut dapat dilihat pada
Tabel 7.

7

Pembobotan Global
Proses
pembobotan
global
adalah
perhitungan bobot suatu kata berdasarkan
sebaran kata dalam koleksi dokumen. Secara
umum, bobot kata global terdiri atas 2 bagian,
yaitu luas keseragaman sebaran kata(Uj’)
dan perluasan penyebaran kata(Sj’) pada
koleksi dokumen. Untuk mengukur luas
keseragaman sebaran kata digunakan teori
K.Pearson Chi Square.
Tahap awal perhitungan chi-square pada
pembobotan kata global adalah proses
perhitungan peluang dari setiap dokumen di
koleksi apabila kata menyebar(r’). Hasil
peluang didapat dari pembagian jumlah kata
di dokumen(Ci’) dibagi jumlah kata di
koleksi(Cm’). Tabel 8 merupakan hasil
perhitungan peluang(r’) pada 5 dokumen
contoh. Jumlah kata yang dimiliki oleh
seluruh koleksi adalah 33452 kata. Nilai ’
pada suatu dokumen tergantung pada jumlah
kata yang dimiliki oleh dokumen tersebut.
Dokumen dok248 memiliki jumlah kata
terbanyak, sehingga peluang(r’) dok248
memiliki nilai tertinggi. Sebaliknya untuk
dokumen dok003 memiliki jumlah kata
terkecil
sehingga
peluang(r’)
dok248
memiliki nilai terkecil.
Tabel 8 Hasil perhitungan peluang(r’)
Dokumen
Jumlah kata



dok001

95

0.00283

dok002

130

0.00388

dok003

40

0.00119

dok006

110

0.00328

dok248

148

0.00442

Proses selanjutnya adalah perhitungan
frekuensi kata pada setiap dokumen(v’), dan
frekuensi kata pada suatu koleksi(n’). Nilai r’,
v’ dan n’ digunakan untuk menghitung nilai
chi-square dari koleksi dokumen. Hasil
perhitungan v’, n’, dan chi-square dari 5
contoh kata dapat dilihat pada Tabel 9.
Tabel 9 Hasil perhitungan n’, ch ’, dan Uj’
Kata
n'
ch ’
U'
organik

53

1358.72

1359.76

pupuk

272

2033.21

2034.28

kentang

82

1509.87

1510.92

tanaman

927

711.37

712.34

pertanian

29

413.71

414.71

Kata pertanian mempunyai nilai chisquare(chi) yang terendah. Nilai terendah
menyatakan token pertanian mendekati
distribusi seragam. Artinya untuk nilai chisquare(chi) yang rendah akan mendapat nilai
distribusi seragam(Uj’) yang rendah. Terbukti
pada Tabel 9 organik memiliki nilai U yang
terkecil.
Pada perhitungan perluasan penyebaran
kata pada koleksi dokumen(Sj’), sebuah kata
harus dilihat kata tersebut tersebar di koleksi
dokumen atau tidak. Nilai yang diperlukan
adalah total dokumen yang mengandung kata
tersebut(p’) dan total seluruh dokumen pada
koleksi( ’). Pada Tabel 10, kata tanaman
berada pada 274 dokumen dengan total
koleksi 324 dokumen. Oleh karena itu,
tanaman memperoleh nilai ’ yang kecil
artinya koleksi tersebut tersebar di koleksi
dokumen.
Tabel 10 Hasil perhitungan p’, dan Sj’ dengan
’=324
Kata
p'
Sj'
organik

14

4.590

pupuk

58

2.719

kentang

22

3.975

tanaman

274

1.125

pertanian

25

3.803

Tabel 11 Hasil perhitungan Uj’, Sj’ dengan
persamaan(2) dan bobot global
Kata
Uj'
Sj'
Global
organik

1359.76

4.590

12.66

pupuk

2034.28

2.719

12.43

kentang

1510.92

3.975

12.55

tanaman

712.34

1.125

9.64

pertanian

414.71

3.803

10.62

Proses terakhir tahap ini adalah
perhitungan bobot kata lokal pada setiap kata
(
). Hasil tahap ini berupa global.txt
yang digunakan pada tahap selanjutnya. Hasil
perhitungan bobot kata global dapat dilihat
pada Tabel 11. Kata organik mendapat nilai
global lebih tinggi, artinya organik merupakan
kata lebih penting dalam koleksi dibandingkan
pupuk, kentang, tanaman, dan pertanian. Pada
Tabel 11, kata tanaman yang mempunyai
frekuensi tinggi dan penyebarannya luas
mendapatkan hasil perhitungan bobot yang
rendah sesuai dengan teori pembobotan
sebaran kata menurut Xia dan Chai (2011).

8

Berbeda dengan hasil pembobotan global
dengan perhitungan pada Tabel 12, kata
tanaman organik tidak mendapat bobot tinggi.
Tabel 12 merupakan
hasil perhitungan
pembobotan global dengan perhitungan Sj’
menggunakan persamaan(1). Nilai terbesar
diperoleh kata tanaman. Hal tersebut terjadi
karena dengan persamaan(1), kata yang
menyebar pada banyak dokumen dikoleksi
menghasilkan
’ yang tinggi sehingga
tanaman mendapatkan bobot yang lebih besar.
Hasil dari perhitungan ini tidak sesuai dengan
teori pembobotan sebaran kata menurut Xia
dan Chai (2011) sehingga, pada tahap
selanjutnya digunakan hasil pada Tabel 11,
yaitu dengan perhitungan Sj’ menggunakan
persamaan (2).
Tabel 12 Hasil perhitungan Uj’, Sj’ dengan
persamaan(1) dan bobot Global
Kata
Uj'
Sj'
Global

Hasil dari tahap ini disimpan dalam
lokalglobal.txt. Hasil perhitungan pembobotan
sebaran kata dapat diliihat pada Tabel 14.
Berdasarkan pembobotan sebaran kata,
organik memiliki nilai tertinggi pada dokumen
dok001. Oleh karena itu, organik merupakan
kata penciri dari dokumen dok001.
Tabel 14 Hasil perhitungan bobot lokal,
global, dan sebaran kata pada
dok001
Sebaran
Kata
Lokal
Global
Kata
organik
0.54
12.66
6.82
pupuk

0.18

12.43

2.28

kentang

0.39

12.55

4.99

tanaman

0.16

9.64

1.55

pertanian

0.05

10.62

0.59

organik

1359.76

0.061

6.39

Kesamaan Dokumen dan Kueri

pupuk

2034.28

0.237

8.92

Metode yang digunakan untuk pengukuran
kesamaan adalah ukuran kesamaan kosinus.
Pada tahap awal dalam pengukuran kesamaan
dokumen, diperlukan kueri yang di masukkan
ke dalam sistem oleh pengguna. Kueri
diterima oleh sistem,
dan dilakukan
perubahan menjadi vektor kueri. Tahap
selanjutnya adalah proses perhitungan
kesamaan antara vektor dokumen dan kueri
yang diimplementasikan
menggunakan
persamaan(4).

kentang

1510.92

0.095

7.17

tanaman

712.34

0.884

9.30

pertanian

414.71

0.107

5.51

Pada Xia dan Chai (2011), hubungan
antara luas distribusi seragam dan bobot kata
pada suatu koleksi adalah korelasi negatif non
linear. Pada penelitian ini, hal tersebut
terbukti pada kata tanaman yang memiliki
luas distribusi seragam yang tinggi dan bobot
global yang rendah. Hasil perbandingan
hubungan distribusi seragam dan bobot
tersebut dapat dilihat pada Tabel 13
Tabel 13 Perbandingan hubungan distribusi
seragam dan bobot global
Kata
n'
p'
Global
organik

53

14

12.66

pupuk

272

58

12.43

kentang

82

22

12.55

tanaman

927

274

9.64

pertanian

29

25

10.62

Perkalian antara lokal dan global
Tahap terakhir dalam pembobotan
persebaran kata adalah perhitungan nilai
keseluruhan pembobotan persebaran kata.
Perhitungan yang dilakukan pada tahap ini
adalah perkalian dari pembobotan lokal dan
pembobotan
global
menggunakan
persamaan(3).

Pengujian Kinerja Sistem
Proses evaluasi dalam penelitian ini
dilakukan pada koleksi jurnal hortikultura.
Proses evaluasi pada koleksi jurnal
hortikultura menggunakan 15 kueri uji yang
terdapat pada Laboratorium Information
Retrieval. Daftar kueri uji dan dokumen
relevan yang digunakan pada penelitian ini
terdapat pada Lampiran 1.
Pencarian dengan kueri uji ini dilakukan
dengan melakukan
pengukuran recallprecision dari sistem. Recall adalah rasio
dokumen relevan yang ditemukembalikan dan
precision adalah dokumen relevan yang
ditemukembalikan. Perhitungan recall dan
precision menggunakan persamaan(5). Hasil
dari evaluasi recall precision masing-masing
kueri diinterpolasi maksimum untuk mencari
nilai average precision (AVP) dan
digambarkan dalam bentuk grafik serta tabel.
Proses evaluasi yang dilakukan pada
penelitian ini menggunakan kode program

9

dari Putra (2011) dengan modifikasi oleh
penulis.
Gambar 3 merupakan grafik dari 11 titik
recall yang dihitung menggunakan interpolasi
maksimum. Hasil temu kembali informasi
menghasilkan nilai average precision (AVP)
sebesar 0.848 yang artinya secara rata-rata
pada tiap titik recall, 84.8% hasil temukembali relevan dengan kueri.
1

precision

0.8
0.6

paragraf memiliki nilai yang lebih tinggi,
yaitu 0.848 atau 84,8%. Hal tersebut
disebabkan oleh parsing 5 kalimat membuat
setiap paragraf akan memiliki jumlah kalimat
yang lebih banyak sehingga bobot dari kata
penanda dokumen akan semakin bertambah.
Selain itu, pada parsing 5 kalimat, dokumen
harus memiliki jumlah kata yang banyak.
Pada dokumen yang jumlah katanya sedikit,
parsing 5 kalimat kinerjanya menurun, terlihat
pada kueri hama pengerek, lalat buah, dan
pupuk npk. Pada kueri tersebut lebih cocok
menggunakan parsing 3 atau 4. Karena
parsing 3 atau 4 kalimat, paragraf akan lebih
banyak dan kata penciri lebih tersebar,
sehingga bobot meningkat.
Tabel 15 Perbedaan hasil AVP untuk proses
parsing 3, 4, dan 5 kalimat
Jumlah kalimat per
paragraf
Kueri
3
4
5

0.4
0.2
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

recall
Gambar 3 Grafik recall precision.

cabai merah

0.622

0.801

0.687

buah tropika

0.508

0.675

0.730

padi

1.000

1.000

1.000

budidaya anggrek

0.227

0.555

1.000

Perbandingan Hasil Uji Kueri

kultur in vitro

0.280

0.336

0.474

Pada tahap evaluasi penelitian ini,
dilakukan beberapa perbandingan hasil temu
kembali pada kueri uji, yaitu perbandingan
pembobotan sebaran kata menggunakan
parsing 3, 4, dan 5 kalimat, serta
perbandingan pembobotan sebaran kata
dengan TFIDF.

fungisida

0.835

0.835

0.851

genotip

1.000

1.000

1.000

hama penggerek

0.894

0.864

0.769

jagung

1.000

1.000

1.000

pupuk npk

0.709

0.634

0.635

gladiol

1.000

1.000

1.000

tanah latosol

0.909

0.510

1.000

lalat buah

0.784

0.830

0.584

tunas

1.000

1.000

1.000

vaksin
Average
precision(AVP)

1.000

1.000

1.000

0.785

0.803

0.848

Penentuan
jumlah kalimat pada
pembuatan sebuah paragraf diduga akan
mempengaruhi kinerja sistem dalam proses
temu kembali dokumen. Penelitian ini
melakukan 3 percobaan, yaitu membuat
parsing kalimat sebanyak 3, 4, dan 5 kalimat
per paragraf. Proses parsing pada penelitian
ini merupakan tahap awal pada pembobotan
lokal.
Kinerja sistem pembobotan sebaran kata
dengan parsing 3, 4, dan 5 kalimat memiliki
hasil AVP yang berbeda. Perbedaan hasil
AVP dapat ditunjukan oleh Tabel 13. AVP
sistem dengan parsing sebanyak 3 kalimat
sebesar 0.785, 4 kalimat sebesar 0.803, dan 5
kalimat sebesar 0.848. Pada Lampiran 4, 5
dan 6 dapat dilihat nilai AVP pada masingmasing kueri untuk parsing 3, 4, dan 5
kalimat.
Pada Tabel 15 terlihat bahwa AVP sistem
yang melakukan parsing 5 kalimat per

Kinerja sistem pembobotan sebaran kata
dan TFIDF menghasilkan output yang
berbeda. Secara umum, sistem sebaran kata
menghasilkan AVP sebesar 0.848, sedangkan
TFIDF menghasilkan AVP sebesar 0.833.
Pada penelitian ini, dapat dikatakan hasil
pembobotan sebaran kata lebih tinggi.
Perbandingan nilai AVP dari sebaran kata dan
TFIDF dapat dilihat pada Gambar 4. Pada
Lampiran 6 dan 7 dapat dilihat nilai AVP
pada masing-masing kueri uji untuk
pembobotan sebaran kata dan TFIDF. Tabel
16 merupakan hasil perbandingan dari 15

10

kueri yang dimasukkan ke sistem sebaran kata
dan TFIDF.
1

precision

0.8

pada dokumen dan mengakibatkan kata
penciri pada dokumen tidak tersebar. Pada
penelitian ini, penciri yang tidak tersebar
menyebabkan penciri dokumen mendapatkan
bobot yang kecil dan kinerja sistem menurun.

SIMPULAN DAN SARAN

0.6

Simpulan
0.4

Berdasarkan penelitian yang
dilakukan, dapat disimpulkan bahwa:

0.2

1

Hasil akurasi sistem pembobotan sebaran
kata lebih dari 80% dengan parsing 5
kalimat per paragraf.

2

Akurasi hasil pembobotan sebaran kata
lebih besar dibandingkan pembobotan
TFIDF untuk koleksi dokumen jurnal
hortikultura, dengan sebaran kata 84.8%
dan TFIDF 83.2%.

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

TFIDF

recall
Sebaran Kata

Gambar 4 Perbandingan pembobotan sebaran
kata dan TFIDF.
Tabel 16 Perbandingan 15 kueri pada sistem
Sebaran
Kueri
TFIDF
Kata
cabai merah
0.687
0.586
buah tropika

0.730

0.440

padi

1.000

1.000

budidaya anggrek

1.000

0.636

kultur in vitro

0.474

0.535

fungisida

0.851

0.818

genotip

1.000

1.000

hama penggerek

0.769

0.909

jagung

1.000

1.000

pupuk npk

0.635

0.785

gladiol

1.000

1.000

tanah latosol

1.000

0.773

lalat buah

0.584

1.000

tunas

1.000

1.000

vaksin
Average
precision(AVP)

1.000

1.000

0.848

0.832

Berdasarkan Tabel 16, sistem pembobotan
berdasarkan sebaran kata memiliki hasil yang
lebih baik dari TFIDF. Namun, terdapat
beberapa kueri dari sistem TFIDF yang
memiliki nilai yang lebih baik dari sebaran
kata. Kueri tersebut adalah kultur in vitro,
hama pengerek, pupuk npk, dan lalat buah.
Hal tersebut disebabkan oleh jumlah kata
yang terdapat pada gugus jawaban dari kueri
tersebut sedikit. Jumlah kata yang sedikit
berakibat pada sedikitnya jumlah paragraf

telah

Saran
Pada
penelitian
ini,
perhitungan
pembobotan berdasarkan sebaran kata
dilakukan pada seluruh token yang terdapat
pada suatu dokumen maupun pada suatu
koleksi.
Pada
penelitian
selanjutnya,
diharapkan adanya pemilihan fitur sehingga
hanya token tertentu yang dipilih untuk proses
perhitungan.

DAFTAR PUSTAKA
Baeza-Yates R, Ribeiro-Neto B. 1999.
Modern Information Retrieval. New York:
Addison-Wesley.
Herdi H. 2010. Pembobotan dalam proses
pengindeksan dokumen bahasa Indonesia
menggunakan framework Indri [Skripsi].
Bogor: Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian
Bogor.
Manning CD, Raghavan P, Schutze H. 2008.
Introduction to Information Retrieval.
Cambridge: Cambridge University Press.
Putra DDP. 2011. Temu kembali model
Extended Boolean menggunakan P-Norm
Model dan Belief Revision [skripsi].
Bogor: Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian
Bogor.
Ridha A. 2012. Pengindeksan otomatis
dengan istilah tunggal untuk dokumen
bahasa Indonesia [skripsi]. Bogor:
Fakultas
Matematika
dan
Ilmu

11

Pengetahuan
Bogor.

Alam,

Institut

Pertanian

Salton G. 1989. Automatic Text Processing:
The Transformation, Analysis, and
Retrieval of Information by Computer.
Boston: Addison-Wesley.

T. Xia, Y. Chai. 2011. An improvement to
TF-IDF: Term distribution based Term
Weight Algorithm. Journal of Software
6:413-420.

LAMPIRAN

13

Lampiran 1 Daftar kueri uji dan dokumen yang relevan
Kueri Uji

padi
budidaya anggrek

Dokumen Relevan
dok053.txt, dok059.txt, dok061.txt, dok100.txt, dok124.txt, dok153.txt,
dok169.txt, dok201.txt, dok212.txt, dok223.txt, dok232.txt, dok283.txt
dok025.txt, dok064.txt, dok079.txt, dok104.txt, dok106.txt, dok111.txt,
dok113.txt, dok115.txt, dok128.txt, dok129.txt, dok131.txt, dok133.txt,
dok140.txt, dok145.txt, dok158.txt, dok227.txt, dok238.txt, dok264.txt,
dok286.txt, dok296.txt, dok301.txt
dok011.txt, dok089.txt, dok108.txt, dok243.txt
dok023.txt, dok110.txt, dok186.txt

kultur in vitro

dok023.txt, dok110.txt, dok161.txt, dok196.txt, dok248.txt, dok259.txt

cabai merah

buah tropika

fungisida

genotip
hama penggerek
jagung
pupuk npk
gladiol
tanah latosol
lalat buah

tunas

vaksin

dok055.txt, dok061.txt, dok070.txt, dok071.txt, dok125.txt, dok126.txt,
dok129.txt, dok136.txt, dok283.txt, dok291.txt, dok308.txt
dok003.txt, dok015.txt, dok029.txt, dok037.txt, dok045.txt, dok047.txt,
dok113.txt, dok179.txt, dok209.txt, dok210.txt, dok224.txt, dok225.txt,
dok231.txt, dok232.txt, dok250.txt, dok255.txt, dok257.txt, dok305.txt,
dok324.txt
dok051.txt, dok069.txt, dok140.txt, dok145.txt, dok247.txt, dok315.txt
dok051.txt, dok053.txt, dok065.txt, dok069.txt, dok076.txt, dok108.txt,
dok137.txt, dok145.txt, dok315.txt
dok004.txt, dok007.txt, dok012.txt, dok018.txt, dok056.txt, dok087.txt,
dok100.txt, dok155.txt, dok157.txt, dok160.txt, dok164.txt, dok168.txt,
dok189.txt, dok194.txt, dok244.txt
dok075.txt, dok099.txt, dok107.txt, dok125.txt, dok193.txt, dok199.txt,
dok244.txt, dok245.txt, dok250.txt, dok251.txt, dok252.txt, dok322.txt
dok024.txt, dok080.txt, dok324.txt
dok064.txt, dok141.txt, dok148.txt, dok296.txt, dok304.txt
dok033.txt, dok043.txt, dok044.txt, dok079.txt, dok084.txt, dok090.txt,
dok116.txt, dok117.txt, dok127.txt, dok155.txt, dok158.txt, dok161.txt,
dok171.txt, dok172.txt, dok189.txt, dok193.txt, dok196.txt, dok205.txt,
dok207.txt, dok213.txt, dok219.txt, dok220.txt, dok226.txt, dok228.txt,
dok229.txt, dok248.txt, dok286.txt
dok058.txt, dok297.txt, dok313.txt, dok316.txt

14

Lampiran 2 Contoh dokumen koleksi pengujian

dok001.txt
Akhir akhir ini kentang menjadi tanaman prioritas dan mempunyai nilai ekonomi tinggi.
Produksi umbi kentang di Indonesia masih rendah sehingga diperlukan upaya untuk menaikkan
produksi dan mutu umbi. Kendala yang dihadapi petani kentang d