Ekstraksi Ciri Dokumen Tumbuhan Obat Menggunakan Chi-Kuadrat dengan Klasifikasi Naive Bayes

EKSTRAKSI CIRI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN
CHI-KUADRAT DENGAN KLASIFIKASI NAIVE BAYES

YOGA HERAWAN

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011

ABSTRACT
YOGA HERAWAN. Feature Extraction of Medicinal Plants using Chi-Square with Naïve
Bayes Classifier. Supervised by YENI HERDIYENI.
This research presented a system for extracting terms and classifying medicinal plants
documents using chi-square and naïve bayes classifier. Term extraction technique was used to
make the classifier work efficiently and to increase classification accuracy. The criteria used in this
research were the family of medicinal plants and utilization of medicinal plants for medication.
The classification results were used to build an information retrieval system of Indonesian
medicinal plants. This research used two significance levels for generating critical value, i.e 0.001
and 0.01. The experiment result showed that the critical value using significance level of 0.001 has

better accuracy than the critical value using significance level 0.01. Accuracy of classification
system using significance level of 0.001 were 97.44% for family and 89.74% for utilization of
medicinal plants criteria. The information retrieval system tested using 29 queries about family
and utilization of medicinal plants. The information retrieval system had an average value
generated was 93.26%.
Keywords : document classification, naïve bayes classifier, chi –square, feature selection,
information retrieval.

i

EKSTRAKSI CIRI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN
CHI-KUADRAT DENGAN KLASIFIKASI NAIVE BAYES

YOGA HERAWAN

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011


Judul
Nama
NIM

: Ekstraksi Ciri Dokumen Tumbuhan Obat Menggunakan Chi-Kuadrat dengan
Klasifikasi Naive Bayes
: Yoga Herawan
: G64070050

Menyetujui:
Pembimbing

Dr. Yeni Herdiyeni, S.Si., M.Kom.
NIP. 19750923 200012 2 001

Mengetahui:
Ketua Departemen Ilmu Komputer
Institut Pertanian Bogor


Dr. Ir. Sri Nurdiati, M.Sc.
NIP. 19601126 198601 2 001

Tanggal Lulus :

PRAKATA
Puji dan syukur penulis panjatkan kehadirat Allah SWT yang senantiasa memberikan
rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tulisan ini dengan judul: Ekstraksi
Ciri Dokumen Tumbuhan Obat Menggunakan Chi-Kuadrat dengan Klasifikasi Naive Bayes.
Shalawat dan salam disampaikan kepada Nabi Muhammad SAW beserta keluarga, sahabat, dan
pengikutnya yang tetap berada di jalan-Nya hingga akhir zaman.
Selama penelitian, penulis menyadari bahwa banyak pihak yang ikut membantu sehingga
skripsi ini dapat diselesaikan, oleh karena itu penulis ingin menyampaikan ucapan terima kasih
kepada:
1. Kedua orang tua tercinta serta kedua saudaraku tercinta, Herlina Pratiwi dan Prima Adi
Pradana, atas doa dan semangat yang diberikan.
2. Ibu Dr. Yeni Herdiyeni, S.Si, M.Kom selaku pembimbing akademis yang telah memberikan
banyak bantuan, kemudahan, saran dan ilmu kepada penulis.
3. Bapak Ir. Julio Adisantoso, M.Kom. dan Bapak Sony Hartono Wijaya, S.Kom., M.Kom. selaku
dosen penguji atas kemudahan dan ilmu yang telah diberikan kepada penulis.

4. Sahabat sekaligus kakak bagi penulis, Febi Damiko, Bang Pram, Bang Khamsi, yang telah
berbagi cerita suka dan duka, ilmu serta saran dan diskusi yang sangat membangun pola pikir
penulis.
5. Sahabat-sahabat terbaik dari Ilkomerz44 Kristina Paskianti, Iyos Kusmana, Khamdan Amin,
Danar Setya P, Mukhlis Said, Arizal Notyasa, Akbar “Jowo”, Akbar “masbero”, Imadudin
“ijah” ayi, Agus “Alay” Umriadi dan Devi Dian Pramana Putra yang telah berbagi cerita suka
dan duka bersama selama penulis menjadi mahasiswa.
6. Teman-teman J.Co Basketball FC, Amboro Rintoko, Bayu Chandra Winata, Akbar “jowo”,
Mudho, atas jalinan persahabatan, semangat dan optimisme, serta keceriaan yang dilalui
bersama penulis selama penulis menjadi mahasiswa.
7. Teman-teman satu bimbingan Kristina, Iyos, Fanni “Cicin”, Fanni “Culun”, Wido, Dimpy,
Ella, Pak Rico, mbak Putri dan mbak Vira atas saran, masukan dan nasihat yang diberikan
kepada penulis.
8. Irma Amalia Pratiwi yang selalu memberikan dorongan semangat dan doa kepada penulis.
Penulis menyadari bahwa masih banyak kekurangan yang ditemukan dalam tugas akhir ini.
Penulis berharap adanya saran dan kritik yang membangun dari semua pihak yang membaca
tulisan ini. Semoga tulisan ini bermanfaat dan dapat menambah wawasan ilmu pengetahuan bagi
penulis khususnya dan pembaca umumnya.

Bogor, September 2011


Yoga Herawan

RIWAYAT HIDUP
Penulis dilahirkan di Wonogiri pada tanggal 30 Juli 1989 dari pasangan Ir. Slamet Sardjito
dan Rahayu Dwi Hastuti. Penulis merupakan anak kedua dari tiga bersaudara.
Penulis menempuh pendidikan dasar di SD Negeri Wonogiri VII, SMP Negeri 1 Wonogiri.
Tahun 2007 penulis lulus dari SMA Negeri 1 Wonogiri dan pada tahun yang sama penulis masuk
Institut Pertanian Bogor (IPB) melalui jalur Ujian Saringan Masuk IPB (USMI). Penulis masuk
Program S1 Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian Bogor.
Pada bulan Juli-Agustus 2010 penulis berkesempatan melaksanakan kegiatan Praktik Kerja
Lapangan di Balai Penelitian Tanaman Obat dan Aromatik, Bogor. Selama menjadi mahasiswa
penulis juga pernah menjadi asisten praktikum Basis Data, Sistem Pakar dan Sistem Informasi.

iv

DAFTAR ISI
Halaman
DAFTAR GAMBAR ............................................................................................................................. vi

DAFTAR TABEL ................................................................................................................................. vi
DAFTAR LAMPIRAN ......................................................................................................................... vi
PENDAHULUAN .................................................................................................................................. 1
Latar belakang ................................................................................................................................... 1
Tujuan ............................................................................................................................................... 1
Ruang lingkup ................................................................................................................................... 1
Manfaat ............................................................................................................................................. 1
TINJAUAN PUSTAKA ......................................................................................................................... 1
Temu kembali informasi ................................................................................................................... 1
Klasifikasi ......................................................................................................................................... 2
Pemilihan fitur dokumen ................................................................................................................... 2
Keputusan statistik dan hipotesis statistik ......................................................................................... 2
Chi-kuadrat ( )............................................................................................................................... 2
Document frequency thresholding (DF)............................................................................................ 4
Naive Bayes classifier ....................................................................................................................... 4
Confusion matrix ............................................................................................................................... 5
Recall precision................................................................................................................................. 5
SphinxSearch ..................................................................................................................................... 5
Pembobotan BM25............................................................................................................................ 6
METODE PENELITIAN ....................................................................................................................... 6

Dokumen tumbuhan obat .................................................................................................................. 6
Praproses data ................................................................................................................................... 8
Pembagian data ................................................................................................................................. 8
Pemilihan fitur................................................................................................................................... 8
Klasifikasi Naïve Bayes..................................................................................................................... 8
Temu kembali informasi ................................................................................................................... 9
Evaluasi model klasifikasi................................................................................................................. 9
Evaluasi sistem temu kembali ........................................................................................................... 9
Lingkungan pengembangan sistem ................................................................................................... 9
HASIL DAN PEMBAHASAN ............................................................................................................ 10
Praproses ......................................................................................................................................... 10
Pemilihan fitur................................................................................................................................. 10
Pengujian kinerja sistem.................................................................................................................. 11
KESIMPULAN DAN SARAN ............................................................................................................ 12
Kesimpulan ..................................................................................................................................... 12
Saran ............................................................................................................................................... 12
DAFTAR PUSTAKA ........................................................................................................................... 13

v


DAFTAR GAMBAR
Halaman
Distribusi chi-kuadrat………………………………………………………………………. 3
Tahapan penelitian………………………………………………………………………….. 7
Format koleksi dokumen…………………………………………………………………… 8
Rataan waktu proses klasifikasi pada setiap pemilihan nilai kritis (chi-kuadrat). ………… 10
Rataan waktu proses klasifikasi pada setiap pemilihan nilai threshold (df).……………….. 11
Akurasi sistem klasifikasi…………………………………………………………………… 11
7. Grafik recall precision kueri uji ……….…………………………………..……………….. 12

1.
2.
3.
4.
5.
6.

DAFTAR TABEL

1.

2.
3.
4.
5.
6.

Halaman
Tabel kontingensi antara kata terhadap kelas………………………………………………… 3
Nilai kritis χ2 untuk tingkat signifikansi α ..…………………………………………………. 4
Confusion matrix untuk klasifikasi biner…………………..................................................... 5
Distribusi dokumen penyakit………………………………………………………………… 7
Distribusi dokumen family………………………………………………………………….. 7
Kumpulan kueri uji ………………………………………………………………………….. 9

DAFTAR LAMPIRAN
Halaman
1. Daftar 32 jenis tumbuhan obat Indonesia yang digunakan dalam penelitian……………….. 15
2. Tabel distribusi chi-kuadrat pada berbagai tingkat signifikansi dan derajat bebas tertentu... 16
3. Confusion matrix untuk kelas family (berdasarkan pemilihan fitur chi-kuadrat pada nilai
signifikansi 0,001)…………………………………………………………………….……… 17

4. Confusion matrix untuk kelas penyakit (berdasarkan pemilihan fitur chi-kuadrat pada nilai
signifikansi 0,001)…………………………………………………………………………… 18

vi

PENDAHULUAN
Latar belakang
Indonesia
merupakan
negara
megabiodiversity yang memiliki kekayaan
tumbuhan obat. Indonesia memiliki lebih dari
38.000 spesies tanaman (Bappenas 2003).
Sampai tahun 2001 Laboratorium Konservasi
Tumbuhan, Fakultas Kehutanan IPB telah
mendata bahwa tidak kurang dari 2.039
spesies tumbuhan obat berasal dari hutan
Indonesia (Zuhud 2009). Kandungan kimia
yang terdapat dalam jenis tumbuhan obat
tersebut mendorong peneliti untuk melakukan

penelitian tentang penyakit yang dapat
diobati dari suatu jenis tumbuhan obat
tertentu. Melalui media cetak dan elektronik
hasil penelitian tersebut didokumentasikan
untuk diinformasikan kepada masyarakat.
Internet membuat dokumentasi elektronik
tersebar dengan mudah di dalam maupun luar
negeri. Mesin pencari internet digunakan oleh
pengguna di seluruh dunia untuk mencari
informasi terkait tumbuhan obat yang
dikehendaki. Banyaknya jumlah dokumentasi
elektronik tersebut mempengaruhi kinerja
mesin pencari dalam mengembalikan
dokumen yang relevan terhadap keinginan
pengguna. Untuk meningkatkan kinerja
mesin pencari diperlukan sistem pengelolaan
dokumen yang lebih baik dari sebelumnya.
Untuk itu diperlukan sistem klasifikasi
dokumen secara otomatis. Salah satu teknik
klasifikasi dokumen adalah Naïve Bayes.
Naïve Bayes merupakan classifier sederhana
yang didasarkan pada penerapan teorema
Bayes. Kelebihan teknik ini adalah mampu
mengklasifikasikan dokumen dengan tepat
serta mudah dalam pengimplementasiannya
(Thabtah 2009). Dalam jangka panjang,
dokumen penelitian yang akan terindeks
semakin bertambah seiring berjalannya
waktu. Kerja yang lebih berat harus
dilakukan oleh sistem classifier jika hanya
mengandalkan teknik klasifikasi dokumen
saja, hal tersebut dikarenakan sistem
klasifikasi mengambil isi dari uraian setiap
dokumen.
Salah
satu
cara
untuk
meningkatkan kinerja dari sistem klasifikasi
adalah dengan menerapkan teknik pemilihan
fitur dokumen. Ada beberapa teknik yang
digunakan untuk melakukan pemilihan fitur
dokumen antara lain Document Frequency
Thresholding (DF), Information Gain (IG),
Mutual Information (MI), Term strength (TS)
dan Chi-square testing (X2) (Yimming 2003).
Chi-square merupakan teknik pemilihan fitur

dokumen yang sangat efektif untuk memilih
kata penciri suatu dokumen namun tidak
menurunkan akurasi sistem klasifikasi
(Yimming 1997). Document frequency
thresholding merupakan teknik yang
sederhana untuk mengurangi jumlah kata
yang akan diproses. Teknik Document
frequency thresholding mudah untuk
diimplementasikan (Yimming 1997).
Penelitian ini akan membandingkan
kinerja pemilihan fitur dokumen antara
teknik chi-kuadrat dan teknik document
thresholding frequency (df) yang kemudian
dilakukan pembangunan sistem klasifikasi
Naïve Bayes untuk mengklasifikasikan
dokumen tumbuhan obat Indonesia. Dalam
penelitian ini, sistem klasifikasi akan
mengklasifikasikan dokumen berdasarkan
kategori family tumbuhan obat dan penyakit
yang dapat disembuhkan oleh suatu jenis
tumbuhan obat. Hasil klasifikasi tersebut
kemudian akan digunakan untuk membangun
sistem mesin pencari dokumen.
Tujuan
Tujuan
penelitian
ini
adalah
mengembangkan sistem temu kembali
informasi tumbuhan obat yang bekerja
berdasarkan hasil pemilihan fitur dokumen
serta Naïve Bayes sebagai penglasifikasi
dokumen.
Ruang lingkup
Ruang lingkup penelitian ini meliputi :
1.
2.
3.

Dokumen terbatas pada 32 jenis
tumbuhan obat Indonesia (Lampiran 1).
Dokumen yang digunakan berformat
XML.
Sistem menglasifikasikan dokumen
berdasarkan penyakit yang dapat
disembuhkan dan family dari suatu
tumbuhan obat tertentu.

Manfaat
Manfaat dari penelitian ini adalah
mempercepat dan mempermudah pengguna
dalam mencari informasi tentang tumbuhan
obat Indonesia.

TINJAUAN PUSTAKA
Temu kembali informasi
Sistem temu
kembali informasi
(Information retrieval system) merupakan
sistem pencari pada sekumpulan dokumen

1

elektronik yang memenuhi kebutuhan
informasi tertentu (Manning et al. 2008).
Sistem temu kembali informasi bertujuan
untuk menjembatani kebutuhan informasi
pengguna dengan sumber informasi.
Temu kembali informasi berkaitan
dengan cara merepresentasikan, menyimpan,
mengorganisasikan,
dan
mengakses
informasi.
Merepresentasikan
dan
mengorganisasikan suatu informasi harus
membuat pengguna lebih mudah dalam
mengakses informasi yang diinginkannya.
Akan tetapi, untuk mengetahui informasi
yang diinginkan pengguna bukan merupakan
suatu hal yang mudah. Untuk itu pengguna
harus menransformasikan informasi yang
dibutuhkan ke dalam suatu kueri yang akan
diproses mesin pencari (IR System), sehingga
kueri tersebut merepresentasikan informasi
yang dibutuhkan oleh pengguna. Dengan
kueri
tersebut,
IR
system
akan
menemukembalikan informasi yang relevan
terhadap kueri (Baeza-Yates & Ribeiro-Neto
1999).
Klasifikasi
Klasifikasi adalah proses untuk
menentukan kelas dari suatu objek tertentu.
Pada klasifikasi dokumen, permasalahan
yang muncul adalah sebagai berikut:
diberikan sebuah deskripsi d X dari sebuah
dokumen dimana X merupakan ruang
dokumen. Sebuah himpunan tetap kelas
{
}, dengan menggunakan
algoritme pembelajaran, dilakukan proses
pembelajaran terhadap fungsi klasifikasi
sehingga dapat memetakan dokumen pada
kelas C.

Proses klasifikasi dibagi menjadi dua
tahap,
yaitu
tahapan
pembelajaran
dan pengujian. Pada tahap pembelajaran,
sebagian data yang telah diketahui kelasnya
(data latih) digunakan untuk membuat model
klasifikasi. Tahap pengujian menguji data uji
dengan model klasifikasi untuk mengetahui
akurasi model klasifikasi tersebut. Jika
akurasi cukup maka model tersebut dapat
digunakan untuk memprediksi kelas data
yang belum diketahui (Han & Kamber 2006).
Pemilihan fitur dokumen
Pemilihan fitur dokumen merupakan
suatu proses memilih sebanyak
kata
terbaik. Kata tersebut merupakan himpunan
dari semua kata yang ada pada data latih.

Dalam penelitian ini, data dari himpunan
tersebut akan digunakan sebagai penciri
dokumen yang akan diklasifikasikan.
Pemilihan fitur dokumen memiliki dua
tujuan utama yaitu membuat data latih yang
diterapkan oleh sistem klasifikasi menjadi
lebih sederhana serta untuk meningkatkan
akurasi sistem klasifikasi. Peningkatan
akurasi sistem klasifikasi disebabkan karena
pada proses penghilangan fitur akan
dihilangkan kata-kata yang bukan merupakan
penciri dokumen (Manning et all 2008).
Keputusan statistik dan hipotesis statistik
Keputusan yang diambil berdasarkan
informasi sampel yang didapatkan dari data
disebut keputusan statistik. Sebagai contoh
keputusan statistik adalah ketika akan
memutuskan berdasarkan data sampel apakah
suatu serum baru benar-benar efektif dalam
menyembuhkan suatu penyakit, apakah suatu
prosedur pendidikan lebih baik dari prosedur
pendidikan lainnya.
Untuk mencapai suatu keputusan,
diperlukan asumsi awal tentang populasi
yang terlibat yang kemudian disebut sebagai
hipotesis statistik. Hipotesis umumnya
merupakan pernyataan umum yang berkaitan
dengan distribusi probabilitas dari populasi.
Hipotesis diperlukan untuk menentukan
apakah hasil yang diduga cenderung untuk
benar. Hipotesis nol (H0) menyatakan bahwa
tidak ada perbedaan di dalam hasil yang
sedang diperiksa atau disebut juga nol
pengaruh (zero effect).
Chi-kuadrat (

)

Chi-kuadrat ( ) merupakan pengujian
hipotesis mengenai perbandingan antara
frekuensi sampel yang benar-benar terjadi
(kemudian disebut frekuensi observasi)
dengan frekuensi harapan yang didasarkan
atas hipotesis tertentu pada setiap kasus atau
data (selanjutnya disebut dengan frekuensi
harapan .
Sampel berukuran N diambil dari suatu
populasi normal berdeviasi standar σ. Untuk
setiap sampel dihitung nilai
sehingga
diperoleh distribusi sampling untuk
yang
disebut distribusi chi-kuadrat.
Distribusi chi-kuadrat tergantung pada
satu parameter, yaitu derajat kebebasan (d.f).
Persamaan 1 digunakan untuk menghitung
besarnya jumlah derajat bebas dari suatu
kasus. Persamaan 2 digunakan untuk

2

menghitung derajat bebas saat menggunakan
tabel kontingensi

dengan N adalah ukuran sampel yang
diambil, R adalah jumlah baris dan C adalah
jumlah kolom. Distribusi chi-kuadrat untuk
berbagai nilai diperlihatkan pada Gambar 1.
Gambar 1 menunjukkan bahwa masingmasing distribusi merupakan distribusi
probabilitas, sehingga luas di bawah kurva
bernilai 1.

Pada penelitian ini,
mengukur
derajat kebebasan antara kata penciri
dengan kelas
agar dapat dibandingkan
dengan persebaran nilai
(Mesleh 2007).
Chi-kuadrat mengevaluasi korelasi antara
dua variabel dan kemudian menentukan
apakah saling bebas atau berhubungan sesuai
dengan nilai pada tabel chi.
Penghitungan nilai chi-kuadrat pada
setiap kata yang muncul pada setiap kelas
dapat dibantu dengan menggunakan tabel
kontingensi. Nilai yang terdapat pada tabel
kontingensi merupakan nilai frekuensi
observasi dari suatu kata terhadap kelas.
Tabel 1 menunjukkan tabel kontingensi
antara kata terhadap kelas. Apabila frekuensi
harapan pada kata dan kelas q adalah Epq,
banyaknya frekuensi observasi dalam
dokumen
adalah
, maka peluang
dan
dapat
digunakan untuk menghitung frekuensi
harapan yang diperoleh dengan rumus pada
Persamaan 4:
)
dengan nilai peluang kata dan peluang kelas:

Gambar 1 Distribusi chi-kuadrat.
Pengaruh antara frekuensi sampel dan
frekuensi harapan dapat diuji menggunakan
suatu hipotesis H0. Hipotesis nol adalah
hipotesis yang menyatakan tidak adanya
perbedaan yang signifikan antara frekuensi
observasi
dengan
frekuensi
harapan.
Pengujian hipotesis dilakukan pada tingkat
signifikansi tertentu. Tingkat signifikansi
yang dimaksud adalah peluang salah menolak
hipotesis yang seharusnya benar (Spiegel
2004). Penghitungan nilai chi-kuadrat yang
digunakan untuk melakukan pengujian
perbedaan antara pola frekuensi observasi
( ), dengan frekuensi harapan ( )
ditunjukkan pada Persamaan 3.


Berdasarkan nilai chi-kuadrat tersebut
dapat diambil suatu keputusan statistik
apakah terjadi perbedaan antara pola
frekuensi observasi dengan frekuensi
harapan. Hipotesis nol (H0) diterima jika nilai
penghitungan
< nilai kritis pada derajat
bebas dan tingkat signifikansi tertentu.
Hipotesis nol (H0) ditolak jika nilai
penghitungan
> nilai kritis pada derajat
bebas dan tingkat signifikansi tertentu.

Tabel 1 Tabel kontingensi antara kata
terhadap kelas
Kelas
Kelas = 1

Kelas = 0

Kata = 1

A

B

Kata = 0

C

D

Kata

Penghitungan
nilai
chi-kuadrat
berdasarkan tabel kontingensi tersebut
disederhanakan dalam Persamaan 5.

dengan t merupakan kata yang sedang
diujikan terhadap suatu kelas c, merupakan
jumlah dokumen latih,
merupakan
banyaknya dokumen pada kelas
yang
memuat kata ,
merupakan banyaknya
dokumen yang tidak berada di
namun
memuat kata ,
merupakan banyaknya
dokumen yang berada di kelas namun tidak
memiliki kata
di dalamnya, serta
merupakan banyaknya dokumen yang bukan

3

merupakan dokumen kelas
memuat kata .

dan tidak

Pengambilan
keputusan
dilakukan
berdasarkan nilai
dari masing-masing
kata. Kata yang memiliki nilai
di atas nilai
kritis pada tingkat signifikansi α adalah kata
yang akan dipilih sebagai penciri dokumen.
Kata yang dipilih sebagai penciri merupakan
kata yang memiliki pengaruh terhadap kelas
. Nilai kritis
untuk tingkat signifikansi α
ditunjukkan oleh Tabel 2. Tabel distribusi
chi-kuadrat
pada
berbagai
tingkat
signifikansi dan derajat bebas tertentu
ditunjukkan dalam Lampiran 2.
Tabel 2 Nilai kritis
signifikansi α

untuk tingkat

α

Nilai Kritis

0,1

2,71

0,05

3,84

0,01

6,63

0,005

7,83

0,001

10,83

Document frequency thresholding (DF)
Document frequency thresholding (df)
merupakan jumlah dokumen pada setiap kata
unik yang muncul. Penghitungan df akan
menghitung kemunculan kata unik dalam
suatu kumpulan dokumen latih. Untuk
menentukan bahwa kata tersebut berpengaruh
terhadap
suatu
kumpulan
dokumen,
digunakan nilai threshold (Yimming 1997).
Penentuan nilai threshold dilakukan dengan
melihat sebaran kata dalam keseluruhan
dokumen latih.
Kata yang memiliki nilai df di atas nilai
threshold yang telah ditentukan merupakan
kata yang berpengaruh pada sekumpulan
dokumen latih. Kata dengan nilai df yang
rendah merupakan kata yang jarang muncul
dalam koleksi dokumen latih. Dengan
demikian, kata tersebut dianggap sebagai
noise dalam data latih.
Naive Bayes classifier
Metode klasifikasi Naïve Bayes adalah
salah satu metode klasifikasi yang
mengasumsikan seluruh atribut dari contoh
yang bersifat independen satu sama lain pada

konteks kelas (McCallum & Nigam 1998).
Meskipun secara umum asumsi tersebut
merupakan asumsi yang buruk, pada
praktiknya metode Naïve Bayes menunjukkan
kinerja yang sangat baik (Rish 2001).
Menurut Manning (2008), peluang
Bayes dapat digunakan untuk menghitung
peluang bersyarat, yaitu peluang kejadian
apabila suatu kejadian diketahui. Metode ini
dapat memprediksi kemungkinan anggota
suatu kelas berdasarkan sampel yang berasal
dari anggota kelas tersebut. Klasifikasi Naïve
Bayes termasuk dalam model multinomial
yang mengambil jumlah kata yang muncul
pada sebuah dokumen. Pada model ini
sebuah dokumen terdiri atas beberapa
kejadian kata. Berdasarkan asumsi Bayes,
kemungkinan tiap kejadian kata dalam tiap
dokumen adalah bebas, tidak terpengaruh
dengan konteks kata dan posisi kata dalam
dokumen.
Berdasarkan teori Bayes, peluang
dokumen d untuk masuk ke dalam kelas c
atau P | ditunjukkan pada Persamaan 6:
|

|

dengan P(d|c) adalah peluang kemunculan
dokumen d di kelas c,
adalah peluang
awal suatu dokumen masuk ke dalam kelas c,
dan P(d) adalah peluang awal kemunculan
dokumen d. Peluang awal kemunculan
dokumen d dapat diabaikan karena memiliki
nilai yang sama untuk seluruh kelas c,
sehingga Persamaan 6 dapat disederhanakan
dalam Persamaan 7:
|

|

Rumus untuk menghitung nilai peluang
dokumen masuk ke dalam kelas c dan
peluang kemunculan dokumen d berada pada
kelas c adalah
|



dengan Nc adalah banyaknya dokumen dalam
kelas c, N adalah total dokumen, Tcd adalah
banyaknya d dalam dokumen latih dari kelas
c.
Menurut Manning et al. (2008) kelas
yang paling sesuai bagi dokumen d adalah
|
kelas yang memiliki nilai
paling
tinggi yaitu seperti ditunjukkan pada
Persamaan 8:
|
4

Nilai peluang awal
dapat
diestimasi dengan melihat jumlah dokumen
yang dimiliki oleh kelas c relatif terhadap
jumlah seluruh dokumen yang ada. Nilai
|
peluang awal
diestimasi secara
berbeda untuk setiap model Naïve Bayes
(Metsis et al. 2006).
Confusion matrix
Confusion matrix merupakan sebuah
tabel yang terdiri atas banyaknya baris data
uji yang diprediksi benar dan salah oleh
model klasifikasi, yang digunakan untuk
menentukan kinerja suatu model klasifikasi
(Tan et al. 2005). Data uji diujikan untuk
mendapatkan tingkat akurasi hasil prediksi
yang berupa jumlah true positive, true
negative, false positive, dan false negative
seperti yang dilihat pada Tabel 3 (Rachman
2011).
Tabel 3 Confusion matrix untuk klasifikasi
biner
Predicted Class

Actual
Class

Class = 1

Class = 0

Class = 1

F11

F10

Class = 0

F01

F00

Keterangan untuk Tabel 3 dinyatakan sebagai
berikut :


F11, yaitu jumlah dokumen dari kelas 1
yang benar diklasifikasikan sebagai kelas
1.



F00, yaitu jumlah dokumen dari kelas 0
yang benar diklasifikasikan sebagai kelas
0.
F01, yaitu jumlah dokumen dari kelas 0
yang salah diklasifikasikan sebagai kelas
1.
F10, yaitu jumlah dokumen dari kelas 1
yang salah diklasifikasikan sebagai kelas
0.




Perhitungan akurasi
Persamaan 9.

dinyatakan

dalam

Recall precision
Recall Precision adalah kriteria yang
digunakan untuk mengevaluasi tingkat
efektifitas kinerja sistem temu kembali
informasi. Recall adalah rasio jumlah

dokumen relevan yang ditampilkan (retrieve)
terhadap jumlah seluruh dokumen yang
relevan. Precision adalah rasio jumlah
dokumen relevan yang ditampilkan terhadap
jumlah seluruh dokumen yang ditampilkan
(Manning 2008). Perhitungan
recallprecision dijelaskan pada Persamaan 10 dan
Persamaan 11 berikut.

(10)

(11)

Menurut Baeza-Yates dan RibeiroNeto (1999), algoritme temu-kembali yang
dievaluasi menggunakan beberapa kueri
berbeda, akan menghasilkan nilai R-P
yang berbeda untuk masing-masing kueri.
Average Precision (AVP) diperlukan untuk
menghitung rata-rata tingkat precision
pada 11 tingkat recall, yaitu 0.0, 0.1, 0.2,
0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0.
Persamaan 12 merupakan formula untuk
menghitung AVP.
( )



Asumsi, P (rj) adalah AVP pada level
recall r, Nq adalah jumlah kueri yang
adalah precision
digunakan, dan
pada level recall r untuk kueri ke-i.
SphinxSearch
Sphinx adalah platform search engine
yang didistribusikan pada GPL versi 2.
Secara teknis, Sphinx merupakan perangkat
lunak yang menyediakan fungsionalitas
pencarian teks secara cepat dan relevan pada
aplikasi yang berjalan di lingkungan klien.
Sphinx telah dirancang khusus untuk
berintegrasi dengan database SQL dan
bahasa pemrograman tertentu (STI 2008).
Sphinx memiliki dua jenis fungsi
pembobotan, yaitu phase rank dan statistical
rank. Phase rank adalah fungsi pembobotan
berdasarkan panjang kata antara tubuh
dokumen dan frasa kueri. Statistical rank
adalah fungsi pembobotan berdasarkan
frekuensi kata dalam dokumen. Salah satu
mode pembobotan berdasarkan statistical
rank adalah BM25.

5

Pada tahap pembangunan sistem temu
kembali informasi, terlebih dahulu dilakukan
pemrosesan dokumen dengan menggunakan
SphinxSearch. Langkah yang dilakukan
pertama kali yaitu melakukan pengindeksan
ke semua koleksi dokumen. Proses
pengeindeksan menghasilkan file hash.
Perintah yang diberikan untuk melakukan
pengindeksan koleksi dokumen adalah
sebagai berikut:
C:\Sphinx\bin\indexer.exe --config
C:\Sphinx\sphinxDb.conf --all

Langkah selanjutnya yaitu pembuatan service
pada windows dengan nama SphinxSkripsi
yang dapat dibuat dengan perintah sebagai
berikut:
C:\Sphinx\bin>
C:\Sphinx\bin\searchd –install –
config
C:\Sphinx\sphinxDb.conf –
servicename SphinxSkripsi

Service pada windows berguna untuk mencari
hasil pengindeksan yang berupa file hash.
Pembobotan BM25
Metode BM25 merupakan metode
pembobotan kata yang memeringkatkan
setiap kumpulan dokumen yang didasarkan
pada kata dalam kueri yang muncul pada
setiap dokumen. Rumus dalam menghitung
skor pada algoritme BM25 ditunjukkan pada
Persamaan 13 berikut



| |

(13)

Persamaan 13 menjelaskan bahwa
merupakan term frequency pada
dokumen D, |D| merupakan banyaknya kata
dalam dokumen D, dan avg dl merupakan
rata-rata panjang dokumen dalam kumpulan
teks dari dokumen tersimpan. k1 dan b
merupakan parameter bebas dimana nilai
yang biasa dipilih untuk k1=2,0 dan b=0,75.
IDF(qi) merupakan bobot dari kata qi. Rumus
untuk menghitung IDF ditunjukkan pada
Persamaan 14 sebagai berikut

METODE PENELITIAN
Penelitian ini dilaksanakan dalam
beberapa tahapan yang diilustrasikan pada
Gambar 2. Data yang diproses dalam sistem
ini adalah koleksi dokumen. Input lain
yang digunakan adalah stopwords yang
merupakan daftar kata buang yang akan
digunakan pada tahapan praproses. Tahap
selanjutnya
adalah
dilakukan
proses
pemilihan fitur pada dokumen latih,
kemudian hasilnya digunakan sebagai
landasan dalam pembuatan vector space
model. Vector space model digunakan untuk
melakukan pembobotan terhadap kata
sehingga akan merepresentasikan dokumen
ke dalam bentuk vektor.
Tahapan berikutnya adalah melakukan
klasifikasi Naïve Bayes pada dokumen uji
yang belum diketahui kelasnya. Tahapan ini
bertujuan
untuk
membangun
model
klasifikasi yang berupa indeks klasifikasi.
Tahapan selanjutnya setelah model klasifikasi
terbentuk yaitu pembangunan sistem temu
kembali informasi yang akan mencari
informasi berdasarkan hasil klasifikasi pada
sistem. Pada tahap akhir, dilakukan evaluasi
terhadap kinerja sistem klasifikasi dan kinerja
sistem sistem temu kembali informasi yang
dihasilkan.
Dokumen tumbuhan obat
Penelitian ini menggunakan koleksi
dokumen tumbuhan obat sebagai korpus. Isi
dari dokumen tidak diubah sehingga
kesalahan ejaan dan tata bahasa tidak
diperbaiki. Koleksi dokumen tumbuhan obat
berjumlah 132 dokumen yang diperoleh dari
buku-buku berikut:
1. Atlas Tumbuhan Obat Indonesia Jilid 1.
Oleh dr. Setiawan Dalimartha
2. Atlas Tumbuhan Obat Indonesia Jilid 2.
Oleh dr. Setiawan Dalimartha
3. Atlas Tumbuhan Obat Indonesia Jilid 3.
Oleh dr. Setiawan Dalimartha
4. Obat Asli Indonesia Oleh Dr. Seno
Sastroamidjojo
5. Ensiklopedi Millenium Jilid 1: Tumbuhan
Berkhasiat Obat Indonesia.
6. Tumbuhan Obat dan Khasiatnya. Oleh
Drs. H. Arief Hariana.

dimana N merupakan banyaknya koleksi
merupakan jumlah
dokumen, dan
dokumen yang memuat kata qi.

6

terdapat pada Gambar 3. Dokumen
dikelompokkan ke dalam tag sebagai berikut:

Mulai

Klasifikasi
Dokumen
tumbuhan
obat

Praproses
data

Pembagian
data

Data
latih

Data uji

Pemilihan
fitur

 , tag ini mewakili
keseluruhan dokumen dan melingkupi
tag-tag lain yang lebih spesifik.
 , tag ini menunjukkan ID dari
dokumen.
 ,
tag
ini
menunjukkan nama dari suatu jenis
tanaman obat.
 ,
tag
ini
menunjukkan nama latin dari tanaman
obat.
 , tag ini
mewakili isi dari dokumen meliputi
deskripsi tanaman dan kegunaannya.
 , tag ini menunjukkan
nama family dari tanaman obat.
 , tag ini
menunjukkan penyakit yang dapat
disembuhkan dari jenis tumbuhan obat.
Tabel 4 Distribusi dokumen penyakit

Klasifikasi
Naïve Bayes

Kueri

Temu Kembali
Informasi

Index
klasifikasi

No

Kelas

Index
klasifikasi

1
2
3
4
5
6
7

Kronis
Kulit
Nyeri-radang-demam
Pencernaan
Perawatan
Pernapasan saluran
Kemih

Temu
kembali

Tabel 5 Distribusi dokumen family
Peringkat
dokumen

Selesai

Jumlah
Dokumen
9
15
24
35
27
15
6

Evaluasi

Gambar 2 Tahapan penelitian.
Klasifikasi dokumen dikategorikan ke
dalam kategori kelas family dan kategori
penyakit. Pemilihan kategori tersebut karena
kedua informasi mengenai family tumbuhan
obat dan penyakit yang dapat disembuhkan
oleh suatu jenis tumbuhan obat adalah
informasi yang sering dicari. Tabel 4
menjelaskan distribusi dokumen pada
kategori kelas penyakit untuk setiap kelasnya.
Tabel 5 menjelaskan distribusi dokumen pada
kategori kelas family untuk setiap kelasnya.

No

Kelas

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

Achantaceae
Agavaceae
Amaranthaceae
Apiaceae
Apocynaceae
Araliaceae
Bromeliaceae
Crassulaceae
Euphorbiaceae
Lamiaceae
Menispermaceae
Moraceae
Myrtaceae
Pandanaceae
Portulacaceae
Rutaceae
Smilacaceae

Jumlah
Dokumen
8
4
13
9
5
3
5
4
12
15
6
6
15
5
6
12
3

Koleksi dokumen bertipe file .txt
dengan contoh format dokumen yang

7


6
Kumis Kucing
Orthosiphon aristatus
(Bl.) Miq.
Famili : Lamiaceae.
Nama Lokal : Kumis kucing,
....
Lamiaceae
Saluran
Kemih


Gambar 3 Format koleksi dokumen.
Praproses data
Tahap praproses diawali dengan
lowercasing, tokenisasi, dan pembuangan
stopwords. Lowercasing adalah proses untuk
mengubah semua huruf mejadi huruf noncapital agar menjadi case-insensitive pada
saat dilakukan pemrosesan teks dokumen.
Tokenisasi adalah suatu tahap pemrosesan
teks input yang dibagi menjadi unit-unit kecil
yang disebut token atau term, yang dapat
berupa suatu kata atau angka. Token yang
dimaksud dalam penelitian ini adalah kata
atau term. Proses tokenisasi dilakukan sesuai
dengan aturan berikut :





Teks dipotong menjadi token. Karakter
yang dianggap sebagai karakter pemisah
token didefinisikan dengan ekspresi
regular berikut :
/[\s\-+\/*0-9%,.\"\];()\':=`?\[!@>