Comparison of Chi-square Feature Selection and Singular Value Decomposition for Medicinal Plant Document Retrieval System

PERBANDINGAN KINERJA PEMILIHAN FITUR
CHI-SQUARE DAN SINGULAR VALUE DECOMPOSITION
SISTEM TEMU KEMBALI DOKUMEN TUMBUHAN OBAT

RICO ANDRIAN

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul Perbandingan Kinerja
Pemilihan Fitur Chi-square Dan Singular Value Decomposition Sistem Temu
Kembali Dokumen Tumbuhan Obat adalah benar karya saya dengan arahan dari
komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan
tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang
diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks
dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, Juni 2013
Rico Andrian
NIM G651090121

RINGKASAN
RICO ANDRIAN. Perbandingan Kinerja Pemilihan Fitur Chi-square Dan
Singular Value Decomposition Sistem Temu Kembali Dokumen Tumbuhan Obat.
Dibimbing oleh YENI HERDIYENI dan HARI AGUNG ADRIANTO.
Penelitian ini menganalisis kinerja pemilihan fitur chi-square dan Singular
Value Decomposition (SVD) sistem temu kembali dokumen tumbuhan obat.
Metode ini untuk mencari sistem pencarian dokumen yang efektif berdasarkan
kueri sehingga menghasilkan dokumen yang relevan bagi pengguna. Teknik
pemilihan chi-square melakukan pemilihan fitur kata berdasarkan kata-kata yang
penting yang digunakan untuk membuat vector space model. Model terdiri atas
beberapa dokumen yang direpresentasikan sebagai vektor dari frekuensi
kemunculan fitur. Teknik pemilihan fitur SVD menggunakan kata-kata penting
yang ditemui di setiap dokumen. Kata-kata penting menjadi term dari matriks
term-dokumen. Dokumen tumbuhan obat berbahasa Indonesia berjumlah 132
dokumen digunakan pada temu kembali chi-square dan SVD. Temu kembali chisquare dan SVD diuji dengan 29 kueri non semantik dan semantik. Hasilnya

adalah perbandingan kinerja dari temu kembali kedua metode tersebut pada kueri
non semantik dan semantik.
Kata kunci: chi kuadrat, singular value decomposition, temu kembali informasi,
pemilihan fitur, tumbuhan obat

SUMMARY
RICO Andrian. Comparison of Chi-square Feature Selection and Singular
Value Decomposition for Medicinal Plant Document Retrieval System. Advised
by
YENI
HERDIYENI
and
HARI
AGUNG
ADRIANTO.
This study analyzes the performance of the chi-square feature selection and
Singular Value Decomposition (SVD) document retrieval system medicinal plants.
The method is to find an effective document retrieval system based on queries to
produce documents relevant to the user. Chi-square selection techniques make the
selection based on the features that are important words that are used to create a

vector space models. The model consists of several documents represented as
vectors of the frequency of occurrence of features. SVD feature selection
technique using key words found in each document. Important words become
terms of the term-document matrix. Indonesian language document medicinal
plants totaling 132 documents used in the chi-square retrieval and SVD. Retrieval
and SVD chi-square test with 29 non-semantic and semantic query. The result is a
comparison of the performance of the retrieval of both methods on non-semantic
and semantic query.
Keywords: chi square, singular value decomposition, information retrieval, feature
selection, medicinal plants

© Hak Cipta Milik IPB, Tahun 2013
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB


PERBANDINGAN KINERJA PEMILIHAN FITUR
CHI-SQUARE DAN SINGULAR VALUE DECOMPOSITION
SISTEM TEMU KEMBALI DOKUMEN TUMBUHAN OBAT

RICO ANDRIAN

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Komputer
pada
Program Studi Ilmu Komputer

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2013

Penguji pada Ujian : Sony Hartono Wijaya, SKom MKom


dul Tesis : Perbandingan Kinerja Pemilihan Fitur Chi-square Dan Singular
Value Decomposition Sistem Temu Kembali Dokumen Tumbuhan
Obat
: Rico Andrian
: G651090121

Disetujui oleh
Komisi Pembimbing

eni Herdiyeni, SSi MKom
Ketua

Anggota

Diketahui oleh

Ketua Program Studi
llmu Komputer

i Nurhadriyani, SSi MT


Tanggal Ujian: 21 Juni 2013

Tanggal Lulus:

3 · J UL 2013

Judul Tesis : Perbandingan Kinerja Pemilihan Fitur Chi-square Dan Singular
Value Decomposition Sistem Temu Kembali Dokumen Tumbuhan
Obat
Nama
: Rico Andrian
NIM
: G651090121

Disetujui oleh
Komisi Pembimbing

Dr Yeni Herdiyeni, SSi MKom
Ketua


Hari Agung Adrianto, SKom MSi
Anggota

Diketahui oleh

Ketua Program Studi
Ilmu Komputer

Dekan Sekolah Pascasarjana

Dr Yani Nurhadriyani, SSi MT

Dr Ir Dahrul Syah, MScAgr

Tanggal Ujian: 21 Juni 2013

Tanggal Lulus:

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Oktober 2010 ini ialah
temu kembali informasi, dengan judul Perbandingan Kinerja Pemilihan Fitur ChiSquare Dan Singular Value Decomposition Sistem Temu Kembali Dokumen
Tumbuhan Obat.
Terima kasih penulis ucapkan kepada Ibu Dr Yeni Herdiyeni, SSi MKom
dan Bapak Hari Agung Adrianto, SKom MSi selaku pembimbing, serta Sony
Hartono Wijaya, SKom MKom dan Ibu Dr Yani Nurhadriyani, SSi MT yang telah
banyak memberi saran. Di samping itu, penghargaan penulis sampaikan kepada
Bapak Prof. Dr. Ervizal AM Zuhud, MS, peneliti Laboratorium Konservasi
Tumbuhan, Fakultas Kehutanan IPB, yang telah membantu selama pengumpulan
data.
Ungkapan terima kasih juga disampaikan kepada istri Erna Erawati, Zaif,
Zati dan Ziyad serta Nie, Kherry, Vie, atas segala doa dan kasih sayangnya.
Disamping itu, semoga Allah Ta’ala memberikan pahala atas kebaikan : Bapak
Gunawan IP, Warsito, Komarudin, Tjipto, Dwi, Abe, Ari Wibowo, Suharso,
Warsono, Irman, Ibu Dian, Ardiansyah, Rossy, Didi, tim riset Lab CI (Yoga, Oki,
Gibtha, Mega, Ryantie, Kadek, Desta, Fauzi, Ardiansyah, Rizky, Ngakan, Indra,
Franki, Yunda, Dedi, A. Muchlis, Kholis, Altro Trio) dan dukungan Bapak Ucup,
Teguh, Samsul, Dedi, Aristoteles, Mucle, Amanto, Agustiansyah, Jekvy, Rangga,

Heri, Muamar, Muhar, Irjal, Ibu Wamiliana, Ibu Astria, Dewi dan Zuriati.
Semoga karya ilmiah ini bermanfaat.

Bogor, Juni 2013
Rico Andrian

DAFTAR ISI
DAFTAR TABEL

xi

DAFTAR GAMBAR

xi

DAFTAR LAMPIRAN

xi

1 PENDAHULUAN

Latar Belakang
Tujuan Penelitian
Ruang Lingkup Penelitian

1
1
2
2

2 TINJAUAN PUSTAKA
Temu Kembali Informasi
Praproses Dokumen
Chi-square (χ2)
Latent Semantic Indexing
Singular Value Decomposition
Recall Precision
Mean Average Precision

2
2

3
3
4
4
6
6

3 METODE
Tahapan Penelitian

7
7

4 HASIL DAN PEMBAHASAN
11
Kinerja sistem temu kembali SVD untuk menemukan dokumen
11
Perbandingan kinerja sistem temu kembali dokumen chi-square dan SVD
pada kueri uji non semantik
12
Perbandingan kinerja sistem temu kembali dokumen chi-square dan SVD
pada 29 kueri uji semantik
14
5 SIMPULAN DAN SARAN
Simpulan
Saran

16
16
16

DAFTAR PUSTAKA

17

LAMPIRAN

18

RIWAYAT HIDUP

19

DAFTAR TABEL
1
2
3
4
5

Tabel kontingensi antara kata terhadap kelas
Nilai kritis χ2 untuk tingkat signifikansi α
Kumpulan kueri uji
Kumpulan kata yang memiliki makna semantik
Dokumen hasil pencarian sistem temu kembali SVD dengan kueri
‘kencing manis’
6 Kata-kata yang berhubungan dengan kueri ‘kencing manis’
7 Recall precision temu kembali chi-square dan SVD k=4% kueri non
semantik
8 Recall precision temu kembali chi-square dan SVD k=4% kueri semantik

3
4
9
10
11
11
13
15

DAFTAR GAMBAR
1 Skema singular value decomposition untuk matriks term-dokumen
2 Matriks term-dokumen X yang sudah dikurangi dimensinya dengan nilai
k
3 Tahapan penelitian
4 Contoh format file koleksi dokumen
5 Recall precision sistem temu kembali SVD pada k=2% dan k=4%
6 Recall precision temu kembali chi-square dan SVD k=4% kueri non
semantik
7 Recall precision temu kembali chi-square dan SVD k=4% kueri semantik

5
5
7
8
12
14
16

DAFTAR LAMPIRAN
Daftar dokumen jenis tumbuhan obat Indonesia yang digunakan dalam
penelitian

18

1 PENDAHULUAN
Latar Belakang
Indonesia merupakan negara mega biodiversity yang mempunyai kekayaan
flora berlimpah termasuk tumbuhan obat. Sampai tahun 2001, Laboratorium
Konservasi Tumbuhan, Fakultas Kehutanan IPB telah mendata dari berbagai hasil
riset bahwa tidak kurang dari 2.039 spesies tumbuhan obat berasal dari hutan
Indonesia (Zuhud 2009). Penelitian terhadap tumbuhan obat terus dilakukan
karena manfaat suatu tumbuhan obat yang dapat menyembuhkan penyakit
tertentu. Dokumen hasil penelitian tumbuhan obat sudah di publikasikan melalui
media cetak dan elektronik, namun dokumen tersebut belum memberikan manfaat
yang optimal karena pengguna belum tentu mendapatkan dokumen yang relevan
pada pencarian dokumen yang dilakukan. Hal ini membutuhkan metode pencarian
yang efektif sehingga sistem temu kembali dokumen akan dapat
menemukembalikan dokumen yang relevan.
Pemilihan fitur adalah tahap yang penting dalam suatu sistem pencarian.
Pemilihan fitur bertujuan mengurangi dimensi fitur pada dataset agar pembuatan
sistem pencarian dapat dilakukan dengan lebih mudah. Sistem pencarian dengan
kategorisasi pada dokumen teks yang melibatkan ribuan bahkan sampai ratusan
ribu fitur mutlak membutuhkan pemilihan fitur supaya sistem pencarian dapat
berjalan dengan efisien. Kinerja pemilihan fitur dokumen dengan teknik chisquare lebih baik dibanding dengan document thresholding frequency (Herawan
2011). Chi-square merupakan teknik pemilihan fitur dokumen yang sangat efektif
untuk memilih kata penciri suatu dokumen namun tidak menurunkan akurasi
sistem (Yang 1997). Latent Semantic Indexing (LSI) adalah suatu teknik yang
memetakan kueri dan dokumen ke dalam suatu ruang yang disebut Latent
Semantic Space. Dalam Latent Semantic Space, suatu kueri dan dokumen dapat
memiliki nilai kemiripan yang tinggi walaupun kueri dan dokumen tersebut tidak
memiliki kata (term) yang sama. Selama kata tersebut mirip secara semantik, nilai
kemiripan yang dihasilkan akan tinggi. Latent Semantic adalah suatu hubungan
makna tersembunyi antara dua term yang berbeda, meliputi hubungan sinonim
dan polisemi yang maknanya menyertakan dua term tersebut, kemiripan konsep,
dan konsep yang berhubungan. Sistem temu kembali informasi yang mampu
mengatasi latent semantic akan mengembalikan dokumen-dokumen yang
memiliki hubungan tersembunyi dengan kata yang diberikan pada kueri, tanpa
harus memberikan kata yang sama dengan kata yang terdapat dalam dokumen
tersebut sehingga dapat menambah efektifitas sistem temu kembali informasi
sebesar 30% dibandingkan penggunaan metode biasa (Deerwester et al. 1990).
LSI menggunakan teknik Singular Value Decomposition (SVD) untuk
mendekomposisikan matriks term-dokumen. Dengan mengurangi ruang term dan
dokumen menjadi dimensi yang lebih kecil, SVD menampakkan hubungan yang
mendasari kata dan dokumen dalam semua kombinasi yang memungkinkan dan
membuang noise yang ada pada ruang vektor (Deerwester et al. 1990). Teknik
lain juga diterapkan untuk mengembangkan Latent Semantic Indexing
menggunakan Semi Discrete Matrix Decomposition untuk temu kembali informasi
bahasa Indonesia (Herdiyeni dan Hasibuan 2003). LSI menggunakan SVD

2
sebagai salah satu cara untuk mengestimasi struktur penggunaan kata dalam
dokumen. Pencarian dokumen berdasarkan kueri kemudian dilakukan pada nilai
singular yang dihasilkan oleh SVD yang tersimpan dalam basis data (Berry et al.
1995). Matriks hasil aproksimasi SVD cukup dekat dengan matriks asalnya,
pengembalian dokumen menggunakan matriks tersebut diharapkan sama baiknya
seperti matriks asalnya. SVD selain lebih baik dalam pengembalian dokumen juga
lebih banyak pengembalian dokumennya (Kolda dan O’Leary 1998).
Penelitian ini menggunakan SVD sebagai teknik pemilihan fitur dokumen
yang digunakan untuk membangun sistem mesin pencari dokumen. Kinerja SVD
akan dibandingkan dengan kinerja chi-square untuk pemilihan kata penciri pada
dokumen tumbuhan obat.
Tujuan Penelitian
Penelitian ini bertujuan menganalisis kinerja pemilihan fitur chi-square dan
singular value decomposition untuk kueri yang mengandung unsur semantik dan
non semantik dalam mesin pencari.

Ruang Lingkup Penelitian
Pengembangan sistem temu kembali dokumen tumbuhan obat ini diterapkan
pada 132 dokumen berbahasa Indonesia yang berisi tentang tumbuhan obat yang
ada di Indonesia.

2 TINJAUAN PUSTAKA
Temu Kembali Informasi
Sistem temu kembali informasi (Information retrieval system) merupakan
sistem pencari pada sekumpulan dokumen elektronik yang memenuhi kebutuhan
informasi tertentu (Manning et al. 2009). Sistem temu kembali informasi
bertujuan menjembatani kebutuhan informasi pengguna dengan sumber informasi.
Temu kembali informasi berkaitan dengan cara merepresentasikan,
menyimpan, mengorganisasikan, dan mengakses informasi. Merepresentasikan
dan mengorganisasikan suatu informasi harus membuat pengguna lebih mudah
dalam mengakses informasi yang diinginkannya. Untuk mengetahui informasi
yang diinginkan pengguna bukan merupakan suatu hal yang mudah. Untuk itu
pengguna harus mentransformasikan informasi yang dibutuhkan ke dalam suatu
kueri yang akan diproses mesin pencari, sehingga kueri tersebut dapat menyajikan
informasi yang dibutuhkan oleh pengguna. Dengan kueri tersebut, sistem temu
kembali informasi akan menemukembalikan informasi yang relevan terhadap
kueri (Baeza-Yates & Ribeiro-Neto 1999).

3

Praproses Dokumen
Pada tahap praproses ini teks-teks dalam dokumen yang sudah di tagging,
diberikan 3 perlakuan yaitu lowercasing, tokenisasi dan pembuangan stop word.
Lowercasing adalah proses untuk mengubah semua huruf menjadi huruf noncapital agar menjadi case-sensitive pada saat dilakukan pemrosesan teks dokumen
(Manning et al. 2009).
Tokenisasi adalah proses memotong dokumen menjadi bagian-bagian kecil
(token) dengan cara membuang imbuhan dan kata sambung yang ada. Token yang
dihasilkan merupakan kata dasar sehingga token yang dihasilkan lebih sedikit
(Manning et al. 2009). Proses tokenisasi teks adalah sebagai berikut.
1. Teks dipotong menjadi token selanjutnya karakter yang dianggap sebagai
karakter pemisah token didefinisikan dengan ekspresi reguler berikut : /[\s\+\/*0-9%,.\”\];()\’:=’?\[!@>