Penggabungan Ciri Citra dan Teks untuk Sistem Pencarian Tumbuhan Obat Indonesia Berbasis Web
PENGGABUNGAN CIRI CITRA DAN TEKS UNTUK SISTEM
PENCARIAN TUMBUHAN OBAT INDONESIA
BERBASIS WEB
OKI MAULANA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
ii
PENGGABUNGAN CIRI CITRA DAN TEKS UNTUK SISTEM
PENCARIAN TUMBUHAN OBAT INDONESIA
BERBASIS WEB
OKI MAULANA
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
ii
ABSTRACT
OKI MAULANA. The Fusion of Image and Text Features for Indonesian Medicinal Plants
Search Engine Based on Web Application. Under the supervision of YENI HERDIYENI.
This research investigate the effectiveness of image and text fusion for Indonesian medicinal
plant search engine based on web application. This research used 51 species of Indonesian
medicinal plants and each species consists of 48 images, so the total images used in this research
are 2448 images. WeightedSUM is general linear combination formula to combine image and text
features.
Further research was conducted on the combination of features to get a better result in
medicinal plants search engine. Fuzzy Local Binary Pattern (FLBP) is used to extract texture in
image processing. This research uses the Probabilistic Neural Network (PNN) to improve image
similarity that used in the fusion process. BM25 weighting in document search engine is used to
get text similarity. Image and text similarity are combined using WeightedSUM to get the retrieval
results. The experimental results show that the fusion of image and text features can improve the
performance of retrieval results. In particular, the Average Precision (AVP) has increased from
0.31 to 0.71.
Keywords : BM25, Fuzzy Local Binary Patterns, Infromation Retrieval, Local Binary Patterns,
Probabilistic Neural Network.
ii
Judul Skripsi
Nama
NRP
: Penggabungan Ciri Citra dan Teks untuk Sistem Pencarian Tumbuhan Obat
Indonesia Berbasis Web
: Oki Maulana
: G64080019
Disetujui
Pembimbing
Dr. Yeni Herdiyeni, S.Si., M.Kom.
NIP 19750923 200012 2 001
Diketahui
Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si, M.Kom.
NIP 19660702 199302 1 001
Tanggal Lulus:
ii
iii
PRAKATA
Puji dan syukur penulis panjatkan kehadirat Allah subhanahu wa-ta'ala yang senantiasa
memberikan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tulisan yang berjudul
Penggabungan Ciri Gambar dan Teks untuk Sistem Pencarian Tumbuhan Obat Berbasis Web.
Shalawat dan salam disampaikan kepada Nabi Muhammad shollallahu ‘alaihi wassalam beserta
keluarga, sahabat, dan pengikutnya yang tetap berada di jalan-Nya hingga akhir zaman.
Pembuatan skripsi ini tak lepas dari dukungan dan bantuan dari berbagai pihak. Oleh
karena itu, penulis menyampaikan rasa terima kasih kepada:
1 Kedua orang tua serta ketiga saudaraku tercinta, Inneu Kurniawati, Mamay Nugraha,
dan Desi Wulansari atas doa dan semangat yang diberikan.
2 Ibu Dr. Yeni Herdiyeni, S.Si., M.Kom. selaku dosen pembimbing yang telah
memberikan banyak bantuan, kemudahan, saran dan ilmu kepada penulis.
3 Teman-teman satu bimbingan, Mayanda Mega Santoni, Ni Kadek Sri Wahyuni, Ryantie
Octaviani Suganda, Siska Susanti, Desta Sandya Prasvita, Pauzi Ibrahim, Canggih
Trisyanto, Tomy Kurniawan, Pak Rico dan Kak Gibtha atas saran, masukan dan nasihat
yang diberikan kepada penulis.
4 Teman-teman di Departemen Ilmu Komputer IPB angkatan 45 atas segala kebersamaan,
bantuan, dan motivasi yang telah diberikan kepada penulis.
Penulis menyadari bahwa masih banyak kekurangan yang ditemukan dalam tugas akhir ini.
Penulis berharap adanya saran dan kritik yang membangun dari semua pihak yang membaca
tulisan ini. Semoga tulisan ini bermanfaat dan dapat menambah wawasan ilmu pengetahuan bagi
penulis khususnya dan pembaca umumnya.
Bogor, September 2012
Oki Maulana
iii
iv
RIWAYAT HIDUP
Penulis dilahirkan di kota Ciamis pada tanggal 28 Oktober 1990. Penulis merupakan putra
pertama dari empat bersaudara dari pasangan Djodjo Saputra dan Neneng Kuraesin. Penulis
memulai pendidikan di TK Bhayangkari Ciamis pada tahun 1995. Penulis melanjutkan sekolah
dasar di SDN Sindangrasa 2 Ciamis lulus pada tahun 2002, kemudian melanjutkan pendidikan
menengah pertama di SMP 2 Ciamis dan lulus pada tahun 2005. Penulis menempuh pendidikan
menengah atas di SMA Negeri 2 Ciamis dan lulus pada tahun 2008. Setelah itu, penulis
melanjutkan kuliah dan diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas
Matematika dan Ilmu Pengetahuan Alam, IPB melalui jalur Undangan Seleksi Masuk IPB (USMI)
dan lulus pada tahun 2008. Dalam masa kuliah, penulis aktif di organisasi kemahasiswaan yaitu
sebagai Ketua Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) dan Ketua Paguyuban
Mahasiswa Galuh Ciamis (PMGC). Pada bulan Juli 2011, penulis melaksanakan Praktek Kerja
Lapang (PKL) di PT Pertamina Persero pusat yang berada di Jakarta.
iv
v
DAFTAR ISI
Halaman
DAFTAR GAMBAR ....................................................................................................................... vi
DAFTAR LAMPIRAN.................................................................................................................... vi
DAFTAR TABEL ........................................................................................................................... vi
PENDAHULUAN
Latar Belakang ............................................................................................................................ 1
Tujuan Penelitian ........................................................................................................................ 1
Ruang Lingkup Penelitian ........................................................................................................... 1
TINJAUAN PUSTAKA
Temu kembali informasi ............................................................................................................. 1
Ekstraksi Fitur ............................................................................................................................. 2
Tekstur ........................................................................................................................................ 2
Ekstraksi Fitur dengan Fuzzy Local Binary Pattern.................................................................... 2
Probabilistic Neural Network (PNN) .......................................................................................... 2
Pembobotan BM25...................................................................................................................... 3
Penggabungan Ciri Citra dan Teks .............................................................................................. 3
METODE PENELITIAN
Data Citra Tanaman Obat ............................................................................................................ 4
Praproses Citra ............................................................................................................................ 5
Ekstraksi Fitur Tekstur ................................................................................................................ 5
Perhitungan Similaritas ............................................................................................................... 5
Praproses Dokumen Tumbuhan Obat.......................................................................................... 5
Temu Kembali Informasi ............................................................................................................ 5
Penggabungan Ciri Citra dan Teks (Fusion Similarity) .............................................................. 5
Evaluasi Sistem ........................................................................................................................... 6
Lingkungan Pengembangan Sistem ............................................................................................ 6
HASIL DAN PEMBAHASAN
Pemrosesan Teks ......................................................................................................................... 6
Pemrosesan Citra ......................................................................................................................... 7
Evaluasi Sistem Menggunakan Metode Penggabungan .............................................................. 7
SIMPULAN DAN SARAN
Simpulan ................................................................................................................................... 11
Saran ......................................................................................................................................... 11
DAFTAR PUSTAKA ..................................................................................................................... 11
LAMPIRAN ................................................................................................................................... 13
v
vi
DAFTAR GAMBAR
Halaman
1
2
3
4
5
6
7
8
9
10
11
12
Membership function m0() dan m1() sebagai fungsi dari ∆pi. ...................................................... 2
Struktur PNN............................................................................................................................... 3
Metode penelitian. ....................................................................................................................... 4
Alur proses penggabungan ciri citra dan teks.............................................................................. 5
Hasil praproses citra daun tumbuhan obat................................................................................... 7
Hasil akurasi setiap kelas tumbuhan obat. ................................................................................... 7
Kurva recall-precision metode penggabungan dan tanpa penggabungan. .................................. 8
Ilustrasi kueri citra relevan. ....................................................................................................... 10
Ilustrasi kueri citra tidak relevan. .............................................................................................. 10
Kurva recall-precision untuk kueri citra dan teks relevan. ....................................................... 10
Kurva recall-precision untuk kueri citra relevan dan teks tidak relevan. ................................. 10
Kurva recall-precision untuk kueri citra tidak relevan dan teks relevan. ................................. 10
DAFTAR LAMPIRAN
Halaman
1
2
3
4
51 citra tumbuhan obat ............................................................................................................... 14
Daftar 51 jenis tumbuhan obat Indonesia yang digunakan dalam penelitian ............................. 16
Kumpulan kueri uji ..................................................................................................................... 18
Screenshoot aplikasi ................................................................................................................... 20
DAFTAR TABEL
Halaman
Contoh hasil pencarian dengan metode tanpa penggabungan dan metode penggabungan ............... 9
vi
1
PENDAHULUAN
Latar Belakang
Laboratorium Konservasi Tumbuhan,
Fakultas Kehutanan (Fahutan) IPB telah
mendata bahwa tidak kurang dari 2039
spesies tumbuhan obat tersebar di seluruh
hutan Indonesia sampai tahun 2001 (Zuhud
2009). Masalah yang timbul ialah masyarakat
akan sangat sulit untuk mengenali atau
melakukan identifikasi tumbuhan obat karena
spesies tumbuhan obat yang tersebar di
seluruh Indonesia dan penduduk tinggal di
daerah yang berbeda pula. Masyarakat
memerlukan suatu sistem berbasis web untuk
mengenali tumbuhan obat agar dapat
mengenali tumbuhan obat di manapun
masyarakat berada. Kusmana (2011), Kulsum
(2011), dan Valerina (2012) telah berhasil
mengembangkan sistem identifikasi citra
tumbuhan
obat berupa aplikasi desktop,
sedangkan Herawan (2011) mengembangkan
aplikasi web untuk pencarian dokumen
tumbuhan obat. Akan tetapi, informasi yang
pengguna miliki tidak terbatas pada citra atau
teks saja. Oleh karena itu, sistem tidak hanya
perlu berbasis web, tetapi juga dapat
menggabungkan informasi citra dan teks.
Penelitian
tentang
penggabungan
ini
sebelumnya telah dilakukan oleh Gkoufas et
al. (2011). Tim risetnya membangun sebuah
sistem temu kembali dalam bidang kesehatan
(X-Ray) dengan menggabungkan informasi
citra dan teks.
Untuk identifikasi berbasis citra, Local
Binary Pattern (LBP) adalah suatu metode
yang sederhana dan mampu mendeskripsikan
pola tekstur lokal dengan baik. Hasil dari
threshold pada LBP terkadang menghasilkan
pengodean biner yang tidak sesuai dengan
kandungan nilai pikselnya. Hal ini disebabkan
adanya ketidakpastian yang ditimbulkan oleh
noise. Fuzzy Local Binary Pattern (FLBP)
mampu
mengatasi
permasalahan
ketidakpastian pada representasi tekstur LBP
yang dikemukakan oleh Iakovidis et al.
(2008). Selain itu, Valerina (2011) melakukan
identifikasi tumbuhan obat menggunakan
metode ekstraksi tekstur Fuzzy Local Binary
Pattern (FLBP) pada citra. Akurasi yang
dihasilkan pada descriptor FLBPP,R mencapai
66.33% untuk operator (8,2).
Penelitian ini mengusulkan pembangunan
sistem aplikasi web yang menggabungkan ciri
citra dan teks untuk mengidentifikasi
tumbuhan obat di Indonesia. Untuk
penelusuran dengan kueri citra, diterapkan
metode FLBP untuk ekstraksi tekstur citra
tumbuhan obat dan PNN untuk pembobotan
kelas. Sistem pencarian dokumen tumbuhan
obat yang dikembangkan Herawan (2011)
digunakan untuk penelusuran dengan kueri
teks.
Tujuan Penelitian
Tujuan
penelitian
ini
ialah
menggabungkan ciri citra dan teks untuk
mempermudah identifikasi dan pencarian citra
dan teks berbasis web.
Ruang Lingkup Penelitian
1 Dokumen yang digunakan untuk temu
kembali informasi berbasis teks adalah
dokumen tumbuhan obat Indonesia
berformat XML. Data citra daun tumbuhan
obat diperoleh dari kamera digital yang
diambil di kebun Biofarma, Cikabayan dan
rumah kaca Pusat Konservasi Ex-situ
Tumbuhan Obat Hutan Tropika Indonesia,
Fahutan, IPB, dan Kebun Raya Bogor.
2 Teknik yang digunakan untuk ekstraksi
fitur pada citra daun tumbuhan obat ialah
FLBP.
TINJAUAN PUSTAKA
Temu kembali informasi
Sistem
temu
kembali
informasi
(Information retrieval system) merupakan
sistem pencari pada sekumpulan dokumen
elektronik yang memenuhi kebutuhan
informasi tertentu (Manning et al. 2008).
Sistem temu kembali informasi bertujuan
menjembatani kebutuhan informasi pengguna
dengan sumber informasi.
Temu kembali informasi berkaitan dengan
cara
merepresentasikan,
menyimpan,
mengorganisasikan, dan mengakses informasi.
Representasikan
dan
organisasi
suatu
informasi harus membuat pengguna lebih
mudah dalam mengakses informasi yang
diinginkannya. Akan tetapi, mengetahui
informasi yang diinginkan pengguna bukan
merupakan suatu hal yang mudah. Untuk itu
pengguna harus menransformasikan informasi
yang dibutuhkan ke dalam suatu kueri yang
akan diproses mesin pencari (IR System)
sehingga kueri tersebut merepresentasikan
informasi yang dibutuhkan oleh pengguna.
Dengan kueri tersebut, IR system akan
menemukembalikan informasi yang relevan
terhadap kueri (Baeza-Yates & Ribeiro-Neto
1999).
2
Ekstraksi Fitur
Ekstraksi fitur adalah proses mendapatkan
fitur atau penciri dari suatu citra. Secara
umum, fitur citra berupa warna, bentuk, dan
tekstur.
Acharya
dan
Ray
(2005)
mendefinisikan
fitur
bentuk
sebagai
pendeskripsi suatu objek yang bebas terhadap
posisi, orientasi, dan ukuran. Fitur tekstur
didefinisikan sebagai pengulangan pola atau
pola-pola yang ada pada suatu daerah bagian
citra.
Sementara, membership function m1()
mendefinisikan derajat nilai di=1. Fungsi
m1() didefinisikan sebagai berikut:
m i
{
∆pi
∆pi
–
∆pi
(2)
∆pi -
Kedua
membership
function m i
] merepresentasikan
dan m i
parameter
yang
mengontrol
derajat
ketidakpastian.
Tekstur
Tekstur adalah gambaran visual dari
sebuah permukaan atau bahan. Dalam
computer vision, tekstur dicirikan dengan
variasi intensitas pada sebuah citra. Variasi
intensitas dapat disebabkan oleh kekasaran
atau perbedaan warna pada suatu permukaan.
Selain itu, tekstur juga merupakan properti
dari area. Properti-properti dari tekstur citra
meliputi keseragaman, kepadatan, kekasaran,
keberaturan, linearitas, keberarahan, dan
frekuensi. Penampilan tekstur dipengaruhi
oleh skala dan arah pandangan serta
lingkungan
dan
kondisi
pencahayaan
(Mäenpää 2003).
Ekstraksi Fitur dengan Fuzzy Local Binary
Pattern
Fuzzification pada pendekatan LBP
meliputi transformasi variabel input menjadi
variabel fuzzy berdasarkan sekumpulan fuzzy
rule. Dalam hal ini, digunakan dua fuzzy
rule untuk menentukan mencari nilai biner
dan nilai fuzzy berdasarkan deskripsi relasi
antara nilai pada circular sampling pi dan
piksel pusat p nt r (Iakovidis 2008). Dua
fuzzy rule tersebut yaitu:
Rule : semakin negatif
kepastian terbesar dari i
Rule : semakin positif
kepastian terbesar dari i
nilai ∆pi , nilai
adalah 0.
nilai ∆pi , nilai
adalah 1.
Gambar 1 menunjukan membership
function yang menghasilkan aturan R0 dan R1.
Dari aturan R0 dan R1, dua membership
function m0() dan m1() dapat ditentukan.
Fungsi m0() mendefinisikan derajat nilai di=0.
Membership function m0() adalah fungsi
menurun yang didefinisikan sebagai berikut:
∆pi
-∆pi
m i
{
–
∆pi
∆pi -
(1)
Gambar 1 Membership function m0() dan m1()
sebagai fungsi dari ∆pi.
Metode
LBP
original
hanya
menghasilkan satu kode LBP, sedangkan
metode FLBP akan menghasilkan satu atau
lebih kode LBP. Masing-masing nilai LBP
yang dihasilkan memiliki tingkat kontribusi
(CA,CB) yang berbeda bergantung pada nilainilai fungsi keanggotaan m0() dan m1()
yang dihasilkan. Untuk ketetanggaan 3x3,
kontribusi CLBP dari setiap kode LBP pada
histogram FLBP didefinisikan sebagai
berikut:
∏i m
i
i
(3)
Total kontribusi ketetanggaan 3x3 ke
dalam bin histogram FLBP yaitu:
∑
(4)
Probabilistic Neural Network (PNN)
PNN merupakan Artificial Neural Network
(ANN)
yang
menggunakan
teorema
probabilitas klasik (pengklasifikasian Bayes).
PNN menggunakan pelatihan (training)
supervised. Training data PNN mudah dan
cepat. Bobot bukan merupakan hasil training
melainkan nilai yang dimasukkan (tersedia)
(Wu et al. 2007).
3
dokumen. Rumus dalam menghitung skor
pada algoritme BM25 ditunjukkan pada
Persamaan 7 berikut:
(7)
k
Persamaan
7
menjelaskan
bahwa
merupakan term frequency pada sebuah
dokumen, IDF merupakan inverse dari jumlah
dokumen yang memuat kata kueri, k1
merupakan parameter bebas dengan nilai yang
digunakan yaitu k1=1.2. Rumus untuk
menghitung IDF ditunjukkan pada Persamaan
8 sebagai berikut:
t
Gambar 2 Struktur PNN.
Struktur PNN terdiri atas empat lapisan,
yaitu lapisan masukan, lapisan pola, lapisan
penjumlahan, dan lapisan keputusan atau
keluaran. Lapisan masukan merupakan objek
yang terdiri atas
nilai ciri yang akan
diklasifikasikan pada n kelas. Struktur PNN
ditunjukkan pada Gambar 2. Proses-proses
yang terjadi setelah lapisan masukan yaitu:
1 Lapisan pola (pattern layer)
Lapisan pola menggunakan 1 node untuk
setiap data pelatihan yang digunakan.
Setiap node pola merupakan perkalian titik
(dot product) dari x- xij kemudian dibagi
dengan bias tertentu σ dan selanjutnya
dimasukkan ke dalam fungsi radial basis,
xp -n
Dengan
yaitu
ra as n
demikian, persamaan yang digunakan pada
lapisan pola ialah:
x
xp -
x-xij
x-xij
(5)
2 Lapisan penjumlahan (summation layer)
Lapisan ini menerima masukan dari node
lapisan pola yang terkait dengan kelas
yang ada. Persamaan yang digunakan pada
lapisan ini ialah:
p x
k
k
t
∑ti
xp -
(x-xij) (x-xij)
(6)
3 Lapisan keluaran (output layer)
Lapisan ini menentukan kelas dari input
yang diberikan. Input x akan masuk ke Y
jika nilai p x paling besar dibandingkan
kelas lainnya.
Pembobotan BM25
Metode BM25 merupakan metode
pembobotan kata yang memeringkat setiap
kumpulan dokumen yang didasarkan pada
kata dalam kueri yang muncul pada setiap
lo
(8)
t
N
merupakan
banyaknya
dokumen, dan
merupakan
t
dokumen yang memuat kata t.
koleksi
jumlah
Perhitungan yang digunakan untuk
peringkat
dokumen
terhadap
kueri
menggunakan pembobotan BM25 yang sudah
disediakan Sphinx dengan algoritme:
BM25 =0
foreach(keyword inmatchingkeywords){
n= totalmatchingdocuments(keyword)
N = total_documents_in_collection
k1 =1.2
TF = current_document_occurrence
count(keyword)
IDF =log((N-n+1)/n)/log(1+N)
BM25 = BM25 + TF*IDF/(TF+k1) }
BM25 =0.5+BM25 /
(2*num_keywords(query))
Keterangan:
N
n
: Total dokumen dalam korpus
: Total dokumen yang memiliki
kata kueri
TF : Frekuensi term t pada dokumen
IDF : Inverted indeks dokumen
K1 : Parameter positif (1.2).
Penggabungan Ciri Citra dan Teks
Penggabungan ciri citra dan teks adalah
proses menggabungkan nilai similaritas citra
dan teks menjadi satu nilai similaritas baru.
Tujuan utamanya ialah meningkatkan akurasi
sistem. Jika ciri yang terdapat dalam citra
kurang bagus, dengan adanya penggabungan
ini, informasi teks berperan untuk melengkapi
ciri citra atau sebaliknya. Gkoufas et al.
(2011) melakukan riset tentang penggabungan
nilai similaritas citra dan teks dan
menghasilkan akurasi yang lebih bagus. Jika
kita memasukan kueri (q) dan sekumpulan
dokumen citra dan teks (d), rumus
penggabungannya sebagai berikut:
4
w
q
s or t xtual q
w
s or visual q
Valerina (2012).
(10)
dengan w1 adalah bobot teks yang diambil dari
nilai MAP dokumen yang ditemukembalikan,
scoretextual adalah nilai similaritas teks atau
dokumen, w2 adalah bobot citra yang diambil
dari nilai MAP citra hasil identifikasi, dan
scorevisual adalah nilai similaritas citra.
METODE PENELITIAN
Penelitian ini dilakukan dalam beberapa
tahap. Tahap-tahap tersebut diselesaikan
dengan metode penelitian yang dapat dilihat
pada Gambar 3. Data yang digunakan dalam
penelitian ini terdiri atas 2 jenis, yaitu
dokumen tumbuhan obat untuk temu kembali
informasi berbasis teks dan data citra
tumbuhan obat. Penelitian ini mengambil data
dan hasil penelitian dari Herawan (2011) dan
Tahap pertama adalah praproses citra.
Citra akan dipersiapkan agar dapat diproses.
Setelah itu, proses dilanjutkan dengan
ekstraksi ciri menggunakan FLBP sehingga
dihasilkan suatu model. Model tersebut akan
dicocokkan dengan citra data uji. Dari hasil
pencocokan tersebut akan muncul gambargambar yang cocok dengan kueri citra.
Kemudian
sistem
akan
melakukan
pemrosesan teks. Hasil pemrosesan teks
kemudian digabung dengan hasil pencarian
citra. Pengguna juga dapat melihat detail dari
hasil pencarian tumbuhan obat tersebut.
Data Citra Tanaman Obat
Data penelitian merupakan data citra daun
tanaman obat yang diperoleh dari pemotretan
51 jenis tanaman obat yang terdapat di kebun
Biofarma, Cikabayan dan rumah kaca Pusat
Konservasi Ex-situ Tumbuhan Obat Hutan
Tropika Indonesia, Fahutan IPB dan Kebun
Gambar 3 Metode penelitian.
5
Raya Bogor. Masing-masing jenis tanaman
obat terdiri atas 24 pose citra bagian depan
dan 24 pose citra bagian belakang, sehingga
terdapat 2448 total citra tanaman obat. Citra
tumbuhan berformat JPG dan berukuran 270
x 240 piksel. Data citra ini akan dipasangkan
dengan dokumen dalam sistem Herawan
(2011). Satu citra akan dipasangkan dengan
satu dokumen dalam kelas yang sama. Nama
lokal, nama latin, dan foto daun 51 jenis
tanaman obat dapat dilihat di Lampiran 1 dan
2.
Praproses Citra
Sebelum memasuki tahap ekstraksi ciri,
pada citra yang telah diakuisisi dilakukan
proses perbaikan citra. Proses perbaikan citra
dibagi menjadi tiga tahap, yaitu penskalaan,
segmentasi background, dan konversi warna
menjadi abu-abu.
Ekstraksi Fitur Tekstur
Proses ekstraksi fitur yang digunakan
dalam penelitian ini menggunakan FLBP
dengan operator (8,2) dan parameter F=4.
Ekstraksi tekstur dilakukan dengan konvolusi
blok citra menggunakan operator tertentu.
Nilai FLBP akan disajikan dalam bentuk
histogram. Blok-blok citra kemudian akan
diekstraksi menggunakan metode FLBP.
Perhitungan Similaritas
Pada citra masukan yang telah diekstraksi
ciri, dilakukan perhitungan similaritas
menggunakan jarak Euclid. Pada proses
perhitungan similaritas ini akan dihasilkan
citra-citra yang memiliki kesamaan yang
paling besar antara citra yang dihasilkan dari
citra data latih dan citra masukannya.
Kesamaan citra kueri dengan citra data latih
direpresentasikan oleh jarak Euclid. Hasil
perhitungan
jarak
Euclid
kemudian
dinormalisasi
menggunakan
normalisasi
minimum maksimum. Setelah dilakukan
normalisasi, nilai similaritas dimasukan ke
dalam persamaan 1 – hasil normalisasi agar
semakin mendekati satu citra semakin mirip.
Sistem ini akan memilih top-n citra sebagai
hasil dari temu kembali citra dengan cara
thresholding. Penelitian ini menggunakan
0.75 sebagai threshold.
Praproses Dokumen Tumbuhan Obat
Praproses untuk dokumen tumbuhan obat
diawali dengan lowercasing, tokenisasi,
pembuangan stopwords. Lowercasing adalah
proses untuk mengubah huruf capital menjadi
huruf non-capital. Tokenisasi adalah proses
untuk membagi dokumen menjadi term atau
token menggunakan teknik segmentasi atau
pemilahan. Stopwords disebut juga kata
buangan, yaitu kata-kata yang memiliki fungsi
namun tidak mempunyai arti. Stopwords
sangat banyak terdapat dalam dokumen,
sehingga kata-kata tersebut tidak dapat
dijadikan sebuah penciri suatu dokumen.
Temu Kembali Informasi
Pada tahap penelitian ini dilakukan
pengindeksan dokumen-dokumen (corpus)
hanya pada kelas yang ada hubungan dengan
kueri yang diberikan menggunakan engine
Sphinx. Kemudian, dokumen diboboti dengan
pembobotan BM25 dengan cara mengubah
parameter dalam Sphinx untuk menghitung
bobot kedekatan kueri dengan dokumen
koleksi.
Penggabungan Ciri Citra dan Teks (Fusion
Similarity)
Pertama sistem akan menerima citra kueri
dari pengguna untuk dilakukan ekstraksi
menggunakan FLBP. Hasil ekstraksi citra
kueri dihitung jaraknya ke citra lain.
Kemudian diberikan nilai threshold agar citra
hasil identifikasi ini tidak semuanya
ditampilkan. Selain menghitung jarak antar
citra, sistem juga melakukan klasifikasi PNN
sehingga didapat nilai peluang ke masingmasing kelas (spesies). Peluang masingmasing kelas ini disebut w1. Setiap citra hasil
temu kembali yang telah di-threshold akan
dikalikan dengan peluang kelasnya.
Gambar 4 Alur proses penggabungan ciri citra
dan teks.
Pada pemrosesan teks, kueri teks yang
dimasukan akan ditemukembalikan dan
didapat hasilnya berupa dokumen beserta nilai
similaritas. Tidak ada perkalian dengan bobot
teks pada pemrosesan teks. Terakhir, sistem
akan melakukan perhitungan penggabungan
nilai similaritas citra dan teks yang
6
berpasangan. Proses penggabungan tersebut
akan menghasilkan satu nilai similaritas baru
yang kemudian akan diurutkan dari terbesar
sampai terkecil dan ditampilkan kepada
pengguna. Alur proses penggabungan dapat
dilihat pada Gambar 4.
Evaluasi Sistem
Evaluasi dibagi menjadi dua bagian, yaitu
evaluasi untuk identifikasi citra dan search
engine menggunakan metode penggabungan.
Evaluasi search engine dibagi menjadi dua
sub evaluasi, yaitu perbandingan metode
penggabungan dan tanpa penggabungan serta
perbandingan
metode
penggabungan
menggunakan bobot kelas PNN dan tanpa
bobot kelas PNN.
Perhitungan akurasi untuk search engine
citra dan teks dengan metode penggabungan
menggunakan Average Precision (AVP) dan
Recall-Precision. AVP digunakan untuk
evaluasi perbandingan metode penggabungan
dan tanpa penggabungan, sedangkan RecallPrecision digunakan untuk semua evaluasi
search engine. Perhitungan Recall-Precision
menggunakan 11 titik interpolasi maksimum.
Kueri uji ditentukan dengan memasukan katakata yang mewakili isi tumbuhan obat.
Lingkungan Pengembangan Sistem
Perangkat keras yang digunakan dalam
penelitian ini yaitu Processor AMD Brazos
Dual Core E450 @ 1.65GHz, 3072 MB RAM,
dan harddisk 320 GB. Perangkat Lunak yang
digunakan ialah Sistem operasi Windows 7
Ultimate 64-bit, Visual Studio 2010 Ultimate,
NetBeans IDE 7.0, Notepad++ versi 5.9.8,
web browser Mozilla Firefox, Server XAMPP
1.7.2, MySQL sebagai DBMS, dan OpenCV
2.1.0 sebagai library pemrosesan citra.
HASIL DAN PEMBAHASAN
Pemrosesan Teks
Dokumen tumbuhan obat yang digunakan
dalam pemrosesan teks adalah dokumen yang
digunakan dalam penelitian Herawan (2011)
ditambah dokumen yang diambil dari internet.
Herawan (2011) membuat tag XML khusus
untuk
mengelompokkan bagian-bagian
penting dalam dokumen tersebut. Sumber
dokumen yang digunakan dalam penelitian ini
kemudian diubah ke dalam bentuk tag XML
seperti yang dilakukan Herawan (2011),
namun ditambahkan beberapa tag baru. Tag
file XML yang telah dimodifikasi adalah
sebagai berikut:
, tag ini mewakili
keseluruhan dokumen dan melingkupi tagtag lain yang lebih spesifik.
, tag ini menunjukkan ID dari
dokumen.
,
tag
ini
menunjukkan nama dari suatu jenis
tanaman obat.
,
tag
ini
menunjukkan nama latin dari tanaman
obat.
, tag ini
mewakili isi dari dokumen meliputi
deskripsi tanaman dan kegunaannya.
, tag ini menunjukkan
nama famili dari tanaman obat.
,
tag
ini
menunjukkan nama daerah dari tanaman
obat.
,
tag
ini
menunjukkan habitus dari tanaman obat.
,
tag
ini
menunjukkan deskripsi dari tanaman obat
yang sudah diringkas.
,
tag
ini
menunjukkan bagian tanaman obat yang
digunakan.
, tag ini
menunjukkan manfaat dari tanaman obat.
, tag ini
menunjukkan cara budidaya dari tanaman
obat.
,
tag
ini
menunjukkan kandungan kimia dari
tanaman obat.
, tag ini
menunjukkan sifat khas dari tanaman obat.
,
tag
ini
menunjukkan kandungan kimia dari
tanaman obat.
, tag ini
menunjukkan penyakit yang dapat
disembuhkan dari jenis tumbuhan obat.
Setelah dilakukan tagging XML, data
tersebut dimasukan ke dalam database server.
Sebelum dilakukan temu kembali, pada
dokumen dilakukan praproses terlebih dahulu,
tahapannya ialah dengan lowercasing,
tokenisasi, dan pembuangan stopwords. Tahap
terakhir adalah pengindeksan dokumen.
Praproses dan pengindeksan dokumen
dilakukan oleh Sphinx.
7
setelah ditambah data baru menjadi 59.02%.
Gambar 6 menunjukkan hasil akurasi untuk
setiap kelas tumbuhan obat.
1 Praproses
Praproses data citra RGB dimulai dengan
menyeleksi suatu daun dan memperkecil
ukurannya menjadi 270 x 240 piksel tanpa
memotong bagian tubuh daunnya. Tahapan
berikutnya ialah mengubah background citra
menjadi putih dengan mempertahankan
bagian tubuh daunnya. Kemudian, citra RGB
tersebut diubah menjadi citra grayscale.
Tujuan praproses ini ialah mengurangi waktu
proses (running time) pada saat identifikasi
citra menggunakan FLBP. Praproses citra
daun dapat dilihat pada Gambar 5.
Kelas 1 - 30
100
90
80
70
60
50
40
30
20
10
0
Akurasi (%)
Pemrosesan Citra
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
Kelas
Kelas 31 - 51
Gambar 5
Penyekalaan Segmentasi
270 x 240 background
Konversi
warna
menjadi
abu-abu
Hasil praproses citra daun
tumbuhan obat.
2 Ekstraksi Fitur FLBP
Citra yang telah dilakukan praproses akan
diekstraksi menggunakan FLBPP,R. Pada
pemrosesan citra menggunakan LBPP,R
terdapat 2 parameter operator, yaitu sampling
points (P) dan radius (R). Sampling points ini
menentukan panjang bin pada histogram LBP,
sedangkan radius menentukan jari-jari dari
titik pusat setiap blok. Berdasarkan penelitian
Valerina (2012), nilai P=8 dan R=2 adalah
operator terbaik untuk pemrosesan tumbuhan
obat. Ekstraksi citra menggunakan FLBP juga
bergantung pada parameter fuzzification (F).
Nilai F terbaik untuk ekstraksi citra tumbuhan
obat ialah F=4.
FLBP8,2 dengan nilai F=4 menghasilkan
akurasi sebesar 66.33%. Hasil akurasi FLBP8,2
ini lebih baik dibandingkan hasil akurasi LBP
original. Akurasi tersebut diperoleh dari data
sebanyak 30 kelas dan masing-masing kelas
terdapat 48 citra.
Pada penelitian ini, data bertambah
menjadi 51 kelas dan masing-masing kelas
berjumlah 48 citra sehingga harus dilakukan
training ulang dan evaluasi. Pembagian data
latih dan data uji mengikuti Valerina (2012)
yaitu 80% dan 20%. Ekstraksi citra dengan
penambahan data baru ini menggunakan
FLBP8,2 dengan nilai F=4. Hasil akurasi
Akurasi (%)
Citra asli
3888 x 2592
100
90
80
70
60
50
40
30
20
10
0
31 33 35 37 39 41 43 45 47 49 51
Kelas
Gambar 6
Hasil akurasi setiap kelas
tumbuhan obat.
Evaluasi Sistem Menggunakan Metode
Penggabungan
Metode penggabungan adalah metode
yang menggabungkan ciri citra dan teks pada
saat sistem melakukan proses temu kembali,
sedangkan sistem dengan metode tanpa
penggabungan
hanya
menggunakan
inforrmasi citra tanpa tambahan informasi
teks.
Pada saat kueri citra dan teks dimasukan,
sistem akan melakukan pemrosesan citra
terlebih dahulu. Citra akan diekstraksi
menggunakan FLBP8,2 dan dihitung jaraknya
menggunakan jarak Euclid. Berdasarkan
perhitungan jarak Euclid, semakin kecil nilai
jarak Euclid maka citra tersebut semakin
mirip. Sebaliknya, jika nilai jarak semakin
besar, citra tersebut semakin tidak sama. Nilai
jarak
ini
kemudian
dinormalisasi
menggunakan
normalisasi
minimum
maksimum agar rentang nilai jaraknya antara
0 sampai 1. Kemudian, nilai jarak yang telah
dinormalisasi dikonversi agar semakin
8
Metode penggabungan akan bekerja
apabila terdapat informasi teks yang
dimasukan ke dalam sistem. Setelah dilakukan
pemrosesan citra, sistem akan melakukan
pemrosesan teks. Kueri teks akan diproses
menggunakan
engine
Sphinx
dan
menghasilkan hasil temu kembali informasi
yang
telah
dihitung
dan
diurutkan
menggunakan pembobotan BM25. Bobot
dokumen hasil temu kembali ini disebut text
similarity. Setelah pemrosesan citra dan teks
selesai, sistem akan melakukan proses
penggabungan. Proses penggabungan adalah
proses menggabungkan nilai image similarity
dengan text similarity apabila terdapat
pasangan citra dan teks yang bersesuaian. Jika
citra tidak mempunyai pasangan dokumen
pada hasil temu kembali informasinya, text
similarity bernilai 0. Sebaliknya jika dokumen
tidak mempunyai pasangan citra pada hasil
temu kembali, image similarity bernilai 0.
Sistem dapat mendeteksi citra dan teks
merupakan pasangan apabila nomor file dan
kelasnya sama. Pada metode penggabungan,
image similarity dikalikan terlebih dahulu
dengan peluang kelas yang diperoleh dari
PNN.
Evaluasi sistem pada penelitian ini
menggunakan AVP untuk membandingkan
metode penggabungan dengan metode tanpa
penggabungan. Selain itu, evaluasi sistem juga
menggunakan kurva 11 titik Recall-Precision
dengan
interpolasi maksimum untuk
membandingkan kinerja dari sistem yang
memasukan PNN pada proses penggabungan
dengan sistem yang tidak menggunakan PNN.
Interpolasi maksimum digunakan untuk
melihat kasus terbaik dari sistem ini.
Sistem dengan metode penggabungan
memiliki nilai AVP sebesar 0.71 dan sistem
dengan metode tanpa penggabungan memiliki
nilai AVP sebesar 0.31. Sistem dengan
metode penggabungan ternyata memiliki nilai
AVP lebih besar dibandingkan dengan metode
tanpa penggabungan karena jumlah citra dan
dokumen yang relevan pada metode
penggabungan lebih banyak daripada metode
tanpa penggabungan. Informasi teks yang
relevan menyebabkan jumlah dokumen
relevan yang ditemukembalikan bertambah.
Hal ini yang menyebabkan jumlah citra dan
dokumen yang relevan juga bertambah setelah
proses penggabungan.
1
0.9
0.8
Precision
mendekati nilai 1, citra tersebut semakin
sama, dan semakin mendekati 0 citra tersebut
semakin tidak sama. Nilai inilah yang disebut
image similarity yang akan digunakan dalam
proses temu kembali citra dan proses
penggabungan.
Kemudian,
citra
akan
diurutkan berdasarkan nilai jarak terbesar.
Hasil pemrosesan citra kemudian dipotong
menggunakan nilai threshold
0.75 dan
didapat citra hasil pencarian dari pemrosesan
citra. Hasil pencarian inilah yang disebut hasil
temu kembali citra dengan metode tanpa
penggabungan.
0.7
0.6
0.5
0.4
0.3
0.2
0.1
.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0
Recall
Fusion
Gambar 7
tanpa Fusion
Kurva recall-precision metode
penggabungan
dan
tanpa
penggabungan.
Gambar 7 menunjukkan perbandingan
hasil pencarian antara metode penggabungan
dan tanpa penggabungan dilihat berdasarkan
peringkat hasil pencarian yang relevan.
Perbedaan
kurva
Fusion
(metode
penggabungan) dengan kurva tanpa Fusion
(metode tanpa penggabungan) terlihat jelas.
Kurva Fusion selalu jauh di atas kurva tanpa
Fusion. Nilai Precision di setiap titik Recall
menggambarkan peringkat hasil pencarian
yang
relevan pada kedua metode.
Berdasarkan kurva pada Gambar 7, metode
penggabungan membuat citra atau dokumen
yang relevan berkumpul di peringkat atas. Hal
ini disebabkan adanya kontribusi dari kueri
teks yang diberikan sehingga dapat
meningkatkan nilai similaritas dan jumlah
hasil pencarian yang relevan. Berbeda dengan
metode tanpa penggabungan, yang hasil
pencariannya berasal dari pemrosesan citra
saja, tidak ada bantuan informasi teks seperti
pada metode penggabungan.
9
Tabel 1
Contoh hasil pencarian dengan
metode tanpa penggabungan dan
metode penggabungan
Tanpa
Penggabungan
A : [Relevan]
Penggabungan
A : [Relevan]
Sim = 0.09
Sim = 0.43
B : [Relevan]
B : [Relevan]
Sim = 0.09
Sim = 0.42
C:[ Tidak Relevan]
E : [Relevan]
Sim = 0.08
Sim = 0.38
D:[ Tidak Relevan]
C : [Tidak Relevan]
Sim = 0.08
Sim = 0.08
E : [Relevan]
D : [Tidak Relevan]
Sim = 0.07
Sim = 0.08
Hasil
pencarian
antara
metode
penggabungan dan tanpa penggabungan dapat
dilihat di Tabel 1. Misalkan pada kasus di
atas, kueri yang diberikan adalah citra dari
kelas Pandan Wangi. Citra relevan ialah citra
A, B, dan E. Metode tanpa penggabungan
menemukembalikan citra A dan B pada 2
peringkat teratas, namun citra E pada
peringkat terakhir. Metode penggabungan
bekerja dengan bantuan informasi teks. Misal
diberikan kueri teks “wangi hijau”, hasil
pencarian metode penggabungan akan lebih
baik. Citra E yang awalnya berada pada posisi
terakhir sekarang berada pada posisi 3.
Kenaikan peringkat tersebut disebabkan oleh
nilai similaritas citra yang relevan meningkat.
Citra A, B, dan E mengalami kenaikan
similaritas, sedangkan citra C dan D tidak
mengalami kenaikan similaritas. Pada
persamaan untuk menghitung similaritas
metode penggabungan,
similaritas teks
(simtext) akan diberi nilai sesuai hasil
pencarian dari kueri teks yang diberikan,
sedangkan pada metode tanpa penggabungan
similaritas teks akan bernilai 0. Hal ini yang
menyebabkan citra relevan berkumpul di
peringkat teratas hasil pencarian.
Skenario pengujian menggunakan RecallPrecision dibagi menjadi 3. Masing-masing
skenario pengujian membandingkan antara
metode penggabungan menggunakan peluang
kelas citra yang diperoleh dari PNN dengan
metode penggabungan tanpa menggunakan
peluang kelas PNN. Ketiga skenario
pengujian tersebut adalah pengujian untuk
kueri citra dan teks yang relevan, kueri citra
relevan namun kueri teks tidak relevan, serta
kueri citra tidak relevan namun kueri teks
relevan. Daftar kueri yang digunakan dapat
dilihat di Lampiran 3.
Kueri citra relevan adalah citra yang
dimasukan pengguna dan hasil identifikasinya
benar, sedangkan kueri citra yang tidak
relevan adalah citra yang dimasukan
pengguna dan menghasilkan citra yang tidak
relevan pada proses identifikasinya. Contoh
kueri citra relevan dapat dilihat pada Gambar
8 dan kueri citra tidak relevan dapat dilihat
pada Gambar 9. Pada pemrosesan teks, kueri
teks relevan adalah informasi teks berupa
kata, frase, atau kalimat yang dimasukan
pengguna dan menghasilkan informasi yang
sesuai pada peringkat pertama hasil pencarian,
sedangkan kueri teks yang tidak relevan
adalah informasi teks yang dimasukan
pengguna dan menghasilkan informasi yang
tidak sesuai pada peringkat pertama hasil
pencarian. Sebagai contoh, apabila pengguna
ingin mendapatkan dokumen pandan wangi
pada peringkat pertama hasil pencarian, kueri
teks yang benar ialah “wangi hijau”. Kueri
“wangi hijau” ini disebut kueri teks relevan.
Akan tetapi, apabila pengguna memasukan
kueri “mrambos merah”, sistem akan
menampilkan hasil pencarian yang bukan
dokumen pandan wangi. Kueri “mrambos
merah” disebut kueri teks tidak relevan.
10
Hasil Identifikasi
Pandan Wangi
(Pandanus
amaryllifolius
Roxb.)
Pandan Wangi
(Pandanus
amaryllifolius
Roxb.)
Precision
Kueri Citra
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0
Recall
PNN
tanpa PNN
Gambar 8 Ilustrasi kueri citra relevan.
Gambar 11
Pandan Wangi
(Pandanus
amaryllifolius
Roxb.)
Hasil Identifikasi
Andong
(Centella asiatica,
(Linn) Urban.)
Gambar 9 Ilustrasi kueri citra tidak relevan.
Precision
Kueri Citra
Kurva recall-precision untuk
kueri citra relevan dan teks
tidak relevan.
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0
Precision
Jumlah data uji citra yang digunakan
sebesar 20% dari data citra keseluruhan
mengikuti penelitian Valerina (2012).
Pembagian kueri citra relevan dan tidak
relevan berdasarkan pengamatan terhadap 510
data uji citra. Citra relevan yang digunakan
sekitar 57% dari total data uji citra yang
tersedia, sedangkan untuk citra tidak relevan
sekitar 22%. Sebanyak 20% data uji citra
tidak menghasilkan citra yang relevan sama
sekali sehingga tidak dipakai untuk kueri uji.
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0
PNN
Gambar 10
Recall
tanpa PNN
Kurva recall-precision untuk
kueri citra dan teks relevan.
PNN
Gambar 12
Recall
tanpa PNN
Kurva recall-precision untuk
kueri citra tidak relevan dan
teks relevan.
Kurva PNN pada Gambar 10, 11, dan 12
menunjukkan
metode
penggabungan
menggunakan peluang kelas citra yang
diperoleh dari PNN, sedangkan kurva tanpa
PNN menunjukkan metode penggabungan
tanpa menggunakan peluang kelas PNN.
Gambar 10 menunjukkan perbandingan
kurva PNN dengan dan tanpa PNN pada kueri
citra dan teks yang relevan. Kurva PNN
ternyata sama dengan kurva tanpa PNN. Hal
ini menunjukkan informasi teks memiliki
peran
yang
penting
dalam
metode
penggabungan sehingga citra-citra relevan
naik peringkatnya hanya dengan informasi
teks saja. Kenaikan peringkat citra relevan
disebabkan adanya tambahan nilai similaritas
dari informasi teks yang diberikan. Akan
tetapi, kondisi ini berlaku apabila kueri teks
yang diberikan menghasilkan dokumen yang
relevan.
11
Gambar 11 menunjukkan evaluasi kedua
sistem jika diberikan kueri citra relevan dan
teks yang tidak relevan. Secara umum, kurva
PNN lebih baik daripada kurva tanpa PNN
karena pada titik recall 0.2 sampai 1, kurva
PNN selalu berada di atas kurva tanpa PNN.
Bentuk kurva PNN relatif stabil karena
adanya perkalian dengan peluang kelas yang
dihasilkan dari PNN sehingga citra-citra yang
sejenis terutama yang relevan akan
berkumpul. Nilai precision pada citra relevan
yang berdekatan akan menghasilkan nilai
yang seragam. Pada titik 0 dan 0.1, kurva
tanpa PNN berada di atas kurva PNN.
Penyebabnya ialah peluang kelas relevan lebih
kecil daripada peluang kelas nonrelevan pada
beberapa kueri uji.
Evaluasi perbandingan kedua sistem untuk
kueri citra tidak relevan dan teks relevan dapat
dilihat pada Gambar 12. Perbedaan kurva
PNN dan tanpa PNN terlihat jelas. Kurva
tanpa PNN ternyata sedikit berada di atas
kurva PNN. Hal ini disebabkan sebelum
ditambah informasi teks pada kurva PNN,
nilai similaritas citra dikalikan dengan
peluang kelas yang dihasilkan dari PNN.
Peluang kelas relevan tidak akan terlalu tinggi
karena citra kueri tidak relevan. Oleh karena
itu,
hasil
pencarian
pada
metode
penggabungan menggunakan peluang kelas
citra yang diperoleh dari PNN sedikit lebih
baik daripada metode penggabungan tanpa
menggunakan peluang kelas PNN setelah
ditambah informasi teks yang relevan.
Aplikasi web yang dikembangkan pada
penelitian ini tidak hanya dapat digunakan
untuk pencarian saja, tetapi juga dapat
dimanfaatkan sebagai sistem untuk idenfikasi
tumbuhan obat. Proses identifikasi akan
menampilkan satu hasil citra yang memiliki
nilai similaritas terbesar. Sama halnya dengan
sistem pencarian yang akan menampilkan
citra berdasarkan nilai similaritas terbesar,
hanya saja hasil pencarian yang ditampilkan
banyak. Oleh karena itu, sistem pencarian ini
sekaligus sebagai sistem identifikasi dengan
cara melihat peringkat pertama hasil
pencarian.
Fitur tambahan yang disediakan aplikasi
ini ialah pencarian dokumen. Pengguna dapat
memasukan
kueri
teks
saja
untuk
menampilkan dokumen tumbuhan obat.
Aplikasi ini juga menyediakan fitur database
yang menampilkan 51 spesies tumbuhan obat
yang digunakan dalam penelitian ini.
Antarmuka fitur Medleaf dapat dilihat di
Lampiran 4.
SIMPULAN DAN SARAN
Simpulan
Pengembangan aplikasi web dengan
menggabungkan ciri citra dan teks berhasil
dilakukan. Sistem yang menggabungkan ciri
citra dan teks memiliki nilai AVP sebesar 0.71
sedangkan sistem yang tanpa menggabungkan
ciri citra dan teks memiliki AVP sebesar 0.31
untuk 51 data spesies tumbuhan obat
Indonesia.
Penggabungan
menggunakan
peluang
kelas
lebih
baik
daripada
penggabungan tanpa menggunakan peluang
kelas yang dihasilkan dari PNN.
Saran
Saran untuk penelitian selanjutnya yaitu:
1 Penambahan data citra dan dokumen
tumbuhan obat agar memperbanyak
koleksi tumbuhan obat.
2 Penelitian lebih lanjut mengenai pemilihan
metode perhitungan jarak dan nilai
threshold untuk temu kembali citra.
3 Penggunaan threading untuk pemrosesan
citra menggunakan FLBP agar waktu
komputasi semakin cepat.
DAFTAR PUSTAKA
Acharya T, Ray AK. 2005. Image Processing
Principles and Applications. New Jersey:
John Wiley & Sons, Inc.
Baeza-Yates R, Riberio-Neto B. 1999.
Modern
Information
Retrieval.
Wokingham: Addison Wesley.
Gkoufas Y, Morou A, Kalamboukis T. 2011.
Combining textual and visual information
for image retrieval in the medical domain.
The Open Medical Informatics Journal
5:50-57.
Herawan Y. 2011. Ekstraksi ciri dokumen
tumbuhan obat menggunakan Chi-Kuadrat
dengan klasifikasi Naïve Bayes [skripsi].
Bogor : Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian
Bogor.
Iakovidis DK, Keramidas EG, Maroulis D.
2008. Fuzzy local binary patterns for
ultrasound texture charecterization. Di
dalam: Campilho A, Kamel M, editor.
Proceedings of the 5th International
12
Conference ICIAR; Portugal, 25-27 June
2008. Berlin: Springer Berlin Heidelberg.
hlm 750-759.
Manning CD, Raghavan P, Schütze H. 2008.
An Introduction to Information Retrieval.
Cambridge: Cambridge University Press.
Kulsum LU. 2010. Identifikasi tanaman hias
secara otomatis menggunakan Metode
Local Binary Patterns Descriptor dan
Probabilistic Neural Network [skripsi].
Bogor: Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian
Bogor.
Valerina F. 2012. Ekstraksi tekstur citra
tumbuhan obat menggunakan Metode
Fuzzy Local Binary Pattern [skripsi].
Bogor : Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian
Bogor.
Kusmana I. 2011. Penggabungan fitur Local
Binary Patterns untuk identifikasi citra
tumbuhan obat [skripsi]. Bogor: Fakultas
Matematika dan Ilmu Pengetahuan Alam,
Institut Pertanian Bogor.
Mäenpää T. 2003. The Local Binary Pattern
Approach to Texture Analysis. Oulu: Oulu
University Press.
Zuhud EAM. 2009. Potensi hutan tropika
sebagai penyangga bahan obat alam untuk
kesehatan bangsa. Jurnal Bahan Alam
Indonesia 6:232-277.
Wu SG et al. 2007. A leaf recognition
algorithm for plant using probabilistic
neural network. IEEE International
Symposium on Signal Processing and
Information Technology; Egypt, 15-18
December 2007. Giza: IEEE. hlm 11-16.
13
LAMPIRAN
14
Lampiran 1 51 citra tumbuhan obat
Pandan Wangi
(Pandanus
amaryllifolius
Roxb.)
Jarak Pagar
(Jatropha curcas
Linn.)
Dandang Gendis
(Clinacanthus
nutans Lindau)
Lavender
(Lavendula
afficinalis Chaix)
Akar Kuning
(Arcangelisiaflav
a L.)
Daruju
(Acanthus
ilicifolius L.)
Pegagan
(Centella
asiatica,
(Linn) Urban.)
Andong
(Centella
asiatica,
(Linn) Urban.)
Kemangi
(Ocimum
basilicum)
Iler
(Coleus
scutellarioides,
Linn, Benth)
Jeruk Nipis
(Citrus
aurantifolia,
Swingle.)
Bidani
(Quisqualis
Indica L.)
Gadung Cina
(Smilax china)
Tabat Barito
(Ficus deloidea
L.)
Nandang gendis
kuning
Bunga Telang
(Clitoria
ternatea
L.)
Mangkokan
(Nothopanax
scutellarium
Merr.)
Som Jawa
(Talinum
paniculatum
(jacq.) Gaertn.)
Pungpulutan
(Urena lobata L.)
Sosor Bebek
(Kalanchoe
pinnata
(Lam.)Pers)
Nanas kerang
(Rhoeo discolor
(L.Her.) Hance)
Seligi
(Phyllanthus
buxifolius Muell)
Remak Daging
(Excecaria
bicolor Hassk)
Kumis Kucing
(Orthosiphon
aristatus (B1)
Miq.)
Kemuning
(Murraya
paniculata [L..]
Jack.)
Cincau Hitam
(Mesona
palustris)
Sambang Darah
(Excoceria
cochinchinensis
Lour.)
Landik
(Barleria
lupulina
Lindl.)
Jambu Biji
(Psidium
guajava
L.)
Handeuleum
(Graptophyllum
pictum (L.)
Griffith)
15
Lanjutan
Kucing-kucingan
(Acalypha
indica)
Alamanda
(Allamanda
cathartica)
Amomum
truncatum gagn
(Zing)
Melati Mayang
(Ligustrum
lucidum)
Sirihan
(Piper aduncum)
Daun Encok
(Plumbago
scandens L
(plumb.))
Mondokaki
Abang
(Tabernaemontana
pandacaqui Poir)
Terompet
(The
peruviana[Pers.]
K.Schum)
Jarak Merah
(Jatropha
Gossypifolia L.)
Cabai Rawit
(Capsicum
frutescens)
Kenanga
(Cananga
Odorata)
Pepaya
(Carica papaya)
Mrambos
Salam
(eugenia
polyantha)
Zodia
(Evodia
suaveolens)
Bunga Lilin
(Pachystachys
lutea L.)
Nangka
(Artocarpus
heterophyllus
lamk)
Sirsak
(Annona
muricata, Linn.)
Belimbing
Wuluh
(Averrhoa
bilimbi L.)
Mangga
(Mangifera
indica)
Rambutan
(Nephelium
lappaceum L.)
16
Lampiran 2 Daftar 51 jenis tumbuhan obat Indonesia yang digunakan dalam penelitian
No
Nama
Nama Latin
1
Pandan Wangi
Pandanus amaryllifolius Roxb
2
Jarak Pagar
Jatropha curcas Linn.
3
Dandang Gendis
Clinacanthus nutans Lindau
4
Lavender
Lavendula afficinalis Chaix
5
Akar Kuning
Arcangelisiaflava L.
6
Daruju
Acanthus ilicifolius L.
7
Pegagan
Centella asiatica, (Linn) Urban.
8
Andong
Centella asiatica, (Linn) Urban.
9
Kemangi
Ocimum basilicum
10
Iler
Coleus scutellarioides, Linn,Benth
11
Jeruk Nipis
Citrus auran
PENCARIAN TUMBUHAN OBAT INDONESIA
BERBASIS WEB
OKI MAULANA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
ii
PENGGABUNGAN CIRI CITRA DAN TEKS UNTUK SISTEM
PENCARIAN TUMBUHAN OBAT INDONESIA
BERBASIS WEB
OKI MAULANA
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
ii
ABSTRACT
OKI MAULANA. The Fusion of Image and Text Features for Indonesian Medicinal Plants
Search Engine Based on Web Application. Under the supervision of YENI HERDIYENI.
This research investigate the effectiveness of image and text fusion for Indonesian medicinal
plant search engine based on web application. This research used 51 species of Indonesian
medicinal plants and each species consists of 48 images, so the total images used in this research
are 2448 images. WeightedSUM is general linear combination formula to combine image and text
features.
Further research was conducted on the combination of features to get a better result in
medicinal plants search engine. Fuzzy Local Binary Pattern (FLBP) is used to extract texture in
image processing. This research uses the Probabilistic Neural Network (PNN) to improve image
similarity that used in the fusion process. BM25 weighting in document search engine is used to
get text similarity. Image and text similarity are combined using WeightedSUM to get the retrieval
results. The experimental results show that the fusion of image and text features can improve the
performance of retrieval results. In particular, the Average Precision (AVP) has increased from
0.31 to 0.71.
Keywords : BM25, Fuzzy Local Binary Patterns, Infromation Retrieval, Local Binary Patterns,
Probabilistic Neural Network.
ii
Judul Skripsi
Nama
NRP
: Penggabungan Ciri Citra dan Teks untuk Sistem Pencarian Tumbuhan Obat
Indonesia Berbasis Web
: Oki Maulana
: G64080019
Disetujui
Pembimbing
Dr. Yeni Herdiyeni, S.Si., M.Kom.
NIP 19750923 200012 2 001
Diketahui
Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si, M.Kom.
NIP 19660702 199302 1 001
Tanggal Lulus:
ii
iii
PRAKATA
Puji dan syukur penulis panjatkan kehadirat Allah subhanahu wa-ta'ala yang senantiasa
memberikan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tulisan yang berjudul
Penggabungan Ciri Gambar dan Teks untuk Sistem Pencarian Tumbuhan Obat Berbasis Web.
Shalawat dan salam disampaikan kepada Nabi Muhammad shollallahu ‘alaihi wassalam beserta
keluarga, sahabat, dan pengikutnya yang tetap berada di jalan-Nya hingga akhir zaman.
Pembuatan skripsi ini tak lepas dari dukungan dan bantuan dari berbagai pihak. Oleh
karena itu, penulis menyampaikan rasa terima kasih kepada:
1 Kedua orang tua serta ketiga saudaraku tercinta, Inneu Kurniawati, Mamay Nugraha,
dan Desi Wulansari atas doa dan semangat yang diberikan.
2 Ibu Dr. Yeni Herdiyeni, S.Si., M.Kom. selaku dosen pembimbing yang telah
memberikan banyak bantuan, kemudahan, saran dan ilmu kepada penulis.
3 Teman-teman satu bimbingan, Mayanda Mega Santoni, Ni Kadek Sri Wahyuni, Ryantie
Octaviani Suganda, Siska Susanti, Desta Sandya Prasvita, Pauzi Ibrahim, Canggih
Trisyanto, Tomy Kurniawan, Pak Rico dan Kak Gibtha atas saran, masukan dan nasihat
yang diberikan kepada penulis.
4 Teman-teman di Departemen Ilmu Komputer IPB angkatan 45 atas segala kebersamaan,
bantuan, dan motivasi yang telah diberikan kepada penulis.
Penulis menyadari bahwa masih banyak kekurangan yang ditemukan dalam tugas akhir ini.
Penulis berharap adanya saran dan kritik yang membangun dari semua pihak yang membaca
tulisan ini. Semoga tulisan ini bermanfaat dan dapat menambah wawasan ilmu pengetahuan bagi
penulis khususnya dan pembaca umumnya.
Bogor, September 2012
Oki Maulana
iii
iv
RIWAYAT HIDUP
Penulis dilahirkan di kota Ciamis pada tanggal 28 Oktober 1990. Penulis merupakan putra
pertama dari empat bersaudara dari pasangan Djodjo Saputra dan Neneng Kuraesin. Penulis
memulai pendidikan di TK Bhayangkari Ciamis pada tahun 1995. Penulis melanjutkan sekolah
dasar di SDN Sindangrasa 2 Ciamis lulus pada tahun 2002, kemudian melanjutkan pendidikan
menengah pertama di SMP 2 Ciamis dan lulus pada tahun 2005. Penulis menempuh pendidikan
menengah atas di SMA Negeri 2 Ciamis dan lulus pada tahun 2008. Setelah itu, penulis
melanjutkan kuliah dan diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas
Matematika dan Ilmu Pengetahuan Alam, IPB melalui jalur Undangan Seleksi Masuk IPB (USMI)
dan lulus pada tahun 2008. Dalam masa kuliah, penulis aktif di organisasi kemahasiswaan yaitu
sebagai Ketua Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) dan Ketua Paguyuban
Mahasiswa Galuh Ciamis (PMGC). Pada bulan Juli 2011, penulis melaksanakan Praktek Kerja
Lapang (PKL) di PT Pertamina Persero pusat yang berada di Jakarta.
iv
v
DAFTAR ISI
Halaman
DAFTAR GAMBAR ....................................................................................................................... vi
DAFTAR LAMPIRAN.................................................................................................................... vi
DAFTAR TABEL ........................................................................................................................... vi
PENDAHULUAN
Latar Belakang ............................................................................................................................ 1
Tujuan Penelitian ........................................................................................................................ 1
Ruang Lingkup Penelitian ........................................................................................................... 1
TINJAUAN PUSTAKA
Temu kembali informasi ............................................................................................................. 1
Ekstraksi Fitur ............................................................................................................................. 2
Tekstur ........................................................................................................................................ 2
Ekstraksi Fitur dengan Fuzzy Local Binary Pattern.................................................................... 2
Probabilistic Neural Network (PNN) .......................................................................................... 2
Pembobotan BM25...................................................................................................................... 3
Penggabungan Ciri Citra dan Teks .............................................................................................. 3
METODE PENELITIAN
Data Citra Tanaman Obat ............................................................................................................ 4
Praproses Citra ............................................................................................................................ 5
Ekstraksi Fitur Tekstur ................................................................................................................ 5
Perhitungan Similaritas ............................................................................................................... 5
Praproses Dokumen Tumbuhan Obat.......................................................................................... 5
Temu Kembali Informasi ............................................................................................................ 5
Penggabungan Ciri Citra dan Teks (Fusion Similarity) .............................................................. 5
Evaluasi Sistem ........................................................................................................................... 6
Lingkungan Pengembangan Sistem ............................................................................................ 6
HASIL DAN PEMBAHASAN
Pemrosesan Teks ......................................................................................................................... 6
Pemrosesan Citra ......................................................................................................................... 7
Evaluasi Sistem Menggunakan Metode Penggabungan .............................................................. 7
SIMPULAN DAN SARAN
Simpulan ................................................................................................................................... 11
Saran ......................................................................................................................................... 11
DAFTAR PUSTAKA ..................................................................................................................... 11
LAMPIRAN ................................................................................................................................... 13
v
vi
DAFTAR GAMBAR
Halaman
1
2
3
4
5
6
7
8
9
10
11
12
Membership function m0() dan m1() sebagai fungsi dari ∆pi. ...................................................... 2
Struktur PNN............................................................................................................................... 3
Metode penelitian. ....................................................................................................................... 4
Alur proses penggabungan ciri citra dan teks.............................................................................. 5
Hasil praproses citra daun tumbuhan obat................................................................................... 7
Hasil akurasi setiap kelas tumbuhan obat. ................................................................................... 7
Kurva recall-precision metode penggabungan dan tanpa penggabungan. .................................. 8
Ilustrasi kueri citra relevan. ....................................................................................................... 10
Ilustrasi kueri citra tidak relevan. .............................................................................................. 10
Kurva recall-precision untuk kueri citra dan teks relevan. ....................................................... 10
Kurva recall-precision untuk kueri citra relevan dan teks tidak relevan. ................................. 10
Kurva recall-precision untuk kueri citra tidak relevan dan teks relevan. ................................. 10
DAFTAR LAMPIRAN
Halaman
1
2
3
4
51 citra tumbuhan obat ............................................................................................................... 14
Daftar 51 jenis tumbuhan obat Indonesia yang digunakan dalam penelitian ............................. 16
Kumpulan kueri uji ..................................................................................................................... 18
Screenshoot aplikasi ................................................................................................................... 20
DAFTAR TABEL
Halaman
Contoh hasil pencarian dengan metode tanpa penggabungan dan metode penggabungan ............... 9
vi
1
PENDAHULUAN
Latar Belakang
Laboratorium Konservasi Tumbuhan,
Fakultas Kehutanan (Fahutan) IPB telah
mendata bahwa tidak kurang dari 2039
spesies tumbuhan obat tersebar di seluruh
hutan Indonesia sampai tahun 2001 (Zuhud
2009). Masalah yang timbul ialah masyarakat
akan sangat sulit untuk mengenali atau
melakukan identifikasi tumbuhan obat karena
spesies tumbuhan obat yang tersebar di
seluruh Indonesia dan penduduk tinggal di
daerah yang berbeda pula. Masyarakat
memerlukan suatu sistem berbasis web untuk
mengenali tumbuhan obat agar dapat
mengenali tumbuhan obat di manapun
masyarakat berada. Kusmana (2011), Kulsum
(2011), dan Valerina (2012) telah berhasil
mengembangkan sistem identifikasi citra
tumbuhan
obat berupa aplikasi desktop,
sedangkan Herawan (2011) mengembangkan
aplikasi web untuk pencarian dokumen
tumbuhan obat. Akan tetapi, informasi yang
pengguna miliki tidak terbatas pada citra atau
teks saja. Oleh karena itu, sistem tidak hanya
perlu berbasis web, tetapi juga dapat
menggabungkan informasi citra dan teks.
Penelitian
tentang
penggabungan
ini
sebelumnya telah dilakukan oleh Gkoufas et
al. (2011). Tim risetnya membangun sebuah
sistem temu kembali dalam bidang kesehatan
(X-Ray) dengan menggabungkan informasi
citra dan teks.
Untuk identifikasi berbasis citra, Local
Binary Pattern (LBP) adalah suatu metode
yang sederhana dan mampu mendeskripsikan
pola tekstur lokal dengan baik. Hasil dari
threshold pada LBP terkadang menghasilkan
pengodean biner yang tidak sesuai dengan
kandungan nilai pikselnya. Hal ini disebabkan
adanya ketidakpastian yang ditimbulkan oleh
noise. Fuzzy Local Binary Pattern (FLBP)
mampu
mengatasi
permasalahan
ketidakpastian pada representasi tekstur LBP
yang dikemukakan oleh Iakovidis et al.
(2008). Selain itu, Valerina (2011) melakukan
identifikasi tumbuhan obat menggunakan
metode ekstraksi tekstur Fuzzy Local Binary
Pattern (FLBP) pada citra. Akurasi yang
dihasilkan pada descriptor FLBPP,R mencapai
66.33% untuk operator (8,2).
Penelitian ini mengusulkan pembangunan
sistem aplikasi web yang menggabungkan ciri
citra dan teks untuk mengidentifikasi
tumbuhan obat di Indonesia. Untuk
penelusuran dengan kueri citra, diterapkan
metode FLBP untuk ekstraksi tekstur citra
tumbuhan obat dan PNN untuk pembobotan
kelas. Sistem pencarian dokumen tumbuhan
obat yang dikembangkan Herawan (2011)
digunakan untuk penelusuran dengan kueri
teks.
Tujuan Penelitian
Tujuan
penelitian
ini
ialah
menggabungkan ciri citra dan teks untuk
mempermudah identifikasi dan pencarian citra
dan teks berbasis web.
Ruang Lingkup Penelitian
1 Dokumen yang digunakan untuk temu
kembali informasi berbasis teks adalah
dokumen tumbuhan obat Indonesia
berformat XML. Data citra daun tumbuhan
obat diperoleh dari kamera digital yang
diambil di kebun Biofarma, Cikabayan dan
rumah kaca Pusat Konservasi Ex-situ
Tumbuhan Obat Hutan Tropika Indonesia,
Fahutan, IPB, dan Kebun Raya Bogor.
2 Teknik yang digunakan untuk ekstraksi
fitur pada citra daun tumbuhan obat ialah
FLBP.
TINJAUAN PUSTAKA
Temu kembali informasi
Sistem
temu
kembali
informasi
(Information retrieval system) merupakan
sistem pencari pada sekumpulan dokumen
elektronik yang memenuhi kebutuhan
informasi tertentu (Manning et al. 2008).
Sistem temu kembali informasi bertujuan
menjembatani kebutuhan informasi pengguna
dengan sumber informasi.
Temu kembali informasi berkaitan dengan
cara
merepresentasikan,
menyimpan,
mengorganisasikan, dan mengakses informasi.
Representasikan
dan
organisasi
suatu
informasi harus membuat pengguna lebih
mudah dalam mengakses informasi yang
diinginkannya. Akan tetapi, mengetahui
informasi yang diinginkan pengguna bukan
merupakan suatu hal yang mudah. Untuk itu
pengguna harus menransformasikan informasi
yang dibutuhkan ke dalam suatu kueri yang
akan diproses mesin pencari (IR System)
sehingga kueri tersebut merepresentasikan
informasi yang dibutuhkan oleh pengguna.
Dengan kueri tersebut, IR system akan
menemukembalikan informasi yang relevan
terhadap kueri (Baeza-Yates & Ribeiro-Neto
1999).
2
Ekstraksi Fitur
Ekstraksi fitur adalah proses mendapatkan
fitur atau penciri dari suatu citra. Secara
umum, fitur citra berupa warna, bentuk, dan
tekstur.
Acharya
dan
Ray
(2005)
mendefinisikan
fitur
bentuk
sebagai
pendeskripsi suatu objek yang bebas terhadap
posisi, orientasi, dan ukuran. Fitur tekstur
didefinisikan sebagai pengulangan pola atau
pola-pola yang ada pada suatu daerah bagian
citra.
Sementara, membership function m1()
mendefinisikan derajat nilai di=1. Fungsi
m1() didefinisikan sebagai berikut:
m i
{
∆pi
∆pi
–
∆pi
(2)
∆pi -
Kedua
membership
function m i
] merepresentasikan
dan m i
parameter
yang
mengontrol
derajat
ketidakpastian.
Tekstur
Tekstur adalah gambaran visual dari
sebuah permukaan atau bahan. Dalam
computer vision, tekstur dicirikan dengan
variasi intensitas pada sebuah citra. Variasi
intensitas dapat disebabkan oleh kekasaran
atau perbedaan warna pada suatu permukaan.
Selain itu, tekstur juga merupakan properti
dari area. Properti-properti dari tekstur citra
meliputi keseragaman, kepadatan, kekasaran,
keberaturan, linearitas, keberarahan, dan
frekuensi. Penampilan tekstur dipengaruhi
oleh skala dan arah pandangan serta
lingkungan
dan
kondisi
pencahayaan
(Mäenpää 2003).
Ekstraksi Fitur dengan Fuzzy Local Binary
Pattern
Fuzzification pada pendekatan LBP
meliputi transformasi variabel input menjadi
variabel fuzzy berdasarkan sekumpulan fuzzy
rule. Dalam hal ini, digunakan dua fuzzy
rule untuk menentukan mencari nilai biner
dan nilai fuzzy berdasarkan deskripsi relasi
antara nilai pada circular sampling pi dan
piksel pusat p nt r (Iakovidis 2008). Dua
fuzzy rule tersebut yaitu:
Rule : semakin negatif
kepastian terbesar dari i
Rule : semakin positif
kepastian terbesar dari i
nilai ∆pi , nilai
adalah 0.
nilai ∆pi , nilai
adalah 1.
Gambar 1 menunjukan membership
function yang menghasilkan aturan R0 dan R1.
Dari aturan R0 dan R1, dua membership
function m0() dan m1() dapat ditentukan.
Fungsi m0() mendefinisikan derajat nilai di=0.
Membership function m0() adalah fungsi
menurun yang didefinisikan sebagai berikut:
∆pi
-∆pi
m i
{
–
∆pi
∆pi -
(1)
Gambar 1 Membership function m0() dan m1()
sebagai fungsi dari ∆pi.
Metode
LBP
original
hanya
menghasilkan satu kode LBP, sedangkan
metode FLBP akan menghasilkan satu atau
lebih kode LBP. Masing-masing nilai LBP
yang dihasilkan memiliki tingkat kontribusi
(CA,CB) yang berbeda bergantung pada nilainilai fungsi keanggotaan m0() dan m1()
yang dihasilkan. Untuk ketetanggaan 3x3,
kontribusi CLBP dari setiap kode LBP pada
histogram FLBP didefinisikan sebagai
berikut:
∏i m
i
i
(3)
Total kontribusi ketetanggaan 3x3 ke
dalam bin histogram FLBP yaitu:
∑
(4)
Probabilistic Neural Network (PNN)
PNN merupakan Artificial Neural Network
(ANN)
yang
menggunakan
teorema
probabilitas klasik (pengklasifikasian Bayes).
PNN menggunakan pelatihan (training)
supervised. Training data PNN mudah dan
cepat. Bobot bukan merupakan hasil training
melainkan nilai yang dimasukkan (tersedia)
(Wu et al. 2007).
3
dokumen. Rumus dalam menghitung skor
pada algoritme BM25 ditunjukkan pada
Persamaan 7 berikut:
(7)
k
Persamaan
7
menjelaskan
bahwa
merupakan term frequency pada sebuah
dokumen, IDF merupakan inverse dari jumlah
dokumen yang memuat kata kueri, k1
merupakan parameter bebas dengan nilai yang
digunakan yaitu k1=1.2. Rumus untuk
menghitung IDF ditunjukkan pada Persamaan
8 sebagai berikut:
t
Gambar 2 Struktur PNN.
Struktur PNN terdiri atas empat lapisan,
yaitu lapisan masukan, lapisan pola, lapisan
penjumlahan, dan lapisan keputusan atau
keluaran. Lapisan masukan merupakan objek
yang terdiri atas
nilai ciri yang akan
diklasifikasikan pada n kelas. Struktur PNN
ditunjukkan pada Gambar 2. Proses-proses
yang terjadi setelah lapisan masukan yaitu:
1 Lapisan pola (pattern layer)
Lapisan pola menggunakan 1 node untuk
setiap data pelatihan yang digunakan.
Setiap node pola merupakan perkalian titik
(dot product) dari x- xij kemudian dibagi
dengan bias tertentu σ dan selanjutnya
dimasukkan ke dalam fungsi radial basis,
xp -n
Dengan
yaitu
ra as n
demikian, persamaan yang digunakan pada
lapisan pola ialah:
x
xp -
x-xij
x-xij
(5)
2 Lapisan penjumlahan (summation layer)
Lapisan ini menerima masukan dari node
lapisan pola yang terkait dengan kelas
yang ada. Persamaan yang digunakan pada
lapisan ini ialah:
p x
k
k
t
∑ti
xp -
(x-xij) (x-xij)
(6)
3 Lapisan keluaran (output layer)
Lapisan ini menentukan kelas dari input
yang diberikan. Input x akan masuk ke Y
jika nilai p x paling besar dibandingkan
kelas lainnya.
Pembobotan BM25
Metode BM25 merupakan metode
pembobotan kata yang memeringkat setiap
kumpulan dokumen yang didasarkan pada
kata dalam kueri yang muncul pada setiap
lo
(8)
t
N
merupakan
banyaknya
dokumen, dan
merupakan
t
dokumen yang memuat kata t.
koleksi
jumlah
Perhitungan yang digunakan untuk
peringkat
dokumen
terhadap
kueri
menggunakan pembobotan BM25 yang sudah
disediakan Sphinx dengan algoritme:
BM25 =0
foreach(keyword inmatchingkeywords){
n= totalmatchingdocuments(keyword)
N = total_documents_in_collection
k1 =1.2
TF = current_document_occurrence
count(keyword)
IDF =log((N-n+1)/n)/log(1+N)
BM25 = BM25 + TF*IDF/(TF+k1) }
BM25 =0.5+BM25 /
(2*num_keywords(query))
Keterangan:
N
n
: Total dokumen dalam korpus
: Total dokumen yang memiliki
kata kueri
TF : Frekuensi term t pada dokumen
IDF : Inverted indeks dokumen
K1 : Parameter positif (1.2).
Penggabungan Ciri Citra dan Teks
Penggabungan ciri citra dan teks adalah
proses menggabungkan nilai similaritas citra
dan teks menjadi satu nilai similaritas baru.
Tujuan utamanya ialah meningkatkan akurasi
sistem. Jika ciri yang terdapat dalam citra
kurang bagus, dengan adanya penggabungan
ini, informasi teks berperan untuk melengkapi
ciri citra atau sebaliknya. Gkoufas et al.
(2011) melakukan riset tentang penggabungan
nilai similaritas citra dan teks dan
menghasilkan akurasi yang lebih bagus. Jika
kita memasukan kueri (q) dan sekumpulan
dokumen citra dan teks (d), rumus
penggabungannya sebagai berikut:
4
w
q
s or t xtual q
w
s or visual q
Valerina (2012).
(10)
dengan w1 adalah bobot teks yang diambil dari
nilai MAP dokumen yang ditemukembalikan,
scoretextual adalah nilai similaritas teks atau
dokumen, w2 adalah bobot citra yang diambil
dari nilai MAP citra hasil identifikasi, dan
scorevisual adalah nilai similaritas citra.
METODE PENELITIAN
Penelitian ini dilakukan dalam beberapa
tahap. Tahap-tahap tersebut diselesaikan
dengan metode penelitian yang dapat dilihat
pada Gambar 3. Data yang digunakan dalam
penelitian ini terdiri atas 2 jenis, yaitu
dokumen tumbuhan obat untuk temu kembali
informasi berbasis teks dan data citra
tumbuhan obat. Penelitian ini mengambil data
dan hasil penelitian dari Herawan (2011) dan
Tahap pertama adalah praproses citra.
Citra akan dipersiapkan agar dapat diproses.
Setelah itu, proses dilanjutkan dengan
ekstraksi ciri menggunakan FLBP sehingga
dihasilkan suatu model. Model tersebut akan
dicocokkan dengan citra data uji. Dari hasil
pencocokan tersebut akan muncul gambargambar yang cocok dengan kueri citra.
Kemudian
sistem
akan
melakukan
pemrosesan teks. Hasil pemrosesan teks
kemudian digabung dengan hasil pencarian
citra. Pengguna juga dapat melihat detail dari
hasil pencarian tumbuhan obat tersebut.
Data Citra Tanaman Obat
Data penelitian merupakan data citra daun
tanaman obat yang diperoleh dari pemotretan
51 jenis tanaman obat yang terdapat di kebun
Biofarma, Cikabayan dan rumah kaca Pusat
Konservasi Ex-situ Tumbuhan Obat Hutan
Tropika Indonesia, Fahutan IPB dan Kebun
Gambar 3 Metode penelitian.
5
Raya Bogor. Masing-masing jenis tanaman
obat terdiri atas 24 pose citra bagian depan
dan 24 pose citra bagian belakang, sehingga
terdapat 2448 total citra tanaman obat. Citra
tumbuhan berformat JPG dan berukuran 270
x 240 piksel. Data citra ini akan dipasangkan
dengan dokumen dalam sistem Herawan
(2011). Satu citra akan dipasangkan dengan
satu dokumen dalam kelas yang sama. Nama
lokal, nama latin, dan foto daun 51 jenis
tanaman obat dapat dilihat di Lampiran 1 dan
2.
Praproses Citra
Sebelum memasuki tahap ekstraksi ciri,
pada citra yang telah diakuisisi dilakukan
proses perbaikan citra. Proses perbaikan citra
dibagi menjadi tiga tahap, yaitu penskalaan,
segmentasi background, dan konversi warna
menjadi abu-abu.
Ekstraksi Fitur Tekstur
Proses ekstraksi fitur yang digunakan
dalam penelitian ini menggunakan FLBP
dengan operator (8,2) dan parameter F=4.
Ekstraksi tekstur dilakukan dengan konvolusi
blok citra menggunakan operator tertentu.
Nilai FLBP akan disajikan dalam bentuk
histogram. Blok-blok citra kemudian akan
diekstraksi menggunakan metode FLBP.
Perhitungan Similaritas
Pada citra masukan yang telah diekstraksi
ciri, dilakukan perhitungan similaritas
menggunakan jarak Euclid. Pada proses
perhitungan similaritas ini akan dihasilkan
citra-citra yang memiliki kesamaan yang
paling besar antara citra yang dihasilkan dari
citra data latih dan citra masukannya.
Kesamaan citra kueri dengan citra data latih
direpresentasikan oleh jarak Euclid. Hasil
perhitungan
jarak
Euclid
kemudian
dinormalisasi
menggunakan
normalisasi
minimum maksimum. Setelah dilakukan
normalisasi, nilai similaritas dimasukan ke
dalam persamaan 1 – hasil normalisasi agar
semakin mendekati satu citra semakin mirip.
Sistem ini akan memilih top-n citra sebagai
hasil dari temu kembali citra dengan cara
thresholding. Penelitian ini menggunakan
0.75 sebagai threshold.
Praproses Dokumen Tumbuhan Obat
Praproses untuk dokumen tumbuhan obat
diawali dengan lowercasing, tokenisasi,
pembuangan stopwords. Lowercasing adalah
proses untuk mengubah huruf capital menjadi
huruf non-capital. Tokenisasi adalah proses
untuk membagi dokumen menjadi term atau
token menggunakan teknik segmentasi atau
pemilahan. Stopwords disebut juga kata
buangan, yaitu kata-kata yang memiliki fungsi
namun tidak mempunyai arti. Stopwords
sangat banyak terdapat dalam dokumen,
sehingga kata-kata tersebut tidak dapat
dijadikan sebuah penciri suatu dokumen.
Temu Kembali Informasi
Pada tahap penelitian ini dilakukan
pengindeksan dokumen-dokumen (corpus)
hanya pada kelas yang ada hubungan dengan
kueri yang diberikan menggunakan engine
Sphinx. Kemudian, dokumen diboboti dengan
pembobotan BM25 dengan cara mengubah
parameter dalam Sphinx untuk menghitung
bobot kedekatan kueri dengan dokumen
koleksi.
Penggabungan Ciri Citra dan Teks (Fusion
Similarity)
Pertama sistem akan menerima citra kueri
dari pengguna untuk dilakukan ekstraksi
menggunakan FLBP. Hasil ekstraksi citra
kueri dihitung jaraknya ke citra lain.
Kemudian diberikan nilai threshold agar citra
hasil identifikasi ini tidak semuanya
ditampilkan. Selain menghitung jarak antar
citra, sistem juga melakukan klasifikasi PNN
sehingga didapat nilai peluang ke masingmasing kelas (spesies). Peluang masingmasing kelas ini disebut w1. Setiap citra hasil
temu kembali yang telah di-threshold akan
dikalikan dengan peluang kelasnya.
Gambar 4 Alur proses penggabungan ciri citra
dan teks.
Pada pemrosesan teks, kueri teks yang
dimasukan akan ditemukembalikan dan
didapat hasilnya berupa dokumen beserta nilai
similaritas. Tidak ada perkalian dengan bobot
teks pada pemrosesan teks. Terakhir, sistem
akan melakukan perhitungan penggabungan
nilai similaritas citra dan teks yang
6
berpasangan. Proses penggabungan tersebut
akan menghasilkan satu nilai similaritas baru
yang kemudian akan diurutkan dari terbesar
sampai terkecil dan ditampilkan kepada
pengguna. Alur proses penggabungan dapat
dilihat pada Gambar 4.
Evaluasi Sistem
Evaluasi dibagi menjadi dua bagian, yaitu
evaluasi untuk identifikasi citra dan search
engine menggunakan metode penggabungan.
Evaluasi search engine dibagi menjadi dua
sub evaluasi, yaitu perbandingan metode
penggabungan dan tanpa penggabungan serta
perbandingan
metode
penggabungan
menggunakan bobot kelas PNN dan tanpa
bobot kelas PNN.
Perhitungan akurasi untuk search engine
citra dan teks dengan metode penggabungan
menggunakan Average Precision (AVP) dan
Recall-Precision. AVP digunakan untuk
evaluasi perbandingan metode penggabungan
dan tanpa penggabungan, sedangkan RecallPrecision digunakan untuk semua evaluasi
search engine. Perhitungan Recall-Precision
menggunakan 11 titik interpolasi maksimum.
Kueri uji ditentukan dengan memasukan katakata yang mewakili isi tumbuhan obat.
Lingkungan Pengembangan Sistem
Perangkat keras yang digunakan dalam
penelitian ini yaitu Processor AMD Brazos
Dual Core E450 @ 1.65GHz, 3072 MB RAM,
dan harddisk 320 GB. Perangkat Lunak yang
digunakan ialah Sistem operasi Windows 7
Ultimate 64-bit, Visual Studio 2010 Ultimate,
NetBeans IDE 7.0, Notepad++ versi 5.9.8,
web browser Mozilla Firefox, Server XAMPP
1.7.2, MySQL sebagai DBMS, dan OpenCV
2.1.0 sebagai library pemrosesan citra.
HASIL DAN PEMBAHASAN
Pemrosesan Teks
Dokumen tumbuhan obat yang digunakan
dalam pemrosesan teks adalah dokumen yang
digunakan dalam penelitian Herawan (2011)
ditambah dokumen yang diambil dari internet.
Herawan (2011) membuat tag XML khusus
untuk
mengelompokkan bagian-bagian
penting dalam dokumen tersebut. Sumber
dokumen yang digunakan dalam penelitian ini
kemudian diubah ke dalam bentuk tag XML
seperti yang dilakukan Herawan (2011),
namun ditambahkan beberapa tag baru. Tag
file XML yang telah dimodifikasi adalah
sebagai berikut:
, tag ini mewakili
keseluruhan dokumen dan melingkupi tagtag lain yang lebih spesifik.
, tag ini menunjukkan ID dari
dokumen.
,
tag
ini
menunjukkan nama dari suatu jenis
tanaman obat.
,
tag
ini
menunjukkan nama latin dari tanaman
obat.
, tag ini
mewakili isi dari dokumen meliputi
deskripsi tanaman dan kegunaannya.
, tag ini menunjukkan
nama famili dari tanaman obat.
,
tag
ini
menunjukkan nama daerah dari tanaman
obat.
,
tag
ini
menunjukkan habitus dari tanaman obat.
,
tag
ini
menunjukkan deskripsi dari tanaman obat
yang sudah diringkas.
,
tag
ini
menunjukkan bagian tanaman obat yang
digunakan.
, tag ini
menunjukkan manfaat dari tanaman obat.
, tag ini
menunjukkan cara budidaya dari tanaman
obat.
,
tag
ini
menunjukkan kandungan kimia dari
tanaman obat.
, tag ini
menunjukkan sifat khas dari tanaman obat.
,
tag
ini
menunjukkan kandungan kimia dari
tanaman obat.
, tag ini
menunjukkan penyakit yang dapat
disembuhkan dari jenis tumbuhan obat.
Setelah dilakukan tagging XML, data
tersebut dimasukan ke dalam database server.
Sebelum dilakukan temu kembali, pada
dokumen dilakukan praproses terlebih dahulu,
tahapannya ialah dengan lowercasing,
tokenisasi, dan pembuangan stopwords. Tahap
terakhir adalah pengindeksan dokumen.
Praproses dan pengindeksan dokumen
dilakukan oleh Sphinx.
7
setelah ditambah data baru menjadi 59.02%.
Gambar 6 menunjukkan hasil akurasi untuk
setiap kelas tumbuhan obat.
1 Praproses
Praproses data citra RGB dimulai dengan
menyeleksi suatu daun dan memperkecil
ukurannya menjadi 270 x 240 piksel tanpa
memotong bagian tubuh daunnya. Tahapan
berikutnya ialah mengubah background citra
menjadi putih dengan mempertahankan
bagian tubuh daunnya. Kemudian, citra RGB
tersebut diubah menjadi citra grayscale.
Tujuan praproses ini ialah mengurangi waktu
proses (running time) pada saat identifikasi
citra menggunakan FLBP. Praproses citra
daun dapat dilihat pada Gambar 5.
Kelas 1 - 30
100
90
80
70
60
50
40
30
20
10
0
Akurasi (%)
Pemrosesan Citra
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
Kelas
Kelas 31 - 51
Gambar 5
Penyekalaan Segmentasi
270 x 240 background
Konversi
warna
menjadi
abu-abu
Hasil praproses citra daun
tumbuhan obat.
2 Ekstraksi Fitur FLBP
Citra yang telah dilakukan praproses akan
diekstraksi menggunakan FLBPP,R. Pada
pemrosesan citra menggunakan LBPP,R
terdapat 2 parameter operator, yaitu sampling
points (P) dan radius (R). Sampling points ini
menentukan panjang bin pada histogram LBP,
sedangkan radius menentukan jari-jari dari
titik pusat setiap blok. Berdasarkan penelitian
Valerina (2012), nilai P=8 dan R=2 adalah
operator terbaik untuk pemrosesan tumbuhan
obat. Ekstraksi citra menggunakan FLBP juga
bergantung pada parameter fuzzification (F).
Nilai F terbaik untuk ekstraksi citra tumbuhan
obat ialah F=4.
FLBP8,2 dengan nilai F=4 menghasilkan
akurasi sebesar 66.33%. Hasil akurasi FLBP8,2
ini lebih baik dibandingkan hasil akurasi LBP
original. Akurasi tersebut diperoleh dari data
sebanyak 30 kelas dan masing-masing kelas
terdapat 48 citra.
Pada penelitian ini, data bertambah
menjadi 51 kelas dan masing-masing kelas
berjumlah 48 citra sehingga harus dilakukan
training ulang dan evaluasi. Pembagian data
latih dan data uji mengikuti Valerina (2012)
yaitu 80% dan 20%. Ekstraksi citra dengan
penambahan data baru ini menggunakan
FLBP8,2 dengan nilai F=4. Hasil akurasi
Akurasi (%)
Citra asli
3888 x 2592
100
90
80
70
60
50
40
30
20
10
0
31 33 35 37 39 41 43 45 47 49 51
Kelas
Gambar 6
Hasil akurasi setiap kelas
tumbuhan obat.
Evaluasi Sistem Menggunakan Metode
Penggabungan
Metode penggabungan adalah metode
yang menggabungkan ciri citra dan teks pada
saat sistem melakukan proses temu kembali,
sedangkan sistem dengan metode tanpa
penggabungan
hanya
menggunakan
inforrmasi citra tanpa tambahan informasi
teks.
Pada saat kueri citra dan teks dimasukan,
sistem akan melakukan pemrosesan citra
terlebih dahulu. Citra akan diekstraksi
menggunakan FLBP8,2 dan dihitung jaraknya
menggunakan jarak Euclid. Berdasarkan
perhitungan jarak Euclid, semakin kecil nilai
jarak Euclid maka citra tersebut semakin
mirip. Sebaliknya, jika nilai jarak semakin
besar, citra tersebut semakin tidak sama. Nilai
jarak
ini
kemudian
dinormalisasi
menggunakan
normalisasi
minimum
maksimum agar rentang nilai jaraknya antara
0 sampai 1. Kemudian, nilai jarak yang telah
dinormalisasi dikonversi agar semakin
8
Metode penggabungan akan bekerja
apabila terdapat informasi teks yang
dimasukan ke dalam sistem. Setelah dilakukan
pemrosesan citra, sistem akan melakukan
pemrosesan teks. Kueri teks akan diproses
menggunakan
engine
Sphinx
dan
menghasilkan hasil temu kembali informasi
yang
telah
dihitung
dan
diurutkan
menggunakan pembobotan BM25. Bobot
dokumen hasil temu kembali ini disebut text
similarity. Setelah pemrosesan citra dan teks
selesai, sistem akan melakukan proses
penggabungan. Proses penggabungan adalah
proses menggabungkan nilai image similarity
dengan text similarity apabila terdapat
pasangan citra dan teks yang bersesuaian. Jika
citra tidak mempunyai pasangan dokumen
pada hasil temu kembali informasinya, text
similarity bernilai 0. Sebaliknya jika dokumen
tidak mempunyai pasangan citra pada hasil
temu kembali, image similarity bernilai 0.
Sistem dapat mendeteksi citra dan teks
merupakan pasangan apabila nomor file dan
kelasnya sama. Pada metode penggabungan,
image similarity dikalikan terlebih dahulu
dengan peluang kelas yang diperoleh dari
PNN.
Evaluasi sistem pada penelitian ini
menggunakan AVP untuk membandingkan
metode penggabungan dengan metode tanpa
penggabungan. Selain itu, evaluasi sistem juga
menggunakan kurva 11 titik Recall-Precision
dengan
interpolasi maksimum untuk
membandingkan kinerja dari sistem yang
memasukan PNN pada proses penggabungan
dengan sistem yang tidak menggunakan PNN.
Interpolasi maksimum digunakan untuk
melihat kasus terbaik dari sistem ini.
Sistem dengan metode penggabungan
memiliki nilai AVP sebesar 0.71 dan sistem
dengan metode tanpa penggabungan memiliki
nilai AVP sebesar 0.31. Sistem dengan
metode penggabungan ternyata memiliki nilai
AVP lebih besar dibandingkan dengan metode
tanpa penggabungan karena jumlah citra dan
dokumen yang relevan pada metode
penggabungan lebih banyak daripada metode
tanpa penggabungan. Informasi teks yang
relevan menyebabkan jumlah dokumen
relevan yang ditemukembalikan bertambah.
Hal ini yang menyebabkan jumlah citra dan
dokumen yang relevan juga bertambah setelah
proses penggabungan.
1
0.9
0.8
Precision
mendekati nilai 1, citra tersebut semakin
sama, dan semakin mendekati 0 citra tersebut
semakin tidak sama. Nilai inilah yang disebut
image similarity yang akan digunakan dalam
proses temu kembali citra dan proses
penggabungan.
Kemudian,
citra
akan
diurutkan berdasarkan nilai jarak terbesar.
Hasil pemrosesan citra kemudian dipotong
menggunakan nilai threshold
0.75 dan
didapat citra hasil pencarian dari pemrosesan
citra. Hasil pencarian inilah yang disebut hasil
temu kembali citra dengan metode tanpa
penggabungan.
0.7
0.6
0.5
0.4
0.3
0.2
0.1
.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0
Recall
Fusion
Gambar 7
tanpa Fusion
Kurva recall-precision metode
penggabungan
dan
tanpa
penggabungan.
Gambar 7 menunjukkan perbandingan
hasil pencarian antara metode penggabungan
dan tanpa penggabungan dilihat berdasarkan
peringkat hasil pencarian yang relevan.
Perbedaan
kurva
Fusion
(metode
penggabungan) dengan kurva tanpa Fusion
(metode tanpa penggabungan) terlihat jelas.
Kurva Fusion selalu jauh di atas kurva tanpa
Fusion. Nilai Precision di setiap titik Recall
menggambarkan peringkat hasil pencarian
yang
relevan pada kedua metode.
Berdasarkan kurva pada Gambar 7, metode
penggabungan membuat citra atau dokumen
yang relevan berkumpul di peringkat atas. Hal
ini disebabkan adanya kontribusi dari kueri
teks yang diberikan sehingga dapat
meningkatkan nilai similaritas dan jumlah
hasil pencarian yang relevan. Berbeda dengan
metode tanpa penggabungan, yang hasil
pencariannya berasal dari pemrosesan citra
saja, tidak ada bantuan informasi teks seperti
pada metode penggabungan.
9
Tabel 1
Contoh hasil pencarian dengan
metode tanpa penggabungan dan
metode penggabungan
Tanpa
Penggabungan
A : [Relevan]
Penggabungan
A : [Relevan]
Sim = 0.09
Sim = 0.43
B : [Relevan]
B : [Relevan]
Sim = 0.09
Sim = 0.42
C:[ Tidak Relevan]
E : [Relevan]
Sim = 0.08
Sim = 0.38
D:[ Tidak Relevan]
C : [Tidak Relevan]
Sim = 0.08
Sim = 0.08
E : [Relevan]
D : [Tidak Relevan]
Sim = 0.07
Sim = 0.08
Hasil
pencarian
antara
metode
penggabungan dan tanpa penggabungan dapat
dilihat di Tabel 1. Misalkan pada kasus di
atas, kueri yang diberikan adalah citra dari
kelas Pandan Wangi. Citra relevan ialah citra
A, B, dan E. Metode tanpa penggabungan
menemukembalikan citra A dan B pada 2
peringkat teratas, namun citra E pada
peringkat terakhir. Metode penggabungan
bekerja dengan bantuan informasi teks. Misal
diberikan kueri teks “wangi hijau”, hasil
pencarian metode penggabungan akan lebih
baik. Citra E yang awalnya berada pada posisi
terakhir sekarang berada pada posisi 3.
Kenaikan peringkat tersebut disebabkan oleh
nilai similaritas citra yang relevan meningkat.
Citra A, B, dan E mengalami kenaikan
similaritas, sedangkan citra C dan D tidak
mengalami kenaikan similaritas. Pada
persamaan untuk menghitung similaritas
metode penggabungan,
similaritas teks
(simtext) akan diberi nilai sesuai hasil
pencarian dari kueri teks yang diberikan,
sedangkan pada metode tanpa penggabungan
similaritas teks akan bernilai 0. Hal ini yang
menyebabkan citra relevan berkumpul di
peringkat teratas hasil pencarian.
Skenario pengujian menggunakan RecallPrecision dibagi menjadi 3. Masing-masing
skenario pengujian membandingkan antara
metode penggabungan menggunakan peluang
kelas citra yang diperoleh dari PNN dengan
metode penggabungan tanpa menggunakan
peluang kelas PNN. Ketiga skenario
pengujian tersebut adalah pengujian untuk
kueri citra dan teks yang relevan, kueri citra
relevan namun kueri teks tidak relevan, serta
kueri citra tidak relevan namun kueri teks
relevan. Daftar kueri yang digunakan dapat
dilihat di Lampiran 3.
Kueri citra relevan adalah citra yang
dimasukan pengguna dan hasil identifikasinya
benar, sedangkan kueri citra yang tidak
relevan adalah citra yang dimasukan
pengguna dan menghasilkan citra yang tidak
relevan pada proses identifikasinya. Contoh
kueri citra relevan dapat dilihat pada Gambar
8 dan kueri citra tidak relevan dapat dilihat
pada Gambar 9. Pada pemrosesan teks, kueri
teks relevan adalah informasi teks berupa
kata, frase, atau kalimat yang dimasukan
pengguna dan menghasilkan informasi yang
sesuai pada peringkat pertama hasil pencarian,
sedangkan kueri teks yang tidak relevan
adalah informasi teks yang dimasukan
pengguna dan menghasilkan informasi yang
tidak sesuai pada peringkat pertama hasil
pencarian. Sebagai contoh, apabila pengguna
ingin mendapatkan dokumen pandan wangi
pada peringkat pertama hasil pencarian, kueri
teks yang benar ialah “wangi hijau”. Kueri
“wangi hijau” ini disebut kueri teks relevan.
Akan tetapi, apabila pengguna memasukan
kueri “mrambos merah”, sistem akan
menampilkan hasil pencarian yang bukan
dokumen pandan wangi. Kueri “mrambos
merah” disebut kueri teks tidak relevan.
10
Hasil Identifikasi
Pandan Wangi
(Pandanus
amaryllifolius
Roxb.)
Pandan Wangi
(Pandanus
amaryllifolius
Roxb.)
Precision
Kueri Citra
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0
Recall
PNN
tanpa PNN
Gambar 8 Ilustrasi kueri citra relevan.
Gambar 11
Pandan Wangi
(Pandanus
amaryllifolius
Roxb.)
Hasil Identifikasi
Andong
(Centella asiatica,
(Linn) Urban.)
Gambar 9 Ilustrasi kueri citra tidak relevan.
Precision
Kueri Citra
Kurva recall-precision untuk
kueri citra relevan dan teks
tidak relevan.
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0
Precision
Jumlah data uji citra yang digunakan
sebesar 20% dari data citra keseluruhan
mengikuti penelitian Valerina (2012).
Pembagian kueri citra relevan dan tidak
relevan berdasarkan pengamatan terhadap 510
data uji citra. Citra relevan yang digunakan
sekitar 57% dari total data uji citra yang
tersedia, sedangkan untuk citra tidak relevan
sekitar 22%. Sebanyak 20% data uji citra
tidak menghasilkan citra yang relevan sama
sekali sehingga tidak dipakai untuk kueri uji.
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0
PNN
Gambar 10
Recall
tanpa PNN
Kurva recall-precision untuk
kueri citra dan teks relevan.
PNN
Gambar 12
Recall
tanpa PNN
Kurva recall-precision untuk
kueri citra tidak relevan dan
teks relevan.
Kurva PNN pada Gambar 10, 11, dan 12
menunjukkan
metode
penggabungan
menggunakan peluang kelas citra yang
diperoleh dari PNN, sedangkan kurva tanpa
PNN menunjukkan metode penggabungan
tanpa menggunakan peluang kelas PNN.
Gambar 10 menunjukkan perbandingan
kurva PNN dengan dan tanpa PNN pada kueri
citra dan teks yang relevan. Kurva PNN
ternyata sama dengan kurva tanpa PNN. Hal
ini menunjukkan informasi teks memiliki
peran
yang
penting
dalam
metode
penggabungan sehingga citra-citra relevan
naik peringkatnya hanya dengan informasi
teks saja. Kenaikan peringkat citra relevan
disebabkan adanya tambahan nilai similaritas
dari informasi teks yang diberikan. Akan
tetapi, kondisi ini berlaku apabila kueri teks
yang diberikan menghasilkan dokumen yang
relevan.
11
Gambar 11 menunjukkan evaluasi kedua
sistem jika diberikan kueri citra relevan dan
teks yang tidak relevan. Secara umum, kurva
PNN lebih baik daripada kurva tanpa PNN
karena pada titik recall 0.2 sampai 1, kurva
PNN selalu berada di atas kurva tanpa PNN.
Bentuk kurva PNN relatif stabil karena
adanya perkalian dengan peluang kelas yang
dihasilkan dari PNN sehingga citra-citra yang
sejenis terutama yang relevan akan
berkumpul. Nilai precision pada citra relevan
yang berdekatan akan menghasilkan nilai
yang seragam. Pada titik 0 dan 0.1, kurva
tanpa PNN berada di atas kurva PNN.
Penyebabnya ialah peluang kelas relevan lebih
kecil daripada peluang kelas nonrelevan pada
beberapa kueri uji.
Evaluasi perbandingan kedua sistem untuk
kueri citra tidak relevan dan teks relevan dapat
dilihat pada Gambar 12. Perbedaan kurva
PNN dan tanpa PNN terlihat jelas. Kurva
tanpa PNN ternyata sedikit berada di atas
kurva PNN. Hal ini disebabkan sebelum
ditambah informasi teks pada kurva PNN,
nilai similaritas citra dikalikan dengan
peluang kelas yang dihasilkan dari PNN.
Peluang kelas relevan tidak akan terlalu tinggi
karena citra kueri tidak relevan. Oleh karena
itu,
hasil
pencarian
pada
metode
penggabungan menggunakan peluang kelas
citra yang diperoleh dari PNN sedikit lebih
baik daripada metode penggabungan tanpa
menggunakan peluang kelas PNN setelah
ditambah informasi teks yang relevan.
Aplikasi web yang dikembangkan pada
penelitian ini tidak hanya dapat digunakan
untuk pencarian saja, tetapi juga dapat
dimanfaatkan sebagai sistem untuk idenfikasi
tumbuhan obat. Proses identifikasi akan
menampilkan satu hasil citra yang memiliki
nilai similaritas terbesar. Sama halnya dengan
sistem pencarian yang akan menampilkan
citra berdasarkan nilai similaritas terbesar,
hanya saja hasil pencarian yang ditampilkan
banyak. Oleh karena itu, sistem pencarian ini
sekaligus sebagai sistem identifikasi dengan
cara melihat peringkat pertama hasil
pencarian.
Fitur tambahan yang disediakan aplikasi
ini ialah pencarian dokumen. Pengguna dapat
memasukan
kueri
teks
saja
untuk
menampilkan dokumen tumbuhan obat.
Aplikasi ini juga menyediakan fitur database
yang menampilkan 51 spesies tumbuhan obat
yang digunakan dalam penelitian ini.
Antarmuka fitur Medleaf dapat dilihat di
Lampiran 4.
SIMPULAN DAN SARAN
Simpulan
Pengembangan aplikasi web dengan
menggabungkan ciri citra dan teks berhasil
dilakukan. Sistem yang menggabungkan ciri
citra dan teks memiliki nilai AVP sebesar 0.71
sedangkan sistem yang tanpa menggabungkan
ciri citra dan teks memiliki AVP sebesar 0.31
untuk 51 data spesies tumbuhan obat
Indonesia.
Penggabungan
menggunakan
peluang
kelas
lebih
baik
daripada
penggabungan tanpa menggunakan peluang
kelas yang dihasilkan dari PNN.
Saran
Saran untuk penelitian selanjutnya yaitu:
1 Penambahan data citra dan dokumen
tumbuhan obat agar memperbanyak
koleksi tumbuhan obat.
2 Penelitian lebih lanjut mengenai pemilihan
metode perhitungan jarak dan nilai
threshold untuk temu kembali citra.
3 Penggunaan threading untuk pemrosesan
citra menggunakan FLBP agar waktu
komputasi semakin cepat.
DAFTAR PUSTAKA
Acharya T, Ray AK. 2005. Image Processing
Principles and Applications. New Jersey:
John Wiley & Sons, Inc.
Baeza-Yates R, Riberio-Neto B. 1999.
Modern
Information
Retrieval.
Wokingham: Addison Wesley.
Gkoufas Y, Morou A, Kalamboukis T. 2011.
Combining textual and visual information
for image retrieval in the medical domain.
The Open Medical Informatics Journal
5:50-57.
Herawan Y. 2011. Ekstraksi ciri dokumen
tumbuhan obat menggunakan Chi-Kuadrat
dengan klasifikasi Naïve Bayes [skripsi].
Bogor : Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian
Bogor.
Iakovidis DK, Keramidas EG, Maroulis D.
2008. Fuzzy local binary patterns for
ultrasound texture charecterization. Di
dalam: Campilho A, Kamel M, editor.
Proceedings of the 5th International
12
Conference ICIAR; Portugal, 25-27 June
2008. Berlin: Springer Berlin Heidelberg.
hlm 750-759.
Manning CD, Raghavan P, Schütze H. 2008.
An Introduction to Information Retrieval.
Cambridge: Cambridge University Press.
Kulsum LU. 2010. Identifikasi tanaman hias
secara otomatis menggunakan Metode
Local Binary Patterns Descriptor dan
Probabilistic Neural Network [skripsi].
Bogor: Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian
Bogor.
Valerina F. 2012. Ekstraksi tekstur citra
tumbuhan obat menggunakan Metode
Fuzzy Local Binary Pattern [skripsi].
Bogor : Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian
Bogor.
Kusmana I. 2011. Penggabungan fitur Local
Binary Patterns untuk identifikasi citra
tumbuhan obat [skripsi]. Bogor: Fakultas
Matematika dan Ilmu Pengetahuan Alam,
Institut Pertanian Bogor.
Mäenpää T. 2003. The Local Binary Pattern
Approach to Texture Analysis. Oulu: Oulu
University Press.
Zuhud EAM. 2009. Potensi hutan tropika
sebagai penyangga bahan obat alam untuk
kesehatan bangsa. Jurnal Bahan Alam
Indonesia 6:232-277.
Wu SG et al. 2007. A leaf recognition
algorithm for plant using probabilistic
neural network. IEEE International
Symposium on Signal Processing and
Information Technology; Egypt, 15-18
December 2007. Giza: IEEE. hlm 11-16.
13
LAMPIRAN
14
Lampiran 1 51 citra tumbuhan obat
Pandan Wangi
(Pandanus
amaryllifolius
Roxb.)
Jarak Pagar
(Jatropha curcas
Linn.)
Dandang Gendis
(Clinacanthus
nutans Lindau)
Lavender
(Lavendula
afficinalis Chaix)
Akar Kuning
(Arcangelisiaflav
a L.)
Daruju
(Acanthus
ilicifolius L.)
Pegagan
(Centella
asiatica,
(Linn) Urban.)
Andong
(Centella
asiatica,
(Linn) Urban.)
Kemangi
(Ocimum
basilicum)
Iler
(Coleus
scutellarioides,
Linn, Benth)
Jeruk Nipis
(Citrus
aurantifolia,
Swingle.)
Bidani
(Quisqualis
Indica L.)
Gadung Cina
(Smilax china)
Tabat Barito
(Ficus deloidea
L.)
Nandang gendis
kuning
Bunga Telang
(Clitoria
ternatea
L.)
Mangkokan
(Nothopanax
scutellarium
Merr.)
Som Jawa
(Talinum
paniculatum
(jacq.) Gaertn.)
Pungpulutan
(Urena lobata L.)
Sosor Bebek
(Kalanchoe
pinnata
(Lam.)Pers)
Nanas kerang
(Rhoeo discolor
(L.Her.) Hance)
Seligi
(Phyllanthus
buxifolius Muell)
Remak Daging
(Excecaria
bicolor Hassk)
Kumis Kucing
(Orthosiphon
aristatus (B1)
Miq.)
Kemuning
(Murraya
paniculata [L..]
Jack.)
Cincau Hitam
(Mesona
palustris)
Sambang Darah
(Excoceria
cochinchinensis
Lour.)
Landik
(Barleria
lupulina
Lindl.)
Jambu Biji
(Psidium
guajava
L.)
Handeuleum
(Graptophyllum
pictum (L.)
Griffith)
15
Lanjutan
Kucing-kucingan
(Acalypha
indica)
Alamanda
(Allamanda
cathartica)
Amomum
truncatum gagn
(Zing)
Melati Mayang
(Ligustrum
lucidum)
Sirihan
(Piper aduncum)
Daun Encok
(Plumbago
scandens L
(plumb.))
Mondokaki
Abang
(Tabernaemontana
pandacaqui Poir)
Terompet
(The
peruviana[Pers.]
K.Schum)
Jarak Merah
(Jatropha
Gossypifolia L.)
Cabai Rawit
(Capsicum
frutescens)
Kenanga
(Cananga
Odorata)
Pepaya
(Carica papaya)
Mrambos
Salam
(eugenia
polyantha)
Zodia
(Evodia
suaveolens)
Bunga Lilin
(Pachystachys
lutea L.)
Nangka
(Artocarpus
heterophyllus
lamk)
Sirsak
(Annona
muricata, Linn.)
Belimbing
Wuluh
(Averrhoa
bilimbi L.)
Mangga
(Mangifera
indica)
Rambutan
(Nephelium
lappaceum L.)
16
Lampiran 2 Daftar 51 jenis tumbuhan obat Indonesia yang digunakan dalam penelitian
No
Nama
Nama Latin
1
Pandan Wangi
Pandanus amaryllifolius Roxb
2
Jarak Pagar
Jatropha curcas Linn.
3
Dandang Gendis
Clinacanthus nutans Lindau
4
Lavender
Lavendula afficinalis Chaix
5
Akar Kuning
Arcangelisiaflava L.
6
Daruju
Acanthus ilicifolius L.
7
Pegagan
Centella asiatica, (Linn) Urban.
8
Andong
Centella asiatica, (Linn) Urban.
9
Kemangi
Ocimum basilicum
10
Iler
Coleus scutellarioides, Linn,Benth
11
Jeruk Nipis
Citrus auran