Ukuran Kemiripan Sweetspot Similarity Pada Temu Kembali Informasi Anotasi Gene Ontology Berbasis Solr
UKURAN KEMIRIPAN SWEETSPOT SIMILARITY PADA
TEMU KEMBALI INFORMASI ANOTASI
GENE ONTOLOGY BERBASIS SOLR
Page
i
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2016
i
DIRMAN HAFIZ
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Ukuran Kemiripan
Sweetspot Similarity Pada Temu Kembali Informasi Anotasi Gene Ontology
Berbasis SOLR adalah benar karya saya dengan arahan dari komisi pembimbing
dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun.
Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun
tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan
dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Agustus 2016
Page
iii
Dirman Hafiz
NIM G64120035
iii
ABSTRAK
DIRMAN HAFIZ. Ukuran Kemiripan Sweetspot Similarity Pada Temu Kembali
Informasi Anotasi Gene Ontology Berbasis SOLR. Dibimbing oleh YENI
HERDIYENI dan JULIO ADISANTOSO.
Biodiversitas Informatik adalah sebuah upaya membuat sumber informasi
keanekaragaman hayati dalam format digital. Biodiversitas informatik
menggunakan struktur ontologi dalam memetakan pengetahuannya. Gene Ontology
(GO) adalah sebuah ontologi di bidang biologi molekular yang dikembangkan oleh
Gene Ontology Consortium. Gene Ontology memiliki 3 komponen, yaitu molecular
function, biological process, dan cellular component. Dibutuhkan mesin pencari
yang relevan serta mampu mengolah data biodiversitas yang besar. Apache SOLR
merupakan mesin pencari yang dibangun pada Apache Lucene. Uji kemiripan pada
SOLR Sweetspot similarity dapat mengantisipasi masalah perbedaan panjang
anotasi GO dengan melakukan normalisasi panjang dokumen. Normalisasi panjang
dokumen ditentukan berdasarkan perbandingan dari beberapa parameter dan
didapatkan nilai min 51, max 100, dan steepness 0.4 sebagai acuan yang terbaik.
Hasil dari penelitian ini menunjukkan nilai Mean Average Precision dan RPrecision sweetspot similarity lebih baik dibandingkan dengan classic similarity.
Kata kunci: Apache SOLR, Biodiversitas Informatic, Gene Ontology, Mesin
pencari, Sweetspot Similarity
ABSTRACT
DIRMAN HAFIZ. Similarity Measure of Gene Ontology Annotation Information
Retrieval Based on Sweetspot Similarity using SOLR. Supervised by YENI
HERDIYENI and JULIO ADISANTOSO.
Biodiversity Informatics is an effort to make the source of biological diversity
information into digital format. Biodiversity Informatics uses ontology structure for
knowledge mapping. Gene Ontology (GO) is a field of ontology in molecular
biology developed by Gene Ontology Consortium. Gene Ontology has three
components, which are the molecular function, biological process, and cellular
component. A relevant search engine that can process big data of biodiversity is
required. Apache SOLR is a search engine that is built on Apache Lucene.
Similarity test in SOLR sweetspot similarity could anticipate GO annotation length
differences problems with the normalized length of the document. Normalization
length of the document is determined based on a comparison of some parameters
and the values of min 51, max 100, and the steepness 0.4 are found to be the best
reference. The results of this research show that the MAP and R-Precision value of
sweetspot similarity is better than classic similarity.
Keywords: Apache SOLR, Biodiversity Informatics, Gene Ontology, search engine,
sweetspot similarity.
UKURAN KEMIRIPAN SWEETSPOT SIMILARITY PADA
TEMU KEMBALI INFORMASI ANOTASI
GENE ONTOLOGY BERBASIS SOLR
DIRMAN HAFIZ
Page
iii
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2016
iii
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer
Penguji: Muhammad Abrar Istiadi, SKomp MKom
Judul Skripsi : Ukuran Kemiripan Sweetspot Similarity Pada Temu Kembali
Informasi Anotasi Gene Ontology Berbasis SOLR
Nama
: Dirman Hafiz
NIM
: G64120035
Disetujui oleh
Dr Yeni Herdiyeni, SSi MKom
Pembimbing I
Ir Julio Adisantoso, MKom
Pembimbing II
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Page
v
Tanggal Lulus:
v
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Januari 2016 ini ialah
information retrieval, dengan judul Ukuran kemiripan Sweetspot Similarity Pada
Temu Kembali Informasi Anotasi Gene Ontology Berbasis SOLR.
Penulisan skripsi ini merupakan salah satu syarat memperoleh gelar Sarjana
Komputer pada Program Studi Ilmu Komputer Institut Pertanian Bogor. Tugas
akhir ini tidak mungkin dapat diselesaikan tanpa adanya bantuan dari berbagai
pihak. Oleh karena itu, penulis mengucapkan terima kasih dan penghargaan kepada:
1 Ibu penulis Nur Umi Legiatri, Ayah penulis Sulistyono, Kakak penulis Agus Adi
Saputro dan Jamilludin Noer, Adik penulis Hendra Satria, dan juga keluarga
lainnya yang telah memberikan dukungan, doa serta motivasi untuk keberhasilan
studi.
2 Ibu Dr Yeni Herdiyeni, SSi MKom dan Bapak Ir Julio Adisantoso, MKom
selaku dosen pembimbing yang telah memberikan bimbingan, saran, arahan dan
bantuan selama penyusunan skripsi.
3 Bapak Dr Ir Agus Buono, MSi MKom selaku Ketua Program Studi Ilmu
Komputer IPB.
4 Seluruh dosen dan staf pegawai tata usaha Departemen Ilmu Komputer IPB yang
telah banyak membantu selama masa perkuliahan hingga penelitian.
5 Teman satu kelompok bimbingan yang senantiasa membantu dan memotivasi
dalam penyelesaian penelitian ini.
6 Seluruh teman-teman Program S1 Ilmu Komputer angkatan 49 atas kebersamaan
dan persaudaraan selama 3 tahun ini.
7 Sahabat penulis yaitu Amelia Lindani, Basyiru Rahman, Desi Rosdiana, Fide
Kristopan, Galih Puspitasari, Isabella Sianturi, Ridwan Agung, Ruth Meliani
Hutapea, Umdatul Qori selaku sahabat yang telah memberikan motivasi serta
dukungan selama ini.
8 Teman TPB QO8 dan Teman kontrakan Supernova yang telah memberikan
memberikan kenangan serta menemani penulis selama kuliah di IPB.
Semoga segala bantuan, bimbingan, motivasi, dan dukungan yang telah
diberikan kepada penulis senantiasa dibalas oleh Allah subhanahu wa ta’ala.
Semoga karya ilmiah ini bermanfaat dan menambah wawasan bagi pembaca.
Bogor, Agustus 2016
Dirman Hafiz
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
2
Tujuan Penelitian
2
Manfaat Penelitian
3
Ruang Lingkup Penelitian
3
Web Semantik
3
Ontologi
4
Gene Ontology
4
SOLR
5
Indexing
6
Classic Similarity
6
Sweetspot Similarity
7
Evaluasi
9
METODE
10
Data Penelitian
10
Tahapan Penelitian
10
Pengumpulan Dokumen
11
Kueri
12
Praproses
12
Sweetspot Similarity
14
Evaluasi
15
Lingkungan Pengembangan
16
vii
3
Page
TINJAUAN PUSTAKA
vii
DAFTAR ISI (Lanj.)
HASIL DAN PEMBAHASAN
17
Sweetspot Similarity
17
Evaluasi
18
SIMPULAN DAN SARAN
25
Simpulan
25
Saran
25
DAFTAR PUSTAKA
26
LAMPIRAN
27
RIWAYAT HIDUP
51
DAFTAR TABEL
1
2
3
4
5
6
7
8
9
Confusion Matriks
Daftar kueri
Panjang anotasi Gene Ontology
Nilai Min Max metode Sweetspot Similarity
Hasil score anotasi retrieval kueri Pericycle
Hasil anotasi dari kueri pedicel metode Sweetspot Similarity
Golden list dari kueri
Perbandingan nilai MAP dan R-Precision pada parameter min max
Perbandingan nilai MAP dan R-Precision untuk steepness pada min 51
dan max 100
10 Perbandingan nilai MAP dan R-Precision untuk Classic Similarity dan
Sweetspot Similarity
11 Hasil anotasi dari kueri Parenchyma metode Classic Similarity
12 Hasil anotasi dari kueri Parenchyma metode Sweetspot Similarity
13 Hasil anotasi dari kueri Lignin metode Sweetspot Similarity
9
12
14
15
17
18
19
20
21
21
22
23
24
DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
Visualisasi hubungan class, property, dan individual
Graf dalam GO
Normalisasi LengthNorm Sweetspot Similarity
Tahapan penelitian
Metadata RDF Gene Ontology
Metadata XML Gene Ontology
Tahapan praproses
Konfigurasi praproses pada skema SOLR
Grafik pesebaran panjang anotasi GO
Grafik perbandingan interpolasi 11 titik recall precision 3 nilai
parameter min max terbaik
11 Grafik interpolasi 11 titik recall precision nilai steepness 0.4 pada min
51 dan max 100
12 Grafik perbandingan interpolasi 11 titik recall precision Sweetspot
Similarity dan Classic Similarity
4
5
8
10
11
11
12
13
15
20
21
22
DAFTAR LAMPIRAN
27
ix
28
30
Page
29
ix
1 Definisi dari term kueri
2 Precision Recall Metode Sweetspot Similarity ( Min =1 Max =50
Steepness = 0.5)
3 Precision Recall Metode Sweetspot Similarity ( Min =51 Max =100
Steepness = 0.5)
4 Precision Recall Metode Sweetspot Similarity ( Min =101 Max =150
Steepness = 0.5)
5 Precision Recall Metode Sweetspot Similarity ( Min =151 Max
Steepness = 0.5)
6 Precision Recall Metode Sweetspot Similarity ( Min =201 Max
Steepness = 0.5)
7 Precision Recall Metode Sweetspot Similarity ( Min =1 Max
Steepness = 0.5)
8 Precision Recall Metode Sweetspot Similarity ( Min =1 Max
Steepness = 0.5)
9 Precision Recall Metode Sweetspot Similarity ( Min =1 Max
Steepness = 0.5)
10 Precision Recall Metode Sweetspot Similarity ( Min =1 Max
Steepness = 0.5)
11 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 0.5)
12 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 0.5)
13 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 0.5)
14 Precision Recall Metode Sweetspot Similarity ( Min =101 Max
Steepness = 0.5)
15 Precision Recall Metode Sweetspot Similarity ( Min =101 Max
Steepness = 0.5)
16 Precision Recall Metode Sweetspot Similarity ( Min =151 Max
Steepness = 0.5)
17 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 0.2)
18 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 0.4)
19 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 0.6)
20 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 0.8)
21 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 1)
22 Precision Recall Metode Classic Similarity
23 Kode transfromasi pada xlstproc
=200
31
=250
32
=100
33
=150
34
=200
35
=250
36
=150
37
=200
38
=250
39
=200
40
=250
41
=250
42
=100
43
=100
44
=100
45
=100
46
=100
47
48
49
PENDAHULUAN
Latar Belakang
Indonesia adalah negara kepulauan yang memiliki cakupan yang sangat luas
dimana didalamnya hidup flora dan fauna yang sangat beragaram. Tingginya
keanekaragaman hayati atau yang biasa dikenal dengan biodiversitas dan tingkat
endemisme menempatkan Indonesia sebagai laboratorium alam yang sangat unik
untuk tumbuhan tropik dengan berbagai fenomenanya (Walujo 2011). Web
merupakan salah satu dari sekian banyak cara untuk memperoleh informasi tentang
biodiversitas. Jumlah data yang sangat banyak dengan format yang berbeda-beda
menimbulkan kesulitan bagi pengguna untuk mengakses informasi (Amanqui et al.
2014).
Kesulitan dalam mengakses informasi biodiversitas dan konsep pemahaman
makna dapat diatasi dengan menggunakan konsep semantic web. Semantic web
merupakan sebuah generasi baru dari web yang mencoba untuk merepresentasikan
informasi yang dapat digunakan oleh mesin, tidak hanya untuk menampilkan, tetapi
juga untuk automasi, integrasi dan penggunaan kembali oleh berbagai aplikasi
untuk mempermudah pencarian bagi pengguna dan mesin (Amanqui et al. 2014).
Semantic web memungkinkan mesin untuk memproses informasi yang tersedia dan
akan bertindak layaknya seorang manusia (Mukhopadhyay et al. 2011). Salah satu
penerapan konsep semantic web adalah ontologi. Sebagian pengembangan
biodiversitas sudah mengimplementasikan semantic web yang menggunakan
terminologi ontologi dalam merepresentasikan pengetahuan. Pada sistem Entrez di
National Center for Biotechnology (NCBI) menyediakan akses informasi medikal
dan informasi tersebut dapat diambil dengan menggunakan ontologi (Sarkar dan
Indra 2007).
Ontologi merupakan teknik merepresentasikan suatu pengetahuan yang dapat
berupa fakta ataupun ide. Pengetahuan tersebut didefinisikan ke dalam hubungan
dan klasifikasi dari suatu konsep pada domain yang spesifik (Jepsen 2009). Saat ini
ontologi sudah banyak diterapkan dalam berbagai domain pengetahuan, salah
satunya biologi. Gene Ontology adalah sebuah ontologi di bidang biologi molekular
yang dikembangkan oleh Gene Ontology Consortium. Dokumen ontologi disimpan
dalam format RDF dan OWL yang berbasis representasi pengetahuan pada web,
dan mengizinkan pengguna untuk mendefinisikan term, hubungan antar term dan
menetapkan batasan-batasan pada data yang terstruktur dengan baik
(Mukhopadhyay et al. 2007). RDF merupakan model data dasar untuk penulisan
statement sederhana tentang objek web (resource). Model data RDF tidak
bersandar pada Extensible Markup Language (XML) namun RDF memiliki sintaks
berbasis XML (Antoniou dan Hermalen 2008).
Banyaknya informasi biodiversitas seperti Gene Ontology dibutuhkan sebuah
mesin pencari yang baik dan efisien untuk memperoleh informasi yang relevan
(Amanqui et al. 2014). Mesin pencari memungkinkan pengguna untuk
memasukkan kueri berupa term dari konten dan mengambil daftar item yang
memenuhi kriteria tersebut. Namun pengguna sering dihadapkan pada masalahmasalah seperti memilah-milah beberapa dokumen dari hasil yang dikembalikan,
yang kebanyakan tidak relevan dengan kueri yang diminta. SOLR adalah aplikasi
2
Perumusan Masalah
Rumusan permasalahan dalam penelitian ini, yaitu:
1
2
3
Bagaimana menggunakan struktur ontologi untuk pencarian informasi
sistem pada temu kembali informasi ?
Bagaimana menerapkan sweetspot similarity mengukur kemiripan anotasi
pada Gene Ontolology menggunakan SOLR?
Bagaimana kinerja sweetspot similarity dibandingkan dengan classic
similarity pada SOLR ?
Tujuan Penelitian
Tujuan dari penelitian ini, yaitu:
1 Mengukur kemiripan anotasi Gene Ontology menggunakan metode sweetspot
similarity
2 Menganalisa kinerja sweetspot similarity dan membandingkan hasil metode
tersebut dengan metode ukuran kemiripan default pada SOLR
2
(platform) pencarian open-source yang dibangun pada Apache Lucene
menggunakan bahasa pemrograman Java. Kemampuan SOLR adalah mampu
mengolah data dalam jumlah yang besar dan mengindeks secara otomatis. Fitur
utama dari SOLR yaitu server yang dapat berkomunikasi melalui HTTP dengan
menggunakan XML dan JSON data format, konfigurasi file (Smiley dan Pugh
2011). Sehingga SOLR dapat menginput dokumen ontologi dengan model data
RDF dengan melakukan beberapa tahapan perubahan RDF menjadi XML.
Untuk meningkatkan kinerja mesin pencari diperlukan sebuah similarity
yang menghasilkan output lebih relevan. Ukuran kemiripan tidak hanya
menghitung banyaknya nilai term frekuensi dalam dokumen namun diperlukan
normalisasi panjang dokumen. Normalisasi diperlukan karena dokumen yang lebih
panjang mengandung nilai term frekuensi (tf) yang lebih besar dibandingkan
dengan dokumen yang lebih pendek. sedangkan nilai tf yang lebih besar belum
tentu mencirikan dokumen tersebut relevan (Manning dan Raghavan 2008). SOLR
memiliki beberapa similarity yang dapat digunakan dalam package similarity,
adalah classic similarity dan sweetspot similarity. Classic Similarity merupakan
gabungan dari Boolean similarity, TF-IDF dan cosine similarity. Sedangkan
Sweetspot similarity merupakan pengembangan dari classic similarity yang
berfokus pada normalisasi panjang dokumen. Pada penelitian ini dokumen ontologi
yang digunakan memiliki panjang dokumen yang beragam. Normalisasi panjang
dokumen dilakukan dengan menggunakan metode sweetspot similarity.
Normalisasi panjang dokumen dalam sweetspot similarity memungkinkan panjang
dokumen yang lebih besar memiliki nilai normalisasi yang lebih besar
dibandingkan dengan panjang dokumen yang lebih sedikit. Hal tersebut agar
menyetarakan nilai normalisasi pada panjang dokumen berdasarkan tingkat
kepentingan dari panjang dokumen. Pada sweetspot similarity normalisasi panjang
dokumen diubah menjadi sebuah nilai dengan interval nol sampai satu. Penelitian
yang dilakukan Cohen dan Amiatay (2007) membandingkan beberapa normalisasi
panjang dokumen serta melakukan beberapa modifikasi dalam average tf. Nilai
evaluasi dalam penelitian tersebut menghasilkan metode sweetspot similarity lebih
baik dibandingkan dengan beberapa metode normalisasi panjang dokumen lainnya.
3
Manfaat Penelitian
Penelitian ini diharapkan dapat mempercepat proses pencarian pada sistem
temu kembali informasi sehingga pengguna bisa mendapatkan dokumen yang lebih
relevan, dengan mengetahui metode pengukuran kemiripan yang baik dan efisien.
Ruang Lingkup Penelitian
Ruang lingkup penelitian ini antara lain:
1 Kueri yang digunakan diambil dari buku Anatomy of Flowering Plants pada
bagian batang (Rudal 2007).
2 Relasi anotasi Gene Ontology tidak diperhitungkan dalam ukuran kemiripan
3 Penggunaan relasi anotasi Gene Ontology hanya is_a dan berada pada tingkat
level pertama
TINJAUAN PUSTAKA
Semantic Web
Semantic web diperkenalkan oleh Berners-Lee, Hendler dan Lassila pada
tahun 2001. Semantik web adalah sebuah teknologi yang bertujuan untuk membuat
dokumen web dapat dimengerti oleh komputer (machine-readable data) (Davies et.
al 2006). Semantic web merupakan representasi dari data di dalam World Wide Web,
berdasar pada Resource Description Framework (RDF) yang mengintegrasikan
berbagai aplikasi menggunakan XML sebagai sintaks dan URI sebagai penamaan
(Antoniou dan Hermalen 2008). Sebuah semantic search engine meyimpan
informasi semantic tentang web resources dan mampu memecahkan suatu kueri
yang kompleks. Semantic search membantu agar kueri yang diberikan oleh
pengguna dapat dimengerti dengan baik oleh mesin pencari, karena semantik berarti
suatu pembelajaran tentang arti yang terkandung dari suatu bahasa, kode, atau jenis
representasi lain, sehingga mesin pencari dapat menampilkan hasil yang paling
relevan sesuai dengan maksud dari kueri
3
RDF (Resource Description Framework)
eXtensible Markup Language (XML) adalah suatu bahasa yang
direpresentasikan dengan metadata. XML merepresentasikan informasi agar dapat
dengan mudah diakses oleh mesin. XML tidak menyediakan tag-tag tertentu, tetapi
penggunanya dapat mendefiniskan tag secara mandiri. RDF mengadopsi sintakssintaks yang dimiliki oleh XML. Menurut Antoniou dan Hermalen (2008), RDF
memiliki konsep dasar RDF yaitu resource, properties, dan statement. Resource
adalah objek atau tentang sesuatu yang ingin diungkapkan. Beberapa contoh
resource seperti judul buku, pengarang, penerbit, orang dan sebagainya. Setiap
resource memiliki Universal Resource Identifier (URI). Properties adalah deskripsi
hubungan antar resource, misalnya properti yang menghubungkan antara buku
dengan penulisnya adalah “ditulis oleh”. Statement adalah bentuk literal dari
resource, properties dan nilainya.
4
Ontologi
Flower
Rose
Orchid
Red
White
Color
: Class
: Property
: individual
Gambar 1 Visualisasi hubungan class, property, dan individual
Gene Ontology
Gene Ontology (GO) merupakan sebuah ontologi yang menjelaskan tentang
biologi molekular yang dikembangkan oleh Gene Ontology Consortium dan dapat
diunduh pada situs geneontology.org. Gene Ontology yang mengandung sekitar
30.000 term ini memiliki 3 komponen, yaitu molecular function, biological process,
dan cellular component (Consortium 2004). Cellular components (CC), merupakan
sebuah komponen sel dan penjelesan struktur subselular dan makromolekuler yang
lebih kompleks. Molecular Function (MF), menggambarkan aktivitas-aktivitas dari
sel namun tidak menentukan dimana, kapan, atau dalam konteks apa aktitivitas
tersebut terjadi. Biological process (BP), menjelaskan tujuan biologis yang dicapai
oleh satu atau lebih molecular function. Perbedaan antara biological process dan
molecular function adalah bahwa secara umum sebuah proses harus memiliki lebih
dari satu langkah berbeda.
Dalam setiap ontologi, istilah-istilah memiliki definisi bebas dan pengenal
unik yang stabil. Kosakata-kosakata tersebut terstruktur dalam sebuah klasifikasi
yang mendukung hubungan is_a, part_of dan regulates. Relasi is_a (I), meskipun
berdasarkan dokumentasi GO ditujukan sebagai makna, namun is_a jelas
digunakan untuk menunjukkan bagian dari atau spesialisasi hubungan secara umum,
4
Ontologi merupakan teknik merepresentasikan suatu pengetahuan yang dapat
berupa fakta ataupun ide. Pengetahuan tersebut didefinisikan ke dalam hubungan
dan klasifikasi dari suatu konsep pada domain yang spesifik (Jepsen 2009).
Pengetahuan yang didefinisikan ke dalam hubungan dimaksudkan agar mesin dapat
membaca dan mengerti konsep dari data yang bersifat abstrak atau dikenal dengan
machine readable, adapun pengetahuan tersebut dapat direpresentasikan dalam
sebuah model (Bermejo 2007).
Ontologi memiliki tiga komponen dasar, yaitu class, property, dan individual
(Liu dan Ozsu 2009). Class merepresentasikan konsep dari entitas dalam suatu
domain. Class merupakan himpunan abstrak dari sebuah objek. Di dalam suatu
class dapat terkandung suatu individual atau class lain. Sebuah class dapat
dijelakan menggunakan property, misalnya pada class flower memiliki property
yaitu HasColor. Selain itu, suatu class dapat mengandung beberapa individual,
misalnya class Color memiliki beberapa individual yaitu red dan white. Visualisasi
hubungan class, property, dan individual dapat dilihat pada Gambar 1.
5
misalnya pada pigmentation merupakan bagian dari biological process. Relasi
part_of (P) GO digunakannya untuk representasi bagian dari substan dan proses
dan dari fungsi atau aktivitas, misalnya pada pigment metabolic process during
development merupakan representasi dari bagian pigmentation pigment during
development. Regulates (R) menjelaskan bahwa suatu proses secara langsung
mempengaruhi manifestasi dari proses lain, misalnya pigmentation during
development dipengaruhi oleh manifestasi dari negative regulation of pigmentation
during development dan positive regulation of pigmentation during development.
Kosa-kata dalam GO tersusun sebagai sebuah rooted Directed Acyclic Graph
(rDAG) atau sebuah graf berarah yang mempunyai node akar sebagai parent dan
tidak memiliki cycle. Anotasi dalam gene ontologi memiliki beberapa kategori
diantaranya label, definisi, sinonim, dan relasi hubungan konsep seperti yang
dijelaskan dalam Gambar 2. Label merupakan sebuah judul dari anotasi. Definisi
merupakan penjelasan secara spesifik dari anotasi. Sedangkan sinonim merupakan
makna lain dari sebuah anotasi yang memiliki kemiripan makna. Visualisasi graf
GO terdapat dalam gambar 2.
Part_of
Regulates
Is_a
Gambar 2 Graf dalam GO (genontology.org)
SOLR
5
SOLR merupakan aplikasi mesin pencari yang dibangun di atas Lucene
sebagai mesin indexing dan berbasis enterprise. SOLR dapat menangani pencarian
pada data dokumen yang besar secara cepat, dan akurat, karena sintaks untuk
mencari dokumen yang digunakan adalah NoSQL (Shahi 2015). Apache SOLR
memiliki fitur utama seperti mencari teks dengan cepat, fected search,
pengelompokan secara dinamis, integrasi database, menangani beragam dokumen
input seperti PDF, Word dan lain-lain. Kelebihan utama SOLR dibanding Lucene
yaitu server yang dapat berkomunikasi melalui HTTP dengan menggunakan format
data XML dan JSON, konfigurasi file, cache untuk mempercepat respon pencarian,
administrative interface berbasis web, faceting hasil pencarian, dan geospatial
search (Smiley dan Pugh 2011).
SOLR terdiri atas sistem admin dan rancangan contoh user interface
untuk melakukan pencarian. Sistem admin digunakan untuk membuat core yang
berisi dokumen korpus, menginput dokumen, menganalisa dokumen yang diinput,
6
Indexing
Inverted Index merupakan proses untuk mengurutkan kata yang berada dalam
dokumen setelah melalui proses tokenisasi, case folding, dan pembuangan
stopwords berdasarkan lokasi dokumen dimana kata tersebut berada (Mahapatra
dan Biswas 2011). SOLR menggunakan inverted index dalam menyimpan hasil
indexing. Hal ini dikarenakan inverted index dapat memfasilitasi pencarian yang
dilakukan dengan sangat cepat dan mampu menangani kueri masukan meskipun
jumlahnya banyak (McCandless et al. 2010). Proses indexing dalam penelitian ini
dilakukan oleh Apache SOLR setelah dokumen dimasukan ke dalam tool document
input Apache SOLR.
Classic Similarity
Scoring merupakan bagian yang digunakan untuk memberikan bobot
terhadap dokumen yang akan ditampilkan saat user memberikan kueri masukan ke
dalam mesin pencari. Scoring menentukan urutan dokumen yang ditampilkan
berdasarkan nilai pembobotan yang dihasilkan (Graigger dan Potter 2014). Ukuran
kemiripan default pada SOLR yaitu Classic Similarity. Classic Similarity
merupakan gabungan dari Boolean similarity, TF-IDF dan cosine similarity.
Boolean melakukan filter pada dokumen yang mengandung kata pada kueri
masukan, TF-IDF melakukan pembobotan terhadap kata dalam dokumen dan
kumpulan dokumen sedangkan cosine similarity melakukan uji kemiripan dokumen
dengan kueri menggunakan ukuran kemiripan vektor, dimana setiap kueri masukan
dan term di dalam dokumen dibandingkan. Pengukuran dilakukan dengan
membandingkan sudut yang dibentuk antara kueri dan dokumen yang ada. Setiap
kata dalam dokumen direpresentasikan ke dalam vektor sehingga dapat ditentukan
nilai jarak yang menggambarkan hubungan antara kueri dan dokumen (Manning
dan Raghavan. 2008)
Formula scoring classic similarity dalam Lucene pada Persamaan 1.
Score(q,d) = crd(q,d) × qN(q) × ∑
�
�
× .
×
,
[1]
[2]
�
= √
�
Term frequency tf(t in d) pada Persamaan 1 merupakan jumlah frekuensi term
dalam satu dokumen.
�
�
= + log
[3]
�
+1
Pada Persamaan 1 Idf(t) merupakan Inverse Document Frequency dimana
frukuensi kata yang ditemukan pada keseluruhan dari dokumen yang ada. DocFreq
merupakan banyaknya dokumen yang mengandung term kueri. Sedangkan
numDocs merupakan jumlah dari seluruh dokumen. Idf(t) muncul pada kueri dan
dokumen, sehingga dikuadratkan dalam Persamaan 1.
6
menganalisa hasil pencarian dan lain sebagainya. Sementara untuk melakukan
pencarian dapat langsung menggunakan browse. BioSolr merupakan salah satu
pengembangan SOLR untuk penelitian biodiversitas dengan struktur ontologi.
BioSolr sudah diimplementasikan ke bentuk web yaitu pada http://www.ebi.ac.uk/
7
crd(q,d) =
ax
�
�
[4]
Pada Persamaan 1 selain tf dan idf , terdapat beberapa persamaan lain
diantaranya crd(q,d), qN(q), N(t,d). crd(q,d) merupakan coord factor dimana
ukuran untuk seberapa banyak dokumen yang relevan dengan faktor banyaknya
term kueri. Persamaan 4 menunjukkan implementasi dari coord factor, dengan max
overlaps merupakan jumlah kata pada kueri dan overlaps merupakan jumlah
dokumen yang mengandung kata pada kueri. Pada penelitian ini tidak
menggunakan formula coord factor dikarenakan panjang kueri tidak
mempengaruhi metode yang digunakan.
1
=
[5]
2
2
√
.
�
×∑
× .�
qN(q) atau queryNorm merupakan nilai normalisasi pada kueri, bertujuan
untuk melakukan normalisasi terhadap nilai scoring antara kueri yang ada dengan
seluruh dokumen. q.getboost menyatakan boosting yang diberikan pada sebuah
kueri dan t.Bst adalah nilai boost pada term (t) untuk kueri (q) pada saat pencarian
yang diminta oleh user. Apabila tidak terdapat boost pada kueri maka secara
otomatis nilai queryNorm bernilai satu
, =
ℎ
.∏ .
[6]
1
LengthNorm =
[7]
√L
Fungsi N(t,d) merupakan Normalisasi term dalam dokumen. Dalam
normalisasi tersebut terdapat enkapsulasi beberapa boost pada field pada saat
indexing dan faktor normalisasi panjang dokumen. Fungsi .
menyatakan
boost yang dilakukan terhadap dokumen atau field saat proses indexing dan L
merupakan panjang dari suatu dokumen. Pada Persamaan 7 fungsi LengthNorm
merupakan normalisasi panjang dokumen. Dokumen yang memiliki kata paling
pendek dalam sekumpulan dokumen akan mendapatkan bobot lebih besar karena
memuat kepentingan kueri pada dokumen tersebut lebih besar dari yang lain.
Namun, hasil dari nilai norm akan dilakukan proses pengubahan float menjadi
single byte sebelum disimpan. Pada saat Pencarian, nilai byte norm dibaca
berdasarkan index directory dan kemudian di ubah kembali menjadi nilai float.
Pengubahan float menjadi single byte akan mengurangi ukuran index. Kompresi
nilai norm akan menghemat memori saat pencarian, dikarenakan saat pencarian ke
masing-masing field, normalisasi ke semua dokumen dilakukan di dalam memori.
Sweetspot Similarity
7
Sweetspot similarity merupakan pengembangan dari Classic Similarity yang
melakukan modifikasi pada bagian length normalization (Cohen dan
Amiatay 2007) dinyatakan dalam Persamaan 8. Sehingga pengukuran kemiripan
pada sweetspot similarity mengadopsi dari pengukuran kemiripan Classic similarity
namun hanya berbeda pada bagian normalisasi panjang dokumen. Normalisasi
diperlukan karena pencarian term dengan nilai TF yang sama pada dokumen yang
lebih pendek cenderung lebih relevan daripada dokumen yang lebih panjang.
Semakin banyak term pada kueri yang ditemukan pada dokumen pendek tersebut
maka dokumen pendek tersebut akan cenderung dianggap lebih relevan (Manning
dan Raghavan 2008). Normalisasi panjang dokumen dalam sweetspot similarity
memungkinkan panjang dokumen yang lebih besar memiliki nilai normalisasi yang
8
√ �
× |L−
i | + |L+ ax|−
ax− i
+1
Gambar 3 Normalisasi LengthNorm Sweetspot Similarity
Makna dari parameter min dan max adalah batas bawah dan batas atas
panjang dokumen yang mendapat nilai normalisasi menjadi satu. Sedangkan untuk
nilai steepness berpengaruh terhadap kurva kemiringan pada Gambar 3, sehingga
apabila nilai steepness semakin tinggi maka kurva kemiringan akan semakin garis
lurus terhadap panjang dokumen. Pada Gambar 3 menunjukkan nilai LengthNorm
merupakan nilai hasil normalisasi panjang dokumen pada interval nol sampai satu.
Normalisasi panjang dokumen akan bernilai satu apabila panjang suatu dokumen
berada dalam range yang dibatasi oleh parameter min dan max. Sedangkan
normalisasi panjang suatu dokumen berada di luar range maka akan dilakukan
normalisasi panjang dokumen sesuai dengan Persamaan 7. Parameter nilai default
pada Gambar 3 menunjukkan nilai min = 1, max = 1, steepness = 0.5 apabila
penerapan paramter default diterapkan maka nilai LengthNorm sesuai dengan
classic similarity yaitu pada persamaan 6. Nilai LengthNorm akan lebih kecil
apabila panjang suatu dokumen berada diluar range dibandingkan dengan panjang
suatu dokumen yang berada di dalam range min max. Pada penelitian ini untuk
menentukan nilai parameter min, max, dan steepness ditentukan berdasarkan
evaluasi precision, recall, MAP, R-Precision. Apabila nilai evaluasi yang didapat
lebih baik maka parameter sweetspot tersebut yang akan dibandingkan dengan
classic similarity.
8
lebih besar dibandingkan dengan panjang dokumen yang lebih sedikit. Hal tersebut
agar menyetarakan nilai normalisasi pada panjang dokumen berdasarkan tingkat
kepentingan dari panjang dokumen. Pada sweetspot similarity normalisasi panjang
dokumen diubah menjadi sebuah nilai dengan interval nol sampai satu.
1
LengthNorm =
[8]
9
Evaluasi
Evaluasi merupakan cara yang digunakan untuk mengukur kinerja sistem
temu kembali informasi. Metode yang umum digunakan dalam evaluasi adalah
precision dan recall. Precision menyatakan rasio dokumen yang relevan dari
seluruh dokumen yang ditampilkan. Sedangkan recall menyatakan rasio dokumen
yang ditampilkan dari seluruh dokumen yang relevan. (Manning dan Raghavan
2008). Formula untuk precision dan recall dapat dilihat pada Persamaan 9 dan
Persamaan 10.
Tabel 1 Confusion Matriks
Relevant
Nonrelevant
Retrieved
True positives (tp)
False positives (fp)
Not retrieved
False negatives (fn)
True negatives (tn)
� �
=
=
/
/
+
+
[9]
[10]
Pada Tabel 1, True positve merupakan jumlah dokumen relevan yang dapat
ditampilkan oleh sistem. False positve merupakan jumlah dokumen yang tidak
relevan yang ditampilkan oleh sistem. True negative merupakan jumlah dokumen
yang tidak relevan dan tidak ditampilkan oleh sistem. False negative merupakan
jumlah dokumen relevan dan tidak ditampilkan oleh sistem. Ukuran efisiensi dari
sebuah mesin pencari dapat dilihat dengan grafik interpolasi yang digambarkan
Pada kurva precision and recall dengan melihat plot pada 11 titik recall (Manning
dan Raghavan 2008). Pengukuran efisiensi dari sebuah mesin pencari dilihat dari
nilai MAP. MAP (Mean Average Precision) merupakan standarisasi pengukuran
kualitas hasil pencari yang telah disepakati oleh TREC (Text Retrieval Community).
MAP dapat menggambarkan perbedaan yang baik diantara dua jenis hasil mesin
pencari, MAP menghitung nilai rataan precision dari sejumlah kueri yang diujikan,
Persamaan MAP dapat dilihat pada formula berikut:
1
1
�
∑|�|
∑ =1
� �
[11]
=
=1
|�|
�
Ketika dokumen relevan tidak dikembalikan sama sekali, nilai precision dari
persamaan di atas adalah 0. Nilai dari MAP adalah rata-rata aritmatik dari nilai
precision untuk masing-masing kueri. Selain MAP evaluasi juga dilakukan dengan
evaluasi R-Precision. R-Precision menghitung urutan precision sebanyak jumlah
golden list yang ada, bukan sebanyak jumlah dokumen yang dikembalikan oleh
sistem. Dengan evaluasi tersebut dapat diketahui apakah dokumen teratas benarbenar relevan dan sesuai dengan urutan kepentingannya (Manning et al. 2009).
9
10
METODE
Data yang digunakan pada penelitian ini sebagai dokumen input adalah
dokumen Gene Ontology yang diperoleh dari website geneontology.org. Dokumen
yang dimaksud adalah anotasi yang ada di dalam GO.
Tahapan Penelitian
Tahapan yang dilakukan pada penelitian ini dapat dilihat pada Gambar 4.
Penelitian dimulai dengan mengumpulkan dokumen ontologi dan kueri, kemudian
melakukan praposes dalam SOLR, melakukan pengukuran kemiripan dengan
metode Sweetspot Similarity dan evaluasi dengan menghitung nilai precision,
recall, MAP, dan R-Precision.
Gambar 4 Tahapan penelitian
10
Data Penelitian
11
Pengumpulan Dokumen
Dokumen didapatkan dengan mengunduh dokumen Gene Ontology dari situs
geneontology.org yang berjumlah 44698 anotasi. Format GO yang diunduh adalah
go.owl (RDF-XML) yang memiliki hubungan hierarki dasar seperti is_a dan
part_of dapat dilihat pada Gambar 5.
GO:0000001
mitochondrion inheritance
mitochondrial inheritance
The distribution of mitochondria
Gambar 5 Metadata RDF GeneOntology
Mengubah format RDF-XML menjadi XML dilakukan dengan melakukan
transformasi dengan menggunakan perintah berikut setelah meng-install package
xsltproc pada sistem komputer:
$ xsltproc –novalid go2solr.xsl [nama_file] > output.xml
Lampiran 23 menjelaskan proses transformasi yang dilakukan program xsltproc.
Field yang terdapat dalam anotasi semuanya diubah kedalam sintaks XML. Namun
pada hubungan relasi is_a dan part_of penunjukkan value berdasarkan dari
rdf:resource . Output yang dihasilkan dari transformasi tersebut adalah anotasianotasi dalam GO yang ditandai oleh tag doc. Contoh anotasi GO metadata XML
dapat dilihat pada Gambar 6.
GO:0048311
Gambar 6 Metadata XML GeneOntology
Selanjutnya dokumen XML hasil transformasi dimasukkan ke dalam server SOLR.
Konfigurasi yang harus dilakukan agar SOLR dapat mengenali serta mengetahui
apa saja yang akan diambil dari dokumen XML tersebut. Mengubah schema.xml
pada konfigurasi SOLR dengan mendaftarkan field mana saja dalam dokumen
ontologi yang akan diindeks dan menentukan tipe serta bagaimana field tersebut
akan di-parsing.
11
12
Kueri
Kueri diperoleh dari buku Anatomy of Flowering Plants (Rudall 2007)
sebanyak 20 term pada bagian tentang batang. Daftar kueri yang digunakan dapat
dilihat pada Tabel 2. Definisi dari masing-masing daftar kueri dapat dilihat pada
Tabel Lampiran 1.
Tabel 2 Daftar kueri
No
Kueri
No
Kueri
1
Phloem
11
Meristem
2
Xylem
12
Pericycle
3
Sclerenchyma
13
Trichomes
4
Cambium
14
Callose
5
Sclereids
15
Primordium
6
Stele
16
Lignin
7
Tracheary
17
Corpus
8
Collenchyma
18
Tracheary
9
Trunk
19
Pedicel
10 Phellem
20
Tunica
Praproses
Pada tahap ini dilakukan pengolahan dokumen yang merupakan bahan
mentah menjadi kata-kata yang siap dihitung bobotnya. Tahap ini dilakukan secara
otomatis dalam SOLR. Tahapan yang dilakukan pada praproses dapat dilihat pada
Gambar 7.
Dokumen
GO
Tokenisasi
Case Folding
Filtering
Gambar 7 Tahapan praproses
1
Tokenisasi
Tahap ini dilakukan dengan memotong string masukan berdasarkan tiap kata
yang dimasukan dalam sebuah array. Pada umumnya setiap kata teridentifikasi
dan terpisahkan dengan kata lain oleh karakter spasi. Proses tokenisasi dilakukan
oleh Apache SOLR dengan memotong setiap kalimat yang terdapat dalam
dokumen menjadi potongan-potongan kata.
12
Atribut type berfungsi untuk mengetahui tahap praproses apa yang harus dilakukan
SOLR terhadap dokumen. Atribut stored berfungsi menyimpan setiap value yang
ada pada dokumen sehingga dapat ditampilkan. Atribut multivalued berfungsi agar
sistem dapat menyimpan single atau multivalue. Dan atribut indexed berfungsi
melakukan indexing dan perhitungan pada setiap field. Field dengan indexed =
true memiliki makna bahwa field tersebut akan ikut diindeks dalam SOLR. Field
dengan required = true memiliki makna bahwa field tersebut wajib ada dalam
setiap anotasi pada GO, contohnya ID. Sedangkan field dengan multivalued =
true berarti bahwa field tersebut dapat memiliki nilai lebih dari satu, seperti
go_synonym.
13
2
3
Case Folding
Pada tahap ini dilakukan pengubahan semua huruf dalam dokumen menjadi
huruf kecil. Karakter selain huruf dihilangkan dan dianggap sebagai delimiter
(pembatas).
Filtering
Stopwords merupakan kata umum yang sering muncul dalam suatu dokumen
dengan jumlah besar namun seringkali tidak memiliki makna, sehingga dapat
diabaikan di dalam pengolahan. Stopword dibuang untuk meringankan
komputasi dan mempercepat waktu pemrosesan pencarian. Sebelumnya daftar
kata yang digunakan sebagai stopword dikumpulkan dalam suatu file. Kemudian
sistem membaca file tersebut untuk dilakukan penghapusan ketika kata dalam
dokumen identik dengan kata yang berada dalam file stopwords.
Tahapan praproses dilakukan secara otomatis dalam SOLR, terbagi atas empat
tahap sesuai pada Gambar 7. Perlu dilakukan konfigurasi praproses pada skema
SOLR dapat dilihat pada Gambar 8.
TEMU KEMBALI INFORMASI ANOTASI
GENE ONTOLOGY BERBASIS SOLR
Page
i
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2016
i
DIRMAN HAFIZ
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Ukuran Kemiripan
Sweetspot Similarity Pada Temu Kembali Informasi Anotasi Gene Ontology
Berbasis SOLR adalah benar karya saya dengan arahan dari komisi pembimbing
dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun.
Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun
tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan
dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Agustus 2016
Page
iii
Dirman Hafiz
NIM G64120035
iii
ABSTRAK
DIRMAN HAFIZ. Ukuran Kemiripan Sweetspot Similarity Pada Temu Kembali
Informasi Anotasi Gene Ontology Berbasis SOLR. Dibimbing oleh YENI
HERDIYENI dan JULIO ADISANTOSO.
Biodiversitas Informatik adalah sebuah upaya membuat sumber informasi
keanekaragaman hayati dalam format digital. Biodiversitas informatik
menggunakan struktur ontologi dalam memetakan pengetahuannya. Gene Ontology
(GO) adalah sebuah ontologi di bidang biologi molekular yang dikembangkan oleh
Gene Ontology Consortium. Gene Ontology memiliki 3 komponen, yaitu molecular
function, biological process, dan cellular component. Dibutuhkan mesin pencari
yang relevan serta mampu mengolah data biodiversitas yang besar. Apache SOLR
merupakan mesin pencari yang dibangun pada Apache Lucene. Uji kemiripan pada
SOLR Sweetspot similarity dapat mengantisipasi masalah perbedaan panjang
anotasi GO dengan melakukan normalisasi panjang dokumen. Normalisasi panjang
dokumen ditentukan berdasarkan perbandingan dari beberapa parameter dan
didapatkan nilai min 51, max 100, dan steepness 0.4 sebagai acuan yang terbaik.
Hasil dari penelitian ini menunjukkan nilai Mean Average Precision dan RPrecision sweetspot similarity lebih baik dibandingkan dengan classic similarity.
Kata kunci: Apache SOLR, Biodiversitas Informatic, Gene Ontology, Mesin
pencari, Sweetspot Similarity
ABSTRACT
DIRMAN HAFIZ. Similarity Measure of Gene Ontology Annotation Information
Retrieval Based on Sweetspot Similarity using SOLR. Supervised by YENI
HERDIYENI and JULIO ADISANTOSO.
Biodiversity Informatics is an effort to make the source of biological diversity
information into digital format. Biodiversity Informatics uses ontology structure for
knowledge mapping. Gene Ontology (GO) is a field of ontology in molecular
biology developed by Gene Ontology Consortium. Gene Ontology has three
components, which are the molecular function, biological process, and cellular
component. A relevant search engine that can process big data of biodiversity is
required. Apache SOLR is a search engine that is built on Apache Lucene.
Similarity test in SOLR sweetspot similarity could anticipate GO annotation length
differences problems with the normalized length of the document. Normalization
length of the document is determined based on a comparison of some parameters
and the values of min 51, max 100, and the steepness 0.4 are found to be the best
reference. The results of this research show that the MAP and R-Precision value of
sweetspot similarity is better than classic similarity.
Keywords: Apache SOLR, Biodiversity Informatics, Gene Ontology, search engine,
sweetspot similarity.
UKURAN KEMIRIPAN SWEETSPOT SIMILARITY PADA
TEMU KEMBALI INFORMASI ANOTASI
GENE ONTOLOGY BERBASIS SOLR
DIRMAN HAFIZ
Page
iii
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2016
iii
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer
Penguji: Muhammad Abrar Istiadi, SKomp MKom
Judul Skripsi : Ukuran Kemiripan Sweetspot Similarity Pada Temu Kembali
Informasi Anotasi Gene Ontology Berbasis SOLR
Nama
: Dirman Hafiz
NIM
: G64120035
Disetujui oleh
Dr Yeni Herdiyeni, SSi MKom
Pembimbing I
Ir Julio Adisantoso, MKom
Pembimbing II
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Page
v
Tanggal Lulus:
v
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Januari 2016 ini ialah
information retrieval, dengan judul Ukuran kemiripan Sweetspot Similarity Pada
Temu Kembali Informasi Anotasi Gene Ontology Berbasis SOLR.
Penulisan skripsi ini merupakan salah satu syarat memperoleh gelar Sarjana
Komputer pada Program Studi Ilmu Komputer Institut Pertanian Bogor. Tugas
akhir ini tidak mungkin dapat diselesaikan tanpa adanya bantuan dari berbagai
pihak. Oleh karena itu, penulis mengucapkan terima kasih dan penghargaan kepada:
1 Ibu penulis Nur Umi Legiatri, Ayah penulis Sulistyono, Kakak penulis Agus Adi
Saputro dan Jamilludin Noer, Adik penulis Hendra Satria, dan juga keluarga
lainnya yang telah memberikan dukungan, doa serta motivasi untuk keberhasilan
studi.
2 Ibu Dr Yeni Herdiyeni, SSi MKom dan Bapak Ir Julio Adisantoso, MKom
selaku dosen pembimbing yang telah memberikan bimbingan, saran, arahan dan
bantuan selama penyusunan skripsi.
3 Bapak Dr Ir Agus Buono, MSi MKom selaku Ketua Program Studi Ilmu
Komputer IPB.
4 Seluruh dosen dan staf pegawai tata usaha Departemen Ilmu Komputer IPB yang
telah banyak membantu selama masa perkuliahan hingga penelitian.
5 Teman satu kelompok bimbingan yang senantiasa membantu dan memotivasi
dalam penyelesaian penelitian ini.
6 Seluruh teman-teman Program S1 Ilmu Komputer angkatan 49 atas kebersamaan
dan persaudaraan selama 3 tahun ini.
7 Sahabat penulis yaitu Amelia Lindani, Basyiru Rahman, Desi Rosdiana, Fide
Kristopan, Galih Puspitasari, Isabella Sianturi, Ridwan Agung, Ruth Meliani
Hutapea, Umdatul Qori selaku sahabat yang telah memberikan motivasi serta
dukungan selama ini.
8 Teman TPB QO8 dan Teman kontrakan Supernova yang telah memberikan
memberikan kenangan serta menemani penulis selama kuliah di IPB.
Semoga segala bantuan, bimbingan, motivasi, dan dukungan yang telah
diberikan kepada penulis senantiasa dibalas oleh Allah subhanahu wa ta’ala.
Semoga karya ilmiah ini bermanfaat dan menambah wawasan bagi pembaca.
Bogor, Agustus 2016
Dirman Hafiz
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
2
Tujuan Penelitian
2
Manfaat Penelitian
3
Ruang Lingkup Penelitian
3
Web Semantik
3
Ontologi
4
Gene Ontology
4
SOLR
5
Indexing
6
Classic Similarity
6
Sweetspot Similarity
7
Evaluasi
9
METODE
10
Data Penelitian
10
Tahapan Penelitian
10
Pengumpulan Dokumen
11
Kueri
12
Praproses
12
Sweetspot Similarity
14
Evaluasi
15
Lingkungan Pengembangan
16
vii
3
Page
TINJAUAN PUSTAKA
vii
DAFTAR ISI (Lanj.)
HASIL DAN PEMBAHASAN
17
Sweetspot Similarity
17
Evaluasi
18
SIMPULAN DAN SARAN
25
Simpulan
25
Saran
25
DAFTAR PUSTAKA
26
LAMPIRAN
27
RIWAYAT HIDUP
51
DAFTAR TABEL
1
2
3
4
5
6
7
8
9
Confusion Matriks
Daftar kueri
Panjang anotasi Gene Ontology
Nilai Min Max metode Sweetspot Similarity
Hasil score anotasi retrieval kueri Pericycle
Hasil anotasi dari kueri pedicel metode Sweetspot Similarity
Golden list dari kueri
Perbandingan nilai MAP dan R-Precision pada parameter min max
Perbandingan nilai MAP dan R-Precision untuk steepness pada min 51
dan max 100
10 Perbandingan nilai MAP dan R-Precision untuk Classic Similarity dan
Sweetspot Similarity
11 Hasil anotasi dari kueri Parenchyma metode Classic Similarity
12 Hasil anotasi dari kueri Parenchyma metode Sweetspot Similarity
13 Hasil anotasi dari kueri Lignin metode Sweetspot Similarity
9
12
14
15
17
18
19
20
21
21
22
23
24
DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
Visualisasi hubungan class, property, dan individual
Graf dalam GO
Normalisasi LengthNorm Sweetspot Similarity
Tahapan penelitian
Metadata RDF Gene Ontology
Metadata XML Gene Ontology
Tahapan praproses
Konfigurasi praproses pada skema SOLR
Grafik pesebaran panjang anotasi GO
Grafik perbandingan interpolasi 11 titik recall precision 3 nilai
parameter min max terbaik
11 Grafik interpolasi 11 titik recall precision nilai steepness 0.4 pada min
51 dan max 100
12 Grafik perbandingan interpolasi 11 titik recall precision Sweetspot
Similarity dan Classic Similarity
4
5
8
10
11
11
12
13
15
20
21
22
DAFTAR LAMPIRAN
27
ix
28
30
Page
29
ix
1 Definisi dari term kueri
2 Precision Recall Metode Sweetspot Similarity ( Min =1 Max =50
Steepness = 0.5)
3 Precision Recall Metode Sweetspot Similarity ( Min =51 Max =100
Steepness = 0.5)
4 Precision Recall Metode Sweetspot Similarity ( Min =101 Max =150
Steepness = 0.5)
5 Precision Recall Metode Sweetspot Similarity ( Min =151 Max
Steepness = 0.5)
6 Precision Recall Metode Sweetspot Similarity ( Min =201 Max
Steepness = 0.5)
7 Precision Recall Metode Sweetspot Similarity ( Min =1 Max
Steepness = 0.5)
8 Precision Recall Metode Sweetspot Similarity ( Min =1 Max
Steepness = 0.5)
9 Precision Recall Metode Sweetspot Similarity ( Min =1 Max
Steepness = 0.5)
10 Precision Recall Metode Sweetspot Similarity ( Min =1 Max
Steepness = 0.5)
11 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 0.5)
12 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 0.5)
13 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 0.5)
14 Precision Recall Metode Sweetspot Similarity ( Min =101 Max
Steepness = 0.5)
15 Precision Recall Metode Sweetspot Similarity ( Min =101 Max
Steepness = 0.5)
16 Precision Recall Metode Sweetspot Similarity ( Min =151 Max
Steepness = 0.5)
17 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 0.2)
18 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 0.4)
19 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 0.6)
20 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 0.8)
21 Precision Recall Metode Sweetspot Similarity ( Min =51 Max
Steepness = 1)
22 Precision Recall Metode Classic Similarity
23 Kode transfromasi pada xlstproc
=200
31
=250
32
=100
33
=150
34
=200
35
=250
36
=150
37
=200
38
=250
39
=200
40
=250
41
=250
42
=100
43
=100
44
=100
45
=100
46
=100
47
48
49
PENDAHULUAN
Latar Belakang
Indonesia adalah negara kepulauan yang memiliki cakupan yang sangat luas
dimana didalamnya hidup flora dan fauna yang sangat beragaram. Tingginya
keanekaragaman hayati atau yang biasa dikenal dengan biodiversitas dan tingkat
endemisme menempatkan Indonesia sebagai laboratorium alam yang sangat unik
untuk tumbuhan tropik dengan berbagai fenomenanya (Walujo 2011). Web
merupakan salah satu dari sekian banyak cara untuk memperoleh informasi tentang
biodiversitas. Jumlah data yang sangat banyak dengan format yang berbeda-beda
menimbulkan kesulitan bagi pengguna untuk mengakses informasi (Amanqui et al.
2014).
Kesulitan dalam mengakses informasi biodiversitas dan konsep pemahaman
makna dapat diatasi dengan menggunakan konsep semantic web. Semantic web
merupakan sebuah generasi baru dari web yang mencoba untuk merepresentasikan
informasi yang dapat digunakan oleh mesin, tidak hanya untuk menampilkan, tetapi
juga untuk automasi, integrasi dan penggunaan kembali oleh berbagai aplikasi
untuk mempermudah pencarian bagi pengguna dan mesin (Amanqui et al. 2014).
Semantic web memungkinkan mesin untuk memproses informasi yang tersedia dan
akan bertindak layaknya seorang manusia (Mukhopadhyay et al. 2011). Salah satu
penerapan konsep semantic web adalah ontologi. Sebagian pengembangan
biodiversitas sudah mengimplementasikan semantic web yang menggunakan
terminologi ontologi dalam merepresentasikan pengetahuan. Pada sistem Entrez di
National Center for Biotechnology (NCBI) menyediakan akses informasi medikal
dan informasi tersebut dapat diambil dengan menggunakan ontologi (Sarkar dan
Indra 2007).
Ontologi merupakan teknik merepresentasikan suatu pengetahuan yang dapat
berupa fakta ataupun ide. Pengetahuan tersebut didefinisikan ke dalam hubungan
dan klasifikasi dari suatu konsep pada domain yang spesifik (Jepsen 2009). Saat ini
ontologi sudah banyak diterapkan dalam berbagai domain pengetahuan, salah
satunya biologi. Gene Ontology adalah sebuah ontologi di bidang biologi molekular
yang dikembangkan oleh Gene Ontology Consortium. Dokumen ontologi disimpan
dalam format RDF dan OWL yang berbasis representasi pengetahuan pada web,
dan mengizinkan pengguna untuk mendefinisikan term, hubungan antar term dan
menetapkan batasan-batasan pada data yang terstruktur dengan baik
(Mukhopadhyay et al. 2007). RDF merupakan model data dasar untuk penulisan
statement sederhana tentang objek web (resource). Model data RDF tidak
bersandar pada Extensible Markup Language (XML) namun RDF memiliki sintaks
berbasis XML (Antoniou dan Hermalen 2008).
Banyaknya informasi biodiversitas seperti Gene Ontology dibutuhkan sebuah
mesin pencari yang baik dan efisien untuk memperoleh informasi yang relevan
(Amanqui et al. 2014). Mesin pencari memungkinkan pengguna untuk
memasukkan kueri berupa term dari konten dan mengambil daftar item yang
memenuhi kriteria tersebut. Namun pengguna sering dihadapkan pada masalahmasalah seperti memilah-milah beberapa dokumen dari hasil yang dikembalikan,
yang kebanyakan tidak relevan dengan kueri yang diminta. SOLR adalah aplikasi
2
Perumusan Masalah
Rumusan permasalahan dalam penelitian ini, yaitu:
1
2
3
Bagaimana menggunakan struktur ontologi untuk pencarian informasi
sistem pada temu kembali informasi ?
Bagaimana menerapkan sweetspot similarity mengukur kemiripan anotasi
pada Gene Ontolology menggunakan SOLR?
Bagaimana kinerja sweetspot similarity dibandingkan dengan classic
similarity pada SOLR ?
Tujuan Penelitian
Tujuan dari penelitian ini, yaitu:
1 Mengukur kemiripan anotasi Gene Ontology menggunakan metode sweetspot
similarity
2 Menganalisa kinerja sweetspot similarity dan membandingkan hasil metode
tersebut dengan metode ukuran kemiripan default pada SOLR
2
(platform) pencarian open-source yang dibangun pada Apache Lucene
menggunakan bahasa pemrograman Java. Kemampuan SOLR adalah mampu
mengolah data dalam jumlah yang besar dan mengindeks secara otomatis. Fitur
utama dari SOLR yaitu server yang dapat berkomunikasi melalui HTTP dengan
menggunakan XML dan JSON data format, konfigurasi file (Smiley dan Pugh
2011). Sehingga SOLR dapat menginput dokumen ontologi dengan model data
RDF dengan melakukan beberapa tahapan perubahan RDF menjadi XML.
Untuk meningkatkan kinerja mesin pencari diperlukan sebuah similarity
yang menghasilkan output lebih relevan. Ukuran kemiripan tidak hanya
menghitung banyaknya nilai term frekuensi dalam dokumen namun diperlukan
normalisasi panjang dokumen. Normalisasi diperlukan karena dokumen yang lebih
panjang mengandung nilai term frekuensi (tf) yang lebih besar dibandingkan
dengan dokumen yang lebih pendek. sedangkan nilai tf yang lebih besar belum
tentu mencirikan dokumen tersebut relevan (Manning dan Raghavan 2008). SOLR
memiliki beberapa similarity yang dapat digunakan dalam package similarity,
adalah classic similarity dan sweetspot similarity. Classic Similarity merupakan
gabungan dari Boolean similarity, TF-IDF dan cosine similarity. Sedangkan
Sweetspot similarity merupakan pengembangan dari classic similarity yang
berfokus pada normalisasi panjang dokumen. Pada penelitian ini dokumen ontologi
yang digunakan memiliki panjang dokumen yang beragam. Normalisasi panjang
dokumen dilakukan dengan menggunakan metode sweetspot similarity.
Normalisasi panjang dokumen dalam sweetspot similarity memungkinkan panjang
dokumen yang lebih besar memiliki nilai normalisasi yang lebih besar
dibandingkan dengan panjang dokumen yang lebih sedikit. Hal tersebut agar
menyetarakan nilai normalisasi pada panjang dokumen berdasarkan tingkat
kepentingan dari panjang dokumen. Pada sweetspot similarity normalisasi panjang
dokumen diubah menjadi sebuah nilai dengan interval nol sampai satu. Penelitian
yang dilakukan Cohen dan Amiatay (2007) membandingkan beberapa normalisasi
panjang dokumen serta melakukan beberapa modifikasi dalam average tf. Nilai
evaluasi dalam penelitian tersebut menghasilkan metode sweetspot similarity lebih
baik dibandingkan dengan beberapa metode normalisasi panjang dokumen lainnya.
3
Manfaat Penelitian
Penelitian ini diharapkan dapat mempercepat proses pencarian pada sistem
temu kembali informasi sehingga pengguna bisa mendapatkan dokumen yang lebih
relevan, dengan mengetahui metode pengukuran kemiripan yang baik dan efisien.
Ruang Lingkup Penelitian
Ruang lingkup penelitian ini antara lain:
1 Kueri yang digunakan diambil dari buku Anatomy of Flowering Plants pada
bagian batang (Rudal 2007).
2 Relasi anotasi Gene Ontology tidak diperhitungkan dalam ukuran kemiripan
3 Penggunaan relasi anotasi Gene Ontology hanya is_a dan berada pada tingkat
level pertama
TINJAUAN PUSTAKA
Semantic Web
Semantic web diperkenalkan oleh Berners-Lee, Hendler dan Lassila pada
tahun 2001. Semantik web adalah sebuah teknologi yang bertujuan untuk membuat
dokumen web dapat dimengerti oleh komputer (machine-readable data) (Davies et.
al 2006). Semantic web merupakan representasi dari data di dalam World Wide Web,
berdasar pada Resource Description Framework (RDF) yang mengintegrasikan
berbagai aplikasi menggunakan XML sebagai sintaks dan URI sebagai penamaan
(Antoniou dan Hermalen 2008). Sebuah semantic search engine meyimpan
informasi semantic tentang web resources dan mampu memecahkan suatu kueri
yang kompleks. Semantic search membantu agar kueri yang diberikan oleh
pengguna dapat dimengerti dengan baik oleh mesin pencari, karena semantik berarti
suatu pembelajaran tentang arti yang terkandung dari suatu bahasa, kode, atau jenis
representasi lain, sehingga mesin pencari dapat menampilkan hasil yang paling
relevan sesuai dengan maksud dari kueri
3
RDF (Resource Description Framework)
eXtensible Markup Language (XML) adalah suatu bahasa yang
direpresentasikan dengan metadata. XML merepresentasikan informasi agar dapat
dengan mudah diakses oleh mesin. XML tidak menyediakan tag-tag tertentu, tetapi
penggunanya dapat mendefiniskan tag secara mandiri. RDF mengadopsi sintakssintaks yang dimiliki oleh XML. Menurut Antoniou dan Hermalen (2008), RDF
memiliki konsep dasar RDF yaitu resource, properties, dan statement. Resource
adalah objek atau tentang sesuatu yang ingin diungkapkan. Beberapa contoh
resource seperti judul buku, pengarang, penerbit, orang dan sebagainya. Setiap
resource memiliki Universal Resource Identifier (URI). Properties adalah deskripsi
hubungan antar resource, misalnya properti yang menghubungkan antara buku
dengan penulisnya adalah “ditulis oleh”. Statement adalah bentuk literal dari
resource, properties dan nilainya.
4
Ontologi
Flower
Rose
Orchid
Red
White
Color
: Class
: Property
: individual
Gambar 1 Visualisasi hubungan class, property, dan individual
Gene Ontology
Gene Ontology (GO) merupakan sebuah ontologi yang menjelaskan tentang
biologi molekular yang dikembangkan oleh Gene Ontology Consortium dan dapat
diunduh pada situs geneontology.org. Gene Ontology yang mengandung sekitar
30.000 term ini memiliki 3 komponen, yaitu molecular function, biological process,
dan cellular component (Consortium 2004). Cellular components (CC), merupakan
sebuah komponen sel dan penjelesan struktur subselular dan makromolekuler yang
lebih kompleks. Molecular Function (MF), menggambarkan aktivitas-aktivitas dari
sel namun tidak menentukan dimana, kapan, atau dalam konteks apa aktitivitas
tersebut terjadi. Biological process (BP), menjelaskan tujuan biologis yang dicapai
oleh satu atau lebih molecular function. Perbedaan antara biological process dan
molecular function adalah bahwa secara umum sebuah proses harus memiliki lebih
dari satu langkah berbeda.
Dalam setiap ontologi, istilah-istilah memiliki definisi bebas dan pengenal
unik yang stabil. Kosakata-kosakata tersebut terstruktur dalam sebuah klasifikasi
yang mendukung hubungan is_a, part_of dan regulates. Relasi is_a (I), meskipun
berdasarkan dokumentasi GO ditujukan sebagai makna, namun is_a jelas
digunakan untuk menunjukkan bagian dari atau spesialisasi hubungan secara umum,
4
Ontologi merupakan teknik merepresentasikan suatu pengetahuan yang dapat
berupa fakta ataupun ide. Pengetahuan tersebut didefinisikan ke dalam hubungan
dan klasifikasi dari suatu konsep pada domain yang spesifik (Jepsen 2009).
Pengetahuan yang didefinisikan ke dalam hubungan dimaksudkan agar mesin dapat
membaca dan mengerti konsep dari data yang bersifat abstrak atau dikenal dengan
machine readable, adapun pengetahuan tersebut dapat direpresentasikan dalam
sebuah model (Bermejo 2007).
Ontologi memiliki tiga komponen dasar, yaitu class, property, dan individual
(Liu dan Ozsu 2009). Class merepresentasikan konsep dari entitas dalam suatu
domain. Class merupakan himpunan abstrak dari sebuah objek. Di dalam suatu
class dapat terkandung suatu individual atau class lain. Sebuah class dapat
dijelakan menggunakan property, misalnya pada class flower memiliki property
yaitu HasColor. Selain itu, suatu class dapat mengandung beberapa individual,
misalnya class Color memiliki beberapa individual yaitu red dan white. Visualisasi
hubungan class, property, dan individual dapat dilihat pada Gambar 1.
5
misalnya pada pigmentation merupakan bagian dari biological process. Relasi
part_of (P) GO digunakannya untuk representasi bagian dari substan dan proses
dan dari fungsi atau aktivitas, misalnya pada pigment metabolic process during
development merupakan representasi dari bagian pigmentation pigment during
development. Regulates (R) menjelaskan bahwa suatu proses secara langsung
mempengaruhi manifestasi dari proses lain, misalnya pigmentation during
development dipengaruhi oleh manifestasi dari negative regulation of pigmentation
during development dan positive regulation of pigmentation during development.
Kosa-kata dalam GO tersusun sebagai sebuah rooted Directed Acyclic Graph
(rDAG) atau sebuah graf berarah yang mempunyai node akar sebagai parent dan
tidak memiliki cycle. Anotasi dalam gene ontologi memiliki beberapa kategori
diantaranya label, definisi, sinonim, dan relasi hubungan konsep seperti yang
dijelaskan dalam Gambar 2. Label merupakan sebuah judul dari anotasi. Definisi
merupakan penjelasan secara spesifik dari anotasi. Sedangkan sinonim merupakan
makna lain dari sebuah anotasi yang memiliki kemiripan makna. Visualisasi graf
GO terdapat dalam gambar 2.
Part_of
Regulates
Is_a
Gambar 2 Graf dalam GO (genontology.org)
SOLR
5
SOLR merupakan aplikasi mesin pencari yang dibangun di atas Lucene
sebagai mesin indexing dan berbasis enterprise. SOLR dapat menangani pencarian
pada data dokumen yang besar secara cepat, dan akurat, karena sintaks untuk
mencari dokumen yang digunakan adalah NoSQL (Shahi 2015). Apache SOLR
memiliki fitur utama seperti mencari teks dengan cepat, fected search,
pengelompokan secara dinamis, integrasi database, menangani beragam dokumen
input seperti PDF, Word dan lain-lain. Kelebihan utama SOLR dibanding Lucene
yaitu server yang dapat berkomunikasi melalui HTTP dengan menggunakan format
data XML dan JSON, konfigurasi file, cache untuk mempercepat respon pencarian,
administrative interface berbasis web, faceting hasil pencarian, dan geospatial
search (Smiley dan Pugh 2011).
SOLR terdiri atas sistem admin dan rancangan contoh user interface
untuk melakukan pencarian. Sistem admin digunakan untuk membuat core yang
berisi dokumen korpus, menginput dokumen, menganalisa dokumen yang diinput,
6
Indexing
Inverted Index merupakan proses untuk mengurutkan kata yang berada dalam
dokumen setelah melalui proses tokenisasi, case folding, dan pembuangan
stopwords berdasarkan lokasi dokumen dimana kata tersebut berada (Mahapatra
dan Biswas 2011). SOLR menggunakan inverted index dalam menyimpan hasil
indexing. Hal ini dikarenakan inverted index dapat memfasilitasi pencarian yang
dilakukan dengan sangat cepat dan mampu menangani kueri masukan meskipun
jumlahnya banyak (McCandless et al. 2010). Proses indexing dalam penelitian ini
dilakukan oleh Apache SOLR setelah dokumen dimasukan ke dalam tool document
input Apache SOLR.
Classic Similarity
Scoring merupakan bagian yang digunakan untuk memberikan bobot
terhadap dokumen yang akan ditampilkan saat user memberikan kueri masukan ke
dalam mesin pencari. Scoring menentukan urutan dokumen yang ditampilkan
berdasarkan nilai pembobotan yang dihasilkan (Graigger dan Potter 2014). Ukuran
kemiripan default pada SOLR yaitu Classic Similarity. Classic Similarity
merupakan gabungan dari Boolean similarity, TF-IDF dan cosine similarity.
Boolean melakukan filter pada dokumen yang mengandung kata pada kueri
masukan, TF-IDF melakukan pembobotan terhadap kata dalam dokumen dan
kumpulan dokumen sedangkan cosine similarity melakukan uji kemiripan dokumen
dengan kueri menggunakan ukuran kemiripan vektor, dimana setiap kueri masukan
dan term di dalam dokumen dibandingkan. Pengukuran dilakukan dengan
membandingkan sudut yang dibentuk antara kueri dan dokumen yang ada. Setiap
kata dalam dokumen direpresentasikan ke dalam vektor sehingga dapat ditentukan
nilai jarak yang menggambarkan hubungan antara kueri dan dokumen (Manning
dan Raghavan. 2008)
Formula scoring classic similarity dalam Lucene pada Persamaan 1.
Score(q,d) = crd(q,d) × qN(q) × ∑
�
�
× .
×
,
[1]
[2]
�
= √
�
Term frequency tf(t in d) pada Persamaan 1 merupakan jumlah frekuensi term
dalam satu dokumen.
�
�
= + log
[3]
�
+1
Pada Persamaan 1 Idf(t) merupakan Inverse Document Frequency dimana
frukuensi kata yang ditemukan pada keseluruhan dari dokumen yang ada. DocFreq
merupakan banyaknya dokumen yang mengandung term kueri. Sedangkan
numDocs merupakan jumlah dari seluruh dokumen. Idf(t) muncul pada kueri dan
dokumen, sehingga dikuadratkan dalam Persamaan 1.
6
menganalisa hasil pencarian dan lain sebagainya. Sementara untuk melakukan
pencarian dapat langsung menggunakan browse. BioSolr merupakan salah satu
pengembangan SOLR untuk penelitian biodiversitas dengan struktur ontologi.
BioSolr sudah diimplementasikan ke bentuk web yaitu pada http://www.ebi.ac.uk/
7
crd(q,d) =
ax
�
�
[4]
Pada Persamaan 1 selain tf dan idf , terdapat beberapa persamaan lain
diantaranya crd(q,d), qN(q), N(t,d). crd(q,d) merupakan coord factor dimana
ukuran untuk seberapa banyak dokumen yang relevan dengan faktor banyaknya
term kueri. Persamaan 4 menunjukkan implementasi dari coord factor, dengan max
overlaps merupakan jumlah kata pada kueri dan overlaps merupakan jumlah
dokumen yang mengandung kata pada kueri. Pada penelitian ini tidak
menggunakan formula coord factor dikarenakan panjang kueri tidak
mempengaruhi metode yang digunakan.
1
=
[5]
2
2
√
.
�
×∑
× .�
qN(q) atau queryNorm merupakan nilai normalisasi pada kueri, bertujuan
untuk melakukan normalisasi terhadap nilai scoring antara kueri yang ada dengan
seluruh dokumen. q.getboost menyatakan boosting yang diberikan pada sebuah
kueri dan t.Bst adalah nilai boost pada term (t) untuk kueri (q) pada saat pencarian
yang diminta oleh user. Apabila tidak terdapat boost pada kueri maka secara
otomatis nilai queryNorm bernilai satu
, =
ℎ
.∏ .
[6]
1
LengthNorm =
[7]
√L
Fungsi N(t,d) merupakan Normalisasi term dalam dokumen. Dalam
normalisasi tersebut terdapat enkapsulasi beberapa boost pada field pada saat
indexing dan faktor normalisasi panjang dokumen. Fungsi .
menyatakan
boost yang dilakukan terhadap dokumen atau field saat proses indexing dan L
merupakan panjang dari suatu dokumen. Pada Persamaan 7 fungsi LengthNorm
merupakan normalisasi panjang dokumen. Dokumen yang memiliki kata paling
pendek dalam sekumpulan dokumen akan mendapatkan bobot lebih besar karena
memuat kepentingan kueri pada dokumen tersebut lebih besar dari yang lain.
Namun, hasil dari nilai norm akan dilakukan proses pengubahan float menjadi
single byte sebelum disimpan. Pada saat Pencarian, nilai byte norm dibaca
berdasarkan index directory dan kemudian di ubah kembali menjadi nilai float.
Pengubahan float menjadi single byte akan mengurangi ukuran index. Kompresi
nilai norm akan menghemat memori saat pencarian, dikarenakan saat pencarian ke
masing-masing field, normalisasi ke semua dokumen dilakukan di dalam memori.
Sweetspot Similarity
7
Sweetspot similarity merupakan pengembangan dari Classic Similarity yang
melakukan modifikasi pada bagian length normalization (Cohen dan
Amiatay 2007) dinyatakan dalam Persamaan 8. Sehingga pengukuran kemiripan
pada sweetspot similarity mengadopsi dari pengukuran kemiripan Classic similarity
namun hanya berbeda pada bagian normalisasi panjang dokumen. Normalisasi
diperlukan karena pencarian term dengan nilai TF yang sama pada dokumen yang
lebih pendek cenderung lebih relevan daripada dokumen yang lebih panjang.
Semakin banyak term pada kueri yang ditemukan pada dokumen pendek tersebut
maka dokumen pendek tersebut akan cenderung dianggap lebih relevan (Manning
dan Raghavan 2008). Normalisasi panjang dokumen dalam sweetspot similarity
memungkinkan panjang dokumen yang lebih besar memiliki nilai normalisasi yang
8
√ �
× |L−
i | + |L+ ax|−
ax− i
+1
Gambar 3 Normalisasi LengthNorm Sweetspot Similarity
Makna dari parameter min dan max adalah batas bawah dan batas atas
panjang dokumen yang mendapat nilai normalisasi menjadi satu. Sedangkan untuk
nilai steepness berpengaruh terhadap kurva kemiringan pada Gambar 3, sehingga
apabila nilai steepness semakin tinggi maka kurva kemiringan akan semakin garis
lurus terhadap panjang dokumen. Pada Gambar 3 menunjukkan nilai LengthNorm
merupakan nilai hasil normalisasi panjang dokumen pada interval nol sampai satu.
Normalisasi panjang dokumen akan bernilai satu apabila panjang suatu dokumen
berada dalam range yang dibatasi oleh parameter min dan max. Sedangkan
normalisasi panjang suatu dokumen berada di luar range maka akan dilakukan
normalisasi panjang dokumen sesuai dengan Persamaan 7. Parameter nilai default
pada Gambar 3 menunjukkan nilai min = 1, max = 1, steepness = 0.5 apabila
penerapan paramter default diterapkan maka nilai LengthNorm sesuai dengan
classic similarity yaitu pada persamaan 6. Nilai LengthNorm akan lebih kecil
apabila panjang suatu dokumen berada diluar range dibandingkan dengan panjang
suatu dokumen yang berada di dalam range min max. Pada penelitian ini untuk
menentukan nilai parameter min, max, dan steepness ditentukan berdasarkan
evaluasi precision, recall, MAP, R-Precision. Apabila nilai evaluasi yang didapat
lebih baik maka parameter sweetspot tersebut yang akan dibandingkan dengan
classic similarity.
8
lebih besar dibandingkan dengan panjang dokumen yang lebih sedikit. Hal tersebut
agar menyetarakan nilai normalisasi pada panjang dokumen berdasarkan tingkat
kepentingan dari panjang dokumen. Pada sweetspot similarity normalisasi panjang
dokumen diubah menjadi sebuah nilai dengan interval nol sampai satu.
1
LengthNorm =
[8]
9
Evaluasi
Evaluasi merupakan cara yang digunakan untuk mengukur kinerja sistem
temu kembali informasi. Metode yang umum digunakan dalam evaluasi adalah
precision dan recall. Precision menyatakan rasio dokumen yang relevan dari
seluruh dokumen yang ditampilkan. Sedangkan recall menyatakan rasio dokumen
yang ditampilkan dari seluruh dokumen yang relevan. (Manning dan Raghavan
2008). Formula untuk precision dan recall dapat dilihat pada Persamaan 9 dan
Persamaan 10.
Tabel 1 Confusion Matriks
Relevant
Nonrelevant
Retrieved
True positives (tp)
False positives (fp)
Not retrieved
False negatives (fn)
True negatives (tn)
� �
=
=
/
/
+
+
[9]
[10]
Pada Tabel 1, True positve merupakan jumlah dokumen relevan yang dapat
ditampilkan oleh sistem. False positve merupakan jumlah dokumen yang tidak
relevan yang ditampilkan oleh sistem. True negative merupakan jumlah dokumen
yang tidak relevan dan tidak ditampilkan oleh sistem. False negative merupakan
jumlah dokumen relevan dan tidak ditampilkan oleh sistem. Ukuran efisiensi dari
sebuah mesin pencari dapat dilihat dengan grafik interpolasi yang digambarkan
Pada kurva precision and recall dengan melihat plot pada 11 titik recall (Manning
dan Raghavan 2008). Pengukuran efisiensi dari sebuah mesin pencari dilihat dari
nilai MAP. MAP (Mean Average Precision) merupakan standarisasi pengukuran
kualitas hasil pencari yang telah disepakati oleh TREC (Text Retrieval Community).
MAP dapat menggambarkan perbedaan yang baik diantara dua jenis hasil mesin
pencari, MAP menghitung nilai rataan precision dari sejumlah kueri yang diujikan,
Persamaan MAP dapat dilihat pada formula berikut:
1
1
�
∑|�|
∑ =1
� �
[11]
=
=1
|�|
�
Ketika dokumen relevan tidak dikembalikan sama sekali, nilai precision dari
persamaan di atas adalah 0. Nilai dari MAP adalah rata-rata aritmatik dari nilai
precision untuk masing-masing kueri. Selain MAP evaluasi juga dilakukan dengan
evaluasi R-Precision. R-Precision menghitung urutan precision sebanyak jumlah
golden list yang ada, bukan sebanyak jumlah dokumen yang dikembalikan oleh
sistem. Dengan evaluasi tersebut dapat diketahui apakah dokumen teratas benarbenar relevan dan sesuai dengan urutan kepentingannya (Manning et al. 2009).
9
10
METODE
Data yang digunakan pada penelitian ini sebagai dokumen input adalah
dokumen Gene Ontology yang diperoleh dari website geneontology.org. Dokumen
yang dimaksud adalah anotasi yang ada di dalam GO.
Tahapan Penelitian
Tahapan yang dilakukan pada penelitian ini dapat dilihat pada Gambar 4.
Penelitian dimulai dengan mengumpulkan dokumen ontologi dan kueri, kemudian
melakukan praposes dalam SOLR, melakukan pengukuran kemiripan dengan
metode Sweetspot Similarity dan evaluasi dengan menghitung nilai precision,
recall, MAP, dan R-Precision.
Gambar 4 Tahapan penelitian
10
Data Penelitian
11
Pengumpulan Dokumen
Dokumen didapatkan dengan mengunduh dokumen Gene Ontology dari situs
geneontology.org yang berjumlah 44698 anotasi. Format GO yang diunduh adalah
go.owl (RDF-XML) yang memiliki hubungan hierarki dasar seperti is_a dan
part_of dapat dilihat pada Gambar 5.
GO:0000001
mitochondrion inheritance
mitochondrial inheritance
The distribution of mitochondria
Gambar 5 Metadata RDF GeneOntology
Mengubah format RDF-XML menjadi XML dilakukan dengan melakukan
transformasi dengan menggunakan perintah berikut setelah meng-install package
xsltproc pada sistem komputer:
$ xsltproc –novalid go2solr.xsl [nama_file] > output.xml
Lampiran 23 menjelaskan proses transformasi yang dilakukan program xsltproc.
Field yang terdapat dalam anotasi semuanya diubah kedalam sintaks XML. Namun
pada hubungan relasi is_a dan part_of penunjukkan value berdasarkan dari
rdf:resource . Output yang dihasilkan dari transformasi tersebut adalah anotasianotasi dalam GO yang ditandai oleh tag doc. Contoh anotasi GO metadata XML
dapat dilihat pada Gambar 6.
GO:0048311
Gambar 6 Metadata XML GeneOntology
Selanjutnya dokumen XML hasil transformasi dimasukkan ke dalam server SOLR.
Konfigurasi yang harus dilakukan agar SOLR dapat mengenali serta mengetahui
apa saja yang akan diambil dari dokumen XML tersebut. Mengubah schema.xml
pada konfigurasi SOLR dengan mendaftarkan field mana saja dalam dokumen
ontologi yang akan diindeks dan menentukan tipe serta bagaimana field tersebut
akan di-parsing.
11
12
Kueri
Kueri diperoleh dari buku Anatomy of Flowering Plants (Rudall 2007)
sebanyak 20 term pada bagian tentang batang. Daftar kueri yang digunakan dapat
dilihat pada Tabel 2. Definisi dari masing-masing daftar kueri dapat dilihat pada
Tabel Lampiran 1.
Tabel 2 Daftar kueri
No
Kueri
No
Kueri
1
Phloem
11
Meristem
2
Xylem
12
Pericycle
3
Sclerenchyma
13
Trichomes
4
Cambium
14
Callose
5
Sclereids
15
Primordium
6
Stele
16
Lignin
7
Tracheary
17
Corpus
8
Collenchyma
18
Tracheary
9
Trunk
19
Pedicel
10 Phellem
20
Tunica
Praproses
Pada tahap ini dilakukan pengolahan dokumen yang merupakan bahan
mentah menjadi kata-kata yang siap dihitung bobotnya. Tahap ini dilakukan secara
otomatis dalam SOLR. Tahapan yang dilakukan pada praproses dapat dilihat pada
Gambar 7.
Dokumen
GO
Tokenisasi
Case Folding
Filtering
Gambar 7 Tahapan praproses
1
Tokenisasi
Tahap ini dilakukan dengan memotong string masukan berdasarkan tiap kata
yang dimasukan dalam sebuah array. Pada umumnya setiap kata teridentifikasi
dan terpisahkan dengan kata lain oleh karakter spasi. Proses tokenisasi dilakukan
oleh Apache SOLR dengan memotong setiap kalimat yang terdapat dalam
dokumen menjadi potongan-potongan kata.
12
Atribut type berfungsi untuk mengetahui tahap praproses apa yang harus dilakukan
SOLR terhadap dokumen. Atribut stored berfungsi menyimpan setiap value yang
ada pada dokumen sehingga dapat ditampilkan. Atribut multivalued berfungsi agar
sistem dapat menyimpan single atau multivalue. Dan atribut indexed berfungsi
melakukan indexing dan perhitungan pada setiap field. Field dengan indexed =
true memiliki makna bahwa field tersebut akan ikut diindeks dalam SOLR. Field
dengan required = true memiliki makna bahwa field tersebut wajib ada dalam
setiap anotasi pada GO, contohnya ID. Sedangkan field dengan multivalued =
true berarti bahwa field tersebut dapat memiliki nilai lebih dari satu, seperti
go_synonym.
13
2
3
Case Folding
Pada tahap ini dilakukan pengubahan semua huruf dalam dokumen menjadi
huruf kecil. Karakter selain huruf dihilangkan dan dianggap sebagai delimiter
(pembatas).
Filtering
Stopwords merupakan kata umum yang sering muncul dalam suatu dokumen
dengan jumlah besar namun seringkali tidak memiliki makna, sehingga dapat
diabaikan di dalam pengolahan. Stopword dibuang untuk meringankan
komputasi dan mempercepat waktu pemrosesan pencarian. Sebelumnya daftar
kata yang digunakan sebagai stopword dikumpulkan dalam suatu file. Kemudian
sistem membaca file tersebut untuk dilakukan penghapusan ketika kata dalam
dokumen identik dengan kata yang berada dalam file stopwords.
Tahapan praproses dilakukan secara otomatis dalam SOLR, terbagi atas empat
tahap sesuai pada Gambar 7. Perlu dilakukan konfigurasi praproses pada skema
SOLR dapat dilihat pada Gambar 8.