XML retrieval untuk dokumen Bahasa Indonesia
XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA
MARYAM NOVIYANA BAHI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA
MARYAM NOVIYANA BAHI
Skripsi
sebagai salah satu syarat untuk memperoleh
gelar Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA
MARYAM NOVIYANA BAHI
Skripsi
sebagai salah satu syarat untuk memperoleh
gelar Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
ABSTRACT
MARYAM NOVIYANA BAHI. XML Retrieval for Document in Bahasa Indonesia. Under
direction of JULIO ADISANTOSO.
XML (eXtensible Markup Language) retrieval is the content based retrieval of documents
structured with XML and aims to implement focused retrieval strategies aiming at returning
document components, which is XML elements instead of whole documents in response to a user
query. Query languages for XML retrieval can be classified into content only (CO) and content and
structure (CAS) query languages. Content only queries usually used for information retrieval
where user does not know structure of a document but can get a specific answer from the query.
Whereas, for content and structure queries used for XML retrieval systems which aims to
answering user query on retrieve specific part of a document from content and structure XML
documents. In this research queries are use content and structure (CAS) character with XML query
additional fragments tagging of documents structured with XML. The purpose of this reasearch is
to implement XML retrieval for document in Bahasa Indonesia using XML query additional
fragments tagging with SIMNOMERGE similarity. The testing used 2 documents i.e. agricultural
document and medicinal plants document. For the testing agricultural documents used 30 queries
and 1000 documents. Whereas for medicinal plants documents used 13 queries and 93 documents.
The testing result showed that the perfomance of information search engine is better when we use
the medicinal plants documents than agricultural document. However, the performance of search
engine with XML query additional fragment tagging with content and disease in madicinal plants
document gave good result with around 0.8589 average precision and for XML query additional
fragment tagging with text in agricultural document gave result with around 0.6156 average
precision.
Keywords : content and structure, content only, SIMNOMERGE, XML retrieval.
Penguji :
1. Ahmad Ridha, S.Kom, MS
2.
Sony Hartono Wijaya, S.Kom, M.Kom
Judul Skripsi
Nama
NRP
: XML Retrieval untuk Dokumen Bahasa Indonesia
: Maryam Noviyana Bahi
: G64060199
Menyetujui:
Pembimbing,
Ir. Julio Adisantoso, M.Kom
NIP. 19620714 198601 1 002
Mengetahui:
Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si, M.Kom.
NIP. 19660702 199302 1 001
Tanggal Lulus:
RIWAYAT HIDUP
Penulis dilahirkan di Bogor pada tanggal 7 November 1988 dan merupakan anak pertama dari
dua bersaudara dengan ayah bernama Mastan Harun dan ibu bernama Cicilia Blae. Pada tahun
2006 penulis lulus dari Sekolah Menengah Atas (SMA) Negeri 8 Bogor dan diterima di Institut
Pertanian Bogor melalui jalur USMI (Undangan Seleksi Mahasiswa IPB). Pada tahun 2007 penulis
diterima di Departemen Ilmu Komputer IPB setelah mengikuti Tingkat Persiapan Bersama (TPB)
selama setahun di IPB.
PRAKATA
Alhamdulilahirobbil'alamin, segala puji syukur penulis panjatkan ke hadirat Allah subhanallah
wata'ala atas segala karunia-Nya sehingga tugas akhir ini berhasil diselesaikan. Topik tugas akhir
yang dipilih dalam penelitian ini adalah XML Retrieval untuk Dokumen Bahasa Indonesia.
Penulis sadar bahwa tugas akhir ini tidak akan terwujud tanpa bantuan dari berbagai pihak.
Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada :
1
Orang tua tercinta, adikku Muhammad Nasir Bahi serta segenap keluarga besar, terima kasih
atas doa dan dukungan yang tiada henti.
2
Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima Kasih atas
kesabaran dan dukungan dalam penyelesaian tugas akhir ini.
3
Bapak Ahmad Ridha, S.Kom, MS dan Bapak Sony Hartono Wijaya, S.Kom, M.Kom selaku
dosen penguji, Dr. Ir. Agus Buono, M.Si, M.Kom. selaku Kepala Departemen Ilmu Komputer
serta seluruh staf Departemen Ilmu Komputer FMIPA IPB.
4
Teman-teman satu bimbingan Ilkom 43 dan Ilkom 44 Yucan, Hendrex, Tina, Awet, Eka,
Wildan, Rio, Adit, Woro, Dhina, Devi, Agus, Nova, Isna, Fandi dan Nutri. Terima Kasih atas
semangat dan kebersamaannya selama penyelesaian tugas akhir ini.
5
Sahabat-sahabatku Uut, Mames, Iki, Syamsul Bachri, dan seluruh sahabatku di Ilkomerz 43.
Terima kasih atas motivasi dan kebersamaannya selama ini.
6
Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam
pelaksanaan tugas akhir.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan
dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap
adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi
kesempunaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.
Bogor, Maret 2012
Maryam Noviyana Bahi
DAFTAR ISI
Halaman
DAFTAR TABEL...............................................................................................................................v
DAFTAR GAMBAR..........................................................................................................................v
DAFTAR LAMPIRAN......................................................................................................................v
PENDAHULUAN
Latar Belakang...............................................................................................................................1
Tujuan.............................................................................................................................................1
Ruang Lingkup...............................................................................................................................1
TINJAUAN PUSTAKA
Information Retrieval (Temu-Kembali Informasi).........................................................................1
XML Retrieval................................................................................................................................1
Vector Space Model untuk XML Retrieval....................................................................................2
Recall dan Precision.......................................................................................................................2
METODE PENELITIAN
Evaluasi Sistem..............................................................................................................................3
Asumsi............................................................................................................................................3
Lingkungan Implementasi..............................................................................................................3
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian..........................................................................................................3
Pemrosesan Dokumen....................................................................................................................4
Pengindeksan..................................................................................................................................4
Pemrosesan Kueri...........................................................................................................................4
Hasil Temu Kembali.......................................................................................................................4
Pengujian Kinerja Sistem...............................................................................................................5
KESIMPULAN DAN SARAN
Kesimpulan.....................................................................................................................................7
Saran...............................................................................................................................................8
DAFTAR PUSTAKA.........................................................................................................................8
LAMPIRAN.......................................................................................................................................9
v
DAFTAR TABEL
1
2
3
Halaman
Deskripsi koleksi dokumen.........................................................................................................3
Hasil perhitungan average precision pada dokumen pertanian...................................................6
Hasil perhitungan average precision pada dokumen tanaman obat ...........................................7
DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
11
12
Halaman
Diagram alur penelitiaan..............................................................................................................2
Format dokumen dokumen pertanian...........................................................................................4
Format dokumen tanaman obat ...................................................................................................4
Contoh tree pada kueri.................................................................................................................4
Grafik R-P untuk tagging title......................................................................................................5
Grafik R-P untuk tagging text......................................................................................................5
Grafik R-P untuk tagging title and text .......................................................................................5
Grafik R-P untuk dokumen pertanian .........................................................................................6
Grafik R-P untuk tagging penyakit..............................................................................................6
Grafik R-P untuk tagging content................................................................................................6
Grafik R-P untuk tagging content dan penyakit...........................................................................7
Grafik R-P untuk dokumen tanaman obat ...................................................................................7
DAFTAR LAMPIRAN
1
2
3
4
5
6
Halaman
Antarmuka implementasi sistem pertanian................................................................................10
Antarmuka implementasi sistem tanaman obat.........................................................................11
Daftar kueri dan jumlah dokumen relevan pada sistem pertanian............................................12
Daftar kueri dan jumlah dokumen relevan pada sistem tanaman obat......................................13
Hasil perhitungan precision pada elevent standard recall untuk sistem pertanian...................14
Hasil perhitungan precision pada elevent standard recall untuk sistem tanaman obat.............15
vi
1
PENDAHULUAN
sehingga dokumen dihasilkan lebih spesifik
dari sebuah jawaban kueri yang diberikan.
Latar Belakang
Tujuan
Pada saat ini, informasi dapat diperoleh
secara cepat dan mudah dengan menggunakan
metode temu-kembali informasi. Sistem temukembali mendapatkan informasi dengan
menggunakan kueri tertentu. Dengan kueri
tersebut, sistem akan melakukan proses temukembali sehingga menemukan informasi atau
dokumen yang dicari sesuai urutan
relevansinya.
Tujuan
dari
penelitian
ini
ialah
mengimplementasikan XML retrieval pada
dokumen bahasa Indonesia.
Dalam sistem temu kembali informasi, data
semi terstruktur dapat direpresentasikan
menjadi dua bagian, yaitu sistem temukembali informasi biasa dan sistem XML
retrieval. Sistem temu kembali informasi biasa
membandingkan semua kumpulan dari term
yang ada berupa gambar, kata-kata, ciri-ciri,
dan lain-lain, sedangkan sistem XML retrieval
membandingkan kata yang digambarkan
dengan suatu struktur sehingga lebih fleksibel
(Manning et al. 2008).
Permasalahan di XML retrieval adalah
pengguna ingin mengembalikan bagian dari
dokumen pada elemen XML bukan dokumen
secara keseluruhan dan membedakan konteks
yang berbeda dari setiap term dalam
pemeringkatan (Manning et al., 2008).
Immaneni dan Thirunarayan (1999)
melakukan penelitian terhadap bahasa kueri
yang fleksibel dan mengembangkan semantik
intuitif dengan ekstraksi dari potonganpotongan dokumen XML yang relevan.
Carmel et al. (2002) menambahkan vector
space model untuk menemukan dokumen
XML dengan menggunakan kueri pada
potongan tagging XML dan menghasilkan
peringkat sesuai relevansi yang terurut. Fuhr
dan Gövert (2002) menggunakan content and
structure (CAS) queries dan content only
(CO) queries serta dianalisis menggunakan
recall dan precision. Lalmas (2009) telah
melakukan pendekatan terhadap kueri pada
potongan
tagging
XML
dan
merepresentasikan hasil peringkat dokumen
XML yang terurut secara relevan.
Penelitian yang telah dilakukan dengan
menggunakan metode XML retrieval baru
diterapkan menggunakan koleksi bahasa
Inggris. Untuk itu, penelitian kali ini akan
menerapkan
metode
XML
retrieval
menggunakan koleksi dokumen bahasa
Indonesia dengan menggunakan kueri XML
dengan potongan tagging dari dokumen
Ruang Lingkup
Ruang lingkup penelitian ini ialah
menggunakan korpus berupa dokumen bahasa
Indonesia dengan menggunakan struktur tag
XML yang sama untuk setiap dokumen.
TINJAUAN PUSTAKA
Information
Infomasi)
Retrieval
(Temu
Kembali
Temu-kembali informasi berkaitan dengan
cara
merepresentasikan,
menyimpan,
mengorganisasikan, dan mengakses informasi.
Merepresentasikan dan mengorganisasikan
suatu informasi harus membuat pengguna
lebih mudah dalam mengakses informasi yang
diinginkannya. Akan tetapi, mengetahui
informasi yang diinginkan pengguna bukan
merupakan suatu hal yang mudah. Untuk itu,
pengguna
harus
mentransformasikan
informasi yang dibutuhkan ke dalam suatu
kueri yang akan diproses oleh mesin pencari
sehingga
kueri
tersebut
akan
merepresentasikan informasi yang dibutuhkan
oleh pengguna. Dengan kueri tersebut, sistem
akan menemukembalikan informasi yang
relevan dengan kueri (Baeza-Yates & RibeiroNeto, 1999).
XML Retrieval
XML singkatan dari Extensible Markup
Language. Extensible mengandung arti bahasa
XML dapat diperluas sendiri sehingga tag-tag
atau
kode-kode
di
dalamnya
dapat
didefinisikan sendiri. Markup berarti bahasa
ini berisi kode-kode instruksi yang harus
diterjemahkan oleh suatu aplikasi lain untuk
menjalankan
proses
eksekusi
yang
sesungguhnya (Siregar, 2003). Sebuah
dokumen XML adalah sebuah tree yang
terurut dan terlabeli. Setiap node dari tree
adalah sebuah elemen XML yang ditandai
dengan sebuah tag pembuka dan tag penutup.
Sebuah elemen dapat memiliki satu atau lebih
atribut (Manning et al., 2008).
XML retrieval merupakan metode sistem
temu-kembali menggunakan dokumen XML
yang berstruktur. Tujuan XML retrieval adalah
2
mengimplementasikan temu-kembali yang
berfokus
pada
strategi
pengembalian
komponen dokumen yaitu pada elemen XML
yang merupakan jawaban dari sebuah kueri.
Bahasa kueri pada XML retrieval dapat
direpresentasikan menjadi dua, yaitu content
and structure (CAS) queries dan content only
(CO) queries. (CAS) queries merupakan kata
kunci yang sifatnya berstruktur sehingga
informasi yang didapat lebih spesifik berupa
isi dan struktur dari dokumen XML,
sedangkan (CO) queries merupakan kata
kunci yang sifatnya tidak berstruktur yang
biasa dimasukkan dalam sistem temu-kembali
biasa (Lalmas, 2009).
SIMNOMERGE q ,d = ∑ ∑ CR c q ,c d ∑ weightq ,t , c q
cq ∈ B cd ∈ B
weight2 d , t ,c
Recall adalah perbandingan antara
dokumen relevan yang ditemukembalikan
∣Ra∣ dengan dokumen relevan yang ada
pada korpus ∣R∣ .
Recall=
∣Ra∣
∣R∣
Precision adalah perbandingan antara
dokumen relevan yang ditemukembalikan
∣Ra∣
dengan
dokumen
yang
∣A∣
ditemukembalikan
(Baeza-Yates &
Ribeiro-Neto, 1999).
Pembobotan tf-idf memberikan bobot pada
term t dalam dokumen d dengan nilai:
Precision=
tft,d ×idft
∣Ra∣
∣A∣
Average precision (AVP) adalah suatu
ukuran evaluasi kinerja temu-kembali yang
diperoleh dengan menghitung average
precision menggunakan eleven standard recall
yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9,
dan 1 (Baeza-Yates & Ribeiro-Neto, 1999).
N
, tft,d adalah frekuensi
df t
term t pada dokumen d, N adalah jumlah
dokumen dalam koleksi, dan dft adalah jumlah
dokumen yang mengandung term t.
dengan idft = log
Vector space model untuk XML Retrieval
dapat
ditentukan
dengan
menghitung
SIMNOMERGE
similarity
yang
nilai
kemiripannya dapat lebih besar dari 1. Dalam
SIMNOMERGE similarity, terdapat nilai
context resemblance yang merupakan ukuran
sederhana dari kemiripan setiap context query
dan context document (Manning et al., 2008)
yang dirumuskan sebagai berikut:
{
c ∈B, t∈ V
Recall dan Precision
Dalam temu-kembali vector space model,
dokumen dan kueri direpresentasikan sebagai
vektor (Ogilvie, 2010). Term frequency (tf)
merupakan frekuensi kemunculan suatu term t
pada dokumen d. Document frequency (df)
merupakan banyaknya dokumen dalam korpus
yang mengandung kata tertentu (Manning et
al., 2008).
1∣c q∣
jika cq cocok dengan c d
1∣cd∣
0 jika c q tidak cocok dengan cd
weight d, t , cd
∑
dengan V adalah himpunan kata yang unik, B
adalah kumpulan semua konteks XML, cq
adalah panjang konteks pada kueri, cd adalah
panjang konteks pada dokumen, weight(q,t,cq)
merupakan bobot term t pada konteks kueri,
weight(d,t,cd) adalah bobot term t pada
konteks
dokumen,
dan
2
adalah
normalisasi
∑c ∈ B, t ∈V weight d , t ,c
panjang dokumen.
Vector Space Model untuk XML Retrieval
CRcq ,c d =
t∈V
METODE PENELITIAN
Gambaran umum sistem penelitian yang
dikembangkan dapat dilihat pada Gambar 1.
}
dengan |cq| adalah banyaknya node pada kueri
dan |cd| adalah banyaknya node pada
dokumen.
Oleh
karena
itu,
SIMNOMERGE
similarity dapat dirumuskan sebagai berikut
(Manning et al., 2008):
Gambar 1 Diagram alur penelitian.
3
Tahap awal dari penelitian ini adalah
mengambil koleksi dokumen terstruktur XML
yang terdapat pada satu direktori, kemudian
dilakukan pembuangan kata-kata yang tidak
penting (stopwords) dan indexing terhadap
dokumen. Dari hasil pengindeksan, dilakukan
pembentukan inverted index dan terbentuk
pencarian dokumen dengan kueri yang
diberikan dapat dilakukan.
Evaluasi Sistem
Evaluasi dilakukan terhadap 30 dokumen
teratas untuk sistem pertanian, sedangkan
untuk sistem tanaman obat evaluasi dilakukan
terhadap 20 dokumen teratas untuk setiap hasil
temu-kembali sistem berdasarkan kueri yang
diberikan. Pengujian sistem dilakukan dengan
melakukan perhitungan terhadap recall dan
precision
dalam
menentukan
tingkat
keefektifan proses hasil temu-kembali. Dalam
perhitungan recall, digunakan eleven standard
recall yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7,
0.8, 0.9, dan 1. Perhitungan ini dilakukan
untuk masing-masing jenis kueri dengan
potongan tagging XML yang berbeda dari
sistem pertanian dan sistem tanaman obat .
Hasil perhitungan recall dan precision
untuk masing-masing pembobotan akan
dibandingkan dalam bentuk grafik recallprecision. Selain itu, juga akan dihitung nilai
average precision dari jenis kueri dengan
potongan tagging XML yang berbeda dari
sistem pertanian dan sistem tanaman obat
untuk memperoleh sistem yang lebih baik
dalam metode XML retrieval mengunakan
dokumen bahasa Indonesia.
Lingkungan Implementasi
Perangkat lunak yang digunakan untuk
penelitian, yaitu:
Microsoft Windows XP Professional
sebagai sistem operasi.
Apache di dalam XAMPP-win32-1.7.1
sebagai web server.
Notepad++ sebagai program editor.
Perangkat keras yang digunakan untuk
penelitian, yaitu:
Prosesor Intel Celeron 2.0 GHz.
RAM 2 GB.
Harddisk 80 GB.
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
Penelitian ini menggunakan 1000 dokumen
pertanian dan 93 dokumen tanaman obat.
Dokumen-dokumen
ini
berasal
dari
Laboratorium Temu Kembali, Departemen
Ilmu Komputer IPB. Deskripsi dari dokumen
ini dapat dilihat pada Tabel 1.
Tabel 1 Deskripsi koleksi dokumen
Uraian Dokumen Pertanian
Ukuran keseluruhan dokumen
Nilai (bytes)
4 104 253
Ukuran rata-rata dokumen
4 101
Ukuran dokumen terbesar
52 755
Ukuran dokumen terkecil
243
Uraian Dokumen Tanaman
Obat
Ukuran keseluruhan dokumen
Nilai (bytes)
302 977
Ukuran rata-rata dokumen
3 258
Ukuran dokumen terbesar
13 684
Ukuran dokumen terkecil
868
Dokumen-dokumen ini memiliki bentuk
XML yang seragam untuk setiap dokumen.
Format struktur XML dapat dilihat pada
Gambar 2 untuk dokumen pertanian dan
Gambar 3 untuk dokumen tanaman obat.
Dokumen pertanian dikelompokkan ke
dalam tag-tag berikut:
•
,
tag ini mewakili
keseluruhan dokumen dan melingkupi
tag-tag yang lebih spesifik.
•
MARYAM NOVIYANA BAHI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA
MARYAM NOVIYANA BAHI
Skripsi
sebagai salah satu syarat untuk memperoleh
gelar Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA
MARYAM NOVIYANA BAHI
Skripsi
sebagai salah satu syarat untuk memperoleh
gelar Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
ABSTRACT
MARYAM NOVIYANA BAHI. XML Retrieval for Document in Bahasa Indonesia. Under
direction of JULIO ADISANTOSO.
XML (eXtensible Markup Language) retrieval is the content based retrieval of documents
structured with XML and aims to implement focused retrieval strategies aiming at returning
document components, which is XML elements instead of whole documents in response to a user
query. Query languages for XML retrieval can be classified into content only (CO) and content and
structure (CAS) query languages. Content only queries usually used for information retrieval
where user does not know structure of a document but can get a specific answer from the query.
Whereas, for content and structure queries used for XML retrieval systems which aims to
answering user query on retrieve specific part of a document from content and structure XML
documents. In this research queries are use content and structure (CAS) character with XML query
additional fragments tagging of documents structured with XML. The purpose of this reasearch is
to implement XML retrieval for document in Bahasa Indonesia using XML query additional
fragments tagging with SIMNOMERGE similarity. The testing used 2 documents i.e. agricultural
document and medicinal plants document. For the testing agricultural documents used 30 queries
and 1000 documents. Whereas for medicinal plants documents used 13 queries and 93 documents.
The testing result showed that the perfomance of information search engine is better when we use
the medicinal plants documents than agricultural document. However, the performance of search
engine with XML query additional fragment tagging with content and disease in madicinal plants
document gave good result with around 0.8589 average precision and for XML query additional
fragment tagging with text in agricultural document gave result with around 0.6156 average
precision.
Keywords : content and structure, content only, SIMNOMERGE, XML retrieval.
Penguji :
1. Ahmad Ridha, S.Kom, MS
2.
Sony Hartono Wijaya, S.Kom, M.Kom
Judul Skripsi
Nama
NRP
: XML Retrieval untuk Dokumen Bahasa Indonesia
: Maryam Noviyana Bahi
: G64060199
Menyetujui:
Pembimbing,
Ir. Julio Adisantoso, M.Kom
NIP. 19620714 198601 1 002
Mengetahui:
Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si, M.Kom.
NIP. 19660702 199302 1 001
Tanggal Lulus:
RIWAYAT HIDUP
Penulis dilahirkan di Bogor pada tanggal 7 November 1988 dan merupakan anak pertama dari
dua bersaudara dengan ayah bernama Mastan Harun dan ibu bernama Cicilia Blae. Pada tahun
2006 penulis lulus dari Sekolah Menengah Atas (SMA) Negeri 8 Bogor dan diterima di Institut
Pertanian Bogor melalui jalur USMI (Undangan Seleksi Mahasiswa IPB). Pada tahun 2007 penulis
diterima di Departemen Ilmu Komputer IPB setelah mengikuti Tingkat Persiapan Bersama (TPB)
selama setahun di IPB.
PRAKATA
Alhamdulilahirobbil'alamin, segala puji syukur penulis panjatkan ke hadirat Allah subhanallah
wata'ala atas segala karunia-Nya sehingga tugas akhir ini berhasil diselesaikan. Topik tugas akhir
yang dipilih dalam penelitian ini adalah XML Retrieval untuk Dokumen Bahasa Indonesia.
Penulis sadar bahwa tugas akhir ini tidak akan terwujud tanpa bantuan dari berbagai pihak.
Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada :
1
Orang tua tercinta, adikku Muhammad Nasir Bahi serta segenap keluarga besar, terima kasih
atas doa dan dukungan yang tiada henti.
2
Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima Kasih atas
kesabaran dan dukungan dalam penyelesaian tugas akhir ini.
3
Bapak Ahmad Ridha, S.Kom, MS dan Bapak Sony Hartono Wijaya, S.Kom, M.Kom selaku
dosen penguji, Dr. Ir. Agus Buono, M.Si, M.Kom. selaku Kepala Departemen Ilmu Komputer
serta seluruh staf Departemen Ilmu Komputer FMIPA IPB.
4
Teman-teman satu bimbingan Ilkom 43 dan Ilkom 44 Yucan, Hendrex, Tina, Awet, Eka,
Wildan, Rio, Adit, Woro, Dhina, Devi, Agus, Nova, Isna, Fandi dan Nutri. Terima Kasih atas
semangat dan kebersamaannya selama penyelesaian tugas akhir ini.
5
Sahabat-sahabatku Uut, Mames, Iki, Syamsul Bachri, dan seluruh sahabatku di Ilkomerz 43.
Terima kasih atas motivasi dan kebersamaannya selama ini.
6
Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam
pelaksanaan tugas akhir.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan
dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap
adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi
kesempunaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.
Bogor, Maret 2012
Maryam Noviyana Bahi
DAFTAR ISI
Halaman
DAFTAR TABEL...............................................................................................................................v
DAFTAR GAMBAR..........................................................................................................................v
DAFTAR LAMPIRAN......................................................................................................................v
PENDAHULUAN
Latar Belakang...............................................................................................................................1
Tujuan.............................................................................................................................................1
Ruang Lingkup...............................................................................................................................1
TINJAUAN PUSTAKA
Information Retrieval (Temu-Kembali Informasi).........................................................................1
XML Retrieval................................................................................................................................1
Vector Space Model untuk XML Retrieval....................................................................................2
Recall dan Precision.......................................................................................................................2
METODE PENELITIAN
Evaluasi Sistem..............................................................................................................................3
Asumsi............................................................................................................................................3
Lingkungan Implementasi..............................................................................................................3
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian..........................................................................................................3
Pemrosesan Dokumen....................................................................................................................4
Pengindeksan..................................................................................................................................4
Pemrosesan Kueri...........................................................................................................................4
Hasil Temu Kembali.......................................................................................................................4
Pengujian Kinerja Sistem...............................................................................................................5
KESIMPULAN DAN SARAN
Kesimpulan.....................................................................................................................................7
Saran...............................................................................................................................................8
DAFTAR PUSTAKA.........................................................................................................................8
LAMPIRAN.......................................................................................................................................9
v
DAFTAR TABEL
1
2
3
Halaman
Deskripsi koleksi dokumen.........................................................................................................3
Hasil perhitungan average precision pada dokumen pertanian...................................................6
Hasil perhitungan average precision pada dokumen tanaman obat ...........................................7
DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
11
12
Halaman
Diagram alur penelitiaan..............................................................................................................2
Format dokumen dokumen pertanian...........................................................................................4
Format dokumen tanaman obat ...................................................................................................4
Contoh tree pada kueri.................................................................................................................4
Grafik R-P untuk tagging title......................................................................................................5
Grafik R-P untuk tagging text......................................................................................................5
Grafik R-P untuk tagging title and text .......................................................................................5
Grafik R-P untuk dokumen pertanian .........................................................................................6
Grafik R-P untuk tagging penyakit..............................................................................................6
Grafik R-P untuk tagging content................................................................................................6
Grafik R-P untuk tagging content dan penyakit...........................................................................7
Grafik R-P untuk dokumen tanaman obat ...................................................................................7
DAFTAR LAMPIRAN
1
2
3
4
5
6
Halaman
Antarmuka implementasi sistem pertanian................................................................................10
Antarmuka implementasi sistem tanaman obat.........................................................................11
Daftar kueri dan jumlah dokumen relevan pada sistem pertanian............................................12
Daftar kueri dan jumlah dokumen relevan pada sistem tanaman obat......................................13
Hasil perhitungan precision pada elevent standard recall untuk sistem pertanian...................14
Hasil perhitungan precision pada elevent standard recall untuk sistem tanaman obat.............15
vi
1
PENDAHULUAN
sehingga dokumen dihasilkan lebih spesifik
dari sebuah jawaban kueri yang diberikan.
Latar Belakang
Tujuan
Pada saat ini, informasi dapat diperoleh
secara cepat dan mudah dengan menggunakan
metode temu-kembali informasi. Sistem temukembali mendapatkan informasi dengan
menggunakan kueri tertentu. Dengan kueri
tersebut, sistem akan melakukan proses temukembali sehingga menemukan informasi atau
dokumen yang dicari sesuai urutan
relevansinya.
Tujuan
dari
penelitian
ini
ialah
mengimplementasikan XML retrieval pada
dokumen bahasa Indonesia.
Dalam sistem temu kembali informasi, data
semi terstruktur dapat direpresentasikan
menjadi dua bagian, yaitu sistem temukembali informasi biasa dan sistem XML
retrieval. Sistem temu kembali informasi biasa
membandingkan semua kumpulan dari term
yang ada berupa gambar, kata-kata, ciri-ciri,
dan lain-lain, sedangkan sistem XML retrieval
membandingkan kata yang digambarkan
dengan suatu struktur sehingga lebih fleksibel
(Manning et al. 2008).
Permasalahan di XML retrieval adalah
pengguna ingin mengembalikan bagian dari
dokumen pada elemen XML bukan dokumen
secara keseluruhan dan membedakan konteks
yang berbeda dari setiap term dalam
pemeringkatan (Manning et al., 2008).
Immaneni dan Thirunarayan (1999)
melakukan penelitian terhadap bahasa kueri
yang fleksibel dan mengembangkan semantik
intuitif dengan ekstraksi dari potonganpotongan dokumen XML yang relevan.
Carmel et al. (2002) menambahkan vector
space model untuk menemukan dokumen
XML dengan menggunakan kueri pada
potongan tagging XML dan menghasilkan
peringkat sesuai relevansi yang terurut. Fuhr
dan Gövert (2002) menggunakan content and
structure (CAS) queries dan content only
(CO) queries serta dianalisis menggunakan
recall dan precision. Lalmas (2009) telah
melakukan pendekatan terhadap kueri pada
potongan
tagging
XML
dan
merepresentasikan hasil peringkat dokumen
XML yang terurut secara relevan.
Penelitian yang telah dilakukan dengan
menggunakan metode XML retrieval baru
diterapkan menggunakan koleksi bahasa
Inggris. Untuk itu, penelitian kali ini akan
menerapkan
metode
XML
retrieval
menggunakan koleksi dokumen bahasa
Indonesia dengan menggunakan kueri XML
dengan potongan tagging dari dokumen
Ruang Lingkup
Ruang lingkup penelitian ini ialah
menggunakan korpus berupa dokumen bahasa
Indonesia dengan menggunakan struktur tag
XML yang sama untuk setiap dokumen.
TINJAUAN PUSTAKA
Information
Infomasi)
Retrieval
(Temu
Kembali
Temu-kembali informasi berkaitan dengan
cara
merepresentasikan,
menyimpan,
mengorganisasikan, dan mengakses informasi.
Merepresentasikan dan mengorganisasikan
suatu informasi harus membuat pengguna
lebih mudah dalam mengakses informasi yang
diinginkannya. Akan tetapi, mengetahui
informasi yang diinginkan pengguna bukan
merupakan suatu hal yang mudah. Untuk itu,
pengguna
harus
mentransformasikan
informasi yang dibutuhkan ke dalam suatu
kueri yang akan diproses oleh mesin pencari
sehingga
kueri
tersebut
akan
merepresentasikan informasi yang dibutuhkan
oleh pengguna. Dengan kueri tersebut, sistem
akan menemukembalikan informasi yang
relevan dengan kueri (Baeza-Yates & RibeiroNeto, 1999).
XML Retrieval
XML singkatan dari Extensible Markup
Language. Extensible mengandung arti bahasa
XML dapat diperluas sendiri sehingga tag-tag
atau
kode-kode
di
dalamnya
dapat
didefinisikan sendiri. Markup berarti bahasa
ini berisi kode-kode instruksi yang harus
diterjemahkan oleh suatu aplikasi lain untuk
menjalankan
proses
eksekusi
yang
sesungguhnya (Siregar, 2003). Sebuah
dokumen XML adalah sebuah tree yang
terurut dan terlabeli. Setiap node dari tree
adalah sebuah elemen XML yang ditandai
dengan sebuah tag pembuka dan tag penutup.
Sebuah elemen dapat memiliki satu atau lebih
atribut (Manning et al., 2008).
XML retrieval merupakan metode sistem
temu-kembali menggunakan dokumen XML
yang berstruktur. Tujuan XML retrieval adalah
2
mengimplementasikan temu-kembali yang
berfokus
pada
strategi
pengembalian
komponen dokumen yaitu pada elemen XML
yang merupakan jawaban dari sebuah kueri.
Bahasa kueri pada XML retrieval dapat
direpresentasikan menjadi dua, yaitu content
and structure (CAS) queries dan content only
(CO) queries. (CAS) queries merupakan kata
kunci yang sifatnya berstruktur sehingga
informasi yang didapat lebih spesifik berupa
isi dan struktur dari dokumen XML,
sedangkan (CO) queries merupakan kata
kunci yang sifatnya tidak berstruktur yang
biasa dimasukkan dalam sistem temu-kembali
biasa (Lalmas, 2009).
SIMNOMERGE q ,d = ∑ ∑ CR c q ,c d ∑ weightq ,t , c q
cq ∈ B cd ∈ B
weight2 d , t ,c
Recall adalah perbandingan antara
dokumen relevan yang ditemukembalikan
∣Ra∣ dengan dokumen relevan yang ada
pada korpus ∣R∣ .
Recall=
∣Ra∣
∣R∣
Precision adalah perbandingan antara
dokumen relevan yang ditemukembalikan
∣Ra∣
dengan
dokumen
yang
∣A∣
ditemukembalikan
(Baeza-Yates &
Ribeiro-Neto, 1999).
Pembobotan tf-idf memberikan bobot pada
term t dalam dokumen d dengan nilai:
Precision=
tft,d ×idft
∣Ra∣
∣A∣
Average precision (AVP) adalah suatu
ukuran evaluasi kinerja temu-kembali yang
diperoleh dengan menghitung average
precision menggunakan eleven standard recall
yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9,
dan 1 (Baeza-Yates & Ribeiro-Neto, 1999).
N
, tft,d adalah frekuensi
df t
term t pada dokumen d, N adalah jumlah
dokumen dalam koleksi, dan dft adalah jumlah
dokumen yang mengandung term t.
dengan idft = log
Vector space model untuk XML Retrieval
dapat
ditentukan
dengan
menghitung
SIMNOMERGE
similarity
yang
nilai
kemiripannya dapat lebih besar dari 1. Dalam
SIMNOMERGE similarity, terdapat nilai
context resemblance yang merupakan ukuran
sederhana dari kemiripan setiap context query
dan context document (Manning et al., 2008)
yang dirumuskan sebagai berikut:
{
c ∈B, t∈ V
Recall dan Precision
Dalam temu-kembali vector space model,
dokumen dan kueri direpresentasikan sebagai
vektor (Ogilvie, 2010). Term frequency (tf)
merupakan frekuensi kemunculan suatu term t
pada dokumen d. Document frequency (df)
merupakan banyaknya dokumen dalam korpus
yang mengandung kata tertentu (Manning et
al., 2008).
1∣c q∣
jika cq cocok dengan c d
1∣cd∣
0 jika c q tidak cocok dengan cd
weight d, t , cd
∑
dengan V adalah himpunan kata yang unik, B
adalah kumpulan semua konteks XML, cq
adalah panjang konteks pada kueri, cd adalah
panjang konteks pada dokumen, weight(q,t,cq)
merupakan bobot term t pada konteks kueri,
weight(d,t,cd) adalah bobot term t pada
konteks
dokumen,
dan
2
adalah
normalisasi
∑c ∈ B, t ∈V weight d , t ,c
panjang dokumen.
Vector Space Model untuk XML Retrieval
CRcq ,c d =
t∈V
METODE PENELITIAN
Gambaran umum sistem penelitian yang
dikembangkan dapat dilihat pada Gambar 1.
}
dengan |cq| adalah banyaknya node pada kueri
dan |cd| adalah banyaknya node pada
dokumen.
Oleh
karena
itu,
SIMNOMERGE
similarity dapat dirumuskan sebagai berikut
(Manning et al., 2008):
Gambar 1 Diagram alur penelitian.
3
Tahap awal dari penelitian ini adalah
mengambil koleksi dokumen terstruktur XML
yang terdapat pada satu direktori, kemudian
dilakukan pembuangan kata-kata yang tidak
penting (stopwords) dan indexing terhadap
dokumen. Dari hasil pengindeksan, dilakukan
pembentukan inverted index dan terbentuk
pencarian dokumen dengan kueri yang
diberikan dapat dilakukan.
Evaluasi Sistem
Evaluasi dilakukan terhadap 30 dokumen
teratas untuk sistem pertanian, sedangkan
untuk sistem tanaman obat evaluasi dilakukan
terhadap 20 dokumen teratas untuk setiap hasil
temu-kembali sistem berdasarkan kueri yang
diberikan. Pengujian sistem dilakukan dengan
melakukan perhitungan terhadap recall dan
precision
dalam
menentukan
tingkat
keefektifan proses hasil temu-kembali. Dalam
perhitungan recall, digunakan eleven standard
recall yaitu 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7,
0.8, 0.9, dan 1. Perhitungan ini dilakukan
untuk masing-masing jenis kueri dengan
potongan tagging XML yang berbeda dari
sistem pertanian dan sistem tanaman obat .
Hasil perhitungan recall dan precision
untuk masing-masing pembobotan akan
dibandingkan dalam bentuk grafik recallprecision. Selain itu, juga akan dihitung nilai
average precision dari jenis kueri dengan
potongan tagging XML yang berbeda dari
sistem pertanian dan sistem tanaman obat
untuk memperoleh sistem yang lebih baik
dalam metode XML retrieval mengunakan
dokumen bahasa Indonesia.
Lingkungan Implementasi
Perangkat lunak yang digunakan untuk
penelitian, yaitu:
Microsoft Windows XP Professional
sebagai sistem operasi.
Apache di dalam XAMPP-win32-1.7.1
sebagai web server.
Notepad++ sebagai program editor.
Perangkat keras yang digunakan untuk
penelitian, yaitu:
Prosesor Intel Celeron 2.0 GHz.
RAM 2 GB.
Harddisk 80 GB.
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
Penelitian ini menggunakan 1000 dokumen
pertanian dan 93 dokumen tanaman obat.
Dokumen-dokumen
ini
berasal
dari
Laboratorium Temu Kembali, Departemen
Ilmu Komputer IPB. Deskripsi dari dokumen
ini dapat dilihat pada Tabel 1.
Tabel 1 Deskripsi koleksi dokumen
Uraian Dokumen Pertanian
Ukuran keseluruhan dokumen
Nilai (bytes)
4 104 253
Ukuran rata-rata dokumen
4 101
Ukuran dokumen terbesar
52 755
Ukuran dokumen terkecil
243
Uraian Dokumen Tanaman
Obat
Ukuran keseluruhan dokumen
Nilai (bytes)
302 977
Ukuran rata-rata dokumen
3 258
Ukuran dokumen terbesar
13 684
Ukuran dokumen terkecil
868
Dokumen-dokumen ini memiliki bentuk
XML yang seragam untuk setiap dokumen.
Format struktur XML dapat dilihat pada
Gambar 2 untuk dokumen pertanian dan
Gambar 3 untuk dokumen tanaman obat.
Dokumen pertanian dikelompokkan ke
dalam tag-tag berikut:
•
,
tag ini mewakili
keseluruhan dokumen dan melingkupi
tag-tag yang lebih spesifik.
•