Penelusuran dan Visualisasi Pencarian Rujukan pada Dokumen Penelitian

PENELUSURAN DAN VISUALISASI
PENCARIAN RUJUKAN PADA
DOKUMEN PENELITIAN

FIRNAS NADIRMAN

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa tesis berjudul Penelusuran dan
Visualisasi Pencarian Rujukan pada Dokumen Penelitian adalah karya saya
dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa
pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau
dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain
telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian
akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada

Institut Pertanian Bogor.

Bogor, Juni 2014

Firnas Nadirman
NIM G651100394

RINGKASAN
FIRNAS NADIRMAN. Penelusuran dan Visualisasi Pencarian Rujukan pada
Dokumen Penelitian. Dibimbing oleh AHMAD RIDHA dan WISNU ANANTA
KUSUMA.
Daftar pustaka adalah bagian penting dari dokumen penelitian. Daftar
pustaka berisi daftar dokumen yang diacu dalam dokumen. Daftar ini berguna
bagi pembaca, biasanya sesama ilmuwan, untuk mencari dokumen-dokumen
terkait dan mengetahui penelitian ilmuwan lain pada sebuah bidang ilmu.
Dokumen penting pada sebuah bidang ilmu tertentu akan lebih sering diacu oleh
dokumen lain, maka sangat penting untuk menelusuri dan mendapatkan jumlah
dokumen yang menggunakan sebuah rujukan sebagai acuan.
Penelitian ini dimaksudkan untuk membuat sebuah modul yang dapat
menelusuri acuan pada daftar pustaka dan menggambarkan hubungan antarpengarang untuk mempermudah penelusuran dokumen penelitian. Modul yang

dibuat merupakan bagian dari sistem temu kembali dokumen penelitian. Hasil dari
pembuatan modul ini, selain dapat menelusuri entri daftar pustaka pada dokumen
penelitian juga dapat menampilkan visualisasi grafik hubungan antar-pengarang
yang bertujuan untuk mempermudah mencari hubungan antara dokumen hasil
penelitian dan dokumen yang digunakan sebagai rujukan.
Penelitian dimulai dengan pengumpulan dokumen penelitian dalam bentuk
file PDF sebanyak 246 dari Departemen Ilmu Komputer IPB. Setiap dokumen
penelitian dalam bentuk file PDF dikonversi menjadi teks dan disimpan pada basis
data dokumen penelitian. Setelah itu, teks dokumen penelitian diekstrak dan
diidentifikasi entri daftar pustakanya. Hasil ekstraksi entri daftar pustaka disimpan
pada basis data lalu digunakan untuk membangun sistem temu kembali dokumen
penelitian
Pengembangan sistem pada penelitian ini menggunakan beberapa modul.
Modul pdftotext digunakan untuk melakukan konversi file PDF menjadi teks.
Proses ekstraksi dan identifikasi entri daftar pustaka menggunakan modul
ParaTools. Sphinx digunakan untuk membuat sistem temu kembali informasi.
Pada penelitian ini juga dibuat visualisasi hasil pencarian berbasis web serta
visualisasi hubungan antar-pengarang menggunakan Javascript Infovis Toolkit.
Sistem yang dikembangkan pada penelitian ini sudah dapat melakukan
ekstrak dan identifikasi entri daftar pustaka dengan cukup baik. Hal ini dapat

dilihat pada pengujian ekstraksi dan identifikasi atribut entri daftar pustaka, yang
menghasilkan 94.63% entri daftar pustaka yang tepat, dan 91.54% entri daftar
pustaka dapat diidentifikasi atributnya dengan tepat. Selain pengujian ekstraksi
dan identifikasi atribut entri daftar pustaka juga dilakukan pengujian untuk
mengukur keberhasilan sistem dalam menghubungkan entri daftar pustaka dengan
dokumen. Pengujian ini menghasilkan sebanyak 90.31% entri daftar pustaka
berhasil dihubungkan secara tepat dengan dokumen.
Kata kunci: ekstraksi entri daftar pustaka, ParaTools, pencarian dokumen
penelitian, visualisasi hubungan pengarang

SUMMARY
FIRNAS NADIRMAN. Search and Visualization of References in Research
Documents. Supervised by AHMAD RIDHA and WISNU ANANTA KUSUMA.
Bibliography is an important part of a research document as it lists
references cited in the document. The list is useful for readers, usually fellow
scientists, to locate other related documents and to know other scientists working
on the topic. An important document in a field would be more likely to be cited,
so it is also desirable to know the number of citations that a document has.
This study aims to create a module that can extract references from the
bibliography entries of research documents. A method is created to recognize the

bibliography entries from the research documents. Once identified, the
bibliography entries are stored into a database. The database is used to build an
information retrieval system for searching research documents along with their
references and to visualize the relationship between the authors.
This study began with collecting 246 research documents as PDF files.
Each file was converted into plaintext file and stored in a research document
database. The text was extracted and identified to get the bibliography entries. The
bibliography entries were stored into the database. The database was used to build
an information retrieval system of research documents. A visualization module
was created to display the relationships between the authors of the documents
from bibliographic entries in the database.
The development of the system in this study are using multiple modules.
Pdftotext module is used for converting PDF files into text. The process of
extraction and identification bibliographic entry is using a ParaTools module.
Sphinx is used to make the information retrieval system. In this study also created
a web-based visualization of search results as well as the visualization of
relationships between author uses Javascript Infovis Toolkit.
The system developed in this study has been able to extract and
identification of a bibliography entry. In the measurement of extraction and
attributes identification of the bibliography entries, 94.63% of bibliography

entries are extracted accurately and 91.54% of the attributes of bibliography
entries can be identified accurately. In addition to the measurement of extraction
and attributes identification of the bibliography entries, assessment to measure the
success of relating the bibliography entries to the documents through the system is
also conducted. It indicates that 90.31% of the bibliography entries are
successfully and accurately connected with the documents.
Keywords: author relationship visualization, bibliography entries extraction,
ParaTools, research documents search

© Hak Cipta milik IPB, tahun 2014
Hak Cipta dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
yang wajar bagi IPB.
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh Karya tulis
dalam bentuk apa pun tanpa izin IPB.

PENELUSURAN DAN VISUALISASI

PENCARIAN RUJUKAN PADA
DOKUMEN PENELITIAN

FIRNAS NADIRMAN

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Komputer
pada
Program Studi Ilmu Komputer

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014

Penguji Luar Komisi pada Ujian Tesis: Dr Irman Hermadi, SKom MS

Judul Tesis
Nama

NIM

: Penelusuran dan Visualisasi Pencarian Rujukan pada Dokumen
Penelitian
: Firnas Nadirman
: G651100394

Disetujui oleh
Komisi Pembimbing

Ahmad Ridha, SKom MS
Ketua

Dr Eng Wisnu Ananta Kusuma, ST MT
Anggota

Diketahui oleh

Ketua Program Studi
Ilmu Komputer


Dekan Sekolah Pascasarjana

Dr Eng Wisnu Ananta Kusuma, ST MT

Dr Ir Dahrul Syah, MScAgr

Tanggal Ujian : 3 Mei 2014

Tanggal Lulus :

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah Subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Penelitian ini
disusun sebagai salah satu syarat meraih gelar master pada Program Studi
Magister Ilmu Komputer, Sekolah Pascasarjana, Institut Pertanian Bogor. Tema
yang dipilih dalam penelitian ini ialah Temu Kembali Informasi, dengan judul
Penelusuran dan Visualisasi Pencarian Rujukan pada Dokumen Penelitian.
Penulis mengucapkan terima kasih kepada Bapak Ahmad Ridha, SKom
MS selaku ketua komisi pembimbing yang telah memberikan segenap bantuan

dan bimbingan kepada penulis selama proses penelitian dan penyusunan
penelitian ini, serta Bapak Dr Eng Wisnu Ananta Kusuma, ST MT selaku anggota
komisi pembimbing yang telah memberikan saran, koreksi dan masukan kepada
penulis. Terima kasih pula penulis ucapkan kepada Bapak Dr Irman Hermadi,
SKom MS selaku penguji. Tak lupa penulis mengucapkan banyak terima kasih
kepada kepada Ibu Annisa, SKom MKom yang pernah turut membimbing,
memberikan masukan serta saran pada penelitian ini. Penulis juga mengucapkan
terima kasih kepada teman-teman Pascasarjana Magister Ilmu Komputer, staf dan
dosen Ilmu Komputer IPB atas pertemanan dan bantuannya selama penulis
mengikuti perkuliahan.
Penulis juga mengucapkan terima kasih kepada orang tua beserta keluarga
yang telah memberikan dukungan moril dan doanya. Terkhusus terima kasih
penulis sampaikan kepada istri tercinta Wida Lesmanawati dan anak-anakku
tersayang (Reina dan Najib). Penulis juga mengucapkan terima kasih kepada
Badan Pengkajian dan Penerapan Teknologi (BPPT) yang sudah memberikan
kesempatan kepada penulis untuk melaksanakan pendidikan di IPB. Akhirnya
kepada semua pihak yang telah memberikan kontribusi yang besar selama
perkuliahan dan pengerjaan penelitian ini yang tidak dapat disebutkan satu per
satu, penulis ucapkan terima kasih.
Semoga penelitian ini dapat memberikan manfaat sebesar-besarnya.


Bogor, Juni 2014

Firnas Nadirman

DAFTAR ISI
DAFTAR TABEL

vii 

DAFTAR GAMBAR

vii 

DAFTAR LAMPIRAN

viii 

1  PENDAHULUAN
Latar Belakang

Tujuan Penelitian
Manfaat Penelitian
Ruang Lingkup Penelitian







2  TINJAUAN PUSTAKA
Temu Kembali Informasi
Sistem Temu Kembali Dokumen Penelitian
Visualisasi Informasi
Rujukan
Perancangan Basis Data
Penelitian Sebelumnya
Metode Pengukuran Sistem Temu Kembali Informasi
Sistem Temu Kembali Informasi Dokumen Penelitian yang Telah Ada











3  METODOLOGI PENELITIAN
Kerangka Pemikiran
Pengumpulan dan Pembuatan Basis Data Dokumen Penelitian
Ekstraksi dan Identifikasi Atribut Entri Daftar Pustaka
Pembangunan Sistem Temu Kembali Dokumen Penelitian
Pembuatan Visualiasasi Hubungan Antar-Pengarang
Pengujian Sistem
Pengukuran Kinerja Ekstraksi dan Identifikasi Atribut Entri Daftar
Pustaka pada Setiap Dokumen Penelitian
Pengukuran Kinerja Hubungan Entri Daftar Pustaka dengan Dokumen



10 
11 
11 
12 
13 

4  HASIL DAN PEMBAHASAN
Pengumpulan Data
Karakteristik Dokumen Skripsi
Format Entri Daftar Pustaka
Perancangan Basis Data Dokumen Penelitian
Pengolahan Data
Pengubahan File Dokumen Skripsi dalam Bentuk PDF Menjadi Teks
Ekstraksi Entri Daftar Pustaka
Identifikasi Atribut Entri Daftar Pustaka
Penyimpanan Entri Daftar Pustaka ke Basis Data
Modul Entri Data

15 
15 
15 
16 
16 
19 
20 
20 
22 
25 
27 

13 
14 

Modul Identifikasi Kesamaan Nama pengarang
Mesin Temu Kembali
Pencarian pada Sistem Temu Kembali Informasi Dokumen Penelitian
Visualisasi Hasil Pencarian
Pengujian
Waktu Proses Entri Dokumen Skripsi
Kesalahan pada Hasil Konversi File PDF
Kesalahan pada Hasil Identifikasi Atribut Entri Daftar Pustaka
Pengujian Ekstraksi Entri Daftar Pustaka
Pengujian Identifikasi Atribut Entri Daftar Pustaka
Pengujian Hubungan Entri Daftar Pustaka dengan Dokumen

29 
29 
30 
31 
31 
32 
32 
33 
36 
36 
37 

5  KESIMPULAN DAN SARAN
Kesimpulan
Saran

38 
38 
39 

Daftar Pustaka

39 

DAFTAR TABEL
1
2
3
4
5
6

Kolom umum dan spesifik entri daftar pustaka
Kata-kata identifikasi entri daftar pustaka yang digunakan
Tabel penyimpanan kolom spesifik dari entri daftar pustaka
Kondisi entri daftar pustaka1 dan entri daftar pustaka2 yang dianggap
sama
Proses pengujian ekstraksi entri daftar pustaka
Proses pengujian identifikasi atribut entri daftar pustaka

24
24
26
26
36
37

DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

Contoh tampilan BIRS (Ding et al. 2000).
Framework DBL Browser (Klink et al. 2004).
Sebuah visualisasi pengarang untuk peraih Nobel Herbert Simon,
ditampilkan dalam format Kohonen (Lin et al. 2003)
Pengarang bersama (kiri) dan pengarang bersama yang telah menulis
setidaknya 2 dokumen (kanan) (Murray et al. 2006)
Google Scholar Citations
Ilustrasi Micorosoft Academic Search
Metodologi penelitian
Pembuatan basis data dokumen penelitian
Arsitektur sistem temu kembali informasi dokumen penelitian
Model proses sistem temu kembali informasi dokumen penelitian
Visualisasi dokumen penelitian
Entri daftar pustaka pada dokumen skripsi
Perancangan konseptual basis data dokumen penelitian
Supertype dan subtype pada dokumen
Supertype dan subtype pada pengarang
Perancangan logikal basis data dokumen penelitian
Perancangan fisik basis data dokumen penelitian
Konsep pengubahan file PDF menjadi format raw text
Hasil pengubahan file PDF menjadi teks dengan format raw text
Tahapan esktrak entri daftar pustaka
Kolom entri daftar pustaka
Form modul entri data dokumen skripsi
Penyimpanan dokumen skripsi ke dalam basis data
Hasil pengolahan entri daftar pustaka dari dokumen skripsi
Proses pembuatan indeks dengan Sphinx
Antarmuka pencarian
Halaman hasil pencarian
Visualisasi hasil pencarian
Hasil konversi file PDF diubah menjadi teks yang bercampur (ditandai)
dengan kumpulan entri daftar pustaka







10 
11 
12 
12 
13 
16 
17 
18 
18 
19 
19 
21 
21 
23 
23 
27 
28 
28 
30 
30 
31 
32 
33 

DAFTAR LAMPIRAN
1
2
3
4

Contoh text layout pengubahan file PDF
Proses membandingkan posisi entri daftar pustaka
Format metadata entri daftar pustaka
Model kalimat daftar pustaka yang digunakan untuk mengidentifikasi
atribut entri daftar pustaka
5 Hasil dari proses identifikasi atribut entri daftar pustaka
6 Penyimpanan dokumen skripsi ke basis data
7 Proses identifikasi kesamaan nama pengarang
8 Stop words bahasa Indonesia
9 Stop words bahasa Inggris
10 Hasil recall dan precision pada pengujian ekstraksi entri daftar pustaka
di semua dokuman
11 Hasil recall dan precision pada pengujian identifikasi atribut entri
daftar pustaka di semua dokuman
12 Hasil pengujian hubungan dokumen dalam koleksi dengan entri daftar
pustaka

41
42
44
45
52
53
54
55
58
61
68
75

1 PENDAHULUAN
Latar Belakang
Daftar pustaka adalah bagian penting dari dokumen penelitian. Daftar pustaka
berisi daftar dokumen yang diacu dalam dokumen. Daftar ini berguna bagi
pembaca, biasanya sesama ilmuwan, untuk mencari dokumen-dokumen terkait
dan mengetahui penelitian ilmuwan lain pada sebuah bidang ilmu. Dokumen
penting pada sebuah bidang ilmu tertentu akan lebih sering diacu oleh dokumen
lain, maka sangat penting untuk menelusuri dan mendapatkan jumlah dokumen
yang menggunakan sebuah rujukan sebagai acuan.
Penelusuran dokumen hasil penelitian merupakan kegiatan penting bagi
peneliti dan ilmuwan. Pada bidang temu kembali informasi, penelusuran dokumen
hasil penelitian dianggap sebagai domain tersendiri karena dokumen penelitian
berbeda fomatnya dengan jenis dokumen lain (Ding et al. 2001). Metode khusus
diperlukan untuk mengekstrak isi dari dokumen penelitian agar informasi yang
diinginkan dapat diperoleh.
Dokumen penelitian acapkali memiliki pengacuan ke dokumen penelitian lain.
Bagi seorang peneliti atau ilmuwan, pengacuan merupakan informasi yang
bermanfaat karena yang diacu adalah rujukan yang digunakan oleh dokumen
penelitian. Pada saat melakukan penelitian, mencari rujukan yang terkait dengan
sebuah dokumen penelitian dapat menjadi tugas yang sulit.
Untuk mencari rujukan yang relevan dengan sebuah dokumen penelitian, para
peneliti atau ilmuwan harus membaca pada bagian daftar pustaka dari dokumen
penelitian tersebut. Selanjutnya bila peneliti atau ilmuwan menemukan rujukan
yang dibutuhkannya, pencarian dilanjutkan pada dokumen yang didapat dari
daftar pustaka. Apabila sebuah dokumen rujukan memiliki isi yang bermanfaat,
dokumen rujukan tersebut disimpan, lalu pencarian dilanjutkan untuk
mendapatkan dokumen rujukan lainnya dan begitu seterusnya. Sebuah rujukan
bisa dianggap sangat bermanfaat ketika dijadikan rujukan oleh banyak dokumen
penelitian. Selain itu, bermanfaatnya sebuah dokumen rujukan juga disebabkan
karena faktor pengarang. Dokumen rujukan yang ditulis oleh seseorang yang ahli
pada tema (bidang) tertentu banyak digunakan oleh dokumen lainnya sebagai
acuan pada bidang tersebut.
Saat ini sudah dikembangkan sistem yang dapat menelusuri rujukan dari
dokumen penelitian. Salah satu dari sistem tersebut juga sudah dapat menerima
masukan berupa dokumen penelitian dari pengguna dan mengekstrak rujukan
secara otomatis untuk ditelusuri. Akan tetapi, sistem yang sudah ada saat ini
masih belum dapat mengekstrak rujukan dari dokumen penelitian yang memiliki
format tertentu, seperti format dokumen penelitian yang digunakan di Institut
Pertanian Bogor.
Penelitian ini dimaksudkan untuk membuat sebuah modul yang dapat
menelusuri acuan pada daftar pustaka dan menggambarkan hubungan antarpengarang untuk mempermudah penelusuran dokumen penelitian. Modul yang
dibuat merupakan bagian dari sistem temu kembali dokumen penelitian. Hasil dari
pembuatan modul ini, selain dapat menelusuri entri daftar pustaka pada dokumen
penelitian juga dapat menampilkan visualisasi grafik hubungan antar-pengarang

2

yang bertujuan untuk mempermudah mencari hubungan antara dokumen hasil
penelitian dan dokumen yang digunakan sebagai rujukan. Anegón et al. (2004)
menyebutkan bahwa representasi dari informasi dalam bentuk grafik dapat dengan
mudah direkam oleh otak manusia dibandingkan dengan representasi dalam
bentuk teks. Dari hal itu, penelitian ini juga akan membuat grafik hubungan
pengarang agar dapat memvisualisasikan hubungan antar-pengarang untuk
membantu pencarian dokumen penelitian.
Tujuan Penelitian
Penelitian ini bertujuan untuk membuat sebuah modul di dalam sistem temu
kembali dokumen penelitian yang dapat mengidentifikasi entri daftar pustaka dan
mengekstraknya secara otomatis. Penelitian ini juga mengembangkan modul
untuk menampilkan visualisasi dalam bentuk grafik yang berisi hubungan antara
pengarang sebuah dokumen penelitian dan pengarang dokumen lainnya
berdasarkan entri daftar pustaka.
Manfaat Penelitian
Penelitian ini menerapkan metode untuk mengenali entri daftar pustaka yang
terdapat pada sebuah dokumen penelitian. Setelah dikenali, entri daftar pustaka
tersebut disimpan ke dalam basis data. Entri daftar pustaka yang berhasil dikenali,
selanjutnya divisualisasikan dalam bentuk grafik untuk menghubungkan antara
pengarang dan pengarang lainnya. Hasil dari grafik hubungan pengarang dapat
digunakan untuk mempermudah penelusuran dokumen lainnya yang memiliki
kesamaan pada tema.
Ruang Lingkup Penelitian
Penelitian ini akan mengembangkan sebuah modul pada sistem temu kembali
informasi dokumen penelitian yang memiliki batasan atau ruang lingkup yang
harus dikerjakan dengan cakupan sebagai berikut:
• Dokumen yang digunakan sebagai input berbentuk file PDF. Sistem tidak
dapat memproses dokumen dalam bentuk citra.
• Dokumen yang digunakan adalah dokumen skripsi Departemen Ilmu
Komputer IPB 5 tahun terakhir (2007 s.d 2012).
• Penelusuran rujukan hanya dibatasi pada bagian Daftar Pustaka setiap
dokumen skripsi.
• Format daftar pustaka yang digunakan pada penelitian ini mengikuti format
yang digunakan pada Pedoman Penulisan Karya Ilmiah di Institut Pertanian
Bogor edisi ke 1, 2, dan 3.
• Hasil pencarian ditampilkan dalam bentuk daftar dan visualisasi hubungan
antar-pengarang dokumen penelitian dengan pengarang pada dokumen
rujukannya dalam bentuk grafik.

3

2 TINJAUAN PUSTAKA
Temu Kembali Informasi
Temu kembali informasi adalah menemukan bahan (dokumen) yang bersifat
tidak terstruktur yang memenuhi kebutuhan informasi dari koleksi yang besar.
Pada awalnya, temu kembali informasi merupakan kegiatan yang dilakukan
beberapa orang yang hanya bergerak di bidang pustakawan. Pada saat ini ratusan
juta orang terlibat dalam pengambilan informasi setiap hari menggunakan mesin
pencari melalui internet. Temu kembali informasi menjadi bentuk dominan dari
akses informasi, meninggalkan pencarian secara tradisional pada bidang pencarian
informasi (Manning et al. 2008).
Sistem temu kembali informasi merupakan sistem yang dapat menyimpan,
mencari dan mengelola informasi. Informasi yang dimaksud dapat merupakan
teks, gambar, audio, video, dan objek multimedia lainnya. Tujuan utama sebuah
sistem temu kembali informasi adalah menemukembalikan informasi yang
mungkin berguna atau relevan bagi pengguna sesuai dengan kata pencarian yang
telah dimasukkannya, penekanannya adalah pada penemukembalian informasi,
bukan data (Baeza-Yates dan Ribeiro-Neto 2011). Sebuah sistem temu kembali
informasi adalah sebuah program perangkat lunak yang memfasilitasi pengguna
dalam mencari informasi sesuai dengan kebutuhan pengguna. Tujuan sebuah
sistem temu kembali informasi adalah meminimalkan overhead dari pengguna
dalam mencari informasi yang dibutuhkan (Kowalski 1997).
Sistem Temu Kembali Dokumen Penelitian
Sistem temu kembali dokumen penelitian dirancang untuk membantu
pengguna merumuskan dan memperluas permintaan untuk mencari informasi
pada sejumlah media mulai dari basis data perpustakaan dan World Wide Web
(WWW). Antarmuka sistem telah dirancang dan dibuat dengan fasilitas untuk
membantu pengguna mendapatkan pemahaman, merumuskan, dan memperluas
permintaan pencarian serta memvisualisasikan dokumen penelitian. Sebuah
evaluasi terdahulu pada pengguna sistem temu kembali dokumen penelitian
mengungkapkan bahwa pengguna umumnya merasa mudah untuk membentuk
dan memperluas permintaan mereka. Sistem temu kembali dokumen penelitian
juga dapat membantu pengguna memperoleh informasi latar belakang yang
berguna tentang domain pencarian. Sistem juga dapat menunjukkan aspek
visualisasi informasi, browsing, dan antarmuka pengguna sebagai karakteristik
unik (Ding et al. 2000).
Visualisasi Informasi
Visualisasi informasi dalam bentuk abstrak akan lebih sulit untuk dilakukan.
Bahasa adalah alat utama untuk mengkomunikasikan visualisasi tersebut.
Meskipun sulitnya melakukan visualisasi tersebut, peneliti berusaha untuk
mewakili aspek dari proses akses informasi menggunakan teknik visualisasi
informasi. Ikon, warna sorotan, serta tata letak ruang dalam bentuk garis, batang,
lingkaran, dan informasi kanvas dilakukan banyak sistem temu kembali informasi
pada hasil pencarian untuk mempermudah penggunaannya (Baeza-Yates dan

4

Ribeiro-Neto 2011). Percobaan visualisasi untuk hasil pencarian telah diterapkan
dalam cara berikut:
• Visualisasi pada sintaks boolean
• Visualisasi pada kata query dalam hasil pencarian
• Visualisasi pada hubungan antara kata-kata dan dokumen
• Visualisasi untuk text mining
Pada penelitian ini, jenis visualisasi yang digunakan pada hasil pencarian adalah
visualisasi pada hubungan antara kata-kata dan dokumen.
Rujukan
Rujukan atau referensi menurut Kamus Besar Bahasa Indonesia tahun 2008
merupakan bahan sumber yang dipakai untuk mendapatkan keterangan lebih
lanjut; acuan. Pada sebuah dokumen penelitian terdapat beberapa sumber yang
dijadikan rujukan. Sumber dari rujukan akan dituliskan pada bagian daftar pustaka
yang merupakan daftar tulisan baik itu berupa buku, artikel, jurnal atau karangan
dari seorang pengarang atau tentang suatu subjek (ilmu) (DEPDIKNAS 2008).
Perancangan Basis Data
Merancang basis data adalah dasar untuk membangun basis data yang
memenuhi kebutuhan pengguna. Efektivitas dan efisiensi dari basis data secara
langsung berhubungan dengan struktur basis data. Perancangan basis data dimulai
dari tahap perancangan konseptual lalu dilanjutkan dengan perancangan logikal
dan diakhiri dengan perancangan fisik (Hoffer et al. 2011).
Perancangan konseptual menggambarkan basis data menjadi bentuk entitasentitas tunggal yang berhubungan, bertujuan untuk mewakili dari model data yang
akan dirancang dalam bentuk diagram Entity Relationship (ER). Perancangan
logikal dari basis data adalah mengubah rancangan konseptual menjadi rancangan
yang menggambarkan data pada teknologi manajemen data yang akan digunakan
untuk menerapkan basis data. Perancangan fisik menerjemahkan deskripsi logikal
data ke dalam spesifikasi teknis untuk menyimpan dan mengambil data.
Tujuannya adalah untuk membuat rancangan penyimpan data yang akan
memberikan kinerja yang memadai dan menjamin integritas data.
Penelitian Sebelumnya
Penelitian mengenai pencarian dokumen penelitian sudah banyak dilakukan.
Ding et al. (2000) mengembangkan Bibliometric Information Retrieval System
(BIRS) yaitu sebuah sistem temu kembali informasi dokumen penelitian dengan
antarmuka web. BIRS dirancang dan diimplementasikan sebagai sebuah
perangkat lunak untuk memperluas dan memperbaiki pertanyaan pengguna
dengan cara yang efisien, mudah, dan dapat diakses secara global. BIRS
dihubungkan pada 3 jenis mesin pencari: mesin pencari di internet, perpustakaan,
dan basis data yang dapat diakses secara online (lihat Gambar 1).
Klink et al. (2004) mengembangkan sistem berbasis web untuk menelusuri
dokumen penelitian dengan membagi sistem menjadi 3 buah modul sistem yaitu
GUI layer, Visualization layer, dan Data Layer yang diberi nama Framework
DBL Browser (lihat Gambar 2). Pada penerapan hasil pencarian, modul ini
menggunakan visualisasi dalam bentuk teks dan grafik.

5

Gambar 1 Contoh tampilan BIRS (Ding et al. 2000).

Web Client

textual:
- authors
- publications
- conferences

GUI Layer

graphical:
- authors maps
- coauthor nets
- ...

Visualization Layer

Information Retrieval Support

Data Layer

Memory-Database

Compressed
Data-File

Gambar 2 Framework DBL Browser (Klink et al. 2004).
Visualisasi dalam bentuk teks yang diterapkan menggunakan HTML dalam
bentuk tabel yang berisi informasi dokumen dan pengarang. Sedangkan untuk
visualisasi dalam bentuk grafik, dibuat 2 buah grafik. Grafik pertama
menggambarkan hubungan antara seorang pengarang dan pengarang lainnya yang

6

sama-sama menulis pada dokumen yang sama (Coauthor Relationship Graph).
Grafik kedua menggambarkan hubungan antar-jurnal dengan tujuan mendapatkan
jurnal yang banyak dijadikan referensi oleh jurnal lainnya. Penelitian Klink et al.
(2004) mengasumsikan bahwa jurnal yang banyak diminati merupakan jurnal
yang menjadi dasar pengembangan ilmu pada sebuah tema tertentu.
Penelitian yang berkaitan mengenai entri daftar pustaka sudah banyak
dilakukan (Gardfield 1972, Day et al. 2005, Hetzner 2008). Algoritme sudah
dikembangkan untuk mengenali pola kalimat daftar pustaka. Salah satunya adalah
ParaTools yang merupakan sekumpulan koleksi fungsi berbasis bahasa
pemrograman Perl yang menggunakan template untuk mengekstrak metadata dari
entri daftar pustaka (Jewell 2011). Gupta et al. (2009) juga mengembangkan
metode untuk mengekstrak dokumen penelitian yang menggunakan kombinasi
dari ekspresi regular berdasarkan heuristik dan sistem pengetahuan untuk mencari
entri daftar pustaka.
Metode ekstraksi dokumen penelitian lainnya juga pernah dikembangkan oleh
Huang et al. (2004) menggunakan Basic Local Alignment Search Tool (BLAST).
BLAST adalah aplikasi pencarian kesamaan yang menggunakan pemrograman
dinamik. Basis data digunakan untuk menyimpan format entri daftar pustaka.
Basis data yang dibuat dapat memisahkan field dari entri daftar pustaka dengan
baik.
Penelitian lainnya yang berkaitan dengan penelitian ini ialah penelitian
mengenai visualisasi dari hasil pencarian dokumen penelitian. Anegón et al.
(2004) mengembangkan metode untuk membuat klasifikasi dari dokumen rujukan
terhadap sebuah dokumen penelitian berdasarkan kelas dan kategori dari dokumen
penelitian. Penelitian tersebut mengusulkan sebuah teknik baru yang
menggunakan klasifikasi tematik (kelas dan kategori) sebagai entitas pengarang
bersama.
Lin et al. (2003) juga membuat prototipe sistem visualisasi hasil pencarian
dokumen penelitian berdasarkan analisis co-author dan memvisualisasikan dalam
bentuk peta dengan algoritme visualisasi seperti Kohonen's feature maps dan
pathfinder network. Sistem yang dikembangkan disebut AuthorLink dan dapat
menghasilkan grafik interaktif pengarang dari basis data. Visualisasi
menunjukkan pengelompokan subjek dan hubungan antar-pengarang berdasarkan
kesamaan bidang ilmu. Melalui antarmuka interaktif pengguna dapat
memanfaatkan informasi tersebut untuk memperbaiki query dan mengambil
dokumen (lihat Gambar 3).
Penelitian lainnya dilakukan untuk memetakan disiplin dari ilmu untuk
membandingkan dan memetakan keahlian dari pengarang dokumen penelitian
berdasarkan arsip personal dari bibiliografi (Murray et al. 2006). Untuk
melaksanakan pendekatan baru, penelitian tersebut meminta ahli pada bidang
tertentu untuk berbagi file bibtex atau EndNote. Dengan menggunakan kedua jenis
file tersebut diterapkan pengambilan data, pembersihan data, dan integrasi lalu
disajikan statistik sederhana, analisis, dan hasil visualisasi grafik disiplin ilmu
berdasarkan grafik pengarang bersama (lihat Gambar 4).

7

Gambar 3 Sebuah visualisasi pengarang untuk peraih Nobel Herbert Simon,
ditampilkan dalam format Kohonen (Lin et al. 2003)

Gambar 4 Pengarang bersama (kiri) dan pengarang bersama yang telah menulis
setidaknya 2 dokumen (kanan) (Murray et al. 2006)
Metode Pengukuran Sistem Temu Kembali Informasi
Pengukuran kinerja pada sistem temu kembali informasi menggunakan
perhitungan recall dan precission. Recall merupakan rasio dari dokumen relevan
pada koleksi yang berhasil ditemukembalikan oleh sistem dibandingkan dengan
seluruh dokumen relevan yang seharusnya ditemukembalikan (Manning et al.
2008). Recall dapat dirumuskan sebagai berikut:

8

Recall =

jumlah dokumen relevan ∩ jumlah dokumen terambil
jumlah dokumen relevan

Precision merupakan rasio dari jumlah dokumen yang relevan yang berhasil
ditemukembalikan oleh sistem dibandingkan dengan jumlah dokumen yang
ditemukembalikan. Precision dapat dirumuskan sebagai berikut:
Precision =

jumlah dokumen relevan ∩ jumlah dokumen terambil
jumlah dokumen terambil

Sistem Temu Kembali Informasi Dokumen Penelitian yang Telah Ada
Google memiliki mesin pencari untuk mencari dokumen penelitian dengan
alamat http://scholar.google.com. Mesin pencari tersebut memiliki aplikasi yang
bernama
Google
Scholar
Citations
dengan
alamat
URL
http://scholar.google.com/citations yang digunakan untuk memasukkan publikasi
penelitian yang dimiliki oleh pengguna lalu menelusuri publikasi tersebut
berdasarkan dokumen penelitian lain yang merujuk ke publikasi yang dimiliki.
Ilustrasi aplikasi Google Scholar Citations dapat dilihat pada Gambar 5.

Gambar 5 Google Scholar Citations
Selain Google, Microsoft juga membuat sebuah mesin pencari yang diberi
nama Microsoft Academic Search untuk mencari dokumen penelitian dengan
alamat URL http://academic.research.microsoft.com. Mesin pencari tersebut
memiliki fasilitas untuk menampilkan Co-Author Graph, Co-Author Path,
Citation Graph, dan Genealogy Graph yang dapat memvisualisasikan hubungan
seorang pengarang dengan pengarang lainnya. Fasilitas tersebut dapat menyajikan
hubungan antara seorang pengarang dan pengarang lainnya dari rujukan yang
dimiliki pada setiap dokumen penelitian. Ilustrasi visualisasi Microsoft Academic
Search dapat dilihat pada Gambar 6.
Aplikasi yang dikembangkan oleh Google dan Microsoft dapat digunakan
secara umum saat ini, namun aplikasi tersebut tidak dapat dimodifikasi untuk
dapat mengekstrak entri daftar pustaka pada dokumen penelitian dengan format
khusus. Penelitian ini diharapkan dapat melakukan ekstraksi entri daftar pustaka
dari data berupa dokumen skripsi pada Departemen Ilmu Komputer, Institut
Pertanian Bogor.

9

Gambar 6 Ilustrasi Micorosoft Academic Search

3 METODOLOGI PENELITIAN
Penelitian ini akan membuat sebuah modul di dalam sistem temu kembali
informasi dokumen penelitian. Modul yang dibuat nantinya akan mengambil
masukan berupa informasi dari dokumen penelitian yaitu dokumen skripsi secara
manual disertai dengan file PDF. File PDF akan diubah menjadi teks yang
selanjutnya diidentifikasi untuk mendapatkan bagian entri daftar pustaka. Bagian
entri daftar pustaka tersebut diekstrak untuk mendapatkan metadata yang
diinginkan yang selanjutnya disimpan ke dalam basis data. Basis data yang
menyimpan informasi entri daftar pustaka tersebut digunakan untuk menampilkan
visualisasi dari hasil pencarian dokumen penelitian.
Kerangka Pemikiran
Penelitian dimulai dengan pengumpulan dokumen skripsi dalam bentuk file
PDF. File PDF dikonversi menjadi teks dan disimpan ke dalam basis data
dokumen penelitian. Bab daftar pustaka dari dokumen skripsi dipelajari formatnya
untuk digunakan pada proses identifikasi entri daftar pustaka. Teks hasil konversi
dokumen skripsi yang sudah tersimpan pada basis data diidentifikasi dan
diekstrak untuk mendapatkan entri daftar pustaka dari dokumen skripsi. Entri
daftar pustaka yang diperoleh lalu disimpan pada basis data sebagai sumber data
pencarian pada sistem temu kembali dokumen penelitian. Selain itu, penelitian ini
juga dibuat sebuah modul untuk menampilkan visualisasi hubungan antarpengarang dokumen dalam bentuk grafik. Pada tahap akhir penelitian, dilakukan
pengukuran kinerja sistem yang menggunakan seluruh data dokumen skripsi dan
entri daftar pustaka yang berhasil diekstrak yang sudah disimpan pada basis data.
Metode penelitian yang dilakukan dapat dilihat pada Gambar 7.

10

Mulai

Pengumpulan dan
pembuatan basis data
dokumen penelitian

Ekstraksi dan
identifikasi atribut
entri daftar pustaka

Pembangunan sistem
temu kembali
dokumen penelitian

Pembuatan visualisasi
hubungan antarpengarang

Pengujian sistem

Selesai

Gambar 7 Metodologi penelitian
Pengumpulan dan Pembuatan Basis Data Dokumen Penelitian
Proses pembuatan basis data dokumen penelitian dimulai dari proses
pengumpulan dokumen penelitian yang merupakan dokumen skripsi dalam
bentuk file PDF. Setiap file PDF dibaca dan dicatat secara manual untuk
mendapatkan data utama dari dokumen. Data utama dari dokumen terdiri atas
judul dokumen, pengarang, pembimbing, tahun, dan penerbit. Selanjutnya file
PDF akan dikonversi menjadi teks, lalu data utama dokumen yang sudah dicatat
beserta teks hasil konversi file PDF disimpan ke dalam basis data. Hal ini
dilakukan pada setiap dokumen skripsi. Data yang sudah tersimpan pada basis
data selanjutnya digunakan untuk proses ekstraksi dan identifikasi atribut entri
daftar pustaka. Ilustrasi pembuatan basis data dokumen penelitian dapat dilihat
pada Gambar 8.
Setelah membuat basis data dokumen penelitian, proses selanjutnya adalah
ekstraksi dan identifikasi atribut entri daftar pustaka pada dokumen penelitian.
Setiap teks pada dokumen penelitian dibaca oleh sistem untuk mengekstrak
kumpulan entri daftar pustaka yang terletak pada bab daftar pustaka. Kumpulan
entri daftar pustaka selanjutnya disimpan ke dalam tabel pada basis data untuk
dilanjutkan pada proses pengidentifikasian atribut entri daftar pustaka. Proses
identifikasi atribut entri daftar pustaka dilakukan oleh sebuah modul pada sistem
yang berfungsi mengenali model dari sebuah entri daftar pustaka serta setiap
atributnya.

11

Dokumen skripsi
berbentuk PDF

Konversi file
PDF

Pencatatan data
utama dokumen
skripsi

Dokumen
skripsi dalam
bentuk teks

Basis data
dokumen
penelitian

Gambar 8 Pembuatan basis data dokumen
penelitian
Ekstraksi dan Identifikasi Atribut Entri Daftar Pustaka
Atribut yang berhasil dikenali oleh sistem dari sebuah entri daftar pustaka
disimpan ke dalam tabel dokumen. Sebelum proses penyimpanan dilakukan,
setiap atribut entri daftar pustaka diperiksa untuk mendapatkan kemungkinan
adanya entri daftar pustaka yang sama sudah tersimpan pada tabel dokumen. Hal
ini bertujuan untuk menghindari adanya dokumen yang sama tersimpan beberapa
kali pada tabel dokumen.
Proses ekstraksi dan identifikasi atribut entri daftar pustaka untuk
mendapatkan dilakukan dengan menggunakan aplikasi Perl bernama ParaTools
(Jewell 2011). ParaTools memiliki 2 buah modul, yang pertama bernama Biblio
Document Parser untuk melakukan ekstraksi entri daftar pustaka dan yang kedua
bernama Biblio Citation Parser yang digunakan untuk mengindentifikasi atribut
entri daftar pustaka. Kedua modul ParaTools tersebut dimodifikasi agar dapat
melakukan ekstraksi dan identifikasi atribut entri daftar pustaka pada dokumen
skripsi.
Pembangunan Sistem Temu Kembali Dokumen Penelitian
Sistem temu kembali yang dikembangkan terdiri atas 3 buah komponen yaitu
backend, mesin pencari, dan antarmuka pengguna. Backend merupakan bagian
dari sistem temu kembali yang digunakan untuk memasukkan dan memproses file
dokumen penelitian menjadi basis data dokumen penelitian dan basis data entri
daftar pustaka. Pada backend, dokumen penelitian dalam bentuk file PDF dibaca,
diekstrak, dan diidentifikasi oleh sistem untuk mendapatkan data yang selanjutnya
disimpan ke dalam basis data. Basis data digunakan oleh komponen mesin pencari
untuk pembuatan kumpulan indeks yang digunakan untuk pencarian dokumen
peneltian.
Komponen mesin pencari merupakan sub sistem untuk melakukan proses
pencarian dokumen. Mesin pencari melakukan proses pencarian dokumen

12

berdasarkan kata pencarian yang diperoleh dari pengguna yang dimasukkan pada
komponen antarmuka. Komponen yang ketiga yaitu antarmuka pengguna
merupakan sub sistem yang berhadapan langsung dengan pengguna dalam
melakukan pencarian. Komponen antarmuka pengguna memiliki proses
pembuatan visualisasi hasil pencarian dalam bentuk grafik. Arsitektur dari sistem
temu kembali informasi dokumen penelitian dapat dilihat pada Gambar 9.
Antarmuka
Pengguna
Teks

Urutan
Hasil
Pencarian
Teks
terstruktur
Pengurutan Hasil
Pencarian
Hasil
Pencarian

Teks

Operasi Teks

Pembuatan
Kueri
Kueri

Pencarian
Dokumen

Basis data
Dokumen
Penelitian

Teks
terstruktur
Pembuatan
Indeks
Inverted
Index

Basis data
Indeks

Gambar 9 Arsitektur sistem temu kembali informasi dokumen
penelitian
Sistem temu kembali dokumen penelitian

Entri
dokumen
PDF

Pencarian
dokumen
penelitian

Operator

Pengguna
Pencarian
kesamaan
nama
pengarang

Visualisasi
hasil
pencarian

Visualisasi
hubungan
pengarang

Gambar 10 Model proses sistem temu kembali informasi dokumen penelitian
Sistem temu kembali informasi yang dikembangkan memiliki 5 proses utama.
Pada bagian antarmuka backend terdapat 2 proses yaitu entri dokumen PDF dan
Pencarian kesamaan nama pengarang. Sedangkan, antarmuka frontend memiliki 3

13

proses yaitu pencarian dokumen penelitian, visualisasi hasil pencarian, dan
visualisasi hubungan pengarang. Untuk lebih jelasnya dapat dilihat pada Gambar
10.
Pembuatan Visualiasasi Hubungan Antar-Pengarang
Data hasil ekstraksi dan identifikasi atribut entri daftar pustaka dari dokumen
skripsi yang sudah tersimpan pada basis data dapat digunakan untuk
menghasilkan grafik hubungan antar-pengarang. Seorang pengarang dapat
dianggap sebagai node pusat dan pengarang yang merujuk atau dirujuk oleh
menjadi node cabang. Hal ini membuat grafik yang dihasilkan berbentuk jaringan.
Ilustrasi dari visualisasi hubungan antar-pengarang dapat dilihat pada Gambar 11.
Merujuk
Pengarang X

Merujuk
Pengarang Y



Pengarang

Dirujuk oleh
Pengarang A

Dirujuk oleh
Pengarang B



Gambar 11 Visualisasi dokumen penelitian
Pengujian Sistem
Pengukuran Kinerja Ekstraksi dan Identifikasi Atribut Entri Daftar Pustaka
pada Setiap Dokumen Penelitian
Pengukuran ekstraksi dan identifikasi atribut entri daftar pustaka pada setiap
dokumen dilakukan dengan mengukur recall dan precision dari setiap entri daftar
pustaka yang dihasilkan oleh sistem. Selanjutnya setiap nilai recall dan precision
digunakan untuk menghitung presentase recall dan precision. Pengukuran dari
ekstraksi dan identifikasi atribut entri daftar pustaka dapat dinotasikan sebagai
berikut:

Set entri daftar pustaka pada sebuah dokumen penelitian ke-i diberi notasi Bi

Set entri daftar pustaka yang berhasil diekstrak dan diidentifikasi dari
dokumen penelitian ke-i oleh sistem diberi notasi Ei

Recall dari ekstraksi dan identifikasi atribut entri daftar pustaka pada
dokumen penelitian ke-i diberi notasi Rbi

Precision dari ekstraksi dan identifikasi atribut entri daftar pustaka pada
dokumen penelitian ke-i diberi notasi Pbi
Dengan notasi tersebut dapat dibuat fungsi recall dan precision pada setiap
dokumen menjadi:

14

Bi ∩ Ei
Bi
Rbi merupakan pengukuran rasio antara jumlah hasil ekstraksi dan identifikasi
atribut entri daftar pustaka dengan jumlah entri daftar pustaka pada dokumen
penelitian ke-i. Rbi akan bernilai 1 jika sistem dapat mengekstrak dan
mengidentifikasi dengan benar seluruh entri daftar pustaka pada dokumen
penelitian ke-i.
Bi ∩ Ei
Pbi  =
Ei
Pbi mengukur rasio antara jumlah entri daftar pustaka yang terekstrak dan
teridentifikasi oleh sistem dengan jumlah entri daftar pustaka pada dokumen
penelitian ke-i. Pbi akan bernilai 1 jika jumlah hasil ekstraksi dan identifikasi
atribut entri daftar pustaka sama dengan jumlah entri daftar pustaka yang terdapat
pada dokumen penelitian ke-i. Dari kedua persamaan tersebut, maka dapat
dihitung persentase recall dan precision dari hasil ekstraksi dan identifikasi
atribut entri daftar pustaka pada seluruh dokumen dengan rumus sebagai berikut:
Rbi  = 

PRb = 

n
i=1 Rbi

PPb =

n
i=1 Pbi

n

n

×100%
×100%

Keterangan:
• PRb merupakan persentase recall dari entri daftar pustaka yang berhasil
diekstrak dan diidentifkasi pada seluruh dokumen penelitian
• PPb merupakan persentase precision dari entri daftar pustaka yang berhasil
diekstrak dan diidentifikasi pada seluruh dokumen penelitian
• n merupakan jumlah dari dokumen penelitian
Pengukuran Kinerja Hubungan Entri Daftar Pustaka dengan Dokumen
Pengukuran kinerja hubungan entri daftar pustaka dengan dokumen dilakukan
dengan mengukur recall dan precision dari jumlah dokumen penelitian yang
memiliki entri daftar pustaka tertentu pada sistem. Pengukurannya dapat
dinotasikan sebagai berikut:
• Set dokumen penelitian yang memiliki entri daftar pustaka ke-i diberi notasi
Ci
• Set dokumen penelitian yang memiliki entri daftar pustaka ke-i yang
dihasilkan oleh sistem diberi notasi Fi
• Recall dari dokumen penelitian yang memiliki entri daftar pustaka ke-i diberi
notasi Rci
• Precision dari dokumen penelitian yang memiliki entri daftar pustaka ke-i
diberi notasi Pci
Dengan notasi tersebut dapat dibuat fungsi recall dan precision menjadi:
Rci  = 

Ci ∩ Fi
Ci

Rci merupakan pengukuran rasio dari jumlah dokumen yang memiliki entri
daftar pustaka ke-i dengan jumlah dokumen yang memiliki entri daftar pustaka

15

ke-i yang dihasilkan oleh sistem. Rci akan bernilai 1 jika seluruh anggota Ci
merupakan anggota Fi.
Ci ∩ Fi
Pci  =
Fi
Pci akan bernilai 1 jika seluruh anggota Fi merupakan anggota Ci. Dari kedua
persamaan tersebut, maka dapat dicari persentase recall dan precision dari seluruh
jumlah entri daftar pustaka yang terhubung ke dokumen dengan rumus sebagai
berikut:
n
i=1 Rci
×100%
PRc = 
n
n
i=1 Pci
PPc =
×100%
n
Keterangan:
• PRc merupakan persentase recall dari dokumen penelitian yang memiliki
entri daftar pustaka
• PPc merupakan persentase precision dari dokumen penelitian yang memiliki
entri daftar pustaka
• n merupakan jumlah dari dokumen penelitian

4 HASIL DAN PEMBAHASAN
Pengumpulan Data
Data yang digunakan pada penelitian ini adalah dokumen hasil penelitian
mahasiswa sarjana (dokumen skripsi) Departemen Ilmu Komputer Institut
Pertanian Bogor dalam bentuk file PDF. Dokumen skripsi diperoleh dari
Perpustakaan Departemen Ilmu Komputer sebanyak 246. Seluruh dokumen
skripsi yang diperoleh digunakan sebagai sumber data utama serta sebagai bahan
pengujian pada sistem temu kembali dokumen penelitian yang dikembangkan
pada penelitian ini.
Karakteristik Dokumen Skripsi
Dokumen skripsi yang diperoleh memiliki karakteristik yang harus dipelajari
terlebih dahulu sebelum melakukan proses ekstraksi entri daftar pustaka. Secara
umum karakteristik dokumen skripsi yang berkaitan dengan entri daftar pustaka
adalah sebagai berikut:
1 Isi tulisan sebagian besar memiliki format dua kolom, kecuali halaman judul,
halaman pengesahan, halaman kata pengantar, halaman riwayat penulis,
halaman daftar isi, halaman daftar gambar, halaman daftar tabel, halaman
daftar lampiran, dan halaman lampiran.
2 Pergantian bab tidak menggunakan halaman baru. Hal ini memungkinkan
terdapatnya 2 bab pada halaman yang sama.
3 Kumpulan entri daftar pustaka terletak diantara bab daftar pustaka dan sebuah
halaman yang bertuliskan kata Lampiran.
4 Dokumen skripsi yang diperoleh memiliki judul bab yang berupa kalimat
dengan diawali huruf besar (contoh: Daftar Pustaka) atau dapat berupa kalimat
yang memiliki huruf besar semua (contoh: DAFTAR PUSTAKA).

16

Format Entri Daftar Pustaka
Penulisan skripsi pada Institut Pertanian Bogor menggunakan aturan dari
buku Pedoman Penulisan Karya Ilmiah yang diterbitkan oleh IPB Press. Buku
Pedoman Penulisan Karya Ilmiah digunakan sebagai panduan setiap mahasiswa
dalam menulis dokumen ilmiah seperti laporan, skripsi, tesis, disertasi, dan
dokumen ilmiah lainnya di lingkungan IPB. Entri daftar pustaka pada dokumen
skrispsi yang diperoleh seharusnya menggunakan format daftar pustaka yang
terdapat pada buku Pedoman Penulisan Karya Ilmiah. Buku Pedoman Penulisan
Karya Ilmiah yang digunakan sebagai acuan untuk melakukan ekstraksi entri
daftar pustaka pada penelitian ini menggunakan Pedoman Penulisan Karya Ilmiah
edisi ke 1, 2, dan 3 (IPB 2001, IPB 2004, IPB 2012).
Entri daftar pustaka pada dokumen skripsi Departemen Ilmu Komputer
memiliki format dua kolom. Sebuah entri daftar pustaka dapat menjadi beberapa
baris. Baris kedua dan seterusnya pada sebuah entri daftar pustaka memiliki posisi
lebih menjorok ke kanan dibandingkan dengan baris pertama. Gambar 12
merupakan contoh tampilan dari entri daftar pustaka pada dokumen skripsi.

Gambar 12 Entri daftar pustaka pada dokumen
skripsi
Perancangan Basis Data Dokumen Penelitian
Tahap selanjutnya dari penelitian ini adalah perancangan basis data dokumen
penelitian. Perancangan basis data dimulai dari perancangan konseptual yang
merupakan proses identifikasi entitas yang ada pada sistem temu kembali
dokumen penelitian. Entitas utama dari sistem adalah dokumen skripsi yang
memiliki pengarang, pembimbing, dan entri daftar pustaka. Identifikasi dari
entitas sistem temu kembali dokumen penelitian adalah sebagai berikut:
1 Skripsi memiliki seorang pengarang, pengarang hanya dapat menulis sebuah
skripsi.
2 Skripsi memiliki seorang pembimbing.
3 Skripsi memiliki 1 atau beberapa entri daftar pustaka.
4 Entri daftar pustaka merupakan dokumen.
5 Format entri daftar pustaka dapat menjadi beberapa jenis.

17

6

Jenis dokumen entri daftar pustaka dapat berupa buku, jurnal, prosiding, dan
dokumen web.
7 Setiap dokumen dapat memiliki beberapa pengarang, dan seorang pengarang
dapat menulis beberapa dokumen.
8 Seorang pengarang dapat menjadi pembimbing skripsi dan mahasiswa atau
bukan keduanya.
Berdasarkan hasil identifikasi entitas pada perancangan basis data dokumen
penelitian, rancangan konseptual disajikan pada Gambar 13.
Membimbing

Dibimbing
Skripsi

Pengarang
Menulis

Jurnal

o

Pembimbing
Mahasiswa

Ditulis
d

Dokumen

Prosiding

Website

Gambar 13 Perancangan konseptual basis data dokumen penelitian
Dari perancangan konseptual basis data dokumen penelitian diketahui
bahwa dokumen dapat digolongkan menjadi beberapa jenis. Dari hal ini, basis
data dokumen penelitian yang dibuat dapat menerapkan teknik Enhanced Entity
Relationship (EER). EER digunakan untuk mengidentifikasi model yang telah
dihasilkan dengan memperluas model ER asli. Teknik ini membuat model EER
mirip dengan pemodelan data berorientasi objek (Hoffer et al. 2011).
Pada perancangan konseptual, entitas dokumen dapat dibuat menjadi relasi
supertype dan subtype. Relasi ini membuat model umum (supertype) dari
dokumen dan membuat dokumen tersebut menjadi beberapa jenis yang lebih
spesifik (supertype). Setiap subtype memiliki atribut yang diwarisi dari supertypenya. Entitas dokumen dapat dijadikan supertype dengan mengambil atribut yang
dimiliki oleh setiap atribut subtype-nya. Ilustrasi dari supertype dan subtype
dokumen dapat dilihat pada Gambar 14.
Pada perancangan konseptual, entitas pengarang dapat dibuat menjadi
relasi supertype dan subtype. Relasi ini membuat model umum (supertype) dari
pengarang dan membuat pengarang tersebut menjadi beberapa jenis yang lebih

18

spesifik (supertype). Ilustrasi dari supertype dan subtype pengarang dapat dilihat
pada Gambar 15.
Perancangan logikal dari basis data dokumen penelitian menambahkan
informasi data sebagai penghubung antar-entitas pada rancangan konseptual untuk
disimpan pada aplikasi basis data. Rancangan logikal dari basis data dokumen
penelitian dapat dilihat pada Gambar 16 serta perancangan fisik basis data
dokumen penelitian dapat dilihat pada Gambar 17.
Dokumen
ID Dokumen
Judul
Pengarang
File
Isi
Tahun
column_n data_t
Penerbit
ame
ype
Tipe Dokumen

Tipe Dokumen =
d
"jurnal"

"skripsi"

"prosiding"

Jurnal

Skripsi

Nama Jurnal
column_nam
data_typ
Volume
eHalaman
e

Pembimbing
column_ data_
name
type

"website"

Prosiding

Website

Nama Prosiding
column_na
data_ty
Lokasi
me
pe
Tanggal

URL
column_n data_t
ame
ype

Gambar 14 Supertype dan subtype pada dokumen

Pengarang
ID Pengarang
nama pengarang
Tipe Pengarang

Tipe Pengarang =
o
"pembimbing"
pembimbing
column_ data_
name
type

"mahasiswa"
mahasiswa
NIM

Gambar 15 Supertype dan subtype pada pengarang

19

Jurnal
Pustaka

DokumenID
Nama Jurnal
Volume
Halaman

PustakaID
DokumenSumberID
DokumenID
Entri Daftar Pustaka

Prosiding
DokumenID
Nama Prosiding

Dokumen
d

Lokasi
Tanggal

DokumenID
Judul

DokumenPengarang
DokumenID

TipeDokumen
File

PengarangID