Penentuan Nomor Panggil Otomatis Berbasis DDC pada Dokumen Perpustakaan Menggunakan Klasifikasi Naive Bayes

PENENTUAN NOMOR PANGGIL OTOMATIS BERBASIS DDC
PADA DOKUMEN PERPUSTAKAAN MENGGUNAKAN
KLASIFIKASI NAIVE BAYES

MIRA DELLA RAHMA NASUTION

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Penentuan Nomor
Panggil Otomatis Berbasis DDC pada Dokumen Perpustakaan Menggunakan
Klasifikasi Naive Bayes adalah benar karya saya dengan arahan dari komisi
pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi
mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan
maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan
dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juni 2013
Mira Della Rahma Nasution
NIM G64104037

ABSTRAK
MIRA DELLA RAHMA NASUTION. Penentuan Nomor Panggil Otomatis
Berbasis DDC pada Dokumen Perpustakaan Menggunakan Klasifikasi Naive
Bayes. Dibimbing oleh JULIO ADISANTOSO.
Penelitian ini membahas tentang klasifikasi nomor panggil otomatis yang
mengklasifikasikan dokumen perpustakaan sesuai dengan skema klasifikasi
Dewey decimal classification (DDC). Tujuan penelitian ini adalah menentukan
nomor panggil dokumen perpustakaan secara otomatis dengan kelas berbasis
DDC menggunakan metode klasifikasi naive Bayes. Penelitian ini dibangun
dengan menerapkan kosakata terkendali untuk mengetahui kelas DDC dari setiap
dokumen. Dokumen yang digunakan dalam penelitian ini sebanyak 190 dokumen
yang terdiri atas 114 dokumen latih dan 76 dokumen uji. Pemilihan fitur yang
digunakan adalah information gain. Hasil dari pemilihan fitur akan digunakan
sebagai dasar dalam pembuatan model klasifikasi. Dalam pembuatan model

klasifikasi dilakukan penghitungan similarity menggunakan Natural Language
ToolKit (NLTK) antara token hasil dari proses pemilihan fitur dengan token yang
terdapat pada kosakata terkendali. Akurasi yang dihasilkan dalam penerapan
metode klasifikasi naive Bayes dengan penggunaan stemming sebesar 45.26% dan
akurasi yang dihasilkan tanpa penggunaan stemming sebesar 44.21%.
Kata kunci: Dewey decimal classification, information gain, klasifikasi naive
Bayes, kosakata terkendali, Natural Language ToolKit

ABSTRACT
MIRA DELLA RAHMA NASUTION. Automatic Call Number Classification
Based on DDC for Library Document using Naive Bayes Classification.
Supervised by JULIO ADISANTOSO.
This research discusses automatic call number classification for library
document with Dewey decimal classification (DDC) scheme. The goal of this
research is to determine the call number of library document automatically based
on DDC using naive Bayes classification. This research uses control vocabulary to
determine DDC class of each document. Documents used in this are 190
documents with 114 training documents and 76 testing documents. This research
uses information gain for feature selection. Result of the feature selection will be
used as a reference in modelling classification. In modelling classification, a

similarity calculation between results of token feature selection processing and
control vocabulary using Natural Language ToolKit (NLTK) is performed. The
accuracy obtained in the application of the naive Bayes method with the use of
stemming is 45.26% and the non-stemming is 44.21%.
Keywords: Dewey decimal classification, information gain, naive Bayes
classification, control vocabulary, Natural Language ToolKit

PENENTUAN NOMOR PANGGIL OTOMATIS BERBASIS DDC
PADA DOKUMEN PERPUSTAKAAN MENGGUNAKAN
KLASIFIKASI NAIVE BAYES

MIRA DELLA RAHMA NASUTION

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Ilmu Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN
INSTITUT PERTANIAN BOGOR
BOGOR
2013

Penguji: 1 Sony Hartono Wijaya, SKom MKom
2 Mushtofa, SKom MSc

Judul Skripsi : Penentuan Nomor Panggil Otomatis Berbasis DDC pada Dokumen
Perpustakaan Menggunakan Klasifikasi Naive Bayes
Nama
: Mira Della Rahma Nasution
NIM
: G64104037

Disetujui oleh

Ir Julio Adisantoso, MKom
Pembimbing


Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen Ilmu Komputer

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Agustus 2012 ini ialah
klasifikasi, dengan judul Penentuan Nomor Panggil Otomatis Berbasis DDC pada
Dokumen Perpustakaan Menggunakan Klasifikasi Naive Bayes.
Terima kasih penulis ucapkan kepada Bapak Ir Julio Adisantoso, MKom
selaku pembimbing yang telah memberikan arahan, dan saran selama penelitian
ini berlangsung. Terima kasih juga penulis ucapkan kepada Bapak Sony Hartono
Wijaya, SKom MKom dan Bapak Musthafa, SKom MSc selaku dosen penguji
dari penulis yang telah bersedia memberikan pengarahan, saran, dan kritik kepada
penulis pada saat sidang kelulusan dilaksanakan. Ungkapan terima kasih juga
disampaikan kepada ibu, kakak, serta seluruh keluarga, atas segala doa dan kasih

sayangnya. Teman-teman Ilkom angkatan 5, Wahyu Dias, Dealis Hendra, dan
Ahmad Somadi selaku teman seperjuangan bimbingan. Terima kasih atas
persaudaraan, semangat dan kebersamaannya selama ini. Andri Setyawan terima
kasih atas kesabaran, pengertian, dan bantuan yang selama ini diberikan kepada
penulis.
Penulis menyadari bahwa masih terdapat kekurangan dalam penulisan
skripsi ini. Semoga karya ilmiah ini bermanfaat.

Bogor, Juni 2013
Mira Della Rahma Nasution

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi


DAFTAR LAMPIRAN

vi

PENDAHULUAN

1

Latar Belakang

1

Perumusan Masalah

2

Tujuan Penelitian

3


Manfaat Penelitian

3

Ruang Lingkup Penelitian

3

METODE PENELITIAN

3

Pengumpulan Dokumen

5

Praproses Dokumen

5


Pengindeksan

6

Natural Language ToolKit

8

Klasifikasi Naive Bayes

9

Evaluasi

10

Lingkungan Pengembangan

11


HASIL DAN PEMBAHASAN

11

Pengumpulan Dokumen

11

Praproses Dokumen

11

Pemilihan Fitur

12

Natural Language ToolKit

13


Pengujian Kinerja Sistem

14

SIMPULAN DAN SARAN

17

Simpulan

17

Saran

17

DAFTAR PUSTAKA

18

LAMPIRAN

19

RIWAYAT HIDUP

26

DAFTAR TABEL
1
2
3
4
5
6
7
8

Banyaknya dokumen dengan kata t dalam kelas c
Kontingensi evaluasi set pengambilan dokumen
Dokumen tesis dan disertasi perpustakan IPB
Kelas utama DDC
Kelas divisi DDC
Kelas section DDC
Contoh hasil penghitungan similarity
Hasil akurasi setiap dokumen kelas DDC berdasarkan pengaruh
stemming

8
10
12
13
13
13
14
16

DAFTAR GAMBAR
1 Diagram alur tahap penelitian
2 Format koleksi dokumen
3 Diagram alur proses pembentukan model klasifikasi

4
5
15

DAFTAR LAMPIRAN
1 Daftar stopword yang digunakan dalam tahapan praproses
2 Contoh hasil tokenisasi dengan menggunakan stemming dan tanpa
menggunakan stemming
3 Contoh distribusi sebaran penciri dokumen pada setiap DDC
4 Confusion matrix hasil klasifikasi naive Bayes menggunakan stemming
5 Confusion matrix hasil klasifikasi naive Bayes tanpa menggunakan
stemming
6 Nilai recall precision pada sistem temu kembali untuk pengujian sistem
klasifikasi menggunakan stemming
7 Nilai recall precision pada sistem temu kembali untuk pengujian sistem
klasifikasi tanpa menggunakan stemming

19
20
21
22
23
24
25

21

PENDAHULUAN
Latar Belakang
Dokumen perpustakaan berbasis digital saat ini sudah sangat banyak, baik di
perpustakaan umum maupun perpustakaan institusi. Dalam pengelolaan dokumen
perpustakaan, baik digital maupun tertulis dilakukan klasifikasi terhadap dokumen
tersebut agar dokumen lebih mudah dicari kembali. Saat ini koleksi dokumen di
perpustakaan pada umumnya diolah menggunakan sistem DDC (Dewey decimal
classification) untuk pengklasifikasiannya, dan menggunakan CAB thesaurus
untuk membantu memutuskan kelas yang sesuai dengan subjek dokumen tersebut.
Penentuan nomor panggil dokumen dilihat dari berbagai sudut, antaralain dari
sudut materi bacaan. Walaupun sudah menggunakan DDC dan CAB thesaurus,
namun dalam pelaksanaannya masih manual yang berdampak pada lamanya
pengolahan dokumen (Setyawan 2012). Hal ini juga berdampak pada lamanya
dokumen terdaftar dalam perpustakaan.
Klasifikasi terdiri atas dua jenis, yaitu klasifikasi berbasis teks dan
klasifikasi berbasis kosakata terkendali. Klasifikasi berbasis teks merupakan
klasifikasi yang banyak digunakan pada klasifikasi dokumen web, sedangkan
klasifikasi berbasis kosakata terkendali merupakan klasifikasi dengan penempatan
kata sebagai skema klasifikasi yang berbeda dan juga memiliki karakteristik yang
berbeda dari tingkat hierarki (Hasugian 2006). Kosakata terkendali merupakan
koleksi kata atau kode yang sudah tersedia untuk digunakan pada pengindeksan
sistem.
Perbedaan mendasar klasifikasi berbasis teks dengan klasifikasi berbasis
kosakata terkendali adalah klasifikasi berbasis teks dibangun secara manual dan
tidak memiliki kontrol bahasa sehingga sering terjadi kesalahan dalam
penempatan kelas dokumen. Sedangkan klasifikasi berbasis kosakata terkendali
memiliki perangkat untuk mengontrol masalah polisemi, sinonim, dan homonim
(Golub 2006).
Keunggulan dari penggunaan kosakata terkendali mempunyai representasi
dokumen yang konsisten. Kosakata atau istilah yang digunakan dalam
pengindeksan dokumen pada saat input ke sistem adalah kosakata yang terkendali
dan standar. Oleh karena itu, bila kosakata tersebut dijadikan sebagai kueri untuk
pencarian atau penelusuran, maka sudah pasti akan tetap mewakili dan
merepresentasikan dokumen yang sama seperti pada saat input sistem dilakukan.
Demikian juga dengan penentuan nomor panggil, apabila seorang pustakawan
ingin menempatkan suatu dokumen dalam rak dengan subjek tertentu, misalnya
“microbiology”, maka sistem akan menemukan kelas dokumen karena
representasi dokumen tetap konsisten, sehingga kosakata terkendali dapat menjadi
acuan dasar dalam pengembangan penentuan nomor panggil berbasis DDC.
Ada beberapa sistem klasifikasi utama dokumen perpustakaan yang dikenal
di Indonesia, seperti Library of Congress classification (LCC), Dewey decimal
classification (DDC), dan universal decimal classification (UDC). Walaupun
kadang-kadang digunakan juga klasifikasi menurut keinginan pembaca atau
sistem pengelompokan buatan sendiri, pada umumnya perpustakaan lebih sering
menggunakan salah satu dari sistem klasifikasi buku utama yang ada, karena
sistemnya dikenal luas (Hardjoprakoso 1993). DDC merupakan sebuah sistem

2
klasifikasi yang diciptakan oleh Melvil Dewey pada tahun 1876, dan sejak itu
telah banyak dimodifikasi dan dikembangkan hingga saat ini versi terakhir DDC
adalah DDC 22. DDC termasuk ke dalam sistem klasifikasi hierarki. DDC terdiri
atas dua bagian yaitu kelas dan keterangan (Hardjoprakoso 1993). DDC dituliskan
dengan tiga digit angka, angka pertama menunjukkan kelas utama, angka kedua
menunjukkan kelas divisi, dan angka ketiga menunjukkan kelas section. Kelas
utama adalah kelas seperti 100, 200, sampai 900. Kelas divisi adalah kelas seperti
110, 120, 130, sampai 190 (angka persepuluhan), dan kelas section adalah kelas
dengan angka antara 111-119. Klasifikasi dokumen menggunakan sistem DDC
memerlukan penentuan subjek dokumen fokus disiplin dokumen, atau jika
diperlukan pendekatan dari bentuk dokumen (Mortimer 2000). Setiap dokumen
perpustakaan yang diolah menggunakan sistem DDC akan dimasukkan ke dalam
satu dari kelas yang ada pada sistem DDC.
Penelitian tentang penentuan nomor panggil otomatis berbasis DDC pada
dokumen perpustakaan belum banyak ditemukan. Dalam penelitian Setyawan
(2012) diimplementasikan penentuan subjek otomatis berbasis DDC
menggunakan metode lin similarity dengan akurasi 20 persen. Metode lin
similarity merupakan metode yang sudah tersedia di Natural Languange ToolKit
(NLTK) dengan menggunakan brown information content (IC). Metode lin
similarity digunakan untuk mencari kemiripan antara dua kata berdasarkan IC
dengan menghitung hiponim dari dua kata, dan menggunakan nilai kata pada IC
berbeda dengan path similarity yang hanya menghitung jarak antara dua kata.
Penelitian berdasarkan kosakata terkendali yang mendasari subjek pada
DDC telah banyak dilakukan. Svenonius (2003) mencoba menerapkan desain
kosakata terkendali pada DDC menggunakan semantic. Golub (2006) menjelaskan
tentang penggunaan kosakata terkendali dalam klasifikasi subjek otomatis pada
halaman web tekstual dalam pencarian. Saat ini kosakata terkendali sudah
digunakan oleh sejumlah layanan web, terutama yang menyediakan informasi
bagi pengguna akademis.
Penelitian yang akan dibangun menerapkan kosakata terkendali untuk
mengetahui kelas DDC dari setiap dokumen dengan menggunakan klasifikasi
naive Bayes. Penelitian ini dibangun dengan harapan dapat membuktikan
pernyataan Golub (2006) tentang penggunaan kosakata terkendali berfungsi
dengan baik dalam pengindeksan, abstraksi dokumen, dan klasifikasi otomatis
tekstual. Penelitian ini juga dibangun dengan harapan dapat memperbaiki sistem
yang telah dibangun sebelumnya dan dapat meningkatkan akurasi yang maksimal
dari penelitian sebelumnya.

Perumusan Masalah
Pertanyaan yang ingin dijawab melalui penelitian ini adalah:
1 Apakah metode klasifikasi naive Bayes dapat diterapkan pada penentuan
nomor panggil berbasis DDC?
2 Seberapa baik metode klasifikasi naive Bayes dalam mengklasifikasikan
dokumen perpustakaan?
3 Bagaimana pengaruh penggunaan stemming dalam klasifikasi dokumen
perpustakaan menggunakan metode klasifikasi naive Bayes?

3
Tujuan Penelitian
Penelitian ini bertujuan untuk menentukan nomor panggil dokumen secara
otomatis berbasis DDC menggunakan metode kosakata terkendali dan klasifikasi
naive Bayes serta menguji relevansi kelas yang dihasilkan dilihat dari segi
penentuan oleh pustakawan secara manual dan oleh komputer secara otomatis.

Manfaat Penelitian
Manfaat dari penelitian ini adalah membantu tugas pustakawan dalam
menentukan nomor panggil DDC dokumen perpustakaan dan mempermudah
pengguna dalam mencari informasi tentang buku dengan memberi masukan ke
sistem berupa nomor panggil DDC dari suatu buku.

Ruang Lingkup Penelitian
1
2
3
4

Ruang lingkup dalam penelitian ini adalah:
Korpus terdiri atas dokumen abstrak tesis dan disertasi IPB berbahasa Inggris
dengan format XML.
Menempatkan kelas berbasis DDC dalam kosakata terkendali untuk
memastikan setiap dokumen memiliki kelas masing-masing.
Kelas DDC yang digunakan adalah kelas DDC yang memenuhi kriteria sebagai
dokumen latih dan dokumen uji.
Penghitungan similarity menggunakan NLTK dengan bahasa pemrograman
Python.

METODE PENELITIAN
Metode penelitian ini dilaksanakan dalam beberapa tahapan yang
diilustrasikan pada Gambar 1. Data yang akan diproses adalah koleksi dokumen
abstrak tesis dan disertasi pada perpustakaan IPB. Input lain yang digunakan
adalah stopwords yang merupakan daftar kata buang yang akan digunakan pada
tahap praproses. Tahap praproses selanjutnya pada dokumen latih dilakukan
proses stemming yaitu proses penghilangan prefiks dan sufiks sehingga kata/token
menjadi kata baku. Setelah proses stemming dilakukan pada dokumen latih
selanjutnya dilakukan tahapan pemilihan fitur dan pembobotan menggunakan
term frequency (tf). Tahap selanjutnya adalah pembuatan model klasifikasi naive
Bayes dengan melakukan penghitungan similarity menggunakan fungsi yang
tersedia di NLTK. Token yang digunakan dalam penghitungan similarity adalah
token hasil dari pemilihan fitur dan token pada kosakata terkendali dalam kelas
DDC. Pembuatan model klasifikasi digunakan sebagai dasar untuk melakukan
penempatan dokumen latih dalam kelas DDC. Setelah pembuatan model
klasifikasi tahapan selanjutnya adalah melakukan klasifikasi pada dokumen uji
yang belum diketahui kelasnya. Tahapan ini bertujuan untuk menguji model
klasifikasi dalam penempatan dokumen uji pada kelas DDC. Pada tahap akhir,

4
dilakukan evaluasi terhadap kinerja sistem klasifikasi yang dihasilkan. Evaluasi
kinerja dari sistem klasifikasi dilakukan dengan menggunakan recall dan
precision yang bertujuan untuk mendapatkan persentase ketepatan suatu dokumen
masuk ke dalam kelas DDC sesuai dengan kelasnya.
Mulai

I Praproses Dokumen
Pengumpulan
dokumen

DDC

Dokumen latih

Dokumen uji

Kosakata

Pengindeksan

Pengindeksan

Tokenisasi

Tokenisasi

Stemming

Stemming

Pemilihan fitur

Pembobotan

Pembobotan

NLTK

Klasifikasi naive
Bayes

II Pengujian

Evaluasi

Selesai

Gambar 1 Diagram alur tahap penelitian

5
Pengumpulan Dokumen
Dokumen yang digunakan pada penelitian ini berupa abstrak tesis dan
disertasi. Sebanyak 190 dokumen yang diambil secara acak dari repository IPB
(http://repository.ipb.ac.id) dan data kelas dokumen diambil dari online access
public catalog (OPAC) perpustakaan IPB (katalog.perpustakaan.ipb.ac.id/
senayan3-stable11/).
Dokumen yang digunakan berformat XML dengan contoh format dokumen
yang terdapat pada Gambar 2. Dokumen dikelompokkan ke dalam tag sebagai
berikut:
 , tag ini mewakili keseluruhan dokumen dan melingkupi tagtag lain yang lebih spesifik.
 , tag ini menunjukkan nomor dari koleksi dokumen.
 , tag ini menunjukkan judul dari dokumen.
 , tag ini menunjukkan nama penulis dokumen.
 , tag ini menunjukkan abstrak dari dokumen.
 , tag ini menunjukkan kata penting dari
dokumen.
 , tag ini menunjukkan kelas dari dokumen.

Praproses Dokumen
Tahap praproses diawali dengan pembagian dokumen menjadi dua, yaitu
dokumen latih dan dokumen uji dengan persentase 60:40 sehingga diperoleh 114
dokumen latih dan 76 dokumen uji. Dokumen latih digunakan sebagai input
pelatihan pengklasifikasian naive Bayes, sedangkan dokumen uji digunakan untuk
menguji model klasifikasi hasil dari pelatihan sistem klasifikasi.

KORP0001
An Alternative Policy in the Management of Kamali
Coast as the Result of Reclamation in the Town of BauBau, which Minimizes the Environmental Impact
Faizu, Wadi Afdal
The reclamation of Kamali Coast in Bau-Bau was
conducted in 2004. This has led to the loss of potential
coastal biological resources, especially some of the
marine bio-resources, damaged ecosystem of sea grass and
coral reefs. It has also caused changes in the landscape
(geomorphology) that have an impact on the changes in
ocean currents, sedimentation patterns and a shallower
estuary of Bau-Bau River. The study was conducted to
find appropriate alternative policies, related to the
ecosystem management efforts at Kamali Coast resulting
from the reclamation in the Town of Bau-Bau, which
minimized the environmental impact. It tried to analyze
the
existing
social,
economic,
and
environmental
conditions before and after reclamation and used the
analytical hierarchy process (AHP).
reclamation, coastal, policy
T 502 FAI a


Gambar 2 Format koleksi dokumen

6
Pengindeksan
Pengindeksan merupakan cara untuk mendapatkan istilah-istilah yang
dianggap mewakili isi dari dokumen. Pengindeksan dapat dilakukan secara
manual atau otomatis. Jika dengan cara manual, dibutuhkan campur tangan
manusia yang bertugas untuk memilih istilah-istilah yang terdapat pada dokumen
untuk dijadikan penciri dokumen yang merepresentasikan dokumen tersebut.
Sedangkan pada pengindeksan yang dilakukan secara otomatis, pemilihan penciri
dokumen dilakukan secara otomatis menggunakan program komputer.
Ketepatan pemilihan istilah merupakan isu yang menentukan kinerja dari
sistem yang dihasilkan. Pada dasarnya setiap kata yang muncul pada dokumen
dapat dijadikan penciri dokumen. Namun jika semua kata dijadikan penciri
dokumen, disamping ukuran indeks menjadi besar, belum tentu kata/term yang
dijadikan penciri dokumen merepresentasikan isi dokumen secara keseluruhan.
Pada tahap pengindeksan dokumen latih, terdapat empat proses yang
dilakukan, yaitu:
1 Tokenisasi
Proses pengindeksan diawali dengan lowercasing, tokenisasi, dan
pembuangan stopwords. Lowercasing adalah proses untuk mengubah semua
huruf mejadi huruf non-capital agar menjadi case-insensitive pada saat
dilakukan pemrosesan teks dokumen. Tokenisasi adalah suatu tahap
pemrosesan teks yang dibagi menjadi unit-unit kecil yang disebut token atau
term, yang dapat berupa suatu kata atau angka. Token yang dimaksud dalam
penelitian ini adalah kata atau term. Proses tokenisasi dilakukan sesuai dengan
aturan berikut :
 Teks dipotong menjadi token. Karakter yang dianggap sebagai karakter
pemisah token didefinisikan dengan ekspresi regular berikut:
/[\s\-+\/*0-9%,.\"\];()\':=`?\[!@>