Penentuan Subjek Otomatis Berbasis DDC pada Dokumen Perpustakaan miMenggunakan Algoritme Lin Similarity

1

 

PENENTUAN SUBJEK OTOMATIS BERBASIS DDC PADA
DOKUMEN PERPUSTAKAAN MENGGUNAKAN
ALGORITME LIN SIMILARITY

ANDRI SETYAWAN

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

 
 

1


2

 

PENENTUAN SUBJEK OTOMATIS BERBASIS DDC PADA
DOKUMEN PERPUSTAKAAN MENGGUNAKAN
ALGORITME LIN SIMILARITY

ANDRI SETYAWAN

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012


 
 

2

ABSTRACT
ANDRI SETYAWAN. Automatic Subject Classification Based on DDC System for Library
Document. Supervised by FIRMAN ARDIANSYAH.
Subject classification for library document with Dewey Decimal Classification (DDC) system is
difficult to perform manually. The goal of this research is to make an application that automatically do
perform subject classification for library document using similarity method. We use Natural Language
ToolKit (NLTK) with Wordnet module to find similarity between keyword and DDC class. DDC is a
hierarchy classification. We use Lin Similarity to find similarity between two words, with Brown
corpus for Information Content (IC) of Wordnet. Wordnet can find similarity for only noun and verb,
so we do not process other kinds of word. We use 30 documents combination of theses and
dissertations in Bogor Agriculture University. We use 3 different methods to decide the relevant class
of DDC which is similar to a document keyword. The first method is maximum-maximum method, the
second one is maximum-average method, and the third method is maximum-minimum method. The
first method results in 6 documents having the same main class, 2 documents having the same division

class, and 0 document having the same section class. The second method results in 5 documents having
the same main class, 1 document having the same division class, and 0 document having the same
section class. The third method results in 3 documents having the same main class, 2 documents having
the same division class, and 0 document having the same section class.
Keyword: Dewey Decimal Classification, Automatic Subject Classification, Lin Similarity, Natural
Language ToolKit

ii

 
Judul Skripsi  
Nama
NIM

: Penentuan Subjek Otomatis Berbasis DDC pada Dokumen Perpustakaan
miMenggunakan Algoritme Lin Similarity
: Andri Setyawan
: G64096008 

Disetujui:

Pembimbing

Firman Ardiansyah SKom MSi
NIP 19790522 200501 1 003

Diketahui:
Ketua Departemen Ilmu Komputer

Dr Ir Agus Buono MSi MKom
NIP 19660702 199302 1 001

Tanggal Lulus:

 
 

ii

iii


 

PRAKATA
Alhamdulillahirabbil’alamin, segala puji dan syukur penulis panjatkan ke hadirat Allah
Subhanahuwa ta’ala atas segala karunia-Nya, sehingga penulis dapat menyelesaikan tugas akhir yang
berjudul “Penentuan Subjek Semi Otomatis Berbasis DDC pada Dokumen Perpustakaan Menggunakan
Algoritme Lin Similarity”.
Penulis juga menyampaikan ucapan terima kasih kepada:
1 Ibunda tersayang Rubiyatun, Ayah tercinta Sakiyo Adhi Saputra, kakak, dan keponakanku yang
tidak henti-hentinya memberikan doa, kasih sayang, dan dukungan kepada penulis.
2 Bapak Firman Ardiansyah SKom MSi selaku dosen pembimbing yang telah memberikan arahan
dan bimbingan dengan sabar kepada penulis dalam menyelesaikan tugas akhir ini.
3 Bapak Sony Hartono Wijaya SKom MKom dan Bapak Ahmad Ridha SKom MS selaku dosen
penguji, dan seluruh dosen, dan staf Departemen Ilmu Komputer FMIPA IPB.
4 Teman-teman satu bimbingan, Wahyu Dwi Suryanto dan Ihsan Satria Rama yang selalu
memberikan masukan, saran, dan semangat kepada penulis.
5 Teman-teman Alih Jenis Ilkom Angkatan 4 (2009) atas segala kebersamaan, bantuan, dan motivasi
yang telah diberikan kepada penulis.
6 Teman-teman PT. BeIT Inovasi Tiwikrama, dan Promoote atas pengertian waktu yang diberikan
kepada penulis.

7 Mira Della Rahma Nasution, yang selalu sabar, mengerti, dan memberikan semangat kepada
penulis.

Penulis menyadari bahwa masih terdapat kekurangan dalam penulisan skripsi ini. Semoga
skripsi ini bermanfaat.

Bogor, Agustus 2012

Andri Setyawan

 
 

iii

iv

 

RIWAYAT HIDUP

Penulis dilahirkan di Bogor, Jawa Barat pada tanggal 15 Januari 1989 dari Ibu Rubiyatun dan
Bapak Sakiyo Adhi Saputra. Penulis merupakan anak kedua dari dua bersaudara. Pada tahun 2006,
penulis lulus dari Sekolah Menengah Kejuruan (SMK) Negeri 1 Cibinong, dan pada tahun yang sama
diterima di Diploma IPB Program Keahlian Manajemen Informatika. Pada tahun 2009 penulis lulus
dari Diploma IPB dan pada tahun yang sama diterima di Program Alih Jenis Ilmu Komputer, Fakultas
Matematika dan Ilmu Pengetahuan Alam, IPB.

 
 

iv

v

 

DAFTAR ISI
Halaman
DAFTAR TABEL ................................................................................................................................ vi
DAFTAR GAMBAR ............................................................................................................................ vi

DAFTAR LAMPIRAN ........................................................................................................................ vi
PENDAHULUAN ................................................................................................................................
Latar Belakang .................................................................................................................................
Tujuan ..............................................................................................................................................
Ruang Lingkup .................................................................................................................................

1
1
1
1

TINJAUAN PUSTAKA .......................................................................................................................
Dewey Decimal Classification (DDC) .............................................................................................
Natural Language ToolKit (NLTK) .................................................................................................
Wordnet ............................................................................................................................................
Similarity dalam Wordnet NLTK .....................................................................................................

1
1
2

2
2

METODE PENELITIAN .....................................................................................................................
Pengumpulan Dokumen ...................................................................................................................
Praproses Keyword dan Keterangan .................................................................................................
Penghitungan Similarity ...................................................................................................................
Evaluasi Hasil Percobaan .................................................................................................................
Lingkungan Pengembangan .............................................................................................................

3
3
3
3
4
4

HASIL DAN PEMBAHASAN ............................................................................................................
Pengumpulan Dokumen ...................................................................................................................
Praproses Keyword dan Keterangan .................................................................................................

Penghitungan Similarity ...................................................................................................................
Evaluasi ............................................................................................................................................

4
4
4
5
6

SIMPULAN DAN SARAN ................................................................................................................. 7
Simpulan .......................................................................................................................................... 7
Saran ................................................................................................................................................. 7
DAFTAR PUSTAKA ........................................................................................................................... 7
LAMPIRAN ......................................................................................................................................... 8

 

 
 


v

vi

 

DAFTAR TABEL
Halaman 
1
2
3
4
5
6

Kelas utama DDC ..............................................................................................................................
Dokumen tesis dan disertasi ..............................................................................................................
Kelas utama DDC setelah praproses data ..........................................................................................
Contoh penghitungan similarity dengan metode s1,s2,s3 .................................................................
Penghitungan similarity antara keyword dan kelas divisi ..................................................................
Penghitungan similarity antara keyword dan kelas section ...............................................................

2
4
5
5
6
6

DAFTAR GAMBAR
Halaman 
1
2
3
4
5

Skema implementasi metode. ............................................................................................................
Skema penghitungan similarity. ........................................................................................................
Grafik evaluasi 30 dokumen dengan metode s1. ...............................................................................
Grafik evaluasi 30 dokumen dengan metode s2. ...............................................................................
Grafik evaluasi 30 dokumen dengan metode s3. ...............................................................................

3
4
7
7
7

DAFTAR LAMPIRAN
Halaman  
1 Antarmuka implementasi .................................................................................................................. 9
2 Hasil similarity 30 dokumen ............................................................................................................ 10

 

 
 

vi

1

 

Tujuan

PENDAHULUAN

Penelitian ini bertujuan membuat aplikasi
yang dapat menentukan subjek secara otomatis
dengan kelas berbasis DDC menggunakan
metode menghitung similarity antar dua kata
dengan NLTK (Natural Language ToolKit).
Kata yang dicari similarity-nya adalah
keterangan kelas DDC dengan keyword dari
dokumen perpustakaan, serta menguji relevansi
kelas yang dihasilkan dilihat dari segi
penentuan oleh pustakawan (manual) dan oleh
komputer (otomatis).

Latar Belakang
Dokumen perpustakaan berbasis digital saat
ini sudah sangat banyak, baik di perpustakaan
umum maupun perpustakaan institusi. Dalam
pengelolaan dokumen perpustakaan, baik digital
maupun tertulis dilakukan klasifikasi terhadap
dokumen tersebut agar dokumen lebih mudah
dicari kembali. Ada beberapa sistem klasifikasi
utama dokumen perpustakaan yang dikenal di
Indonesia, seperti Library of Congress
Classification
(LOC),
Dewey
Decimal
Classification (DDC), dan Universal Decimal
Classification (UDC). Walaupun kadangkadang digunakan juga klasifikasi menurut
keinginan pembaca atau sistem pengelompokan
buatan sendiri, kebanyakan perpustakaan lebih
suka menggunakan salah satu dari sistem
klasifikasi dokumen utama yang ada karena
sistemnya dikenal luas (Hardjoprakoso 1993).
Seorang pustakawan dalam mengelola
dokumen
perpustakaan
harus
mengklasifikasikan dokumen ke dalam salah
satu dari sistem klasifikasi tersebut. Jika
perpustakaan tersebut menggunakan sistem
DDC di perpustakaannya, sebuah dokumen
harus diklasifikasikan dengan sistem DDC.
Sebelum pustakawan menempatkan suatu
dokumen ke dalam rak, pustakawan harus
mengetahui dengan benar kelas dari dokumen
tersebut. Dalam DDC, penentuan kelas dapat
dicari dari subjek dokumen tersebut. Subjek
sebuah dokumen perpustakaan dapat ditinjau
dari berbagai sudut, contohnya dari jenis
dokumen atau dari inti dokumen tersebut. Untuk
menemukan subjek sebuah dokumen ada
beberapa metode yang digunakan untuk
mengklasifikasikan
subjek
dokumen
perpustakaan, salah satunya adalah metode
Keyword In Context, Keyword Out Of Context
(KWIC KWOC).
Saat ini dokumen di perpustakaan IPB
diolah menggunakan sistem DDC untuk
pengklasifikasiannya, dan menggunakan CAB
Thesaurus untuk membantu memutuskan kelas
yang sesuai dengan subjek dokumen tersebut,
sedangkan penentuan subjeknya dilihat dari
berbagai sudut oleh pustakawan yang mengolah
dokumen tersebut, contohnya dilihat dari sudut
bacaan, dari tipe dokumen, atau dari maksud
penulis, untuk dokumen tesis dan disertasi
subjek ditentukan dari keyword dokumennya.
Walaupun sudah menggunakan DDC dan CAB
Thesaurus, dalam pelaksanaannya klasifikasi
masih dilakukan secara manual. Hal itu
berdampak pada lamanya pengolahan dokumen
perpustakaan.

Ruang Lingkup
Ruang lingkup penelitian ini dibatasi pada:
• Penghitungan
similarity
menggunakan
Natural Language ToolKit (NLTK) dengan
bahasa pemograman python, dengan modul
Wordnet.
• Penghitungan
similarity
Menggunakan
fungsi lin_similarity.
• Kelas DDC 000-099 tidak digunakan karena
merupakan kelas untuk dokumen yang
bersubjek karya umum (general).
• Hanya kata benda dan kata kerja pada
keyword dokumen yang digunakan.
• Menggunakan metadata tesis dan disertasi
IPB berbahasa Inggris.

TINJAUAN PUSTAKA
Dewey Decimal Classification (DDC)
Sebuah sistem klasifikasi yang diciptakan
oleh Melvil Dewey pada tahun 1876, dan sejak
itu
telah
banyak
dimodifikasi
dan
dikembangkan hingga saat ini versi terakhir
DDC adalah DDC 22. DDC termasuk ke dalam
sistem klasifikasi hirarki. DDC terdiri atas dua
bagian
yaitu
kelas
dan
keterangan
(Hardjoprakoso 1993). DDC dituliskan dengan
tiga digit angka, angka pertama menunjukkan
kelas utama, angka kedua menunjukkan kelas
divisi, dan angka ketiga menunjukkan kelas
section-nya. Kelas utama adalah kelas seperti
100, 200, sampai 900. Kelas divisi adalah kelas
seperti 110, 120, 130, sampai 190 (angka
persepuluhan), dan kelas section adalah kelas
dengan angka antara 111-119. Klasifikasi
dokumen
menggunakan
sistem
DDC
memerlukan penentuan subjek dokumen, fokus
disiplin dokumen, atau jika diperlukan
pendekatan dari bentuk dokumen (Mortimer
2000). Setiap dokumen perpustakaan yang
diolah menggunakan sistem DDC akan
dimasukkan ke dalam satu dari kelas yang ada

 

2

 

di sistem DDC. Contoh kelas utama dari DDC
dapat dilihat pada Tabel 1.

Kelas

Disiplin Ilmu

000

General

100

Phylosophy, Psychology

NLTK versi 2.0 terdapat 9 hirarki terpisah
untuk kata benda dengan 80.000 konsep dan
554 hirarki untuk kata kerja dengan 135.000
konsep (Hliaoutakis et al 2006). Kata sifat
(adjectives)
belum
memiliki
hubungan
similarity dalam bentuk hirarki, jadi pencarian
similarity untuk kata sifat belum dapat
dilakukan di modul Wordnet NLTK.

200

Religion

Similarity dalam Wordnet NLTK

300

Social

400

Language

500

Science, Mathematics

600

Technology

700

Art, Fine, Sport

800

Literature

Similarity dalam Wordnet didapatkan dari
seberapa mirip kata A dengan kata B, dalam
konsep hirarki Wordnet (synsets). Contohnya
adalah kata car lebih mirip ke kata boat
daripada ke kata tree, karena kata car dan kata
boat mempunyai ancestor konsep yang sama
yaitu kata vehicle (Bird 2009). Adapun
beberapa jenis similarity dalam modul Wordnet
NLTK adalah:

900

Geography, History

Tabel 1 Kelas utama DDC

• Path Similarity
Path Similarity mencari kemiripan antara
dua kata berdasarkan jarak terdekat antara kata
berdasarkan hubungan hypernim/hyponim di
dalam Wordnet.

Natural Language ToolKit (NLTK)
NLTK dikembangkan sejak tahun 2001 di
University of Pennsylvania, untuk membantu
dalam penelitian tentang Natural Language
Processing (NLP) (Bird 2009). NLTK
mempunyai empat keunggulan, yaitu:

• Lch Similarity (Leacock-Chodorow)
Sama dengan Path Similarity, namun pada
Lch Similarity dihitung juga maksimum dari
kedalaman taksonomi hypernim/hyponim kata
yang dicari kemiripannya. Rumus umumnya
adalah:

• Simplicity, NLTK memberikan pengguna
pengetahuan singkat tentang NLP, tanpa
harus memahami keseluruhan NLP.
• Consistency,
NLTK
dibuat
dengan
antarmuka, dan struktur data yang konsisten,
juga metode dengan penamaan yang mudah.
• Extensibility,
NLTK
memungkinkan
penambahan
modul
baru
untuk
menyelesaikan masalah-masalah NLP.
• Modularity, NLTK memungkinkan modul
digunakan
secara
independen
tanpa
memerlukan modul yang lain.  

-log(p/2d) …………………(1)
dengan:
p = jarak terpendek antara dua kata.
d = kedalaman taksonomi hypernim/hyponim.
• Wup Similarity (Wu-Palmer)
Wup Similarity mencari kemiripan antara
dua kata berdasarkan kedalaman dari dua kata
dalam taksonomi hypernim/hyponim Wordnet,
dan kedalaman dari Least Common Subsumer
(LCS) dari dua kata tersebut. LCS adalah
hyponim dari dua kata yang dicari
kemiripannya.

NLTK mempunyai banyak fungsi dan
modul untuk membantu penelitian di bidang
NLP, salah satunya adalah fungsi similarity dan
modul Wordnet. 



Lin Similarity
Lin Similarity mencari kemiripan antara dua
kata berdasarkan Information Content (IC) dari
LCS. Adapun rumus Lin Similarity adalah:

Wordnet
Wordnet adalah elektronik lexical database
yang dikembangkan oleh tim Prof. George
Miller di Universitas Princeton, sejak tahun
1985. Kata-kata di dalam Wordnet akan disusun
dalam synonym sets (synsets). Setiap kata di
dalam
Wordnet
memiliki
hubungan
hypernim/hyponim (Miller 1995).
Wordnet di dalam NLTK sangat cocok
digunakan untuk menghitung similarity karena
terdapat hubungan similarity kata benda
(nouns), kata kerja (verbs) dalam bentuk hirarki.

(2.0*lcs_ic)/(ic1+ic2)……….(2)
dengan:
lcs_ic
ic1
ic2

= nilai dari lcs antara dua kata.
= nilai dari kata 1 pada IC.
= nilai dari kata 2 pada IC.

Penelitian ini menggunakan Lin Similarity
dengan Ic_brown sebagai IC yang digunakan.

 

3

 

Ic_brown adalah korpus yang dibuat pada tahun
1961 di Universitas Brown. Korpus Brown
mengandung jutaan teks dari 500 sumber, yang
telah dikategorikan berdasarkan jenisnya,
seperti berita, editorial, dan lain-lain (Bird
2009).

antara keyword dokumen dan keterangan kelas
pada DDC. Keyword yang digunakan adalah
keyword yang diberikan oleh penulis tesis atau
disertasi, jadi kata-kata dalam keyword dapat
mengandung istilah biologi ataupun singkatan.
Keyword dan keterangan pada kelas DDC yang
akan diproses adalah kata benda (noun) dan kata
kerja (verb). Kata-kata seperti kata sifat, istilah
biologi, dan singkatan akan dihilangkan karena
tidak dapat dicari kemiripannya. Keterangan
pada sistem DDC diolah dengan ketentuan jika
keterangan terdiri atas dua kata atau lebih,
setiap kata akan dipisahkan, namun tetap
mempunyai kelas yang sama.

METODE PENELITIAN
Tahapan yang akan dilakukan pada
penelitian ini dapat dilihat pada Gambar 1.

Penghitungan Similarity
Similarity akan dihitung menggunakan
fungsi lin_similarity yang tersedia di NLTK
dengan menggunakan brown IC. Lin Similarity
digunakan karena merupakan penghitungan
similarity
berdasarkan
seberapa
mirip
pengertian antara dua kata. Lin similarity
menghitung LCS dari dua kata, dan
menggunakan nilai kata pada IC berbeda
dengan path similarity yang hanya menghitung
jarak/path antara dua kata.
Penentuan kelas yang relevan pada setiap
level kelas di DDC adalah mencari nilai
maksimum dari beberapa metode, yaitu:
• s1 = mencari nilai maksimum-maksimum
similarity untuk setiap keterangan kelas,
dengan keyword dokumen.
• s2 = mencari nilai maksimum rata-rata
similarity untuk setiap keterangan kelas,
dengan keyword dokumen.
• s3 = mencari nilai maksimum minimum
similarity untuk setiap keterangan kelas,
dengan keyword dokumen.
Metode yang dipilih akan digunakan hingga
mendapatkan similarity antara keyword dan
kelas section. Dalam menentukan kelas DDC
pada aplikasi ini, pertama akan dicari similarity
antara keyword dan keterangan pada sembilan
kelas utama dari DDC. Proses ini akan
menghasilkan satu atau lebih kelas utama yang
relevan. Setelah itu, akan dicari similarity antara
keyword dan keterangan kelas divisi dari DDC
sehingga menghasilkan satu atau lebih kelas
divisi yang relevan. Terdapat beberapa kelas
divisi yang kosong (belum digunakan). Jika hal
ini ditemukan, akan langsung dicari similarity
antara keyword dan keterangan pada kelas
section. Setelah kelas divisi yang relevan
didapatkan, langkah selanjutnya adalah mencari
similarity antara keyword dan keterangan pada
kelas section sehingga menghasilkan kelas

Gambar 1 Skema implementasi metode.
Pengumpulan Dokumen 
Dokumen yang digunakan pada penelitian
ini adalah dokumen abstrak tesis dan disertasi.
Bagian keyword diambil dari repository IPB
(http://repository.ipb.ac.id) dan data kelas
diambil dari perpustakaan IPB pada bagian
Online Access Pubic Catalog (OPAC)
(katalog.perpustakaan.ipb.ac.id/senayan3stable11/). Sebanyak 30 dokumen tesis dan
disertasi diambil secara acak.
Praproses Keyword dan Keterangan
Data yang sudah dikumpulkan akan diproses
dengan cara mencari similarity/kemiripan kata

 

4

 

section yang relevan. Skema dari penentuan
similarity dapat dilihat pada Gambar 2.

Tabel 2 Dokumen tesis dan disertasi

Gambar 2 Skema penghitungan similarity.

Dokumen

Kelas

Tipe

1

712

Tesis

2

332

Tesis

3

633

Tesis

4

711

Tesis

5

631

Tesis

6

519

Tesis

7

633

Tesis

8

632

Tesis

9

595

Tesis

10

316

Tesis

11

339

Tesis

12

579

Tesis

13

338

Tesis

14

636

Tesis

15

638

Disertasi

16

636

Disertasi

Evaluasi Hasil Percobaan

17

316

Tesis

Tahap evaluasi dilakukan secara objektif
dengan membandingkan kelas yang dihasilkan
oleh sistem dengan kelas asli dokumen, apakah
hasilnya sama sampai digit section yang
dimilikinya, atau sampai kelas divisi, atau
hanya kelas utamanya saja yang sama.

18

613

Tesis

19

334

Tesis

20

159

Tesis

21

633

Tesis

22

633

Disertasi

Lingkungan Pengembangan

23

633

Disertasi

Lingkungan pengembangan yang digunakan
pada penelitian ini adalah:

24

711

Disertasi

25

658

Disertasi







26

330

Disertasi

27

639

Disertasi

28

556

Disertasi

29

633

Disertasi

30

504

Disertasi

Prosesor Intel Core i5 2.3 GHz.
RAM 4 GB DDR3.
MAC OSX 10.7.
Harddisk 320 GB.
PHP dan Python.

HASIL DAN PEMBAHASAN

Praproses Keyword dan Keterangan

Pengumpulan Dokumen

Pembersihan kata dalam keyword dan
keterangan kelas saat ini dilakukan secara
manual, dengan cara menghapus kata-kata
dalam keyword dan keterangan. Adapun contoh
dari keyword yang akan dicari nilai similarity
dengan keterangan kelas adalah:

Dokumen yang digunakan pada penelitian
ini sebanyak 30 dokumen yang terdiri atas
dokumen tesis dan disertasi, dengan kelas DDC
antara 100 sampai 900. Namun karena beberapa
kelas seperti kelas 200 (Agama) sangat jarang
jumlah koleksinya di Institut Pertanian Bogor,
beberapa kelas tidak ada dokumennya dalam
penelitian ini, namun kelas tersebut tetap
digunakan dalam penghitungan similarity.
Contoh dokumen yang digunakan dapat dilihat
pada Lampiran 1, dan 30 dokumen yang
dikumpulkan dapat dilihat pada Tabel 2. 

Garden City Concept, Historical Landscape,
Preservation Plan.
Keyword di atas akan dibersihkan dari katakata selain kata benda dan kata kerja sehingga
menghasilkan:

 

5

 

Garden
City
Preservation Plan.

Concept,

Landscape,

30 dokumen. Jadi, setiap dokumen akan
dihitung tiga kali menggunakan metode yang
berbeda. Contoh penghitungan similarity untuk
keyword garden city concept, landscape,
preservation plan, dengan keterangan kelas 500
(science) dan keterangan kelas 700 (sport)
menggunakan metode s1, s2, dan s3. Dapat
dilihat pada Tabel 4.

Kata historical akan dihapus karena
merupakan kata sifat. Hasil dari praproses
dokumen adalah kata-kata dalam keyword dan
keterangan
kelas
yang
akan
dicari
kemiripannya. Jumlah kata hasil praproses
keywod dan keterangan sangat beragam.
Keterangan dalam kelas yang terdiri atas dua
kata atau lebih akan dipisahkan, namun tetap
menggunakan kelas yang sama. Kelas utama
yang akan digunakan berbeda dengan kelas
pada Tabel 1. Contoh kelas utama yang akan
digunakan pada penelitian ini dapat dilihat pada
Tabel 3.

Tabel 4 Contoh penghitungan similarity dengan
metode s1,s2,s3

Tabel 3 Kelas utama DDC setelah praproses
data

500- science

700- sport

garden

0

0

city

0

0

concept

0.570850334

0.270401581

landscape

0

0

Kelas

Disiplin Ilmu

preservation

0.186301347

0.3624762

100

Phylosophy

plan

0.492911084

0.234150734

100

Psychology

200

Religion

Maksimum (s1)

0.570850334

0.3624762

300

Social

Rata rata (s2)

0.208343794

0.175643531

400

Language

Minimum(s3)

0.143120866

0.143120866

500

Science

500

Mathematics

600

Technology

700

Art

700

Fine

700

Sport

800

Literature

900

Geography

900

History

Dari Tabel 4 dapat dilihat bahwa dengan
metode s1, nilai similarity antara keyword dan
keterangan kelas 500 lebih besar daripada nilai
similarity antara keyword dengan keterangan
kelas 700. Jadi, untuk metode s1 selanjutnya
akan masuk ke dalam kelas utama 500 untuk
mencari nilai similarity antara keyword dan
keterangan kelas divisi 500. Namun untuk
metode s3 nilai similarity antara keyword dan
keterangan kelas 700 lebih besar, daripada nilai
similarity antara keyword dengan keterangan
kelas 500. Jadi, untuk metode s3, selanjutnya
akan masuk ke dalam kelas utama 700 untuk
mencari nilai similarity antara keyword dan
keterangan kelas divisi 700.
Penghitungan similarity di kelas divisi dan
section sama dengan penghitungan di kelas
utama. Jika ditemukan kelas divisi yang kosong
(belum digunakan), akan langsung dicari nilai
similarity antara keyword dan keterangan ke
dalam kelas section-nya. Hasil penghitungan
similarity antara keyword dengan keterangan
kelas divisi 700 menggunakan metode s3 dapat
dilihat pada Tabel 5.
Dilihat dari Tabel 5, penghitungan similarity
dengan metode s3 antara keyword dan
keterangan divisi kelas 700 menghasilkan nilai
maksimum 0.346887634 yang dimiliki oleh
kelas divisi 710 (landscape art).

Jumlah kelas utama yang akan dicari nilai
kemiripannya terhadap keyword menjadi 14
kelas utama. Kelas divisi dan kelas section juga
akan dipisahkan menjadi satu kata untuk setiap
kelas seperti pada kelas utama.
Penghitungan Similarity
Sesuai
dengan
metode
penelitian,
penghitungan similarity dilakukan dengan
menggunakan Lin Similarity. Similarity
dihitung antara keyword dari dokumen dan
keterangan masing-masing kelas. Terdapat tiga
metode (s1,s2,s3) yang digunakan untuk
menentukan kelas DDC yang relevan pada level
kelas utama, kelas divisi, dan kelas section.
Ketiga metode ini akan digunakan pada setiap

 

6

 

Dapat dilihat bahwa kelas divisi 740 belum
digunakan, oleh karena itu langsung dicari
similarity antara keyword dan keterangan kelas
section 740 (741-749).

Tabel 6 Penghitungan similarity antara
keyword dan kelas section
Kelas Section

Nilai S3

711 Area

0.484605898

711 Planning

0.208208529

Nilai S3
0.198517920

712 Landscape

0.346887634

712 Architecture

0.111077841

710 Landscape

0.346887634

712 Landscape

0.346887634

710 Art

0.143120866

712 Design

0.211127657

720 Philosophy

0.180421855

713 Landscape

0.346887634

720 Theory

0.165297459

713 Design

0.211127657

720 Architecture

0.111077841

713 Trafficway

0.000000000

730 Philosophy

0.180421855

714 Specific

0.169632383

730 Theory

0.165297459

714 Element

0.181724685

730 Plastic

0.075131309

714 Landscape

0.346887634

0.198517920

714 Design

0.211127657

715 Plan

0.198063520

Tabel 5 Penghitungan similarity antara
keyword dan kelas divisi
Kelas Divisi
700 Arts

730 Arts
740 Kosong

Cari di section 741 -749

750 Painting

0.132406832

715 Landscape

0.346887634

760 Graphic

0.107043254

715 Design

0.211127657

760 Art

0.143120866

717 Structure

0.169449368

770 Photography

0.222508016

717 Landscape

0.346887634

770 Photograph

0.141318276

717 Design

0.211127657

780 Philosophy

0.180421855

718 Lanscape

0.000000000

780 Music

0.079106285

718 Design

0.211127657

790 Recreation

0.270946213

718 Cemetry

0.000000000

790 Activity

0.341973764

719 Natural

0.124086610

Hasil maksimum
s3 di section 741749

0.270946213

719 Landscape
Hasil maksimum s3
di section 741-749

0.346887634

Maksimum

0.346887634

Maksimum

0.484605898

Kelas

710

Kelas

0.270946213

711

Evaluasi

Setelah mendapatkan kelas divisi 710
sebagai kelas divisi dengan nilai similarity
terbesar, langkah selanjutnya adalah mencari
nilai similarity antara keyword dan keterangan
kelas section 711-719. Contoh penghitungan
kelas section dengan metode s3 dapat dilihat
pada Tabel 6.
Hasil akhir penghitungan similarity untuk
menentukan kelas DDC yang relevan dengan
metode s3 menghasilkan kelas 711 sebagai
kelas dari dokumen dengan keyword garden city
concept, landscape, preservation plan. Kelas
dokumen asli dengan keyword tersebut adalah
712.

Evaluasi dilakukan dengan menguji 30
dokumen percobaan ke dalam aplikasi
penentuan subjek ini dengan metode s1, s2, dan
s3. Setiap dokumen akan diberi bobot yang
berbeda sesuai dengan kesamaan digit kelas
yang dihasilkan dibandingkan dengan digit
kelas asli dokumen. Adapun bobot yang
diberikan untuk setiap dokumen adalah:
• 100 untuk dokumen yang menghasilkan
kelas yang sama dengan kelas dokumen
aslinya.
• 75 untuk dokumen yang menghasilkan kelas
yang sama sampai kelas divisi dengan kelas
dokumen aslinya.

 

7

 

dokumen bernilai 0, 5 dokumen bernilai 25, dan
1 dokumen bernilai 50. Metode s3
menghasilkan 27 dokumen bernilai 0, 3
dokumen bernilai 25, dan 2 dokumen bernilai
50. Ketiga metode di atas belum menghasilkan
dokumen yang bernilai 100. Adapun hasil
similarity dari 30 dokumen dapat dilihat pada
Lampiran 2.

• 25 untuk dokumen yang menghasilkan kelas
yang sama hanya kelas utama, dengan kelas
pada dokumen aslinya.
• 0 untuk dokumen yang menghasilkan kelas
yang benar-benar berbeda dengan kelas pada
dokumen aslinya.
Grafik hasil evaluasi 30 dokumen dengan
menggunakan metode s1 dapat dilihat pada
Gambar 3, untuk metode s2 dapat dilihat pada
Gambar 4, dan untuk metode dapat dilihat pada
Gambar 5.

SIMPULAN DAN SARAN
Simpulan
Dari hasil penelitian ini dapat disimpulkan
bahwa penentuan subjek berbasis DDC
menggunakan penghitungan similarity kata
kerja dan kata benda dari NLTK kurang
berhasil, karena dengan ketiga metode yang
digunakan
tidak
ada
dokumen
yang
menghasilkan nilai 100, sedikitnya dokumen
yang bernilai 75, dan karena yang digunakan
adalah kata dalam keyword bukan frasa keyword
tersebut.

Jumlah

30
25
20
15
10
5
0
Salah

Utama

Divisi

Section

Hasil Penentuan Kelas

Saran

Gambar 3 Grafik evaluasi 30 dokumen
dengan metode s1.

Saran untuk penelitian selanjutnya adalah:
• Menggunakan penghitungan similarity lain
selain Lin Similarity.
• Mencari pembobotan frase agar kata yang di
hitung kemiripannya mewakili maksud dari
frase keyword dokumen.
• Menggunakan korpus lain selain brown
corpus untuk istilah istilah fisika biologi.
• Menggunakan stemming sehingga tidak ada
keyword yang terbuang disebabkan kata
tersebut bukan termasuk noun atau verb.

Jumlah

30
25
20
15
10
5
0
Salah

Utama

Divisi

Section

Hasil Penentuan Kelas

 

Jumlah

Gambar 4 Grafik evaluasi 30 dokumen
dengan metode s2.

DAFTAR PUSTAKA
Bird S, Klein E, Loper E. 2009. Natural
Language Processing with Python. California:
O’Reily.

30
25
20
15
10
5
0

Hardjoprakoso M. 1993. Terjemahan Ringkasan
Klasifikasi Desimal Dewey dan Indeks Relatif.
Jakarta: Perpustakaan Nasional.
Salah

Utama

Divisi

Hliaoutakis A, Varelas G, Voutsakis E, and
Pertakis EGM. 2006. Information Retrieval by
Semantic Similarity. IJSWIS 3(3):55-73.

Section

Hasil Penentuan Kelas

 

Miller GA. 1995. Wordnet: A Lexical Database
for English. Communication of the ACM
38:39-41.

Gambar 5 Grafik evaluasi 30 dokumen
dengan metode s3.
Sesuai dengan grafik pada Gambar 2,
Gambar 3, dan Gambar 4 dengan menggunakan
metode s1 sebanyak 24 dokumen bernilai 0,
sebanyak 6 dokumen bernilai 25 dan 2 dokumen
bernilai 50. Metode s2 menghasilkan 25

Mortimer M. 2000. Learn Dewey Decimal
Classification. Ed ke-22. Texas: TotalRecall
Publication, Inc.

 

8

 

LAMPIRAN
 

 

 

9

 

Lampiran 1 Antarmuka implementasi

 

10

 

Lampiran 2 Hasil similarity 30 dokumen
Kelas Utama

Kelas Divisi

Kelas Section

AVG

MAX

MIN

AVG

MAX

MIN

Tesis

500

500

700

710

710

710

711

Tesis

700

700

700

Tesis

700

200

200

Tesis

200

200

700

790

790

710

717

Tesis

700

700

700

Tesis

700

500

700

590

550

590

Tesis

700

700

700

Tesis

700

700

700

Tesis

100

600 700

200

Tesis

200

400

700

Tesis

200

200

700

Tesis

500

500

400

500 540 550

500 550

500

Tesis

700

200

700

Tesis

300

300

700

Disertasi

700

700

700

Disertasi

500

500

700

Tesis

600

600

700

Tesis

700

700

700

Tesis

200

200

700

Tesis

100

100 200

700

150

150

170

Tesis

500

500

500

Disertasi

700

700

700

Disertasi

200

700

200

Disertasi

200

300

700

790

720

748

Disertasi

700

700

700

Disertasi

200

300

400

380

300 362

352

Disertasi

500

500

700

Disertasi

500

600

700

540

500 540

590

Disertasi

600

600

400

640

600 620 660 690

650

Disertasi

500

500

700

540

500 540

590

 

 

AVG

MAX

156 158

155 158

501 506

506

MIN

1

 

Tujuan

PENDAHULUAN

Penelitian ini bertujuan membuat aplikasi
yang dapat menentukan subjek secara otomatis
dengan kelas berbasis DDC menggunakan
metode menghitung similarity antar dua kata
dengan NLTK (Natural Language ToolKit).
Kata yang dicari similarity-nya adalah
keterangan kelas DDC dengan keyword dari
dokumen perpustakaan, serta menguji relevansi
kelas yang dihasilkan dilihat dari segi
penentuan oleh pustakawan (manual) dan oleh
komputer (otomatis).

Latar Belakang
Dokumen perpustakaan berbasis digital saat
ini sudah sangat banyak, baik di perpustakaan
umum maupun perpustakaan institusi. Dalam
pengelolaan dokumen perpustakaan, baik digital
maupun tertulis dilakukan klasifikasi terhadap
dokumen tersebut agar dokumen lebih mudah
dicari kembali. Ada beberapa sistem klasifikasi
utama dokumen perpustakaan yang dikenal di
Indonesia, seperti Library of Congress
Classification
(LOC),
Dewey
Decimal
Classification (DDC), dan Universal Decimal
Classification (UDC). Walaupun kadangkadang digunakan juga klasifikasi menurut
keinginan pembaca atau sistem pengelompokan
buatan sendiri, kebanyakan perpustakaan lebih
suka menggunakan salah satu dari sistem
klasifikasi dokumen utama yang ada karena
sistemnya dikenal luas (Hardjoprakoso 1993).
Seorang pustakawan dalam mengelola
dokumen
perpustakaan
harus
mengklasifikasikan dokumen ke dalam salah
satu dari sistem klasifikasi tersebut. Jika
perpustakaan tersebut menggunakan sistem
DDC di perpustakaannya, sebuah dokumen
harus diklasifikasikan dengan sistem DDC.
Sebelum pustakawan menempatkan suatu
dokumen ke dalam rak, pustakawan harus
mengetahui dengan benar kelas dari dokumen
tersebut. Dalam DDC, penentuan kelas dapat
dicari dari subjek dokumen tersebut. Subjek
sebuah dokumen perpustakaan dapat ditinjau
dari berbagai sudut, contohnya dari jenis
dokumen atau dari inti dokumen tersebut. Untuk
menemukan subjek sebuah dokumen ada
beberapa metode yang digunakan untuk
mengklasifikasikan
subjek
dokumen
perpustakaan, salah satunya adalah metode
Keyword In Context, Keyword Out Of Context
(KWIC KWOC).
Saat ini dokumen di perpustakaan IPB
diolah menggunakan sistem DDC untuk
pengklasifikasiannya, dan menggunakan CAB
Thesaurus untuk membantu memutuskan kelas
yang sesuai dengan subjek dokumen tersebut,
sedangkan penentuan subjeknya dilihat dari
berbagai sudut oleh pustakawan yang mengolah
dokumen tersebut, contohnya dilihat dari sudut
bacaan, dari tipe dokumen, atau dari maksud
penulis, untuk dokumen tesis dan disertasi
subjek ditentukan dari keyword dokumennya.
Walaupun sudah menggunakan DDC dan CAB
Thesaurus, dalam pelaksanaannya klasifikasi
masih dilakukan secara manual. Hal itu
berdampak pada lamanya pengolahan dokumen
perpustakaan.

Ruang Lingkup
Ruang lingkup penelitian ini dibatasi pada:
• Penghitungan
similarity
menggunakan
Natural Language ToolKit (NLTK) dengan
bahasa pemograman python, dengan modul
Wordnet.
• Penghitungan
similarity
Menggunakan
fungsi lin_similarity.
• Kelas DDC 000-099 tidak digunakan karena
merupakan kelas untuk dokumen yang
bersubjek karya umum (general).
• Hanya kata benda dan kata kerja pada
keyword dokumen yang digunakan.
• Menggunakan metadata tesis dan disertasi
IPB berbahasa Inggris.

TINJAUAN PUSTAKA
Dewey Decimal Classification (DDC)
Sebuah sistem klasifikasi yang diciptakan
oleh Melvil Dewey pada tahun 1876, dan sejak
itu
telah
banyak
dimodifikasi
dan
dikembangkan hingga saat ini versi terakhir
DDC adalah DDC 22. DDC termasuk ke dalam
sistem klasifikasi hirarki. DDC terdiri atas dua
bagian
yaitu
kelas
dan
keterangan
(Hardjoprakoso 1993). DDC dituliskan dengan
tiga digit angka, angka pertama menunjukkan
kelas utama, angka kedua menunjukkan kelas
divisi, dan angka ketiga menunjukkan kelas
section-nya. Kelas utama adalah kelas seperti
100, 200, sampai 900. Kelas divisi adalah kelas
seperti 110, 120, 130, sampai 190 (angka
persepuluhan), dan kelas section adalah kelas
dengan angka antara 111-119. Klasifikasi
dokumen
menggunakan
sistem
DDC
memerlukan penentuan subjek dokumen, fokus
disiplin dokumen, atau jika diperlukan
pendekatan dari bentuk dokumen (Mortimer
2000). Setiap dokumen perpustakaan yang
diolah menggunakan sistem DDC akan
dimasukkan ke dalam satu dari kelas yang ada

 

ABSTRACT
ANDRI SETYAWAN. Automatic Subject Classification Based on DDC System for Library
Document. Supervised by FIRMAN ARDIANSYAH.
Subject classification for library document with Dewey Decimal Classification (DDC) system is
difficult to perform manually. The goal of this research is to make an application that automatically do
perform subject classification for library document using similarity method. We use Natural Language
ToolKit (NLTK) with Wordnet module to find similarity between keyword and DDC class. DDC is a
hierarchy classification. We use Lin Similarity to find similarity between two words, with Brown
corpus for Information Content (IC) of Wordnet. Wordnet can find similarity for only noun and verb,
so we do not process other kinds of word. We use 30 documents combination of theses and
dissertations in Bogor Agriculture University. We use 3 different methods to decide the relevant class
of DDC which is similar to a document keyword. The first method is maximum-maximum method, the
second one is maximum-average method, and the third method is maximum-minimum method. The
first method results in 6 documents having the same main class, 2 documents having the same division
class, and 0 document having the same section class. The second method results in 5 documents having
the same main class, 1 document having the same division class, and 0 document having the same
section class. The third method results in 3 documents having the same main class, 2 documents having
the same division class, and 0 document having the same section class.
Keyword: Dewey Decimal Classification, Automatic Subject Classification, Lin Similarity, Natural
Language ToolKit

2

 

di sistem DDC. Contoh kelas utama dari DDC
dapat dilihat pada Tabel 1.

Kelas

Disiplin Ilmu

000

General

100

Phylosophy, Psychology

NLTK versi 2.0 terdapat 9 hirarki terpisah
untuk kata benda dengan 80.000 konsep dan
554 hirarki untuk kata kerja dengan 135.000
konsep (Hliaoutakis et al 2006). Kata sifat
(adjectives)
belum
memiliki
hubungan
similarity dalam bentuk hirarki, jadi pencarian
similarity untuk kata sifat belum dapat
dilakukan di modul Wordnet NLTK.

200

Religion

Similarity dalam Wordnet NLTK

300

Social

400

Language

500

Science, Mathematics

600

Technology

700

Art, Fine, Sport

800

Literature

Similarity dalam Wordnet didapatkan dari
seberapa mirip kata A dengan kata B, dalam
konsep hirarki Wordnet (synsets). Contohnya
adalah kata car lebih mirip ke kata boat
daripada ke kata tree, karena kata car dan kata
boat mempunyai ancestor konsep yang sama
yaitu kata vehicle (Bird 2009). Adapun
beberapa jenis similarity dalam modul Wordnet
NLTK adalah:

900

Geography, History

Tabel 1 Kelas utama DDC

• Path Similarity
Path Similarity mencari kemiripan antara
dua kata berdasarkan jarak terdekat antara kata
berdasarkan hubungan hypernim/hyponim di
dalam Wordnet.

Natural Language ToolKit (NLTK)
NLTK dikembangkan sejak tahun 2001 di
University of Pennsylvania, untuk membantu
dalam penelitian tentang Natural Language
Processing (NLP) (Bird 2009). NLTK
mempunyai empat keunggulan, yaitu:

• Lch Similarity (Leacock-Chodorow)
Sama dengan Path Similarity, namun pada
Lch Similarity dihitung juga maksimum dari
kedalaman taksonomi hypernim/hyponim kata
yang dicari kemiripannya. Rumus umumnya
adalah:

• Simplicity, NLTK memberikan pengguna
pengetahuan singkat tentang NLP, tanpa
harus memahami keseluruhan NLP.
• Consistency,
NLTK
dibuat
dengan
antarmuka, dan struktur data yang konsisten,
juga metode dengan penamaan yang mudah.
• Extensibility,
NLTK
memungkinkan
penambahan
modul
baru
untuk
menyelesaikan masalah-masalah NLP.
• Modularity, NLTK memungkinkan modul
digunakan
secara
independen
tanpa
memerlukan modul yang lain.  

-log(p/2d) …………………(1)
dengan:
p = jarak terpendek antara dua kata.
d = kedalaman taksonomi hypernim/hyponim.
• Wup Similarity (Wu-Palmer)
Wup Similarity mencari kemiripan antara
dua kata berdasarkan kedalaman dari dua kata
dalam taksonomi hypernim/hyponim Wordnet,
dan kedalaman dari Least Common Subsumer
(LCS) dari dua kata tersebut. LCS adalah
hyponim dari dua kata yang dicari
kemiripannya.

NLTK mempunyai banyak fungsi dan
modul untuk membantu penelitian di bidang
NLP, salah satunya adalah fungsi similarity dan
modul Wordnet. 



Lin Similarity
Lin Similarity mencari kemiripan antara dua
kata berdasarkan Information Content (IC) dari
LCS. Adapun rumus Lin Similarity adalah:

Wordnet
Wordnet adalah elektronik lexical database
yang dikembangkan oleh tim Prof. George
Miller di Universitas Princeton, sejak tahun
1985. Kata-kata di dalam Wordnet akan disusun
dalam synonym sets (synsets). Setiap kata di
dalam
Wordnet
memiliki
hubungan
hypernim/hyponim (Miller 1995).
Wordnet di dalam NLTK sangat cocok
digunakan untuk menghitung similarity karena
terdapat hubungan similarity kata benda
(nouns), kata kerja (verbs) dalam bentuk hirarki.

(2.0*lcs_ic)/(ic1+ic2)……….(2)
dengan:
lcs_ic
ic1
ic2

= nilai dari lcs antara dua kata.
= nilai dari kata 1 pada IC.
= nilai dari kata 2 pada IC.

Penelitian ini menggunakan Lin Similarity
dengan Ic_brown sebagai IC yang digunakan.

 

3

 

Ic_brown adalah korpus yang dibuat pada tahun
1961 di Universitas Brown. Korpus Brown
mengandung jutaan teks dari 500 sumber, yang
telah dikategorikan berdasarkan jenisnya,
seperti berita, editorial, dan lain-lain (Bird
2009).

antara keyword dokumen dan keterangan kelas
pada DDC. Keyword yang digunakan adalah
keyword yang diberikan oleh penulis tesis atau
disertasi, jadi kata-kata dalam keyword dapat
mengandung istilah biologi ataupun singkatan.
Keyword dan keterangan pada kelas DDC yang
akan diproses adalah kata benda (noun) dan kata
kerja (verb). Kata-kata seperti kata sifat, istilah
biologi, dan singkatan akan dihilangkan karena
tidak dapat dicari kemiripannya. Keterangan
pada sistem DDC diolah dengan ketentuan jika
keterangan terdiri atas dua kata atau lebih,
setiap kata akan dipisahkan, namun tetap
mempunyai kelas yang sama.

METODE PENELITIAN
Tahapan yang akan dilakukan pada
penelitian ini dapat dilihat pada Gambar 1.

Penghitungan Similarity
Similarity akan dihitung menggunakan
fungsi lin_similarity yang tersedia di NLTK
dengan menggunakan brown IC. Lin Similarity
digunakan karena merupakan penghitungan
similarity
berdasarkan
seberapa
mirip
pengertian antara dua kata. Lin similarity
menghitung LCS dari dua kata, dan
menggunakan nilai kata pada IC berbeda
dengan path similarity yang hanya menghitung
jarak/path antara dua kata.
Penentuan kelas yang relevan pada setiap
level kelas di DDC adalah mencari nilai
maksimum dari beberapa metode, yaitu:
• s1 = mencari nilai maksimum-maksimum
similarity untuk setiap keterangan kelas,
dengan keyword dokumen.
• s2 = mencari nilai maksimum rata-rata
similarity untuk setiap keterangan kelas,
dengan keyword dokumen.
• s3 = mencari nilai maksimum minimum
similarity untuk setiap keterangan kelas,
dengan keyword dokumen.
Metode yang dipilih akan digunakan hingga
mendapatkan similarity antara keyword dan
kelas section. Dalam menentukan kelas DDC
pada aplikasi ini, pertama akan dicari similarity
antara keyword dan keterangan pada sembilan
kelas utama dari DDC. Proses ini akan
menghasilkan satu atau lebih kelas utama yang
relevan. Setelah itu, akan dicari similarity antara
keyword dan keterangan kelas divisi dari DDC
sehingga menghasilkan satu atau lebih kelas
divisi yang relevan. Terdapat beberapa kelas
divisi yang kosong (belum digunakan). Jika hal
ini ditemukan, akan langsung dicari similarity
antara keyword dan keterangan pada kelas
section. Setelah kelas divisi yang relevan
didapatkan, langkah selanjutnya adalah mencari
similarity antara keyword dan keterangan pada
kelas section sehingga menghasilkan kelas

Gambar 1 Skema implementasi metode.
Pengumpulan Dokumen 
Dokumen yang digunakan pada penelitian
ini adalah dokumen abstrak tesis dan disertasi.
Bagian keyword diambil dari repository IPB
(http://repository.ipb.ac.id) dan data kelas
diambil dari perpustakaan IPB pada bagian
Online Access Pubic Catalog (OPAC)
(katalog.perpustakaan.ipb.ac.id/senayan3stable11/). Sebanyak 30 dokumen tesis dan
disertasi diambil secara acak.
Praproses Keyword dan Keterangan
Data yang sudah dikumpulkan akan diproses
dengan cara mencari similarity/kemiripan kata

 

4

 

section yang relevan. Skema dari penentuan
similarity dapat dilihat pada Gambar 2.

Tabel 2 Dokumen tesis dan disertasi

Gambar 2 Skema penghitungan similarity.

Dokumen

Kelas

Tipe

1

712

Tesis

2

332

Tesis

3

633

Tesis

4

711

Tesis

5

631

Tesis

6

519

Tesis

7

633

Tesis

8

632

Tesis

9

595

Tesis

10

316

Tesis

11

339

Tesis

12

579

Tesis

13

338

Tesis

14

636

Tesis

15

638

Disertasi

16

636

Disertasi

Evaluasi Hasil Percobaan

17

316

Tesis

Tahap evaluasi dilakukan secara objektif
dengan membandingkan kelas yang dihasilkan
oleh sistem dengan kelas asli dokumen, apakah
hasilnya sama sampai digit section yang
dimilikinya, atau sampai kelas divisi, atau
hanya kelas utamanya saja yang sama.

18

613

Tesis

19

334

Tesis

20

159

Tesis

21

633

Tesis

22

633

Disertasi

Lingkungan Pengembangan

23

633

Disertasi

Lingkungan pengembangan yang digunakan
pada penelitian ini adalah:

24

711

Disertasi

25

658

Disertasi







26

330

Disertasi

27

639

Disertasi

28

556

Disertasi

29

633

Disertasi

30

504

Disertasi

Prosesor Intel Core i5 2.3 GHz.
RAM 4 GB DDR3.
MAC OSX 10.7.
Harddisk 320 GB.
PHP dan Python.

HASIL DAN PEMBAHASAN

Praproses Keyword dan Keterangan

Pengumpulan Dokumen

Pembersihan kata dalam keyword dan
keterangan kelas saat ini dilakukan secara
manual, dengan cara menghapus kata-kata
dalam keyword dan keterangan. Adapun contoh
dari keyword yang akan dicari nilai similarity
dengan keterangan kelas adalah:

Dokumen yang digunakan pada penelitian
ini sebanyak 30 dokumen yang terdiri atas
dokumen tesis dan disertasi, dengan kelas DDC
antara 100 sampai 900. Namun karena beberapa
kelas seperti kelas 200 (Agama) sangat jarang
jumlah koleksinya di Institut Pertanian Bogor,
beberapa kelas tidak ada dokumennya dalam
penelitian ini, namun kelas tersebut tetap
digunakan dalam penghitungan similarity.
Contoh dokumen yang digunakan dapat dilihat
pada Lampiran 1, dan 30 dokumen yang
dikumpulkan dapat dilihat pada Tabel 2. 

Garden City Concept, Historical Landscape,
Preservation Plan.
Keyword di atas akan dibersihkan dari katakata selain kata benda dan kata kerja sehingga
menghasilkan:

 

5

 

Garden
City
Preservation Plan.

Concept,

Landscape,

30 dokumen. Jadi, setiap dokumen akan
dihitung tiga kali menggunakan metode yang
berbeda. Contoh penghitungan similarity untuk
keyword garden city concept, landscape,
preservation plan, dengan keterangan kelas 500
(science) dan keterangan kelas 700 (sport)
menggunakan metode s1, s2, dan s3. Dapat
dilihat pada Tabel 4.

Kata historical akan dihapus karena
merupakan kata sifat. Hasil dari praproses
dokumen adalah kata-kata dalam keyword dan
keterangan
kelas
yang
akan
dicari
kemiripannya. Jumlah kata hasil praproses
keywod dan keterangan sangat beragam.
Keterangan dalam kelas yang terdiri atas dua
kata atau lebih akan dipisahkan, namun tetap
menggunakan kelas yang sama. Kelas utama
yang akan digunakan berbeda dengan kelas
pada Tabel 1. Contoh kelas utama yang akan
digunakan pada penelitian ini dapat dilihat pada
Tabel 3.

Tabel 4 Contoh penghitungan similarity dengan
metode s1,s2,s3

Tabel 3 Kelas utama DDC setelah praproses
data

500- science

700- sport

garden

0

0

city

0

0

concept

0.570850334

0.270401581

landscape

0

0

Kelas

Disiplin Ilmu

preservation

0.186301347

0.3624762

100

Phylosophy

plan

0.492911084

0.234150734

100

Psychology

200

Religion

Maksimum (s1)

0.570850334

0.3624762

300

Social

Rata rata (s2)

0.208343794

0.175643531

400

Language

Minimum(s3)

0.143120866

0.143120866

500

Science

500

Mathematics

600

Technology

700

Art

700

Fine

700

Sport

800

Literature

900

Geography

900

History