Penerapan Algoritme Prefixspan dan Clospan untuk Mencari Pola Sekuensial pada Data Peminjaman Buku di Perpustakaan IPB

PENERAPAN ALGORITME PREFIXSPAN DAN CLOSPAN
UNTUK MENCARI POLA SEKUENSIAL PADA DATA
PEMINJAMAN BUKU DI PERPUSTAKAAN IPB

DEVI MEISITA KHAIRUNNISA

DEPARTEMEN ILMU KOMPUTER
FAKULTAS ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Penerapan Algoritme
Prefixspan dan Clospan untuk Mencari Pola Sekuensial pada Data Peminjaman
Buku di Perpustakaan IPB benar karya saya denganarahan dari komisi
pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi
mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan
maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan
dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Desember 2013
Devi Meisita Khairunnisa
NIM G64114040

ABSTRAK
DEVI MEISITA KHAIRUNNISA. Penerapan Algoritme Prefixspan dan Clospan
untuk Mencari Pola Sekuensial pada Data Peminjaman Buku di Perpustakaan
IPB. Dibimbingoleh IMAS SUKAESIH SITANGGANG dan BADOLLAHI
MUSTAFA.
Perpustakaan merupakan suatu fasilitas yang memiliki peranan penting dalam
pendidikan. Dari data perpustakaan didapatkan berbagai informasi, salah satunya
pola peminjaman buku oleh pengguna perpustakaan. Penelitian ini bertujuan
untuk menentukan pola sekuensial pada data peminjaman buku di perpustakaan
IPB dengan menggunakan algoritme Prefixspan dan Clospan. Penelitian ini
menggunakandataset berukuran mulai dari 50 sampai 4,140 dengan minimum
support mulai dari 5% sampai 15%. Hasil percobaan menunjukkan bahwa
semakin besar dataset dan minimum support yang dipakai, algoritme Clospan
memiliki kinerja lebih baik daripada Prefixspan. Selain itu, pola sekuensial yang

dihasilkan kedua algoritme menunjukkan keterkaitan antar item yaitu kode 027
(kategori perpustakaan) dengan kode 820 (kategori sastra), buku dengan kode 631
(kategori manajemen pertanian) dengan kode 636 (kategori buku peternakan dan
manajamen peternakan), buku dengan kode 631 dengan kode 658 (kategori
manajemen, administrasi bisnis dan organisasi bisnis).
Kata kunci: pola sekuensial, data transaksi sirkulasi perpustakaan, Prefixspan,
Clospan

ABSTRACT
DEVI MEISITA KHAIRUNNISA. Application of Prefixspan Algorithm and
Clospan Algorithm for Searching Sequential Pattern Mining on Data of Books
Loan in IPB’s Library. Supervised by IMAS SUKAESIH SITANGGANG dan
BADOLLAHI MUSTAFA
Library is an important facility in university. From the library data we can obtain
various information, such as patterns of borrowing books by library users. This
study aims to determine the sequential patterns of IPB’s library book loan data
using two algorithms namely Clospan and Prefixspan. This study used the dataset
with the size ranging from 50 to 4.140 and minimum support ranging from 5% to
15%. The experimental results show that the larger dataset and the minimum
support used, Clospan algorithm has better performance than Prefixspan. In

addition, the results of two sequential pattern algorithms which shows the
relationships between the book code 027 (general libraries) with 820 (literature)
books, 631 (farm management,agronomy, andhorticulture) books with book code
636 (animal husbandry and breeding in general), and 631 (farm
management,agronomy, andhorticulture) to 658 (business management,
administration, and commercial organization).
Key words: sequential pattern, library circulation data, Prefixspan, Clospan

PENERAPAN ALGORITME PREFIXSPAN DAN CLOSPAN
UNTUK MENCARI POLA SEKUENSIAL PADA DATA
PEMINJAMAN BUKU DI PERPUSTAKAAN IPB

DEVI MEISITA KHAIRUNNISA

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer


DEPARTEMEN ILMU KOMPUTER
FAKULTAS ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

Judul Skripsi : Penerapan Algoritme Prefixspan dan Clospan untuk Mencari Pola
Sekuensial pada Data Peminjaman Buku di Perpustakaan IPB
Nama
: Devi Meisita Khairunnisa
NIM
: G64114040

Disetujui oleh

Dr Imas S. Sitanggang, SSi, MKom.
Pembimbing I

Drs Badollahi Mustafa, MLib
Pembimbing II


Diketahui oleh

Dr Ir Agus Buono, MSi, MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema
yang dipilih dalam penelitian yang dilaksanakan sejak bulan Juli 2013 ini
ialah data mining, dengan judul Penerapan Algoritme Prefixspan dan Clospan
untuk Mencari Pola Sekuensial pada Data Peminjaman Buku di Perpustakaan
IPB.
Terima kasih penulis ucapkan kepada Ibu Dr Imas Sukaesih Sitanggang,
SSi, MKom dan Bapak Drs Badollahi Mustafa, MLib selaku pembimbing.
Serta, Bapak Hari Agung Adrianto, SKom,MSi sebagai penguji. Selain itu,
penulis ucapkan terima kasih kepada Bapak Feri yang telah membantu dalam
pengumpulan data. Penghargaan penulis sampaikan kepada Bapak Philippe

Fournier Viger yang telah membuat perangkat lunak Sequential Pattern
Mining Framework (SPMF) dan Bapak Agus Anang, SKom yang telah
membantu selama praproses data dan penulisan karya tulis ini. Ungkapan
terima kasih juga disampaikan kepada ayah, ibu, Arina Pramudita, serta
seluruh keluarga dan teman-teman Ilmu Komputer Angkatan 6, atas segala
doa dan kasih sayangnya.
Semoga karya ilmiah ini bermanfaat.
Bogor, Desember 2013
Devi Meisita Khairunnisa

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN


vi

PENDAHULUAN

1

Latar Belakang

1

Tujuan Penelitian

1

Manfaat Penelitian

2

Ruang Lingkup Penelitian


2

METODE

2

HASIL DAN PEMBAHASAN

5

Praproses

5

Penentuan pola sekuensial

7

Perbandingan kinerja Algoritme Prefixspan dan Clospan


9

Analisis Pola Sekuensial

17

SIMPULAN DAN SARAN

19

Simpulan

19

Saran

19

DAFTAR PUSTAKA


19

LAMPIRAN

18

RIWAYAT HIDUP

20

DAFTAR TABEL
1 Data transaksi perpustakaan
2 Jumlah pola sekuensial dan waktu eksekusi algoritme Prefixspan dan
Clospan berdasarkan dataset dan minimum support
3 Pola sekuensial dengan urutan pola berbeda untuk dataset 50 pada
minimum support 5%

3
10

18

DAFTAR GAMBAR
1 Tahapan penelitian
3
2 Tahapan praproses data
4
3 Perbandingan Clospan (■) dan Prefixspan (♦) berdasarkan minimum
support dengan waktu eksekusi untuk dataset 50
12
4 Perbandingan Clospan (■) dan Prefixspan (♦) berdasarkan minimum
support dengan waktu eksekusi untuk dataset 100
12
5 Perbandingan Clospan (■) dan Prefixspan (♦) berdasarkan minimum
support dengan waktu eksekusi untuk dataset 500
12
6 Perbandingan Clospan (■) dan Prefixspan (♦) berdasarkan minimum
support dengan waktu eksekusi untuk dataset 1,000
12
7 Perbandingan Clospan (■) dan Prefixspan (♦) minimum support dengan
waktu eksekusi untuk dataset 2,000
12
8 Perbandingan Clospan (■) dan Prefixspan (♦) minimum support dengan
waktu eksekusi untuk dataset 4,140
12
9 Perbandingan Clospan (■) dan Prefixspan (♦) berdasarkan jumlah
dataset dengan waktu eksekusi untuk minimum support 5%Error! Bookmark not defined.
10 Perbandingan Clospan (■) dan Prefixspan (♦) berdasarkan jumlah
dataset dengan waktu eksekusi untuk minimum support 6%Error! Bookmark not defined.
11 Perbandingan Clospan (■) dan Prefixspan (♦) jumlah dataset dengan
waktu eksekusi untuk minimum support 7%
16
12 Perbandingan Clospan (■) dan Prefixspan (♦) jumlah dataset dengan
waktu eksekusi untuk minimum support 8%
16
13 Perbandingan Clospan (■) dan Prefixspan (♦) berdasarkan jumlah
dataset dengan waktu eksekusi untuk minimum support 10%
16
14 Perbandingan Clospan (■) dan Prefixspan (♦) jumlah dataset dengan
waktu eksekusi untuk minimum support 15%
16

PENDAHULUAN
Latar Belakang
Perpustakaanmempunyai peranan penting dalam dunia pendidikan.
Pengelolaan yang baik untuk memperbaiki layanan menjadi sebuah keharusan
untuk menunjang proses belajar dan mengajar di lingkungan akademik. Salah satu
proses dalam pengelolaan yang baik adalah pengambilan keputusan atau
kebijakan yang tepat yang didasari dari informasi yang baik dan tepat pula.
Informasi yang baik dapat digali dari data yang benar dan teknik pengggalian
yang teruji. Salah satu data yang dapat digali dari perpustakaan adalah transaksi
peminjaman buku pada perpustakaan.
Teknologi penggalian informasi dari data dengan basis besar yang tersimpan
atau yang lebih sering di kenal dengan data mining sudah mulai marak
dikembangkan, didalami dan digunakan diberbagai bidang. Berbagai
teknik/metode diajukan untuk mendapatkan hasil yang lebih akurat dan cepat.
Analisis perbandingan kinerja algoritme dilakukan untuk mengetahui perbedaan
kecepatan dan akurasi dari algoritme yang dibandingkan, sehingga dapat
diperoleh kesimpulan dalam pemilihan algoritme untuk mendapatkan informasi
yang lebih baik dan akurat.
Teknik sequential pattern mining merupakan salah satu teknik data mining
yang banyak diterapkan. Algoritme yang telah dikembangkandalamtekniktersebut,
antara lain Prefixspan dan Clospan. Menurut Gregoriuset al. (2013) algoritme
Clospan memiliki waktu eksekusi yang cepat pada data transaksi perpustakaan
sehinggapada penelitian ini algoritme tersebut akan diterapkan. Pada penelitian
inialgoritmePrefixspan
dan
Clospan
akan
diterapkan
padadata
transaksipeminjaman buku di perpustakaan IPB dari tahun 2003 hingga 2013.
Kedua algoritme tersebut akan dibandingkan kinerja dan pola sekuensial yang
dihasilkan.
Perumusan Masalah
Perumusan masalah dalam penelitian ini adalah bagaimana pola sekuensial
pada data transaksi peminjaman buku perpustakaan ditentukan menggunakan
algoritme Prefixspan dan Clospan dan algoritme manakah yang memberikan hasil
terbaik.
Tujuan Penelitian
1
2
3

Tujuan dari penelitian ini adalah:
Menentukan pola sekuensial pada data transaksi perpustakaan menggunakan
algoritme Prefixspan dan Clospan.
Membandingkan kinerja dari algoritme Prefixspan dan Clospan dalam
menemukanpola sekuensialpada data transaksi sirkulasi perpustakaan.
Menganalisis pola sekuensial yang dihasilkan oleh algoritme Prefixspan dan
Clospan.

2
Manfaat Penelitian
1
2
3
4
5

Penelitian ini diharapkan dapat memberikan manfaat sebagaiberikut:
Sebagai referensi bagi pihak perpustakaan terkait algoritme terbaik yang
dapat digunakan dalam mengolah data transaksi sirkulasi perpustakaan.
Pihak perpustakaan dapat mengetahui pola peminjaman yang dilakukan
anggota perpustakaan.
Memudahkan pihak perpustakaan dalam penambahan stok buku.
Memberikan rekomendasibukukepada pemustaka.
Ruang Lingkup Penelitian

1
2

Penelitian ini memiliki ruang lingkup sebagai berikut:
Data yang digunakan dalam penelitian ini merupakan data transaksi
peminjaman buku perpustakaan IPB tahun 2003 sampai dengan 2013.
Pola sekuensial dihasilkan dengan menggunakan perangkatlunak Sequential
Pattern Mining Framework (SPMF) (Viger 2013).

METODE
Data Perpustakaan
Penelitian ini menggunakan data transaksi peminjaman buku di
perpustakaan IPB tahun 2003 sampai dengan 2013 sebanyak 18,669 data. Data
transaksi perpustakaan terdiri atas beberapa atribut, diantaranya nomor identitas,
nama peminjam, kelas buku, judul buku, kondisi buku yang dipinjam, tanggal
peminjaman, kode peminjaman, tanggal buku harus kembali, jenis buku,jenis
peminjaman, operator transaksi buku, dan nomor registrasi buku.
Pada penelitian ini atribut data yang digunakan adalah nomor identitas, kelas
buku, dan tanggal peminjaman.Nomor identitas merupakan nomor unik yang
dimiliki oleh pengunjung perpustakaan dan dapat berupa nomor induk mahasiswa.
Kelas buku merupakan kategori buku. Pengelompokkan kelas buku pada
perpustakaan IPB didasarkan pada bagan klasifikasi UDC (Universal Decimal
Classification) seperti 630 yang menyatakan klasifikasi pertanian. UDC terdiri
atas dua jenis angka, yaitu angka utama yang menyatakan subjek utama dan angka
bantu yang merupakan angka khusus (dinyatakan dengan tanda atau symbol
seperti .(titik) dan - (dash)). Tanggal peminjaman merupakan berupa tanggal
transaksi peminjaman buku. Contoh data transaksiperpustakaanyang
digunakandapatdilihatpadaTabel 1.
Peralatan Penelitian
Penelitian ini menggunakan spesifikasi perangkat keras dan lunak sebagai
berikut:
1

Perangkat keras berupa komputer personal dengan spesifikasi

3
Tabel 1Data transaksiperpustakaan
Nomor Identitas
99007
99007
5061971

mulai

KlS1
600
600
100

Kelas
Tanggal
KlS2 KLS3
650
650 05/01/2004
650
651 05/01/2004
150
155 16/05/2013

Dataset
Dataset

Praproses
Praproses

Penentuan
Penentuan pola
pola
sekuensial
sekuensial dengan
dengan
Prefixspan
Prefixspan

Penentuan
Penentuan pola
pola
sekuensial
sekuensial dengan
dengan
Clospan
Clospan

Selesai
Selesai

Analisis
Analisis
Pola
Pola
Sekuensial
Sekuensial

Perbandingan
Perbandingan
kinerja
kinerja Clospan
Clospan dan
dan
Prefixspan
Prefixspan

Gambar 1Tahapan penelitian
Prosesor Intel Pentium® Dual-Core CPU E5500 @ 2.80 GHz
RAM 2 GB
VGA Intel® G45/G43 Express Chipset
2

Perangkat lunak
Windows 7 Ultimate 32-bit Operating System
Javatmstandard edition versi 7
Sistem Manajemen Basis Data PostgreSQL versi 8.3.0
Perangkat lunak Sequential Pattern Mining Framework (SPMF) versi
0.94 untuk menentukan pola sekuensial dari data transaksi sirkulasi
perpustakaan
Tahapan Penelitian

Penelitian ini memiliki beberapa tahapan, diantaranya praproses data,
dataset, penentuan pola sekuensial, perbandingan kinerja algoritme, dan analisis
pola sekuensial. Tahapan penelitian yang dilakukan dapat dilihat pada Gambar 1.

4
1

Praproses
Praproses dilakukan untuk membersihkan data dan membuat data yang ada
menjadi pola sekuensial. Praproses terbagi ke dalam empat tahapan, yaitu
transformasi data, seleksi data, pembersihan data, dan pembuatan data sekuensial
yang dapat dilihat pada Gambar 2. Transformasi data merupakan suatu proses
konversi perubahan data untuk diolah pada tahapan selanjutnya. Pembersihan data
merupakan tahapan membuang data dari noise dan menyesuaikan data dengan
format klasifikasi yang ada. Pembuatan data sekuensial merupakan tahapan
pengurutan data berdasarkan nomor identitas dan waktu.
Basis data
CDS/ISIS

Data
Sekuensial

Transformasi
data

Seleksi data

Pembuatan data
sekuensial

Pembersihan
data

Gambar 2Tahapan praproses data
Dataset
Dataset merupakan data hasil praproses yang telah diurutkan berdasarkan
waktu atau lebih dikenal dengan data sekuensial. Dataset dihasilkan dari
praproses kemudian disesuaikan kembali menjadi data sekuensial yang sesuai
dengan format perangkat lunak SPMF. Pembuatan dataset dilakukan dengan
sebuah program PHP sederhana yang menghasilkan pola sekuensial sebanyak
4,110 data.
2

3

Penentuan pola sekuensial dengan Prefixspan dan Clospan
Pola sekuensial merupakan pola keterkaitan antar objek. Dalam penelitian
ini pola untuk data perpustakaan dihasilkan menggunakan perangkatlunak
Sequential Pattern Minning Framework (SPMF) (Viger2013). SPMF tidak hanya
menghasilkan pola sekuensial, tetapi juga jumlah pola yang dihasilkan dan waktu
eksekusi.
4

Perbandingan kinerja Algoritme Prefixspan dan Clospan
Perbandingan kinerja diukur dengan membandingkan jumlah pola dan
waktu eksekusi dari algoritme Prefixspan dan Clospan. Pada tahapan ini akan
dianalisis hasil dari pengujian dan keterkaitan antara jumlah pola atau waktu
eksekusi terhadap minimum support dan dataset.
5

Analisis pola sekuensial
Analisis pola sekuensial merupakan tahap analisis faktor-faktor yang
menjadi perbedaan dari pola sekuensial antara algoritme Prefixspan dan Clospan.

5

HASIL DAN PEMBAHASAN
Praproses
Praproses dilakukan melalui beberapa tahapan, yaitu transformasi data,
seleksi data, pembersihan data, dan pembuatan data sekuensial.
1

Transformasi data
Data perpustakaan yang didapatkan dari basis data CDS/ISIS memiliki
format CIRC sedangkan untuk dapat diolah data tersebut harus ditransformasi ke
dalam format xlsxuntuk dilakukan proses seleksi data dan pembersihan data
terlebih dulu. Proses transformasi data dilakukan dengan dua tahapan, yaitu:
a.
Data diubah ke dalam format XML dengan menggunakan fasilitas konversi
yang telah tersedia aplikasi CDS/ISIS.
b.
Data yang telah ditransformasi ke dalam format XML, kemudian
ditransformasi kembali menjadi format xlsx dengan menggunakan Microsoft
Excel.
2

Seleksi data
Seleksi data merupakan suatu proses pemilihan atribut yang akan digunakan
dalam percobaan. Pemilihan atribut didasarkan oleh kebutuhan dari algoritme
Prefixspan dan Clospan. Algoritme Prefixspan dan Clospan membutuhkan
masukan berupa data sekuensial. Data sekuensial dapat dibentuk oleh tiga atribut,
yaitu nomor identitas, kelas buku, dan tanggal peminjaman. Kelas buku terdiri
atas tiga tingkatan yaitu KLS1 (umum), KLS2 (sedang), dan KLS3 (khusus). Pada
penelitian ini tingkatan yang akandigunakan adalah KLS3. KLS3 merupakan
tingkatan yang paling khusus diantara tingkatan kelas yang lain sehingga
diharapkan akan terbentuk pola sekuensial yang lebih spesifik dari segi tipe dan
jenis buku.
3

Pembersihan data
Atribut-atribut yang telah terpilih pada proses sebelumnya, kemudian
dimasukkan ke dalam DBMS PostgreSQL untuk dilakukan proses pembersihan
data. Pada proses pembersihan data awal, ditemukan 3,000 data invalid sehingga
data mengandung noisedan perlu dilakukan praproses. Data invalid pada data
tersebut mengandung tanda selain angka seperti . (titik), ‘ (kutip), dan – (strip).
Proses pembersihan noise dilakukan dengan melakukan sebuah querydengan
mengasumsikannoisesebagai angka ‘0’.
Data yang telah terbebas dari noise tersebut kemudian dibandingkan dengan
format bagan klasifikasi buku UDC. Pada data dengan atribut kelas buku ternyata
masih ditemukan suatu ketidakkonsisten dengan format klasifikasi UDC.
Ketidakkonsistenan terjadi pada kategori KLS1 dan KLS3. KLS1 yang
seharusnya kategori umum, tetapi bernilai khusus dan dan sebaliknya KLS3 yang
seharusnya kategori khusus tetapi data yang ada kategori umum.

6
Kekeliruan tersebut kemudian didiskusikan dengan pakar dari Perpustakaan
IPB. Hasil diskusi menunjukkan bahwa memang terjadi kekeliruan pada kelas
tersebut sehingga perlu dilakukan proses perbandingan antara KLS1 dan KLS3.
Selanjutnya, proses query diterapkan kembali untuk menukar KLS3 dengan
KLS1 dengan aturan jika KLS1 berisi kategori khusus dan KLS3 berisi kategori
umum. Contoh kasusnya jika KLS1 bernilai 631, sedangkan KLS3 630, maka
tukar nilai dari KLS3 menjadi KLS1. KLS3 akan bernilai 631 dan KLS1 akan
bernilai 630.
Dari hasil tersebut ternyata masih juga ditemukan 1,441 data yang tidak
sesuai dengan klasifikasi UDC. Nilai kategori pada KLS1, KLS2, dan KLS3
masuk ke dalam kategori umum, padahal seharusnya KLS3 masuk ke dalam
kategori khusus. Oleh karena itu, data yang tidak sesuai tersebut memerlukan
proses penyesuaian data secara manual. Proses penyesuaian dilakukan dengan
mencocokkan antara kelas data beserta judul buku dengan format
pengklasifikasian UDC.
4

Pembuatan data sekuensial
Sequential pattern miningmerupakan penambangan data yang telah
diurutkan berdasarkan waktu (Han dan Kamber 2006). Dalam penelitian ini,
pembuatan data sekuensial dilakukan dengan menggunakan sebuah program PHP.
Program tersebut bekerja dengan dua tahapan, yaitu:
a.
Menggabungkan kategori kelas yang memiliki nomor identitas dan tanggal
yang sama.
Program ini bekerja dengan membandingkan kategori yang memiliki nomor
identitas dan tanggal yang sama dan menuliskannya ke dalam sebuah file
teks. Berikut potongan program tersebut.
$cekquery=" SELECT DISTINCT k.nrp,
k.tanggal,
l.kategori as katbaru
from (
select DISTINCT *
FROM
belajar.mentah2
)as k
RIGHT JOIN
(
SELECT distinct *
FROM
belajar.mentah2
) as l on l.nrp=k.nrp and
k.tanggal=l.tanggal
ORDER BY k.nrp, k.tanggal ";

b.

Menggabungkan kategori kelas yang memiliki nomor identitas sama
Program ini bekerja dengan membandingkan kategori yang memiliki nomor
identitas yang sama dan menuliskannya ke dalam sebuah berkas teks.
Berikut potongan program tersebut.
for($i=1; $i