PERANCANGAN DAN IMPLEMENTASI TEXT MINING MENGGUNAKAN ALGORITMA RABIN-KARP PADA APLIKASI PENCARIAN DOKUMEN REFERENSI TUGAS AKHIR.

Jurnal Elektronik Ilmu Komputer - Universitas Udayana

JELIKU Vol 2 No. 1 Pebruari 2013

SUSUNAN DEWAN REDAKSI JELIKU

KETUA
AGUS MULIANTARA, S.KOM, M.KOM

PENYUNTING
DRA. LUH GEDE ASTUTI, M.KOM
NGURAH AGUS SANJAYA E.R., S.KOM, M.KOM
IDA BAGUS MAHENDRA, S.KOM, M.KOM
IDA BAGUS GEDE DWIDASMARA, S.KOM, M.CS

PELAKSANA
I KETUT GEDE SUHARTANA, S.KOM., M.KOM
I GEDE SANTI ASTAWA, S.T., M.CS
I MADE WIDIARTHA, S.SI., M.KOM

ALAMAT REDAKSI

JURUSAN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS UDAYANA
KAMPUS BUKIT JIMBARAN – BADUNG
TELEPON : 0361 – 701805
EMAIL : JELIKU@CS.UNUD.AC.ID
WEBSITE : WWW.CS.UNUD.AC.ID

i

Jurnal Elektronik Ilmu Komputer - Universitas Udayana

JELIKU Vol 2 No. 1 Pebruari 2013

DAFTAR ISI

SUSUNAN DEWAN REDAKSI JELIKU ............................................................................................ i
DAFTAR ISI ....................................................................................................................................... iii
IMPLEMENTASI GAMMU SEBAGAI MESIN SMS GATEWAY DI IPHONE BALI
Putu Suma Arthajaya, Agus Muliantara, Ngurah Agus Sanjaya ER ............................................. 1

PERANCANGAN DAN IMPLEMENTASI SISTEM PENDETEKSIAN PLAGIARISME PADA
DOKUMEN DIGITAL DENGAN MENGGUNAKAN ALGORITMA WINNOWING
Ade Harya Satriya .............................................................................................................................. 6
PERANCANGAN DAN IMPLEMENTASI SISTEM INTERAKTIF JURNAL PADA SISTEM
AKUNTASI (AISO) DENGAN KONSEP OBJECT ORIENTED PROGRAMING (OOP)
Anak Agung Gde Surya Bhuwana................................................................................................... 13
IMPLEMENTASI SISTEM INTEGRASI MESIN ABSENSI (FINGER PRINT) DENGAN
HARISMA (HUMAN RESOURCE MANAGEMENT SYSTEM) PT. DIMATA SORA JAYATE
Obie Rahman .................................................................................................................................... 19

SISTEM PENGENALAN EKSPRESI WAJAH TERSENYUM DENGAN ALGORITMA
JARINGAN SYARAF TIRUAN LEVENBERG-MARQUARDT
Tikha Prasatya Nugraha, I Made Widiartha, I Gede Santi Astawa ............................................. 25

PENGIRIMAN REPORT OTOMATIS KE EMAIL MENGGUNAKAN IMPLEMENTASI MUTT
DAN CRONTAB DI FAKULTAS HUKUM UNIVERSITAS UDAYANA
I Gede Hardi Surya Budiana, Cokorda Rai Adi Pramartha ......................................................... 31

PERANCANGAN DAN IMPLEMENTASI TEXT MINING MENGGUNAKAN ALGORITMA
RABIN-KARP PADA APLIKASI PENCARIAN DOKUMEN REFERENSI TUGAS AKHIR

I Gusti Ngurah Lanang Septiadi Putra, Ngurah Agus Sanjaya ER, I B Made Mahendra
............................................................................................................................................................ 35
PERANCANGAN SISTEM REGISTRASI KONFERENSI DENGAN MS. VISUAL BASIC PT.
OPTIONS - DENPASAR
Fachrosi Firdaus ............................................................................................................................... 43

iii

Jurnal Elektronik Ilmu Komputer - Universitas Udayana

JELIKU Vol 2 No. 1 Pebruari 2013

SISTEM INFORMASI ADMINISTRASI SURAT
Ida Bagus Ngurah Indraswara, Agus Muliantara, Ngurah Agus Sanjaya ER ............................ 49
PENYISIPAN CITRA RAHASIA MENGGUNAKAN ALGORITMA GIFSHUFFLE
I Gede Ngurah Aryawan .................................................................................................................. 56
IMPLEMENTASI ALGORITMA GENETIK DALAM PENYELESAIAN PERMAINAN SUDOKU
Gede Dita Aditya Elanda.................................................................................................................. 61
PEMODELAN DAN SIMULASI SISTEM ANTRIAN DENGAN METODE PRIORITAS STUDI
KASUS : STUDIO FOTO

Sahmanbanta.S. ................................................................................................................................ 65
SISTEM INFORMASI GEOGRAFIS KEAMANAN PARIWISATA PANTAI
Ida Bagus Gede Arsa Wedhana ....................................................................................................... 71
ANALISIS PERBANDINGAN KINERJA ANTARA NETWORK FILE SYSTEM (NFS) DAN
PRIMARY DOMAIN CONTROLLER (PDC) SAMBA
Gede Wahyudi, Trisna Hanggara .................................................................................................... 77
ANALISIS PADA IKEE.B IPHONE BOTNET
I Putu Arich Arthawan, I Dewa Made Bayu Atmaja Darmawan ................................................. 84
IMPLEMENTASI BANDWIDTH MANAGEMENT DI DISCOVERY KARTIKA PLAZA HOTEL
Ida Bagus Putu Wirajaya Kusuma .................................................................................................. 91

iv

Jurnal Elektronik Ilmu Komputer - Universitas Udayana

JELIKU Vol 2 No. 1 Pebruari 2013

PERANCANGAN DAN IMPLEMENTASI TEXT MINING MENGGUNAKAN ALGORITMA
RABIN-KARP PADA APLIKASI PENCARIAN DOKUMEN REFERENSI TUGAS AKHIR
I Gusti Ngurah Lanang Septiadi Putra, Ngurah Agus Sanjaya ER, I B Made Mahendra

Program Studi Teknik Informatika, Jurusan Ilmu Komputer,
Fakultas Matematika Dan Ilmu Pengetahuan Alam, Universitas Udayana
Email : gusti_ngurah.lanang@ymail.com, agus.sanjaya@cs.unud.ac.id, ibm@cs.unud.ac.id
ABSTRAK
Text  Mining  merupakan  metode  yang  digunakan  untuk  menemukan  informasi  yang  relevan 
dengan  kebutuhan  dari  penggunanya  secara  otomatis.  Penelitian  ini  bertujuan  untuk 
mengimplementasikan text mining menggunakan algoritma Rabin-Karp dan dice similarity coefficient 
pada  aplikasi  pencarian  dokumen  referensi  tugas  akhir.  Jumlah  substring  K-Grams  yang  ditemukan 
pada algoritma Rabin-Karp akan menjadi variabel dalam perhitungan dice similarity. Hasil dari dice 
similarity pada masing-masing dokumen terhadap query akan diurutkan secara descending, sehingga 
hasil  pencarian  akan  menampilkan  dokumen  yang  paling  mendekati  kata  kunci.  Sistem  ini 
dikembangkan  menggunakan  bahasa  pemrograman  PHP  dan dokumen  yang  digunakan  sebagai  data 
uji sebanyak 20 abstrak yang penulis kutip dari jurnal ilmu Komputer edisi online. Penelitian ini telah 
berhasil  mengimplementasikan  algoritma  Rabin-Karp dalam  aplikasi  pencarian  dokumen.  Hasil  dari 
penelitian  ini  menunjukkan  bahwa  tiap  nilai  K-Grams  menghasilkan  urutan  dokumen  relevan  yang 
berbeda.
Kata kunci: Text Mining, K-Grams, Hashing, Rabin-Karp, Dice Similarity Coeficients
ABSTRACT
Text Mining is the method used to locate information relevant to the needs of the users
automatically. This study aims to implement text mining using Rabin-Karp algorithm and dice

similarity coefficient at a reference document search application thesis. Number of K-Grams
substring found in Rabin-Karp algorithm will become a variable in the calculation of similarity dice.
Results of dice similarity to each document to the query will be sorted in descending order, so the
search results will show you the closest document keywords. This system was developed using the
PHP programming language and documents that are used as test data of 20 abstract author quotes
from the online edition of the journal Computer science. This study has successfully implemented the
Rabin-Karp algorithm in document search application. The results of this study indicate that each
value of K-Grams produce a different sequence of the relevant documents.
Keywords: Text Mining, K-Grams, Hashing, Rabin-Karp, Dice Similarity Coeficients

bidang lain, seperti Data mining, Information
Retrieval, Statistik dan Matematik, Machine
Learning, Linguistic, Natural Languange
Processing, dan Visualization.
Penulis akan membuat sebuah aplikasi
pencarian dengan menggunakan metode text
mining yang mampu mengolah dokumen yang
berbeda serta mencari informasi penting
didalamnya seperti mencari referensi yang
relevan untuk dibaca berkaitan dengan inputan


PENDAHULUAN
Kebutuhan untuk pencarian informasi
secara otomatis dari kumpulan dokumen
tekstual sangat diperlukan untuk mempercepat
pencarian informasi yang sesuai dengan
kebutuhan kita. Keadaan tersebut dapat diatasi
menggunakan metode text mining. Dalam
memberikan solusi, text mining mengadopsi
dan mengembangkan banyak teknik dari
35

Jurnal Elektronik Ilmu Komputer - Universitas Udayana

JELIKU Vol 2 No. 1 Pebruari 2013

topik yang dibutuhkan oleh pengguna dengan
tahapan preprocessing meliputi tokenizing,
filtering, dan stemming serta dilakukan
processing meliputi pencocokan string

menggunakan Rabin-Karp dan perankingan
dokumen.
Diharapkan aplikasi ini dapat menjawab 
permasalahan-permasalahan  pembaca  dan 
pencari  informasi  seperti  lamanya  proses 
membaca  secara  manual  dan  pencarian 
informasi yang lebih relevan bagi pembaca.

tanda baca yang digunakan. Algoritma RabinKarp ini menggunakan fungsi hash. Fungsi
hash adalah fungsi yang digunakan untuk
mengubah string menjadi untaian integer.
Pada algoritma ini untaian string akan diubah
menjadi integer berdasarkan bilangan ASCII
nya. Karena menggunakan bilangan ASCII,
proses  komputasi  menjadi  lebih  “dekat”  ke 
bahasa mesin. Pendekatan utamanya adalah,
string yang sama akan memiliki nilai hash
yang sama.

MATERI


3. K-Grams
K-Grams adalah rangkaian terms
dengan panjang K. Kebanyakan yang
digunakan sebagai terms adalah kata. KGrams merupakan sebuah metode yang
diaplikasikan untuk pembangkitan kata atau
karakter. Metode K-Grams ini digunakan
untuk mengambil potongan-potongan karakter
huruf sejumlah k dari sebuah kata yang secara
kontinuitas dibaca dari teks sumber hingga
akhir dari dokumen. Dalam Markov Model
nilai K-Grams yang sering digunakan yaitu, 2gram (bigram), 3-gram (trigram) dan
seterusnya disebut K-Grams (4-gram, 5-gram
dan seterusnya). Dalam natural language
processing, penggunaan K-Grams (atau lebih
dikenal dengan n-gram), proses parsing token
(tokenisasi) lebih sering menggunakan 3-gram
dan 4-gram, sedangkan 2-gram digunakan
dalam parsing sentence, misal dalam part-ofspeech (POS). Penggunaan 2-gram dalam
tokenisasi

akan
menyebabkan
tingkat
perbandingan antar karakter akan semakin
besar.

1. Text Mining
Text
mining
memiliki
definisi
menambang data yang berupa teks dimana
sumber data biasanya didapatkan dari
dokumen, dan tujuannya adalah mencari katakata yang dapat mewakili isi dari dokumen
sehingga
dapat
dilakukan
analisa
keterhubungan antar dokumen.
Didalam proses text mining dilakukan

beberapa tahapan umum diantaranya adalah
tokenizing dan case folding, filtering, dan
stemming. Tahap tokenizing adalah tahap
pemotongan string input berdasarkan tiap kata
yang menyusunnya. Setelah teks input
dilakukan proses tokenizing, maka tahap
selanjutnya dilakukan tahap filtering. yaitu
tahap mengambil kata-kata penting dari hasil
token. Tahap selanjutnya adalah tahap
stemming adalah tahap mencari dasar kata dari
tiap kata hasil filtering. Setiap kata yang
memiliki imbuhan seperti imbuhan awalan dan
akhiran maka akan diambil kata dasarnya.
Tahap yang terakhir dalam text mining adalah
tahap analyzing yaitu tahap penentuan
seberapa jauh keterhubungan antar kata-kata
antar dokumen yang ada. Untuk melakukan
analisa pada tahap analyzing dapat digunakan
algoritma Rabin-Karp dan dice coefficient.

4. Dice Coeficient
Mengukur kemiripan (similarity) dan
jarak antara dua entitas informasi adalah syarat
inti pada semua kasus penemuan informasi,
seperti pada Text Mining dan Data Mining
yang kemudian dikembangkan dalam bentuk
aplikasi, salah satunya adalah sistem pencarian
referensi tugas akhir. Penggunaan ukuran
similarity
yang
tepat
tidak
hanya
meningkatkan kualitas pilihan informasi tetapi
juga membantu mengurangi waktu dan biaya
proses (Zaka, 2009). Kosinov (2001)
menyarankan untuk mengaplikasikan Dice's

2. Algoritma Rabin-Karp
Algoritma Karp-Rabin diciptakan oleh
Michael O. Rabin dan Richard M. Karp pada
tahun 1987. Algoritma ini lebih berguna pada
pencarian multiple pattern daripada pencarian
single pattern. Karena algoritma ini tidak
memperdulikan huruf besar atau kecil, dan

36

Jurnal Elektronik Ilmu Komputer - Universitas Udayana

Similarity Coefficient dalam penghitungan
nilai similarity yang menggunakan pendekatan
k-gram.

S

JELIKU Vol 2 No. 1 Pebruari 2013

Pemodelan aplikasi pencarian dokumen terdiri
dari beberapa tahapan sebagai berikut :
1. Tahap analisa kebutuhan sistem
2. Tahap pemodelan sistem
3. Tahap pembuatan sistem
4. Tahap pengujian

2*C
A  B

- S adalah nilai similarity
- A dan B adalah jumlah K-Grams dalam teks
1 dan teks 2
- C adalah jumlah k-grams yang sama dari
kedua teks
Perankingan dokumen akan dilakukan dengan
mengurutkan nilai similarity antar dokumen
dari yang terbesar sampai terkecil sehinggga
didapatkan urutan dokumen sesuai dengan
keterkaitannya dengan query pengguna.

HASIL DAN PEMBAHASAN
1. Flowchart Program

5. Batasan Masalah
Dalam penelitian ini ada beberapa hal
yang dibatasi agar permasalahan tidak meluas
dari atau tidak sesuai dengan tujuan awal.
Adapun batasan masalah dalam penelitian ini
adalah sebagai berikut :
x Hanya menguji data berupa teks, tidak
menguji data berupa gambar maupun
suara.
x Sistem tidak memperhatikan kesalahaan
ejaan / penulisan pada dokumen.
x Sistem tidak memperhatikan sinonim /
persamaan kata.
x file yang yang digunakan sebagai
dokumen sumber bertipe .pdf lalu dirubah
ke dalam bentuk .txt untuk memudahkan
proses membaca file.
x Data yang diuji menggunakan bahasa
Indonesia.
6. Metodelogi Penelitian
Pemodelan sistem dilakukan untuk dapat
terlebih dahulu mengidentifikasi masalah
beserta seluruh proses bisnis yang berlangsung
sebelum memulai tahapan pembangunan
perangkat lunak yang akan diimplementasikan
ke dalam sistem. Pemodelan juga ditujukan
agar saat pembangunan perangkat lunak
berlangsung sudah tidak terdapat kebutuhankebutuhan tambahan pada implementasi
sistem yang dapat menghambat proses
pembangunan perangkat lunak itu sendiri.

Gambar 1. Preprocessing dokumen uji dan
query
Dilakukan dua proses yang berbeda yaitu
preprocessing untuk dokumen uji dan query
pengguna. Preprocessing dokumen uji
dilakukan pada saat pengguna mulai
memasukkan dokumen uji pada sistem.
Preprocessing dokumen uji
dilakukan
sebanyak dokumen uji yang akan diinputkan.
Preprocessing query pengguna dilakukan
37

Jurnal Elektronik Ilmu Komputer - Universitas Udayana

JELIKU Vol 2 No. 1 Pebruari 2013

Pengujian kedua adalah pengujian dengan 15
dokumen acak menggunakan dokumen yang
memiliki topik yang berbeda dengan query.
Tujuannya
adalah
untuk
mengetahui
perankingan yang didapatkan oleh sistem
menggunakan dokumen yang memang
berbeda dengan query. 15 dokumen acak yang
bersumber dari abstrak tugas akhir mahasiswa
ilmu computer. Pengolahan data pada kedua
pengujian dilakukan proses preprocessing dan
processing. Preprocessing akan dilakukan
dikedua sisi query dan dokumen.
Penentuan stoword pada penelitian ini
dilakukan dengan mencari kata yang paling
sering muncul dari beberapa dokumen yang
diujikan dan mengambil 10% dari atas
sehingga didapatkan kata-kata yang memang
dapat dihilangkan dari dokumen. Jumlah
stopword yang digunakan adalah 63 kata.
Penentuan kata dasar yang diperlukan dalam
proses stemming digunakan KBBI (Kamus
Besar Bahasa Indonesia) edisi online. Jumlah
kata dasar yang digunakan adalah 28562 kata.
Processing dilakukan dengan menggunakan
Rabin-Karp dan dice coefficient. Variable
yang digunakan dalam analisis ini adalah
waktu proses dan nilai similaritas dokumen
terhadap query. Waktu proses didapatkan dari
selisih waktu antara proses akhir dan proses
awal. Sedangkan nilai similaritas didapatkan
dengan menggunakan dice coefficient yang
akan menghitung jumlah substring K-Grams
yang ditemukan dengan jumlah substring KGrams pada masing-masing dokumen.

hanya pada saat pengguna ingin melakukan
pencarian dokumen.

Gambar 2. Proses similarity dokumen
Pengujian  pertama  adalah  pengujian 
dengan  5  dokumen  menggunakan  dokumen 
yang sama hanya saja dokumen 2, 3, 4, dan 5 
dilakukan  pemotongan  kata  hingga  berjumlah 
masing-masing 80%, 60%, 40%, dan 20% dari 
dokumen  1.  Tujuannya  adalah  untuk 
mengetahui perankingan yang didapatkan oleh 
sistem  setelah  memasukkan  kelima  dokumen 
tersebut.  Jenis  dokumen  uji  dengan 
pemotongan  adalah  dokumen  yang  telah 
dirubah  sedemikian  rupa  dengan  cara 
memotong  kata  secara  acak  pada  dokumen 
untuk menguji apakah sistem yang telah dibuat 
dapat memberikan hasil yang sesuai. Perkiraan 
awal  dari  pengujian  ini  adalah  hasil  dari 
pengujian  didapatkan  hasil  dokumen  berurut 
dari yang memiliki similaritas tertinggi hingga 
terendah yaitu dokumen 1 hingga 5.

Gambar 3. Pencarian Dokumen
2. User Interface
Saat pengguna menekan tombol submit
maka aplikasi akan memproses query melalui
38

Jurnal Elektronik Ilmu Komputer - Universitas Udayana

preprocessing dan membandingkan hasilnya
dengan beberapa dokumen yang ada pada
database.

JELIKU Vol 2 No. 1 Pebruari 2013

memerlukan fungsi server akan dilakukan
dibelakang layar sehingga pengguna tidak
akan perlu lagi mereload halaman web
mereka. Semua proses akan berlangsung
seperti halnya pengguna melakukan atau
menjalankan aplikasi desktop. Proses – proses
utama seperti tokenizing, filtering, stemming,
dll akan dibuat sebagai fungsi agar terlihat rapi
dan mudah dipahami dalam penggunaannya.
Aplikasi ini dibuat sedemikian rupa agar
mudah dalam penggunaannya serta dapat
menghasilkan dokumen yang sesuai dengan
kebutuhan pengguna.
Pada  halaman  pencarian  terdapat 
beberapa  isian,  yaitu  query,  jumlah  k-grams 
dan  algoritma  stemming  yang  ingin 
digunakan.  Setelah  menekan  tombol  submit 
system  akan  melakukan  pencarian  dokumen 
sesuai  dengan  query  dan  menampilkannya  ke 
layar  tanpa  perlu  meroload  halaman  web 
kembali.

Gambar 4. Hasil Pencarian
Setelah proses selesai maka akan diperoleh
nilai kemiripan dan waktu prosesnya.
Ditampilkan juga data dalam bentuk table dan
grafik agar lebih mudah memahami hasil
proses pencarian dokumen.

Gambar 6. Grafik Hasil Pencarian
Gambar 5. Tabel Hasil Pencarian
4. Hasil
Dari hasil percobaan yang dilakukan,
pada tabel 3 algoritma Rabin-Karp dengan
menggunakan stemming arifin dan pengujian
beberapa K-Grams menghasilkan nilai
similarity sesuai dengan yang diinginkan yaitu
berurut dari dokumen 1 dengan similarity
paling tinggi diikuti oleh dokumen lainnya
yang memiliki similarity lebih rendah. Setelah
dilakukan percobaan pada dokumen yang
dimodifikasi dengan melakukan pemotongan
kata secara acak dapat diketahui bahwa
pemilihan kgram yang semakin besar
cenderung mempunyai nilai similarity yang
semakin berkurang dibandingkan dengan

Ditampilkan juga data dalam bentuk grafik
agar lebih menarik dan lebih mudah saat
menganalisa hasil pencarian dokumen. Grafik
pada aplikasi ini menggunakan library
highchart.
3. Penjelasan Program
Aplikasi ini dibuat dengan bahasa
pemrograman PHP dikombinasikan dengan
penggunaan CSS3 untuk mempercantik
tampilan antar mukanya. Design sistem ini
terinspirasi dari design metro dari Windows 8
yang simple dan elegant. Aplikasi ini juga
menggunakan ajax dimana setiap proses yang

39

Jurnal Elektronik Ilmu Komputer - Universitas Udayana

JELIKU Vol 2 No. 1 Pebruari 2013

besarnya K-Grams, maka potongan string
mengandung huruf yang lebih banyak
sehingga menyebabkan string yang ditemukan
pun semakin berkurang.

menggunakan K-Grams yang lebih besar. Hal
ini karena pada kgram yang lebih sedikit,
string yang dipotong lebih kecil sehingga
kemungkinan untuk ditemukannya string yang
sama semakin besar tetapi dengan semakin

Tabel 1 Hasil Dengan Pemotongan Dokumen
Dokumen

K-Grams

Jumlah Kata

Waktu (s)

Similarity (%)

document1.txt
document2.txt
document3.txt
document4.txt
document5.txt

2
2
2
2
2

191
153
114
76
38

0.01381
0.01291
0.01255
0.00964
0.00711

100
97.44
94.43
85.71
75

document1.txt
document2.txt
document3.txt
document4.txt
document5.txt

3
3
3
3
3

191
153
114
76
38

0.05228
0.04821
0.03988
0.02985
0.01971

100
91.91
83.51
70.81
55.34

document1.txt
document2.txt
document3.txt
document4.txt
document5.txt

4
4
4
4
4

191
153
114
76
38

0.07448
0.06387
0.05186
0.03847
0.02529

100
89.29
76.72
63.48
48.68

document1.txt
document2.txt
document3.txt
document4.txt
document5.txt

5
5
5
5
5

191
153
114
76
38

0.08004
0.06831
0.05583
0.04389
0.02651

100
87.02
71.54
57.06
44.52

semakin besarnya K-Grams, maka potongan
string akan mengandung huruf yang lebih
banyak dibandingkan dengan K-Grams yang
lebih sedikit sehingga menyebabkan string
yang ditemukan pun semakin berkurang.
Waktu proses mengalami peningkatan jika
nilai K-Grams semakin besar karena akan
membandingkan jumlah karakter yang
semakin banyak pada setiap string yang
dibandingkan.

KESIMPULAN DAN SARAN
1. Kesimpulan
Berdasarkan hasil analisis dan pengujian
terhadap aplikasi pencarian referensi tugas
akhit dengan mengimplementasikan text
mining menggunakan aloritma rabin-karp ini
maka dapat disimpulkan bahwa persentase
similarity cenderung menurun jika jumlah KGrams yang digunakan semakin besar. Dengan
40

Jurnal Elektronik Ilmu Komputer - Universitas Udayana

JELIKU Vol 2 No. 1 Pebruari 2013

Tabel 2 Hasil Dengan Dokumen Yang Berbeda
Dokumen

K-Grams

Jumlah Kata

Waktu (s)

Similarity (%)

doc15.txt
doc14.txt
doc18.txt
doc6.txt
doc20.txt
doc13.txt
doc11.txt
doc10.txt
doc16.txt
doc7.txt
doc19.txt
doc12.txt
doc17.txt
doc8.txt
doc9.txt

2
2
2
2
2
2
2
2
2
2
2
2
2
2
2

153
136
116
124
122
178
120
103
222
186
146
125
130
124
186

0.0149
0.01498
0.01418
0.01233
0.01553
0.01275
0.01595
0.01091
0.01384
0.01415
0.01463
0.01252
0.01172
0.02161
0.01488

76.37
72.53
70.56
70.55
70.14
69.39
69.35
69.11
67.99
67.77
66.67
65.87
65.47
65.38
63.07

doc15.txt
doc14.txt
doc20.txt
doc10.txt
doc18.txt
doc6.txt
doc7.txt
doc11.txt
doc19.txt
doc13.txt
doc8.txt
doc17.txt
doc12.txt
doc16.txt
doc9.txt

3
3
3
3
3
3
3
3
3
3
3
3
3
3
3

153
136
116
124
122
178
120
103
222
186
146
125
130
124
186

0.06686
0.06364
0.06591
0.03517
0.05753
0.0464
0.04338
0.06017
0.05772
0.04423
0.08125
0.04296
0.03955
0.04932
0.05335

39.95
36.41
33.87
33.49
32.68
32.2
31.3
29.66
29.38
29.27
29.02
28.87
28.48
27.61
25.47

doc15.txt
doc14.txt
doc18.txt
doc10.txt
doc20.txt
doc7.txt
doc6.txt
doc13.txt

4
4
4
4
4
4
4
4

153
136
116
124
122
178
120
103

0.09444
0.09115
0.08131
0.04478
0.0975
0.05571
0.06239
0.05766

21.82
17.83
15.93
15.38
15.18
14.59
13.84
12.58

41

Jurnal Elektronik Ilmu Komputer - Universitas Udayana

JELIKU Vol 2 No. 1 Pebruari 2013

doc12.txt
doc8.txt
doc19.txt
doc16.txt
doc9.txt
doc11.txt
doc17.txt

4
4
4
4
4
4
4

222
186
146
125
130
124
186

0.05251
0.11696
0.08006
0.0711
0.0676
0.084
0.05916

12.37
11.51
11.02
9.81
9.71
7.86
7.79

doc15.txt
doc14.txt
doc10.txt
doc18.txt
doc7.txt
doc6.txt
doc20.txt
doc12.txt
doc13.txt
doc16.txt
doc9.txt
doc8.txt
doc19.txt
doc11.txt
doc17.txt

5
5
5
5
5
5
5
5
5
5
5
5
5
5
5

153
136
116
124
122
178
120
103
222
186
146
125
130
124
186

0.10723
0.10357
0.05021
0.0919
0.06246
0.0697
0.10828
0.05932
0.06538
0.07833
0.07815
0.14598
0.08874
0.09532
0.06356

14.38
11.83
9.88
9.87
8.51
8.07
7.99
7.49
7.41
5.81
5.14
5.03
4.6
2.87
2.66

Teknologi Sepuluh November (ITS).
Surabaya
[2] Berry, M.W., Kogan, J. (2010). Text
Mining:
Application
and
Theory.
Chichester: John Wiley & Sons, Ltd.
[3] Feldman, R., Sanger, J. (2007). The Text
Mining Handbook: Advanced Approaches
in Analyzing Unstructured Data. New
York: Cambridge University Press.
[4] Tan, A., 1999, Text mining: The state of
the art and the challenges, In Proceedings
of the Pacific Asia Conference on
Knowledge Discovery and Data mining,
PAKDD'99 workshop on Knowledge
Discovery from Advanced Databases.

2. Saran
Untuk penelitian lebih lanjut, disarankan
penggunaan data uji yang lebih bervariasi
seperti pengubahan bentuk kalimat yang lebih
banyak sehingga pengaruh penggunaan
stemming dapat lebih akurat. Penggunaan
stopword yang lebih disesuaikan dengan
penelitian
yang
dilakukan.
Pemilihan
algoritma stemming Bahasa Indonesia yang
lebih baik dapat meningkatkan akurasi. Format
dokumen input agar lebih beragam untuk
meningkatkan kemampuan sistem dalam
mengolah beberapa dokumen yang berbeda.
DAFTAR PUSTAKA

[1] Arifin, Agus Zainal dan Ari Setiono,
Novan. Klasifikasi Dokumen Berita
Kejadian Berbahasa Indonesia dengan
Algoritma Single Pass Clustering. Institut

42