Pengelompokan Dokumen Tugas Akhir Mahasiswa Program S1 Ilmu Komputer Berbasis Frequent Itemset.

PENGELOMPOKAN DOKUMEN TUGAS AKHIR
MAHASISWA PROGRAM S1 ILMU KOMPUTER
BERBASIS FREQUENT ITEMSET

LUSI MAULINA ERMAN

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Pengelompokan
Dokumen Tugas Akhir Mahasiswa Program S1 Ilmu Komputer Berbasis Frequent
Itemset adalah benar karya saya dengan arahan dari komisi pembimbing dan belum
diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Agustus 2015
Lusi Maulina Erman
NIM G64110032

ABSTRAK
LUSI MAULINA ERMAN. Pengelompokan Dokumen Tugas Akhir Mahasiswa
Program S1 Ilmu Komputer Berbasis Frequent Itemset. Dibimbing oleh IMAS
SUKAESIH SITANGGANG.
Abstrak merupakan bagian dari dokumen tugas akhir memiliki peranan
penting dalam menjelaskan keseluruhan dokumen. Kata-kata yang sering muncul
dapat dijadikan acuan dalam mengelompokkan dokumen ke dalam kategorikategori. Tujuan dari penelitian ini adalah menerapkan metode association rule
mining menggunakan algoritme ECLAT dalam mencari kombinasi term yang
paling sering terjadi dan mengelompokkan dokumen abstrak tugas akhir. Data yang
digunakan dalam penelitian ini adalah data abstrak dokumen tugas akhir mahasiswa
Program S1 Ilmu Komputer IPB dalam bahasa Inggris dari tahun 2012 hingga 2014.
Penelitian ini menggunakan stopwords yang berhubungan dengan istilah Ilmu
Komputer yang bersifat umum, menerapkan association rule mining dengan
support sebesar 0.1, 0.15, 0.2, 0.25, 0.3, dan 0.35, dan menggunakan clustering KMeans dengan jumlah cluster (k) sebesar 10 karena memiliki nilai sum of squared

error (SSE) terendah. Pengelompokan ini membandingkan nilai support, SSE,
jumlah anggota, dan nilai evaluasi purity di tiap cluster. Cluster terbaik dihasilkan
pada perlakuan data dengan penambahan stopwords dan tanpa penerapan
association rule mining, dengan k sebesar 10, nilai SSE sebesar 23 485.03, dan nilai
purity sebesar 0.512.
Kata kunci: abstrak, ECLAT, frequent itemset, K-Means, purity

ABSTRACT
LUSI MAULINA ERMAN. Grouping Undergraduate Computer Science Student
Final Project Based on Frequent Itemset. Supervised by IMAS SUKAESIH
SITANGGANG.
Abstract is a part of document that has an important role in explaining the
whole document. Words that frequently appear can be used as a reference in
grouping the final project document into categories. The purpose of this study is to
apply the method of association rule mining namely ECLAT algorithm to find most
common terms combination and to group a collection of abstracts. The data used in
this study are documents of final project abstract in English of undergraduate
Computer Science student of IPB from 2012 to 2014. This research used stopwords
about common Computer Science terminology, applied association rule mining
with support of 0.1, 0.15, 0.2, 0.25, 0.3, and 0.35, and used K-Means clustering with

number of cluster (k) of 10 because it gives the lowest SSE. This research compared
the value of support, SSE, the number of cluster members, and purity value in each
cluster. The best clustering result is data with additional stopwords and without
applying association rule mining, and with k = 10. The SSE result is 23 485.03, and
with purity is 0.512.
Keywords: abstract, ECLAT, frequent itemset, K-Means, purity

PENGELOMPOKAN DOKUMEN TUGAS AKHIR
MAHASISWA PROGRAM S1 ILMU KOMPUTER
BERBASIS FREQUENT ITEMSET

LUSI MAULINA ERMAN

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

Penguji: 1 Ahmad Ridha, SKom MS
Penguji: 2 Hari Agung Adrianto, SKom MSi

Judul Skripsi : Pengelompokan Dokumen Tugas Akhir Mahasiswa Program S1
Ilmu Komputer Berbasis Frequent Itemset
Nama
: Lusi Maulina Erman
NIM
: G64110032

Disetujui oleh

Dr Imas Sukaesih Sitanggang, SSi MKom
Pembimbing


Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Alhamdulillah, Puji dan syukur penulis panjatkan kepada Allah subhanahu
wa ta’ala atas limpahan rahmat dan segala karunia-Nya sehingga karya ilmiah ini
berhasil diselesaikan. Tema yang dipilih dalam penelitian ini ialah text mining
dengan judul Pengelompokan Dokumen Tugas Akhir Mahasiswa Program S1 Ilmu
Komputer Berbasis Frequent Itemset.
Terima kasih penulis ucapkan kepada Mama, Papa, Mbak Pretty, dan
keluarga besar yang tidak pernah lelah untuk selalu memberikan doa, dukungan,
motivasi agar tetap optimis, dan semangat untuk menyelesaikan penelitian ini.
Terima kasih selalu mendukung adik kecilnya ini untuk tetap semangat
menyelesaikan penelitian sampai akhir.
Terima kasih penulis ucapkan kepada Ibu Dr Imas Sukaesih Sitanggang, SSi
MKom selaku dosen pembimbing skripsi, yang tidak pernah letih untuk

memberikan arahan dan masukan serta motivasi untuk menyelesaikan penelitian.
Penulis juga menyampaikan terima kasih kepada:
1 Bapak Ahmad Ridha, SKom MS dan Bapak Hari Agung Adrianto, SKom MSi
selaku dosen penguji. Terima kasih atas masukan dan saran dalam pengujian
hasil penelitian.
2 Bapak Aziz Kustiyo, SSi MKom dan Ibu Husnul Khotimah, SKomp MKom.
Terima kasih atas masukan dan diskusi terkait skripsi penulis.
3 Yenni Puspitasari, Ihda Husnayain, dan Timotius Devin, terima kasih untuk
selalu menyemangati dalam setiap kondisi, saling membantu, mendoakan, dan
memotivasi.
4 Keluarga Ilmu Komputer 48, terima kasih untuk persaudaraan yang terjalin
selama empat tahun ini dan pelajaran hidup yang diberikan Allah lewat kalian.
5 Rekan-rekan penulis yang tidak dapat disebut satu per satu, terima kasih untuk
segala memori di kampus Institut Pertanian Bogor tercinta.
Semoga segala doa, bantuan, bimbingan, motivasi, dan kebaikan-kebaikan
yang telah diberikan kepada penulis akan dihadiahi kebaikan pula oleh Allah
subhanahu wa ta’ala.
Akhirnya semoga penulisan karya ilmiah ini bermanfaat dan dapat menambah
wawasan kita semua.
Bogor, Agustus 2015

Lusi Maulina Erman

DAFTAR ISI
DAFTAR TABEL

viii

DAFTAR GAMBAR

viii

DAFTAR LAMPIRAN

viii

PENDAHULUAN

1

Latar Belakang


1

Perumusan Masalah

2

Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2

METODE


2

Data Penelitian

2

Tahapan Penelitian

3

Peralatan Penelitian

6

HASIL DAN PEMBAHASAN

7

Praproses Data


7

Association Rule Mining

8

Clustering K-Means

9

Analisis Cluster Dokumen

9

SIMPULAN DAN SARAN

10

Simpulan


10

Saran

11

DAFTAR PUSTAKA

11

RIWAYAT HIDUP

23

DAFTAR TABEL
1
2
3
4

Contoh dari beberapa stopwords tambahan
Contoh hasil tahapan stemming
Variasi dari nilai sparse dan jumlah term yang dihasilkan
Perbandingan antara penggunaan nilai support dan jumlah term yang
dihasilkan

7
7
8
9

DAFTAR GAMBAR
1
2
3
4
5
6

Tahapan penelitian
Matriks document-term
Vertikal layout
Bottom-up traversal (Zaki et al. 1997)
Pseudocode algoritme ECLAT (Guandong et al. 2010)
Hasil evaluasi purity

3
4
4
5
5
10

DAFTAR LAMPIRAN
1 Label kelas pada data penelitian yang diadopsi dari penelitian Fhattiya
(2014)
2 Label kelas pada keseluruhan data dokumen
3 Daftar stopwords tambahan yang umum muncul pada dokumen
penelitian bidang Ilmu Komputer
4 Nilai SSE per cluster pada perlakuan sebelum dan setelah menerapkan
association rule mining dengan variasi nilai support untuk clustering
nilai k = 2 hingga 10 untuk data sebelum stopwords tambahan
5 Nilai SSE per cluster pada perlakuan sebelum dan setelah menerapkan
association rule mining dengan variasi nilai support untuk clustering
nilai k = 2 hingga 10 untuk data setelah stopwords tambahan
6 Hasil evaluasi purity pada seed 346, 122, 300, 255, dan 50

13
16
19

20

21
22

PENDAHULUAN
Latar Belakang
Abstrak dalam suatu dokumen tugas akhir memiliki peranan penting dalam
menjelaskan keseluruhan dokumen. Kata-kata yang sering muncul dalam abstrak
dapat dijadikan acuan dalam mengelompokkan dokumen tugas akhir ke dalam
kategori-kategori. Untuk mengelompokkan abstrak ke dalam kategori salah satunya
dapat menggunakan text mining.
Salah satu teknik pengelompokan adalah clustering. Menurut Han et al.
(2012), clustering adalah proses pengelompokan kumpulan data menjadi beberapa
kelompok sehingga objek di dalam satu kelompok memiliki banyak kesamaan dan
memiliki banyak perbedaan dengan objek di kelompok lain berdasarkan nilai
atribut dari objek tersebut dan dapat juga berupa perhitungan jarak. Pengelompokan
kumpulan data tersebut dapat didasari oleh adanya hubungan antar keyword dalam
dokumen teks. Hubungan antar keyword dianalisis dengan cara mengumpulkan
keyword yang sering muncul secara bersamaan dan menemukan hubungan asosiasi
dari suatu itemset (frequent itemset) di antaranya menggunakan teknik association
rule mining (Han et al. 2012).
Penelitian sebelumnya dilakukan oleh Subandi (2014) menggunakan
Bisecting K-Means dalam melakukan clustering dokumen skripsi berdasarkan
abstrak. Data abstrak yang digunakan terdiri atas 78 dokumen abstrak berbahasa
Indonesia dan 113 dokumen abstrak berbahasa Inggris. Penelitian ini menerapkan
konsep Information Retrieval pada tahap praproses, pembobotan tf-idf pada
pemodelan ruang vektor, dan menggunakan ukuran cosine similarity untuk
mengukur jarak antar vektor dokumen.
Galang et al. (2012) menggunakan metode Naive Bayes Classifier untuk
melakukan proses klasifikasi dan menggunakan metode Keyword-Based
Association Analysis yang dikembangkan dari metode Market Based Analysis untuk
menggali data menjadi aturan-aturan asosiasi. Aturan-aturan asosiasi yang
dihasilkan memberikan informasi asosiasi antar-keyword dari sekumpulan abstrak
tugas akhir yang diproses.
Samodra et al. (2009) melakukan penelitian pengklasifikasian dokumen
teks berbahasa Indonesia dengan metode Naive Bayes pada sampel dokumen teks
yang diambil dari sebuah media massa elektronik berbasis web. Penelitian tersebut
menggunakan dua jenis input, yaitu dokumen yang diproses secara langsung dan
dokumen yang sudah dihilangkan kata-kata yang tidak penting (stopwords).
Pada penelitian ini dilakukan pengelompokan dokumen tugas akhir
mahasiswa Program S1 Ilmu Komputer IPB berdasarkan abstrak dalam bahasa
Inggris. Algoritme ECLAT digunakan untuk menemukan himpunan keyword yang
sering muncul bersamaan dalam dataset (frequent itemsets), sedangkan clustering
K-Means digunakan untuk mengelompokkan data abstrak. Tujuannya adalah
memudahkan proses pencarian informasi yang relevan dengan kebutuhan.

2
Perumusan Masalah
Untuk melakukan pencarian dokumen teks yang relevan dari banyak
dokumen yang tersimpan secara acak, diperlukan metode yang dapat
mengelompokkan dokumen. Dalam penelitian ini dilakukan pengelompokan
dokumen tugas akhir mahasiswa Program S1 Ilmu Komputer IPB berdasarkan
abstrak dalam bahasa Inggris. Berdasarkan latar belakang yang diuraikan
sebelumnya, maka perumusan masalah dalam penelitian ini adalah:
1 Bagaimana penerapan metode association rule mining dengan algoritme
ECLAT dalam mencari kombinasi keyword yang paling sering terjadi dari
suatu frequent keyword.
2 Bagaimana penerapan teknik clustering K-Means dalam mengelompokkan
dokumen abstrak tugas akhir mahasiswa yang mirip.
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1 Menerapkan metode association rule mining dengan algoritme ECLAT
dalam mencari kombinasi keyword yang paling sering terjadi dari suatu
frequent keyword dalam dokumen tugas akhir mahasiswa program S1 Ilmu
Komputer IPB.
2 Mengelompokkan dokumen teks berdasarkan abstrak tugas akhir
mahasiswa program S1 Ilmu Komputer IPB.
Manfaat Penelitian
Manfaat dari penelitian ini adalah mengelompokkan data yang serupa untuk
memudahkan proses pencarian informasi yang relevan dengan kebutuhan.
Ruang Lingkup Penelitian
Dataset yang digunakan berupa 346 abstrak dokumen tugas akhir mahasiswa
program S1 Ilmu Komputer IPB dalam bahasa Inggris. Pada penelitian ini
menggunakan modul text mining dan association rule mining pada bahasa
pemrograman R yang tersedia pada package tm dan arules.

METODE
Data Penelitian
Data yang digunakan dalam penelitian ini adalah data abstrak dokumen tugas
akhir mahasiswa program S1 Ilmu Komputer Departemen Ilmu Komputer FMIPA IPB
dalam bahasa Inggris tahun 2012 sampai 2014 sebanyak 346 dokumen.

3
Tahapan Penelitian
Tahapan penelitian yang dilakukan dalam pengelompokan dokumen tugas
akhir mahasiswa program S1 Ilmu Komputer IPB dapat dilihat pada Gambar 1.

Mulai

Frequent
itemset

Clustering
menggunakan
algoritme
K-Means

Dokumen abstrak
dalam bahasa Inggris

Praproses data

Association rule
mining
menggunakan
algoritme ECLAT

Matriks
document-term

Cluster dokumen

Analisis cluster
dokumen

Selesai
Gambar 1 Tahapan penelitian
Praproses Data
Tahapan pertama dalam penelitian ini adalah praproses data. Tahap praproses
yang dilakukan pada penelitian ini adalah case folding, pembuangan tanda baca dan
angka, filtering, pembuangan whitespace, stemming, dan pembuatan matriks
document-term.
a Case folding
Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf
kecil. Karakter selain huruf dihilangkan dan dianggap delimiter (Feldman
dan Sanger 2007). Pada tahap ini semua huruf dalam data abstrak dokumen
tugas akhir mahasiswa program S1 Ilmu Komputer IPB diubah menjadi huruf
kecil.
b Pembuangan tanda baca dan angka
Pada tahap ini data abstrak yang telah melalui tahap case folding dilakukan
pembuangan tanda baca dan pembuangan angka yang terdapat di dalam data
abstrak tersebut. Tahap ini bertujuan untuk menghilangkan angka dan tanda
baca yang tidak berhubungan dalam melakukan pengelompokan dokumen.
c Filtering
Tahap filtering adalah tahap mengambil kata-kata penting. Salah satu
algoritme yang dapat digunakan adalah algoritme stoplist (membuang kata
yang kurang penting) atau wordlist (menyimpan kata penting).
Stoplist/stopwords adalah kata-kata yang tidak deskriptif yang dapat
dibuang dalam pendekatan bag-of-words (Feldman dan Sanger 2007).
Stopwords yang digunakan pada penelitian ini bersumber dari stopwords
dalam bahasa Inggris yang telah tersedia pada package tm di R. Pada tahap
ini juga dilakukan penambahan stopwords yang berhubungan dengan istilah
ilmu komputer yang bersifat umum.

4
d

e

f

Pembuangan whitespace
Setelah dilakukan tahap filtering, stopwords akan hilang dan menyisakan
banyak whitespace pada data abstrak, sehingga dilakukan tahap
penghapusan whitespace.
Stemming
Tahap stemming adalah mengubah kata-kata turunan ke satu representasi
yang sama dengan cara menghilangkan semua imbuhan. Idealnya tahap ini
menemukan kata dasar (Feldman dan Sanger 2007).
Pembuatan matriks document-term
Matriks ini memberi informasi frekuensi kemunculan term dalam koleksi
dokumen data abstrak. Setiap baris merepresentasikan dokumen data
abstrak, sedangkan setiap kolom merepresentasikan term yang ada dalam
koleksi dokumen data abstrak. Gambaran mengenai matriks document-term
ditunjukkan pada Gambar 2.
term1 term2
...
termn
doc1 freq11 freq12
freq1n
doc2 freq21 freq22
freq2n
...
...
docm freqm1 freqm2
...
freqmn
Gambar 2 Matriks document-term

Association Rule Mining
Association rule mining bertujuan mencari pola yang sering muncul di antara
banyak transaksi. Setiap transaksi terdiri dari beberapa item (Zhang et al. 2003).
Kumpulan dari transaksi-transaksi ini disebut dengan itemset. Itemset yang
mempunyai item sebanyak k, disebut k-itemset (Zaki 2000).
Association rule mining akan menghasilkan aturan berbentuk X→Y untuk
menentukan seberapa besar hubungan antara X dan Y. Aturan ini memerlukan dua
ukuran, yakni support dan confidence. Support merupakan kemungkinan X dan Y
muncul bersamaan, sedangkan confidence merupakan kemungkinan munculnya Y
ketika X juga muncul (Han et al. 2012). Akan tetapi, penelitian ini hanya mencari
itemset dengan menggunakan ukuran support yang dinotasikan menurut Han et al.
(2012):
Support X→Y =P X Y =

jumlah transaksi yang mengandung X dan Y
jumlah transaksi

1

Algoritme ECLAT merupakan salah satu algoritme association rule mining
untuk mencari frequent itemset dalam sebuah kumpulan data (dataset). Sebuah
dataset terdiri atas beberapa item diikuti oleh tid-list. Setiap item dinyatakan dalam
tabel tid-list secara vertikal membentuk vertikal layout (Zaki et al. 1997) yang
ditunjukkan pada Gambar 3.
TID
Item
A B C D E
1
A,B,E
1 1 2 2 1
2
B,C,D
 4 2 3 4 3
3
C,E
4 4
4 A,B,C,D
Gambar 3 Vertikal layout

5
Algoritme ECLAT membangkitkan kandidatnya dengan pencarian depthfirst dan menggunakan titik potong tid-list antar-item (Borgelt 2003). Pendekatan
titik potong yang digunakan algoritme ECLAT adalah pendekatan bottom-up
traversal yang ditunjukkan pada Gambar 4.

Gambar 4 Bottom-up traversal (Zaki et al. 1997)
Pseudocode algoritme ECLAT ditunjukkan pada Gambar 5. Pada
pseudocode ini yang dimaksud dengan atom adalah term.
Algorithm 1: ECLAT – Frequent Itemset Mining
Input:
A transaction database D,
A user specified threshold minsup
A set of atoms of a sublattice S
Output:
Frequent itemsets F
Procedure:
1. for all atoms Ai ∈ S
Eclat(S)
2.
Ti=∅
3.
for all atoms Aj ∈ S, with j > i do
4.
R= Ai Aj ;
5.
L(R)=L(Ai) L(Aj);
6.
If support(R) ≥ minsup then
7.
Ti=Ti {R};
8.
F|R|=F|R| {R};
9.
end
10.
end
11. end
12. for all Ti ≠∅ do Eclat(Ti);

Gambar 5 Pseudocode algoritme ECLAT (Guandong et al. 2010)
Clustering K-Means
Masukan pada tahapan ini berupa data hasil dari pengurangan dimensi
matriks document term setelah dijalankan algoritme ECLAT dan nilai k. Algoritme
K-Means sebagai berikut (Han et al. 2012):
1 Pilih sebanyak k objek dari set data sebagai pusat cluster (centroid) secara
acak.
2 Ulangi hingga tidak ada perubahan cluster atau hingga masa/epoch yang
ditentukan:
a Masukkan setiap objek ke dalam cluster yang memiliki kemiripan
tertinggi terhadap nilai rataan cluster (centroid).

6
b

Perbaharui nilai rataan cluster (centroid) pada setiap cluster.

Untuk menentukan nilai k terbaik digunakan fungsi sum of squared error
(SSE). Dengan mengetahui nilai SSE dari tiap nilai k maka dapat diketahui
clustering yang menghasilkan nilai kesamaan atau kemiripan terbaik. Clustering
yang memiliki nilai SSE terkecil adalah clustering dengan hasil terbaik. SSE
didefinisikan sebagai berikut (Han et al. 2012):
k

SSE= ∑ ∑ dist(ci , p)2

(2)

i=1 x∈Ci

dengan k adalah jumlah kelas, p adalah objek data, Ci adalah objek dalam cluster i,
ci adalah centroid atau titik pusat cluster i, dan dist adalah fungsi jarak, yaitu jarak
Euclidean.
Analisis cluster dokumen
Tahapan ini menganalisis hasil clustering dokumen menggunakan
algoritme K-Means. Evaluasi purity digunakan untuk mengukur kualitas clustering
yang dihasilkan. Menurut Manning et al. (2009), purity merupakan salah satu
ukuran untuk mengukur kualitas clustering berbasis external criterion. External
criterion adalah metode untuk mengevaluasi seberapa baik hasil clustering dengan
menggunakan sekumpulan kelas acuan sebagai wakil penilaian pengguna. Kelas
acuan ini diperoleh dari hasil penilaian manusia. Label kelas pada penelitian ini
diadopsi dari penelitian Fhattiya (2014) yang dapat dilihat pada Lampiran 1. Label
kelas pada keseluruhan data dapat dilihat pada Lampiran 2. Persamaan 3
memperlihatkan formula untuk menghitung purity (Manning et al. 2009). Semakin
besar nilai purity (semakin mendekati 1), semakin baik kualitas cluster.
1
purity Ω, K = ∑ max|ωk ∩cj |
(3)
j
N
k

dengan Ω={ω1 ,ω2 ,…,ωk} adalah kumpulan cluster, K={c1 ,c2 ,…,cj } adalah
kumpulan kelas acuan, N adalah jumlah dokumen, ωk adalah kumpulan objek pada
cluster ωk , dan cj adalah kumpulan objek pada kumpulan kelas acuan cj .
Peralatan Penelitian

Penelitian ini menggunakan perangkat keras dan perangkat lunak. Perangkat
keras berupa komputer personal dengan spesifikasi sebagai berikut:
• Processor Intel Core i3-3217U
• RAM 2 GB
• 460 GB HD
Adapun perangkat lunak yang digunakan sebagai berikut:
• Sistem operasi Windows 8.1 Single Language
• R sebagai bahasa pemrograman yang digunakan untuk mengolah data
• Notepad++ sebagai text editor

7

HASIL DAN PEMBAHASAN
Praproses Data
Penelitian ini menggunakan data abstrak dokumen tugas akhir sebanyak 346
dokumen dalam format fail PDF. Sebelum melakukan tahap praproses data, data
dengan format fail PDF diubah menjadi format fail txt dengan cara copy–paste secara
manual. Tahap praproses data terdiri dari 6 tahap, yaitu case folding, pembuangan
tanda baca dan angka, filtering, pembuangan whitespace, stemming, dan pembuatan
matriks document-term. Tahap pertama adalah case folding. Tahap ini perlu
dilakukan untuk mempermudah tahap praproses selanjutnya tanpa memperhatikan
huruf kapital atau tidaknya kata. Tahap kedua adalah pembuangan tanda baca dan
angka. Selanjutnya, tahapan ketiga adalah tahap filtering. Pada tahap ini dilakukan
penambahan stopwords yang berhubungan dengan istilah ilmu komputer yang
bersifat umum. Contoh dari beberapa stopwords tambahan ditunjukkan pada Tabel
1. Daftar stopwords tambahan secara lengkap dapat dilihat pada Lampiran 3.
Tabel 1 Contoh dari beberapa stopwords tambahan
Daftar stopwords tambahan
accuracy
algorithm
application

Setelah dilakukan tahap filtering, stopwords akan hilang dan menyisakan
banyak whitespace, sehingga perlu dilakukan tahap penghapusan whitespace.
Tahap selanjutnya adalah stemming, yaitu penghilangan imbuhan yang terdapat di
dalam data abstrak untuk menghasilkan kata dasar. Pada tahap ini tidak semua kata
dasar dihasilkan dalam bentuk yang sempurna. Beberapa kata yang dihasilkan
berubah menjadi kata yang tidak terdapat di dalam kamus bahasa Inggris seperti
yang ditunjukkan pada Tabel 2. Namun, hasil dari tahap stemming yang demikian
tidak terlalu berpengaruh di dalam tahap analisis asosiasi dan clustering. Semua
data abstrak yang memiliki kata-kata yang sama akan dilakukan pemotongan
imbuhan dengan hasil yang sama sehingga tahap analisis asosiasi dan clustering
dapat dijalankan.
Tabel 2 Contoh hasil tahapan stemming
Sebelum tahap stemming
Setelah tahap stemming
temporal
tempor
analyze
analyz
queries
queri
Tahap terakhir dari praproses data adalah pembuatan matriks document-term.
Matriks ini memberi informasi frekuensi kemunculan term dalam koleksi dokumen
data abstrak, sehingga matriks ini memiliki dimensi yang cukup besar, yaitu jumlah
data dokumen dikali dengan banyaknya kata penyusunnya (term). Ukuran matriks
ini adalah 346 × 3444 untuk perlakuan data sebelum penambahan stopwords dan
346 × 3415 untuk perlakuan data setelah penambahan stopwords. Untuk mereduksi
dimensi matriks ini, term yang memiliki frekuensi rendah dibuang menggunakan
fungsi removeSparseTerm(). Nilai sparse yang digunakan adalah sebesar 0.95.

8
Nilai ini dinilai cukup baik dari nilai sparse yang lain, karena menyisakan jumlah
term yang cukup banyak. Hal ini bertujuan untuk mendapatkan term dengan variasi
yang banyak sebagai masukan pada tahap asosiasi. Variasi dari nilai sparse dan
jumlah term yang dihasilkan dapat dilihat pada Tabel 3.
Tabel 3 Variasi dari nilai sparse dan jumlah term yang dihasilkan
Nilai
Term yang
Nilai
Term yang
Nilai
Term yang
sparse
dihasilkan
sparse
dihasilkan
sparse
dihasilkan
0.1
1
0.4
3
0.7
14
0.15
1
0.45
3
0.75
21
0.2
2
0.5
4
0.8
26
0.25
2
0.55
6
0.85
47
0.3
2
0.6
10
0.9
101
0.35
3
0.65
12
0.95
235
Tabel 3 menunjukkan variasi dari nilai sparse dan jumlah term yang
dihasilkan menggunakan fungsi removeSparseTerm() di R. Fungsi ini membuang
term yang jarang muncul di dalam dataset. Term yang muncul hanya satu atau dua
kali cenderung memakai banyak komputasi sumber daya tanpa menambahkan
sesuatu yang berguna untuk analisis. Oleh karena itu, dapat dilakukan reduksi
ukuran dimensi matriks document-term tanpa mengurangi banyak informasi yang
berguna di dalam matriks tersebut. Fungsi removeSparseTerm() dijalankan pada
kode program berikut:
1
2

dm