Clustering Dokumen Ringkasan Tesis Mahasiswa Pascasarjana Ipb Berbasis Frequent Itemsets Menggunakan Algoritme Bisecting K-Means.

CLUSTERING DOKUMEN RINGKASAN TESIS MAHASISWA
PASCASARJANA IPB BERBASIS FREQUENT ITEMSETS
MENGGUNAKAN ALGORITME BISECTING K-MEANS

ARI SETIAWAN

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa tesis berjudul Clustering Dokumen
Ringkasan Tesis Mahasiswa Pascasarjana IPB berbasis Frequent Itemsets
menggunakan Algoritme Bisecting K-Means adalah benar karya saya dengan
arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada
perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya
yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam
teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, Mei 2016
Ari Setiawan
NIM G651120051

RINGKASAN
ARI SETIAWAN. Clustering Dokumen Ringkasan Tesis Mahasiswa Pascasarjana
IPB berbasis Frequent Itemsets menggunakan Algoritme Bisecting K-Means.
Dibimbing oleh IMAS SUKAESIH SITANGGANG dan IRMAN HERMADI.
Proses pencarian dokumen tesis mahasiswa Pascasarjana IPB pada
repository IPB dapat dipercepat dengan cara mengelompokkan dokumen tersebut
berdasarkan kata kunci dan kombinasi kata kunci yang sering muncul dalam
dokumen tersebut. Metode frequent itemsets dapat memunculkan term-term yang
frekuensi kemunculannya tinggi terhadap kumpulan dokumen. Term-term yang
sering muncul dalam dokumen dapat mewakili sebuah dokumen. Dalam proses
temu kembali dokumen, pada umumnya kata kunci dimasukkan oleh pengguna.
Pengelompokkan dokumen berdasarkan frequent term (dalam hal ini kata kunci)
dapat mempercepat pengembalian dokumen yang dicari.
Penelitian ini dilakukan untuk menggali frequent itemsets dari kumpulan
dokumen ringkasan tesis mahasiswa Pascasarjana IPB menggunakan algoritme

Apriori. Proses clustering terhadap frequent itemsets yang terbentuk
menggunakan algoritme Bisecting K-Means, untuk kemudian digunakan dalam
proses clustering dokumen. Proses pencarian dokumen akan dilakukan terhadap
dokumen yang telah dikelompokkan.
Metode dalam penelitian ini diawali dengan mengumpulkan data
ringkasan tesis mahasiswa Pascasarjana pada repositori IPB. Kemudian dilakukan
praposes data yang meliputi tonization, remove number, stopword removal,
stemming, remove punctuation, dan remove sparse term. Selanjutnya proses
menggali frequent itemsets menggunakan algoritme Apriori dan pengelompokkan
dokumen berbasis frequent itemsets menggunakan algoritme Bisecting K-Means.
Tahap terakhir adalah melakukan analisis dan evaluasi hasil cluster. Pada tahap
ini akan diuji pencarian dokumen terhadap kata kunci yang dimasukkan
berdarakan itemsets yang dihasilkan.
Hasil penelitian menunjukkan bahwa pengelompokan dokumen
menggunakan algoritme Bisecting K-Means dapat pengelompokkan itemsets yang
mempunyai nilai support tinggi. Pengujian dengan nilai k=3 sampai dengan k=10,
pada pengujian k=10 dapat memperoleh hasil cluster yang baik, dengan nilai Sum
of Squared Error yaitu 132.15. Pengujian dengan nilai k=10, cluster dua dapat
mengelompokkan beberapa itemsets yang mempunyai nilai support tertinggi,
yaitu

itemsets
{base,method},
{base,develop},
{analysi,base},
dan
{base,product}. Akurasi hasil clustering berbasis frequent itemsets sangat
dipengaruhi oleh term-term yang dihasilkan pada tahap praproses data, yaitu pada
tahap penghapusan term berdasarkan tabel stopword, remove sparse term dan nilai
minimum support (minsup) karena berdampak terhadap banyaknya jumlah
frequent itemsets yang dihasilkan. Term-term yang dihasilkan dengan pendekatan
frequent itemsets masih bersifat umum sehingga tidak dapat digunakan untuk
pencarian dokumen dengan topik penelitian yang spesifik.
Kata kunci: Apriori, Bisecting K-Means, document clustering, frequent itemsets

SUMMARY
ARI SETIAWAN. Clustering IPB Graduate Student Thesis Summary based on
Frequent Itemsets using Bisecting K-Means Algorithm. Supervised by IMAS
SUKAESIH SITANGGANG and IRMAN HERMADI.
The searching documents of IPB graduate student’s thesis in IPB repository
can be accelerated by grouping these documents based on keywords and its

combinations that often appear in the document. Frequent itemsets approach can
discover terms that are frequently occurred in the documents. These frequent
terms may represent content of the documents. In the document retrieval process,
keywords are commonly entered by users. Grouping documents based on frequent
term including keywords can accelerate the document retrieval.
This research was conducted to explore the frequent itemsets of document
summaries IPB graduate student’s thesis using Apriori algorithm. Clustering
frequent itemsets was performed using the bisecting K-Means algorithm. The
searching documents will be done on clusters of documents.
The research steps in this research begin by collecting of IPB Graduate
student thesis’s summaries. Data preprocessing consists of several tasks including
tokenization, stopword removal, stemming, removing numbers, removing
punctuation and removing spare terms. Furthermore, frequent terms were
discovered using Apriori algorithm. Based on the frequent terms, documents were
clustered using bisecting K-Means algorithm. The last step is analyzing and
evaluating the clustering results. At this stage clusters of documents were
evaluated based on keywords that were selected from the frequent terms.
The results show that the best clustering result was obtained at number of
clusters of 10 with the Sum of Squared Error is 132.15. These clusters contain
documents that have frequent terms {base, method}, {base, develop}, {analysi,

base}, and {base, product}. This study show that data preprocessing task
including removing stopwords and removing sparse terms have high influence on
frequent terms generation. This study discovers frequents terms related to the
common topics in the summaries of IPB graduate student’s thesis therefore the
terms cannot be used to discover thesis related to specific topics.

Keywords: Apriori, Bisecting K-Means, document clustering, frequent itemsets

© Hak Cipta Milik IPB, Tahun 2016
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB

CLUSTERING DOKUMEN RINGKASAN TESIS MAHASISWA
PASCASARJANA IPB BERBASIS FREQUENT ITEMSETS

MENGGUNAKAN ALGORITME BISECTING K-MEANS

ARI SETIAWAN

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Komputer
pada
Program Studi Ilmu Komputer

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016

Penguji Luar Komisi pada Ujian Tesis:

DrEng Wisnu Ananta Kusuma, ST MT

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan April 2014 ini ialah text
minning, dengan judul Clustering Dokumen Ringkasan Tesis Mahasiswa
Pascasarjana IPB berbasis Frequent Itemsets menggunakan Algoritme Bisecting
K-Means.
Terima kasih penulis ucapkan kepada Ibu Dr Imas Sukaesih Sitanggang, SSi
MKom dan Bapak Irman Hermadi, SKom MS PhD selaku pembimbing, serta
Bapak DrEng Wisnu Ananta Kusuma, ST MT selaku penguji yang telah banyak
memberikan saran untuk penelitan ini. Ungkapan terima kasih juga disampaikan
kepada ayahanda, ibunda, isteriku tersayang Dewi Tirta Ayu, Anak-anakku
tersayang Devan, Abel, Nadine, Reynand, dan keluarga Bapak Haji Saefulloh.
Tak lupa pula saya ucapkan terima kasih kepada Priyo Puji Nugroho yang telah
membantu pengumpulan data serta teman-teman Andri Hidayat, Mulyani yang
telah membantu dan menemani saya saat menempuh masa-masa sulit penelitian.
Ungkapan terima kasih juga penulis sampaikan pada pengelola
Pascasarjana, seluruh Dosen dan Staf Akademik Departemen Ilmu Komputer
Institut Pertanian Bogor, teman-teman MKom Angkatan 14. Semoga karya ilmiah
ini bermanfaat.


Bogor, Mei 2016
Ari Setiawan

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

1 PENDAHULUAN
Latar Belakang
Rumusan Masalah
Tujuan Penelitian

Ruang Lingkup Penelitian
Manfaat Penelitian

1
1
2
3
3
3

2 TINJAUAN PUSTAKA
Document Clustering
Partitional Clustering
Algoritme Bisecting K-Means
Representasi Dokumen Menggunakan Vector Space Model (VSM)
Clustering Dokumen Berbasis Frequent Itemset
Algoritme Apriori
Term Frequency – Invers Document Frequency

3

3
4
4
5
5
6
6

3 METODE
Data Penelitian
Metode Penelitian
Praproses Data
Penggalian frequent itemsets dengan algoritme Apriori
Clustering Frequent Term Menggunakan Algoritme Bisecting K-Means
Evaluasi Cluster Dokumen

7
7
7
8

10
10
11

4 HASIL DAN PEMBAHASAN
Data Penelitian
Praproses Data
Penggalian frequent itemsets dengan algoritme Apriori
Clustering Frequent Term Menggunakan algoritme Bisecting K-Means
Evaluasi Cluster Dokumen

11
11
12
18
21
22

4 SIMPULAN DAN SARAN
Simpulan
Saran

28
28
29

DAFTAR PUSTAKA

29

LAMPIRAN

31

RIWAYAT HIDUP

38

DAFTAR TABEL
1 Frequent Itemsets
2 Dokumen yang mengandung frequent itemsets
3 Nilai SSE cluster dokumen menggunakan algoritme Bisecting
K-Means
4 Cluster frequent itemsets menggunakan algoritme Bisecting
K-Means berdasarkan frequent itemsets dengan nilai k  10
5 Jum;ah dokumen yang mengandung frequent itemsets
6 Daftar tabel stopword tambahan untuk memunculkan term yang
lebih spesifik
7 Pembentukan frequent itemsets terhadap pengujian nilai sparsity,
minsup dan mincof
8 Pembentukan frequent itemsets terhadap pengujian nilai sparsity 0.90,
minsup 0.08, dan mincof 0.8

19
21
21
22
24
25
26
27

DAFTAR GAMBAR
1
2
3
4

Diagram alir penelitian
Dokumen ringkasan tesis mahasiswa Pascasarjana IPB
Document term matrix
Wordcloud untuk dokumen ringkasan tesis mahasiswa
Pascasarjana IPB
5 Korelasi antar items (term)
6 Wordcloud perubahan pembentukan itemsets akibat
penambahan tabel stopword
7 Korelasi antar items setelah penambahan tabel stopword

8
11
17
18
20
26
28

DAFTAR LAMPIRAN
1 Source code praposes data
2 Source code Source code Penggalian Frequent Itemsets
3 Source code clustering menggunakan algoritme Bisecting K-Means

31
33
34

1 PENDAHULUAN
Latar Belakang
Pengelompokan dokumen atau pengelompokan teks adalah salah satu tema
utama dalam text mining. Hal ini mengacu pada proses pengelompokan dokumen
dengan isi atau topik yang sama ke dalam kelompok untuk meningkatkan
ketersediaan dan keandalan aplikasi text mining seperti pencarian informasi
(Zamir et al. 1997), klasifikasi teks (Aggarwal et al. 1999), dan peringkasan
dokumen (Larson et al. 1999). Ada tiga jenis masalah dalam pengelompokan
dokumen. Masalah pertama adalah bagaimana mendefinisikan kesamaan dua
dokumen. Masalah kedua adalah bagaimana menentukan jumlah yang tepat dari
cluster dokumen koleksi teks dan yang ketiga adalah bagaimana
mengelompokkan dokumen secara tepat sesuai dengan cluster. Document
clustering adalah proses pengelompokkan dokumen secara otomatis ke dalam
suatu cluster, sehingga dokumen-dokumen yang berada dalam sebuah cluster
akan memiliki kemiripan yang tinggi dibandingkan dokumen pada cluster
yang berbeda (Steinbach et al. 2000).
Dalam beberapa tahun terakhir, clustering dokumen web telah menjadi
area penelitian yang sangat menarik di antara komunitas akademis dan ilmiah
yang terlibat dalam temu kembali informasi (information retrieval) dan pencarian
web (Carpineto et al. 2009). Sistem klasifikasi dokumen web berusaha untuk
meningkatkan cakupan (jumlah) dokumen yang disajikan bagi pengguna untuk
meninjau, sekaligus mengurangi waktu yang dihabiskan dalam pencarian
dokumen (Yates et al. 1999). Dalam information retrieval, sistem klasifikasi
dokumen web disebut mesin pengelompokan web. Sistem tersebut biasanya terdiri
atas empat komponen utama yaitu hasil akuisisi pencarian, pre-prosesing input,
konstruksi dan pelabelan cluster, serta visualisasi yang dihasilkan cluster
(Carpineto et al. 2009).
Konsep frequent itemsets berasal dari association rule mining yang
digunakan untuk menemukan hubungan aturan item dalam basis data
transaksional yang besar (Agrawal et al. 1993). Sebuah frequent itemsets adalah
sekumpulan frequent item, yang sering terjadi pada transaksi yang melebihi nilai
ambang batas tertentu yang disebut minimum support (minsup). Penambangan
frequent itemsets lebih sering mengarah ke penemuan asosiasi dan korelasi antara
item dalam jumlah data yang besar yang telah dikumpulkan dan disimpan secara
terus menerus ke dalam data transaksional. Frequent itemsets dalam
pengelompokan dokumen dapat dikaitkan dengan permintaan pengurangan
dimensi untuk representasi. Dalam Vector Space Model (VSM), keterbatasan
tempat penyimpanan sementara dari kata-kata individu menyebabkan dimensi
ruang yang besar. Tidak semua dokumen dalam koleksi berisi semua indeks
istilah yang digunakan dalam representasi dan sebagai akibat kekurangan ruang
terjadi pada vektor dokumen sangat besar. Sebuah frequent itemsets adalah satu
set kata-kata individu yang mencakup makna konseptual dan kontekstual dari kata
individu (Wen et al. 2010).
Repositori IPB adalah suatu website yang berisi kumpulan tugas akhir, tesis
dan disetasi mahasiswa IPB. Fitur yang ditampilkan pada repositori sudah
termasuk lengkap. Tampilan antar muka mempermudah dalam proses pencarian

dokumen. Pengguna dapat mencari dokumen berdasarkan jenis dokumen karya
ilmiah, tahun penerbitan, nama penulis, judul, dan subjek. Responses time dalam
proses informasi retrieval juga terbilang cepat. Namun dalam beberapa kasus
tingkat efektifitas pengembalian dokumen tidak relevan dengan kata kunci yang
dimaksukkan. Hal ini dapat disebabkan beberapa faktor, salah satu di antaranya
mengenai pengelompokkan dokumen. Dengan mengelompokkan dokumen dalam
suatu cluster dengan tingkat kemiripan dokumen yang sama, maka proses
pencarian tersebut tertuju pada suatu cluster tertentu, dokumen yang akan
dikembalikan akan berisi dokumen yang ada pada cluster tersebut, sehingga
tingkat relevansi dokumen bisa dikatakan efektif. Clustering selain dapat
mengelompokkan dokumen dengan tingkat kemiripan yang tinggi dalam suatu
cluster, dapat juga digunakan dalam hal peringkasan dokumen dan proses
information retrieval.
Dalam penelitian ini digunakan data repositori IPB, khususnya pada
kumpulan dokumen ringkasan tesis mahasiswa Pascasarjana IPB. Clustering
dokumen diperlukan untuk mengelompokkan dokumen berdasarkan kemiripan
dokumen ke dalam satu cluster, dan akan dilakukan pengujian terhadap tingkat
efektifitas dalam proses temu kembali dokumen. Teknik data mining yang
digunakan dalam penelitian ini adalah Frequent Pattern Mining dan Clustering.
Frequent Pattern Mining akan menentukan terms dalam kumpulan dokumen
berbasis frequent itemsets dari kumpulan dokumen. Clustering frequent term
menggunakan algoritme Bisecting K-Means digunakan untuk proses
pengelompokkan kemiripan dokumen ke dalam masing–masing cluster.
Clustering dokumen berbasis frequent itemsets merupakan salah satu metode
clustering dokumen yang dapat digunakan untuk mengatasi masalah tingginya
ruang dimensi dari dokumen yang akan dikelompokkan. Namun waktu komputasi
yang dibutuhkan pada proses clustering terhadap database yang besar akan terasa
lama. Oleh sebab itu akan dipadukan dengan metode clustering menggunakan
algoritme Bisecting K-Means. Dalam beberapa penelitian sebelumnya, algoritme
Bisecting K-Means mampu mempercepat proses kumputasi terhadap database
yang besar karena dapat melakukan pengulangan fungsi yang kompleksitasnya
tinggi. Pengulangan tersebut mampu mengelompokkan suatu objek atau dokumen
dalam suatu cluster dengan tingkat kemiripan yang tinggi.

Rumusan Masalah
Berdasarkan latar belakang masalah di atas maka rumusan masalah dalam
penelitian ini adalah bagaimana menggali frequent itemsets dan mengelompokkan
dokumen berbasis frequent itemsets pada kumpulan dokumen ringkasan tesis
mahasiswa Pascasarjana IPB, sehingga proses pencarian yang dilakukan terhadap
cluster dapat mengembalikan dokumen yang sesuai dengan kata kunci yang
dimasukkan.

Tujuan Penelitian

1.
2.

Tujuan dari penelitian ini adalah sebagai berikut:
Menentukan frequent term dari kumpulan dokumen ringkasan tesis
mahasiswa Pascasarjana IPB menggunakan algoritme Apriori.
Pengelompokkan dokumen berbasis frequent itemset menggunakan algoritme
Bisecting K-Means.

Ruang Lingkup Penelitian
Adapun ruang lingkup dalam penelitian ini adalah data dokumen berupa
ringkasan tesis mahasiswa Pascasarjana IPB dalam Bahasa Inggris sebanyak 295
dokumen yang diambil secara acak dari berbagai disiplin ilmu.

Manfaat Penelitian
Hasil penelitian ini diharapkan dapat mempercepat proses pencarian
dokumen berdasarkan kata kunci yang dimasukkan pengguna terhadap hasil
clustering dokumen dan bukan terhadap keseluruhan kumpulan dokumen.

2 TINJAUAN PUSTAKA
Document Clustering
Secara umum clustering dokumen adalah proses mengelompokkan
dokumen berdasarkan kemiripan antara satu dengan yang lain dalam satu cluster.
Tujuannya adalah untuk memisahkan dokumen yang relevan dari dokumen yang
tidak relevan (Zhang et al. 2001). Pengelompokan ini didasarkan pada hipotesa
yang dikemukakan oleh Van Rijsbergen bahwa dokumen-dokumen yang
berkaitan erat cenderung sesuai dengan permintaan informasi yang sama. Atau
dengan kata lain, dokumen-dokumen yang relevan dengan suatu query
cenderung memiliki kemiripan satu sama lain dari pada dokumen yang tidak
relevan, sehingga dapat dikelompokkan ke dalam suatu cluster. Oleh karena itu,
suatu cluster berisi kelompok dokumen homogen yang saling berkaitan antara
satu dengan yang lain.
Clustering dokumen dapat dilakukan sebelum atau sesudah proses temu
kembali (Zhang et al. 2001). Clustering dokumen yang dilakukan sebelum proses
temu kembali informasi, koleksi dokumen dikelompokkan dalam cluster
berdasarkan kemiripan (similarity) antar dokumen. Selanjutnya dalam proses temu
kembali informasi, apabila suatu dokumen ditemukan maka seluruh dokumen
yang berada dalam cluster yang sama dengan dokumen tersebut juga dapat
ditemukan. Sementara itu, clustering dokumen yang dilakukan setelah proses
temu kembali informasi, dokumen-dokumen yang dihasilkan disajikan dalam
gugus yang terbentuk berdasarkan kemiripan antar dokumen tersebut, sehingga

mempermudah pencari informasi untuk memberikan interpretasi terhadap hasil
penelusuran sesuai dengan kebutuhannya.
Menurut Rijbergen (1979), clustering dokumen telah lama diterapkan
untuk meningkatkan efekifitas temu kembali informasi. Penerapan clustering ini
didasarkan pada suatu hipotesis (cluster-hypothesis) bahwa dokumen yang relevan
akan cenderung berada pada cluster yang sama jika pada koleksi dokumen
dilakukan clustering. Beberapa penelitian untuk dokumen berbahasa Inggris
menerapkan clustering dokumen untuk memperbaiki kinerja dalam proses
pencarian (Tombros 2002). Satu hal menarik adalah tidak ada algoritma clustering
terbaik yang dapat diaplikasikan terhadap semua bentuk data (Achtert et al. 2005).
Partitional Clustering
Dalam partitional clustering, algoritme awal melakukan pembagian data
dalam cluster dan kemudian memindahkannya dari satu kelompok ke yang lain
didasarkan pada optimisasi dari kriteria yang telah ditentukan atau fungsi tujuan
(Jain et al. 1999). Algoritme yang paling representatif menggunakan teknik ini
adalah K-Means dan K-Medoids.
Metode partisi akan memindahkan dokumen dari satu cluster ke cluster
yang lain, mulai dari partisi awal. Metode tersebut berdasarkan pada jumlah
cluster yang ditetapkan oleh pengguna. Untuk mencapai optimalitas global dalam
pengelompokkan berbasis partisi, proses pembagian lengkap dari semua partisi
yang mungkin diperlukan. Karena proses tersebut tidak layak, maka metode
greedy digunakan dalam bentuk optimasi iteratif dengan menggunakan metode
relokasi iteratif untuk merelokasi poin antara k-cluster. Ada dua cara untuk
komputasi clustering dokumen dalam metode partitional clustering, baik secara
langsung atau melalui urutan bisecting atau perpecahan berulang (Zhao dan
Karypis 2002).
Metode partisi pertama menciptakan set awal partisi k, di mana k adalah
parameter jumlah partisi untuk membangun cluster, kemudian menggunakan
teknik relokasi berulang yang mencoba untuk meningkatkan partisi dengan benda
bergerak dari satu kelompok ke kelompok lain. Metode partisi khas termasuk
K-Means, K-Medoids, dan CLARANS (Han et al. 2012).
Pada tahun 2000 (Steinbach et al. 2000), sebuah penelitian menghasilkan
algoritme Bisecting K-means dengan menggabungkan metode Divisive
Hierarchical Clustering dan Partitional Clustering memberikan hasil yang lebih
baik mengenai akurasi dan efisiensi dibandingkan dengan metode Unweighted
Pair Group Method with Arithmetic Mean (UPGMA) dan algoritme K-Means
(Steinbach et al. 2000).
Algoritme Bisecting K-Means
Algoritme clustering K-Means, adalah varian dari algoritme K-Means
yang dikenal karena kesederhanaan dan digunakan dalam berbagai bidang untuk
pengenalan pola dan analisis cluster. Namun, perkembangan algoritme dalam text
mining telah banyak dikembangkan, salah satunya adalah algoritme Bisecting
K-Means, yaitu dengan mengembangkan varian dari algoritme K-Means,
sehingga memberikan hasil pengelompokan yang lebih baik daripada K-Means.
Metode Bisecting K-Means (Steinbach et al. 2000) mencoba menggabungkan
pendekatan partitional dengan divisive hierarchical, yaitu mula-mula seluruh

dokumen dibagi dua dengan cara K-Means (bisecting-step). Selanjutnya cara itu
dikenakan pada tiap-tiap cluster sampai diperoleh k buah cluster. Algoritme
Bisecting K-Means dimulai dengan satu cluster dan kemudian membagi cluster
menjadi dua. Cluster perpecahan ditentukan dengan meminimalkan Sum of
Squared Error (SSE). Dasar algoritme Bisecting K-Means (Steinbach et al. 2000)
adalah:
1. Inisialisasi satu cluster yang akan di split (dibagi).
2. Split dua cluster dengan mencari 2 sub cluster menggunakan algoritme
K-Mean.
3. Ulangi langkah 2, untuk nilai tetap sebanyak iterasi yg dilakukan dan
mengambil perpecahan yang menghasilkan clustering dengan keseluruhan
kesamaan tertinggi, ambil hasil clustering yang terbaik yaitu rata-rata nilai
document similarity yang terbaik.
4. Ulangi langkah 1, 2, dan 3 sampai jumlah cluster yang diinginkan tercapai
(memilih split gugus yang memberikan nilai SSE terkecil).
Untuk menentukan perpecahan atau membagi cluster sesuai nilai k
ditentukan dengan menggunakan nilai SSE terkecil. Persamaan 1 digunakan untuk
mencari SSE (Steinbach et al. 2000).
K

SSE   d ( p, m ) 2
i

(1)

i 1 xci

dengan :
pci
ci
mi
d

:
:
:
:

setiap data titik pada cluster i
center cluster i
centroid pada cluster i
jarak pada masing-masing cluster i

Representasi Dokumen Menggunakan Vector Space Model (VSM)
Vector Space Model (VSM) adalah metode untuk melihat tingkat
kedekatan atau kesamaan (similarity) term dengan cara pembobotan term.
Dokumen dipandang sebagi sebuah vektor yang memiliki magnitude (jarak) dan
direction (arah). Pada VSM, sebuah istilah direpresentasikan dengan sebuah
dimensi dari ruang vektor. Relevansi sebuah dokumen ke sebuah query didasarkan
pada similaritas diantara vektor dokumen dan vektor query (Yates 1999).
VSM digunakan untuk representasi dokumen. Dalam model vektor setiap
dokumen secara konseptual direpresentasikan sebagai vektor dari kata kunci yang
diambil dari dokumen dengan bobot terkait mewakili pentingnya istilah kunci
dalam dokumen maupun dalam keseluruhan dokumen corpus. Pada model ini,
query dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi,
dimana n adalah jumlah dari seluruh term yang ada dalam leksikon (Ian et al.
1999). Leksikon adalah daftar semua term yang ada dalam indeks.
Clustering Dokumen Berbasis Frequent Itemsets
Konsep frequent itemsets sebenarnya berasal dari penggalian kaidah
asosiasi (association rule mining). Frequent itemsets untuk text mining dapat
dibagi menjadi dua kategori yaitu: penggunaan frequent itemsets untuk
kategorisasi dokumen dan penggunaan frequent itemsets dalam clustering

dokumen. Motivasi dalam mengadaptasi frequent itemsets pada proses clustering
dokumen berkaitan dengan permintaan untuk mengurangi dimensi dari
representasi suatu dokumen. Dalam VSM, sekumpulan kata-kata akan
mengakibatkan tingginya dimensi. Padahal tidak semua dokumen dalam koleksi
berisi semua indeks istilah atau term yang digunakan dalam representasi.
Algoritme Apriori
Sebuah kaidah dalam analisis asosiasi dituliskan dalam bentuk AB,
dimana A dan B adalah dua item yang berbeda. Kekuatan relasi antara A dan B
dapat diukur dengan nilai support dan confidence. Support menunjukkan seberapa
sering sebuah itemsets diaplikasikan dalam sebuah basis data transaksi atau
dataset. Confidence adalah seberapa sering item B muncul pada transaksi yang
melibatkan item A. Untuk menemukan kaidah asosiasi dari sebuah daftar
transaksi, dibutuhkan nilai batasan yaitu minimum support (minsup) dan minimum
confidence (minconf). Persamaan untuk mencari Support diberikan pada
persamaan 2 dan confidence diberikan pada persamaan 3 (Han et al. 2012).

count A  B 
D
count A  B 
Support(A  B) 
countA

Support(A  B) 

(2)
(3)

dengan :
A : Antecendent aturan (bagian jika)
B : Consequent aturan (bagian maka)
D : Dataset (transaction)
Prosedur umum yang banyak dipakai dalam menemukan kaidah asosiasi
adalah sebagai berikut (Han et al. 2012):
a. Pembentukan frequent itemsets bertujuan untuk menemukan semua itemsets
yang memiliki nilai support lebih besar atau sama dengan nilai minsup.
b. Pembentukan kaidah (rule generation) bertujuan untuk membentuk kaidah
yang kuat (strong rule) yaitu kaidah dengan tingkat kepercayaan (confidence)
yang tinggi dari frequent itemsets yang dihasilkan pada tahap sebelumnya.
Term Frequency – Invers Document Frequency
Term Frequency-Inverse Document Frequency (TF-IDF) merupakan
pembobotan klasik berbasis frekuensi dan IDF kemudian menjadi inspirasi
untuk mengkombinasikan kedua metode pembobotan tersebut, dengan
mempertimbangkan frekuensi inter-dokumen dan frekuensi intra-dokumen dari
suatu term. Dengan menggunakan frekuensi term pada suatu dokumen dan
distribusinya pada keseluruhan dokumen, yakni kemunculannya pada
dokumen-dokumen lain (IDF).
Skema pembobotan istilah (Salton dan Buckley 1988) tf-idf digunakan
untuk memberikan pembobotan yang tinggi untuk istilah yang sering muncul
dalam koleksi dokumen secara keseluruhan. Sesuai skema, bobot istilah terdiri
dari frekuensi istilah dalam dokumen dikalikan dengan inverse frekuensi dari
istilah dalam seluruh dokumen corpus. Metode pembobotan yang

menggabungkan konsep frekuensi intra-dokumen dan inter-dokumen ini
kemudian dikenal sebagai metode TF-IDF, yang dinyatakan pada persamaan 4.
W  tf *id
ij ij
ij

(4)

N
 tf ij * log
df
j

dengan:
Wij
tfij
N
idij

=
=
=
=

bobot term j pada dokumen i
frekuensi term j pada dokumen i
jumlah total dokumen yang diproses
jumlah dokumen yang memiliki term j didalamnya

3 METODE
Data Penelitian
Data yang digunakan dalam penelitian ini adalah kumpulan ringkasan tesis
mahasiswa Pascasarjana IPB dalam bahasa Inggris sebanyak 295 dokumen yang
bersumber dari Direktorat Integritas Data dan Sistem Informasi (DIDSI) IPB.

Metode Penelitian
Bagian metode penelitian akan menjelaskan secara sistematis
tahapan-tahapan dan metode yang dilakukan dalam penelitian. Tahapan ini dibuat
agar penelitian menjadi lebih terarah. Ilustrasi tahapan kegiatan penelitian dapat
dilihat pada Gambar 1. Penelitian dimulai mengumpulkan data ringkasan tesis
mahasiswa pascasarjana pada repositori IPB sebanyak 295 dokumen. Tahap kedua
dilakukan praposes data terhadap kumpulan dokumen ringkasan tesis. Tahap
ketiga adalah menggali frequent itemsets menggunakan algoritme Apriori. Tahap
keempat adalah mengelompokkan dokumen berbasis frequent itemsets
menggunakan algoritme Bisecting K-means. Tahap kelima adalah evaluasi hasil
cluster dokumen yang terbentuk. Pada tahap ini juga akan diuji seberapa relevan
dokumen yang ditemukan terhadap kata kunci yang dimasukkan. Penjelasan lebih
lanjut setiap tahapan yang dilakukan pada metode penelitian akan dibahas pada
sub bahasan berikutnya.

Praproses Data

Dokumen
Ringkasan
Tesis

Mulai

Tokenization

Remove Number

Stemming

Stopword
Removal

Remove
Punctuation

Remove
Sparse Term

Minsup dan
Minconf
Tabel Doc-List

Penggalian Frequent Itemset dengan Algoritme Apriori

Kata Kunci

Frequent Term

Clustering Frequent Term Menggunakan
Algoritme Bisecting K-Means

Selesai

Evaluasi Clusters Dokumen

Gambar 1 Diagram alir penelitian

Praproses Data
Praproses data terdiri atas beberapa langkah yang mengambil dokumen
teks biasa sebagai input dan mengembalikan satu set token sebagai output
(manning et al. 2009). Vector Space Model (VSM) adalah metode untuk melihat
tingkat kedekatan atau kesamaan (similarity) term dengan cara pembobotan term.
Dokumen dipandang sebagi sebuah vektor yang memiliki magnitude (jarak) dan
direction (arah). Pada VSM, sebuah istilah direpresentasikan dengan sebuah
dimensi dari ruang vektor. Relevansi sebuah dokumen ke sebuah query didasarkan
pada similaritas antar vektor dokumen dan vektor query (Yates 1999). Dalam
model ruang vektor (vector space model), sekumpulan kata-kata akan
mengakibatkan tingginya dimensi.
Langkah awal dari penelitian ini adalah praproses data yang meliputi
tonization, remove number, stopword removal, stemming, remove punctuation,
dan menghilangkan term yang kemunculannya kurang dari nilai remove sparse
term yang ditentukan, sehingga kumpulan dokumen terdiri dari kumpulan term.
Hasil dari praproses data dipresentasikan ke dalam document term matrix, yaitu
sebuah matriks yang berisikan semua dokumen dari kumpulan dokumen yang
terdiri atas term yang telah bersifat individu. Setiap sel dalam matriks bersesuaian
dengan bobot yang diberikan dari suatu term dalam dokumen yaitu 1 dan 0,
dengan nilai nol berarti bahwa term tersebut tidak hadir di dalam dokumen.

Tokenization
Tokenisasi merupakan proses pemisahan suatu rangkaian karakter
berdasarkan karakter spasi, dan mungkin pada waktu yang bersamaan dilakukan
juga proses penghapusan karakter tertentu, seperti simbol. Token seringkali
disebut sebagai istilah (term) atau kata, sebagai contoh sebuah token merupakan
suatu urutan karakter dari dokumen tertentu yang dikelompokkan sebagai unit
semantik yang berguna untuk diproses (Salton dan Christopher 1988).
Remove number
Remove number merupakan proses penghilangan karakter angka yang
terdapat dalam suatu dokumen. Penghilangan karakter angka bertujuan agar
dokumen tidak mengandung karakter angka sehingga memudahkan dalam hal
representasi dokumen dalam sebuah term matrix.
Stopword removal
Stopword removal akan menghilangkan sebagian besar kata yang tidak
signifikan, yang tidak menyampaikan makna apapun sebagai dimensi dalam
model vektor. Oleh karena itu kata-kata dari daftar membentuk set kata-kata yang
unik. Strategi yang paling umum untuk menghilangkan stopword adalah untuk
membandingkan setiap istilah dengan daftar stopword. Proses stopword removal
merupakan proses penghapusan term yang tidak memiliki arti atau tidak relevan
(Tala 2003).
Stemming
Stemming adalah proses penghilangan prefiks dan sufiks dari query dan
istilah-istilah dokumen (Porter 1997). Stemming dilakukan atas dasar asumsi
bahwa kata-kata yang memiliki stem yang sama memiliki makna yang serupa
sehingga memperoleh dokumen-dokumen yang di dalamnya terdapat kata-kata
dengan stem yang sama dengan query. Proses clustering dapat dipercepat dengan
menggunakan algoritme Porter (Tala 2003) untuk mereduksi jumlah kata melalui
penghilangan imbuhan (stemming).
Remove punctuation
Remove punctuation merupakan proses menghilangkan karakter tanda
baca seperti koma, titik, dan lain lain.
Remove sparse term
Remove sparse term adalah proses menghilangkan istilah-istilah yang
jumlah frekuansi kemunculannya lebih kecil dari nilai sparsity yang diberikan
dalam document term matrix. Nilai sparsity digunakan untuk menentukan
seberapa banyak term yang akan dihilangkan. Semakin besar nilai sparsity yang
diberikan, maka semakin banyak term yang akan dimunculkan. Nilai sparsity
adalah nlai yang dihasilkan dari perhitungan sparse dari setiap term. Sebagai
contoh apabila nilai remove sparse term yang akan digunakan adalah 0.90 dan
jumlah dokumen sebanyak 295 dokumen, maka perhitungan untuk menentukan
term yang akan dihilangkan menggunakan persamaan dfj > N * ( 1  0.90 ),
dengan dfj adalah jumlah frekuensi kemunculan term j dari keseluruhan dokumen,
dan N adalah jumlah dokumen keseluruhan. Apabila jumlah frekuensi suatu term

lebih kecil dari jumlah dokumen yang dikalikan dengan hasil 1 dikurangi nilai
sparse, maka term tersebut akan dihilangkan, namum apabila nilai jumlah
frekuensi lebih besar, maka term tersebut akan digunakan. Setiap term akan
dilakukan proses tersebut, sehingga hanya tersisa term yang mempunyai nilai
lebih besar dari nilai sparsity yang akan dipertahankan.

Penggalian frequent itemsets dengan Algoritme Apriori
Algoritme Apriori (Han et al. 2012) diaplikasikan dalam penggalian
frequent itemsets dari sekumpulan dokumen dengan menentukan nilai minimal
support dan minimum confidence. Algoritme Apriori pada umumnya digunakan
pada basis data transaksional. Oleh karena itu, dalam penelitian ini terdapat
beberapa proses yang dilakukan pada algoritme Apriori tersebut agar dapat
digunakan dalam proses clustering dokumen. Algoritme Apriori digunakan untuk
menentukan himpunan data yang paling sering muncul (frequent itemsets) dalam
sebuah kumpulan data (David 2008). Sebuah frequent itemsets adalah seperangkat
individu kata-kata yang mencakup makna konseptual dan kontekstual daripada
kata yang berdiri sendiri.
Dalam sebuah transaksi, I={i1, i2, i3, ... , id} adalah himpunan barangbarang (item) yang dapat ditransaksikan dan T={t1, t2, t3,..., tN} adalah suatu
himpunan transaksi. Setiap transaksi ti terdiri dari item yang merupakan subset
dari I. Itemsets adalah himpunan dari 0 atau banyak item. Bila terdiri dari k item,
maka dapat disebut dengan k-itemsets. Itemsets juga disebut sebagai suatu pola.
Support count menunjukkan jumlah transaksi yang mengandung itemsets tertentu.
Dalam penelitian ini penggalian frequent itemsets dilakukan menggunakan
algoritme Apriori, dengan pengujian nilai minimum support 0.10 dan minimum
confidence 0.8. Hasil penggalian frequent itemsets inilah yang akan dilakukan
proses clustering menggunakan algoritme Bisecting K-means.

Clustering Frequent Itemsets Menggunakan Algoritme Bisecting K-Means
Metode Bisecting K-Means (Steinbach et al. 2000) menggabungkan
pendekatan partitional dengan divisive hierarchical, yaitu mula-mula seluruh
dokumen dibagi dua dengan cara K-Means (bisecting-step). Selanjutnya cara itu
dikenakan pada tiap-tiap cluster sampai diperoleh k buah cluster. Algoritme
Bisecting K-Means dimulai dengan satu cluster dan kemudian membagi cluster
menjadi dua. Cluster perpecahan ditentukan dengan meminimalkan Sum of
Squared Error (SSE). Pemisahan ini didasarkan pada nilai SSE terkecil dan akan
diulang sampai jumlah cluster yang ditetapkan pengguna tercapai.
Sebelum dilakukan clustering, dokumen yang mengandung frequent itemset
terlebih dulu dihitung pembototan term mengunakan persamaan TF-IDF. Dari
hasil perhitungan pembobotan term tersebut maka dilakukan proses clustering
dokumen menggunakan algoritme Bisecting K-Means dengan pengujian nilai
jumlah (k) cluster yang diujikan, yaitu k  3 sampai dengan k  10. Penentuan
jumlah cluster yang digunakan hanya sampai dengan k  10 dilakukan untuk
mempermudah dalam proses analisa cluster yang terbentuk.

Evaluasi Cluster Dokumen
Evaluasi cluster dokumen dilakukan terhadap clustering dokumen yang
terbentuk menggunakan algoritme Bisecting K-Means. Evaluasi dilakukan pada
hasil pengelompokkan frequen itemset dan dokumen mana yang masuk dalam
satu cluster. Pembentukkan cluster dilakukan dengan memberikan nilai k  3
sampai dengan k  10, dan menganalisa cluster mana yang terbaik berdasarkan
nilai SSE terkecil. Tahap pengujian pencarian dokumen yang mengandung
frequent itemset dilakukan dengan memasukkan kata kunci berdasarkan term yang
terkandung dalam frequent itemsets. Proses pencarian dilakukan terhadap cluster
dan kumpulan dokumen ringkasan tesis. Pada tahap ini akan diujikan apakah
dokumen yang dikembalikan relevan dengan kata kunci yang dimasukkan.

4 HASIL DAN PEMBAHASAN
Data Penelitian
Data yang digunakan dalam penelitian ini adalah dokumen ringkasan tesis
mahasiswa Pascasarjana IPB dalam bahasa Inggris yaitu sebanyak 295 dokumen
yang bersumber dari Direktorat Integritas Data dan Sistem Informasi (DIDSI)
IPB. Gambar 2 adalah contoh dokumen ringkasan tesis mahasiswa pascasarjana
IPB yang dapat diunduh pada halaman website repository IPB pada laman
http://repository.ipb.ac.id.
Header yang berisi
nama penulis, judul
tesis dan komisi
pembimbing.
Isi ringkasan tesis
yang berisi latar
belakang masalah,
tujuan penelitian,
metode yang
digunakan serta hasil
penelitian.

Footer yang berisi
kata kunci yang
berhubungan dengan
penelitian.

Gambar 2 Dokumen ringkasan tesis mahasiswa Pascasarjana IPB

Praposes Data
Tahap yang dilakukan sebelum tahap praproses data adalah
mengumpulkan sebanyak 295 dokumen yang diambil secara acak dari berbagai
disiplin ilmu pascasarjana IPB dan semua dokumen tersebut disimpan dalam
sebuah file teks dengan format csv (comma delimited). Tahap praproses data
adalah untuk menjadikan data kumpulan dokumen sebanyak 295 dokumen
menjadi kumpulan term. Tahapan-tahapan praproses yang dilakukan adalah proses
tokenisasi yaitu proses pemisahan suatu rangkaian kalimat menjadi rangkaian kata
berdasarkan karakter dan dipisahkan dengan sehingga setiap istilah (term) bersifat
individu dan bersifat konseptual. Stopword removal menghilangkan term
berdasarkan daftar stopword, penghapusan angka, stemming menghilangkan
imbuhan dan akhiran sehingga hanya menjadi kata dasar dari setiap istilah dan
penghapusan tanda baca.
Pada sub-bab ini juga dijelaskan perintah-perintah dalam bahasa
pemrograman R pada tahap praposes data sehingga menghasilkan sebuah
document term matrix. Pada tahap praproses data menggunakan bahasa
pemrograman R, setiap fungsi yang akan dijalankan menggunakan library yang
telah disediakan. Dalam hal ini library yang digunakan adalah library(tm).
Sebagai ilustrasi akan dipaparkan tahapan praproses data dengan
menggunakan dokumen asli, namun dalam bentuk satu paragraf untuk
menjelaskan perubahan dokumen dari setiap tahapan dalam tahap praproses data
dapat dijelaskan sebagai berikut:
Following the global spike in food prices in 2008, there is
renewed interest in Indonesia in self-sufficiency as a means of
achieving food security. Restrictive trade policies, including
specific tariffs on rice and sugar, and quantitative restrictions
on imports and exports, have been used in an attempt to meet
conflicting objectives of assisting both producers and consumers.

Tokenizaion
Tokenisasi merupakan proses pemisahan suatu rangkaian kata sehingga
setiap kata besifat individu dan berdiri sendiri, dan pada waktu yang bersamaan
dilakukan juga proses penghapusan karakter tertentu, seperti simbol dan
mengubah semua huruf kapital menjadi huruf kecil. Untuk proses tokenisasi dan
transformasi dokumen dilakukan dengan menjalankan perintah-perintah dalam
Bahasa R berikut:
1
2
3
4
5
6
7
8

for (j in seq(my.corpus))
{
my.corpus[[j]]