PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY UNTUK CLUSTERING DOKUMEN (STUDI KASUS: TUGAS AKHIR MAHASISWA S1 INFORMATIKA UNS).

HALAMAN JUDUL

PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY
UNTUK CLUSTERING DOKUMEN
(STUDI KASUS: TUGAS AKHIR MAHASISWA S1 INFORMATIKA UNS)

SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu
Program Studi Informatika

Disusun oleh :
BETTY NOVARIA
M0509017

PROGRAM STUDI INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2016

i


HALAMAN PERSETUJUAN
SKRIPSI
PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY
UNTUK CLUSTERING DOKUMEN
(Studi Kasus: Tugas Akhir Mahasiswa S1 Informatika UNS)

Disusun oleh :
Betty Novaria
M0509017

Skripsi ini telah disetujui untuk dipertahankan di hadapan Dewan Penguji
pada tanggal 18 Juli 2016

Pembimbing 1

Pembimbing 2

Ristu Saptono, S.Si., M.T.


Rini Anggrainingsih, S.T., M.T.

NIP. 19790210 200212 1 001

NIP. 19780909 200812 2 002

ii

HALAMAN PENGESAHAN
SKRIPSI
PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY
UNTUK CLUSTERING DOKUMEN
(Studi Kasus: Tugas Akhir Mahasiswa S1 Informatika UNS)

Disusun oleh :
Betty Novaria
M0509017

Telah dipertahankan di hadapan Dewan Penguji
pada tanggal: 18 Juli 2016


Susunan Dewan Penguji

1. Ristu Saptono, S.Si., M.T.

(

)

(

)

(

)

(

)


NIP. 19790210 200212 1 001
2. Rini Anggrainingsih, S.T., M.T.
NIP. 19780909 200812 2 002
3. Abdul Aziz, S.Kom., M.Cs
NIP. 19810413 200501 1 001
4. Winarno, S.Si., M.Eng
NIP. 19820520 200604 1 001

Disahkan oleh
Kepala Program Studi Informatka

Drs. Bambang Harjito, M.Apps.Sc., Ph.D
NIP. 19621130 199103 1 002

iii

MOTTO

B


,

,
!

– Roma 12:12 –
Untuk segala sesuatu ada masanya, untuk apa pun di bawah langit ada
waktunya.
– Pengkhotbah 3:1 –
B

y
– Mother Teresa –

iv

PERSEMBAHAN

Karya ini penulis persembahkan kepada :

 Tuhan Yesus Kristus

 Keluarga tercinta, Alm. Bapak, Ibu, dan Kakak

 Sahabat tercinta, Fransisca Kusumaningrum, Dewi Asih Sesami, Catur Ariani,
dan Erlina Nur Ratriningrum

 Teman-teman Informatika UNS, Putri, Idha, Novi, Totto, Ferry, Lutvi, Andika,
Udhi, Teno, Rosa, Putri, Cerren, Maman dan teman-teman lain yang tidak
bisa penulis sebutkan satu-persatu

v

KATA PENGANTAR

Salam sejahtera,
Puji syukur kepada Tuhan Yang Maha Esa atas kasih karunia-Nya sehingga
penulis dapat menyelesaikan skripsi yang berjudul “Penerapan Group-Average
dan Cosine Similarity untuk Clustering Dokumen (Studi Kasus: Tugas Akhir
Mahasiswa S1 Informatika UNS)”.

Penulis menyadari akan keterbatasan yang penulis miliki dalam penyusunan
skripsi ini. Skripsi ini tidak akan selesai tanpa adanya bantuan dari berbagai pihak.
Oleh karena itu penulis menyampaikan terima kasih kepada :
1. Bapak Drs. Bambang Harjito, M.App.Sc, Ph.D. selaku Kepala Program Studi
Informatika.
2. Bapak Ristu Saptono, S.Si., M.T. selaku Dosen Pembimbing I dan Ibu Rini
Anggrainingsih, S.T., M.T. selaku Dosen Pembimbing II yang dengan sabar
membimbing, mengarahkan, dan memberi masukan kepada penulis dalam
menyelesaikan skripsi ini.
3. Bapak Didiek Sri Wiyono, S.T., M.T. dan Ibu Rini Anggrainingsih, M.T. selaku
Pembimbing Akademik yang telah memberikan pengarahan selama proses
menuntut ilmu.
4. Keluarga tercinta yang selalu memberi semangat dan dukungan yang tiada henti.
5. Teman-teman Informatika khususnya angkatan 2009 yang telah memberikan
kebersamaan selama menempuh studi.
6. Bapak dan Ibu dosen Program Studi Informatika yang telah memberikan ilmu
yang bermanfaat kepada penulis selama menempuh studi.
7. Pihak-pihak lain yang telah membantu pelaksanaan dan penyusunan skripsi ini.
Semoga skripsi ini dapat memberikan manfaat bagi semua pihak.


Surakarta, Juni 2016
Penulis

vi

PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY
UNTUK CLUSTERING DOKUMEN
(Studi Kasus: Tugas Akhir Mahasiswa S1 Informatika UNS)

BETTY NOVARIA
Program Studi Informatika. Fakultas Matematika dan Ilmu Pengetahuan Alam.
Universitas Sebelas Maret

ABSTRAK

Jumlah koleksi dokumen tugas akhir di Program Studi Informatika UNS
semakin bertambah, tetapi koleksi dokumen tugas akhir tersebut belum
dimanfaatkan secara maksimal. Padahal jika diolah dengan mengelompokkan
dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir
tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

Pada penelitian ini, dilakukan clustering terhadap dokumen tugas akhir di
Program Studi Informatika UNS menggunakan metode Group-Average dan
Cosine Similarity. Bagian dokumen yang diolah adalah bab 2 yang berisi tinjauan
pustaka. Jumlah koleksi dokumen yang digunakan adalah 110 dokumen.
Hasil clustering menggunakan metode Group-Average menghasilkan 10
cluster dengan ketidaksesuaian dokumen sebanyak 8 dokumen. Analisis
dilakukan secara subyektif dengan melihat kemiripan topik berdasarkan judul
antara dokumen yang satu dengan dokumen yang lain dalam satu cluster . Hasil
analisis menunjukkan bahwa kemiripan metode yang digunakan dan studi kasus
yang diangkat di dalam penelitian tugas akhir mempengaruhi hasil pembentukan
cluster .
Kata Kunci : Clustering, Cosine Similarity, Group-Average, Text Preprocessing

vii

APPLICATION OF GROUP-AVERAGE AND
COSINE SIMILARITY FROM DOCUMENTS CLUSTERING
(Case Study: Thesis in Department of Informatics, UNS)

BETTY NOVARIA

Department of Informatic. Mathematic and Science Faculty.
Sebelas Maret University

ABSTRACT

The number of thesis documents in the Department of Informatics is
increasing, but the documents have not been fully utilized. Whereas, if the
documents processed by grouping them based on similarity of topics, the
documents can provide useful information for both lecturers and students.
This research focus on clustering of thesis documents in the Department of
Informatics using Group-Average and Cosine Similarity methods. Part of
documents that was processed was chapter 2 which contains literature review. The
number of documents were used in this research are 110 documents.
The result of clustering using Group Average produced 10 clusters with
document mismatches of 8 documents. Analysis was conducted subjectively by
looking at the similarity of topics based on the title between one document with
the other documents in a single cluster. The analysis showed that the similarity of
the methods and case studies used in thesis documents affect the results of cluster
formation.
Keywords: Clustering, Cosine Similarity, Group-Average, Text Preprocessing


viii

DAFTAR ISI

HALAMAN JUDUL................................................................................................ i
HALAMAN PERSETUJUAN ................................................................................ ii
HALAMAN PENGESAHAN ................................................................................ iii
MOTTO.................................................................................................................. iv
PERSEMBAHAN ................................................................................................... v
KATA PENGANTAR ........................................................................................... vi
ABSTRAK ............................................................................................................ vii
ABSTRACT ......................................................................................................... viii
DAFTAR ISI .......................................................................................................... ix
DAFTAR TABEL .................................................................................................. xi
DAFTAR GAMBAR ............................................................................................ xii
DAFTAR LAMPIRAN ........................................................................................ xiii
BAB I PENDAHULUAN ....................................................................................... 1
1.1 Latar Belakang .......................................................................................... 1
1.2 Rumusan Masalah ..................................................................................... 2
1.3 Batasan Masalah ....................................................................................... 3
1.4 Tujuan Penelitian ...................................................................................... 3
1.5 Manfaat Penelitian .................................................................................... 3
1.6 Sistematika Penulisan ............................................................................... 4
BAB II LANDASAN TEORI ................................................................................ 5
2.1 Dasar Teori ............................................................................................... 5
2.1.1 Text Mining ....................................................................................... 5
2.1.2 Text Preprocessing ............................................................................ 5
2.1.3 TF-IDF (Term Frequency – Inverse Document Frequency) ............. 6
2.1.4 DF-Thresholding Feature Selection .................................................. 7
2.1.5 Algoritma Nazief & Adriani.............................................................. 7
2.1.6 Clustering .......................................................................................... 8
2.1.7 Group-Average Clustering ................................................................ 9
2.1.8 Cosine Similarity ............................................................................. 10
ix

2.2 Penelitian Terkait .................................................................................... 11
2.3 Rencana Penelitian .................................................................................. 13
BAB III METODOLOGI PENELITIAN............................................................. 16
3.1 Pengumpulan Data .................................................................................. 16
3.2 Text Preprocessing .................................................................................. 16
3.3 Pembobotan TF-IDF dan Feature Selection ........................................... 17
3.4 Clustering Dokumen dengan Group-Average ........................................ 17
3.5 Analisis Hasil.......................................................................................... 18
BAB IV HASIL DAN PEMBAHASAN ............................................................. 19
4.1 Dataset...................................................................................................... 19
4.2 Tahap Text Preprocessing ........................................................................ 19
4.3 Pembobotan TF-IDF dan Feature Selection ............................................ 21
4.4 Clustering dengan Group Average dan Cosine Similarity ....................... 23
4.5 Analisis Hasil ........................................................................................... 31
BAB V PENUTUP ............................................................................................... 48
5.1 Kesimpulan .............................................................................................. 48
5.2 Saran ........................................................................................................ 48
DAFTAR PUSTAKA ........................................................................................... 49

x

DAFTAR TABEL

Tabel 2.1 Matriks konsep penelitian ......................................................................14
Tabel 4.1 Rincian Jumlah Data ..............................................................................19
Tabel 4.2 Contoh 5 Buah Dokumen .......................................................................23
Tabel 4.3 Hasil Normalisasi Bobot TF-IDF pada 5 Buah Dokumen .....................24
Tabel 4.4 Perhitungan Perhitungan Σ ��, � , ......................................................25

Tabel 4.5 Perhitungan Perhitungan √Σ ��, ............................................................26

Tabel 4.6 Jumlah Cluster yang Dihasilkan Threshold ...........................................31
Tabel 4.7 Analisis Topik pada Setiap Cluster ........................................................34
Tabel 4.8 Dokumen yang Tidak Sesuai .................................................................36
Tabel 4.9 Cluster 1 .................................................................................................36
Tabel 4.10 Cluster 2 ...............................................................................................38
Tabel 4.11 Cluster 3 ...............................................................................................40
Tabel 4.12 Cluster 4 ...............................................................................................42
Tabel 4.13 Cluster 5 ...............................................................................................43
Tabel 4.14 Cluster 6 ...............................................................................................44
Tabel 4.15 Cluster 7 ...............................................................................................45
Tabel 4.16 Cluster 8 ...............................................................................................45
Tabel 4.17 Cluster 9 ...............................................................................................46
Tabel 4.18 Cluster 10 .............................................................................................46

xi

DAFTAR GAMBAR

Gambar 2.1 Struktur Dendrogram..........................................................................10
Gambar 3.1 Metodologi Penelitian ........................................................................16
Gambar 3.2 Diagram Alir Group-Average ............................................................18
Gambar 4.1 Hasil Tokenizing, Filtering, dan Stemming .......................................20
Gambar 4.2 Hasil Text Preprocessing dan Pembobotan TF-IDF ..........................22
Gambar 4.3 Dendrogram Hasil Clustering 5 Dokumen .........................................30
Gambar 4.4 Dendrogram Hasil Clustering.............................................................33

xii

DAFTAR LAMPIRAN

LAMPIRAN A .................................................................................................. 51
LAMPIRAN B .................................................................................................. 57
LAMPIRAN C .................................................................................................. 75

xiii