Clustering dokumen menggunakan algoritma self-organizing map (som) (studi kasus : dokumen skripsi di Fakultas Pertanian Uns) AWAL

perpustakaan.uns.ac.id

digilib.uns.ac.id

CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA
SELF-ORGANIZING MAP (SOM)

(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS
PERTANIAN UNS)

Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Sarjana
Jurusan Informatika
HALAMAN JUDUL

Disusun Oleh:

VERA SURYANINGSIH
NIM. M0509074

JURUSAN INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET
2015

commit to user

i

perpustakaan.uns.ac.id

digilib.uns.ac.id

commit to user

ii

perpustakaan.uns.ac.id

digilib.uns.ac.id

commit to user


iii

perpustakaan.uns.ac.id

digilib.uns.ac.id

MOTTO
“Sesali masa lalu karena ada kekecewaan dan kesalahan-kesalahan, tetapi
jadikan penyesalan itu sebagai senjata untuk masa depan agar tidak terjadi

kesalahan lagi”
“Contoh yang baik adalah nasehat terbaik (Fuller)”

commit to user

iv

perpustakaan.uns.ac.id


digilib.uns.ac.id

PERSEMBAHAN
Skripsi ini penulis persembahkan kepada:
“Orang tua tercinta, Bapak Suranto dan Ibu Eni Purwaningsih”
“Kakak dan kakak ipar,
Mbak Eri dan Mas Didik”
“Keponakan yang ganteng, Dik Naufal”
“Mas Sonny”
“Sahabat serta teman-teman
yang telah mensuport dan berjasa banyak”
“Jurusan Informatika FMIPA UNS”

commit to user

v

perpustakaan.uns.ac.id

digilib.uns.ac.id


KATA PENGANTAR
Puji syukur kepada Allah SWT atas segala limpahan rahmat dan karuniaNya, sehingga penulis dapat menyelesaikan penulisan Tugas Akhir. Sholawat dan
salam senantiasa penulis haturkan kepada Rosululloh SAW sebagai pembimbing
seluruh umat manusia. Tugas Akhir ini tidak akan selesai tanpa adanya bantuan
dari banyak pihak, oleh karena itu penulis menyampaikan terima kasih kepada:
1.

Bapak Ir. Ari Handono Ramelan, M.Sc. (Hons), Ph.D,. selaku Dekan FMIPA
UNS.

2.

Bapak Drs. Bambang Harjito, M.App.Sc., Ph.D., selaku Ketua Jurusan S1
Informatika FMIPA UNS.

3.

Ibu Sari Wdya Sihwi, S.Kom., M.T.I., selaku pembimbing I yang telah
dengan sabar memberikan bimbingan, petunjuk dan masukan.


4.

Bapak Meiyanto Eko Sulistyo, S.T., M.Eng., selaku pembimbing II yang
telah dengan sabar memberikan bimbingan, petunjuk dan masukan.

5.

Ibu Esti Suryani, S.Si., M.Kom. selaku Pembimbing Akademis yang telah
memberikan pengarahan selama proses penyelesaian Tugas Akhir ini.

6.

Bapak Ristu Saptono, S.Si., M.T., selaku anggota dewan penguji yang telah
memberikan kritik, saran, dan masukan yang membangun.

7.

Bapak Prof. Dr Samanhudi, SP, M.Si selaku Pembantu Dekan 1 fakultas
Pertanian UNS yang telah memberi validasi serta saran terhadap hasil Tugas

Akhir ini.

8.

Bapak-Ibu dosen Jurusan Informatika UNS yang telah memberikan ilmu
pengetahuan dan pengalaman yang sangat berguna dalam penyusunan Tugas
Akhir ini.

9.

Bapak Suranto, Ibu Eni Purwaningsih, Mbak Eri, Mas Didik, Naufal, Mas
Sonny, serta seluruh keluarga yang selalu mendukung, mendoakan, dan
memberi semangat.

10.

Teman-teman Jurusan Informatika UNS khususnya angkatan 2009 yang
selalu bersedia untuk berbagi informasi, ilmu, dan pengalaman serta selalu

commit to user

memberikan motivasi dan semangat.

vi

perpustakaan.uns.ac.id

11.

digilib.uns.ac.id

Teman-teman kos Pondok Biru & Sri Tanjung yang selalu memberi
dukungan, dan hiburan.

12.

Semua pihak yang tidak dapat penulis sebutkan satu persatu.
Semoga Allah SWT membalas jerih payah dan pengorbanan yang telah

diberikan dengan balasan yang lebih baik. Penulis berharap semoga skripsi ini
dapat bermanfaat bagi yang berkepentingan khususnya dan bagi pembaca

umumnya.

Surakarta, 11 Mei 2015

Vera Suryaningsih

commit to user

vii

perpustakaan.uns.ac.id

digilib.uns.ac.id

DOCUMENT CLUSTERING USING SELF-ORGANIZING MAP (SOM)
ALGORITHM (CASE STUDY: THESIS DOCUMENTS IN THE FACULTY
OF AGRICULTURE UNS)

VERA SURYANINGSIH
Department of Informatics. Faculty of Mathematics and Natural Sciences.

Sebelas Maret University

ABSTRACT

Faculty of Agriculture, Universitas Sebelas University has generated a lot
of research, especially thesis documents. If the thesis document is processed, it is
possible to be found a pattern that will give benefit for the faculty. Therefore, text
mining of the thesis document needs to be done.
This research performed clustering to thesis documents in the faculty of
Agriculture UNS 2008 to 2013 by using the Self-Organizing Map algorithm.
Before the clustering process, the abstracts were processed through the text
preprocessing stage and TF-IDF weighting. This research used 81 as cluster
number, 1000 as iteration number and 0,1 as learning rate.
The results showed that there are several clusters which has a theme that
possible can be collaborated with some or all of the department. There are also
cluster which it‟s theme possible can‟t be collaborated with another department,
because only certain department who has done research on the theme of the
cluster. But it could be, other departments has not done research on this theme.
Department of Agribusiness has a various themes in each year. While the
Department of Agrotechnology, department of ITP, and Department of Animal

Husbandry just took a few same theme each year.

Keyword : Text Mining, Text Preprocessing, TF-IDF, Clustering, Self-Organizing

Map.

commit to user

viii

perpustakaan.uns.ac.id

digilib.uns.ac.id

CLUSTERING DOKUMEN MENGGUNAKA ALGORITMA
SELF-ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI

DI FAKULTAS PERTANIAN UNS)

VERA SURYANINGSIH

Jurusan Informatika, Fakultas MIPA, Universitas Sebelas Maret

ABSTRAK
Fakultas Pertanian Universitas Sebelas Maret telah menghasilkan banyak
dokumen penelitian khususnya berupa skripsi. Jika kumpulan dokumen skripsi
tersebut diolah, dimungkinkan akan ditemukan suatu pola yang bermanfaat bagi
pihak fakultas. Oleh karena itu, perlu dilakukan text mining terhadap kumpulan
dokumen skripsi tersebut.
Penelitian ini akan melakukan clustering pada dokumen skripsi di fakultas
Pertanian UNS tahun 2008 sampai 2013 dengan menggunakan algoritma SelfOrganizing Map. Sebelum dilakukan proses clustering, abstrak terlebih dahulu

diolah melalui tahap text preprocessing dan pembobotan TF-IDF. Pada penelitian
ini menggunakan inputan cluster sebanyak 81, iterasi sebanyak 1000 dan learning
rate sebesar 0,1.

Hasil penelitian menunjukkan bahwa ada beberapa cluster yang
dimungkinkan tema pada cluster tersebut berpotensi untuk dikolaborasikan
dengan beberapa maupun semua prodi. Ada juga cluster yang dimungkinkan tema
pada cluster tersebut memang tidak bisa dilakukan kolaborasi, karena hanya prodi
tertentu yang pernah melakukan penelitian pada tema cluster tersebut. Namun bisa
jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema
tersebut. Jurusan Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap
tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan
tema yang banyak diambil ditiap tahunnya hanya di beberapa tema saja.
Kata kunci : Text Mining, Text Preprocessing, TF-IDF, Clustering, Self-

commit to user

Organizing Map

ix

perpustakaan.uns.ac.id

digilib.uns.ac.id

DAFTAR ISI
HALAMAN JUDUL................................................................................................ i
HALAMAN PERSETUJUAN ............................... Error! Bookmark not defined.
HALAMAN PENGESAHAN ................................................................................. ii
HALAMAN MOTTO ............................................................................................ iii
HALAMAN PERSEMBAHAN ............................................................................. v
KATA PENGANTAR ............................................................................................. vi
ABSTRACK .......................................................................................................... viii

ABSTRAK ............................................................................................................. ix
DAFTAR ISI ........................................................................................................... x
DAFTAR TABEL.................................................................................................. xii
DAFTAR GAMBAR ........................................................................................... xiii
DAFTAR LAMPIRAN ........................................................................................ xiv
BAB I PENDAHULUAN ....................................................................................... 1
1.1. Latar Belakang ................................................................................... 1
1.2. Rumusan Masalah .............................................................................. 3
1.3. Batasan Masalah ................................................................................ 3
1.4. Tujuan Penelitian ............................................................................... 3
1.5. Manfaat Penelitian ............................................................................. 3
1.6. Sistematika Penulisan ........................................................................ 4
BAB II LANDASAN TEORI ................................................................................ 5
2.1. Dasar Teori ......................................................................................... 5
2.1.1. Text Mining .............................................................................. 5
2.1.2. Text Preprocessing ................................................................... 6
2.1.3. Algoritma Stemming Nazief & Afriani .................................. 7
2.1.4. Term Frequency (TF) dan Inverse Document Frequency
(IDF)....................................................................................... 9
2.1.5. DF Feature Selection ............................................................... 9
2.1.6. Min Max Normalization ......................................................... 10
2.1.7. Clustering ................................................................................11
2.1.8. Self-Organizing Map (SOM) ..................................................11
2.2.

Penelitian Terkait ............................................................................. 15

2.3.

to user
Kerangka Pemikirancommit
........................................................................
17

x

perpustakaan.uns.ac.id

digilib.uns.ac.id

BAB III METODOLOGI PENELITIAN............................................................. 18
3.1. Studi Literatur..................................................................................... 18
3.2. Pengumpulan Data ........................................................................... 18
3.3. Penerapan Metode ............................................................................ 19
3.3.1 Tahap Text Preprocessing ....................................................... 19
3.3.2 Tahap Pembobotan TF-IDF .................................................... 20
3.3.3. Tahap Clustering .................................................................... 20
3.3. Tahap Analisis .................................................................................. 21
3.4. Tahap Validasi .................................................................................. 21
BAB IV HASIL DAN PEMBAHASAN.............................................................. 22
2.3. Deskripsi Data.................................................................................. 22
2.4. Tahap Text Preprocessing ................................................................ 22
2.5. Tahap Pembobotan TF-IDF ............................................................. 25
2.6. Normalisasi Data.............................................................................. 29
2.7. Proses Clustering ............................................................................. 30
2.8. Analisis Hasil Clustering ................................................................. 36
2.9. Validasi............................................................................................. 48
BAB V PENUTUP ................................................................................................ 49
5.1. KESIMPULAN ................................................................................ 49
5.2.

SARAN ........................................................................................... 49

DAFTAR PUSTAKA ............................................................................................ 50
LAMPIRAN 1 ....................................................................................................... 52

commit to user

xi

perpustakaan.uns.ac.id

digilib.uns.ac.id

DAFTAR TABEL
Tabel 2.1 Penelitian Terkait.......................................................................... 15
Tabel 4.1 Contoh dokumen untuk perhitungan TF-IDF................................ 26
Tabel 4.2 Hasil dari perhitungan TF serta DF yang belum mengalami
proses feature selection.................................................................. 27
Tabel 4.3 Hasil dari perhitungan TF serta DF yang sudah mengalami
proses feature selection................................................................. 27
Tabel 4.4 Hasil perhitungan TF, DF, IDF, dan TF-IDF................................ 29
Tabel 4.5 Perbandingan TF-IDF yang belum ternormalisasi dan TF-IDF
yang sudah dinormalisasi dengan Min Max Normalization......... 30
Tabel 4.6 Perkiraan tema pada setiap cluster C1 - C49................................. 37
Tabel 4.7 Distribusi Frekuensi Cluster per Prodi......................................

38

Tabel 4.8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agribisnis........ 40
Tabel 4.9 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi.....42
Tabel 4.10 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP................

44

Tabel 4.11 Distribusi Frekuensi Cluster Pertahun Pada Prodi Peternakan.... 46

commit to user

xii

perpustakaan.uns.ac.id

digilib.uns.ac.id

DAFTAR GAMBAR
Gambar 2.1 Proses Case Folding.................................................................. 6
Gambar 2.2 Proses Tokenizing....................................................................... 6
Gambar 2.3 Proses Filtering.......................................................................... 7
Gambar 2.4 Proses Stemming........................................................................ 7
Gambar 2.5 Arsitektur SOM (Kristanto, 2004)............................................. 12
Gambar 3.1 Metodologi Penelitian................................................................ 18
Gambar 3.2 Proses Text Preprocessing ........................................................ 19
Gambar 4.1 Abstrak dokumen contoh yang belum dilakukan Text
Preprocessing........................................................................... 22

Gambar 4.2 Hasil Case Folding terhadap Dokumen Contoh........................ 23
Gambar 4.3 Hasil Tokenizing terhadap Dokumen Contoh........................... 23
Gambar 4.4 Hasil Filtering terhadap Dokumen Contoh............................... 24
Gambar 4.5 Hasil Stemming terhadap Dokumen Contoh............................. 24
Gambar 4.6 Hasil Filtering - Stemming terhadap Dokumen Contoh............ 25
Gambar 4.7 Topologi SOM........................................................................... 30
Gambar 4.8 Salah Satu Dokumen Disajikan ke dalam Jaringan SOM....31
Gambar 4.9 Radius BMU.............................................................................. 31
Gambar 4.10 Topologi SOM untuk data contoh........................................... 32
Gambar 4.11 Contoh tampilan hasil per-cluster ........................................... 36

commit to user

xiii

perpustakaan.uns.ac.id

digilib.uns.ac.id

DAFTAR LAMPIRAN
LAMPIRAN 1 Hasil Clustering.................................................................... 52

commit to user

xiv