Optimasi Pusat Cluster Awal K-Means dengan Algoritma Genetika Pada Pengelompokan Dokumen

OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN

TESIS

MUHAMMAD FAUZI
147038065

PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017

Universitas Sumatera Utara

OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN
TESIS

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Magister Teknik Informatika

MUHAMMAD FAUZI
147038065

PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017

Universitas Sumatera Utara

PERSETUJUAN

Judul

: OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN


ALGORITMA

GENETIKA

PADA

PENGELOMPOKAN DOKUMEN
Kategori

: TESIS

Nama

: MUHAMMAD FAUZI

Nomor Induk Mahasiswa : 147038065
Program Studi

: MAGISTER(S2) TEKNIK INFORMATIKA


Fakultas

: ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA

Komisi Pembimbing

:

Pembimbing 2

Pembimbing 1

Dr. Sawaluddin, M.IT

Prof. Dr. Muhammad Zarlis

Diketahui/disetujui oleh
Program Studi Magister(S2) Teknik Informatika

Ketua,

Prof. Dr. Muhammad Zarlis
NIP. 19570701 198601 1 003

i
Universitas Sumatera Utara

PERNYATAAN

OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN

TESIS

Saya mengakui semua tesis ini adalah hasil karya saya sendiri kecuali beberapa
kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan,


April 2017

Muhammad Fauzi
147038065

ii
Universitas Sumatera Utara

PERNYATAAN PERSETUJUAN PUBLIKASI
KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS

Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di
bawah ini :
Nama

: Muhammad Fauzi

NIM


: 147038065

Program Studi

: Magister(S2) Teknik Informatika

Jenis Karya Ilmiah

: Tesis

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada
Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif(Non-Exclusive Royalty
Free Right) atas tesis saya yang berjudul :
OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti NonEksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media,
memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis
saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai

penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.

Demikian pernyataan ini dibuat dengan sebenarnya.

Medan,

April 2017

Muhammad Fauzi
147038065

iii
Universitas Sumatera Utara

Telah diuji pada
Tanggal

: 28 April 2017

PANITIA PENGUJI TESIS

Ketua

: Prof. Dr. Muhammad Zarlis

Anggota

: 1. Dr.Sawaluddin, M.IT
2. Prof. Dr. Tulus
3. Dr. Pahala Sirait, S.T, M.Kom

iv
Universitas Sumatera Utara

RIWAYAT HIDUP

DATA PRIBADI

Nama

: Muhammad Fauzi, S.T, M.Kom


Tempat dan Tanggal Lahir

: Medan, 15 Agustus 1991

Alamat Rumah

: Jl. Tawang Mangu Lingk 1 Musyawarah,
Kelurahan Kwala Bingai, Stabat.

Telepon / HP

: 085270014645

Email

: chayo.zie@gmail.com

Instansi tempat bekerja


: Politeknik Unggul LP3M

Alamat Kantor

: Jl. Iskandar Muda No.3 CDEF, Medan.

DATA PENDIDIKAN

SD

: SDN 050659 Stabat

TAMAT : 2003

SMP

: MTsN 1 Stabat

TAMAT : 2006


SMA

: MAN 2 Tanjung Pura

TAMAT : 2009

S1

: Teknik Informatika UNIMAL

TAMAT : 2014

S2

: Teknik Informatika USU

TAMAT : 2017

v
Universitas Sumatera Utara

UCAPAN TERIMA KASIH

Bismillahirrahmaanirrahiim, Puji Syukur kehadirat Allah SWT, yang telah
melimpahkan rahmat dan karunia-Nya kepada penulis, sehingga penulis dapat
menyelesaikan tesis ini yang berjudul : Optimasi Pusat Cluster Awal K-Means
dengan Algoritma Genetika Pada Pengelompokan Dokumen

dengan sebaik-

baiknya.
Penyusunan Tesis ini merupakan salah satu syarat untuk dapat memperoleh gelar
Magister (S2) Teknik Informatika Pada Universitas Sumatera Utara. Penulis
menyadari apa yang penulis tuangkan dalam Tesis ini tidak terlepas dari peranan
seluruh dosen, teman-teman dan seluruh keluarga yang turut memberikan bantuan
moril maupun materil. Untuk itu penulis menyampaikan terima kasih kepada:
1. Rektor Universitas Sumatera Utara, Bapak Prof. Dr. Runtung Sitepu, S.H.,
M.Hum., atas kesempatan yang telah diberikan kepada penulis untuk dapat
mengikuti dan menyelesaikan pendidikan Program Magister Teknik Informatika
Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
2. Dekan Fakultas Ilmu Komputer dan Teknologi Informasi (Fasilkom-TI)
Universitas Sumatera Utara, Bapak Prof. Dr. Opim Salim Sitompul, yang sudah
banyak memberikan bimbingan dan arahan.
3. Ketua Program Studi Magister Teknik Informatika, Bapak Prof. Dr. Muhammad
Zarlis. Sekretaris Program Studi Teknik Informatika, Bapak Syahril Efendi, S.Si.,
M.IT. Beserta seluruh Staff Pengajar Program Studi Magister Teknik Informatika
Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
4. Bapak Prof. Dr. Muhammad Zarlis selaku Pembimbing Utama, demikian juga
kepada Bapak Dr. Sawaluddin, M.IT selaku Pembimbing Kedua yang dengan
penuh kesabaran menuntun dan membimbing penulis hingga selesainya tesis ini
dengan baik.
5. Bapak Prof. Dr. Tulus dan Bapak Dr. Pahala Sirait, S.T, M.Kom, sebagai Dosen
Pembanding yang telah memberikan saran dan masukan serta arahan yang baik
demi penyelesaian tesis ini.

vi
Universitas Sumatera Utara

6. Ayahanda tercinta Drs. Nurdin Ahmad, Ibunda tercinta Dra. Dasni, serta adikadik, keponakan, kakak kakakku tersayang serta seluruh keluarga besar yang
selalu memberi do a dan dukungan kepada penulis.
7. Seluruh staf pegawai Program Studi S2 Teknik Informatika Fakultas Ilmu
Komputer dan Teknik Informatika, serta teman-teman seperjuangan mahasiswa/i
Kom-C 2014.
8. Dan seluruh pihak yang tidak dapat disebutkan satu persatu dalam tesis ini, sekali
lagi terima kasih atas segala bantuan dan doa yang telah diberikan.
Penulis menyadari bahwa penelitian ini masih jauh dari kata sempurna, ini
dikarenakan oleh keterbatasan, kemampuan dan pengetahuan penulis. Harapan
penulis, semoga penelitian ini bermanfaat bagi penulis khususnya dan pembaca pada
umumnya. Oleh karena itu penulis mengucapkan banyak terima kasih, semoga Allah
SWT membalas kebaikan yang telah diberikan. Aamiin.

Medan,
Penulis,

April 2017

Muhammad Fauzi
NIM: 147038065

vii
Universitas Sumatera Utara

ABSTRAK

Pengelompokan dokumen berdasarkan karakteristik kata yang ada pada dokumen
dilakukan untuk memudahkan mengorganisir dokumen pada kebutuhan lebih lanjut.
Algoritma K-Means clustering merupakan salah satu algoritma pengelompokan yang
melakukan pengelompokan secara iteratif dengan melakukan partisi set data ke dalam
sejumlah K cluster. Namun hasil pada K-Means clustering tersebut sangat ditentukan
pada penentuan pusat cluster awal yang pada umumnya ditentukan secara random.
Pada penelitian ini dilakukan penentuan pusat cluster awal K-Means untuk masalah
pengelompokan dokumen dengan memanfaatkan algoritma genetika sebagai algoritma
yang mengoptimasi pusat cluster awal K-Means tersebut. Pada hasil pengujian
pengelompokan dokumen berita yang dilakukan sebanyak 5 kali untuk pusat cluster
awal secara random tingkat keberhasilan mencapai 26.66 % sedangkan untuk pusat
cluster awal dengan algoritma genetika tingkat keberhasilan mencapai 46.66 %.
Kata Kunci : Pengelompokan, K-Means Clustering, Pusat Cluster Awal, Algoritma
Genetika, Optimasi, Dokumen

viii
Universitas Sumatera Utara

OPTIMIZATION OF INITIAL CLUSTER CENTER K-MEANS WITH
GENETIC ALGORITHM IN DOCUMENTS CLUSTERING

ABSTRACT

Clustering a data set of documents based on certain data points in documents are an
easy way to organize document for extension to work. K-Means clustering algorithm
is one of iterative cluster algorithm to partition a set of entities into K cluster.
Unfortunately, resulting in K Means cluster is depending on the initial cluster center
that generally assigned randomly. In this reserach, determining initial cluster center
K-Means for documents clustering are investigated by using genetic algorithm as an
algorithm which optimize initial cluster center of K-Means. Based on the result of this
test, clustering news document with 5 times for initial cluster center randomly has
26.66% for level of success, meanwhile for initial cluster center by using genetic
algorithm has 46.66% for level of success.
Keyword : Clustering, K-Means Clustering, Initial Cluster Center, Genetic Algorithm,
Optimization, Document

ix
Universitas Sumatera Utara

DAFTAR ISI

Hal
HALAMAN JUDUL
PERSETUJUAN ........................................................................................................

i

PERNYATAAN ........................................................................................................

ii

PERSETUJUAN PUBLIKASI ................................................................................. iii
PANITIA PENGUJI ................................................................................................. iv
RIWAYAT HIDUP ................................................................................................... vi
UCAPAN TERIMA KASIH...................................................................................... vi
ABSTRAK ................................................................................................................. viii
ABSTRACT............................................................................................................... xi
DAFTAR ISI.............................................................................................................. xii
DAFTAR TABEL...................................................................................................... xiii
DAFTAR GAMBAR ................................................................................................ xiv

BAB 1 PENDAHULUAN ......................................................................................

1

1.1 Latar Belakang......................................................................................

1

1.2 Rumusan Masalah.................................................................................

3

1.3 Batasan Masalah ...................................................................................

3

1.4 Tujuan dan Manfaat ..............................................................................

3

1.5 Sistematika Penelitian...........................................................................

3

BAB 2 TINJAUAN PUSTAKA.............................................................................

5

2.1 Data Mining ..........................................................................................

5

2.1.1 Teknik Data Mining ...................................................................

5

2.1.2 Tahapan Data Mining .................................................................

7

2.2 Algoritma K-Means ..............................................................................

9

2.3 Algoritma Genetika .............................................................................. 11
2.3.1 Struktur Umum Algoritma Genetika .......................................... 13

x
Universitas Sumatera Utara

2.3.2 Teknik Pengkodean .................................................................... 14
2.3.3 Membangkitkan Populasi Awal dan Kromosom ....................... 15
2.3.4 Evaluasi Fitness .......................................................................... 16
2.3.5 Operator Genetika ...................................................................... 16
2.3.6 Terminasi .................................................................................... 18
2.3.7 Parameter Algoritma Genetika ................................................... 18
2.4 Teks Mining .......................................................................................... 19
2.4.1 Tahapan Teks Mining ................................................................. 20
2.4.2 Ekstraksi Dokumen .................................................................... 22
2.5 Term Frequency-Inverse Document Frequency (TF-IDF) ................... 25
2.6 Cosine Similarity .................................................................................. 28
2.7 Kontribusi Penelitian ............................................................................ 29

BAB 3 METODOLOGI PENELITIAN............................................................... 30
3.1 Proses Penelitian .................................................................................... 30
3.2 Tahapan Penelitian ................................................................................ 31
3.3 Jenis dan Sumber Data .......................................................................... 32
3.4 Penentuan Tema Dokumen Berita ........................................................ 34
3.5 Teknik Pengumpulan Data .................................................................... 36
3.6 Preprocessing Dokumen ....................................................................... 36
3.6.1 Tokenizing................................................................................... 37
3.6.2 Filtering ...................................................................................... 38
3.6.3 Stemming ................................................................................... 39
3.7 Pembentukan Kromosom Dokumen ..................................................... 39
3.8 Optimasi Pusat Cluster Awal dengan Algoritma Genetika .................. 41
3.9 Pengelompokan Dokumen dengan K-Means ........................................ 43
3.10 Tahapan Iterasi Pengelompokan K-Means......................................... 44

BAB 4 PEMBAHASAN DAN HASIL.................................................................. 46
4.1 Pembahasan .......................................................................................... 46
4.2 Pemilihan Dokumen ............................................................................. 46
4.3 Representasi Kromosom Dokumen ...................................................... 49

xi
Universitas Sumatera Utara

4.4 Evaluasi Fitness ..................................................................................... 51
4.5 Proses Seleksi Pemilihan Kromosom ................................................... 55
4.6 Crossover Kromosom ........................................................................... 55
4.7 Mutasi Kromosom ................................................................................ 56
4.8 Penentuan Akhir Proses Genetika ........................................................ 57
4.9 Menghitung Kemiripan Dokumen ........................................................ 59
4.10 Pengujian dan Hasil ........................................................................... 69
4.10.1 Pengujian Pusat Cluster Awal Random ................................. 69
4.10.2 Pengujian Pusat Cluster Awal dengan GA ............................ 70
4.10.3 Pengujian Aplikasi ................................................................. 72

BAB 5 KESIMPULAN DAN SARAN.................................................................. 76
1. Kesimpulan ............................................................................................ 76
2. Saran ...................................................................................................... 76

DAFTAR PUSTAKA............................................................................................... 77
DAFTAR PUBLIKASI ILMIAH .......................................................................... 79

xii
Universitas Sumatera Utara

DAFTAR TABEL

Hal.
Tabel 2.1 Perhitungan Pembobotan TF-IDF Term Query ........................................ 28
Tabel 3.1 Tabel Sumber Berita Online ..................................................................... 32
Tabel 3.2 Tabel Daftar Konten Berita ....................................................................... 35
Tabel 4.1 Hasil Ekstraksi Dokumen Konten Berita .................................................. 48
Tabel 4.2 Representasi Kromosom Dokumen Kode Biner ....................................... 50
Tabel 4.3 Nilai Fitness Dokumen Dok1..................................................................... 52
Tabel 4.4 Hasil Perhitungan Fitness Kromosom ...................................................... 54
Tabel 4.5 Hasil Mutasi Kromosom ........................................................................... 56
Tabel 4.6 Hasil Akhir Proses GA Cluster Awal ....................................................... 57
Tabel 4.7 Data Dokumen .......................................................................................... 59
Tabel 4.8 Pembobotan TF-IDF Pada Dokumen ....................................................... 60
Tabel 4.9 Perhitungan Nilai Variabel Pada Rumus Cosine Similarity ..................... 64
Tabel 4.10 Hasil Pengelompokan Akhir K-Means Clustering ................................. 68
Tabel 4.11 Hasil Pengujian Pusat Cluster Awal Random ......................................... 69
Tabel 4.12 Hasil Pengujian Pusat Cluster Awal dengan GA .................................... 70
Tabel 4.13 Tingkat Keberhasilan Pengelompokan Dokumen .................................. 72

xiii
Universitas Sumatera Utara

DAFTAR GAMBAR

Hal.
Gambar 2.1 Proses KDD (Knowledge Discovery in Databases) .............................

7

Gambar 2.2 Ilustrasi tahapan proses dari algoritma genetika................................... 12
Gambar 2.3 Diagram Alir Algoritma Genetika ........................................................ 13
Gambar 2.4 Individu dalam Algoritma Genetika...................................................... 14
Gambar 2.5 Ilustrasi Seleksi dengan Rolette Wheel ................................................. 17
Gambar 2.6 Tahap Preprocessing ............................................................................. 22
Gambar 2.7 Proses Tokenizing ................................................................................. 23
Gambar 2.8 Proses Filtering ..................................................................................... 23
Gambar 2.9 Proses Stemming.................................................................................. 24
Gambar 3.1 Skema Proses Pengelompokan ............................................................. 30
Gambar 3.2 Flowchart PreProcessing Dokumen .................................................... 37
Gambar 3.3 Proses Pembentukan Kromosom Dokumen .......................................... 41
Gambar 3.4 Proses Optimasi Pusat Cluster Awal .................................................... 42
Gambar 3.5 Proses Pengelompokan Dokumen dengan K-Means ............................ 44
Gambar 4.1 Menentukan sumber dokumen .............................................................. 73
Gambar 4.2 Setting Parameter Algoritma Genetika ................................................. 73
Gambar 4.3 Proses Penentuan Pusat Cluster Awal ................................................... 74
Gambar 4.4 Memasukkan Data Pusat Cluster Awal ................................................. 74
Gambar 4.5 Hasil Pengelompokan Dokumen ........................................................... 75

xiv
Universitas Sumatera Utara