Analisis Kinerja Metode Gabungan Genetic Algorithm dan K-Means Clustering dalam Penentuan Nilai Centroid



ANALISIS KINERJA METODE GABUNGAN GENETIC ALGORITHM
DAN K-MEANS CLUSTERING DALAM PENENTUAN NILAI
CENTROID

TESIS
ADYA ZIZWAN PUTRA
147038003

PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017

Universitas Sumatera Utara





ANALISIS KINERJA METODE GABUNGAN GENETIC ALGORITHM
DAN K-MEANS CLUSTERING DALAM PENENTUAN NILAI
CENTROID

TESIS

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Magister Teknik Informatika

ADYA ZIZWAN PUTRA
147038003

PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017

Universitas Sumatera Utara


iii


PERSETUJUAN

Judul Tesis

: Analisis Kinerja Metode Gabungan Genetic Algorithm dan
K-Means Clustering dalam Penentuan Nilai Centroid

Kategori

: Tesis

Nama Mahasiswa

: Adya Zizwan Putra

Nomor Induk Mahasiswa : 147038003
Program Studi


: Magister (S2) Teknik Informatika

Fakultas

: Ilmu Komputer dan Teknologi Informasi
Universitas Sumatera Utara

Komisi Pembimbing

:

Pembimbing 2,

Pembimbing 1,

Dr. Erna Budhiarti Nababan, M.IT

Prof. Dr. Muhammad Zarlis, M.Sc


Diketahui/disetujui oleh
Program Studi S2 Teknik Informatika
Ketua,

Prof. Dr. Muhammad Zarlis, M.Sc
NIP: 19570701 198601 1 003

Universitas Sumatera Utara

iv

PERNYATAAN

ANALISIS KINERJA METODE GABUNGAN GENETIC ALGORITHM
DAN K-MEANS CLUSTERING DALAM PENENTUAN NILAI
CENTROID

TESIS

Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan

dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 24 Juli 2017

Adya Zizwan Putra
147038003

Universitas Sumatera Utara

v

PERNYATAAN PERSETUJUAN PUBLIKASI
KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS

Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di
bawah ini :

Nama


: Adya Zizwan Putra

NIM

: 147038003

Program Studi

: Magister (S2) Teknik Informatika

Jenis Karya Ilmiah

: Tesis

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada
Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty
Free Right) atas tesis saya yang berjudul :
ANALISIS KINERJA METODE GABUNGAN GENETIC ALGORITHM
DAN K-MEANS CLUSTERING DALAM PENENTUAN NILAI
CENTROID

Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non Eksklusif
ini, Universitas Sumatera Utara berhak menyimpan mengalih media, memformat,
mengelola dalam bentuk database, merawat dan memplubikasikan tesis saya tanpa
meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan
sebagai pemegang dan/ atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, 24 Juli 2017

Adya Zizwan Putra
147038003

Universitas Sumatera Utara

vi

Telah diuji pada
Tanggal : 24 Juli 2017
______________________________________________________________________
__


PANITIA PENGUJI TESIS
Ketua

: Prof. Dr. Muhammad Zarlis

Anggota

: 1. Dr. Erna Budhiarti Nababan
2. Prof. Dr. Saib Suwilo
3. Dr. Syahril Efendi

Universitas Sumatera Utara

vii

RIWAYAT HIDUP

DATA PRIBADI
Nama Lengkap (berikut gelar) : Adya Zizwan Putra, S.Kom
Tempat dan Tanggal Lahir


: Medan, 3 Mei 1991

Alamat Rumah

: Jl. Nangka No.9 A Medan

Telepon/ Faks/ HP

: 0811802006

E-mail

: putrazizwanadya@gmail.com

Instansi Tempat Bekerja

: PT Bank Mandiri (Persero) Tbk.

Alamat Kantor


: Jl. Pulau Pinang No 1 Medan

DATA PENDIDIKAN
SD

: SD Negeri 060837 Medan

TAMAT : 2003

SLTP

: SLTP Negeri 7 Medan

TAMAT : 2006

SLTA

: SLTA Negeri 7 Medan


TAMAT : 2009

D3

: D3 Teknik Informatika USU

TAMAT : 2011

S1

: S1 Ilmu Komputer USU

TAMAT : 2014

Universitas Sumatera Utara

viii

UCAPAN TERIMA KASIH

Alhamdulillah, segala puji dan syukur saya ucapkan kehadiran Tuhan Yang Maha Esa,
atas berkat rahmat-Nya, saya dapat menyelesaikan Tesis ini dalam kurun waktu yang
telah ditetapkan
Ucapan terima kasih juga saya sampaikan kepada pihak-pihak yang telah membantu
saya selama penulisan Tesis ini, sehingga Tesis ini dapat terselesaikan dengan baik. Pada
kesempatan kali ini, saya ingin mengucapkan terima kasih yang sebesar-besarnya
kepada :
1. Bapak Prof. Dr. Runtung Sitepu, SH, M.Hum selaku Rektor Universitas Sumatera
Utara.
2. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc selaku Dekan Fakultas Ilmu Komputer
dan Teknologi Informasi.
3. Bapak Prof. Dr. Muhammad Zarlis selaku Ketua Program Studi Magister Teknik
Informatika, beserta Bapak Dr. Syahril Efendi, S.Si, M.IT Selaku
Program

Studi Magister Teknik

Sekretaris

Informatika, beserta seluruh Staf Pengajar

Program Studi Magister Teknik Informatika Program Pascasarjana Fakultas Ilmu
Komputer Universitas Sumatera Utara.
4. Bapak Prof. Dr. Muhammad Zarlis selaku Pembimbing Pertama, dan juga Bapak
Dr. Erna Budhiarti Nababan, M.IT selaku Pembimbing Kedua, yang telah
membimbing saya hingga tesis ini dapat terselesaikan dengan baik.
5. Bapak Prof. Dr. Saib Suwilo selaku Penguji Pertama, dan juga Bapak Dr. Syahril
Efendi, S.Si, M.IT selaku Penguji Kedua yang telah memberikan saran dan masukan
serta arahan yang baik dalam penyelesaian tesis ini.
6. Orangtua laki-laki saya Alm. Aziz Usman NST, orangtua perempuan saya Sufriyati,
kakak perempuan saya Atika Ziyani Pratiwi NST yang telah mendukung saya dan
mendoakan saya sehingga tesis ini terselesaikan dengan baik.
7. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat saya
sebutkan satu per satu yang telah membantu saya dalam menyelesaikan Tesis ini.

Universitas Sumatera Utara

ix

Saya menyadari masih banyak kekurangan dalam penulisan Tesis ini, oleh karena itu
saya mengharapkan kritik dan saran dari para pembaca sebagai masukan bagi penelitian
ini, agar penelitian ini dapat bermanfaat lebih baik lagi bagi saya ataupun bagi para
peneliti selanjutnya.

Medan, 24 Juli 2017
Penulis

Adya Zizwan Putra

Universitas Sumatera Utara

x

ABSTRAK

Penentuan Centroid pada Algoritma K-Means mempengaruhi secara langsung kualitas
dari hasil clustering. Penentuan centroid dengan menggunakan bilangan acak memiliki
banyak kelemahan. Algoritma GenClust yang menggabungkan pemakaian Algoritma
Genetika dan K-Means menggunakan algoritma genetika untuk menentukan centroid dari
tiap cluster. Penggunaan algoritma GenClust menggunakan kromosom 50% yang
diperoleh melalui perhitungan deterministik dan 50% diperoleh dari pembangkitan
bilangan acak. Penelitian ini akan memodifikasi penggunaan algoritma GenClust dimana
kromosom yang digunakan 100% diperoleh melalui perhitungan deterministik. Hasil
penelitian ini akan menghasilkan perbandingan kinerja yang dinyatakan dalam Mean
Square Error yang dipengaruhi oleh penentuan centroid pada metode K-Means dengan
menggunakan metode GenClust, metode GenClust yang dimodifikasi dan juga K-Means
klasik.
Kata Kunci: Centroid, K-Means, GenClust, Kromosom

Universitas Sumatera Utara

xi

PERFORMANCE ANALYSIS OF COMBINED METHODS OF
GENETIC ALGORITHM AND K-MEANS CLUSTERING IN
DETERMINING THE VALUE OF CENTROID

ABSTRACT

The determination of Centroid on K-Means Algorithm directly affects the quality of the
clustering results. Determination of centroid by using random numbers has many
weaknesses. The GenClust algorithm that combines the use of Genetic Algorithms and
K-Means uses a genetic algorithm to determine the centroid of each cluster. The use of
the GenClust algorithm uses 50% chromosomes obtained through deterministic
calculations and 50% is obtained from the generation of random numbers. This study will
modify the use of the GenClust algorithm in which the chromosomes used are 100%
obtained through deterministic calculations. The results of this study will result in
performance comparisons expressed in Mean Square Error influenced by centroid
determination on K-Means method by using GenClust method, modified GenClust
method and also classic K-Means.
Keyword: Centroid, K-Means, GenClust, Chromosome

Universitas Sumatera Utara

xii

DAFTAR ISI
Hal.
HALAMAN JUDUL

i

PERSETUJUAN

ii

ABSTRAK

x

ABSTRACT

xi

DAFTAR ISI

xii

DAFTAR GAMBAR

xiv

DAFTAR TABEL

xv

BAB I

BAB II

PENDAHULUAN

1

1.1

Latar Belakang

1

1.2

Rumusan Masalah

3

1.3

Batasan Masalah

3

1.4

Tujuan Penelitian

4

1.5

Manfaat Penelitian

4

1.6

Sistematika Penulisan

4

TINJAUAN PUSTAKA

6

2.1

Data Mining

6

2.2

Metode pada Data Mining

7

2.3

Clustering

7

2.4

K-Means

9

2.5

Algoritma Genetika

9

2.6

GenClust

10

2.7

UCI Machine Learning Repository

12

2.8

Penelitian-Penelitian Terkait

12

2.8.1. Penelitian Terdahulu

12

2.8.2. Perbedaan dengan Penelitian Terdahulu

14

BAB III METODOLOGI PENELITIAN

16

3.1

Pendahuluan

16

3.2

Data yang Digunakan

17

3.3

Analisis Data

17

Universitas Sumatera Utara

xiii

29

BAB IV HASIL DAN PEMBAHASAN
4.1

Pendahuluan

4.2

Hasil Pengujian dengan Menggunakan Algoritma K-Means

4.3

4.4

4.5

BAB V

29

Klasik

29

4.2.1 Pengujian dengan Jumlah Iterasi Sebanyak 50

30

4.2.2 Pengujian dengan Jumlah Iterasi Sebanyak 75

31

4.2.3 Pengujian dengan Jumlah Iterasi Sebanyak 100

32

Hasil Pengujian dengan Menggunakan Algoritma GenClust

35

4.3.1 Pengujian dengan Jumlah Iterasi Sebanyak 50

35

4.3.2 Pengujian dengan Jumlah Iterasi Sebanyak 75

36

4.3.3 Pengujian dengan Jumlah Iterasi Sebanyak 100

38

Hasil Pengujian dengan Menggunakan Algoritma GenClust
yang Telah Dimodifikasi

41

4.4.1 Pengujian dengan Jumlah Iterasi Sebanyak 50

41

4.4.2 Pengujian dengan Jumlah Iterasi Sebanyak 75

42

4.4.3 Pengujian dengan Jumlah Iterasi Sebanyak 100

44

Pembahasan

47

KESIMPULAN DAN SARAN

49

5.1

Kesimpulan

49

5.2

Saran

49

Universitas Sumatera Utara

xiv

DAFTAR GAMBAR
Hal.
Gambar

2.1. Proses di dalam Knowledge Discovery in Database

Gambar

2.2. Diagram Blok dari Algoritma Genetika

10

Gambar

2.3. Tahapan Proses dari Algoritma GenClust

11

Gambar

3.1. Metode Penelitian

17

Gambar

3.2. Tahapan Proses Algoritma K-Means

18

Gambar

3.3. Tahapan Penentuan Nilai Centroid K-Means dengan
Algoritma GenClust

Gambar

19

3.4. Penentuan Nilai Centroid K-Means dengan
Algoritma GenClust yang Dimodifikasi

Gambar

6

28

4.1. Hasil Pengujian dengan Menggunakan Algoritma K-Means
Klasik

34

Gambar

4.2. Hasil Pengujian dengan Menggunakan Algoritma GenClust

Gambar

4.3. Hasil Pengujian dengan Menggunakan Algoritma GenClust
yang Telah Dimodifikasi

40

46

Universitas Sumatera Utara

xv

DAFTAR TABEL
Hal.
Tabel 2.1. Penelitian Terdahulu

13

Tabel

3.1. Contoh Data pada Iris Data Set

21

Tabel

3.2. Kromosom yang Dibangkitkan dengan Bilangan Acak

22

Tabel

3.3. Kromosom yang Diperoleh dari Perhitungan Deterministik

27

Tabel

4.1. Pengujian dengan Menggunakan Algoritma K-Means Klasik
dengan Jumlah Iterasi Sebesar 50

Tabel

30

4.2. Pengujian dengan Menggunakan Algoritma K-Means Klasik
dengan Jumlah Iterasi Sebesar 75

Tabel

31

4.3. Pengujian dengan Menggunakan Algoritma K-Means Klasik
dengan Jumlah Iterasi Sebesar 100

Tabel

32

4.4. Hasil Pengujian dengan Menggunakan Algoritma
K-Means Klasik

Tabel

33

4.5. Pengujian dengan Menggunakan Algoritma GenClust dengan
Menggunakan Jumlah Iterasi Sebesar 50

Tabel

35

4.6. Pengujian dengan Menggunakan Algoritma GenClust dengan
Menggunakan Jumlah Iterasi Sebesar 75

Tabel

37

4.7. Pengujian dengan Menggunakan Algoritma GenClust dengan
Menggunakan Jumlah Iterasi Sebesar 100

38

Tabel

4.8. Hasil Pengujian dengan Menggunakan Algoritma GenClust

Tabel

4.9. Pengujian dengan Menggunakan Algoritma GenClust yang Telah
Dimodifikasi dengan Menggunakan Jumlah Iterasi Sebesar 50

Tabel

44

4.12. Hasil Pengujian dengan Menggunakan Algoritma GenClust
yang Telah Dimodifikasi

Tabel

43

4.11. Pengujian dengan Menggunakan Algoritma GenClust yang Telah
Dimodifikasi dengan Menggunakan Jumlah Iterasi Sebesar 100

Tabel

42

4.10. Pengujian dengan Menggunakan Algoritma GenClust yang Telah
Dimodifikasi dengan Menggunakan Jumlah Iterasi Sebesar 75

Tabel

39

45

4.13. Hasil Pengujian dengan Menggunakan Algoritma K-Means Klasik
Algoritma GenClust, dan Algoritma GenClust yang Telah
Dimodifikasi

47

Universitas Sumatera Utara