Analisis Kinerja Metode Gabungan Genetic Algorithm dan K-Means Clustering dalam Penentuan Nilai Centroid
ANALISIS KINERJA METODE GABUNGAN GENETIC ALGORITHM
DAN K-MEANS CLUSTERING DALAM PENENTUAN NILAI
CENTROID
TESIS
ADYA ZIZWAN PUTRA
147038003
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
Universitas Sumatera Utara
ANALISIS KINERJA METODE GABUNGAN GENETIC ALGORITHM
DAN K-MEANS CLUSTERING DALAM PENENTUAN NILAI
CENTROID
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Magister Teknik Informatika
ADYA ZIZWAN PUTRA
147038003
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
Universitas Sumatera Utara
iii
PERSETUJUAN
Judul Tesis
: Analisis Kinerja Metode Gabungan Genetic Algorithm dan
K-Means Clustering dalam Penentuan Nilai Centroid
Kategori
: Tesis
Nama Mahasiswa
: Adya Zizwan Putra
Nomor Induk Mahasiswa : 147038003
Program Studi
: Magister (S2) Teknik Informatika
Fakultas
: Ilmu Komputer dan Teknologi Informasi
Universitas Sumatera Utara
Komisi Pembimbing
:
Pembimbing 2,
Pembimbing 1,
Dr. Erna Budhiarti Nababan, M.IT
Prof. Dr. Muhammad Zarlis, M.Sc
Diketahui/disetujui oleh
Program Studi S2 Teknik Informatika
Ketua,
Prof. Dr. Muhammad Zarlis, M.Sc
NIP: 19570701 198601 1 003
Universitas Sumatera Utara
iv
PERNYATAAN
ANALISIS KINERJA METODE GABUNGAN GENETIC ALGORITHM
DAN K-MEANS CLUSTERING DALAM PENENTUAN NILAI
CENTROID
TESIS
Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan
dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 24 Juli 2017
Adya Zizwan Putra
147038003
Universitas Sumatera Utara
v
PERNYATAAN PERSETUJUAN PUBLIKASI
KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di
bawah ini :
Nama
: Adya Zizwan Putra
NIM
: 147038003
Program Studi
: Magister (S2) Teknik Informatika
Jenis Karya Ilmiah
: Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada
Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty
Free Right) atas tesis saya yang berjudul :
ANALISIS KINERJA METODE GABUNGAN GENETIC ALGORITHM
DAN K-MEANS CLUSTERING DALAM PENENTUAN NILAI
CENTROID
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non Eksklusif
ini, Universitas Sumatera Utara berhak menyimpan mengalih media, memformat,
mengelola dalam bentuk database, merawat dan memplubikasikan tesis saya tanpa
meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan
sebagai pemegang dan/ atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, 24 Juli 2017
Adya Zizwan Putra
147038003
Universitas Sumatera Utara
vi
Telah diuji pada
Tanggal : 24 Juli 2017
______________________________________________________________________
__
PANITIA PENGUJI TESIS
Ketua
: Prof. Dr. Muhammad Zarlis
Anggota
: 1. Dr. Erna Budhiarti Nababan
2. Prof. Dr. Saib Suwilo
3. Dr. Syahril Efendi
Universitas Sumatera Utara
vii
RIWAYAT HIDUP
DATA PRIBADI
Nama Lengkap (berikut gelar) : Adya Zizwan Putra, S.Kom
Tempat dan Tanggal Lahir
: Medan, 3 Mei 1991
Alamat Rumah
: Jl. Nangka No.9 A Medan
Telepon/ Faks/ HP
: 0811802006
: putrazizwanadya@gmail.com
Instansi Tempat Bekerja
: PT Bank Mandiri (Persero) Tbk.
Alamat Kantor
: Jl. Pulau Pinang No 1 Medan
DATA PENDIDIKAN
SD
: SD Negeri 060837 Medan
TAMAT : 2003
SLTP
: SLTP Negeri 7 Medan
TAMAT : 2006
SLTA
: SLTA Negeri 7 Medan
TAMAT : 2009
D3
: D3 Teknik Informatika USU
TAMAT : 2011
S1
: S1 Ilmu Komputer USU
TAMAT : 2014
Universitas Sumatera Utara
viii
UCAPAN TERIMA KASIH
Alhamdulillah, segala puji dan syukur saya ucapkan kehadiran Tuhan Yang Maha Esa,
atas berkat rahmat-Nya, saya dapat menyelesaikan Tesis ini dalam kurun waktu yang
telah ditetapkan
Ucapan terima kasih juga saya sampaikan kepada pihak-pihak yang telah membantu
saya selama penulisan Tesis ini, sehingga Tesis ini dapat terselesaikan dengan baik. Pada
kesempatan kali ini, saya ingin mengucapkan terima kasih yang sebesar-besarnya
kepada :
1. Bapak Prof. Dr. Runtung Sitepu, SH, M.Hum selaku Rektor Universitas Sumatera
Utara.
2. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc selaku Dekan Fakultas Ilmu Komputer
dan Teknologi Informasi.
3. Bapak Prof. Dr. Muhammad Zarlis selaku Ketua Program Studi Magister Teknik
Informatika, beserta Bapak Dr. Syahril Efendi, S.Si, M.IT Selaku
Program
Studi Magister Teknik
Sekretaris
Informatika, beserta seluruh Staf Pengajar
Program Studi Magister Teknik Informatika Program Pascasarjana Fakultas Ilmu
Komputer Universitas Sumatera Utara.
4. Bapak Prof. Dr. Muhammad Zarlis selaku Pembimbing Pertama, dan juga Bapak
Dr. Erna Budhiarti Nababan, M.IT selaku Pembimbing Kedua, yang telah
membimbing saya hingga tesis ini dapat terselesaikan dengan baik.
5. Bapak Prof. Dr. Saib Suwilo selaku Penguji Pertama, dan juga Bapak Dr. Syahril
Efendi, S.Si, M.IT selaku Penguji Kedua yang telah memberikan saran dan masukan
serta arahan yang baik dalam penyelesaian tesis ini.
6. Orangtua laki-laki saya Alm. Aziz Usman NST, orangtua perempuan saya Sufriyati,
kakak perempuan saya Atika Ziyani Pratiwi NST yang telah mendukung saya dan
mendoakan saya sehingga tesis ini terselesaikan dengan baik.
7. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat saya
sebutkan satu per satu yang telah membantu saya dalam menyelesaikan Tesis ini.
Universitas Sumatera Utara
ix
Saya menyadari masih banyak kekurangan dalam penulisan Tesis ini, oleh karena itu
saya mengharapkan kritik dan saran dari para pembaca sebagai masukan bagi penelitian
ini, agar penelitian ini dapat bermanfaat lebih baik lagi bagi saya ataupun bagi para
peneliti selanjutnya.
Medan, 24 Juli 2017
Penulis
Adya Zizwan Putra
Universitas Sumatera Utara
x
ABSTRAK
Penentuan Centroid pada Algoritma K-Means mempengaruhi secara langsung kualitas
dari hasil clustering. Penentuan centroid dengan menggunakan bilangan acak memiliki
banyak kelemahan. Algoritma GenClust yang menggabungkan pemakaian Algoritma
Genetika dan K-Means menggunakan algoritma genetika untuk menentukan centroid dari
tiap cluster. Penggunaan algoritma GenClust menggunakan kromosom 50% yang
diperoleh melalui perhitungan deterministik dan 50% diperoleh dari pembangkitan
bilangan acak. Penelitian ini akan memodifikasi penggunaan algoritma GenClust dimana
kromosom yang digunakan 100% diperoleh melalui perhitungan deterministik. Hasil
penelitian ini akan menghasilkan perbandingan kinerja yang dinyatakan dalam Mean
Square Error yang dipengaruhi oleh penentuan centroid pada metode K-Means dengan
menggunakan metode GenClust, metode GenClust yang dimodifikasi dan juga K-Means
klasik.
Kata Kunci: Centroid, K-Means, GenClust, Kromosom
Universitas Sumatera Utara
xi
PERFORMANCE ANALYSIS OF COMBINED METHODS OF
GENETIC ALGORITHM AND K-MEANS CLUSTERING IN
DETERMINING THE VALUE OF CENTROID
ABSTRACT
The determination of Centroid on K-Means Algorithm directly affects the quality of the
clustering results. Determination of centroid by using random numbers has many
weaknesses. The GenClust algorithm that combines the use of Genetic Algorithms and
K-Means uses a genetic algorithm to determine the centroid of each cluster. The use of
the GenClust algorithm uses 50% chromosomes obtained through deterministic
calculations and 50% is obtained from the generation of random numbers. This study will
modify the use of the GenClust algorithm in which the chromosomes used are 100%
obtained through deterministic calculations. The results of this study will result in
performance comparisons expressed in Mean Square Error influenced by centroid
determination on K-Means method by using GenClust method, modified GenClust
method and also classic K-Means.
Keyword: Centroid, K-Means, GenClust, Chromosome
Universitas Sumatera Utara
xii
DAFTAR ISI
Hal.
HALAMAN JUDUL
i
PERSETUJUAN
ii
ABSTRAK
x
ABSTRACT
xi
DAFTAR ISI
xii
DAFTAR GAMBAR
xiv
DAFTAR TABEL
xv
BAB I
BAB II
PENDAHULUAN
1
1.1
Latar Belakang
1
1.2
Rumusan Masalah
3
1.3
Batasan Masalah
3
1.4
Tujuan Penelitian
4
1.5
Manfaat Penelitian
4
1.6
Sistematika Penulisan
4
TINJAUAN PUSTAKA
6
2.1
Data Mining
6
2.2
Metode pada Data Mining
7
2.3
Clustering
7
2.4
K-Means
9
2.5
Algoritma Genetika
9
2.6
GenClust
10
2.7
UCI Machine Learning Repository
12
2.8
Penelitian-Penelitian Terkait
12
2.8.1. Penelitian Terdahulu
12
2.8.2. Perbedaan dengan Penelitian Terdahulu
14
BAB III METODOLOGI PENELITIAN
16
3.1
Pendahuluan
16
3.2
Data yang Digunakan
17
3.3
Analisis Data
17
Universitas Sumatera Utara
xiii
29
BAB IV HASIL DAN PEMBAHASAN
4.1
Pendahuluan
4.2
Hasil Pengujian dengan Menggunakan Algoritma K-Means
4.3
4.4
4.5
BAB V
29
Klasik
29
4.2.1 Pengujian dengan Jumlah Iterasi Sebanyak 50
30
4.2.2 Pengujian dengan Jumlah Iterasi Sebanyak 75
31
4.2.3 Pengujian dengan Jumlah Iterasi Sebanyak 100
32
Hasil Pengujian dengan Menggunakan Algoritma GenClust
35
4.3.1 Pengujian dengan Jumlah Iterasi Sebanyak 50
35
4.3.2 Pengujian dengan Jumlah Iterasi Sebanyak 75
36
4.3.3 Pengujian dengan Jumlah Iterasi Sebanyak 100
38
Hasil Pengujian dengan Menggunakan Algoritma GenClust
yang Telah Dimodifikasi
41
4.4.1 Pengujian dengan Jumlah Iterasi Sebanyak 50
41
4.4.2 Pengujian dengan Jumlah Iterasi Sebanyak 75
42
4.4.3 Pengujian dengan Jumlah Iterasi Sebanyak 100
44
Pembahasan
47
KESIMPULAN DAN SARAN
49
5.1
Kesimpulan
49
5.2
Saran
49
Universitas Sumatera Utara
xiv
DAFTAR GAMBAR
Hal.
Gambar
2.1. Proses di dalam Knowledge Discovery in Database
Gambar
2.2. Diagram Blok dari Algoritma Genetika
10
Gambar
2.3. Tahapan Proses dari Algoritma GenClust
11
Gambar
3.1. Metode Penelitian
17
Gambar
3.2. Tahapan Proses Algoritma K-Means
18
Gambar
3.3. Tahapan Penentuan Nilai Centroid K-Means dengan
Algoritma GenClust
Gambar
19
3.4. Penentuan Nilai Centroid K-Means dengan
Algoritma GenClust yang Dimodifikasi
Gambar
6
28
4.1. Hasil Pengujian dengan Menggunakan Algoritma K-Means
Klasik
34
Gambar
4.2. Hasil Pengujian dengan Menggunakan Algoritma GenClust
Gambar
4.3. Hasil Pengujian dengan Menggunakan Algoritma GenClust
yang Telah Dimodifikasi
40
46
Universitas Sumatera Utara
xv
DAFTAR TABEL
Hal.
Tabel 2.1. Penelitian Terdahulu
13
Tabel
3.1. Contoh Data pada Iris Data Set
21
Tabel
3.2. Kromosom yang Dibangkitkan dengan Bilangan Acak
22
Tabel
3.3. Kromosom yang Diperoleh dari Perhitungan Deterministik
27
Tabel
4.1. Pengujian dengan Menggunakan Algoritma K-Means Klasik
dengan Jumlah Iterasi Sebesar 50
Tabel
30
4.2. Pengujian dengan Menggunakan Algoritma K-Means Klasik
dengan Jumlah Iterasi Sebesar 75
Tabel
31
4.3. Pengujian dengan Menggunakan Algoritma K-Means Klasik
dengan Jumlah Iterasi Sebesar 100
Tabel
32
4.4. Hasil Pengujian dengan Menggunakan Algoritma
K-Means Klasik
Tabel
33
4.5. Pengujian dengan Menggunakan Algoritma GenClust dengan
Menggunakan Jumlah Iterasi Sebesar 50
Tabel
35
4.6. Pengujian dengan Menggunakan Algoritma GenClust dengan
Menggunakan Jumlah Iterasi Sebesar 75
Tabel
37
4.7. Pengujian dengan Menggunakan Algoritma GenClust dengan
Menggunakan Jumlah Iterasi Sebesar 100
38
Tabel
4.8. Hasil Pengujian dengan Menggunakan Algoritma GenClust
Tabel
4.9. Pengujian dengan Menggunakan Algoritma GenClust yang Telah
Dimodifikasi dengan Menggunakan Jumlah Iterasi Sebesar 50
Tabel
44
4.12. Hasil Pengujian dengan Menggunakan Algoritma GenClust
yang Telah Dimodifikasi
Tabel
43
4.11. Pengujian dengan Menggunakan Algoritma GenClust yang Telah
Dimodifikasi dengan Menggunakan Jumlah Iterasi Sebesar 100
Tabel
42
4.10. Pengujian dengan Menggunakan Algoritma GenClust yang Telah
Dimodifikasi dengan Menggunakan Jumlah Iterasi Sebesar 75
Tabel
39
45
4.13. Hasil Pengujian dengan Menggunakan Algoritma K-Means Klasik
Algoritma GenClust, dan Algoritma GenClust yang Telah
Dimodifikasi
47
Universitas Sumatera Utara