Analisis Kinerja Metode Gabungan Genetic Algorithm dan K-Means Clustering dalam Penentuan Nilai Centroid

1

BAB I
PENDAHULUAN

1.1.

Latar Belakang

Clustering adalah proses di dalam mencari dan mengelompokkan data yang memiliki
kemiripan karakteristik (similarity) antara satu data dengan data yang lain. Clustering
digunakan secara luas di dalam berbagai bidang seperti social network analysis,
software engineering, dan crime detection. Terdapat beberapa algoritma clustering
yang dapat digunakan, tetapi algoritma K-Means dan Fuzzy C-Means adalah algoritma
yang umum digunakan karena cukup sederhana (Bai et al., 2011).
Clustering adalah merupakan salah satu kelompok dari data mining (Larose,
2006). Pada algoritma K-Means, penentuan jumlah cluster dan penentuan centroid
(pusat) merupakan hal yang cukup sulit untuk dilakukan. Penentuan jumlah cluster dan
penentuan centroid (pusat) mempengaruhi secara langsung kualitas dari proses
clustering (Maitra, et al., 2010).
Algoritma K-Means klasik secara umum memerlukan inputan dari user untuk

menentukan jumlah dari cluster, kemudian akan secara random menentukan posisi
centroid untuk tiap cluster yang ada dan kemudian akan menempatkan suatu data ke
dalam suatu cluster berdasarkan kedekatan jarak yang ada. Penelitian yang dilakukan
oleh Li et al. (2015) mengenai metode K-Means Global Optimal membahas mengenai
proses partisi cluster yang ada menjadi beberapa bagian untuk mencegah agar K-Means
terjebak ke dalam kondisi local optima. Penelitian mengenai penentuan centroid sendiri
juga sangat menarik perhatian sejumlah peneliti.
Proses penentuan centroid merupakan proses yang melibatkan sejumlah iterasi
hingga diperoleh hasil yang maksimal. Posisi centroid yang baru untuk tiap cluster akan

Universitas Sumatera Utara

2

berubah sepanjang iterasi dan diperoleh berdasarkan rata-rata koordinat dari data-data
yang dikelompokkan ke dalam cluster tersebut (Rahman dan Islam, 2014).
Sejumlah peneliti telah melakukan penelitian mengenai penentuan centroid pada
algoritma K-Means. Ahmad dan Dey (2007) menggunakan konsep fuzzy di dalam
penentuan centroid. Proses penentuan centroid akan dilakukan dengan cara
membangkitkan bilangan acak untuk centroid tiap cluster. Nilai acak tersebut kemudian

akan masuk ke dalam tahapan inferensi dan kemudian hasil defuzzifikasi akan menjadi
nilai centroid tiap cluster. Cara penentuan centroid ini hampir sama dengan penentuan
centroid dengan cara random dan tingkat keakuratannya belum teruji untuk dataset
berukuran besar. Cara penentuan centroid yang sama pernah dilakukan oleh Rahman
dan Islam (2012) di dalam penentuan centroid untuk fuzzy clustering.
Cao et al. (2009) melakukan penentuan centroid berdasarkan nilai frekuensi dari
data. Nilai frekuensi dari data menggambarkan nilai rata-rata dari posisi nilai atribut
dari tiap data yang ada pada suatu cluster. Kelemahan dari metode ini adalah data-data
di dalam suatu cluster harus memiliki nilai atribut yang tidak memiliki perbedaan terlalu
besar. Apabila terdapat perbedaan nilai atribut yang terlalu besar, tentu hasil clustering
tidak memberikan hasil yang baik.
Rahman dan Islam (2014) mengemukakan metode Hybrid Clustering yang
dikenal sebagai GenClust yang menggabungkan pemakaian algoritma K-Means dengan
Algoritma Genetika. Algoritma Genetika digunakan untuk menentukan jumlah cluster
dan juga centroid dari tiap cluster. Penggunaan metode GenClust dapat menghindarkan
algoritma K-Means di dalam terjebak di dalam kondisi local optima. Algoritma
genetika merupakan salah satu model soft computing yang sering digunakan dalam
menyelesaikan permasalahan optimasi. Dalam algoritma genetika terdapat tiga
parameter penting yang harus didefinisikan yaitu ukuran populasi, probabilitas pindah
silang dan probabilitas mutasi. Ketiga parameter ini harus didefinisikan secara hati-hati

agar tidak terjadi konvergensi dini atau lokal optimum yaitu dimana individuindividu dalam populasi konvergen pada suatu solusi optimum lokal sehingga hasil
paling optimum tidak dapat ditemukan (Muzid, 2014).
Metode GenClust dipandang cukup baik untuk menentukan jumlah cluster dan
juga centroid dari tiap cluster karena memungkinkan terjadinya peningkatan performa
clustering untuk tiap generasi. Namun, yang perlu menjadi pertimbangan adalah
percobaan yang dilakukan oleh Rahman dan Islam (2014) menggunakan 50%

Universitas Sumatera Utara

3

kromosom diperoleh melalui perhitungan deterministic dan 50% kromosom diperoleh
melalui bilangan acak. Rahman dan Islam (2014) pada bagian akhir penelitian
menyatakan bahwa metode GenClust akan mengalami kendala komputasi ketika
diterapkan pada dataset berukuran besar. Oleh karena itu, Rahman dan Islam (2014)
pada akhir penelitiannya menyarankan untuk mengambil sample data pada dataset dan
mengimplementasikan GenClust untuk mendapatkan best chromosome dan kemudian
mengimplementasikannya sebagai initial centroid pada K-Means. Namun, belum ada
penelitian lanjutan yang membahas mengenai perbandingan performance dari metode
GenClust dan metode GenClust yang telah dimodifikasi sesuai dengan saran dari

Rahman dan Islam (2014).
Penelitian ini akan membahas mengenai perbandingan antara metode GenClust,
metode GenClust yang dimodifikasi dan juga K-Means klasik di dalam penentuan
centroid khususnya di dalam perbandingan untuk mengukur nilai performance yang
diukur dari Mean Square Error yang terjadi untuk suatu dataset.

1.2.

Rumusan Masalah

Penempatan suatu data di dalam suatu dataset pada algoritma K-Means didasarkan pada
kedekatan data tersebut dengan centroid dari tiap cluster, sehingga nilai centroid sangat
berpengaruh terhadap hasil clustering dengan menggunakan algoritma K-Means.
Permasalahannya adalah pada algoritma K-Means penentuan centroid dilakukan
dengan membangkitkan bilangan acak, sehingga hasil clustering dapat menunjukkan
hasil yang kurang baik. Penelitian ini akan menggunakan metode GenClust yang telah
dimodifikasi, di mana kromosom yang digunakan seluruhnya diperoleh melalui
perhitungan deterministik. Melalui penelitian ini akan diperoleh perbandingan kinerja
yang dinyatakan di dalam nilai Mean Square Error (MSE) antara algoritma K-Means
klasik, metode GenClust, dan juga metode GenClust yang telah dimodifikasi. Semakin

kecil nilai Mean Square Error (MSE) berarti semakin baik kinerja dari algoritma KMeans yang diperoleh.

Universitas Sumatera Utara

4

1.3.

Batasan Masalah

Sehubungan dengan luasnya permasalahan dan adanya keterbatasan waktu dan
pengetahuan peneliti, maka peneliti membatasi masalah yang akan dibahas di dalam
penelitian ini sebagai berikut.
1. Penelitian ini akan membahas pengaruh dari penentuan jumlah cluster dan juga
centroid pada suatu dataset berukuran besar dengan melakukan perbandingan
antara metode GenClust dengan algoritma K-Means klasik.
2. Perbandingan kinerja di dalam penelitian ini didasarkan pada nilai Mean Square
Error yang diperoleh pada setiap generasi (iterasi).

1.4.


Tujuan Penelitian

Tujuan dari penelitian ini adalah menghasilkan perbandingan kinerja yang dinyatakan
dalam Mean Square Error yang dipengaruhi oleh penentuan centroid pada metode KMeans dengan menggunakan metode GenClust, metode GenClust yang dimodifikasi
dan juga K-Means klasik.

1.5.

Manfaat Penelitian

Adapun manfaat dari penelitian adalah sebagai berikut.
1. Melalui penelitian ini peneliti akan memperoleh hasil analisis mengenai
keterkaitan antara jumlah cluster dan penentuan centroid terhadap hasil
clustering.
2. Mengetahui pencapaian kinerja yang diperoleh dengan menggunakan metode
GenClust bila dibandingkan dengan menggunakan algoritma K-Means klasik.

1.6.


Sistematika Penulisan

Penyusunan tesis ini menggunakan kerangka pembahasan yang terbentuk dalam
susunan bab yang dapat dijelaskan sebagai berikut.

BAB I

: PENDAHULUAN
Bab ini berisikan tentang latar belakang masalah, rumusan masalah, batasan
masalah, tujuan dan manfaat penelitian serta sistematika penulisan.

Universitas Sumatera Utara

5

BAB II

: TINJAUAN PUSTAKA
Bab ini berisikan tentang landasan teori yang mendukung penelitian yang
akan dilakukan.


BAB III : METODOLOGI PENELITIAN
Bab ini berisikan tentang data yang digunakan dan metode yang digunakan
di dalam pelaksanaan penelitian.

BAB IV : HASIL DAN PEMBAHASAN
Bab ini berisi tentang pemaparan mengenai hasil penelitian dan
pembahasan mengenai hasil yang diperoleh.

BAB V

: KESIMPULAN DAN SARAN
Bab ini berisi tentang kesimpulan yang diperoleh dari hasil penelitian dan
saran yang dapat diberikan kepada pembaca maupun peneliti yang akan
melanjutkan penelitian sejenis.

Universitas Sumatera Utara