Pengembangan Algoritma Penentuan Titik Awal Dalam Metode Clustering Algoritma Fuzzy C-Means

1

BAB 1
PENDAHULUAN

1.1 Latar Belakang
Salah satu tehnik yang dibuat dalam data mining yang ada adalah bagaimana
menelusuri data yang ada untuk membangun sebuah model, kemudian menggunakan
model tersebut untuk mengenali sebuah pola data yang lain. Objek dari data tersebut
bisa berupa produk barang dan jasa, benda, orang atau wilayah. Pekerjaan yang
berkaitan dengan data mining terbagi kedalam empat kelompok, yaitu model prediksi,
analisis kelompok, analisis asosiasi dan deteksi anomali.
Unsupervised learning atau di sebut juga metode clustering mengekplorasian
sekelompok data tanpa menggunakan label. Tujuan clustering ini adalah menemukan
kriteria pembagi untuk membagi sekelompok data dan memasukkan data kedalam
cluster yang tepat. Proses ini melakukan observasi hingga kesetiap cluster untuk
membagi beberapa kriteria. Secara lebih ringkas metode clustering adalah metode
pengelompokan berdasarkan kedekatan dari karakteristik tertentu (Oliveira et al,
2007).
Perkembangan analisis kelompok dimulai dari metode herarki yang alur
perkembangannya akan membentuk sebuah tree diagram berdasarkan jarak untuk

membuat kelompok. Sedangkan metode non-herarki melakukan partisi menentukan
jumlah kelompok terlebih dahulu yang kemudian disesuaikan dengan tujuan
penelitian. Contoh nya K-Means algoritma ini termasuk kategori ekslusif dikarenakan
data bisa dipastikan hanya menjadi satu kelompok dan tidak menjadi anggota
kelompok lainnya tetapi jika data memiliki dua atau lebih masuk kedalam anggota
kelompok di sebut tumpang tindih (over lapping) yang dinyatakan dengan derajat
keanggotaan. Algoritma yang termasuk didalamnya adalah Fuzzy C-Means(FCM)
yang juga termasuk kedalam metode cluster non-hieraki berbasis fuzzy (Agarwal et al,
2014).

2

Dalam perhitungan metode clustering algoritma Fuzzy C-Means batas optimum untuk
algoritma ini sering menjadi masalah. Penentuan titik pusat yang berbeda
menghasilkan cluster yang berbeda dikarenakan nilai derajat keanggotaan µ awal yang
terbentuk secara random yang disebar (Karlina et al, 2006). Hal tersebut akan
menghasilkan perulangan perhitungan yang berhingga sampai selisih antara fungsi
objektif P mencapai lebih kecil dari ξ. Dikarenakan hal tersebut biasanya peneliti
mengambil alternatif lain yaitu mengambil batas iterasi(MaxIter) berdasarkan nilai
yang ditentukan. Perhitungan fungsi objektif optimum sebagai titik henti dalam Fuzzy

C-Means didasarkan pada perhitungan Pt –Pt-1< ξ dengan jumlah perulangan yang
belum diketahui. Jika ξ memiliki nilai yang cukup kecil seperti 0,05, jumlah
perulangan untuk mencapai Pt –Pt-1< ξ untuk kasus-kasus tertentu dengan tingkat
sebaran data yang tinggi maka jumlah iterasi perhitungannya akan semakin bertambah
jika nilai ξ cukup besar maka belum tentu data akan masuk kedalam cluster yang
tepat.
Dalam penelitian ini dikembangkan algoritma clusterisasi yang berbasis
herarki Agglomeratif untuk menentukan titik awal pusat data pada algoritma Fuzzy CMeans yang berbasis non-herarki. Penentuan titik pusat yang tepat akan mengurangi
waktu pemrosesan dan clusterisasi data pada algoritma Fuzzy C-Means (Hung et al,
2001). Dengan melakukan perhitungan jarak dari setiap titik dan menganalisis nilai
pergerakan dan perubahan titik pusat pada setiap perulangannya serta menentukan
secara lebih tepat nilai titik pusat awal diharapkan bisa menemukan alternatif atau
penambahan model lain Fuzzy C-Means untuk membatasi jumlah iterasi yang
berhingga agar mencapai nilai perulangan yang lebih sedikit dan lebih efisien.

1.2 Rumusan Masalah
Berdasarkan latar belakang yang dijelaskan, maka permasalahan yang di analisis
adalah :
Seperti yang telah diuraikan sebelumnya bahwa metode clustering algoritma
Fuzzy C-Means memiliki iterasi yang cukup besar untuk mencapai titik optimal. Perlu

dikaji apakah titik awal algoritma sangat berpengaruh terhadap jumlah iterasi ini.
Penentuan titik awal selalu dilakukan sembarang terhadap metode tertentu.

3

1.3 Batasan Masalah
Dalam penelitian ini terdapat beberapa batasan dalam pembahasan yang dilakukan
antara lain:
1. Algoritma yang menjadi fokus penelitian adalah Fuzzy C-Means dan Fuzzy CMeans pengembangan dengan parameter uji dan data yang sama.
2. Data yang digunakan adalah UCI Learning Machine Repository Grammatical
Facial Expressions
3. Menilai kebaikan Fuzzy C-Means dan Fuzzy C-Means pengembangan
berdasarkan beberapa keriteria metode clustering.
4. Ukuran kemiripan menggunakan Euclidean distance dalam Fuzzy C-Means.

1.4 Tujuan Penelitian
Tujuan penelitian dalam tesis ini diuraikan sebagai berikut :
Melakukan pengembangan pada algoritma Agglomerative Clustering Complete
Linkage untuk menentukan titik awal pada algoritma Fuzzy C-Means.


1.5 Manfaat Penelitian
Manfaat yang didapat dari penelitian ini adalah :
1. Menambah wawasan keilmuan khususnya tentang analisis clustering, metode
clustering.
2. Aplikasi untuk algoritma Fuzzy C-Means dan Fuzzy C-Means pengembangan
dapat di gunakan sebagai aplikasi alternatif untuk pengolahan data dengan
metode clustering bagi pengguna lainnya secara lebih luas.