Analisis Fungsi Algoritma c-means dan Cluster Analysis (variance)

BAB II
TINJAUAN PUSTAKA

2.1 Konsep Clustering dalam Data Mining
Konsep dasar data mining adalah menemukan informasi tersembunyi dalam sebuah
basis data dan merupakan bagian dari Knowledge Discovery in Databased (KDD)
untuk menemukan informasi dan pola yang berguna dalam data (Durham, 2003). Data
mining mencari informasi baru, berharga dan berguna dalam sekumpulan data dengan
melibatkan komputer dan manusia serta bersifat iteratif baik melalui proses yang
otomatis ataupun manual. Secara umum sifat data mining adalah:
a. Predictive: menghasilkan model berdasarkan sekumpulan data yang dapat
digunakan untuk memperkirakan nilai data yang lain. Metode yang termasuk dalam
prediktif data mining adalah:
- Klasifikasi: pembagian data ke dalam beberapa kelompok yang telah ditentukan
sebelumnya.
- Regresi: memetakan data ke suatu prediction variable.
- Time Series Analisys: pengamatan perubahan nilai atribut dari waktu ke waktu.
b. Descriptive: mengidentifikasi pola atau hubungan dalam data untuk menghasilakn
informasi baru. Metode yang termasuk dalam Descriptive Data Mining adalah:
- Clustering: identifikasi kategori untuk mendeskripsikan data.
- Association Rules: pemetaan data ke dalam subset dengan deskripsi sederhana.

- Sequence Discovery: identifikasi pola sekuensial dalam data.
Clustering membagi data menjadi kelompok-kelompok atau cluster berdasarkan
suatu kemiripan atribut-atribut diantara data tersebut (Durham, 2003). Karakteristik
tiap cluster tidak ditentukan sebelumnya, melainkan tercermin dari kemiripan data
yang terkelompok di dalamnya. Oleh sebab itu hasil clustering seringkali perlu
diinterprestasikan oleh pihak-pihak yang benar-benar mengerti

Universitas Sumatera Utara

mengenai karakter domain data tersebut. Selain digunakan sebagai metode yang
independen dalam data mining, clustering juga digunakan dalam pra-pemrosesan data
sebelum data diolah dengan metode data mining yang lain untuk meingkatkan
pamahaman terhadap domain data.
Karakteristik terpenting dari hasil clustering yang baik adalah suatu instance
data dalam suatu cluster lebih “mirip” dengan instance lain di dalam clustering
tersebut daripada dengan instance di luar dari clustering itu. Ukuran kemiripan
(similarity measure) tersebut bisa bermacam-macam dan mempengaruhi perhitungan
dalam menentukan anggota suatu cluster. Jadi tipe data yang akan di-cluster
(kuantitatif atau kualitatis) juga menentukan ukuran apa yang tepat digunakan dalam
suatu algoritma. Selain kemiripan antar data dalam suatu cluster, clustering juga dapat

dilakukan berdasarkan jarak antar data atau cluster yang satu dengan yang lain.
Ukuran jarak (distance atau dissimilarity measure) yang merupakan kebalikan dari
ukuran kemiripan ini juga banyak ragamnya dan penggunaannya juga tergantung pada
tipe data yang akan di-cluster. Kedua ukuran ini bersifat simetris, dimana jika A
dikatakan mirip dengan B maka dapat disimpulkan bahwa B mirip dengan A.
Ada beberapa macam rumus perhitungan jarak antara cluster. Untuk tipe data
numerik, sebuah data det X beranggotakan X1 Є X, i = 1, ..., n, tiap item
direpresentasekan sebagai vektor X1 = {Xi1, Xi2, Xim} dengan m sebagai jumlah
dimensi dari item. Rumus-rumus yang biasa digunakan sebagai ukuran jarak antara Xi
dan Xj untuk data numerik ini antara lain:
a. Euclidean Distance


2

1
2

������ − ��� � �


(1)

�=1

Ukuran ini sering digunakan dalam clustering karena sederhana. Ukuran ini
memiliki masalah jika skala nilai atribut yang satu sangat besar dibandingkan nilai
atribut lainnya. Oleh sebab itu, nilai-nilai atribut sering dinormalisasi.
b. City Block Distance atau Manhatta Distance


����� − ��� �

(2)

�=1

Universitas Sumatera Utara

Jika tiap item digambarkan sebagai sebuah titik dalam grid, ukuran jarak ini
merupakan banyak sisi harus dilewati suatu titik untuk mencapai titik yang lain

seperti halnya dalam sebuah peta jalan.
c. Minkwoski Metric




������ − ��� � �
�=1

1


(3)

Ukuran ini merupakan bentuk umum dari Euclidean Distance dan Manhatta

Distance. Euclidean Distance adalah kasus dimana nilai p = 2 sedangkan Manhatta
Distance merupakan bentuk Minkwoski dengan p = 1. Dengan demikian, lebih
banyak nilai numerik yang dapat ditempatkan pada jarak terjauh di antara 2 vektor.
Seperti pada Euclidean Distance dan juga Manhattan Distance, ukuran ini

memiliki masalah jika salah satu atribut dalam vektor memiliki rentang yang lebih
besar dibanding atribut-atribut lainnya.
d. Cosine – Corelation (ukuran kemiripan dari model Euclidean n-dimensi)

∑�
� =1 ���� . ��� �

2
�∑�
� =0 ���

(4)

∑ ���2

Ukuran ini bagus digunakan pada data dengan tingkat kemiripan tinggi walaupun
sering pula digunakan bersama pendekatan lain untuk membatasi dimensi dari
permasalahan.
Dalam mendefenisikan ukuran jarak antara cluster yang digunkan beberapa
algoritma untuk menentukan cluster mana yang terdekat, perlu dijelaskan

mengenai atribut-atribut yang menjadi referensi dari suatu cluster. Untuk suatu
cluster Km berisi N item {Xm1, Xm2, ..., Xnm}:
- Centroid: suatu besaran yang dihitung dari rata-rata nilai dari setiap item dari
suatu cluster menurut rumus:
∑��=1 |��� |
�� =


(5)

- Medoid: item yang letaknya paling tengah.
Metode-metode untuk mencari jarak antara cluster:
- Single Link: jarak terkecil antara suatu elemen dalam suatu cluster dengan
elemen lain di cluster yang berbeda.

Universitas Sumatera Utara

- Comple Link: jarak rata-rata antar satu elemen dalam suatu cluster dengan
elemen lain di cluster yang berbeda.
- Average: jarak rata-rata antar satu elemen dalam suatu cluster dengan elemen

lain di cluster yang berbeda.
- Centoid: jarak antara centroid dari tiap cluster dengan centoid cluster lainnya.
- Medoid: jarak antara medoid dari tiap cluster denga medoid cluster lainnya.

2.2 Algoritma Clustering
Secara umum pembagian algoritma clustering dapat digambarkan sebagai berikut:
Clustering

Hierarchical

Agglomerative

Clustering
Large Data

Partitional

Divisive

Gambar 2.1 Kategori Algoritma Clustering

Hierarchical clustering menentukan sendiri jumlah cluster yang dihasilkan.
Hasil dari metode ini adalah suatu struktur data berbentuk pohon yang disebut
dendogram dimana data dikelompokkan secara bertingkat dari yang paling bawah
dimana tiap intance data merupakan satu cluster sendiri, hingga tingkat paling atas
dinamakan keseluruhan data membentuk satu cluster besar berisi cluster-cluster
seperti gambar 2.2

Universitas Sumatera Utara

1
2
3
A

B

C

D


E

4

Gambar 2.2 Dendogram
Divisive hierarchical clustering mengelompokkan data dari kelompok yang
terbesar hingga ke kelompok yang terkecil, yaitu masing-masing instance dari
kelompok data tersebut. Sebaliknya, agglomerative hierarchical clustering mulai
mengelompokkan data dari kelompok yang terkecil hingga kelompok yang terbesar.
Beberapa algoritma yang menggunakan metode ini adalah: Robust Clustering Using
Links (ROCK), Chameleon, Cobweb, Shared Nearest Neighbor (SNN).
Partitional clustering yang mengelompokkan data ke dalam k cluster dimana k
adalah banyaknya cluster dari input user. Kategori ini biasanya memerlukan
pengetahuan yang cukup mendalam tentang data dan proses bisnis yang
memanfaatkannya unuk mendapatkan kisaran nilai input yang sesuai. Beberapa
algoritma yang masuk dalam kategori diantara lain : K-Means, Fuzzy C-Means,
Clustering Large Aplications (CLARA), Expectation Maximation (EM), Bond Energy
Algorithm (BEA), algoritma Genetika, Jaringan Saraf Tiruan.
Clustering Large Data, dibutuhkan untuk melakukan clustering pada data yang
volumenya sangat besar sehingga tidak cukup ditampung dalam memori komputer

pada suatu waktu. Biasanya untuk mengatasi masalah besarnya volume data, dicari
teknik-teknik untuk meminimalkan berapa kali algoritma harus membaca seluruh data.
Beberapa algoritma yang masuk dalam kategori ini antara lain: Balance Iteratif
Reducing and clustering using hierarchies (BIRCH), Density Based Spatial
Clustering of Application With Noise (DCSCAN), Clustering Categorical Data Using
Summaries (CACTUS).

Universitas Sumatera Utara

2.3 Algoritma C-Means
Pada proses clustering sacara klasik (misalnya pada Clustering K-Means),
pembentukan partisi dilakukan sedemikian rupa sehingga setiap obyek berada tepat
pada satu partisi, karena sebenarnya obyek tersebut terletak di antara 2 atau lebih
partisi yang lain. Pada logika algoritma, metode yang dapat digunkana untuk
melakukan pengelompokan sejumlah data dikenal dengan nama algoritma clustering.
Algoritma Clustering lebih alami jika dibandingkan dengan clustering secara klasik.
Suatu algoritma clustering dikatakan sebagai algoritma clustering jika algoritma
tersebut menggunakan parameter strategis adaptasi secara soct competitive. Sebagian
besar algoritma clustering didasarkan atas optimasi fungsi obyektif atau modifikasi
dari fungsi obyektif tersebut (Kusumadewi. S, Hartati. S. 2006) .

Salah satu teknik algoritma clustering adalah Algoritma C-Means. Algoritma CMeans adalah suatu teknik clustering data yang keberadaan tiap-tiap data dalam suatu
cluster ditentukan oleh nilai/derajat keanggotaan tertentu. Teknik ini pertama kali
diperkenalkan Jim Bezdek pada tahun 1981 (Kusumadewi. S, Hartati. S. 2006).
Berbeda dengan teknik clustering secara klasik (dimana suatu obyek hanya akan
menjadi anggota dari beberapa cluster. Batas-batas cluster dalam Algoritma C-Means
adalah lunak (soft). Kosep dasar Algoritma C-Means, pertama kali adalah menentukan
pusat cluster yang menandai lokasi rata-rata untuk tiap-tiap cluster. Pada kondisi
awal, pusat cluster ini masih belum akurat. Tiap-tiap data memiliki derajat
keanggotaan untuk tiap-tiap cluster. Dengan cara memperbaiki pusat cluster dan nilai
keanggotaan tiap-tiap data secara berulang, maka akan terlihat bahwa pusat cluster
akan bergerak menuju lokasi yang tepat. Perulangan ini didasarkan pada minimasi
fungsi obyektif. Fungsi obyektif yang digunakan pada Algoritma C-Means adalah
(Kusrini, 2006):


�� (�, �; �) = �

dengan w Є [1,

� =1





�=1

],



��� = � (�� − �� ) = ��

� =1

(��� )� (��� )2

(6)

1
2

���� − ��� ��

(7)

Universitas Sumatera Utara

x adalah data yang akan di clustering:
�11
�=� ⋮
��1





�1�
⋮ �
���

(8)

dan v adalah matriks pusat cluster :
�11
�=� ⋮
�� 1

⋯ �1�

⋮ �
⋯ ���

(9)

nilai Jw terkecil adalah yang terbaik, sehingga:
Jw* (U*, V*; X) = min J (U, V, X)
Jika dik > 0,

(10)

, k; w > 1 dan X setidaknya memiliki m elemen, maka (U,V) Є Mfm x

Rmp dapat meminimasi Jw hanya jika:

��� =
dan

−1
2 � −1

�∑� =1 ���� − ��� � �
−1
2 � −1

∑�
� =1 �∑� =1���� − ��� � �

; 1 ≤ � ≤ �; 1 ≤ � ≤ �

∑��=1 �(��� )� ∗ ��� �
; 1 ≤ � ≤ �; 1 ≤ � ≤ �
��� =
∑��=1(��� )�

(11)

(12)

Algoritma C-Means diberikan sebagai berikut (Kusumadewi, et al, 2006):
1. Menentukan data yang akan di clustering X, berupa matriks berukuran n x m (n =
jumlah sampel data, m = atribut setiap data), Xij = data sampel ke-i (i = 1,2, ... , n),
atribut ke-j (j = 1,2,..., mm).
2. Menentukan:
- Jumlah cluster

=c

- Pangkat

=w

- Maksimal interaksi

= Maxlter

- Error terkecil yang diharapkan

=

- Fungsi objektif awal

= Po = 0

- Interasi awal

=t=1

Universitas Sumatera Utara

3. Membangkitkan bilangan random µ ik i=1,2,3, ..., n: k=1,2,3,.., c: sebagai elemenelemen matriks partisi awal U.
Menghitung jumlah setiap kolom:


�� = � ���

(13)



Dengan j=1,2,..,n
Menghitung:
4. Menghitung pusat cluster ke-k: Vkj, dengan k=1,2,...c: dan j=1,2,...m
∑��=1�(��� )� . ��� �
��� =
∑��=1(��� )�

(14)

5. Menghitung fungsi objektif pada interasi ke-t:






2

�� = � � ������� −��� � � (��� )� �
�=1 �=1

(15)

� =1

6. Menghitung perubahan matriks partisi:

��� =

�∑�
� =1 ����

−1
2 � −1

− ��� � �

(16)

−1
2 � −1
∑�� =1 �∑�
��


�� − ���
� =1

Dengan : i = 1,2,..., n: dan k = 1,2,,...,c
7. Memeriksa kondisi berhenti:
-

Jika: (|Pt – Pt - 1| < ξ) atau (t > Max) maka berhenti

-

Jika tidak: t = t + 1, mengulang langkah ke-4

2.4 Cluster Analysis (Variance)
Digunakan untuk mengukur nilai hasil penyebaran data-data hasil clustering ada dua
macam (Ridho Barakbah, 2009), yaitu:
1. Variance within cluster: Tipe varian ini mengacu pada jarak antar anggota pada
cluster yang sama.
2. Variance between cluster : Tipe varian ini mengacu pada jarak antar cluster.

Universitas Sumatera Utara

Ada dua ketentuan apabila

menentukan cluster

ideal

menggunakan cara

perbandiangan Variance within Cluster Vw) dan Variance between Cluster (Vb) yaitu
sebagai berikut:
a.

Berdasarkan nilai minimum
�=

Keterangan:

��
��

(17)

V = nilai variance
Vw = nilai variance between cluster
VB = nilai variance between cluster
Cluster yang disebut ideal adalah cluster yang memiliki nilai variance yang paling
kecil.
b.

Berdasarkan nilai maksimum
�=

Keterangan:

��
��

(18)

V = nilai variance
Vw = nilai variance within cluster
VB = nilai variance between cluster
Cluster yang disebut ideal adalah cluster yang memiliki variance yang paling besar.
Sebelum mencari nilai variance (V), perlu dicari nilai variance within cluster (Vw)
dan nilai variance between cluster (VB) (Ali, Modul ajar cluster analysis).
a.

Variance within Cluster (Vw)
�� =


1
� (�� − 1). ��2
�−�
�=1

(19)

Universitas Sumatera Utara

Keterangan:
N = jumlah semua data
k = jumlah cluster
ni = jumlah data pada cluster ke-i
Vi2 = variance pada cluster ke-i
Sebelum menghitung variance within perlu menghitung nilai Vi2.
Keterangan:
��2 =


1
2
� ��� − �̅� �
�� − 1 �=1

(20)

Vc2 = variance pada cluster c

c = 1...k, dimana k = jumlah cluster
nc = jumlah data pada cluster c
di = data ke-i pada suatu cluster
dl = rata-rata dari data pada suatu cluster
b.

Variance between Cluster (VB)

Keterangan:

�� =


1
2
� �� ��̅� − �̅ �
� − 1 �=1

(21)

d = rata-rata dari di

2.5

Riset-riset Terkait

Dalam melakukan penelitian, penulis menggunakan beberapa riset terkait yang
dijadikan yang membuat penelitian berjalan lancar. Adapun riset-riset terkait tersebut
adalah:

Universitas Sumatera Utara

Tabel 2.3 Riset Terkait
No

Judul Riset

Nama Peneliti

Algoritma/

Dan Tahun

Metode yang

Hasil Penelitian

digunakan
1

Penentuan
jurusan

Bahar, 2011
sekolah

menengah

Algoritma

Penentun

C-Means

Sekolah Menengah Atas
dengan

atas

jurusan

algoritma

di

C-

dengan algoritma

Means memiliki tingkat

fuzzy C-Means

akurasi yang lebih tinggi
dibanding
metode

dengan
penentuan

jurusan secara manual.
2

Implementasi

Ri Handayani, et Algoritma

Algoritma

al. 2011

Clustering ISMC

ISMC
FCM

Bahwa algoritma FSMC
dan lebih

mampu

yang

dan FCM

cluster

menghasilkan

homogen

dibanding ISMC
3

4

Studi

Tentang Sukim, 2011

C-Means

Metode C-Means lebih

Metode C-Means

halus dalam mempartisi

Cluster dan Fuzzy

cluster. Hal ini karena

C-Means Cluster

tiap

Serta Aplikasinya

dengan

Pada

keanggotaan ke pusat

Kasus

objek

dilengkapi
derajat

Pengelompokkan

cluster yang terbentuk,

Desa/ Kelurahan

tapi

Berdasarkan

algoritma

Status

terhadap

Ketertinggalan

cluster tidak linier

Penggunaan
Indeks

Lailil

Algoritma

Fuzzy

C-Means

time

C-Means
banyaknya

C-Means dan Metode Fuzzy C-Means

Validitas Muflikhah, 2011 K-Means

Pada

running

lebih baik dari pada
fuzzy
dikarenakan

K-Means
adana

Universitas Sumatera Utara

Clustering Untuk

penyimpangan

Pengklasteran

pengklasteran

Dokumen

metode K-Means. Agar
supaya

pada
dengan

pengklasteran

dokumen optimal, telah
diaplikasikan

indeks

validitas.
5

Deteksi

Kepala Dwi

Puspita C-Means dan Segmentasi
K-Means

Janin

Pada Handayani

Gambar

USG Tjandrasa, 2011

menggunakan

metode

FCM dengan Informasi

Menggunakan

spesial

Fuzzy

mengurangi noise pada

C-Means

mampu

dengan Informasi

gambar

Spesial

janin dibanding dengan

dan

USG

kepala

Iterative

menggunakan metode K-

Randomized

Means

Hough Transform
(IRHT)
6

2.6

Implementasi

Beni

Ilham Single

Kelebihan

Metode

Single Priyambodo, et Linkage

manual

Linkage

Untuk al. 2011

kekurangan

metode
yaitu

Menentukan

pembentukan

cluster

Kinerja

dibanding

dengan

Agent

Pada Call Center

metode Single Linkage

Berbasis Asterisk

dilihat dari perhitungan

For JAVA

variance.

Perbedaan Dengan Riset Yang Lain

Dalam penelitian ini menggunakan Algoritma C-Means dan Cluster Analysis
(Variance) dengan berbagai data yang akan diolah dan juga menggunakan alat bantu
berupa software Visual Basic sehingga dapat langsung diterapkan untuk penyelesaian
masalah tingkat akurasi yang rendah.

Universitas Sumatera Utara

2.7

Kontribusi Riset
Dalam penelitian ini digunakan dua Algoritma C-Means dan Cluster Analysis

(Variance) yang saling mengisi yang diharapkan dari penelitian ini dapat menentukan
berapa sesungguhnya cluster yang ideal yang terbentuk dari range data yang akan di
clustering.

Universitas Sumatera Utara