Perbandingan Algoritme Clustering ROCK dan QROCK untuk Data Kategorik

ABSTRAK
MARISA ANGGRAENI. Perbandingan Algoritme Clustering ROCK dan QROCK untuk Data
Kategorik (Studi Kasus : Data Sponge). Dibimbing oleh ANNISA, dan HARI AGUNG.
Sponge adalah hewan laut berpori yang memompa air melalui tubuhnya untuk menyaring
partikel–partikel sebagai makanannya. Beberapa ahli taksonomi berpendapat adanya kelas baru
dari sponge. Iosune Uriz dan Marta Domingo melakukan riset dan pengumpulan data sponge jenis
O.Hadromerida (Demospongiae. Porifera) yang termasuk kelas Demospongiae di Laut Atlantik
pada tahun 1993. Tujuan riset dan pengumpulan data tersebut adalah untuk mengetahui model
cluster berdasarkan anatomy dan phisiology sponge. Model cluster tersebut diharapkan dapat
direpresentasikan pada klasifikasi taksonomi sehingga dapat memprediksi ada atau tidaknya
kemungkinan species atau kelas baru dari data sponge tersebut. Sebagian besar atribut data sponge
tersebut merupakan data kategorik.
Clustering adalah proses data mining untuk melihat pola pendistribusian data yang akan
digunakan untuk melihat karakteristik dari data. Pada penelitian ini data riset Iosune Uriz dan
Marta Domingo akan dikelompokkan oleh algoritme ROCK dan QROCK. Algoritme ROCK
digunakan karena memiliki kualitas dan penanganan data kategorik yang lebih baik dari algoritme
clustering distance pada umumnya, sedangkan algoritme QROCK merupakan perbaikan dari
algoritme ROCK karena dari segi waktu lebih efisien dan dapat mendeteksi outlier pada ROCK.
Algoritme ROCK yaitu algoritme clustering hirarki aglomeratif untuk mengelompokkan data
kategorik yang membangun link untuk menggabungkan cluster-cluster-nya. QROCK adalah
perbaikan dari algoritme ROCK yang memiliki metode yang lebih efisien untuk menghasilkan

cluster akhir algoritme ROCK ketika ROCK sudah tidak memiliki link antar cluster-nya.
Pada penelitian ini cluster yang dihasilkan merepresentasikan pola data sponge. Cluster hasil
dari algoritme ROCK dan QROCK untuk data sponge akan dibandingkan. Total cohesion dari
cluster yang dihasilkan ROCK lebih kecil dibandingkan separation-nya, sedangkan total cohesion
dari cluster yang dihasilkan QROCK lebih besar dibandingkan nilai separation-nya. Hal tersebut
membuktikan bahwa cluster yang dihasikan QROCK lebih baik dari ROCK. Dibuktikan pula
bahwa algoritme QROCK dapat mendeteksi outlier dari algoritme ROCK pada saat nilai threshold
0,9.

Kata kunci : Clustering, ROCK, QROCK, Data Kategorik, Sponge, Link.

PERBANDINGAN ALGORITME CLUSTERING ROCK DAN QROCK
UNTUK DATA KATEGORIK
(STUDI KASUS : DATA SPONGE)

MARISA ANGGRAENI

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR

2008

PERBANDINGAN ALGORITME CLUSTERING ROCK DAN QROCK
UNTUK DATA KATEGORIK
(STUDI KASUS : DATA SPONGE)

MARISA ANGGRAENI

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2008

PERBANDINGAN ALGORITME CLUSTERING ROCK DAN QROCK
UNTUK DATA KATEGORIK
(STUDI KASUS : DATA SPONGE)

Skripsi
Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer
pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Oleh :
MARISA ANGGRAENI
G64104037

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2008

ABSTRAK
MARISA ANGGRAENI. Perbandingan Algoritme Clustering ROCK dan QROCK untuk Data
Kategorik (Studi Kasus : Data Sponge). Dibimbing oleh ANNISA, dan HARI AGUNG.
Sponge adalah hewan laut berpori yang memompa air melalui tubuhnya untuk menyaring
partikel–partikel sebagai makanannya. Beberapa ahli taksonomi berpendapat adanya kelas baru
dari sponge. Iosune Uriz dan Marta Domingo melakukan riset dan pengumpulan data sponge jenis
O.Hadromerida (Demospongiae. Porifera) yang termasuk kelas Demospongiae di Laut Atlantik
pada tahun 1993. Tujuan riset dan pengumpulan data tersebut adalah untuk mengetahui model
cluster berdasarkan anatomy dan phisiology sponge. Model cluster tersebut diharapkan dapat

direpresentasikan pada klasifikasi taksonomi sehingga dapat memprediksi ada atau tidaknya
kemungkinan species atau kelas baru dari data sponge tersebut. Sebagian besar atribut data sponge
tersebut merupakan data kategorik.
Clustering adalah proses data mining untuk melihat pola pendistribusian data yang akan
digunakan untuk melihat karakteristik dari data. Pada penelitian ini data riset Iosune Uriz dan
Marta Domingo akan dikelompokkan oleh algoritme ROCK dan QROCK. Algoritme ROCK
digunakan karena memiliki kualitas dan penanganan data kategorik yang lebih baik dari algoritme
clustering distance pada umumnya, sedangkan algoritme QROCK merupakan perbaikan dari
algoritme ROCK karena dari segi waktu lebih efisien dan dapat mendeteksi outlier pada ROCK.
Algoritme ROCK yaitu algoritme clustering hirarki aglomeratif untuk mengelompokkan data
kategorik yang membangun link untuk menggabungkan cluster-cluster-nya. QROCK adalah
perbaikan dari algoritme ROCK yang memiliki metode yang lebih efisien untuk menghasilkan
cluster akhir algoritme ROCK ketika ROCK sudah tidak memiliki link antar cluster-nya.
Pada penelitian ini cluster yang dihasilkan merepresentasikan pola data sponge. Cluster hasil
dari algoritme ROCK dan QROCK untuk data sponge akan dibandingkan. Total cohesion dari
cluster yang dihasilkan ROCK lebih kecil dibandingkan separation-nya, sedangkan total cohesion
dari cluster yang dihasilkan QROCK lebih besar dibandingkan nilai separation-nya. Hal tersebut
membuktikan bahwa cluster yang dihasikan QROCK lebih baik dari ROCK. Dibuktikan pula
bahwa algoritme QROCK dapat mendeteksi outlier dari algoritme ROCK pada saat nilai threshold
0,9.

Kata kunci : Clustering, ROCK, QROCK, Data Kategorik, Sponge, Link.

Judul : Perbandingan Algoritme Clustering ROCK dan QROCK untuk Data
Kategorik
Nama : Marisa Anggraeni
NIM : G64104037

Menyetujui:

Pembimbing I,

Pembimbing II,

Annisa, S.Kom, M.Kom
NIP 132 311 930

Hari Agung, S.Kom, M.Si
NIP 132 311 918

Mengetahui:
Dekan Fakultas Matematika Dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor

Dr. drh. Hasim, DEA
NIP 131 578 806

Tanggal Lulus:

RIWAYAT HIDUP
Penulis dilahirkan di Sumedang tanggal 19 Februari 1986, anak ke dua dari tiga bersaudara
dari pasangan O.Ridwan dan Metini. Tahun 2004, penulis lulus dari SMU Negeri 1 Cimalaka,
Sumedang dan pada tahun yang sama penulis diterima sebagai mahasiswa S1 Departemen Ilmu
Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor melalui jalur
Undangan Seleksi Masuk Institut Pertanian Bogor (USMI).
Pada tahun 2007, penulis melaksanakan kegiatan Praktik Kerja Lapangan di Lembaga Riset
Perkebunan Indonesia (LRPI) selama dua bulan. Dari hasil praktik lapang tersebut penulis telah
membuat laporan dengan judul Pembuatan website Pusat Penelitian Teh dan Kina Gambung.

PRAKATA

Alhamdulillahi Rabbil ‘alamin, puji dan syukur penulis panjatkan kepada Allah SWT atas
limpahan rahmat dan hidayah-Nya sehingga tugas akhir dengan judul Perbandingan Algoritme
Clustering ROCK dan QROCK untuk Data Kategorik dapat diselesaikan. Shalawat serta salam
juga penulis ucapkan kepada junjungan kita Nabi Muhammad SAW beserta seluruh sahabat dan
umatnya hingga akhir zaman.
Dalam menyelesaikan tugas akhir ini penulis mendapatkan banyak sekali bantuan, bimbingan
dan dorongan dari berbagai pihak. Oleh karena itu, penulis ingin mengucapkan terima kasih
kepada semua pihak yang telah membantu dalam penyelesaian tugas akhir ini, antara lain:
1

Ketiga orangtua tersayang, Bapak Deden dan Mama Metini serta Mpah O.Ridwan atas segala
do’a, kasih sayang, dan dukungannya.
2 Aa Geri Ridwandini dan Ade Silvie Delasani tersayang yang selalu memberikan do’a,
semangat dan motivasi dalam penyelesaian tugas akhir ini.
3 Ibu Annisa, S.Kom, M.Kom selaku pembimbing pertama atas bimbingan dan arahannya
selama pengerjaan tugas akhir ini.
4 Bapak Hari Agung, S.Kom, M.Si selaku pembimbing kedua atas bimbingan dan arahannya
selama pengerjaan tugas akhir ini.
5 Bapak Endang, S.Kom, M.Kom selaku moderator dan penguji tugas akhir ini.
6 Efrian Muharrom yang telah memberi dukungan, semangat, bantuan dan do’a saat penulis

merasa jenuh dan kesulitan dalam penyelesaian tugas akhir ini.
7 Anizza, Popi, Ineza, Fathimah, Gananda, Imam, Henri, Lewe, Denny dan Maulana atas
semangat dan dukungannya.
8 Ayudya Paramita, Nurdian Setiawan, dan Riza Mahendra atas semangat dan do’a selama
bimbingan bersama.
9 Imam Abu Daud, Irfan Sidqon, M.Syadid, Rizki Peburdi, dan Arif Nurwidiantoro atas bantuan
dan ilmu yang telah dibaginya.
10 Seluruh teman-teman Program Studi Ilmu Komputer angkatan 41 yang tidak dapat disebutkan
namanya satu-persatu.
Penulis juga mengucapkan terima kasih kepada semua pihak yang telah membantu selama
pengerjaan penyelesaian tugas akhir ini yang tidak dapat disebutkan satu-persatu. Semoga
penelitian ini dapat memberikan manfaat.

Bogor,

Agustus 2008

Marisa Anggraeni

DAFTAR ISI

Halaman

DAFTAR TABEL....................................................................................................................... vi 
DAFTAR GAMBAR .................................................................................................................. vi 
DAFTAR LAMPIRAN..................................................................................... vi_Toc208994323 
PENDAHULUAN ....................................................................................................................... 1 
Latar Belakang ........................................................................................................................1 
Tujuan .....................................................................................................................................1 
Ruang Lingkup........................................................................................................................1 
Manfaat Penelitian ..................................................................................................................1 
TINJAUAN PUSTAKA .............................................................................................................. 1 
Knowledge Discovery in Database (KDD).............................................................................1 
Data Mining ............................................................................................................................2 
Clustering ................................................................................................................................2 
Agglomerative Hirarchical Clustering ...................................................................................3 
Data Kategorik ........................................................................................................................3 
ROCK (RObust Clustering using linKs) .................................................................................3 
QROCK (Quick RObust Clustering using linKs)....................................................................4 
Evaluasi Cluster ......................................................................................................................5 
Outlier .....................................................................................................................................5 

METODE PENELITIAN ............................................................................................................ 5 
Proses Knowledge Discovery in Database..............................................................................5 
Lingkungan Pengembangan ....................................................................................................8 
HASIL DAN PEMBAHASAN ................................................................................................... 8 
Preprocessing Data.................................................................................................................8 
Data Mining ............................................................................................................................8 
Evaluasi Pola .........................................................................................................................10 
Ukuran Cluster dan Nilai Cohesion ......................................................................................11 
Nilai Threshold dan Nilai Cohesion......................................................................................12 
Mendeteksi Outlier................................................................................................................13 
KESIMPULAN DAN SARAN ................................................................................................. 14 
Kesimpulan ...........................................................................................................................14 
Saran......................................................................................................................................14 
DAFTAR PUSTAKA ................................................................................................................ 14 

v

DAFTAR TABEL
Halaman
1 Cluster hasil algoritme ROCK untuk ukuran k = 8 dan

= 0,7 ............................................. 8 
2 Persentase dan jumlah anggota cluster algoritme ROCK untuk ukuran k = 8 dan
= 0,7 ... 9 
3 Cluster yang dihasilkan oleh algoritme QROCK pada ukuran k = 6 dan
= 0,85................. 9 
4 Persentase dan jumlah anggota cluster algoritme QROCK pada ukuran k = 6 dan
= 0,85 9 
5 Nilai cohesion dan nilai separation algoritme ROCK untuk cluster delapan dan
= 0.7 ... 10 
6 Nilai cohesion dan nilai separation algoritme QROCK untuk cluster enam dan
= 0.85 .. 11 
7 Nilai total cohesion dan ukuran cluster algoritme ROCK pada nilai threshold 0.7 ............... 11 
8 Hubungan antar nilai threshold dan nilai cohesion pada algoritme ROCK pada ukuran cluster
delapan .................................................................................................................................... 12 

DAFTAR GAMBAR
Halaman
1 Tahapan dalam KDD (Han & Kamber, 2006). ......................................................................... 2 
2 Langkah-langkah KDD dalam penelitian. ................................................................................ 6 
3 Proses algoritme (a) ROCK dan (b) QROCK........................................................................... 7 
4 Grafik nilai cohesion terhadap nilai k pada algoritme ROCK. ............................................... 11 
5 Grafik nilai cohesion terhadap nilai k pada algoritme QROCK. ............................................ 12 
6 Perbandingan nilai cohesion terhadap ukuran cluster untuk ROCK dan QROCK. ............... 12 
7 Grafik nilai threshold terhadap nilai cohesion pada algoritme ROCK................................... 13 
8 Grafik nilai threshold terhadap nilai cohesion pada algoritme QROCK................................ 13 
9 Perbandingan nilai cohesion terhadap nilai threshold untuk ROCK dan QROCK. ............... 13 

DAFTAR LAMPIRAN
Halaman
1 Keterangan anggota ................................................................................................................16
2 Struktur dari 27 atribut non numeric, 15 atribut boolean, dan tiga atribut numeric...............18
3 Nilai total cohesion untuk clustering algoritme ROCK dari setiap kombinasi ukuran k dan
nilai threshold...........................................................................................................................19
4 Nilai total cohesion untuk clustering algoritme QROCK dari setiap nilai threshold yang
dicobakan.................................................................................................................................20
5 Perbandingan hasil cluster algoritme ROCK dan QROCK pada nilai threshold
0.9.............................................................................................................................................21

vi

PENDAHULUAN
Latar Belakang
Sponge atau poriferans berasal dari bahasa
Latin yaitu porus yang artinya pori dan ferre
yang artinya memiliki. Sponge adalah hewan
berpori, pada umumnya terdapat di lautan,
yang memompa air melalui tubuhnya untuk
menyaring
partikel–partikel
sebagai
makanannya. Berdasarkan tipe spicules dari
kerangka
tubuhnya
bunga
karang
dikelompokan menjadi tiga kelas yaitu
Calcarea,
Hexactenellida,
dan
Demospongiae. Beberapa ahli taksonomi
berpendapat adanya kelas lain yaitu
Sclerospongiae. Ditemukannya kelas dan
species baru mendorong ilmuwan–ilmuwan
ahli taksonomi untuk melakukan penelitian
lebih lanjut terhadap bunga karang
berdasarkan anatomy, phisiology, geological
history, dan lineage untuk memperoleh
kemungkinan mendapatkan kelas dan species
baru.
Iosune Uriz dan Marta Domingo
melakukan riset dan pengumpulan data
terhadap bunga karang (sponge) di Lautan
Atlantik. Jenis bunga karang pada data
tersebut
adalah
O.Hadromerida
(Demospongiae. Porifera) dan berdasarkan
taksonominya termasuk kelas Demospongiae.
Salah satu tujuan riset dan pengumpulan data
tersebut adalah untuk mengetahui model
cluster berdasarkan anatomy dan phisiology
sponge. Model cluster tersebut diharapkan
dapat direpresentasikan pada klasifikasi
taksonomi sehingga dapat memprediksikan
ada atau tidaknya kemungkinan species atau
bahkan kelas baru dari data sponge tersebut.
Data mining merupakan proses ekstraksi
informasi atau pola yang penting dalam basis
data yang berukuran besar (Han & Kamber,
2006). Data mining yang diterapkan pada data
bunga karang tersebut diharapkan mampu
menggali informasi pola cluster data tersebut.
Clustering adalah proses data mining untuk
melihat pola pendistribusian data yang akan
digunakan untuk melihat karakteristik dari
data (Han & Kamber 2006). Pola yang
dihasilkan adalah pengelompokan himpunan
objek ke dalam kelas-kelas berdasarkan nilai
maksimal kemiripan data antar cluster.
Sebagian besar data bunga karang adalah
data kategorik. Algoritme ROCK dan
QROCK merupakan algoritme clustering
hirarki aglomeratif untuk data kategorik, oleh
karena itu algoritme yang digunakan adalah

algoritme ROCK dan QROCK. ROCK
(RObust Clustering using linKs) adalah
algoritme yang membangun link untuk
menggabungkan cluster-cluster-nya dan tidak
menggunakan jarak (distance) seperti pada
algoritme
clustering
pada
umumnya.
Algoritme ROCK tidak hanya menghasilkan
kualitas yang lebih baik daripada algoritme
clustering distance tetapi juga memiliki
penanganan data kategorik yang lebih baik
(Guha et al 2000). QROCK adalah perbaikan
dari algoritme ROCK karena dari segi waktu
iterasi lebih efisien dan dapat mendeteksi
outlier dari hasil proses algoritme ROCK
(M.Dutta et al. 2005).
Tujuan
Tujuan dari penelitian ini adalah :
1

2

Menerapkan teknik clustering ROCK dan
QROCK pada data kategorik dari bunga
karang.
Membandingkan kualitas cluster yang
dihasilkan oleh algoritme ROCK dan
QROCK pada data kategorik dari bunga
karang.

Ruang Lingkup
Penelitian ini dibatasi pada penggunaan
teknik clustering untuk data kategorik dengan
menggunakan algoritme ROCK dan QROCK.
Data yang digunakan adalah data bunga
karang jenis O.Hadromerida (Demospongiae.
Porifera) yang terdapat di Lautan Atlantik
hasil penelitian Iosune Uriz dan Marta
Domingo pada tahun 1993. Data dapat
diunduh
pada
situs
http://archive.ics.uci.edu/ml/dataset/Sponge.
Manfaat Penelitian
Penelitian ini diharapkan dapat bermanfaat
bagi
pihak-pihak
yang
membutuhkan
informasi tentang
penjelasan cara kerja
ROCK dan QROCK, serta perbandingan
diantara keduanya.

TINJAUAN PUSTAKA
Knowledge Discovery in Database (KDD)
Knowledge Discovery in Database (KDD)
adalah proses menentukan informasi yang
berguna serta pola-pola yang ada dalam data
(Goharian & Grossman, 2003). Informasi ini
terkandung dalam basis data yang berukuran
besar yang sebelumnya tidak diketahui dan
potensial bermanfaat (Han & Kamber, 2006).
KDD merupakan sebuah proses yang terdiri
dari serangkaian proses iterative yang terurut.
1

Data mining merupakan salah satu langkah
dalam prosess KDD. Tahapan proses KDD
dapat dilihat pada Gambar 1.

7

Presentasi pengetahuan
Penggunaan visualisasi dan teknik
representasi
untuk
menunjukan
pengetahuan hasil penggalian dari
tumpukan data kepada pengguna.

Data Mining
Data mining merupakan suatu proses
untuk menemukan pola-pola yang menarik
dari data berukuran besar yang disimpan di
basis data, data warehouse, atau sarana
penyimpanan yang lain (Han & Kamber,
2006).

Gambar 1 Tahapan dalam KDD (Han &
Kamber, 2006).

Proses data mining dapat dibedakan
menjadi dua tujuan utama yaitu (Kantardzic
2003) :
1

Descriptive data mining
Deskripsi konsep atau task-relevan data
dalam bentuk yang ringkas, informatif,
dan diskriminatif.

2

Predictive data mining
Dari hasil analisis data dibuat model untuk
dijadikan alat prediksi tren dan data yang
tidak diketahui nilainya.

Tahapan proses KDD menurut Han &
Kamber (2006) terdiri dari :
1

2

Pembersihan data
Pembersihan data dilakukan untuk
menghilangkan data yang tidak konsisten
dan mengandung noise.
Integrasi data
Proses integrasi data dilakukan untuk
menggabungkan data dari berbagai
sumber
menjadi
bentuk
sebuah
penyimpanan
data
yang
saling
berhubungan,
seperti
dalam
data
warehousing.

3

Seleksi data
Proses seleksi data mengambil data yang
relevan digunakan untuk proses analisis.

4

Tranformasi data
Proses ini mentransformasikan atau
menggabungkan data ke dalam bentuk
yang tepat untuk dilakukan proses mine
dengan cara melakukan peringkasan atau
operasi agregasi. Dalam beberapa kasus
proses tranformasi dilakukan sebelum
proses seleksi, misalnya dalam kasus data
warehouse.

5

6

Data mining
Data mining merupakan proses yang
penting, di mana metode-metode cerdas
diaplikasikan untuk mengekstrak polapola dalam data.
Evaluasi pola
Evaluasi
pola
diperlukan
untuk
mengidentifikasi beberapa pola yang
menarik
dalam
merepresentasikan
pengetahuan.

Clustering
Clustering merupakan proses dari data
mining untuk mengelompokkan kumpulan
objek ke dalam kelas-kelas atau cluster
sehingga objek-objek dalam satu cluster
memiliki kemiripan yang tinggi tetapi tidak
mirip terhadap objek dari cluster lain (Han &
Kamber, 2006). Ukuran kemiripan dan
ketidakmiripan dinilai berdasarkan nilai
atribut yang mendeskripsikan objek. Metode
yang umum digunakan dalam clustering dapat
diklasifikasikan sebagai berikut (Han &
Kamber, 2006) :
1

Metode partisi
Metode yang membangun berbagai partisi
(bagian)
kemudian
mengevaluasinya
dengan beberapa kriteria. Metode ini akan
memindahkan objek dari satu kelompok
ke kelompok lain.

2

Metode hirarki
Metode yang membangun dekomposisi
hirarki dari himpunan data (objek)
menggunakan beberapa kriteria.

3

Metode berdasarkan kepekatan
Metode
yang
berdasarkan
kepada
keterhubungan diantara objek dan fungsi
kepadatan.

2

4

5

Metode berdasarkan grid
Metode yang berdasarkan kepada struktur
multiple level granularity.
Metode berdasarkan model
Metode yang menjadikan sebuah model
merupakan patokan bagi setiap cluster
mendapatkan model yang tepat terhadap
suatu data dengan model yang diberikan.

Agglomerative Hirarchical Clustering
Agglomerative hirarchical clustering
adalah metode clustering hirarki yang pada
langkah awal menganggap masing-masing
objek adalah cluster, cluster digabungkan
pada coarser partition atau partisi yang lebih
kasar dan proses penggabungan tersebut
berlangsung sampai trivial partition terbentuk
yaitu ketika semua objek berada pada satu
cluster (Kantardzic 2003).
Sebagian besar algoritme agglomerative
hirarchical clustering terdiri dari algoritme
single link atau algoritme complete link. Pada
single link method jarak antara dua cluster
adalah minimum jarak antardua objek dari dua
cluster (minimum jarak antardua cluster).
Sedangkan complete link method
jarak
antardua cluster adalah maksimum jarak
antara dua objek dari dua cluster (maksimum
jarak antardua cluster) (Kantardzic 2003).

ROCK (RObust Clustering using linKs)
ROCK adalah algoritme clustering hirarki
aglomeratif untuk mengelompokkan data
kategorik (Guha et al. 2000).
ROCK merupakan algoritme yang
membangun link untuk menggabungkan
cluster-cluster-nya dan tidak menggunakan
distance seperti algoritme clustering pada
umumnya (Guha et al. 2000). Link antar dua
tuple pada ROCK adalah nilai common
neighbor yang mereka miliki dari data set.
Common neighbor yaitu jumlah tetangga yang
sama diantara dua objek data. Algoritme
ROCK akan berhenti ketika (M.Dutta et al.
2005) :
1

Jumlah dari cluster yang diharapkan sudah
terpenuhi,

2

Tidak ada lagi link antar cluster-clusternya.

Langkah-langkah dalam algoritme ROCK
yaitu (M.Dutta et al. 2005) :
1

Menentukan inisialisasi untuk masingmasing data poin sebagai cluster pada
awalnya.

2

Menghitung
similaritas
antarcluster
dengan
cluster
lainnya
dengan
menggunakan persamaan :

Data Kategorik

...(1)

Data kategorik yaitu data non-numeric
(symbolic) yang variabelnya memiliki dua
relasi. Contoh dari data kategorik seperti
warna
mata,
jenis
kelamin,
dan
kewarganegaraan
(Kantardzic
2003).
Biasanya data kategorik adalah data hasil
pengamatan. Data numerik adalah data metric
atau data yang merupakan hasil pengukuran.

dan

akan dihitung similaritasnya, k merupakan
nomor atribut dan | | adalah jumlah
kandidat atribut ke k. Penjumlahan satu
perjumlah kandidat atribut dilakukuan
untuk atribut yang bukan anggota atribut
irisan
dan .

Data kategorik diklasifikasikan menjadi
dua yaitu :
1. Data nominal yaitu data kategorik yang tak
dapat dinyatakan bahwa kategori yang satu
lebih baik dari kategori lainnya. Contoh
dari data nominal yaitu pria–wanita, ungu–
biru.
2. Kategorik ordinal, yaitu data kategorik
yang mempunyai urutan tertentu namun
jarak antar kategori sulit untuk dinyatakan
sama. Contoh dari data ordinal yaitu
keadaan baik, sedang, dan buruk.

adalah pasangan cluster yang

3

Mencari nilai nbrlist antarcluster dengan
cluster lainnya. Nbrlist yaitu matrik nilai
tetangga yang didapat dari threshold yang
antara 0 dan
diberikan (nilai threshold
1). Suatu objek dan bertetangga jika
...(2)

4

Menghitung link
cluster lainnya.

antarcluster dengan
antar objek

diperoleh
neighbor

jumlah
Jika

dari
dan .

common

3

bernilai besar maka kemungkinan besar
dan berada pada cluster yang sama.
5

Menentukan local heap. Local heap yaitu
nilai goodness measure untuk setiap
cluster dengan cluster lainnya jika link
0. Goodness measure yaitu persamaan
yang menghitung jumlah link dibagi
dengan kemungkinan link yang akan
terbentuk dilihat dari ukuran cluster-nya.
Persamaan untuk mencari goodness
measure :

cluster akhir algoritme ROCK ketika ROCK
sudah tidak memiliki link antar cluster-nya
(M.Dutta, et al. 2005). QROCK tidak lagi
menggunakan link untuk menggabungkan
cluster-cluster-nya
tetapi
menggunakan
primitif tipe data abstrak MFSET. MFSET
(Merge Find Set) atau disjoint set adalah suatu
struktur data yang menggunakan dua operasi
yaitu :
1

Find: menentukan himpunan yang berisi
elemen
khusus.
Digunakan
untuk
menentukan dua elemen yang berada pada
himpunan yang sama.

2

Merge: menggabungkan dua himpunan
menjadi satu himpunan.

...(3)
adalah

jumlah

common
adalah

MFSET yang digunakan pada QROCK
yaitu (M.Dutta et al. 2005 ):

jumlah anggota cluster i dan

adalah

1

jumlah anggota
persamaan :

dengan

Merge (A,B) : menggabungkan komponen
A dan B.

2

Find (x) : mencari komponen yang salah
satu anggota dari komponen tersebut
adalah x.

3

Initial (x) : membuat komponen yang
hanya berisi elemen x.

neighbor

dari

dan

cluster

,

j,

...(4)
6

Menentukan global heap. Global heap
yaitu nilai maksimum goodness measure
antar kolom di baris ke i.

7

Ulangi langkah 5 dan 6 hingga mendapat
kan nilai maksimum di global heap dan
local heap.

Langkah-langkah
dalam
algoritme
QROCK yaitu (M.Dutta et al. 2005 ) :
1

Menentukan inisialisasi untuk masingmasing data poin sebagai cluster pada
awalnya.

2

Menghitung similaritas antar
dengan
cluster
lainnya
menggunakan persamaan (1).

3

Mencari nilai nbrlist antar cluster dengan
cluster lainnya.

4

Inisialisasi MFSET yang terdiri dari
count, first element, set name, next
element.

5

Inisialisasi elemen x adalah anggota
himpunan data.

Time complexity pada saat worst case
dengan
yaitu

6

Inisialisasi elemen y adalah semua nilai
nbrlist x = 1.

n adalah jumlah data,

7

Find nilai A sebagai first element nilai x.

8

Find nilai B sebagai first element nilai y.

neighbor.

9

Jika nilai A
B maka merge A dan B,
selainnya passed.

QROCK (Quick RObust Clustering using
linKs)

10 Ulangi langkah 5 dan 6 selama y berada
dalam nbrlist.

8

9

Selama ukuran data > k, dengan k adalah
jumlah kelas yang ditentukan lakukan
penggabungan cluster yang memiliki nilai
local heap terbesar dengan global heap
terbesar menjadi satu cluster, tambahkan
link antar cluster yang digabungkan, hapus
cluster yang digabungkan dari local heap
dan update global heap dengan nilai hasil
penggabungan.
Lakukan langkah 8 hingga menemukan
jumlah cluster yang diharapkan (k) atau
cluster akan dibangkitkan secara otomatis
ketika tidak ada lagi link antar clusternya.

neighbor, dan

maksimum jumlah

nilai rata-rata jumlah

cluster
dengan

QROCK adalah algoritme yang memiliki
metode yang lebih efisien untuk menghasilkan
4

Time complexity dari algoritme QROCK
yaitu

.

Evaluasi Cluster
Cluster validation adalah kemampuan
untuk mendeteksi ada atau tidaknya suatu
stuktur tidak acak dalam data. Beberapa aspek
penting dalam cluster validation yaitu (Tan et
al. 2006) :
1

..(5)

Menentukan clustering tendency dari
data.
Clustering
tendency
yaitu
kecenderungan sifat dari suatu cluster.

Demikian juga dengan separation antar
dua cluster dapat dihitung dari jumlah bobot
link suatu objek data dalam suatu cluster ke
objek data di cluster lain dengan persamaan :
...(6)

2

Menentukan jumlah cluster yang tepat.

3

Mengevaluasi seberapa baik hasil analisis
cluster
tanpa
diberikan
informasi
eksternal.

4

Membandingkan hasil analisis cluster
terhadap hasil eksternal yang diketahui,
misalnya label kelas eksternal.

Fungsi proximity dapat berupa similarity,
dissimilarity atau fungsi kuantitas lainnya.
Dikarenakan fungsi kuantitas dari algoritme
ROCK dan QROCK adalah fungsi goodness
pada persamaan (3) maka persamaan yang
digunakan untuk menghitung nilai evaluasi
cluster-nya adalah persamaan goodness
measure dibagi m yaitu cluster yang
terbentuk. Persamaan cohesion dan separation
tersebut yaitu :

5

Membandingkan dua himpunan cluster
untuk menentukan yang lebih baik.

...(7)

Pada aspek satu, dua dan tiga tidak
diperlukan
informasi
eksternal
yang
merupakan teknik unsupervised, sedangkan
aspek
empat
membutuhkan
informasi
eksternal. Aspek empat termasuk teknik
supervised. Aspek lima dapat dilakukan pada
teknik
supervised
atau
unsupervised.
Perhitungan evaluasi dapat digolongkan
menjadi tiga jenis yaitu (Tan et al. 2006) :
1

2

3

Unsupervised. Mengukur goodness dari
struktur clustering tanpa informasi
eksternal. Besaran unsupervised dibagi
dua yaitu : cluster cohesion (seberapa
dekat suatu objek dalam suatu cluster)
dan cluster separation atau isolation
(perbedaan atau seberapa jauh suatu
cluster dengan cluster lainnya).
Supervised.
Mengukur
kecocokan
struktur clustering dengan struktur
eksternal.
Relative. Membandingkan clustering
yang beda. Besaran evaluasi cluster
relative merupakan teknik unsupervised
atau supervised yang digunakan untuk
perbandingan.

Algoritme
ROCK
dan
QROCK
merupakan teknik unsupervised dan graphbase sehingga cohesion didapatkan dengan
menjumlahkan bobot link dari proximity graf
yang terhubungkan pada cluster dengan
persamaan (Tan et al. 2006) :

...(8)
Dengan

sama dengan persamaan (4).

Semakin tinggi nilai total cohesion dan
semakin minimum nilai separation maka
semakin baik suatu cluster terhadap yang
lainnya. Karena fungsi yang digunakan adalah
fungsi goodness measure yang semakin besar
nilai goodness-nya maka semakin dekat suatu
objek cluster dengan objek lainnya.
Outlier
Outlier menurut ilmu statistik adalah data
yang terdapat di atas batas atas atau di bawah
batas bawah rentangan data (Huntsbergen
1987).
Outlier adalah data yang tidak mengikuti
tingkahlaku umum sebagian besar data,
perbedaan yang penting atau sesuatu yang
tidak konsisten dalam himpunan data
(Kantardzic 2003).

METODE PENELITIAN
Proses Knowledge Discovery in Database
Penelitian ini akan dianalisis dengan
menggunakan langkah-langkah Knowledge
Discovery in Database (KDD) (Han &
Kamber, 2006) dengan tahapan seperti pada
Gambar 2.
5

objek diperoleh dari jumlah common
neighbor dan
.

Gambar 2 Langkah-langkah KDD dalam
penelitian.
1 Preprocessing data
Praproses data meliputi pembersihan data,
integrasi
data,
seleksi
data,
dan
transformasi data.
2 Data mining
Dalam penelitian ini digunakan algoritme
ROCK dan QROCK. Algoritme ROCK
dan
QROCK
digunakan
untuk
mengelompokan data bunga karang
(sponge) sehingga didapatkan pola-pola
cluster bunga karang jenis O.Hadromerida
(Demospongiae. Porifera) berdasarkan
anatomi dan fisiologinya. Perbandingan
langkah-langkah algoritme ROCK dan
QROCK digambarkan pada Gambar 3.
Penjelasan dari tahapan algoritme ROCK
yaitu :
1 Menentukan
inisialisasi
untuk
masing-masing data poin sebagai
cluster pada awalnya.

5

Mengitung nilai goodness measure
untuk setiap cluster dengan cluster
lainnya jika link
0 yang disebut
local heap.

6

Memilih nilai maksimum goodness
measure antar kolom di baris ke i
yang disebut global heap.

7

Ulangi langkah 5 dan 6 hingga
mendapatkan nilai maksimum di
global heap dan local heap.

8

Selama ukuran data > k, dengan k
adalah jumlah kelas yang ditentukan
lakukan penggabungan cluster yang
memiliki nilai local heap terbesar
dengan global heap terbesar menjadi
satu cluster, tambahkan link antar
cluster yang digabungkan, hapus
cluster yang digabungkan dari local
heap dan update nilai global heap
dengan nilai hasil penggabungan.

9

Lakukan
langkah
8
hingga
menemukan jumlah cluster yang
diharapkan atau tidak ada lagi link
antar clusternya.

Langkah-langkah dari algoritme QROCK
tersebut yaitu :
1 Menentukan
inisialisasi
untuk
masing-masing data poin sebagai
cluster pada awalnya.
2 Menghitung similaritas antarcluster
dengan cluster lainnya.
3 Mencari nilai nbrlist antar cluster
dengan cluster lainnya.
4 Inisialisasi MFSET yang terdiri dari
count, first element, set name, next
element.
5 Inisialisasi elemen x adalah anggota
himpunan data.
6 Inisialisasi elemen y adalah semua
nilai nbrlist x = 1.

2

Menghitung similaritas antar cluster
dengan cluster lainnya

7 Find nilai A sebagai first element
nilai x.

3

Mencari nilai nbrlist antar cluster
dengan cluster lainnya.

8 Find nilai B sebagai first element
nilai y.

4

Menghitung link antar cluster dengan
cluster lainnya.
antar

9 Jika nilai A B maka merge A dan
B, selainnya passed.

6

Gambar 3 Proses algoritme (a) ROCK dan (b) QROCK.
10 Ulangi langkah 5 dan 6 selama y
berada dalam nbrlist.
3 Evaluasi pola
Pada tahap ini dipergunakan persamaan (7)
untuk menghitung cohesion dan persamaan
(8) untuk menghitung separation.

4 Presentasi pengetahuan
Tahap presentasi pengetahuan adalah tahap
akhir.
Dalam
tahap
ini
akan
dipresentasikan hasil dari perhitungan
tahap kedua dan ketiga dalam bentuk tabel
hasil clustering.

7

Setelah dilakukan analisis clustering maka
algoritme tersebut akan dibandingkan
berdasarkan cluster yang terbentuk dari hasil
analisis cluster-nya. Hasil perbandingan
diharapkan dapat membuktikan bahwa
algoritme QROCK lebih baik dari ROCK.

tersebut merupakan hasil pengamatan
yang didiskretkan sehingga dapat
dijadikan kategori. Oleh karena
semua atribut yang ada berhubungan
dengan struktur anatomi dan fisiologi
dari bunga karang maka semua
atribut digunakan dalam proses data
mining. Atribut yang digunakan
dapat dilihat pada Lampiran 2.

Lingkungan Pengembangan
Aplikasi
ini
dibangun
dengan
menggunakan perangkat keras dan lunak
dengan spesifikasi sebagai berikut :
Perangkat keras :
• Processor Intel Pentium 4
• RAM 512 MB DDR 1
• HDD 80 GB
• Monitor 14”
• Mouse dan keyboard
Perangkat lunak :
• Sistem operasi Windows XP SP 2
• Bahasa Pemrograman Matlab 7
• Microsoft Excel 2007
HASIL DAN PEMBAHASAN
Preprocessing Data
Data yang digunakan pada penelitian ini
adalah data bunga karang atau sponge jenis
O.Hadromerida (Demospongiae. Porifera)
yang terdapat di Lautan Atlantik. Data
diperoleh dari hasil penelitian Iosune Uriz dan
Marta Domingo pada tahun 1993. Data ini
memiliki 76 record dan 45 atribut. Format
awal data adalah format txt.
Tahap praproses data dilakukan terhadap
data bunga karang meliputi:
1

Data selection
Pada proses ini dilakukan dua tahapan :
a

b

Seleksi record. Dari 76 record data
terdapat 22 missing data pada atribut
ke 39, oleh karena itu diperlukan
pemilihan record yang sesuai
sehingga data yang hilang tidak
mempengaruhi hasil. Pada penelitian
ini seleksi record dilakukan dengan
cara membuang 22 record missing
data, sehingga dihasilkan 54 record
data. Data sponge tersebut dapat
dilihat pada Lampiran 1.
Seleksi atribut. Dalam data yang
digunakan terdapat 45 atribut yang
terdiri dari 27 atribut non-numerik,
15 atribut boolean, dan tiga atribut
numeric. Karena tiga atribut numeric
dalam bentuk bilangan diskret maka
diasumsikan bahwa nilai dari atribut

2

Data transformation
Pada tahapan proses ini dilakukan
tranformasi data dari format .txt ke format
.xls agar dapat diproses dengan mudah
oleh MATLAB. Kemudian dilakukan
inisialisasi untuk setiap data kedalam
bentuk integer untuk mempermudah
proses perhitungan similaritas.

Data Mining
Pada tahap ini dilakukan clustering
menggunakan langkah-langkah dari algoritme
ROCK dan QROCK. Pada langkah pertama
akan
dilakukan
proses
clustering
menggunakan algoritme ROCK. Percobaan
clustering dilakukan untuk ukuran cluster dua
sampai 13 (k = 2…13). Untuk masing–masing
ukuran cluster dilakukan percobaan dengan
nilai threshold diambil pada selang 0 sampai 1
(0:0.1:1). Cluster hasil ditentukan sedemikian
sehingga cluster hasil memiliki nilai cohesion
yang tinggi dan telah merepresentasikan pola
anatomi dari sponge.
Cluster yang dihasilkan oleh algoritme
ROCK berjumlah tujuh cluster dengan nilai
threshold 0.6. Hasil algortme ROCK tersebut
disajikan pada Tabel 1.
Tabel 1 Cluster hasil algoritme ROCK untuk
= 0,6
ukuran k = 7 dan
Cluster
1

Anggota
[16 20 21 28 34 52]

2

[1 8 25 26 35 38 44 54]

3

[9 22 23 24 32 39 40 41]

4

[4 29 31 36 37 45 49 50]

5

[2 3 5 7 30 42 43 48]

6

[10 13 14 18 19 27 33 53]

7

[6 11 12 15 17 46 47 51]

Persentase dan jumlah anggota masingmasing cluster algoritme ROCK dengan
ukuran k = 7 dan threshold = 0,6 disajikan
dalam Tabel 2 .

8

Tabel 2 Persentase dan jumlah anggota cluster
algoritme ROCK untuk ukuran k = 7
= 0,6
dan

1

Jumlah
anggota
6

2

8

15

3

8

15

4

8

15

5

8

15

6

8

15

7

8

15

Cluster

Persentase (%)
11

Pola anatomi yang direpresentasikan dari
cluster hasil algoritme ROCK yaitu :
1 Anggota cluster satu merupakan sponge
yang tidak memiliki bagian dalam cortex,
tidak memiliki espicula, megasclera tipe
satu dan warnanya selain warna biru,
kuning dan orange permukaan halus.
2 Anggota cluster dua merupakan sponge
yang memiliki cortex, tidak memiliki tipe
espicula, megasclera tipe tiga, dan bentuk
lapisan permukaannya keras.
3 Cluster tiga merupakan sponge yang tidak
memiliki cortex, tidak memiliki espicula,
megasclera tipe satu, berwarna kuning dan
lapisan permukaan kasar.
4 Anggota cluster empat merupakan sponge
yang tidak memiliki cortex, tidak memiliki
espicula, megasclera tipe satu dan dua,
berwarna kuning, selain biru dan orange,
memiliki lapisan permukaan halus namun
keras.
5 Cluster lima merupakan sponge yang
memiliki cortex, memiliki espicula,
megasclera tipe tiga dan satu, warnanya
selain warna biru dan orange, bentuk
lapisan permukaannya
beragam
dan
keras.
6 Cluster enam merupakan sponge yang
tidak memiliki cortex, tidak memiliki
espicula, megasclera tipe satu, dua, dan
tiga, berwarna kuning, selain biru dan
orange, memiliki lapisan permukaan halus
dan kasar serta keras.
7 Cluster tujuh merupakan sponge yang
memiliki cortex, tidak memiliki espicula
dan memiliki espicula, megasclera tipe
satu, dua, dan tiga, berwarna kuning,

selain biru dan orange,
permukaan yang keras.

memiliki

Pada percobaan untuk algoritme QROCK
tidak diperlukan penentuan ukuran cluster
karena ukuran cluster akan dibangkitkan
otomatis oleh algoritme QROCK. Pada
algoritme ini hanya diperlukan masukan data
dan nilai threshold.
Nilai threshold pada percobaan ini diambil
pada selang 0 sampai dengan 1 (0:0.05:1).
Percobaan clustering dilakukan dengan
memasukan nilai threshold yang bervariasi
hingga menghasilkan cluster yang memiliki
nilai cohesion yang tinggi dan telah
merepresentasikan pola anatomi dari sponge.
Cluster yang dihasilkan oleh algoritme
QROCK berjumlah enam cluster dengan nilai
threshold 0.85. Hasil algoritme QROCK
tersebut disajikan pada Tabel 3.
Tabel

3 Cluster yang dihasilkan oleh
algoritme QROCK pada ukuran k = 6
dan
= 0,85

Cluster
1

Anggota

5

[1]
[2 3 4 5 6 7 8 9 22 23 24 25 26
29 30 31 32 36 37 39 40 41 44
45 48 49 50 51]
[10]
[11 12 13 14 15 16 17 18 19 20
21 27 28 33 34 35 38 52 53 54]
[42 43]

6

[46 47]

2
3
4

Persentase dan jumlah anggota masingmasing cluster algoritme
QROCK pada
ukuran k = 6 dan threshold = 0,85 disajikan
dalam Tabel 4.
Tabel 4 Persentase dan jumlah anggota cluster
algoritme QROCK pada ukuran k = 6
dan
= 0,85

1

Jumlah
anggota
1

2

28

52

3

1

2

4

20

37

5

2

4

6

2

4

Cluster

Persentase (%)
2

9

Pola anatomi yang direpresentasikan dari
cluster hasil algoritme QROCK yaitu :

(8). Nilai total cohesion untuk clustering
algoritme ROCK disajikan pada Lampiran 3.

1 Anggota cluster satu merupakan sponge
yang memiliki cortex, tidak ada espicula,
megasclera tipe satu, warna selain kuning,
biru dan orange, permukaannya kasar.

Pada algoritme ROCK pola anatomi
sponge dapat direpresentasikan setelah
ukuran cluster tujuh. Pada tabel di Lampiran
3 dapat terlihat bahwa untuk ukuran cluster
tujuh dengan nilai cohesion yang paling tinggi
terdapat pada nilai threshold 0.6, maka
cluster yang dipilih untuk algoritme ROCK
= 0.6.
adalah ukuran cluster tujuh dengan

2 Cluster dua sponge yang memiliki cortex,
megascleras tipe satu dan dua, tidak
memiliki espicula, warna kuning dan
selain biru dan orange, permukaan halus
dan keras.
3 Anggota cluster tiga sponge yang
memiliki cortex dan espicula, megasclera
tipe tiga, permukaannya halus dan
warnanya kuning.
4 Cluster empat sponge yang memiliki
cortex dan tidak memiliki espicula,
megasclera tipe tiga, warna selain kuning,
biru dan orange, permukaan halus tapi
keras.
5 Cluster lima sponge yang tidak memiliki
cortex
namun
memiliki
espicula,
megasclera tipe tiga, warna kuning,
lapisan permukaan halus dan kasar.
6 Cluster enam merupakan sponge yang
memiliki cortex dan tidak memiliki
espicula, tidak memiliki megasclera,
warna selain kuning, biru dan orange,
permukaannya berbentuk poligon besar
dan kasar.
Pada kasus algoritme ROCK yang
membutuhkan dua parameter ukuran cluster
dan nilai threshold, algoritme berhenti setelah
mendapatkan k cluster yang ditentukan maka
k >
untuk nilai threshold
. Cluster
tambahan

(|

|

buah)

tidak

lain

merupakan calon anggota cluster, namun
karena nilai k terpenuhi maka proses merge
tidak sempat dikerjakan. Selain itu, kondisi
data dalam jumlah besar dan kemungkinan
memiliki outliers sangat sulit untuk
menentukan nilai k. Algoritme QROCK lebih
mudah dan natural karena tidak harus
menentukan ukuran k dibandingkan algoritme
ROCK.
Evaluasi Pola

Nilai cohesion dan nilai separation untuk
cluster tujuh dan
= 0.6 tersebut disajikan
pada Tabel 5.
Tabel 5 Nilai cohesion dan nilai separation
algoritme ROCK untuk cluster
delapan dan
= 0.7

1

Jumlah
Anggota
6

2

8

1597

15.316

3

8

1487

14.812

4

8

1198

12.804

5

8

1071

11.622

6

8

1006

11.510

7

8

638,5595

10.676

Cluster

Cohesion

Separation

498,5351

8228

Nilai total cohesion untuk clustering dari
setiap kombinasi nilai threshold bagi
algoritme QROCK disajikan pada Lampiran
4.
Pada algoritme QROCK pola anatomi
sponge dapat direpresentasikan pada ukuran
cluster enam. Pada tabel di Lampiran 4 dapat
(threshold) =
dilihat bahwa untuk nilai
0.85 total cohesion memiliki nilai cohesion
yang tinggi dibandingkan dengan cluster
sembilan yang dihasilkan oleh nilai threshold
= 0.87, maka cluster yang dipilih untuk
algoritme QROCK adalah cluster ukuran
enam dengan
= 0.85.
Nilai cohesion dan nilai separation untuk
= 0.85 tersebut
ukuran cluster enam dan
disajikan pada Tabel 6.

Hasil clustering dari setiap kombinasi
ukuran cluster dan nilai threshold dievaluasi
menggunakan
total
cohesion
dengan
menggunakan persamaan (7) dan nilai
separation dengan menggunakan persamaan

10

Tabel 6 Nilai cohesion dan nilai separation
algoritme QROCK untuk cluster
= 0.85
enam dan
Cluster

Jumlah
anggota

Cohesion

Separation

1

1

0

0

2
3

28
1

13946
0

0
0

4

20

1517.3

0

5

2

0

0

6

2

0

0

Semakin
besar
nilai
cohesion
(intracluster)
menunjukkan
kemiripan
(similaritas) objek-objek tersebut semakin
besar (Mali & Mitra, 1998). Semakin kecil
nilai
separation
yang
menggunakan
persamaan similaritas maka perbedaan atau
jarak suatu cluster dengan cluster lainnya
semakin besar (Tan et al. 2006). Dengan
demikian suatu cluster dikatakan baik jika
nilai cohesion lebih besar dari nilai
separation-nya.

Tabel 7 Nilai total cohesion dan ukuran
cluster algoritme ROCK pada nilai
threshold 0.6
Cluster

Threshold
0.6

2

12626.5

3

5794.67

4

3485.75

5

2436

6

1546

7

1071.14

8

904.625

9

743.78

10

609.2

11

492.09

12

360.08

13

262.07

Berdasarkan Tabel 7 dapat dilihat grafik
nilai k terhadap nilai total cohesion pada
Gambar 4.

Dari Tabel 5 dapat dilihat bahwa algoritme
ROCK memiliki nilai total cohesion 7.498,6
dan nilai separation 84.969. Nilai separation
lebih besar dibandingkan nilai cohesion-nya.
Sedangkan dari Tabel 6 terlihat bahwa
algoritme QROCK memili ki nilai cohesion
15.463,3 dan nilai total separation 0. Nilai
separation algoritme QROCK lebih kecil
dibandingkan nilai cohesion-nya. Dengan
demikian berdasarkan hasil penelitian ini,
cluster yang dihasilkan algoritme QROCK
lebih baik dibandingkan cluster yang
dihasilkan algoritme ROCK.
Ukuran Cluster dan Nilai Cohesion
Nilai cohesion menentukan kualitas suatu
cluster sementara ukuran cluster menentukan
nilai total cohesion. Nilai
cohesion
menentukan kualitas suatu cluster karena
dengan semakin tinggi nilai cohesion maka
semakin baik kualitas suatu cluster. Ukuran
cluster menentukan nilai total cohesion karena
semakin banyak cluster yang terbentuk maka
semakin sedikit anggota suatu cluster dan
semakin sedikit pula nilai total cohesion-nya.

Gambar 4 Grafik nilai cohesion terhadap
nilai k pada algoritme ROCK.
Nilai total cohesion dan ukuran cluster
pada algoritme QROCK dapat dilihat pada
Lampiran 4. Nilai k terhadap total cohesion
dari Lampiran 4 diplotkan pada grafik dalam
Gambar 5.

Hubungan antar ukuran cluster dan nilai
cohesion pada algoritme ROCK dapat dilihat
pada Lampiran 3. Nilai total cohesion dan
ukuran cluster pada nilai threshold 0.7 untuk
algoritme ROCK dapat dilihat pada Tabel 7.
11

kumpulan cluster sebagai sekumpulan
komponen graf L (M.Dutta et al. 2005).
adalah jumlah cluster akhir

Misalkan

graf L berdasarkan . Nilai dapat diambil
pada rentang 0 sampai dengan 1, sedemikian
konstan. Sehingga jika
sehingga nilai
maka nbrlist dari
jumlah anggota cluster

Gambar 5 Grafik nilai cohesion terhadap
nilai k pada algoritme QROCK.
Dari grafik Gambar 4 dan 5 dapat
disimpulkan bahwa semakin besar jumlah k
maka semakin kecil nilai total cohesion-nya,
hal ini disebabkan semakin banyak cluster
mengakibatkan jumlah anggota suatu cluster
semakin sedikit sehingga menyebabkan nilai
total cohesion menjadi kecil.
Perbandingan nilai cohesion terhadap
ukuran cluster antara algoritme ROCK dan
QROCK dapat dilihat pada Gambar 6.

Gambar 6 Perbandingan nilai cohesion
terhadap ukuran cluster untuk
ROCK dan QROCK.
Pada algoritme QROCK menurunnya nilai
cohesion lebih dipengaruhi oleh nilai
threshold dibandingkan oleh ukuran cluster
karena ukuran clusternya ditentukan secara
otomatis oleh algoritme QROCK berdasarkan
nilai threshold yang ditentukan.

cluster
, cluster
et al. 2005).

nbrlist

,

jumlah anggota
cluster

(M.Dutta

Hubungan antar nilai threshold dan nilai
cohesion pada algoritme ROCK dapat dilihat
pada Tabel 8.
Tabel 8 Hubungan antar nilai threshold dan
nilai cohesion pada algoritme ROCK
pada ukuran cluster tujuh
Threshold
0

Cluster 7
   226.57 

0.1

322.28

0.2

447.14

0.3

612.57

0.4

835.86

0.5

1021.29

0.6

1071.14

0.7

1070.7

0.8

885.71

0.9

252.74

1

226.57 

Berdasarkan Tabel 8 dapat digambarkan
grafik hubungan nilai threshold terhadap nilai
total cohesion pada Gambar 7.

Nilai Threshold dan Nilai Cohesion
Nilai threshold pada algoritme ROCK
menentukan kepadatan dari graf L (graf yang
dibangkitkan oleh algoritme ROCK), sehingga
menentukan hasil akhir algoritme ROCK.
Pada saat nilai k tidak diberikan, algoritme
ROCK akan berhenti secara otomatis dengan

12

Gambar 7 Grafik nilai threshold terhadap
nilai cohesion pada algoritme
ROCK.
Pada algoritme QROCK, cluster akhir
hanya ditentukan oleh nilai threshold sehingga
proses algoritme dapat berhenti secara natural
(M.Dutta et al 2005). Nilai total cohesion dan
ukuran cluster pada algoritme QROCK dapat
dilihat pada Lampiran 4. Nilai k terhadap total
cohesion dari Lampiran 4 digambarkan pada
grafik dalam Gambar 8.

Gambar 9 Perbandingan nilai cohesion
terhadap nilai threshold untuk
ROCK dan QROCK.
Mendeteksi Outlier
Algoritme ROCK akan berhenti ketika :
jumlah cluster yang diharapkan terpenuhi atau
tidak ada lagi link diantara cluster-cluster-nya.
Pada suatu kasus algoritme ROCK berhenti
ketika tidak ada lagi link antar cluster-nya
dikarenakan sudah tidak memiliki link yang
tidak nol antara merek

Perbandingan Algoritme Clustering ROCK dan QROCK untuk Data Kategorik

Dokumen yang terkait

Clustering data kategorik menggunakan algoritma K-histogram (studi kasus: data PPMB IPB)

Perbandingan Metode Cluster Validity pada Jenis Data Numerik dan Kategorik

Bab XVII: Analisis Data Kategorik.

Perbandingan Quantum Clustering dan Support Vector Clustering untuk Data Microarray Expression Yeast Cell dalam Ruang Singular Value Decomposition (SVD)

ANALISIS BIVARIAT DATA KATEGORIK DAN NUM

ANALISIS DATA KATEGORIK PADA DATA KESEHA

ANALISIS DATA SECARA DESKRIPTIF UNTUK DATA KATEGORIK

Perbandingan Algoritme K-Means Dengan Algoritme Fuzzy C Means (FCM) Dalam Clustering Moda Transportasi Berbasis GPS

Algoritme Genetika Untuk Optimasi K-Means Clustering Dalam Pengelompokan Data Tsunami

METODE ENSEMBEL ROCK DAN SWFM UNTUK PENGELOMPOKAN DATA CAMPURAN NUMERIK DAN KATEGORIK PADA KASUS AKSESI JERUK

Dukungan

Links

Perbandingan Algoritme Clustering ROCK dan QROCK untuk Data Kategorik

Dokumen yang terkait

Clustering data kategorik menggunakan algoritma K-histogram (studi kasus: data PPMB IPB)

Perbandingan Metode Cluster Validity pada Jenis Data Numerik dan Kategorik

Bab XVII: Analisis Data Kategorik.

Perbandingan Quantum Clustering dan Support Vector Clustering untuk Data Microarray Expression Yeast Cell dalam Ruang Singular Value Decomposition (SVD)

ANALISIS BIVARIAT DATA KATEGORIK DAN NUM

ANALISIS DATA KATEGORIK PADA DATA KESEHA

ANALISIS DATA SECARA DESKRIPTIF UNTUK DATA KATEGORIK

Perbandingan Algoritme K-Means Dengan Algoritme Fuzzy C Means (FCM) Dalam Clustering Moda Transportasi Berbasis GPS

Algoritme Genetika Untuk Optimasi K-Means Clustering Dalam Pengelompokan Data Tsunami

METODE ENSEMBEL ROCK DAN SWFM UNTUK PENGELOMPOKAN DATA CAMPURAN NUMERIK DAN KATEGORIK PADA KASUS AKSESI JERUK

Dokumen yang Anda mencari sudah siap untuk unduhkan