Perbandingan Metode Cluster Validity pada Jenis Data Numerik dan Kategorik

PERBANDINGAN METODE CLUSTER VALIDITY PADA
JENIS DATA NUMERIK DAN KATEGORIK

RETNO DEWANTI

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Perbandingan Metode
Cluster Validity pada Jenis Data Numerik dan Kategorik adalah benar karya saya
dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun
kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip
dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, September 2013
Retno Dewanti
NIM G64090024

ABSTRAK
RETNO DEWANTI. Perbandingan Metode Cluster Validity pada Jenis Data
Numerik dan Kategorik. Dibimbing oleh ANNISA.

Clustering merupakan salah satu metode yang penting untuk dapat
mengetahui kemiripan dari himpunan objek. Berdasarkan kemiripan ciri tersebut,
maka akan terbentuk kelas-kelas dan mendapatkan pola dari kumpulan data yang
tidak berlabel. Cluster yang dihasilkan belum dapat dipastikan kebenarannya jika
belum dianalisis serta diuji dengan menggunakan metode validitas cluster.
Penelitian ini mengimplementasikan algoritme clustering k-means untuk
mengelompokan tiga jenis data yaitu numerik, kategorik, dan numerik dan
kategorik. Ketiga data tersebut akan divalidasi menggunakan metode validitas
cluster indeks Dunn, Hubert’s statistic, dan koefisien silhouette. Hasil ketiga
metode tersebut akan dibandingkan berdasarkan tiga jenis data yang digunakan.
Berdasarkan hasil penelitian didapatkan bahwa jenis data yang digunakan akan

berpengaruh terhadap algoritme validasi cluster yang digunakan. Hasil pengujian
ini menunjukkan bahwa metode Hubert’s statistic yang dapat digunakan pada tiga
jenis data tersebut. Penelitian dengan melibatkan jumlah data yang lebih banyak
masih diperlukan untuk dapat menyimpulkan algoritme validasi yang paling
sesuai untuk data numerik, kategorik, atau gabungan keduanya.
Kata kunci: clustering, validitas cluster, Dunn indeks, Hubert’s statistic, koefisien
silhouette
ABSTRACT
RETNO DEWANTI. Comparison of Cluster Validity Methods in Numerical and
Categorical Data. Supervised by ANNISA.

Clustering is one of the important methods to determine the similarity of the
objects set. Based on the similarity of these characteristics, it will form classes and
get a pattern from a collection of unlabeled data. The resulting clusters cannot be
ascertained if the accuracy has not been analyzed and tested using the method of
cluster validity. This study implements the k-means clustering algorithm to
classify three types of data: numerical, categorical, and a combination of
numerical and categorical. The three data will be validated using the cluster
validity methods: Dunn index, Hubert's statistic, and silhouette coefficient.
Results of the three methods will be compared based on the three types of data

used. Based on the result of the study, the data type used influences the cluster
validation algorithm. The test result showed that Hubert's statistic can be used in
the three types of data. Research involving bigger sized data is still needed to be
able to conclude the most appropriate algorithm for the validation of numerical
data, categorical, or a combination of both.
Keywords: clustering, cluster validity, index Dunn, Hubert’s statistic, silhouette
coefficient

PERBANDINGAN METODE CLUSTER VALIDITY PADA
JENIS DATA NUMERIK DAN KATEGORIK

RETNO DEWANTI

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Ilmu Komputer pada
Departemen Matematika dan Ilmu Pengetahuan Alam

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR
BOGOR
2013

Penguji:
1 Dr Imas S Sitanggang, SKom MKom
2 Hari Agung Adrianto, SKom MSi

Judul Skripsi : Perbandingan Metode Cluster Validity pada Jenis Data Numerik
dan Kategorik
Nama
: Retno Dewanti
NIM
: G64090024

Disetujui oleh

Annisa, SKom MKom
Pembimbing


Diketahui oleh

Dr Ir Agus Buono, MSi MKom
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir
yang berjudul Perbandingan Metode Cluster Validity pada Jenis Data Numerik
dan Kategorik. Penulis mengucapkan terima kasih kepada Ibu Annisa, SKom
MKom selaku pembimbing yang dengan sabar membimbing dan memberikan
saran kepada penulis. Terima kasih juga penulis sampaikan kepada Ibu Dr Imas S.
Sitanggang, SKom MKom dan Bapak Hari Agung Adrianto, SKom MSi selaku
penguji yang telah memberikan saran dan perbaikan terhadap tugas akhir ini.
Terima kasih kepada kedua orang tua, Bapak Wartoyo dan Ibu Surati yang
hingga saat ini selalu memberikan dukungan, semangat, dan doa. Begitu juga
dengan ketiga kakak penulis, Mbak Tanti, Mas Toto, dan Mbak yang memacu
semangat bagi penulis serta memberikan dukungan.

Terima kasih juga penulis ucapkan kepada semua pihak yang telah
membantu menyelesaikan tugas akhir ini, antara lain:
1 Teman-teman satu bimbingan: Lizza, Silviani, Intan, Anggi, kak Ulfa, dan kak
Norma atas bantuan dan motivasi yang diberikan.
2 Husnul dan Piput atas kesabaran untuk ditanyai serta membantu dan
mengajarkan penulis dalam proses menyelesaikan tugas akhir.
3 Rekan-rekan Mahasiswa Departemen Ilmu Komputer angkatan 46 atas segala
bantuan selama menjalani masa studi.
4 Teman-teman kost Aulia: Lena, Sevira, Hanifah, Intan, Alin, Silvi, Elin,
Asilah, Siti atas dukungan dan motivasi yang diberikan.
5 Seluruh staf dan karyawan Departemen Ilmu Komputer, serta pihak lain yang
telah membantu dalam menyelesaikan penelitian ini.
Penulis menyadari bahwa pelaksanaan penelitian ini masih jauh dari
sempurna karena keterbatasan pengalaman dan pengetahuan yang dimiliki
penulis. Namun, besar harapan penulis bahwa yang telah dikerjakan dapat
memberikan manfaat bagi seluruh pihak.
Bogor, September 2013
Retno Dewanti

DAFTAR ISI

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

PENDAHULUAN

1

Latar Belakang

1

Perumusan Masalah

2


Tujuan Penelitian

2

Manfaat Penelitian

2

Ruang Lingkup Penelitian

2

METODE

3

Data

3


Praproses Data

4

Clustering

4

Validitas Cluster

4

Perbandingan Hasil Validitas

6

Analisis Hasil Perbandingan

6


Lingkungan Implementasi

6

HASIL DAN PEMBAHASAN

7

Data

7

Praproses Data

7

Clustering

9


Tiga Metode Validitas Cluster

9

Perbandingan Hasil Validitas Cluster
SIMPULAN DAN SARAN

11
14

Simpulan

14

Saran

14

DAFTAR PUSTAKA

14

LAMPIRAN

16

RIWAYAT HIDUP

32

DAFTAR GAMBAR
1
2
3
4
5
6
7
8
9
10
11
12
13

Diagram alir metodologi penelitian
Atribut data numerik sebelum pemilihan atribut yang relevan
Atribut data numerik setelah pemilihan atribut yang relevan
Atribut data kategorik sebelum pemilihan atribut yang relevan
Atribut data kategorik setelah pemilihan atribut yang relevan
Atribut data numerik dan kategorik sebelum pemilihan atribut yang
relevan
Atribut data numerik dan kategorik setelah pemilihan atribut yang
relevan
Grafik hasil clustering data numerik
Grafik hasil clustering data kategorik
Grafik hasil clustering data numerik dan kategorik
Grafik hasil validasi data numerik
Grafik hasil validasi data kategorik
Grafik hasil validasi data numerik dan kategorik

3
8
8
8
8
9
9
10
10
10
11
12
13

DAFTAR LAMPIRAN
1
2
3
4
5
6
7
8
9
10
11
12

Contoh data numerik
Contoh data kategorik
Contoh data numerik dan kategorik
Langkah perhitungan min-max normalization
Transformasi data kategorik menjadi biner
Hasil validasi cluster
Koding indeks Dunn
Langkah perhitungan indeks Dunn
Koding Hubert’s statistic
Langkah perhitungan Hubert’s statistic
Koding koefisien silhouette
Langkah perhitungan koefisien silhouette

16
18
20
22
23
24
25
26
27
28
30
31

PENDAHULUAN
Latar Belakang
Clustering merupakan salah satu metode penting untuk dapat mengetahui
kemiripan dari himpunan objek. Berdasarkan kemiripan ciri tersebut, maka akan
terbentuk kelas-kelas dan mendapatkan pola dari kumpulan data yang tidak
berlabel. Cluster yang dihasilkan belum dapat dipastikan kebenarannya jika belum
dianalisis serta diuji. Kebaikan atau kebenaran dari suatu cluster tergantung dari
setiap individu dalam melihatnya. Perkiraan setiap individu akan berbeda dalam
merepresentasikan hasil clustering, sehingga cluster perlu untuk diuji. Analisis
cluster sangat penting dilakukan pada hasil clustering untuk menguji kebenaran
cluster tersebut. Salah satu masalah yang paling penting dalam analisis cluster
adalah evaluasi hasil pengelompokan untuk menemukan partisi yang paling sesuai
dengan data dasar. Hal ini merupakan subjek utama dari validitas cluster. Jika
cluster tidak divalidasi, maka akan berpengaruh pada hasil analisis yang kurang
baik dari cluster tersebut. Validitas cluster dilakukan untuk membandingkan
algoritme clustering, untuk membandingkan dua set cluster, serta membandingkan
dua hasil clustering untuk menentukan yang lebih baik.
Prosedur mengevaluasi hasil dari suatu algoritma clustering dikenal dengan
istilah validitas cluster. Secara umum, ada tiga pendekatan untuk menyelidiki
validitas cluster. Pendekatan pertama didasarkan pada kriteria eksternal. Ini
menyiratkan bahwa mengevaluasi hasil dari suatu algoritma clustering didasarkan
pada pra-spesifikasi struktur yang diterima dari sebuah data dan mencerminkan
intuisi pengguna tentang struktur pengelompokan dari data. Contoh metode
dengan pendekatan eksternal yaitu Rand statistic, Jaccard coefficient, Hubert’s
statistic, Q index, dan Folkes and Mallows index. Pendekatan kedua didasarkan
pada kriteria internal. Pengguna dapat mengevaluasi hasil algoritma clustering
dalam konsep kuantitatif yang didapat dari data. Contoh metode dengan
pendekatan internal yaitu coefficient silhouette. Pendekatan ketiga validitas cluster
didasarkan pada kriteria relatif. Ide dasarnya adalah evaluasi struktur clustering
dengan membandingkan struktur clustering lain yang dihasilkan dari algoritma
clustering yang sama tetapi nilai-nilai parameter berbeda. Contoh metode dengan
pendekatan relatif yaitu Dunn index, Davies-Bouldin index, root-mean-square
standard deviation (RMSSTD) of the new cluster, semi-partial r-squared (SPR),
dan r-squared (RS) (Halkidi et al. 2001).
Penelitian sebelumnya yang dilakukan oleh Salazar (2002) adalah
membandingkan kecepatan waktu komputasi antara metode Hubert’s statistic,
indeks Davies-Bouldin, dan indeks Q. Hasil dari penelitian sebelumnya adalah
indeks Davies-Bouldin dan indeks Q memiliki waktu komputasi yang lebih cepat
dibandingkan dengan Hubert’s statistic. Penelitian tersebut menggunakan
algoritma clustering k-means, dengan dataset yang sama dan metode validitas
cluster yang berbeda. Penelitian lain yang dilakukan oleh (Kovács et al. 2005)
adalah membandingkan efisiensi penggunaan metode validitas cluster berdasarkan
bentuk cluster. Metode validitas cluster yang digunakan yaitu indeks Dunn,
indeks Davies Bouldin, standard deviation (SD) validity index, dan S_Dbw
validity index. Dataset yang digunakan adalah pemisahan data berdasarkan tiga

2
bentuk sebaran yang berbeda yaitu cluster pemisahan terbaik, cluster bentuk
cincin, dan cluster bentuk tidak beraturan. Hasil dari penelitian ini adalah untuk
dataset pertama, empat validitas cluster menghasilkan cluster yang baik. Untuk
dataset kedua, hanya indeks Dunn dan S_Dbw yang tepat mengidentifikasi cluster
yang optimal. Untuk dataset ketiga, hanya indeks Dunn yang dapat
mengidentifikasi cluster yang tepat dalam bentuk sebaran yang tidak beraturan,
sedangkan tiga metode validitas cluster yang lain kurang tepat digunakan untuk
cluster berbentuk tidak teratur.
Sedangkan penelitian ini akan membandingkan nilai akurasi dari tiga
metode validitas cluster yang digunakan untuk tiga jenis data berbeda, dan
menggunakan algoritma clustering yang sama. Sehingga dapat dilihat hubungan
antara jenis data dengan jenis validitas cluster dari nilai akurasi yang didapat.
Perbandingan tersebut akan menghasilkan metode validitas yang tepat sesuai
dengan jenis dataset yang digunakan untuk clustering. Penelitian ini
menggunakan algoritma clustering k-means pada WEKA 3.6.9 untuk
mengelompokkan tiga jenis data yaitu numerik, kategorik, dan numerik dan
kategorik. Metode validitas cluster yang akan digunakan adalah indeks Dunn,
Hubert’s statistic, dan koefisien silhouette.
Perumusan Masalah
Perumusan masalah dari penelitian ini yaitu:
1 Apakah ada pengaruh antara jenis data yang digunakan dengan validitas cluster
yang digunakan?
2 Metode validitas cluster manakah yang tepat digunakan untuk masing-masing
jenis data numerik, kategorik, dan numerik dan kategorik?
Tujuan Penelitian
Tujuan penelitian ini adalah menggunakan beberapa teknik validitas cluster
pada beberapa jenis data dan membandingkan hasil validitas cluster untuk
mengetahui metode terbaik yang dapat digunakan pada jenis data numerik,
kategorik, serta numerik dan kategorik.
Manfaat Penelitian
Manfaat yang diperoleh pada penelitian ini adalah mendapatkan metode
validitas cluster yang baik untuk selanjutnya digunakan pada berbagai jenis data.
Ruang Lingkup Penelitian
Penelitian ini dibatasi pada penggunaan teknik validitas cluster dengan
metode indeks Dunn, Hubert’s statistic dan koefisien silhouette. Data yang
digunakan merupakan data pada WEKA 3.6.9 dengan jenis data numerik,
kategorik, serta numerik dan kategorik.

3

METODE
Penelitian akan dilakukan dalam beberapa tahap. Gambar 1 menunjukkan
tahapan dari metode penelitian. Secara umum tahapan penelitian terdiri atas
clustering data, validitas clustering dengan indeks Dunn, validitas clustering
dengan Hubert’s statistic, validitas clustering dengan koefisien silhouette,
perbandingan ketiga teknik validitas, dan analisis hasil perbandingan.
Data
Data numerik adalah data metric atau data yang merupakan hasil
pengukuran, yang berupa angka. Data numerik diklasifikasikan menjadi dua yaitu:
1) numerik rasio, data numerik yang mengandung unsur urutan, memiliki jarak
ukuran yang sama, serta memiliki nilai nol absolut. Contoh data rasio yaitu jarak
tempuh mobil, tinggi badan, usia, dan nilai ujian, 2) numerik interval, yaitu data
numerik yang mengandung unsur urutan dan memiliki unsur kesamaan jarak antar
urutan, namun tidak memiliki nilai nol yang absolut. Contoh data interval yaitu
temperatur dan nomor sepatu. Data yang digunakan untuk jenis data numerik
adalah data diabetes.arff (data 1). Jenis data berdasarkan sifat data, yaitu diskret

Gambar 1 Diagram alir metodologi penelitian

4
dan kontinu. 1) data diskret adalah data yang memiliki nilai terbatas atau tak
terbatas yang jumlahnya dapat dihitung dan biasanya direpresentasikan dengan
nilai integer, contoh data diskret yaitu usia, 2) data kontinu adalah data yang
memiliki nilai berupa bilangan riil dan biasanya direpresentasikan dalam bentuk
pecahan, contoh data kotinu yaitu berat badan.
Data kategorik yaitu data non-numeric (symbolic) yang variabelnya
memiliki dua hubungan yaitu sama atau tidak sama. Contoh dari data kategorik
seperti warna mata, jenis kelamin, dan kewarganegaraan. Data kategorik biasanya
didapat dari hasil pengamatan. Data kategorik diklasifikasikan menjadi dua yaitu :
1) kategorik nominal, yaitu data kategorik yang memiliki nilai atribut berupa
simbol atau “nama-nama benda” sehingga tidak dapat dinyatakan bahwa nilai
atribut (kategori) yang satu lebih baik dari kategori lain, contoh data nominal yaitu
pria-wanita, merah-putih, 2) kategorik ordinal, yaitu data kategorik yang memiliki
nilai atribut yang mungkin mempunyai urutan berarti atau peringkat, tetapi jarak
antar kategori sulit untuk dinyatakan sama. Data ordinal juga dapat diperoleh dari
hasil diskretisasi perhitungan data numerik dengan cara membuat rentang nilai ke
dalam jumlah kategori yang terbatas. Contoh dari data ordinal yaitu keadaan baik,
sedang, dan buruk (Han dan Kamber 2011). Data yang digunakan untuk jenis data
kategorik adalah data soybean.arff (data 2). Sedangkan data yang digunakan untuk
jenis data numerik dan kategorik adalah data bank-data.arff (data 3).
Praproses Data
Tahap praproses dilakukan sebelum tahap proses. Tahapan yang termasuk
dalam praproses yaitu pembersihan data (data cleaning), seleksi data (data
selection) yaitu melakukan pemilihan data yang memiliki atribut relevan, sehingga
akan membantu tahapan proses clustering dalam menemukan pola data yang
berguna, dan transformasi data (data transformation) yaitu mengubah bentuk data.
Tahapan praproses data ini dilakukan dengan menggunakan WEKA 3.6.9.
Clustering
Penelitian ini akan dilakukan menggunakan proses data mining. Data
mining yang dilakukan adalah clustering. Data yang akan dikelompokkan adalah
data diabetes.arff, data soybean.arff dan data bank-data.arff. Cluster yang akan
digunakan pada penelitian validitas cluster ini adalah hasil dari clustering yang
dilakukan menggunakan software WEKA 3.6.9 dengan algoritme K-Means.
Langkah-langkah dalam algoritme k-means adalah (Kantardzic 2003): 1)
ditentukan initial partion dengan k cluster berisi sample yang dipilih secara acak,
kemudian dihitung pusat cluster dari tiap-tiap cluster, 2) dibangkitkan partisi baru
dengan penugasan setiap sample terhadap pusat cluster terdekat, 3) hitung pusatpusat cluster baru, dan 4) ulangi langkah 2 dan 3 sampai nilai optimum dari fungsi
kriteria dipenuhi (atau sampai cluster membership telah stabil).
Validitas Cluster
Seluruh hasil clustering akan divalidasi menggunakan validitas cluster
indeks Dunn, Hubert’s statistic dan koefisien silhouette. Indeks Dunn merupakan

5
kriteria validitas yang didasarkan pada perhitungan geometri dari kekompakan
setiap cluster dan pemisahan antar cluster. Indeks Dunn didefinisikan oleh:
min

{

l

ma

l

}

dengan adalah diameter dari cluster l dan
adalah jarak yang diatur antara
cluster p dan q. Jarak
didefinisikan sebagai jarak minimum antara sepasang
benda pada cluster p dan q, yaitu mini,j||xp(i)-xq(j)||, sedangkan
diameter cluster
l didefinisikan sebagai maksimum jarak antara sepasang benda dalam cluster l
tersebut, yaitu maxi j||xl(i)-xl(j)||. Cluster terbaik dilihat dengan nilai DN yang
terbesar (Vendramin et al. 2009).
Metode validitas cluster kedua adalah menggunakan Hubert’s statistic ( )
yang didefinisikan oleh :
∑∑
i

ij

ij

j i

dengan M adalah jumlah maksimum dari semua pasangan data dalam
dataset
, dan N adalah jumlah data dalam dataset.
dan
adalah elemen (i,j) dari masing-masing matriks X dan Y. Nilai-nilai
tertinggi dari indeks ini menunjukkan kesamaan yang kuat antara X dan Y. Untuk
membandingkan partisi diperoleh dengan pengelompokan metode dan partisi
nyata yang ada pada dataset, X dan Y merupakan masing-masing partisi tersebut
dan didefinisikan sebagai:
i dan j elom o berbeda
={
selainn a
dan
elom o berbeda
i
j
={
selainn a
(Salazar et al. 2002).
Indeks lain yang dikenal yaitu koefisien silhouette, yang juga didasarkan
pada pertimbangan geometri tentang kohesi dan pemisahan cluster oleh Kaufman
dan Rousseeuw. Kohesi digunakan untuk mengukur kedekatan data yang berada
pada satu cluster, sedangkan pemisahan digunakan untuk mengukur kedekatan
antar cluster yang terbentuk. Untuk menentukan kriteria ini, akan diperhatikan
objek ke-j dari himpunan data x(j). Hitung rata-rata jarak setiap objek ke-j dengan
semua objek yang ada pada cluster p, cluster yang sama dengan objek j,
dilambangkan dengan ap,j. Kemudian, hitung rata-rata jarak dari setiap objek ke-j
dengan semua objek yang ada pada cluster q, dimana p tidak sama dengan q,
disebut dq,j. Lalu, cari bp,j dari minimum dq,j, yang menunjukkan perbedaan ratarata objek x(j) untuk cluster yang terdekat dengan tetangganya.
Koefisien silhouette dari individu objek x(j) didefinisikan sebagai:

untuk s j yang memiliki nilai tinggi, maka semakin tepat penempatan x(j) ke
cluster p. Nilai koefisien silhouette biasanya di antara rentang -1 sampai dengan 1.

6
Nilai koefisien silhouette yang mendekati 1 adalah yang lebih baik. Nilai
silhouette didefinisikan sebagai rata-rata s j , yaitu :
∑s

j

j

dimana N adalah jumlah koefisien silhouette yang didapat untuk setiap objek data.
Pengelompokkan terbaik dicapai jika SWC maksimal, ini berarti meminimalkan
jarak dalam cluster (ap,j) sekaligus memaksimalkan jarak antar kelompok (bp,j)
(Vendramin et al. 2009).
Perbandingan Hasil Validitas
Hasil validitas yang telah dilakukan, akan dipilih cluster yang menghasilkan
indeks Dunn maksimal sebagai cluster terbaik. Dari hasil clustering tersebut pula
akan dilakukan validitas menggunakan metode Hubert’s statistic dan koefisien
silhouette. Hasil seluruh validitas menggunakan indeks Dunn, Hubert’s statistic
dan koefisien silhouette akan dibandingkan untuk mendapatkan cluster terbaik.
Analisis Hasil Perbandingan
Analisis akan dilakukan terhadap hasil dari perbandingan ketiga metode
validitas cluster. Hasil analisis akan menunjukkan metode validitas cluster yang
paling baik digunakan untuk jenis data numerik, kategorik, serta numerik dan
kategorik. Hasil analisis mengenai pencarian metode validitas cluster terbaik
diharapkan bermanfaat sebagai acuan dalam pengambilan keputusan untuk
menggunakan validitas cluster yang tepat sesuai jenis data yang digunakan.
Lingkungan Implementasi
Pada penelitian ini perangkat lunak dan perangkat keras yang digunakan
untuk mengembangkan sistem adalah sebagai berikut:
Perangkat lunak:
 Sistem operasi: Microsoft Windows 7 Ultimate
 WEKA 3.6.9
 MATLAB 7.0.7 (R2008b)
Perangkat keras:
 Prosesor: Intel Core i3 2.1 GHz
 Memori 2 GB RAM
 Monitor dengan resolusi 1366x768
 Mouse dan keyboard

7

HASIL DAN PEMBAHASAN
Data
Data yang digunakan untuk jenis data numerik adalah data diabetes.arff
(data 1) dengan jumlah record kategori setiap atribut dalam dataset yang
digunakan sebanyak 768 baris dan 9 atribut, contoh data dapat dilihat pada
Lampiran 1. Data yang digunakan untuk jenis data kategorik adalah data
soybean.arff (data 2) dengan jumlah record kategori setiap atribut dalam dataset
yang digunakan sebanyak 683 baris dan 36 atribut, contoh data dapat dilihat pada
Lampiran 2. Data yang digunakan untuk jenis data numerik dan kategorik adalah
data bank-data.arff (data 3) dengan jumlah record kategori setiap atribut dalam
dataset yang digunakan sebanyak 600 baris dan 12 atribut, contoh data dapat
dilihat pada Lampiran 3.
Praproses Data
Data yang digunakan memiliki rentang nilai yang cukup besar, sehingga
dilakukan proses normalisasi terlebih dahulu terhadap data sebelum masuk ke
tahap proses data mining. Rentang nilai yang cukup besar dapat mempengaruhi
hasil dari metode clustering yang berbasis jarak. Normalisasi pada umumnya
digunakan untuk menyetarakan nilai atribut agar atribut satu dengan lainnya
memiliki ukuran yang sama, memiliki rataan, dan standar deviasi mendekati nol.
Normalisasi juga membantu perhitungan jarak menjadi lebih cepat dan efisien
karena dapat membuat rentang nilai menjadi lebih kecil.
Normalisasi yang digunakan adalah min-max normalization, yaitu metode
normalisasi dengan melakukan transformasi linier terhadap data asli. Metode minmax dapat menyeimbangkan nilai perbandingan antar data saat sebelum dan
sesudah proses normalisasi. Persamaan untuk metode Min-Max yaitu seperti
berikut:
( - min )

B ((ma

- min )

) ( - )

dengan B adalah hasil normalisasi, A merupakan objek data, min A dan max A
merupakan nilai terkecil dan terbesar dari atribut yang akan dinormalisasi,
sedangkan C dan D adalah range [0.0, 1.0] (Han dan Kamber 2011). Normalisasi
yang dilakukan pada penelitian ini yaitu menggunakan WEKA 3.6.9, contoh
perhitungan normalisasi dengan metode min-max normalization disajikan pada
Lampiran 4.
Data Numerik
Data dimuat ke WEKA 3.6.9 kemudian dilakukan pemilihan data dengan
menghapus record yang memiliki lebih dari dua atribut tidak terisi atau kosong.
Data awal berjumlah 768 record, kemudian dilakukan penghapusan terhadap 57
record karena memiliki tiga atau empat atribut tidak terisi atau kosong, setelah
pemilihan didapatkan 711 record. Kemudian menormalisasi atribut dan
menghilangkan atribut class pada data diabetes.arff sehingga jumlah atribut yang

8
digunakan hanya 8 atribut. Penghapusan atribut karena atribut tersebut tidak
relevan dengan penelitian yang akan dilakukan, terlihat pada Gambar 2 dan 3.
Data Kategorik
Normalisasi untuk data kategorik tidak dilakukan karena data tidak dalam
bentuk numerik sehingga tidak diketahui rentang nilainya. Dalam tahap praproses
data kategorik, ada beberapa nilai atribut yang kosong sehingga dilakukan
pengisian berdasarkan nilai atribut yang paling sering muncul, kemudian data
kategorik ditransformasi menjadi data biner. Hal ini dilakukan karena untuk
memasukkan data ke dalam rumus validasi cluster diperlukan data berupa angka.
Setelah data ditransformasi menjadi biner, normalisasi juga tidak dilakukan karena
data akan tetap sama sebelum atau sesudah normalisasi, yaitu bernilai 0 dan 1,
tidak memiliki rentang nilai yang besar antar atribut. Transformasi data kategorik
menjadi biner, menggunakan WEKA 3.6.9, menghasilkan atribut sebanyak 101
atribut dari yang semula sebanyak 36 atribut sebelum transformasi.
Transformasi dilakukan, dengan cara memisahkan atribut sebanyak jumlah
kategori dalam suatu atribut tertentu. Atribut date akan dipisah menjadi tujuh
atribut, karena jumlah kategori dalam atribut tersebut berjumlah tujuh, sehingga
seluruh kategori dalam atribut date masing-masing akan diwakilkan dengan tujuh
digit biner. Hal yang sama dilakukan pada atribut lain yaitu plant-stand, precip,
temp, hail, contoh dapat dilihat pada Lampiran 5. Selanjutnya dilakukan
pemilihan data dengan menghilangkan atribut class pada data soybean.arff, karena
tidak relevan dengan penelitian, sehingga jumlah atribut yang digunakan menjadi
100 atribut, dapat dilihat pada Gambar 4 dan 5.
Data Numerik dan Kategorik
Data gabungan numerik dan kategorik dipraproses seperti cara yang
dilakukan pada data numerik dan data kategorik. Jenis atribut dalam data ini
berupa numerik dan kategorik, sehingga masing-masing jenis atribut dipraproses
dengan cara yang berbeda. Untuk atribut numerik dengan jumlah 3 atribut, dapat
langsung dipraproses dan dilakukan normalisasi sama seperti data numerik.
Sedangkan atribut kategorik dengan jumlah 8 atribut, sebelumnya akan diubah
nilai atributnya agar menjadi numerik, praproses atribut berjenis kategorik ini
sama seperti yang sudah dilakukan pada data kategorik. Hasil praproses dari

Gambar 2 Atribut data kategorik sebelum pemilihan atribut yang relevan

Gambar 3 Atribut data kategorik setelah pemilihan atribut yang relevan

Gambar 4 Atribut data numerik sebelum pemilihan atribut yang relevan

Gambar 5 Atribut data numerik setelah pemilihan atribut yang relevan

9
atribut kategorik yaitu jumlah atribut kategorik menjadi 18 atribut dari yang
semula sebanyak 8 atribut. Selanjutnya dilakukan pemilihan data dengan
menghilangkan atribut id pada data bank-data.arff, karena tidak relevan dengan
penelitian, sehingga jumlah seluruh atribut yang digunakan menjadi 21 atribut,
dapat dilihat pada Gambar 6 dan 7.
Clustering
Clustering adalah proses unsupervised karena tidak ada kelas standar dan
tidak ada contoh yang akan menunjukkan ciri-ciri pengelompokan dalam
kumpulan data. Mayoritas algoritma clustering berperilaku berbeda tergantung
pada fitur dari himpunan data dan asumsi awal untuk mendefinisikan kelompok.
Oleh karena itu, dalam aplikasi sebagian besar menghasilkan skema
pengelompokan yang memerlukan jenis evaluasi terbaik yang berlaku.
Mengevaluasi dan menilai hasil pengelompokan dari algoritma adalah subjek
utama dari validitas cluster (Halkidi et al. 2002).
Clustering hasil praproses ketiga jenis data akan dilakukan dengan
menerapkan algoritme K-means menggunakan WEKA 3.6.9. K-means merupakan
algoritme clustering yang bersifat partitional yaitu membagi himpunan objek data
ke dalam cluster yang tidak overlap, sehingga setiap objek data berada tepat
dalam satu cluster. K-means yang digunakan adalah berdasarkan kriteria sum of
square error, tujuan kriteria sum of square error adalah untuk memperoleh partisi
(jumlah cluster tetap) yang meminimalkan total sum of square error. Hasil
praproses seluruh data selanjutnya dikelompokkan (clustering) dengan jumlah
cluster adalah 3, 4, dan 5. Jumlah iterasi yang digunakan yaitu 100, dan mode
cluster yang digunakan adalah use training set.
Dari Gambar 8, 9, dan 10 terlihat jumlah anggota pada setiap cluster untuk
ukuran cluster 3, 4, dan 5. Ketiga gambar tersebut menunjukan bahwa ukuran
cluster 5 merupakan cluster optimal yang dihasilkan oleh clustering ketiga jenis
data yang digunakan, karena memiliki nilai sum of square error yang kecil saat
jumlah cluster bertambah. Nilai sum of square error untuk hasil clustering
terdapat pada Lampiran 6.
Tiga Metode Validitas Cluster
Pada penelitian ini akan dilakukan perbandingan terhadap tiga metode
validitas cluster yaitu:
a

Indeks Dunn
Dengan menggunakan hasil clustering yang telah didapat kemudian

Gambar 6 Atribut data numerik dan kategorik sebelum pemilihan atribut yang
relevan

Gambar 7 Atribut data numerik dan kategorik setelah pemilihan atribut yang
relevan

10
membuat matriks jarak menggunakan Euclid untuk mencari jarak minimum
dari masing-masing cluster dan jarak maksimum dalam satu cluster.
Selanjutnya membagi nilai minimum dari masing-masing cluster dengan nilai
maksimum yang didapat, kemudian mengambil nilai minimum dari
pembagian yang dihasilkan. Indeks Dunn tidak memiliki suatu rentang nilai,
untuk mencari indeks Dunn terbaik dapat dilihat dari nilai terbesar yang
dihasilkan. Contoh koding untuk indeks Dunn disajikan pada Lampiran 7, dan
perhitungan indeks Dunn disajikan pada Lampiran 8.
b Hubert’s statistic
Dalam metode Hubert’s statistic akan dicari jumlah pasang data dalam
dataset yang digunakan. Hasil clustering yang didapat kemudian membuat
matriks jarak menggunakan Euclid seperti dalam metode indeks Dunn.
Selanjutnya membuat matriks kedekatan dengan cara menentukan kedekatan

Gambar 8 Grafik hasil clustering data numerik

Gambar 9 Grafik hasil clustering data kategorik

Gambar 10 Grafik hasil clustering data numerik dan kategorik

11
antar objek data satu dengan objek data lain. Jika antar dua objek berada
dalam cluster yang sama maka diberi nilai nol, dan jika antar dua objek berada
dalam cluster yang berbeda maka diberi nilai satu. Diberikan inisialisasi awal
sum=0, kemudian dilakukan perkalian terhadap matriks jarak dengan matriks
kedekatan. Hasil dari perkalian akan ditambahkan dengan nilai sum, proses
perhitungan terus berulang hingga nilai terakhir. Nilai akhir sum selanjutnya
dibagi dengan jumlah pasangan dalam dataset. Hasil clustering terbaik
berdasarkan nilai Hubert’s statistic adalah yang bernilai besar tanpa adanya
rentang nilai. Contoh koding untuk Hubert’s statistic disajikan pada Lampiran
9, dan perhitungan Hubert’s statistic disajikan pada Lampiran 10.
c

Koefisien silhouette
Berdasarkan hasil clustering yang didapat, hitung jarak rata-rata setiap
objek ke-j dengan semua objek yang berada dalam cluster yang sama.
Kemudian mencari nilai minimum dari jarak rata-rata setiap objek ke-j dengan
semua objek yang berada dalam cluster yang berbeda. Selanjutnya mencari
nilai koefisien silhouette untuk setiap data ke-j, sehingga dihasilkan nilai
koefisien yang jumlahnya sama dengan jumlah dataset yang digunakan.
Kemudian hasil perhitungan nilai koefisien silhouette dijumlahkan seluruhnya,
lalu dibagi dengan jumlah dataset yang digunakan. Contoh koding untuk
silhouette disajikan pada Lampiran 11, dan perhitungan silhouette disajikan
pada Lampiran 12.
Perbandingan Hasil Validitas Cluster

Penelitian ini akan membandingkan hasil perhitungan dari tiga metode
validitas cluster indeks Dunn, Hubert’s statistic, dan koefisien silhouette. Validasi
cluster hasil clustering data numerik (diabetes.arff), dapat dilihat pada Gambar 11,
dengan ukuran cluster 3 menghasilkan nilai indeks Dunn sebesar 0.0639. Hasil
clustering dengan ukuran cluster 4, data numerik menghasilkan nilai indeks Dunn
sebesar 0.0606. Sedangkan validasi cluster hasil clustering data numerik dengan
ukuran cluster 5 menghasilkan nilai indeks Dunn sebesar 0.0788. Metode
Hubert’s statistic untuk data numerik dengan ukuran cluster 3 menghasilkan nilai
sebesar 0.4146. Pada ukuran cluster 4 metode Hubert’s statistic untuk data
numerik menghasilkan nilai sebesar 0.4579. Sedangkan metode Hubert’s statistic

Gambar 11 Grafik hasil validasi data numerik

12
untuk ukuran cluster 5, data numerik menghasilkan nilai sebesar 0.4919.
Metode koefisien silhouette untuk data numerik dengan ukuran cluster 3
menghasilkan jumlah nilai silhouette sebesar 0.2488. Pada metode koefisien
silhouette untuk ukuran cluster 4, data numerik menghasilkan jumlah nilai
silhouette sebesar 0.2027. Sedangkan metode koefisien silhouette untuk data
numerik dengan ukuran cluster 5 menghasilkan jumlah nilai silhouette sebesar
0.1530. Berdasarkan hasil clustering data numerik, cluster yang optimal didapat
dengan ukuran cluster 5 karena nilai validasi internalnya atau nilai sum of square
error kecil. Hasil validasi yang dapat mengidentifikasi cluster terbaik adalah
indeks Dunn dan Hubert’s statistic, sehingga kedua metode tersebut lebih baik
digunakan untuk data numerik.
Validasi cluster hasil clustering data kategorik (soybean.arff), dapat dilihat
pada Gambar 12, dengan ukuran cluster 3 menghasilkan nilai indeks Dunn sebesar
0.3612. Untuk data kategorik dengan ukuran cluster 4 menghasilkan nilai indeks
Dunn sebesar 0.3693. Sedangkan data kategorik dengan ukuran cluster 5
menghasilkan nilai indeks Dunn sebesar 0.3693. Metode Hubert’s statistic untuk
data kategorik ukuran cluster 3 menghasilkan nilai sebesar 3.0259. Untuk ukuran
cluster 4 data kategorik menghasilkan nilai sebesar 3.6102. Sedangkan data
kategorik untuk ukuran cluster 5 menghasilkan nilai sebesar 3.9560.
Metode koefisien silhouette untuk data kategorik ukuran cluster 3 memiliki
nilai silhouette sebesar 0.1321. Data kategorik pada ukuran cluster 4 memiliki
nilai silhouette sebesar 0.1210, dan data kategorik ukuran cluster 5 memiliki nilai
silhouette sebesar 0.1471. Berdasarkan hasil clustering data kategorik, cluster
yang optimal didapat dengan ukuran cluster 5, sama seperti pada data numerik.
Untuk ukuran cluster 4 dan 5 menghasilkan nilai indeks Dunn yang sama
sehingga dipilih ukuran cluster 4 yang lebih optimal untuk indeks Dunn. Hasil
validasi yang dapat mengidentifikasi cluster terbaik pada data kategorik ini adalah
indeks Dunn, Hubert’s statistic dan koefisien silhouette, sehingga ketiga metode
tersebut baik digunakan untuk data kategorik.
Validasi cluster hasil clustering data numerik dan kategorik (bank-data.arff),
dapat dilihat pada Gambar 13, untuk ukuran cluster 3 menghasilkan nilai indeks
Dunn sebesar 0.3552. Untuk ukuran cluster 4, data numerik dan kategorik
menghasilkan nilai indeks Dunn sebesar 0.3552. Sedangkan untuk data numerik
dan kategorik ukuran cluster 5 menghasilkan nilai indeks Dunn sebesar 0.2332.
Metode Hubert’s statistic untuk data numerik dan kategorik memiliki nilai

Gambar 12 Grafik hasil validasi data kategorik

13

Gambar 13 Grafik hasil validasi data numerik dan kategorik
Hubert’s statistic sebesar 1.9607. untuk data numerik dan kategorik memiliki nilai
sebesar 2.1818. untuk data numerik dan kategorik memiliki nilai Hubert’s statistic
sebesar 2.3098.
Metode koefisien silhouette untuk data numerik dan kategorik ukuran
cluster 3 memiliki nilai silhouette sebesar 0.1178. Pada ukuran cluster 4, data
numerik dan kategorik memiliki nilai silhouette sebesar 0.1155, dan untuk data
numerik dan kategorik ukuran cluster 5, memiliki nilai silhouette sebesar 0.1190.
Sama seperti clustering data numerik dan data kategorik, clustering data numerik
dan kategorik juga menghasilkan cluster yang optimal pada ukuran cluster 5.
Hasil validasi yang dapat mengidentifikasi cluster terbaik adalah Hubert’s statistic
dan koefisien silhouette, sehingga kedua metode tersebut baik digunakan untuk
data numerik dan kategorik.
Analisis Hasil Perbandingan
Dilihat dari sum of square error pada data numerik, cluster optimal pada
saat ukuran cluster 5. Berdasarkan teori, ketiga metode validitas cluster yang
digunakan akan menghasilkan cluster optimal saat nilai validasi besar. Hal ini
menunjukan bahwa data numerik baik digunakan pada metode indeks Dunn dan
Hubert’s statistic, karena nilai validasi terbesar untuk data numerik ukuran cluster
5 didapat dari kedua metode tersebut. Pada data kategorik hal yang sama seperti
pada data numerik, yaitu cluster optimal ada pada saat ukuran cluster 5. Nilai
validasi terbesar juga terlihat pada metode indeks Dunn, Hubert’s statistic dan
koefisien silhouette. Sedangkan data gabungan numerik dan kategorik
berdasarkan sum of square error, cluster optimal juga ada pada saat ukuran
cluster 5 dan nilai validasi terbesar terlihat pada metode Hubert’s statistic dan
koefisien silhouette.
Hasil yang didapat menunjukan bahwa metode Hubert’s statistic baik untuk
ketiga jenis data yang digunakan. Hal ini diasumsikan karena adanya matriks jarak
dan matriks kedekatan, kedua metode lain pun sama-sama menggunakan matriks
jarak namun pada Huberts ini matriks jarak yang didapat kemudian dikalikan
dengan matriks kedekatan. Perkalian ini berulang hingga elemen matriks yang
terakhir, kemudian dilakukan penjumlahan untuk perkalian tersebut. Hal ini
berbeda dengan kedua metode lainnya, karena kedua metode Dunn dan silhouette
hanya menghitung matriks jarak kemudian mencari jarak minimum dan
maksimum untuk menentukan posisi suatu objek dalam dalam suatu cluster.

14

SIMPULAN DAN SARAN
Simpulan
Pada penelitian ini telah diimplementasikan tiga metode validitas cluster
yaitu indeks Dunn, Hubert’s statistic, dan koefisien silhouette. Dari hasil
clustering terlihat bahwa sum of square error suatu cluster berkurang saat jumlah
cluster yang digunakan bertambah. Clustering ketiga jenis data menghasilkan
cluster yang optimal pada ukuran cluster 5. Hasil validasi untuk data numerik
nilai terbesar terdapat pada metode indeks Dunn sebesar 0.0788 dan Hubert’s
statistic sebesar 0.4919. Pada data kategorik nilai terbesar juga terdapat pada
metode indeks Dunn sebesar 0.3693, Hubert’s statistic sebesar 3.9560 dan
koefisien silhouette sebesar 0.1471. Sedangkan untuk data gabungan numerik dan
kategorik nilai terbesar terdapat pada metode Hubert’s statistic sebesar 2.3098 dan
koefisien silhouette sebesar 0.1190. Berdasarkan hasil penelitian didapatkan
bahwa jenis data yang digunakan akan berpengaruh terhadap algoritme validasi
cluster yang digunakan. Hasil pengujian untuk saat ini menunjukkan bahwa
metode Hubert’s statistic yang dapat digunakan pada tiga jenis data tersebut.
Saran
1

2

Saran untuk penelitian selanjutnya antara lain, yaitu :
Penelitian dengan melibatkan jumlah data yang lebih banyak masih diperlukan
untuk dapat menyimpulkan algoritme validasi yang paling sesuai untuk data
numerik, kategorik, atau gabungan keduanya.
Menggunakan metode validitas cluster lain untuk dibandingkan dengan hasil
penelitian ini, seperti: Rand statistic, Jaccard coefficient, Folkes and Mallows
index, indeks Davies-Bouldin, root-mean-square standard deviation
(RMSSTD), r-squared (RS), dan Calinski-Harabas index.

DAFTAR PUSTAKA
Halkidi M, Batistakis Y, Vazirgiannis M. 2001. On clustering validation
techniques. Journal of Intelligent Information Systems; 17(2-3):107-145.
Han J, Kamber M, Pei J. 2011. Data Mining: Concepts and Techniques. Ed ke-3.
San Francisco (US): Morgan Kaufmann.
Kantardzic M. 2003. Data Mining: Concepts, Models, Methods, and Algorithm.
New Jersey (US): J Wiley.
Kovács F, Legány C, Babos A. 2005. Cluster validity measurement techniques. Di
dalam: 6th International Symposium of Hungarian Researchers on
Computational Intelligence; 2005 Nov 18-19; Budapest, Hungaria.
Salazar GEJ, Velez AC, Parra MCM, Ortega LO. 2002. A cluster validity index
for comparing non-hierarchical clustering methods [Internet]. [diunduh

15
2012 Nov 7]. Tersedia pada: http://citeseer.ist.psu.edu/rd/salazar02
cluster.pdf
Vendramin L, Campello RJGB, Hruschka ER. 2009. On the comparison of
relative clustering validity criteria. Di dalam: Proceedings of the SIAM
International Conference on Data Mining; 2009 Apr 30 – Mei 2; Sparks,
Nevada, USA. hlm 733-744.

16

LAMPIRAN
Lampiran 1 Contoh data numerik
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

Pregnant Plasma
Pres
Skin
Insulin
Mass Pedigree
Age
Diskret Diskret Diskret Diskret Diskret Kontinu Kontinu Diskret
1
87
68
34
77
37.6
0.401
24
1
126
56
29
152
28.7
0.801
21
1
89
76
34
37
31.2
0.192
23
1
114
80
34
285
44.2
0.167
27
1
140
65
26
130
42.6
0.431
24
1
138
60
35
167
34.6
0.534
21
1
141
84
26
16
32.4
0.433
22
1
146
56
35
73
29.7
0.564
29
1
71
48
18
76
20.4
0.323
22
1
165
90
33
680
52.3
0.427
23
1
180
90
26
90
36.5
0.314
35
1
109
38
18
120
23.1
0.407
26
1
89
24
19
25
27.8
0.559
21
1
122
64
32
156
35.1
0.692
30
1
94
70
27
115
43.5
0.347
21
1
130
60
23
170
28.6
0.692
21
1
107
50
19
115
28.3
0.181
29
1
173
78
32
265
46.5
1.159
58
1
107
68
19
66
26.5
0.165
24

Lampiran 1 Lanjutan
No Pregnant Plasma
Pres
Skin
Insulin
Mass Pedigree
Age
Diskret Diskret Diskret Diskret Diskret Kontinu Kontinu Diskret
20
1
140
74
26
180
24.1
0.828
23
21
1
198
66
32
274
41.3
0.502
28
22
1
109
58
18
116
28.5
0.219
22
23
1
98
68
35
53
32
0.389
22
24
1
95
60
18
58
23.9
0.26
22
25
1
91
54
25
100
25.2
0.234
23
26
1
179
50
36
159
37.8
0.455
22
27
1
114
66
36
200
38.1
0.289
21
28
1
95
82
25
180
35
0.233
43
29
1
189
104
25
36
34.3
0.435
41
30
1
167
74
17
144
23.4
0.447
33
31
1
106
70
37
148
39.4
0.605
22
32
1
127
80
37
210
36.3
0.804
23
33
1
196
76
36
249
36.5
0.875
29
34
1
139
62
17
210
22.1
0.207
21
35
1
124
74
36
135
27.8
0.1
30
36
1
81
72
18
40
26.6
0.283
24
37
1
137
40
35
168
43.1
2.288
33
38
1
113
64
35
65
33.6
0.543
21
39
1
126
86
27
120
27.4
0.515
21
40
1
90
62
18
59
25.1
1.268
25

17

18
Lampiran 2 Contoh data kategorik
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Date
Nominal
october
august
july
july
october
september
september
august
october
august
october
august
july
october
october
september
october
august
july
september

Plant-stand
Nominal
normal
normal
normal
normal
normal
normal
normal
normal
normal
normal
normal
normal
normal
normal
normal
normal
normal
normal
normal
normal

Precip
Nominal
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
lt-norm
lt-norm
lt-norm
lt-norm
lt-norm
lt-norm
lt-norm
lt-norm
lt-norm
lt-norm

Temp
Nominal
norm
norm
norm
norm
norm
norm
norm
norm
norm
norm
gt-norm
norm
norm
norm
gt-norm
gt-norm
gt-norm
norm
gt-norm
gt-norm

Hail
Nominal
yes
yes
yes
yes
yes
yes
yes
no
yes
yes
yes
no
yes
no
yes
no
no
yes
yes
no

Crop-hist
Nominal
same-lst-yr
same-lst-two-yrs
same-lst-yr
same-lst-yr
same-lst-two-yrs
same-lst-sev-yrs
same-lst-two-yrs
same-lst-yr
same-lst-sev-yrs
same-lst-two-yrs
same-lst-yr
same-lst-yr
same-lst-yr
same-lst-sev-yrs
same-lst-yr
same-lst-sev-yrs
diff-lst-year
same-lst-two-yrs
same-lst-two-yrs
same-lst-two-yrs

Area-damaged
Nominal
low-areas
scattered
scattered
scattered
scattered
scattered
scattered
scattered
scattered
scattered
whole-field
whole-field
upper-areas
whole-field
whole-field
whole-field
upper-areas
upper-areas
upper-areas
upper-areas

Severity
Ordinal
pot-severe
severe
severe
severe
pot-severe
pot-severe
pot-severe
pot-severe
pot-severe
severe
pot-severe
pot-severe
pot-severe
pot-severe
pot-severe
pot-severe
pot-severe
pot-severe
pot-severe
pot-severe

Seed-tmt
Nominal
none
fungicide
fungicide
none
none
none
fungicide
none
fungicide
none
fungicide
fungicide
none
fungicide
fungicide
fungicide
none
none
none
none

Germination
Ordinal
90-100
80-89
lt-80
80-89
lt-80
80-89
90-100
lt-80
80-89
lt-80
90-100
80-89
90-100
90-100
80-89
lt-80
90-100
80-89
lt-80
lt-80

Lampiran 2 Lanjutan
Date
Plant-stand
No
Nominal Nominal
21 may
lt-normal
22 may
lt-normal
23 july
normal
24 april
lt-normal
25 april
lt-normal
26 may
lt-normal
27 may
lt-normal
28 june
lt-normal
29 may
lt-normal
30 june
lt-normal
31 april
lt-normal
32 may
lt-normal
33 june
lt-normal
34 may
lt-normal
35 june
lt-normal
36 july
lt-normal
37 april
lt-normal
38 july
lt-normal
39 june
lt-normal
40 june
lt-normal

Precip
Nominal
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
gt-norm
norm
gt-norm
norm
gt-norm

Temp
Nominal
lt-norm
lt-norm
lt-norm
lt-norm
lt-norm
lt-norm
lt-norm
lt-norm
lt-norm
lt-norm
norm
norm
gt-norm
lt-norm
gt-norm
norm
norm
lt-norm
norm
lt-norm

Hail
Nominal
yes
yes
no
yes
yes
yes
yes
yes
yes
yes
no
yes
yes
yes
yes
yes
yes
yes
yes
yes

Crop-hist
Nominal
same-lst-two-yrs
same-lst-yr
same-lst-sev-yrs
diff-lst-year
same-lst-yr
same-lst-sev-yrs
diff-lst-year
same-lst-two-yrs
same-lst-yr
same-lst-yr
same-lst-yr
same-lst-sev-yrs
same-lst-two-yrs
same-lst-two-yrs
same-lst-two-yrs
same-lst-two-yrs
same-lst-yr
same-lst-two-yrs
diff-lst-year
same-lst-yr

Area-damaged
Nominal
low-areas
low-areas
low-areas
low-areas
low-areas
low-areas
low-areas
low-areas
low-areas
low-areas
low-areas
low-areas
low-areas
low-areas
low-areas
low-areas
low-areas
low-areas
low-areas
low-areas

Severity
Ordinal
severe
severe
severe
pot-severe
severe
severe
pot-severe
pot-severe
severe
severe
pot-severe
pot-severe
pot-severe
severe
pot-severe
pot-severe
pot-severe
severe
pot-severe
severe

Seed-tmt
Nominal
none
none
none
fungicide
fungicide
none
none
none
none
none
none
none
none
fungicide
none
none
none
fungicide
none
none

Germination
Ordinal
lt-80
80-89
80-89
lt-80
lt-80
lt-80
80-89
80-89
lt-80
lt-80
90-100
80-89
80-89
80-89
80-89
80-89
90-100
80-89
80-89
80-89

19

20
Lampiran 3 Contoh data numerik dan kategorik
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

Age
Diskret
48
40
51
23
57
57
22
58
37
54
66
52
44
66
36
38
37
46
62
31
61
50
54

Sex
Nominal
FEMALE
MALE
FEMALE
FEMALE
FEMALE
FEMALE
MALE
MALE
FEMALE
MALE
FEMALE
FEMALE
FEMALE
FEMALE
MALE
FEMALE
FEMALE
FEMALE
FEMALE
MALE
MALE
MALE
MALE

Region
Nominal
INNER_CITY
TOWN
INNER_CITY
TOWN
RURAL
TOWN
RURAL
TOWN
SUBURBAN
TOWN
TOWN
INNER_CITY
TOWN
TOWN
RURAL
INNER_CITY
TOWN
SUBURBAN
INNER_CITY
TOWN
INNER_CITY
TOWN
INNER_CITY

Income
Kontinu
17546.0
30085.1
16575.4
20375.4
50576.3
37869.6
8877.07
24946.6
25304.3
24212.1
59803.9
26658.8
15735.8
55204.7
19474.6
22342.1
17729.8
41016.0
26909.2
22522.8
57880.7
16497.3
38446.6

Married Children
Nominal Diskret
NO
1
YES
3
YES
0
YES
3
YES
0
YES
2
NO
0
YES
0
YES
2
YES
2
YES
0
NO
0
YES
1
YES
1
YES
0
YES
0
YES
2
YES
0
YES
0
YES
0
YES
2
YES
2
YES
0

Car
Nominal
NO
YES
YES
NO
NO
NO
NO
YES
YES
YES
NO
YES
NO
YES
NO
YES
NO
NO
NO
YES
NO
NO
NO

Save_act
Nominal
NO
NO
YES
NO
YES
YES
NO
YES
NO
YES
YES
YES
YES
YES
YES
YES
NO
YES
YES
YES
YES
YES
YES

Current_act
Nominal
NO
YES
YES
YES
NO
YES
YES
YES
NO
YES
YES
YES
YES
YES
YES
YES
NO
NO
NO
YES
NO
YES
YES

Mortgage
Nominal
NO
YES
NO
NO
NO
NO
NO
NO
NO
NO
NO
YES
YES
YES
YES
YES
YES
YES
NO
NO
NO
NO
NO

Pep
Nominal
YES
NO
NO
NO
NO
YES
YES
NO
NO
NO
NO
NO
YES
YES
NO
NO
NO
NO
YES
NO
YES
NO
NO

Lampiran 3 Lanjutan
Age
Sex
No
Diskret
Nominal
24 27
FEMALE
25 22
MALE
26 56
MALE
27 45
MALE
28 39
FEMALE
29 39
FEMALE
30 61
MALE
31 61
FEMALE
32 20
FEMALE
33 45
MALE
34 33
FEMALE
35 43
MALE
36 27
FEMALE
37 19
MALE
38 36
FEMALE
39 43
FEMALE
40 66
FEMALE

Region
Nominal
TOWN
INNER_CITY
INNER_CITY
INNER_CITY
TOWN
INNER_CITY
RURAL
RURAL
TOWN
SUBURBAN
INNER_CITY
SUBURBAN
INNER_CITY
RURAL
RURAL
TOWN
SUBURBAN

Income
Kontinu
15538.8
12640.3
41034.0
20809.7
20114.0
29359.1
24270.1
22942.9
16325.8
23443.2
29921.3
37521.9
19868.0
10953.0
13381.0
18504.3
25391.5

Married Children
Nominal Diskret
NO
0
NO
2
YES
0
YES
0
YES
1
NO
3
YES
1
YES
2
YES
2
YES
1
NO
3
NO
0
YES
2
YES
3
NO
0
YES
0
NO
2

Car
Nominal
YES
YES
YES
NO
NO
YES
NO
NO
NO
YES
YES
NO
NO
YES
YES
YES
NO

Save_act
Nominal
YES
YES
YES
YES
NO
NO
NO
YES
YES
YES
YES
YES
YES
YES
NO
YES
NO

Current_act
Nominal
YES
YES
YES
YES
YES
YES
YES
YES
NO
YES
NO
YES
YES
YES
YES
YES
YES

Mortgage
Nominal
YES
NO
YES
YES
NO
YES
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO

Pep
Nominal
NO
NO
NO
NO
YES
NO
YES
NO
NO
YES
NO
YES
NO
NO
YES
NO
NO

21

22
Lampiran 4 Langkah perhitungan min-max normalization
No A1
A2
A3
1 48
17546
1
2 40 30085.1
3
3 51 16575.4
0
4 23 20375.4
3
5 57 50576.3
0
6 57 37869.6
2
7 22 8877.07
0
8 58 24946.6
0
9 37 25304.3
2
10 54 24212.1
2
Max 58 50576.3
3
Min 22 8877.07
0
Sebelum normalisasi
Persamaan min-max normalization
min
ma
min
Contoh untuk data nomor 1:

B = 0.7222

No
1
2
3
4
5
6
7
8
9
10

A1
0.7222
0.5000
0.8056
0.0278
0.9722
0.9722
0.0000
1.0000
0.4167

A2
0.2079
0.5086
0.1846
0.2757
1.0000
0.6953
0.0000
0.3854
0.3939

A3
0.3333
1.0000
0.0000
1.0000
0.0000
0.6667
0.0000
0.0000
0.6667

0.8889 0.3678 0.6667

Setelah normalisasi

23
Lampiran 5 Transformasi data kategorik menjadi biner
Data awal dengan nilai atribut berupa kategori

Atribut date setelah transformasi

Atribut plant-stand setelah transformasi

Atribut precip setelah transformasi

Atribut temp setelah transformasi

Atribut hail setelah transformasi

24
Lampiran 6 Hasil validasi cluster
Jenis data

Numerik

Kategorik

Numerik+kategorik

Ukuran
cluster
3
4
5
3
4
5
3
4
5

Sum of
square
error
86.270
79.269
74.488
7510.6
6922.2
6419.3
2002.5
1893.0
1812.9

Indeks
Dunn

Hubert’s
Statistic

Koefisien
Silhouette

0.0639
0.0606
0.0788
0.3612
0.3693
0.3693
0.3552
0.3552
0.2332

0.4146
0.4579
0.4919
3.0259
3.6102
3.9560
1.9607
2.1818
2.3098

0.2488
0.2027
0.1530
0.1321
0.1210
0.1471
0.1178
0.1155
0.1190

25
Lampiran 7 Koding indeks Dunn
function DI=dunns(data, class)
[s,t]=size(data);
matriks_jarak=0;
%matriks jarak
for i=1:s
for j=1:s
if i==j
jarak=0;
else
jarak=0;
for k=1:t
jarak=jarak+(data(i,k)-data(j,k))^2;