Pada gambar tersebut tidak terdapat label yang menyertakan orang tersebut terkena hipertensi atau tidak. Pada clustering, ditentukan labelnya
berdasarkan tingkat kemiripan data. Seperti pada gambar dibawah ini terdapat 2 buah cluster,cluster pertama berada pada tingkat gemuk dan
sangat gemuk serta terletak pada usia muda dan paruh baya. Sedangkan cluster kedua pada tingkat terlalu gemuk dan usia paruh baya dan tua,
maka dari hal tersebut dapat disimpulkan bahwa pada cluster kedua merupakan pasien yang terkena hipertensi. Sedangkan pada cluster
pertama tidak.
Gambar 2.4 Ali, 2006 hasil clusteringpada data hipertensi
2.3 Metode Clustering
2.3.1 Pengertian Clustering
Metode data mining yang akan dipakai adalah clustering.Clustering merupakan proses pengelompokan objek yang sama menjadi satu kelompok,
sedangkan obyek diantara kelompok tersebut berbeda satu sama lain. Pada proses clusteringmemilikicluster, yaitu kumpulan objek data yang sama satu sama lain
dalam cluster yang sama dan berbeda untuk objek dalam kelompok lain. Tujuan dari cluster ini untuk menemukan kemiripan antara data, sesuai dengan
karakteristik yang ditemukan di dalam data dan pengelompokan data objek yang sama ke dalam kelompok-kelompok tertentu HanKamber.2004. Jadi, prinsip
dari clustering adalah memaksimalkan kesamaan antar anggota satu cluster dan meminimumkan kesamaan antar cluster.
Pada clustering terdapat 2 jenis metode, yaituhierarchical clusteringdan partition clustering. Hierarchical clusteringadalah teknik clustering yang
membentuk hirarki dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang berjauhan. Metode ini terbagi
menjadi dua yaitu bottom-up agglomerative yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down divisive yang memecah cluster besar
menjadi cluster yang lebih kecil. Sedangkan partition clustering adalah teknik pengelompokan obyek ke dalam cluster tertentu dengan menentukan jumlah
cluster terlebih dahulu. Contohnya: algoritma K-Means dan Fuzzy K-Means. Metode yang akan digunakan untuk penelitian ini menggunakan pendekatan
hirarki yaitu dengan menggunakan agglomerative hierarchical clustering. Pemilihan metode agglomerative hierarchical clusteringkarena algoritmanya
yang sederhana,
jarak untuk
setiap gejala
dapat diketahui,
model pengelompokannya dapat dilihat dengan dendrogram, dan tidak perlu menentukan
jumlah cluster yang diinginkan diawal. Metode tersebut bekerja dengan mengelompokan data-data yang mirip ke dalam hirarki yang sama sedangkan
yang jauh dikelompokan pada hirarki yang berbeda. Agglomerative melakukan
proses clustering dari Ncluster menjadi satu kesatuan cluster, dimana N adalah jumlah data. Jenis pengukuran jarak yang akan digunakan adalah single linkage,
average linkagedan complete linkage. Penggunaan tiga pengukuran kemiripan jarak karena dapat mengetahui mana hasil yang terbaik dengan melihat
dendrogram yang dihasilkan. a.
Single linkage merupakan jarak minimum antara elemen dari setiap cluster. Jarak antara dua cluster didefinisikan sebagai
2.3 Keterangan :
- S
xy
merupakan jarak antara dua data x dan y dari masing cluster A dan B.
b. Average linkagemerupakan rata-rata jarak antara elemen dari setiap
cluster pada setiap data. Jarak antar cluster didefinisikan sebagai, , =
1 { , }
� �
2.4 Keterangan :
- n
A
dan n
B
adalah banyaknya data dalam set A dan B. dA,B = min {S
xy
} �
, �
c. Complete linkagemelihat jarak maksimum antar elemen dalam cluster.
Jarak antar cluster didefinisikan sebagai,
2.5 Keterangan :
- S
xy
merupakan jarak antara dua data x dan y dari masing cluster A dan B.
Ketiga jenis pengukuran jarak tersebutmenggunakan prinsip jarak minimum yang diawali dengan mencari dua obyek terdekat dan keduanya membentuk
cluster yang pertama. Langkah selanjutnya dapat dipilih menjadi dua kemungkinan, obyek ketiga akan bergabung dengan cluster yang telah terbentuk,
atau membentuk cluster baru. Proses ini akan berlanjut sampai akhirnya terbentuk cluster tunggal. Hasil dari pengelompokan ini dapat ditampilkan dalam bentuk
dendrogram.
Gambar 2.5 : dendrogram dA,B = max {S
xy
} �
, �
Pada dendrogram diatas terdapat jarak antar obyek. Garis vertikal merupakan jarak, sedangkan garis horizontal merupakan obyek. Salah satu cara
untuk mempermudah pengembangan dendrogram untuk hierarchicalclustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar
data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti :
a. Euclidean distance, pengukuran jarak yang biasa digunakan dan sering
disebut dengan formula phytagoras.
2.6 Keterangan :
- n = jumlah atribut atau dimensi.
- p
k
dan q
k
= data. b.
Minskowski distance, merupakan generalisasi dari euclidean matrix.
2.7 Keterangan :
1. r = parameter
2. n = jumlah dimensi atau atribut,
3. p
k
dan q
k
= obyek data p dan q
c. Simple Matching Coefficients, biasa digunakan jika data hanya memiliki
atribut bertipe biner. Cara kerjanya adalah jumlah data yang cocok dibagi dengan jumlah atribut.
SMC = M
11
+ M
00
M
01
+ M
10
+ M
11
+ M
00
2.8
Keterangan : 1.
M
01
= jumlah atribut dimana p = 0 dan q = 1 2.
M
10
= jumlah atribut dimana p = 1 dan q = 0 3.
M
00
= jumlah atribut dimana p = 0 dan q = 0 4.
M
11
= jumlah atribut dimana p = 1 dan q = 1
d. Jaccard Coefficient, biasa digunakan jika data hanya memiliki atribut
bertipe biner. Cara kerjanya adalah jumlah biner 1 dan 1 yang cocok dibagi dengan jumlah nilai atribut yang keduanya tidak 0.
J = M
11
M
01
+ M
10
+ M
11
2.9 Keterangan :
1. M
01
= jumlah atribut dimana p = 0 dan q = 1 2.
M
10
= jumlah atribut dimana p = 1 dan q = 0
3. M
00
= jumlah atribut dimana p = 0 dan q = 0 4.
M
11
= jumlah atribut dimana p = 1 dan q = 1
2.3.2 Agglomerative Hierarchical Clustering
Pada agglomerative hierarchical clustering, harus dihitung jarak masing- masing obyek. Setelah jarak dari semua obyek dihitung, maka lakukan langkah-
langkah berikut ini : 1.
Biarkan setiap data point menjadi sebuah cluster 2.
Hitung matriks kemiripan 3.
Kelompokkan data paling mirip untuk dimasukan ke dalam cluster yang sama dengan melihat jarak dalam matriks kemiripan
4. Perbarui matriks kemiripan dengan jarak yang baru.
5. Ulangi sampai tersisa hanya satu cluster. Tan,Steinbach,dkk 2004.
Gambar 2.6 hasil ilustrasiclustering
Rumus yang digunakan dalam menghitung jarak antar obyek bermacam- macam dan salah satu yang digunakan adalah euclidean distance. Pada tabel
dibawah ini merupakan contoh data yang belum dihitung jarak kedekatannya. Dari tabel inilah dapat dihitung dengan menggunakan rumus euclidean distance.
Tabel 2.3 Contoh Data
Titik X
Y 1
0.4 0.53
2 0.22
0.38
3 0.35
0.32
4 0.26
0.19
5
0.08 0.41
6
0.45 0.30
Setelah dihitung jarak antar obyek maka dibuatkan matriks jarak. Dalam matriks ini jarak dari setiap pasang obyek dihitung dan nilai dalam satu masukan
menunjukan jarak antar obyek dari indeks dari kolom dan baris. Matriks jarak ini bersifat simetris.
Tabel 2.4 Contoh Matriks Similiarity
1 2
3 4
5 6
1 0.24
0.22 0.37
0.34 0.23
2 0.24
0.15 0.20
0.14 0.25
3 0.22
0.15 0.15
0.28 0.11
4
0.37 0.20
0.15 0.29
0.22
5 0.34
0.14 0.28
0.29 0.39
6 0.23
0.25 0.11
0.22 0.39
Untuk mengukur jarak antara dua cluster A dan B digunakan 3 pengukuran kemiripan, yaitu :
a. Jarak minimum antara elemen dari setiap cluster singlelinkage
Pada single linkage, akan mengelompokan data dengan cara melihat jarak yang paling minimum.
Gambar 2.7 : matriks jarak
Pertama gabungkan dua item yang paling dekat, karena objek 5 dan 3 memiliki jarak yang minimum, maka kedua obyek tersebut digabung
mind
ik
= d
53
= 2 untuk membentuk cluster 35. Kemudian untuk menemukan cluster berikutnya, maka memerlukan jarak-jarak antara
cluster 35 dan objek-objek yang lain yang tersisa yaitu 1, 2 dan 4. Jarak yang berdekatan, yaitu :
- d 35 1 = min { d 31, d 51} = min {3, 11} = 3
- d 35 2 = min { d 32, d 52} = min {7, 10} = 7
- d 35 4 = min { d 34, d 54} = min { 9, 8} = 8
Kemudian menghapus baris dan kolom yang bersesuaian dengan objek 3, 5 dan untuk cluster 35, maka mendapatkan matrik jarak yang baru.
Gambar 2.8 : matriks jarak keduasingle linkage
Dari matriks jarak yang baru tersebut, cari jarak terkecil antara pasangan- pasangan cluster sekarang, yaitu d 351 = 3. Lalu menggabungkan cluster
1 dengan cluster 35 untuk mendapatkan cluster berikutnya dengan menghitung :
- d 135 2 = min { d 352, d 12} = min {7, 9} = 7
- d 135 4 = min { d 354, d 14} = min {8, 6} = 6
Kemudian hapus baris dan kolom dari cluster 35 dan 1, maka akan mendapatkan matrik jarak untuk hasil cluster berikutnya, yaitu :
Gambar 2.9 : matriks jarak ketigasingle linkage
Jarak terdekat berikutnya yang paling kecil antara pasangan cluster adalah 24 = 5. Kemudian gabung objek 4 dan 2 untuk mendapatkan cluster 24.
Saat ini sudah mempunyai 2 cluster yang berlainan, 135 dan 24, maka jarak terdekatnya, yaitu
- d 135 24 = min { d 135 2 , d 135 4 } = min {7, 6} = 6
Proses perhitungan sudah selesai karena cluster sudah tersisa satu. Dari hasil diatas menghasilkan matriks jarak yang terakhir dan dendrogramnya
sebagai berikut :
Gambar 2.10 : matriks jarak terakhirsingle linkage
Gambar 2.11: Dendrogram single linkage untuk jarak antara 5 obyek
b. Jarak maksimum antara elemen dalam cluster complete linkage.
Pada complete linkage, semua item dalam satu cluster berada dalam jarak paling jauh satu sama lain. Pada complete linkage ini menggunakan
matriks jarak pertama yang digunakan untuk menghitung single linkage.
Pada tahap pertama objek- objek 3 dan 5 digabung karena jaraknya paling dekat. Perbedaan single linkagedengan complete linkageadalah pemilihan
jaraknya. Setelah dihitung maka akan menghasilkan matriks jarak baru. Kolom dan baris 3 dan 5 akan dihapus untuk membentuk cluster 35.
- d 35 1 = maks { d 31, d 51} = maks {3, 11} = 11
- d 35 2 = maks { d 32, d 52} = maks {7, 10} = 10
- d 35 4 = maks { d 34, d 54} = maks { 9, 8} = 9
Gambar 2.12 : matriks jarak keduacomplete linkage Penggabungan berikutnya terjadi antara kelompok yang paling dekat 2 dan
4 untuk membentuk cluster 24 = 5. Pada tahap ini menghasilkan matrik jarak yang baru dengan menghapus baris dan kolom yang bersesuaian.
- d 2435 = maks { d 235, d 435} = maks {10, 9} = 10
- d 241 = maks { d 21, d 41} = 9
Gambar 2.13: matriks jarak ketigacomplete linkage Penggabungan berikutnya menghasilkan cluster 124. Pada tahap akhir
kelompok 35 dan 124 digabungkan menjadi cluster tunggal 12345 pada perhitungan d 12435 = maks { d 135 , d 2435 } = maks {11,
10} = 11. Dari hasil inilah maka dapat dibuat bentuk dendrogramnya seperti pada gambar dibawah ini.
Gambar 2.14 : dendrogram complete linkage untuk jarak 5 objek
c. Rata-rata jarak antara elemen dari setiap cluster average linkage.
Pada average linkage, jarak antara dua cluster dihitung sebagai jarak rata- rata antara semua pasangan item-item yang ada pada tiap cluster. Pada
average linkageini juga masih menggunakan matriks jarak pertama. Pada tahap pertama objek 3 dan 5 digabung karena mereka paling dekat
jaraknya. Pada tahap kedua, hitung jarak seperti dibawah ini. -
d 35 1 = { d 31+ d 51} 2 = {3 +11} 2 = 7 -
d 35 2 = { d 32 + d 52}2 = {7 + 10}2 = 8,5 -
d 35 4 = { d 34 + d 54}2 = { 9 + 8}2 = 8,5
Gambar 2.15 : matriks jarak keduaaverage linkage
Kemudian cari jarak yang paling dekat berikutnya. Kelompok yang paling mirip adalah 2 dan 4 untuk membentuk cluster 24 = 5. Pada tahap ketiga,
hitung gabungan cluster untuk menghasilkan matrik jarak yang baru. -
d 2435 = {d 2,3 + d2,5 + d4,3 +d4,5 }4 = 7+10+9+84 = 8,5 -
d 241 = { d 2,1 + d 4,1 }2 = 9+62 = 7,5
Gambar 2.16: Matriks jarak ketigaaverage linkage
Pada tahap ini, jarak yang paling dekat menghasilkan cluster 135. Kemudian cluster 135 dan 24 digabungkan menjadi cluster tunggal
13524. Perhitungan ini akan menghasilkan matriks jarak baru dan dendrogram.
- d 13524 = { d 2,1+ d 2,3 + d 2,5 + d 4,1+ d 4,3 + d
4,5 }6 = 496 =8,17
Gambar 2.17: matriks jarak terakhir average linkage
Gambar 2.18 : Dendrogram average linkage untuk jarak 5 obyek.
Setelah proses perhitungan dengan single linkage, average linkage dan complete
linkage, maka
dibuatkan dendrogram
untuk mengetahui
pengelompokkan dari hasil perhitungan tersebut. Pada, agglomerative hierarchical clustering, dapat menentukan jumlah cluster dengan cara memotong
dendrogram pada jarak tertentu. Contohnya pada gambar dibawah ini. Pada gambar 2.21 dapat dilihat bahwa cluster terbagi menjadi 2. Cluster 1 berisi obyek
1, 3 dan 5, sedangkan cluster 2 berisi obyek 2 dan 4.
Gambar 2.19 : Dendrogram yang sudah dilakukan pemotongan cut-off Cut off
2.4 Dimensionality Reduction