10 pohon yang berfungsi sebagai diagram yang mencatat urutan dari penggabungan
atau pemisahan seperti pada gambar berikut :
Ada dua tipe utama hierarchical clustering , yaitu divisive dan agglomerative Tan,Steinbach,dkk 2004
: Agglomerative:
1. Mulai dengan titik-titik sebagai individual clusters. 2. Pada tiap langkah,gabungkan pasangan cluster terdekat sampai hanya
terdapat satu cluster atau k cluster yang tersisa
Divisive :
1. Mulai dengan satu,semua inclusive cluster. 2. Pada tiap langkah,pisahkan sebuah cluster sampai tiap cluster terdiri dari
sebuah titikatau ada k cluster. Tradisional algoritma hirarikal menggunakan sebuah matriks similaritas atau
matriks jarak dengan menggabungkan atau memisahkan satu cluster dalam tiap langkahnya.
2.2.3 Konsep Agglomerative Hierarchical Clustering
Beberapa metode hierarchical clustering yang sering digunakan dibedakan menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang
menggunakan Single Linkage, Complete-linkage, Average-linkage.. Seperti juga
Gambar 2. 2 Pengelompokan cluster dendrogram dan kedekatan data Tan,Steinbach,dkk 2004
11 halnya dengan partition-based clustering, bisa juga memilih jenis jarak yang
digunakan untuk menghitung tingkat kemiripan antar data.
Salah satu cara untuk mempermudah pengembangan dendogram untuk hierarchical clustering ini adalah dengan membuat similarity matrix yang memuat
tingkat kemiripan antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti dengan Euclidean distance. Berawal
dari similarity matrix ini, dapat menggunakan lingkage jenis mana yang akan digunakan untuk mengelompokkan data yang dianalisa.Berikut adalah langkah
dalam pengelompokan dengan agglomerative clutering : 1 Hitung matrix jarak,jika diperlukan
2 Ulangi langkah 3 dan 4, 3 Gabungkan 2 cluster terdekat
4 Kemudian perbarui matrix jarak antara 2 cluster terdekat pada langkah 3 kemudian bentuk cluster baru
5 Sampai hanya tersisa sati cluster Tan,Steinbach,dkk 2004
Untuk perhitungan jarak Single-linkage, Complete-linkage dan Average-
linkageseprti pada rumus berikut :
a. Single-linkage merupakan merupakan jarak minimum antara setiap data terdekat. Metode ini akan mengelompokkan dua objek yang mempunyai
jarak terdekat terlebih dahulu, dapat didefinisikan sebagai berikut :
di,jk = mindik, djk
Gambar 2. 3 Perbedaan perhitungan jarakTan,Steinbach,dkk 2004
12 2.3
Keterangan : - Jarak terkecil antar kelompok I,j dengan k
b. Complete-linkage merupakan merupakan jarak maximum antara setiap data terdekat,
Metode ini akan mengelompokkan dua objek yang mempunyai jarak terjauh terlebih dahulu, dapat didefinisikan sebagai
berikut :
di,jk = Maxdik, djk
2.4 Keterangan :
- Jarak terbesar antar kelompok I,j dengan k
c. Average-linkage merupakan merupakan rata-rata jarak antara setiap data terdekat.
Metode ini mengelompokkan objek berdasarkan jarak rata- rata yang didapat dengan melakukan rata-rata semua jarak objek terlebih
dahulu. dapat didefinisikan sebagai berikut :
di,jk = Averagedik, djk
2.5 Keterangan :
- Jarak rata-rata antar kelompok I,j dengan k
Pada sistem ini menggunakan Single-linkage,Complete-linkage dan Avarage-Linkage ,dibawah ini adalah contoh data yang belum dihitung jarak
kedekatanya . Dalam penelitian ini menghitung jarak kedekatan dengan Euclidean distance
Distance =
√∑
13 2.6
Keterangan : - n adalah jumlah atribut atau dimensi
- Pk dan Qk adalah data yang akan dihitung jaraknya
Tabel 2. 2 Contoh data
Setelah dihitung jarak antar obyek maka dibuatkan matriks jarak yaitu memnghitung nilai dari jarak A sampai E dan matriks ini bersifat simetris
Dalam penghitungan jarak kemiripan akan dilakukan 3 cara menghitung kemiripan :
a. Jarak minimum SingleLinkage
Pada Single-linkage kemiripan data dicari dari nilai jarak yang paling minimum yaitu 11.1803 pada titik 1,4
Nama Berat1
Berat2
1 50
20 2
35 10
3 30
20 4
45 30
5 10
50
Tabel 2. 3 Hasil Euclidean disteance dari contoh data
Tabel 2. 4 pencarian jarak terdekat single iterasi 1
14 Pertama adalah mencari nilai minimum pada matrix kedekatan yang sudah
dihitung menggunakan Euclidean distance ,yaitu 1 dan 4 memiliki nilai minimum kemudian kedua objek tersebut digabungkan menjadi cluster 14 ,dan objek lain
yang tersisa adalah 2,3 dan 5 .dengan jarak : Min {2,1 dan 2,4} = 18,0278
Min {3,1 dan 3,4} = 18,0278 Min {5,1 dan 5,4} = 40.3113
Setelah mendapatkan nilai minimalnya hapus objek 1 atau 4 untuk membentuk 1 cluster baru yaitu 14.maka akan menjadi table seperti di bawah
dengan cluster baru yaitu 14.
kedua mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster 1423 dan 5 didapatkan cluster 2 dan 3 memiliki nilai
minimum dengan nilai 11,1803,kemudian gabungkan menjadi cluster 23 dengan cluster yang tersisa adalah 14 dan 5 .dengan jarak :
Min {14,2 dan 14,3} = 18,0278 Min {5,2 dan 5,3} = 36.0555
Setelah mendapatkan nilai minimalnya hapus objek 2 atau 3 untuk membentuk 1 cluster baru yaitu 23.maka akan menjadi table seperti di bawah
dengan cluster baru yaitu 23.
Tabel 2. 5 Hasil pencarian jarak terdekat single iterasi 1
Tabel 2. 6 Pencarian jarak terdekat single iterasi 2
15 ketiga mencari nilai minimum pada matrix kedekatan antara cluster yang
tersisa yaitu cluster 1423 dan 5 didapatkan cluster 14 dan 23 memiliki nilai minimum dengan nilai 18,0278,kemudian gabungkan menjadi cluster 1423
dengan cluster yang tersisa adalah 5 .dengan jarak : Min {1423,5 dan 1423,5} = 36.0555
Setelah mendapatkan nilai minimalnya hapus objek 14 atau 23 untuk membentuk 1 cluster baru yaitu 1423.maka akan menjadi table seperti di bawah
dengan cluster baru yaitu 1423.
Setelah terbentuk menjadi 2 cluster kita dapat menggambarkan dendogramnya sebagai berikut :
Tabel 2. 7 Hasil pencarian jarak terdekat single iterasi 2
Tabel 2. 8 Pencarian jarak terdekat single iterasi 3
Tabel 2. 9 Hasil cluster single-linkage
16 Cluster 1 dan 4 adalah cluster yang terbentuk pertama , kemudian pada 2
dan 3 adalah pembentukan cluster ke 2 , kemudian pada pembentukan cluster ketiga cluster 14 dan 23 bergabung menjadi cluster 1423 , kemudian tersisa
cluster 5 yang otomatis menjadi cluster terakhir dan bergabung bersama cluster 1423 menjadi 1 cluster utuh yaitu 14235, untuk melihat pembagian cluster kita
dapat melakukan cut-off pada dendogram.
b. Jarak Maximum CompleteLinkage
Pertama adalah mencari nilai minimum pada matrix kedekatan yang sudah dihitung menggunakan Euclidean distance ,yaitu 1 dan 4 memiliki nilai minimum
kemudian kedua objek tersebut digabungkan menjadi cluster 14 ,dan objek lain yang tersisa adalah 2,3 dan 5 .dengan jarak :
Max {2,1 dan 2,4} = 22.3607 Max {3,1 dan 3,4} = 20
Gambar 2. 4 Hasil dendrogram untuk cluster single-linkage
Tabel 2. 10 Pencarian jarak terdekat complete iterasi 1
17 Max {5,1 dan 5,4} = 50
Setelah mendapatkan nilai minimalnya hapus objek 1 atau 4 untuk membentuk 1 cluster baru yaitu 14.maka akan menjadi table seperti di bawah
dengan cluster baru yaitu 14.
kedua mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster 1423 dan 5 didapatkan cluster 2 dan 3 memiliki nilai
minimum dengan nilai 11,1803,kemudian gabungkan menjadi cluster 23 dengan cluster yang tersisa adalah 14 dan 5 .dengan jarak :
Max {14,2 dan 14,3} = 22.3607 Max {5,2 dan 5,3} = 471699
Setelah mendapatkan nilai minimalnya hapus objek 2 atau 3 untuk membentuk 1 cluster baru yaitu 23.maka akan menjadi table seperti di bawah
dengan cluster baru yaitu 23.
Tabel 2. 11 Hasil pencarian jarak terdekat complete iterasi 1
Tabel 2. 12 Pencarian jarak terdekat complete iterasi 2
Tabel 2. 13 Pencarian jarak terdekat complete iterasi 3
18 ketiga mencari nilai minimum pada matrix kedekatan antara cluster yang
tersisa yaitu cluster 1423 dan 5 didapatkan cluster 14 dan 23 memiliki nilai minimum dengan nilai 18,0278,kemudian gabungkan menjadi cluster 1423
dengan cluster yang tersisa adalah 5 .dengan jarak : Max {1423,5 dan 1423,5} = 50
Setelah mendapatkan nilai minimalnya hapus objek 14 atau 23 untuk membentuk 1 cluster baru yaitu 1423.maka akan menjadi table seperti di bawah
dengan cluster baru yaitu 1423.
Setelah terbentuk menjadi 2 cluster kita dapat menggambarkan dendogramnya sebagai berikut :
Tabel 2. 14 Hasil pencarian jarak terdekat complete iterasi 3
Tabel 2. 15 Hasil cluster complete-linkage
Gambar 2. 5 Hasil dendrogram untuk cluster single-linkage
19 Cluster 1 dan 4 adalah cluster yang terbentuk pertama , kemudian pada 2
dan 3 adalah pembentukan cluster ke 2 , kemudian pada pembentukan cluster ketiga cluster 14 dan 23 bergabung menjadi cluster 1423 , kemudian tersisa
cluster 5 yang otomatis menjadi cluster terakhir dan bergabung bersama cluster 1423 menjadi 1 cluster utuh yaitu 14235, untuk melihat pembagian cluster kita
dapat melakukan cut-off pada dendogram.
c. Jarak Rata-Rata AverageLinkage
Pertama adalah mencari nilai minimum pada matrix kedekatan yang sudah dihitung menggunakan Euclidean distance ,yaitu 1 dan 4 memiliki nilai minimum
kemudian kedua objek tersebut digabungkan menjadi cluster 14 ,dan objek lain yang tersisa adalah 2,3 dan 5 .dengan jarak :
Average {2,1 dan 2,4} = 20,1942 Average {3,1 dan 3,4} = 19,0139
Average {5,1 dan 5,4} = 45.5155 Setelah mendapatkan nilai minimalnya hapus objek 1 atau 4 untuk
membentuk 1 cluster baru yaitu 14.maka akan menjadi table seperti di bawah dengan cluster baru yaitu 14.
Tabel 2. 16 Pencarian jarak terdekat average iterasi 1
Tabel 2. 17 Hasil pencarian jarak terdekat average iterasi 1
20 kedua mencari nilai minimum pada matrix kedekatan antara cluster yang
tersisa yaitu cluster 1423 dan 5 didapatkan cluster 2 dan 3 memiliki nilai minimum dengan nilai 11,1803,kemudian gabungkan menjadi cluster 23 dengan
cluster yang tersisa adalah 14 dan 5 .dengan jarak : Average {14,2 dan 14,3} = 19,604
Average {5,2 dan 5,3} = 41.6127 Setelah mendapatkan nilai minimalnya hapus objek 2 atau 3 untuk
membentuk 1 cluster baru yaitu 23.maka akan menjadi table seperti di bawah dengan cluster baru yaitu 23.
ketiga mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster 1423 dan 5 didapatkan cluster 14 dan 23 memiliki
nilai minimum dengan nilai 18,0278,kemudian gabungkan menjadi cluster 1423 dengan cluster yang tersisa adalah 5 .dengan jarak :
Average {1423,5 dan 1423,5} = 43.384
Tabel 2. 18 Pencarian jarak terdekat average iterasi 2
Tabel 2. 19 Hasil pencarian jarak terdekat average iterasi 2
Tabel 2. 20 Pencarian jarak terdekat average iterasi 3
21 Setelah mendapatkan nilai minimalnya hapus objek 14 atau 23 untuk
membentuk 1 cluster baru yaitu 1423.maka akan menjadi table seperti di bawah dengan cluster baru yaitu 1423.
Setelah terbentuk menjadi 2 cluster kita dapat menggambarkan dendogramnya sebagai berikut :
Cluster 1 dan 4 adalah cluster yang terbentuk pertama , kemudian pada 2 dan 3 adalah pembentukan cluster ke 2 , kemudian pada pembentukan cluster
ketiga cluster 14 dan 23 bergabung menjadi cluster 1423 , kemudian tersisa cluster 5 yang otomatis menjadi cluster terakhir dan bergabung bersama cluster
1423 menjadi 1 cluster utuh yaitu 14235, untuk melihat pembagian cluster kita dapat melakukan cut-off pada dendogram.
Tabel 2. 21 Hasil cluster average-linkage
Gambar 2. 6 Hasil dendrogram untuk cluster average-linkage
22
2.3 Dimensionality Reduction