Konsep Agglomerative Hierarchical Clustering

10 pohon yang berfungsi sebagai diagram yang mencatat urutan dari penggabungan atau pemisahan seperti pada gambar berikut : Ada dua tipe utama hierarchical clustering , yaitu divisive dan agglomerative Tan,Steinbach,dkk 2004 : Agglomerative: 1. Mulai dengan titik-titik sebagai individual clusters. 2. Pada tiap langkah,gabungkan pasangan cluster terdekat sampai hanya terdapat satu cluster atau k cluster yang tersisa Divisive : 1. Mulai dengan satu,semua inclusive cluster. 2. Pada tiap langkah,pisahkan sebuah cluster sampai tiap cluster terdiri dari sebuah titikatau ada k cluster. Tradisional algoritma hirarikal menggunakan sebuah matriks similaritas atau matriks jarak dengan menggabungkan atau memisahkan satu cluster dalam tiap langkahnya.

2.2.3 Konsep Agglomerative Hierarchical Clustering

Beberapa metode hierarchical clustering yang sering digunakan dibedakan menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang menggunakan Single Linkage, Complete-linkage, Average-linkage.. Seperti juga Gambar 2. 2 Pengelompokan cluster dendrogram dan kedekatan data Tan,Steinbach,dkk 2004 11 halnya dengan partition-based clustering, bisa juga memilih jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data. Salah satu cara untuk mempermudah pengembangan dendogram untuk hierarchical clustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti dengan Euclidean distance. Berawal dari similarity matrix ini, dapat menggunakan lingkage jenis mana yang akan digunakan untuk mengelompokkan data yang dianalisa.Berikut adalah langkah dalam pengelompokan dengan agglomerative clutering : 1 Hitung matrix jarak,jika diperlukan 2 Ulangi langkah 3 dan 4, 3 Gabungkan 2 cluster terdekat 4 Kemudian perbarui matrix jarak antara 2 cluster terdekat pada langkah 3 kemudian bentuk cluster baru 5 Sampai hanya tersisa sati cluster Tan,Steinbach,dkk 2004 Untuk perhitungan jarak Single-linkage, Complete-linkage dan Average- linkageseprti pada rumus berikut : a. Single-linkage merupakan merupakan jarak minimum antara setiap data terdekat. Metode ini akan mengelompokkan dua objek yang mempunyai jarak terdekat terlebih dahulu, dapat didefinisikan sebagai berikut : di,jk = mindik, djk Gambar 2. 3 Perbedaan perhitungan jarakTan,Steinbach,dkk 2004 12 2.3 Keterangan : - Jarak terkecil antar kelompok I,j dengan k b. Complete-linkage merupakan merupakan jarak maximum antara setiap data terdekat, Metode ini akan mengelompokkan dua objek yang mempunyai jarak terjauh terlebih dahulu, dapat didefinisikan sebagai berikut : di,jk = Maxdik, djk 2.4 Keterangan : - Jarak terbesar antar kelompok I,j dengan k c. Average-linkage merupakan merupakan rata-rata jarak antara setiap data terdekat. Metode ini mengelompokkan objek berdasarkan jarak rata- rata yang didapat dengan melakukan rata-rata semua jarak objek terlebih dahulu. dapat didefinisikan sebagai berikut : di,jk = Averagedik, djk 2.5 Keterangan : - Jarak rata-rata antar kelompok I,j dengan k Pada sistem ini menggunakan Single-linkage,Complete-linkage dan Avarage-Linkage ,dibawah ini adalah contoh data yang belum dihitung jarak kedekatanya . Dalam penelitian ini menghitung jarak kedekatan dengan Euclidean distance Distance = √∑ 13 2.6 Keterangan : - n adalah jumlah atribut atau dimensi - Pk dan Qk adalah data yang akan dihitung jaraknya Tabel 2. 2 Contoh data Setelah dihitung jarak antar obyek maka dibuatkan matriks jarak yaitu memnghitung nilai dari jarak A sampai E dan matriks ini bersifat simetris Dalam penghitungan jarak kemiripan akan dilakukan 3 cara menghitung kemiripan : a. Jarak minimum SingleLinkage Pada Single-linkage kemiripan data dicari dari nilai jarak yang paling minimum yaitu 11.1803 pada titik 1,4 Nama Berat1 Berat2 1 50 20 2 35 10 3 30 20 4 45 30 5 10 50 Tabel 2. 3 Hasil Euclidean disteance dari contoh data Tabel 2. 4 pencarian jarak terdekat single iterasi 1 14 Pertama adalah mencari nilai minimum pada matrix kedekatan yang sudah dihitung menggunakan Euclidean distance ,yaitu 1 dan 4 memiliki nilai minimum kemudian kedua objek tersebut digabungkan menjadi cluster 14 ,dan objek lain yang tersisa adalah 2,3 dan 5 .dengan jarak : Min {2,1 dan 2,4} = 18,0278 Min {3,1 dan 3,4} = 18,0278 Min {5,1 dan 5,4} = 40.3113 Setelah mendapatkan nilai minimalnya hapus objek 1 atau 4 untuk membentuk 1 cluster baru yaitu 14.maka akan menjadi table seperti di bawah dengan cluster baru yaitu 14. kedua mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster 1423 dan 5 didapatkan cluster 2 dan 3 memiliki nilai minimum dengan nilai 11,1803,kemudian gabungkan menjadi cluster 23 dengan cluster yang tersisa adalah 14 dan 5 .dengan jarak : Min {14,2 dan 14,3} = 18,0278 Min {5,2 dan 5,3} = 36.0555 Setelah mendapatkan nilai minimalnya hapus objek 2 atau 3 untuk membentuk 1 cluster baru yaitu 23.maka akan menjadi table seperti di bawah dengan cluster baru yaitu 23. Tabel 2. 5 Hasil pencarian jarak terdekat single iterasi 1 Tabel 2. 6 Pencarian jarak terdekat single iterasi 2 15 ketiga mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster 1423 dan 5 didapatkan cluster 14 dan 23 memiliki nilai minimum dengan nilai 18,0278,kemudian gabungkan menjadi cluster 1423 dengan cluster yang tersisa adalah 5 .dengan jarak : Min {1423,5 dan 1423,5} = 36.0555 Setelah mendapatkan nilai minimalnya hapus objek 14 atau 23 untuk membentuk 1 cluster baru yaitu 1423.maka akan menjadi table seperti di bawah dengan cluster baru yaitu 1423. Setelah terbentuk menjadi 2 cluster kita dapat menggambarkan dendogramnya sebagai berikut : Tabel 2. 7 Hasil pencarian jarak terdekat single iterasi 2 Tabel 2. 8 Pencarian jarak terdekat single iterasi 3 Tabel 2. 9 Hasil cluster single-linkage 16 Cluster 1 dan 4 adalah cluster yang terbentuk pertama , kemudian pada 2 dan 3 adalah pembentukan cluster ke 2 , kemudian pada pembentukan cluster ketiga cluster 14 dan 23 bergabung menjadi cluster 1423 , kemudian tersisa cluster 5 yang otomatis menjadi cluster terakhir dan bergabung bersama cluster 1423 menjadi 1 cluster utuh yaitu 14235, untuk melihat pembagian cluster kita dapat melakukan cut-off pada dendogram. b. Jarak Maximum CompleteLinkage Pertama adalah mencari nilai minimum pada matrix kedekatan yang sudah dihitung menggunakan Euclidean distance ,yaitu 1 dan 4 memiliki nilai minimum kemudian kedua objek tersebut digabungkan menjadi cluster 14 ,dan objek lain yang tersisa adalah 2,3 dan 5 .dengan jarak : Max {2,1 dan 2,4} = 22.3607 Max {3,1 dan 3,4} = 20 Gambar 2. 4 Hasil dendrogram untuk cluster single-linkage Tabel 2. 10 Pencarian jarak terdekat complete iterasi 1 17 Max {5,1 dan 5,4} = 50 Setelah mendapatkan nilai minimalnya hapus objek 1 atau 4 untuk membentuk 1 cluster baru yaitu 14.maka akan menjadi table seperti di bawah dengan cluster baru yaitu 14. kedua mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster 1423 dan 5 didapatkan cluster 2 dan 3 memiliki nilai minimum dengan nilai 11,1803,kemudian gabungkan menjadi cluster 23 dengan cluster yang tersisa adalah 14 dan 5 .dengan jarak : Max {14,2 dan 14,3} = 22.3607 Max {5,2 dan 5,3} = 471699 Setelah mendapatkan nilai minimalnya hapus objek 2 atau 3 untuk membentuk 1 cluster baru yaitu 23.maka akan menjadi table seperti di bawah dengan cluster baru yaitu 23. Tabel 2. 11 Hasil pencarian jarak terdekat complete iterasi 1 Tabel 2. 12 Pencarian jarak terdekat complete iterasi 2 Tabel 2. 13 Pencarian jarak terdekat complete iterasi 3 18 ketiga mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster 1423 dan 5 didapatkan cluster 14 dan 23 memiliki nilai minimum dengan nilai 18,0278,kemudian gabungkan menjadi cluster 1423 dengan cluster yang tersisa adalah 5 .dengan jarak : Max {1423,5 dan 1423,5} = 50 Setelah mendapatkan nilai minimalnya hapus objek 14 atau 23 untuk membentuk 1 cluster baru yaitu 1423.maka akan menjadi table seperti di bawah dengan cluster baru yaitu 1423. Setelah terbentuk menjadi 2 cluster kita dapat menggambarkan dendogramnya sebagai berikut : Tabel 2. 14 Hasil pencarian jarak terdekat complete iterasi 3 Tabel 2. 15 Hasil cluster complete-linkage Gambar 2. 5 Hasil dendrogram untuk cluster single-linkage 19 Cluster 1 dan 4 adalah cluster yang terbentuk pertama , kemudian pada 2 dan 3 adalah pembentukan cluster ke 2 , kemudian pada pembentukan cluster ketiga cluster 14 dan 23 bergabung menjadi cluster 1423 , kemudian tersisa cluster 5 yang otomatis menjadi cluster terakhir dan bergabung bersama cluster 1423 menjadi 1 cluster utuh yaitu 14235, untuk melihat pembagian cluster kita dapat melakukan cut-off pada dendogram. c. Jarak Rata-Rata AverageLinkage Pertama adalah mencari nilai minimum pada matrix kedekatan yang sudah dihitung menggunakan Euclidean distance ,yaitu 1 dan 4 memiliki nilai minimum kemudian kedua objek tersebut digabungkan menjadi cluster 14 ,dan objek lain yang tersisa adalah 2,3 dan 5 .dengan jarak : Average {2,1 dan 2,4} = 20,1942 Average {3,1 dan 3,4} = 19,0139 Average {5,1 dan 5,4} = 45.5155 Setelah mendapatkan nilai minimalnya hapus objek 1 atau 4 untuk membentuk 1 cluster baru yaitu 14.maka akan menjadi table seperti di bawah dengan cluster baru yaitu 14. Tabel 2. 16 Pencarian jarak terdekat average iterasi 1 Tabel 2. 17 Hasil pencarian jarak terdekat average iterasi 1 20 kedua mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster 1423 dan 5 didapatkan cluster 2 dan 3 memiliki nilai minimum dengan nilai 11,1803,kemudian gabungkan menjadi cluster 23 dengan cluster yang tersisa adalah 14 dan 5 .dengan jarak : Average {14,2 dan 14,3} = 19,604 Average {5,2 dan 5,3} = 41.6127 Setelah mendapatkan nilai minimalnya hapus objek 2 atau 3 untuk membentuk 1 cluster baru yaitu 23.maka akan menjadi table seperti di bawah dengan cluster baru yaitu 23. ketiga mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster 1423 dan 5 didapatkan cluster 14 dan 23 memiliki nilai minimum dengan nilai 18,0278,kemudian gabungkan menjadi cluster 1423 dengan cluster yang tersisa adalah 5 .dengan jarak : Average {1423,5 dan 1423,5} = 43.384 Tabel 2. 18 Pencarian jarak terdekat average iterasi 2 Tabel 2. 19 Hasil pencarian jarak terdekat average iterasi 2 Tabel 2. 20 Pencarian jarak terdekat average iterasi 3 21 Setelah mendapatkan nilai minimalnya hapus objek 14 atau 23 untuk membentuk 1 cluster baru yaitu 1423.maka akan menjadi table seperti di bawah dengan cluster baru yaitu 1423. Setelah terbentuk menjadi 2 cluster kita dapat menggambarkan dendogramnya sebagai berikut : Cluster 1 dan 4 adalah cluster yang terbentuk pertama , kemudian pada 2 dan 3 adalah pembentukan cluster ke 2 , kemudian pada pembentukan cluster ketiga cluster 14 dan 23 bergabung menjadi cluster 1423 , kemudian tersisa cluster 5 yang otomatis menjadi cluster terakhir dan bergabung bersama cluster 1423 menjadi 1 cluster utuh yaitu 14235, untuk melihat pembagian cluster kita dapat melakukan cut-off pada dendogram. Tabel 2. 21 Hasil cluster average-linkage Gambar 2. 6 Hasil dendrogram untuk cluster average-linkage 22

2.3 Dimensionality Reduction