Untuk clustering Hirarki, menggabungkan atau memisahkan subset dari point- point dan bukan point-point individual, jarak antara point-point individu harus
digeneralisasikan terhadap jarak antara subset. Ukuran kedekatan yang diperoleh disebut matrik hubungan. Tipe matrik
hubungan yang digunakan secara signifikan mempengaruhi algoritma Hirarki, karena merefleksikan konsep tertentu dari kedekatan dan konektivitas. Matrik
hubungan antar cluster utama Murtagh 1985, Olson 1995 termasuk hubungan tunggal, hubungan rata-rata, dan hubungan sempurna. Semua matrik hubungan
diatas dapat diperoleh sebagai jarak dari pembaharuan formula Lance-Williams Lance Williams, 1967.
DC
i
· · C
j
, C
k
=
ɑ i d
C
i
, C
k
+
ɑ k d
C
j
, C
k
+
bd
C
i
, C
j
+
c
|
d
C
i
, C
k
–
d
C
j
, C
j
|
Dimana a, b, c adalah koefisien-koefisien yang sesuai dengan hubungan tertentu. Formula ini menyatakan sebuah matrik hubungan antara kesatuan dari dua cluster
dan cluster ketiga dalam bentuk komponen-komponen yang mendasari. Clustering Hirarki berdasarkan matrik hubungan mengalami kompleksitas
waktu. Dibawah asumsi-asumsi yang tepat, seperti kondisi daya reduksi metode- metode grafik memenuhi kondisi ini, metode-metode matrik hubungan memiliki
kompleksitas N
2
Olson 1995.
2.5 Teknik Analisis Cluster Hirarki
Teknik analisis Cluster Hirarki adalah teknik clustering membentuk hirarki berdasarkan tingkatan tertentu seperti struktur pohon struktur
pertandingan. Dengan demikian proses pengelompokannya dilakukan secara bertingkat atau bertahap. Teknik analisis cluster hirarki dapat dibedakan ke dalam
dua metode. Perbedaan kedua metode dapat dilihat di bawah :
Gambar 2.2.
Dendrogram Hierarchical Clustering : Agglomeartive, Divisive Sayad, 2010
Metode Divisive dimulai dari satu cluster yang terdiri dari elemen x, sedangkan metode Agglomerative dimulai dari n cluster Maulvi, 2009.
-
Metode Agglomerative Metode ini dimulai dari dengan kenyataan bahwa setiap obyek
membentuk clusternya masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya obyek akan bergabung dengan cluster yang
ada atau bersama obyek lain dan membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar obyek. Proses akan berlanjut hingga
akhirnya terbentuk satu cluster yang terdiri dari keseluruhan obyek. Diasumsikan jarak matrix d
ij
pada setiap obyek C = { 1, ........., n}. Menurut Kusrini Kusrini, 2009, langkah-langkah dalam algoritma
clustering hirarki agglomerative untuk mengelompokkan
N objek itemvariabel :
1. Mulai dengan N cluster, setiap cluster mengandung entitas tunggal dan
sebuah matriks simetrik dari jarak similarities D = {dik} dengan tipe NxN.
2. Cari matriks jarak untuk pasangan cluster yang terdekat paling mirip.
Misalkan jarak antara cluster U dan V yang paling mirip adalah duv. 3.
Gabungkan cluster U dan V. Label cluster yang baru dibentuk dengan UV. Update entries pada matrik jarak dengan cara :
a. Hapus baris dan kolom yang bersesuaian dengan cluster U dan V b. Tambahkan baris dan kolom yang memberikan jarak-jarak antara
cluster UV dan cluster-cluster yang tersisa. 4.
Ulangi langkah 2 dan 3 sebanyak N-1 kali. Semua objek akan berada dalam cluster tunggal setelah algoritma berahir. Catat identitas dari
cluster yang digabungkan dan tingkat-tingkat jarak atau similaritas di mana penggabungan terjadi.
Terdapat 3 metode dalam pembentukan cluster, yaitu : o
Single Linkage nearest neighbor methods Metode ini menggunakan prinsip jarak minimum yang di awali
dengan mencari dua obyek terdekat dan keduanya membentuk cluster pertama. Jarak antara dua cluster Cr, Cs dihitung oleh :
D
CrCs
= min {D
ij
} i
€
Crj
€
Cs
dan cluster Cr dan Cs : D
CrCs
= min {D
CiCj
}
i≠j
Gambar 2.3. Hierarchical Clustering : Agglomeartive, Single Linkage
Sayad, 2010
o Complete Linkage furthest neighbor methods
Metode ini merupakan kebalikan dari pendekatan yang digunakan pada single linkage. Complete linkage memberikan kepastian bahwa
semua item-item dalam satu cluster berada dalam jarak paling jauh similaritas terkecil satu sama lain. Jarak dihitung menggunakan rumus :
Cluster Cr dan Cs akan tergabung apabila :
Gambar 2.4. Hierarchical Clustering : Agglomeartive, Complete Linkage
Sayad, 2010
o Average Linkage
Pada average linkage, jarak antara dua cluster didefinisikan sebagai jarak rata-rata antara setiap titik dalam satu cluster untuk setiap
titik di cluster lain. Misalnya, jarak antara cluster r dan s di sebelah kiri adalah sama dengan panjang rata-rata setiap anak panah yang
menghubungkan titik-titik satu cluster dengan yang lain.
Gambar 2.5. Hierarchical Clustering : Agglomeartive, Average Linkage
Sayad, 2010
2.6 Fungsi Jarak