Teknik Analisis Cluster Hirarki

Untuk clustering Hirarki, menggabungkan atau memisahkan subset dari point- point dan bukan point-point individual, jarak antara point-point individu harus digeneralisasikan terhadap jarak antara subset. Ukuran kedekatan yang diperoleh disebut matrik hubungan. Tipe matrik hubungan yang digunakan secara signifikan mempengaruhi algoritma Hirarki, karena merefleksikan konsep tertentu dari kedekatan dan konektivitas. Matrik hubungan antar cluster utama Murtagh 1985, Olson 1995 termasuk hubungan tunggal, hubungan rata-rata, dan hubungan sempurna. Semua matrik hubungan diatas dapat diperoleh sebagai jarak dari pembaharuan formula Lance-Williams Lance Williams, 1967. DC i · · C j , C k = ɑ i d C i , C k + ɑ k d C j , C k + bd C i , C j + c | d C i , C k – d C j , C j | Dimana a, b, c adalah koefisien-koefisien yang sesuai dengan hubungan tertentu. Formula ini menyatakan sebuah matrik hubungan antara kesatuan dari dua cluster dan cluster ketiga dalam bentuk komponen-komponen yang mendasari. Clustering Hirarki berdasarkan matrik hubungan mengalami kompleksitas waktu. Dibawah asumsi-asumsi yang tepat, seperti kondisi daya reduksi metode- metode grafik memenuhi kondisi ini, metode-metode matrik hubungan memiliki kompleksitas N 2 Olson 1995.

2.5 Teknik Analisis Cluster Hirarki

Teknik analisis Cluster Hirarki adalah teknik clustering membentuk hirarki berdasarkan tingkatan tertentu seperti struktur pohon struktur pertandingan. Dengan demikian proses pengelompokannya dilakukan secara bertingkat atau bertahap. Teknik analisis cluster hirarki dapat dibedakan ke dalam dua metode. Perbedaan kedua metode dapat dilihat di bawah : Gambar 2.2. Dendrogram Hierarchical Clustering : Agglomeartive, Divisive Sayad, 2010 Metode Divisive dimulai dari satu cluster yang terdiri dari elemen x, sedangkan metode Agglomerative dimulai dari n cluster Maulvi, 2009. - Metode Agglomerative Metode ini dimulai dari dengan kenyataan bahwa setiap obyek membentuk clusternya masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya obyek akan bergabung dengan cluster yang ada atau bersama obyek lain dan membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar obyek. Proses akan berlanjut hingga akhirnya terbentuk satu cluster yang terdiri dari keseluruhan obyek. Diasumsikan jarak matrix d ij pada setiap obyek C = { 1, ........., n}. Menurut Kusrini Kusrini, 2009, langkah-langkah dalam algoritma clustering hirarki agglomerative untuk mengelompokkan N objek itemvariabel : 1. Mulai dengan N cluster, setiap cluster mengandung entitas tunggal dan sebuah matriks simetrik dari jarak similarities D = {dik} dengan tipe NxN. 2. Cari matriks jarak untuk pasangan cluster yang terdekat paling mirip. Misalkan jarak antara cluster U dan V yang paling mirip adalah duv. 3. Gabungkan cluster U dan V. Label cluster yang baru dibentuk dengan UV. Update entries pada matrik jarak dengan cara : a. Hapus baris dan kolom yang bersesuaian dengan cluster U dan V b. Tambahkan baris dan kolom yang memberikan jarak-jarak antara cluster UV dan cluster-cluster yang tersisa. 4. Ulangi langkah 2 dan 3 sebanyak N-1 kali. Semua objek akan berada dalam cluster tunggal setelah algoritma berahir. Catat identitas dari cluster yang digabungkan dan tingkat-tingkat jarak atau similaritas di mana penggabungan terjadi. Terdapat 3 metode dalam pembentukan cluster, yaitu : o Single Linkage nearest neighbor methods Metode ini menggunakan prinsip jarak minimum yang di awali dengan mencari dua obyek terdekat dan keduanya membentuk cluster pertama. Jarak antara dua cluster Cr, Cs dihitung oleh : D CrCs = min {D ij } i € Crj € Cs dan cluster Cr dan Cs : D CrCs = min {D CiCj } i≠j Gambar 2.3. Hierarchical Clustering : Agglomeartive, Single Linkage Sayad, 2010 o Complete Linkage furthest neighbor methods Metode ini merupakan kebalikan dari pendekatan yang digunakan pada single linkage. Complete linkage memberikan kepastian bahwa semua item-item dalam satu cluster berada dalam jarak paling jauh similaritas terkecil satu sama lain. Jarak dihitung menggunakan rumus : Cluster Cr dan Cs akan tergabung apabila : Gambar 2.4. Hierarchical Clustering : Agglomeartive, Complete Linkage Sayad, 2010 o Average Linkage Pada average linkage, jarak antara dua cluster didefinisikan sebagai jarak rata-rata antara setiap titik dalam satu cluster untuk setiap titik di cluster lain. Misalnya, jarak antara cluster r dan s di sebelah kiri adalah sama dengan panjang rata-rata setiap anak panah yang menghubungkan titik-titik satu cluster dengan yang lain. Gambar 2.5. Hierarchical Clustering : Agglomeartive, Average Linkage Sayad, 2010

2.6 Fungsi Jarak