Hirarchial Clustering Heterogenitas external between cluster; yaitu perbedaan antara cluster

pada tahapan berikutnya berpindah ke cluster yang lain. Contoh : K-Means, residual analysis. 2. Hierarchical clustering Pada hierarchical clustering, Setiap data harus termasuk ke cluster tertentu. Dan suatu data yang termasuk ke cluster tertentu pada suatu tahapan proses, tidak dapat berpindah ke cluster lain pada tahapan berikutnya. Contoh: Single Linkage, Centroid Linkage,Complete Linkage, Average Linkage. 3. Overlapping clustering Dalam overlapping clustering, setiap data memungkinkan termasuk ke beberapa cluster. Data mempunyai nilai keanggotaan membership pada beberapa cluster. Contoh: Fuzzy C-means, Gaussian Mixture. 4. Hybrid Karakteristik hybrid adalah Mengawinkan karakteristik dari partitioning, overlapping dan hierarchical. Sesungguhnya dua metode paling umum dalam algoritma cluster adalah metode hirarki dan metode non hirarki. Penentuan metode mana yang akan dipakai tergantung kepada peneliti dan konteks penelitian dengan tidak mengabaikan substansi, teori dan konsep yang berlaku. Keduanya memiliki kelebihan tersendiri.

6.11.2. Hirarchial Clustering

Hirarki Berjenjang merupakan metode analisis yang outputnya berupa kontruksi pohon atau berdasarkan tingkatan tertentu seperti struktur pohon Universitas Sumatera Utara struktur pertandingan yang sering disebut dendogram. Pada hierarchical clustering, setiap data harus termasuk ke cluster tertentu. Dan suatu data yang termasuk ke cluster tertentu pada suatu tahapan proses, tidak dapat berpindah ke cluster lain pada tahapan berikutnya. Keuntungan metode hirarki adalah cepat dalam proses pengolahan sehingga menghemat waktu. Dengan metode ini, data tidak langsung dikelompokkan kedalam beberapa cluster dalam 1 tahap, tetapi dimulai dari 1 cluster yang mempunyai kesamaan, dan berjalan seterusnya selama beberapa iterasi, hingga terbentuk beberapa cluster tertentu . Arah hierarchical clustering dibagi dua 2, yaitu : 1. Divisive a. Dari 1 cluster ke k cluster b. Pembagian dari atas ke bawah top to down division 2. Agglomerative a. Dari N cluster ke k cluster b. Penggabungan dari bawah ke atas down to top merge Langkah-langkah Algoritma Hierarchical Clustering Agglomerative untuk mengelompokkan N objek item : 1. Setiap data dianggap sebagai cluster. Jika N = jumlah data dan c = jumlah cluster, maka c = N, dan K = jumlah cluster yang ingin dibentuk. 2. Mulai dengan N cluster, setiap cluster mengandung entiti tunggal dan sebuah matriks dari jarak similarities dengan tipe NxN. Universitas Sumatera Utara 3. Menentukan matriks jarak antar data yang dikelompokkan dengan jarak yang paling minimum atau tergantung metode pengelompokan yang dilakukan. 4. Cari 2 cluster yang mempunyai jarak antar cluster dan digabungkan berarti c = c-1. 5. Jika c K, kembali ke langkah 3. Gambar 3.3. Ilustrasi Algoritma Hierarchial Clustering Terdapat empat 4 metode yang sering dipergunakan untuk perhitungan jarak antar cluster dengan objek atau dengan cluster lain di dalam penggerombolan berjenjang, yaitu : 1. Single lingkage pautan tunggal Single lingkage adalah proses pengelompokan yang didasarkan pada jarak terdekat antar objeknya minimum distance. Metode ini sangat cocok untuk melakukan analisa pada tiap tahap pembentukan cluster. Metode ini juga sangat cocok untuk dipakai pada kasus shape independent clustering, karena kemampuannya untuk membentuk pattern pola tertentu dari cluster. Sedangkan untuk kasus condensed clustering, metode ini tidak bagus. Universitas Sumatera Utara Algoritma Single Linkage Hierarchical Method mengelompokkan dua objek yang mempunyai jarak terdekat terlebih dahulu. Jarak antar kelompok i,j dengan k adalah : d i,jk = mind ik , d jk dimana : d = jarak antara objek i dan j i = objek ke-i j = objek ke-j k = nilai parameter objek Untuk menggambarkan algoritma linkage dapat dilihat pada contoh berikut : 1 2 3 4 5 1 2 9 D = d ij 3 = 3 7 4 6 5 9 0 5 11 10 2 8 Dengan memperlakukan setiap objek sebagai cluster, dimulai pengelompokan dengan menggabungkan dua item yang paling dekat. Karena minimal d ij = d ij d = 2. Objek 5 dan 3 digabung untuk membentuk cluster 35. Untuk memperoleh tingkat pengelompokan berikutnya, diperlukan jarak-jarak antara cluster 35 dan objek-objek yang lain yang tersisa yaitu 1, 2 dan 4. Jarak- jarak yang berdekatan adalah : 35 1 = min {d 31 , d 51 d } = min {3, 11} = 3 35 2 = min {d 32 , d 52 d } = min {7, 10} = 7 35 4 = min {d 34 , d 54 } = min {9, 8} = 8 Universitas Sumatera Utara Dengan menghapus baris-baris dan kolom-kolom dari D yang bersesuaian dengan objek 3 dan 5 dari baris dan kolom untuk cluster 35, diperoleh matriks jarak yang baru sebagai berikut : 35 1 2 4 35 1 3 2 7 9 4 8 6 5 Jarak terkecil antara pasangan-pasangan cluster sekarang adalah d 35 1 = 3 dan digabung cluster 1 dengan cluster 35 untuk mendapatkan cluster berikutnya. Dengan menghitung : d1 35 2 = min {d 322 , d 12 d1 } = min {7, 9} = 7 35 4 = min {d 354 , d 14 Diperoleh bahwa matrik jarak untuk tingkat pengelompokan berikutnya adalah, } = min {8, 6} = 6 135 2 4 135 2 7 4 6 5 Jarak terdekat yang paling kecil antara pasangan cluster adalah d 42 = 5, dan digabungkan objek 4 dan 2 untuk mendapatkan cluster 24. Oleh karena itu, ada 2 cluster yang berlainan, 135 dan 24. Jarak terdekat adalah : d 135 24 = min {d 135 2 , d 135 4 } = min {7, 6} = 6 Matriks jarak yang terakhir menjadi : Universitas Sumatera Utara 135 24 135 24 6 Jadi cluster 135 dan 24 digabung membentuk cluster tunggal dari semua 5 objek, 12345, jarak terdekat adalah 6. Dendrogram yang menggambarkan pengelompokan hirarki dapat dilihat pada gambar 3.4. J a r a k Objek 1 4 2 5 3 2 4 6 Gambar 3.4. Single Linkage dendogram untuk Jarak antara Lima Objek Hasil pengelompokan akan berbeda sesuai dengan metode Complete linkage, Average linkage dan centroid linkage yang digunakan. 2. Complete linkage pautan lengkap Complete linkage adalah proses pengelompokan yang didasarkan pada jarak terjauh antar objeknya maksimum distance. Metode ini baik untuk kasus clustering dengan normal data set distribution. Akan tetapi, metode ini tidak cocok untuk data yang mengandung outlier. Universitas Sumatera Utara Algoritma Complete Linkage Hierarchical Method mengelompokkan dua objek yang mempunyai jarak terjauh terlebih dahulu. Jarak antar kelompok i,j dengan k adalah : d i,jk = maxd ik , d jk 3. Average linkage pautan rata-rata Average linkage adalah proses pengclusteran yang didasarkan pada jarak rata- rata antar objeknya average distance. Metode ini relatif yang terbaik dari metode-metode hierarchical. Namun, hal ini harus dibayar dengan waktu komputasi yang paling tinggi dibandingkan dengan metode-metode hierarchical yang lain. Metode ini akan mengelompokkan objek berdasarkan jarak rata-rata yang didapat dengan melakukan rata-rata semua jarak objek terlebih dahulu. Jarak antar kelompok i,j dengan k adalah : d i,jk = averaged ik , d jk 4. Median centroid linkage pautan nilai tengah Centroid linkage adalah proses pengclusteran yang didasarkan pada jarak antar centroidnya. Metode ini bagus untuk memperkecil variance within cluster karena melibatkan centroid pada saat penggabungan antar cluster. Metode ini juga baik untuk data yang mengandung outlier. Pada meteode ini, jarak antara dua cluster adalah jarak diantara centroid cluster tersebut. Centroid adalah rata-rata jarak yang ada pada sebuah cluster yang didapat dengan melakukan rata-rata pada semua anggota suatu cluster tertentu. Dengan metode ini, setiap terjadi cluster baru, akan terjadi Universitas Sumatera Utara perhitungan ulang centroid hingga terbentuk cluster tetap. Jarak antar kelompok i,j dengan k adalah : d i,jk = mediand ik , d jk

6.12. Statistical Product and Service Solutions SPSS Version 16.0