pada tahapan berikutnya berpindah ke cluster yang lain. Contoh : K-Means, residual analysis.
2. Hierarchical clustering Pada hierarchical clustering, Setiap data harus termasuk ke cluster tertentu.
Dan suatu data yang termasuk ke cluster tertentu pada suatu tahapan proses, tidak dapat berpindah ke cluster lain pada tahapan berikutnya. Contoh: Single
Linkage, Centroid Linkage,Complete Linkage, Average Linkage. 3. Overlapping clustering
Dalam overlapping clustering, setiap data memungkinkan termasuk ke beberapa cluster. Data mempunyai nilai keanggotaan membership pada
beberapa cluster. Contoh: Fuzzy C-means, Gaussian Mixture. 4. Hybrid
Karakteristik hybrid adalah Mengawinkan karakteristik dari partitioning, overlapping dan hierarchical.
Sesungguhnya dua metode paling umum dalam algoritma cluster adalah metode hirarki dan metode non hirarki. Penentuan metode mana yang akan
dipakai tergantung kepada peneliti dan konteks penelitian dengan tidak mengabaikan substansi, teori dan konsep yang berlaku. Keduanya memiliki
kelebihan tersendiri.
6.11.2. Hirarchial Clustering
Hirarki Berjenjang merupakan metode analisis yang outputnya berupa kontruksi pohon atau berdasarkan tingkatan tertentu seperti struktur pohon
Universitas Sumatera Utara
struktur pertandingan yang sering disebut dendogram. Pada hierarchical clustering, setiap data harus termasuk ke cluster tertentu. Dan suatu data yang
termasuk ke cluster tertentu pada suatu tahapan proses, tidak dapat berpindah ke cluster lain pada tahapan berikutnya. Keuntungan metode hirarki adalah cepat
dalam proses pengolahan sehingga menghemat waktu. Dengan metode ini, data tidak langsung dikelompokkan kedalam beberapa
cluster dalam 1 tahap, tetapi dimulai dari 1 cluster yang mempunyai kesamaan, dan berjalan seterusnya selama beberapa iterasi, hingga terbentuk beberapa cluster
tertentu . Arah hierarchical clustering dibagi dua 2, yaitu :
1. Divisive a. Dari 1 cluster ke k cluster
b. Pembagian dari atas ke bawah top to down division 2. Agglomerative
a. Dari N cluster ke k cluster b. Penggabungan dari bawah ke atas down to top merge
Langkah-langkah Algoritma Hierarchical Clustering Agglomerative untuk mengelompokkan N objek item :
1. Setiap data dianggap sebagai cluster. Jika N = jumlah data dan c = jumlah cluster, maka c = N, dan K = jumlah cluster yang ingin dibentuk.
2. Mulai dengan N cluster, setiap cluster mengandung entiti tunggal dan sebuah matriks dari jarak similarities dengan tipe NxN.
Universitas Sumatera Utara
3. Menentukan matriks jarak antar data yang dikelompokkan dengan jarak yang paling minimum atau tergantung metode pengelompokan yang dilakukan.
4. Cari 2 cluster yang mempunyai jarak antar cluster dan digabungkan berarti c = c-1.
5. Jika c K, kembali ke langkah 3.
Gambar 3.3. Ilustrasi Algoritma Hierarchial Clustering
Terdapat empat 4 metode yang sering dipergunakan untuk perhitungan jarak antar cluster dengan objek atau dengan cluster lain di dalam
penggerombolan berjenjang, yaitu : 1. Single lingkage pautan tunggal
Single lingkage adalah proses pengelompokan yang didasarkan pada jarak terdekat antar objeknya minimum distance. Metode ini sangat cocok untuk
melakukan analisa pada tiap tahap pembentukan cluster. Metode ini juga sangat cocok untuk dipakai pada kasus shape independent clustering, karena
kemampuannya untuk membentuk pattern pola tertentu dari cluster. Sedangkan untuk kasus condensed clustering, metode ini tidak bagus.
Universitas Sumatera Utara
Algoritma Single Linkage Hierarchical Method mengelompokkan dua objek yang mempunyai jarak terdekat terlebih dahulu. Jarak antar kelompok i,j
dengan k adalah : d
i,jk
= mind
ik
, d
jk
dimana : d = jarak antara objek i dan j
i = objek ke-i j = objek ke-j
k = nilai parameter objek Untuk menggambarkan algoritma linkage dapat dilihat pada contoh berikut :
1 2
3 4 5
1 2
9 D = d
ij
3 =
3 7
4 6
5 9 0
5 11
10 2 8
Dengan memperlakukan setiap objek sebagai cluster, dimulai pengelompokan dengan menggabungkan dua item yang paling dekat. Karena minimal d
ij
= d
ij
d = 2. Objek 5 dan 3 digabung untuk membentuk cluster 35. Untuk
memperoleh tingkat pengelompokan berikutnya, diperlukan jarak-jarak antara cluster 35 dan objek-objek yang lain yang tersisa yaitu 1, 2 dan 4. Jarak-
jarak yang berdekatan adalah :
35 1
= min {d
31
, d
51
d } = min {3, 11} = 3
35 2
= min {d
32
, d
52
d } = min {7, 10} = 7
35 4
= min {d
34
, d
54
} = min {9, 8} = 8
Universitas Sumatera Utara
Dengan menghapus baris-baris dan kolom-kolom dari D yang bersesuaian dengan objek 3 dan 5 dari baris dan kolom untuk cluster 35, diperoleh
matriks jarak yang baru sebagai berikut : 35 1
2 4
35 1
3 2
7 9
4 8
6 5
Jarak terkecil antara pasangan-pasangan cluster sekarang adalah d
35 1
= 3 dan digabung cluster 1 dengan cluster 35 untuk mendapatkan cluster berikutnya.
Dengan menghitung :
d1
35 2
= min {d
322
, d
12
d1 } = min {7, 9} = 7
35 4
= min {d
354
, d
14
Diperoleh bahwa matrik jarak untuk tingkat pengelompokan berikutnya adalah,
} = min {8, 6} = 6
135 2 4
135 2
7 4
6 5
Jarak terdekat yang paling kecil antara
pasangan cluster adalah d
42
= 5, dan digabungkan objek 4 dan 2 untuk mendapatkan cluster 24. Oleh karena itu, ada
2 cluster yang berlainan, 135 dan 24. Jarak terdekat adalah : d
135 24
= min {d
135 2
, d
135 4
} = min {7, 6} = 6 Matriks jarak yang terakhir menjadi :
Universitas Sumatera Utara
135 24 135
24 6
Jadi cluster 135 dan 24 digabung membentuk cluster tunggal dari semua 5 objek, 12345, jarak terdekat adalah 6.
Dendrogram yang menggambarkan pengelompokan hirarki dapat dilihat pada gambar 3.4.
J a
r a
k
Objek 1
4 2
5 3
2 4
6
Gambar 3.4. Single Linkage dendogram untuk Jarak antara Lima Objek
Hasil pengelompokan akan berbeda sesuai dengan metode Complete linkage, Average linkage dan centroid linkage yang digunakan.
2. Complete linkage pautan lengkap Complete linkage adalah proses pengelompokan yang didasarkan pada jarak
terjauh antar objeknya maksimum distance. Metode ini baik untuk kasus clustering dengan normal data set distribution. Akan tetapi, metode ini tidak
cocok untuk data yang mengandung outlier.
Universitas Sumatera Utara
Algoritma Complete Linkage Hierarchical Method mengelompokkan dua objek yang mempunyai jarak terjauh terlebih dahulu. Jarak antar kelompok
i,j dengan k adalah : d
i,jk
= maxd
ik
, d
jk
3. Average linkage pautan rata-rata Average linkage adalah proses pengclusteran yang didasarkan pada jarak rata-
rata antar objeknya average distance. Metode ini relatif yang terbaik dari metode-metode hierarchical. Namun, hal ini harus dibayar dengan waktu
komputasi yang paling tinggi dibandingkan dengan metode-metode hierarchical yang lain.
Metode ini akan mengelompokkan objek berdasarkan jarak rata-rata yang didapat dengan melakukan rata-rata semua jarak objek terlebih dahulu. Jarak
antar kelompok i,j dengan k adalah : d
i,jk
= averaged
ik
, d
jk
4. Median centroid linkage pautan nilai tengah Centroid linkage adalah proses pengclusteran yang didasarkan pada jarak
antar centroidnya. Metode ini bagus untuk memperkecil variance within cluster karena melibatkan centroid pada saat penggabungan antar cluster.
Metode ini juga baik untuk data yang mengandung outlier. Pada meteode ini, jarak antara dua cluster adalah jarak diantara centroid
cluster tersebut. Centroid adalah rata-rata jarak yang ada pada sebuah cluster yang didapat dengan melakukan rata-rata pada semua anggota suatu cluster
tertentu. Dengan metode ini, setiap terjadi cluster baru, akan terjadi
Universitas Sumatera Utara
perhitungan ulang centroid hingga terbentuk cluster tetap. Jarak antar kelompok i,j dengan k adalah :
d
i,jk
= mediand
ik
, d
jk
6.12. Statistical Product and Service Solutions SPSS Version 16.0