Analisis Penggerombolan Metode Hirarki d
ANALISIS GEROMBOL
ANALISIS GEROMBOL
Oleh:
Siswanto
(G151150021)
Fizry L. Maulida
(G151150251)
Abraham Madison Manurung
(G151150311)
Ira Rosianal Hikmah
(G151150341)
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
2016
0
ANALISIS GEROMBOL
Latihan 1
Berikut akan diberikan contoh penggunaan analisis gerombol berhirarki yang diterapkan
pada penggerombolan mamalia berdasarkan struktur giginya. Mamalia yang terlibat
adalah :
BROWN BAT, MOLE, SILVER HAIR BAT, PIGMY BAT, HOUSE BAT, REDB AT,
PIKA, RABBIT, BEAVER, GROUNDHOG, GRAYS QUIRREL, HOUSE MOUSE,
PORCUPINE, WOLF, BEAR, RACCOON, MARTEN, WEASEL, WOLVERINE,
BADGER, RIVER OTTER, SEA OTTER, JAGUAR, COUGAR, FURSEAL,
SEALION, GREY SEAL, ELEPHANT SEAL, REINDEER, ELK, DEER, MOOSE
Berikut adalah data yang digunakan dalam analisis gerombol. Ada 8 peubah yang
berkenaan dengan gigi mamalia, yaitu V1 hingga V8.
title 'HIERARCHICAL CLUSTER ANALYSIS OF MAMMALS'' TEETH DATA';
title2 'Evaluating the Effects of Ties';
data teeth;
input mammal $ 1-16@21 (v1-v8) (1.);
label v1='Top incisors'
v2='Bottom incisors'
v3='Top canines'
v4='Bottom canines'
v5='Top premolars'
v6='Bottom premolars'
v7='Top molars'
v8='Bottom molars';
datalines;
BROWN BAT
23113333
MOLE
32103333
SILVER HAIR BAT
23112333
PIGMY BAT
23112233
HOUSE BAT
23111233
RED BAT
13112233
PIKA
21002233
RABBIT
21003233
BEAVER
11002133
GROUNDHOG
11002133
GRAY SQUIRREL
11001133
HOUSE MOUSE
11000033
PORCUPINE
11001133
WOLF
33114423
BEAR
33114423
RACCOON
33114432
MARTEN
33114412
WEASEL
33113312
WOLVERINE
33114412
BADGER
33113312
RIVER OTTER
33114312
SEA OTTER
32113312
JAGUAR
33113211
COUGAR
33113211
FUR SEAL
32114411
SEA LION
32114411
1
ANALISIS GEROMBOL
GREY SEAL
32113322
ELEPHANT SEAL
21114411
REINDEER
04103333
ELK
04103333
DEER
04003333
MOOSE
04003333
;
proc cluster data=teeth CCC method=single outtree= tree;
var v1-v8;
id mammal;
run;
proc tree;
id mammal;
title3 ‘Pohon Gerombol’;
run;
PROC CLUSTER menghasilkan analisis gerombol berhirarki sedangkan
menggunakan PROC FASTCLUS menghasilkan analisis gerombol tak berhirarki. Pada
latihan 1 di atas menggunakan option yang dipilih adalah :
METHOD = single
meminta PROC CLUSTER menggunakan analisis dengan
single linkage
OUTTREE
menyebutkan nama gugus data SAS yang akan digunakan oleh
PROC TREE nanti
CCC
meminta PROC CLUSTER untuk melakukan penghitungan
dan menghasilkan cubic clustering criterion
Bentuk umum dari PROC CLUSTER adalah
PROC CLUSTER ;
ID variables;
Run;
Pohon gerombol adalah suatu cara yang digunakan untuk menyajikan hasil
analisis gerombol berhirarki. PROC TREE pada SAS, merupakan prosedur yang bisa
digunakan untuk menggambar pohon gerombol.
Pohon ini sangat berguna dalam
interpretasi hasil.
2
ANALISIS GEROMBOL
Hasil Output dari sintaks di atas adalah :
Output di atas mengeluarkan nilai eigen dari matriks kovarian kedelapan variabel yaitu
� hingga � . Terlihat pula dari output di atas rata-rata jarak antar pengamatan yaitu
sebesar .
6 6.
3
ANALISIS GEROMBOL
Pada output di atas berisi beberapa hal penting. Salah satunya adalah
pengelompokkan. Misakan ingin mengelompokkan objek pengamatan ke dalam 2 cluster
saja, maka cluster 1 terdiri dari CL2 dan CL12 dimana CL12 terdiri dari MOOSE, DEER,
ELK, REINDEER sedangkan sisanya masuk ke cluster 2 (dinamakan CL2). Begitu pula
jika diinginkan untuk sejumlah cluster lainnya.
Kolom yang berlabel ��� berisi cubic clustering criterion. Kaidah yang umum
menyatakan bahwa puncak nilai terbesar dari indeks yang merupakan kandidat
banyaknya gerombol yang pas. Sarle (1983) menjelaskan bahwa ��� merupakan
perbandingan koefisien nilai pengamatan dari R2 dengan pendekatan nilai harapan dari
R2 . Selain itu juga melakukan pengembangan terhadap ���, yang digunakan dalam
penentuan banyaknya gerombol. Nilai ��� positif menunjukkan bahwa nilai R2 lebih
besar dari nilai harapan R2 berarti dapat digunakan dalam penentuan banyak kelompok.
Nilai ��� lebih dari 2 atau 3 mengindikasikan bahwa gerombol yang terbentuk bagus.
Nilai ��� antara 0 dan 2 menunjukkan bahwa gerombol yang terbentuk potensial,
sedangkan apabila nilai ��� negatif yang besar menunjukkan adanya pencilan.
Karena nilai ��� untuk banyaknya cluster 4 buah adalah sebesar .
(lebih dari
2 menunjukkan bahwa cluster yang terbentuk sudah bagus), maka jumlah cluster yang
baik adalah sebanyak 4 buah cluster. Hal ini dapat diperjelas oleh grafik berikut :
4
ANALISIS GEROMBOL
Terlihat bahwa nilai CCC berada di titik tertinggi yaitu lebih dari 2 saat jumlah
cluster adalah 4 buah cluster. Dengan demikian, jika digunakan kriteria clustering kubik
(CCC) diperoleh jumlah cluster optimum adalah 4 buah cluster pada kasus ini.
Dendogram di atas menunjukkan hasil clustering. Jika diambil jarak antar cluster
sebesar 0.65 maka didapat 2 cluster dimana cluster 1 terdiri dari MOOSE, DEER, ELK,
daan REINDEER. Sedangkan yang lainnya dikelompokkan ke cluster 2. Hasil ini sama
dengan interpretasi sebelumnya (pada tabel output sebelumnya). Begitu pula jika diambil
5
ANALISIS GEROMBOL
jarak lain yang berbeda sehingga memungkinkan didapat jumlah cluster yang berbeda
pula.
Dendogram di atas merupakan salah satu bentuk lainnya. Akan tetapi interpretasi yang
dihasilkan dari dendogram di atas adalah SAMA dengan dendogram lainnya.
6
ANALISIS GEROMBOL
LATIHAN 2
Kabupaten
Banyuwangi
Cianjur
Jember
Jepara
Jombang
Kediri
Kudus
Kulonprogo
Lumajang
Majalengka
Pacitan
Pamekasan
Pasuruan
Pati
Probolinggo
Rembang
Serang
Sleman
Sukabumi
Pangsa Pasar Rokok
Pangsa Pasar Rokok
Pangsa Pasar Rokok
Persentase Keluarga Persentase Penduduk Banyaknya Industri Kecil Banyaknya Industri
Produksi Gudang Garam Produksi Sampoerna Produksi Djarum Kudus
Pengolahan
dan Menengah
Tidak Tamat SD
Pertanian
13
10
2,7
55
166
30
21
12
10
6,9
206
220
35
26
27
29
20
255
538
5.2
10
18
27
13
119
555
4.5
8.4
11
11
10
94
86
25
16
24
28
19
287
468
2.3
5.7
26
30
21
197
579
15
9.8
18
18
14
48
404
13
7.1
8.5
1.1
4.5
146
71
33
38
18
20
12
197
114
24
22
8.1
13
6
79
152
29
24
7.1
2.9
3.2
40
63
30
31
16
26
19
38
40
5.2
21
16
18
11
160
447
7.2
11
15
27
11
205
214
5.1
8.6
17
25
9.9
17
111
4.9
9.9
17
25
5.9
189
467
18
6.9
26
28
18
300
419
3.4
16
12
2.7
9.2
183
215
34
22
Tentukan jumlah gerombol dari data pada tabel di atas menggunakan metode berhirarki!!
Gunakan metode K-means dengan 2 gerombol!
Jelaskan kesimpulan yang anda dapatkan dari penggerombolan tersebut
7
ANALISIS GEROMBOL
Jawab :
METODE BERHIRARKI
Dengan Menggunakan Program SPSS
Buka Aplikasi SPSS, setelah itu buat variabel dan tipe datanya, seperti gambar
di bawah ini
Lakukan entri data sesuai dengan studi kasus di atas.
Lakukan Transformasi atau standardisasi data tersebut. Klik menu Analyze
Descriptives Statistics Descriptives. Masukkan Seluruh variabel
instrument penilai (dalam hal ini variabel kabupaten tidak dimasukkan karena
data bertipe string). Kemudian berikan centang pada “Save standardized
values asvariables”. Kemudian klik OK.
8
ANALISIS GEROMBOL
Sehingga muncul output deskriptif statistik. Kemudian pada data view akan
terlihat juga hasil dari perhitungan z-score dan hasil z-score inilah yang akan
dipakai sebagai dasar analisis cluster. Namun apabila data yang terkumpul
tidak mempunyai variabilitas satuan, maka proses analisis cluster dapat
langsung dilakukan tanpa terlebih dahulu melakukan transformasi atau
standardisasi.
9
ANALISIS GEROMBOL
Selanjutnya, klik menu Analyze Classify Hierarchical Cluster.
Kemudian masukkan seluruh variabel yang telah distandardisasikan tadi (Zscore) ke dalam kotak Variable(s). pada bagian Label Cases by isi degan
variabel Kabupaten sedangkan untuk bagian Cluster pilih Cases, pada
bagian Display pilih keduanya yaitu Statistics dan Plots.
10
ANALISIS GEROMBOL
Kemudian klik button Statistics, berikan centang pada Agglomeration
Schdule dan Proximity matrix. Kemudian tekan tombol Continue untuk
kembali ke menu utama.
Kemudian klik button Plots. Aktifkan pilihan Dendogram, kemudian pada
bagian Icicle pilih None. Selanjutnya klik Continue untuk kembali ke menu
utama.
Kemudian klik button Method. Pada bagian Cluster Method pilih Nearest
Neighbor. Pada Measure pilih Euclidean distance dan pada Transform
Values pilih Z-score. Lalu tekan tombol Continue untuk kembali ke menu
utama. Dari tampilan menu utama, tekan tombol OK. Pada Cluster Method
akan digunakan beberapa metode.
11
ANALISIS GEROMBOL
Hasil Output Dengan Menggunakan Metode Single Linkage
Cluster Membership
Case
5 Clusters
4 Clusters
3 Clusters
2 Clusters
1:Banyuwangi
1
1
1
1
2:Cianjur
1
1
1
1
3:Jember
2
2
2
2
4:Jepara
3
3
3
2
5:Jombang
1
1
1
1
6:Kediri
2
2
2
2
7:Kudus
2
2
2
2
8:Kulonprogo
3
3
3
2
9:Lumajang
1
1
1
1
10:Majalengka
4
1
1
1
11:Pacitan
1
1
1
1
12:Pamekasan
1
1
1
1
13:Pasuruan
5
4
3
2
14:Pati
3
3
3
2
15:Probolinggo
3
3
3
2
16:Rembang
3
3
3
2
17:Serang
3
3
3
2
18:Sleman
2
2
2
2
19:Sukabumi
1
1
1
1
12
ANALISIS GEROMBOL
Hasil output di atas menunjukkan pengelompokkan objek pengamatan terhadap 5
cluster yang telah diset di awal. Tidak ada alasan khusus mengapa memilih 5 cluster. Hal
ini dilakukan agar hasil lebih terpusat pada 2, 3, 4, atau 5 cluster sehingga mudah dibaca.
Misalkan jika digunakan 2 cluster maka Banyuwangi, Cianjur, Jombang, Lumajang,
Majalengka, Pacitan, Pamekasan, dan Sukabumi berada pada cluster 1 sedangkan
kabupaten lainnya dikelompokkan pada cluster 2. Begitu pula untuk jumlah cluster
sebanyak 3, 4 atau 5.
Untuk 5 cluster, diperoleh pengelompokkan yaitu cluster 1 terdiri dari Banyuwangi,
Cianjur, Jombang, Lumajang, Pacitan, Pamekasan, dan Sukabumi. Cluster 2 terdiri dari
Jember, Kediri, Kudus, dan Sleman. Cluster 3 terdiri dari Jepara, Kulonprogo, Pati,
Probolinggo, Rembang, dan Serang. Cluster 4 yaitu Majalengka. Cluster 5 : Pasuruan.
Hasil output di atas merupakan dendogram hasil analisis cluster dengan metode
single linkage. Dimana, semakin banyak cluster yang dipilih maka jarak nya semakin
13
ANALISIS GEROMBOL
kecil. Dari dendogram di atas dengan jarak lebih dari 25 maka diperoleh 1 cluster (tidak
terjadi pengelompokkan), sedangkan jika jaraknya 25 maka didapat 2 cluster yaitu cluster
1 terdiri dari Cianjur, Sukabumi, Banyuwangi, Pacitan, Jombang, Lumajang, Pamekasan,
dan Majalengka sedangkan kabupaten lainnya masuk ke cluster 2. Hasil ini serupa dengan
tabel output sebelumnya (tabel cluster membership) jika yang dipilih adalah 2 cluster.
Begitu pula jika kita mengambil jaraknya adalah 20 maka terdapat 3 cluster, dimana
cluster 1 terdiri dari Jember, Kediri, Kudus, dan Sleman, cluster 2 terdiri dari Cianjur,
Sukabumi, Banyuwangi, Pacitan, Jombang, Lumajang, Pamekasan, dan Majalengka,
sedangkan kabupaten sisanya masuk ke cluster 3. Begitu pula untuk jarak lainnya yang
menghasilnya jumlah cluster yang kemungkinan berbeda satu sama lain. Semakin banyak
cluster yang terbentuk maka jaraknya semakin kecil. Artinya, semakin memiliki
kemiripan yang besar di dalam cluster dan memiliki ketidakmiripan antarcluster.
Catatan bahwa hasil dendogram pada metode hirarki tidak ditentukan jumlah clusternya.
Hasil atau output dendogram dengan jumlah cluster tertentu ditentukan oleh jaraknya
sampai hanya terbentuk 2 cluster. Pada dendogram di atas, jarak maksimumnya adalah
25 (yaitu hingga hanya terbentuk 2 cluster). Berbeda dengan metode non-hirarki seperti
K-Means yang terlebih dahulu sudah ditentukan jumlah clusternya.
Dengan Menggunakan R
data
ANALISIS GEROMBOL
Oleh:
Siswanto
(G151150021)
Fizry L. Maulida
(G151150251)
Abraham Madison Manurung
(G151150311)
Ira Rosianal Hikmah
(G151150341)
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
2016
0
ANALISIS GEROMBOL
Latihan 1
Berikut akan diberikan contoh penggunaan analisis gerombol berhirarki yang diterapkan
pada penggerombolan mamalia berdasarkan struktur giginya. Mamalia yang terlibat
adalah :
BROWN BAT, MOLE, SILVER HAIR BAT, PIGMY BAT, HOUSE BAT, REDB AT,
PIKA, RABBIT, BEAVER, GROUNDHOG, GRAYS QUIRREL, HOUSE MOUSE,
PORCUPINE, WOLF, BEAR, RACCOON, MARTEN, WEASEL, WOLVERINE,
BADGER, RIVER OTTER, SEA OTTER, JAGUAR, COUGAR, FURSEAL,
SEALION, GREY SEAL, ELEPHANT SEAL, REINDEER, ELK, DEER, MOOSE
Berikut adalah data yang digunakan dalam analisis gerombol. Ada 8 peubah yang
berkenaan dengan gigi mamalia, yaitu V1 hingga V8.
title 'HIERARCHICAL CLUSTER ANALYSIS OF MAMMALS'' TEETH DATA';
title2 'Evaluating the Effects of Ties';
data teeth;
input mammal $ 1-16@21 (v1-v8) (1.);
label v1='Top incisors'
v2='Bottom incisors'
v3='Top canines'
v4='Bottom canines'
v5='Top premolars'
v6='Bottom premolars'
v7='Top molars'
v8='Bottom molars';
datalines;
BROWN BAT
23113333
MOLE
32103333
SILVER HAIR BAT
23112333
PIGMY BAT
23112233
HOUSE BAT
23111233
RED BAT
13112233
PIKA
21002233
RABBIT
21003233
BEAVER
11002133
GROUNDHOG
11002133
GRAY SQUIRREL
11001133
HOUSE MOUSE
11000033
PORCUPINE
11001133
WOLF
33114423
BEAR
33114423
RACCOON
33114432
MARTEN
33114412
WEASEL
33113312
WOLVERINE
33114412
BADGER
33113312
RIVER OTTER
33114312
SEA OTTER
32113312
JAGUAR
33113211
COUGAR
33113211
FUR SEAL
32114411
SEA LION
32114411
1
ANALISIS GEROMBOL
GREY SEAL
32113322
ELEPHANT SEAL
21114411
REINDEER
04103333
ELK
04103333
DEER
04003333
MOOSE
04003333
;
proc cluster data=teeth CCC method=single outtree= tree;
var v1-v8;
id mammal;
run;
proc tree;
id mammal;
title3 ‘Pohon Gerombol’;
run;
PROC CLUSTER menghasilkan analisis gerombol berhirarki sedangkan
menggunakan PROC FASTCLUS menghasilkan analisis gerombol tak berhirarki. Pada
latihan 1 di atas menggunakan option yang dipilih adalah :
METHOD = single
meminta PROC CLUSTER menggunakan analisis dengan
single linkage
OUTTREE
menyebutkan nama gugus data SAS yang akan digunakan oleh
PROC TREE nanti
CCC
meminta PROC CLUSTER untuk melakukan penghitungan
dan menghasilkan cubic clustering criterion
Bentuk umum dari PROC CLUSTER adalah
PROC CLUSTER ;
ID variables;
Run;
Pohon gerombol adalah suatu cara yang digunakan untuk menyajikan hasil
analisis gerombol berhirarki. PROC TREE pada SAS, merupakan prosedur yang bisa
digunakan untuk menggambar pohon gerombol.
Pohon ini sangat berguna dalam
interpretasi hasil.
2
ANALISIS GEROMBOL
Hasil Output dari sintaks di atas adalah :
Output di atas mengeluarkan nilai eigen dari matriks kovarian kedelapan variabel yaitu
� hingga � . Terlihat pula dari output di atas rata-rata jarak antar pengamatan yaitu
sebesar .
6 6.
3
ANALISIS GEROMBOL
Pada output di atas berisi beberapa hal penting. Salah satunya adalah
pengelompokkan. Misakan ingin mengelompokkan objek pengamatan ke dalam 2 cluster
saja, maka cluster 1 terdiri dari CL2 dan CL12 dimana CL12 terdiri dari MOOSE, DEER,
ELK, REINDEER sedangkan sisanya masuk ke cluster 2 (dinamakan CL2). Begitu pula
jika diinginkan untuk sejumlah cluster lainnya.
Kolom yang berlabel ��� berisi cubic clustering criterion. Kaidah yang umum
menyatakan bahwa puncak nilai terbesar dari indeks yang merupakan kandidat
banyaknya gerombol yang pas. Sarle (1983) menjelaskan bahwa ��� merupakan
perbandingan koefisien nilai pengamatan dari R2 dengan pendekatan nilai harapan dari
R2 . Selain itu juga melakukan pengembangan terhadap ���, yang digunakan dalam
penentuan banyaknya gerombol. Nilai ��� positif menunjukkan bahwa nilai R2 lebih
besar dari nilai harapan R2 berarti dapat digunakan dalam penentuan banyak kelompok.
Nilai ��� lebih dari 2 atau 3 mengindikasikan bahwa gerombol yang terbentuk bagus.
Nilai ��� antara 0 dan 2 menunjukkan bahwa gerombol yang terbentuk potensial,
sedangkan apabila nilai ��� negatif yang besar menunjukkan adanya pencilan.
Karena nilai ��� untuk banyaknya cluster 4 buah adalah sebesar .
(lebih dari
2 menunjukkan bahwa cluster yang terbentuk sudah bagus), maka jumlah cluster yang
baik adalah sebanyak 4 buah cluster. Hal ini dapat diperjelas oleh grafik berikut :
4
ANALISIS GEROMBOL
Terlihat bahwa nilai CCC berada di titik tertinggi yaitu lebih dari 2 saat jumlah
cluster adalah 4 buah cluster. Dengan demikian, jika digunakan kriteria clustering kubik
(CCC) diperoleh jumlah cluster optimum adalah 4 buah cluster pada kasus ini.
Dendogram di atas menunjukkan hasil clustering. Jika diambil jarak antar cluster
sebesar 0.65 maka didapat 2 cluster dimana cluster 1 terdiri dari MOOSE, DEER, ELK,
daan REINDEER. Sedangkan yang lainnya dikelompokkan ke cluster 2. Hasil ini sama
dengan interpretasi sebelumnya (pada tabel output sebelumnya). Begitu pula jika diambil
5
ANALISIS GEROMBOL
jarak lain yang berbeda sehingga memungkinkan didapat jumlah cluster yang berbeda
pula.
Dendogram di atas merupakan salah satu bentuk lainnya. Akan tetapi interpretasi yang
dihasilkan dari dendogram di atas adalah SAMA dengan dendogram lainnya.
6
ANALISIS GEROMBOL
LATIHAN 2
Kabupaten
Banyuwangi
Cianjur
Jember
Jepara
Jombang
Kediri
Kudus
Kulonprogo
Lumajang
Majalengka
Pacitan
Pamekasan
Pasuruan
Pati
Probolinggo
Rembang
Serang
Sleman
Sukabumi
Pangsa Pasar Rokok
Pangsa Pasar Rokok
Pangsa Pasar Rokok
Persentase Keluarga Persentase Penduduk Banyaknya Industri Kecil Banyaknya Industri
Produksi Gudang Garam Produksi Sampoerna Produksi Djarum Kudus
Pengolahan
dan Menengah
Tidak Tamat SD
Pertanian
13
10
2,7
55
166
30
21
12
10
6,9
206
220
35
26
27
29
20
255
538
5.2
10
18
27
13
119
555
4.5
8.4
11
11
10
94
86
25
16
24
28
19
287
468
2.3
5.7
26
30
21
197
579
15
9.8
18
18
14
48
404
13
7.1
8.5
1.1
4.5
146
71
33
38
18
20
12
197
114
24
22
8.1
13
6
79
152
29
24
7.1
2.9
3.2
40
63
30
31
16
26
19
38
40
5.2
21
16
18
11
160
447
7.2
11
15
27
11
205
214
5.1
8.6
17
25
9.9
17
111
4.9
9.9
17
25
5.9
189
467
18
6.9
26
28
18
300
419
3.4
16
12
2.7
9.2
183
215
34
22
Tentukan jumlah gerombol dari data pada tabel di atas menggunakan metode berhirarki!!
Gunakan metode K-means dengan 2 gerombol!
Jelaskan kesimpulan yang anda dapatkan dari penggerombolan tersebut
7
ANALISIS GEROMBOL
Jawab :
METODE BERHIRARKI
Dengan Menggunakan Program SPSS
Buka Aplikasi SPSS, setelah itu buat variabel dan tipe datanya, seperti gambar
di bawah ini
Lakukan entri data sesuai dengan studi kasus di atas.
Lakukan Transformasi atau standardisasi data tersebut. Klik menu Analyze
Descriptives Statistics Descriptives. Masukkan Seluruh variabel
instrument penilai (dalam hal ini variabel kabupaten tidak dimasukkan karena
data bertipe string). Kemudian berikan centang pada “Save standardized
values asvariables”. Kemudian klik OK.
8
ANALISIS GEROMBOL
Sehingga muncul output deskriptif statistik. Kemudian pada data view akan
terlihat juga hasil dari perhitungan z-score dan hasil z-score inilah yang akan
dipakai sebagai dasar analisis cluster. Namun apabila data yang terkumpul
tidak mempunyai variabilitas satuan, maka proses analisis cluster dapat
langsung dilakukan tanpa terlebih dahulu melakukan transformasi atau
standardisasi.
9
ANALISIS GEROMBOL
Selanjutnya, klik menu Analyze Classify Hierarchical Cluster.
Kemudian masukkan seluruh variabel yang telah distandardisasikan tadi (Zscore) ke dalam kotak Variable(s). pada bagian Label Cases by isi degan
variabel Kabupaten sedangkan untuk bagian Cluster pilih Cases, pada
bagian Display pilih keduanya yaitu Statistics dan Plots.
10
ANALISIS GEROMBOL
Kemudian klik button Statistics, berikan centang pada Agglomeration
Schdule dan Proximity matrix. Kemudian tekan tombol Continue untuk
kembali ke menu utama.
Kemudian klik button Plots. Aktifkan pilihan Dendogram, kemudian pada
bagian Icicle pilih None. Selanjutnya klik Continue untuk kembali ke menu
utama.
Kemudian klik button Method. Pada bagian Cluster Method pilih Nearest
Neighbor. Pada Measure pilih Euclidean distance dan pada Transform
Values pilih Z-score. Lalu tekan tombol Continue untuk kembali ke menu
utama. Dari tampilan menu utama, tekan tombol OK. Pada Cluster Method
akan digunakan beberapa metode.
11
ANALISIS GEROMBOL
Hasil Output Dengan Menggunakan Metode Single Linkage
Cluster Membership
Case
5 Clusters
4 Clusters
3 Clusters
2 Clusters
1:Banyuwangi
1
1
1
1
2:Cianjur
1
1
1
1
3:Jember
2
2
2
2
4:Jepara
3
3
3
2
5:Jombang
1
1
1
1
6:Kediri
2
2
2
2
7:Kudus
2
2
2
2
8:Kulonprogo
3
3
3
2
9:Lumajang
1
1
1
1
10:Majalengka
4
1
1
1
11:Pacitan
1
1
1
1
12:Pamekasan
1
1
1
1
13:Pasuruan
5
4
3
2
14:Pati
3
3
3
2
15:Probolinggo
3
3
3
2
16:Rembang
3
3
3
2
17:Serang
3
3
3
2
18:Sleman
2
2
2
2
19:Sukabumi
1
1
1
1
12
ANALISIS GEROMBOL
Hasil output di atas menunjukkan pengelompokkan objek pengamatan terhadap 5
cluster yang telah diset di awal. Tidak ada alasan khusus mengapa memilih 5 cluster. Hal
ini dilakukan agar hasil lebih terpusat pada 2, 3, 4, atau 5 cluster sehingga mudah dibaca.
Misalkan jika digunakan 2 cluster maka Banyuwangi, Cianjur, Jombang, Lumajang,
Majalengka, Pacitan, Pamekasan, dan Sukabumi berada pada cluster 1 sedangkan
kabupaten lainnya dikelompokkan pada cluster 2. Begitu pula untuk jumlah cluster
sebanyak 3, 4 atau 5.
Untuk 5 cluster, diperoleh pengelompokkan yaitu cluster 1 terdiri dari Banyuwangi,
Cianjur, Jombang, Lumajang, Pacitan, Pamekasan, dan Sukabumi. Cluster 2 terdiri dari
Jember, Kediri, Kudus, dan Sleman. Cluster 3 terdiri dari Jepara, Kulonprogo, Pati,
Probolinggo, Rembang, dan Serang. Cluster 4 yaitu Majalengka. Cluster 5 : Pasuruan.
Hasil output di atas merupakan dendogram hasil analisis cluster dengan metode
single linkage. Dimana, semakin banyak cluster yang dipilih maka jarak nya semakin
13
ANALISIS GEROMBOL
kecil. Dari dendogram di atas dengan jarak lebih dari 25 maka diperoleh 1 cluster (tidak
terjadi pengelompokkan), sedangkan jika jaraknya 25 maka didapat 2 cluster yaitu cluster
1 terdiri dari Cianjur, Sukabumi, Banyuwangi, Pacitan, Jombang, Lumajang, Pamekasan,
dan Majalengka sedangkan kabupaten lainnya masuk ke cluster 2. Hasil ini serupa dengan
tabel output sebelumnya (tabel cluster membership) jika yang dipilih adalah 2 cluster.
Begitu pula jika kita mengambil jaraknya adalah 20 maka terdapat 3 cluster, dimana
cluster 1 terdiri dari Jember, Kediri, Kudus, dan Sleman, cluster 2 terdiri dari Cianjur,
Sukabumi, Banyuwangi, Pacitan, Jombang, Lumajang, Pamekasan, dan Majalengka,
sedangkan kabupaten sisanya masuk ke cluster 3. Begitu pula untuk jarak lainnya yang
menghasilnya jumlah cluster yang kemungkinan berbeda satu sama lain. Semakin banyak
cluster yang terbentuk maka jaraknya semakin kecil. Artinya, semakin memiliki
kemiripan yang besar di dalam cluster dan memiliki ketidakmiripan antarcluster.
Catatan bahwa hasil dendogram pada metode hirarki tidak ditentukan jumlah clusternya.
Hasil atau output dendogram dengan jumlah cluster tertentu ditentukan oleh jaraknya
sampai hanya terbentuk 2 cluster. Pada dendogram di atas, jarak maksimumnya adalah
25 (yaitu hingga hanya terbentuk 2 cluster). Berbeda dengan metode non-hirarki seperti
K-Means yang terlebih dahulu sudah ditentukan jumlah clusternya.
Dengan Menggunakan R
data