afirafitaargmail.com
4. Peason Correlation
5. Chebychev
6. Block
7. Minkowski
8. Customized
b. Frekuensi
1. Chi-square
2. Phi-square
afirafitaargmail.com
c. Biner :
1. Square Euclidian Distance
2. Euclidian distance
3. Size Difference
4. Pattern Difference
5. Variance
6. Shape
7. Lance and Williams
8. Present and Absent Untuk memilih nilai integer lain selain 0 dan 1.
afirafitaargmail.com
Tahapan Analisis Cluster Gambar 2.2:
Tahap 1 Tahap 2
Proximity Distance Measure of Similarity
Pattern: Correlation Measure of Similarity
TAHAP 5
TAHAP 6 Masalah Penelitian
Tentukan Tujuan
Desain Penelitian
Outlier
Pengukuran Similaritas
Apakah Variabel Matrik atau Non Matrik Data Non Matrik
Association of Similarity Data Matrik
Fokus pada pola Proximity
Standarisasi
Standarisasi Variabel
Asumsi
Pemenuhan Asumsi Dasar
Algoritma Clustering
Hirarki, Non Hirarki, Kombinasi
Validasi Interpretasi
Periksa Cluster Centroid Hirarki
Non Hirarki kombinasi
Jumlah Cluster
afirafitaargmail.com
1. Penentuan tujuan
Tentukan tujuan analisis cluster yang akan lakukan. Secara umum tujuan utama analisis cluster adalah mempartisi suatu set objek
menjadi dua grup atau lebih berdasarkan kesamaan objek tersebut. Dengan membentuk grup yang homogen, dapat dilihat 2 hal:
a. Deskripsi taksonomi b. Identifikasi relationship
Dalam penentuan tujuan ini variabel yang akan dipakai telah dipilih dan ditentukan sesuaikan dengan tujuan analisis.
Data yang digunakan untuk tiap variabel dapat berupa data interval, ratio, nominal, atau ordinal.
2. Desain penelitian
Terdapat data mentah berupa matriks dengan n objek dan p veriabel sebaiknya jumlah objek jumlah variable.
Menstransformasikan matriks data mentah n x p menjadi matriks jarak antar objek nxn dengan menggunakan metode perhitungan
jarak. Dalam tahap ini harus dideteksi terdapat data yang outlier atau tidak.
outlier pencilan adalah objek yang memiliki nilai ekstrim dibandingkan objek-objek lain. outlier ini dapat mengganggu
pengelompokan. Jika terdapat data outlier, maka harus dilakukan standarisasi data.
Standarisasi data dapat dilakukan dengan 2 metode: a. Standarisasi variabel dengan Z score
Z = Skor standar Xi = Skor data mentah
M = rata-rata
σ = standar deviasi
b. Standarisasi dengan observasi
3. Asumsi model
1. Sampel yang diambil benar-benar dapat mewakili populasi yang ada representativeness of the sample.
afirafitaargmail.com 2. Tidak terjadi multikolinearitas artinya variabel yang satu bebas dari
variabel lainnya.
4. Pengelompokan
Pembentukan Cluster dilakukan dengan menggunakan metode tertentu Hierarchical Cluster atau Mutually Exclusive Cluster.
a. Metode Hirarki