10
Heterogenitas external between cluster; yaitu perbedaan. Setiap kelompok seharusnya berbeda dari kelompok lain dengan karakteristik
yang sama. Hal ini berarti bahwa observasi dalam kelompok yang satu seharusnya berbeda dari observasi dalam kelompok lain.
Adapun tujuan analisis gerombol adalah : 1. Mengetahui ada tidaknya perbedaan yang nyata signifikan antar
kelompok yang terbentuk, dalam hal ini gerombol yang dihasilkan. 2. Melihat profil serta kecenderungan-kecenderungan dari masing-masing
gerombol yang terbentuk. 3. Melihat posisi masing-masing objek terhadap objek lainnya dari gerombol
yang terbentuk.
2.1.2 Metode Analisis Gerombol
Secara umum ada dua metode dalam analisis gerombol, yaitu; 1. Metode Hirarkis
Metode penggerombolan berhirarki digunakan jika banyaknya gerombol yang akan dibentuk belum diketahui sebelumnya. Metode ini ditujukan untuk
ukuran data yang kecil n 500. Metode penggerombolan berhirarki ini dibedakan menjadi dua yaitu metode penggabungan agglomerative dan metode
pemisah divisive Hair et al,1998. Metode agglomerative dimulai dengan n buah gerombol yang masing
masing beranggotakan satu objek. Kemudian dua gerombol yang paling dekat digabungkan dan ditentukan kembali kedekatan antar gerombol yang baru. Proses
ini berlanjut sampai didapatkan satu gerombol yang anggotanya seluruh objek.
Universitas Sumatera Utara
11
Metode devisive dimulai dengan satu gerombol yang anggotanya adalah seluruh objek, kemudian objek-objek yang paling jauh dipisahkan dan membentuk
gerombol lain. Proses ini berlanjut sampau semua objek masing-masing membentuk satu gerombol.
Dalam metode berhirarki terdapat beberapa ukuran jarak antar gerombol, antara lain jarak minimum atau pautan tunggal single linkage, jarak maksimum
atau pautan lengkap comlete linkage, jarak antar centroid atau pautan centroid centroid lingkage, median antara gerombol atau pautan median median
linkage, rata-rata dari semua jarak atau pautan rataan average linkage, serta metode Ward. Jenis peubah yang dapat digerombolkan dengan metode ini adalah
peubah kontinu rasio dan interval dan fungsi jarak yang sering digunakan dalam metode berhirarki ini adalah jarak Euclidian atau jarak Mahalanobis.
2. Metode Non Hirarki Metode penggerombolan non hirarki digunakan jika banyaknya gerombol
yang akan dibentuk sudah diketahui sebelumnya. Metode ini cocok digunakan pada data yang berukuran besar 2000. Contoh dari metode non hirarki adalah K-
means. Langkah pertama dalam metode k-means yaitu menentukan besarnya k, yaitu banyaknya gerombol. Pemilihan k dapat ditentukan secara subyektif
berdasarkan latar belakang bidang masing-masing. Fungsi jarak yang sering digunakan adalah jarak Euclidian. Jenis peubah yang dapat digerombolkan dengan
metode ini adalah peubah kontinu Hair et al,1998. K-Means merupakan salah satu metode data clustering non hirarki yang
berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih
Universitas Sumatera Utara
12
gerombolcluster. Metode ini mempartisi data ke dalam gerombol sehingga data yang memiliki karakteristik sama dikelompokkan ke dalam satu gerombol yang
sama. Dasar pengelompokan dalam metode ini adalah menempatkan objek berdasarkan rata-rata mean gerombol terdekat Jhonson Wichern, 2007.
Algoritma K-Means memerlukan 3 komponen yaitu: 1. Jumlah Gerombol K
Seperti yang telah dijelaskan sebelumnya, K-Means merupakan bagian dari metode non-hirarki sehingga dalam metode ini jumlah k terus harus
ditentukan terlebih dahulu. Jumlah gerombol k dapat ditentukan melalui pendekatan metode hirarki. Namun perlu diperhatikan bahwa tidak terdapat
aturan khusus dalam menentukan jumlah gerombol k, terkadang jumlah gerombol yang diinginkan tergantung pada subjektif seseorang.
2. Gerombol Awal Gerombol awal yang dipilih berkaitan dengan penentuan pusat gerombol
awal centroid awal. Dalam hal ini, terdapat beberapa pendapat dalam memilih gerombol awal untuk metode K-Means sebagai berikut:
a. Pemilihan gerombol awal dapat ditentukan berdasarkan interval dari jumlah setiap observasi.
b. Pemilihan gerombol awal dapat ditentukan melalui pendekatan salah satu metode hirarki.
c. Pemilihan gerombol awal dapat secara acak dari semua observasi. Oleh karena adanya pemilihan gerombol awal yang berada ini maka
kemungkinan besar solusi gerombol yang dihasil akan berbeda pula.
Universitas Sumatera Utara
13
3. Ukuran Jarak Dalam hal ini, ukuran jarak digunakan untuk menempatkan observasi ke
dalam gerombol berdasarkan centroid terdekat. Ukuran jarak yang digunakan dalam metode K-Means adalah jarak Euclidian.
Two Step Cluster Two step Cluster adalah analisis penggerombolan yang dirancang untuk
menangani data dengan ukuran yang sangat besar. Analisis ini juga dapat mengatasi masalah pengukuran dengan tipe data yang berbeda yaitu kontinu dan
katagorik. Fungsi jarak Euclidian atau jarak Log Likelihood Bacher et al,2004. Prosedur penggerombolan objek dalam Two Step Cluster ini dilakukan
melalui dua tahapan yaitu tahap pembentukan gerombol awal dan tahap pembentukan gerombol optimal Chiu et al,2001. Perbandingan antara metode
hirarki, non hirarki dan Two Step Cluster selengkapnya dapat dilihat pada Tabel 2.1.
Tabel 2.1 Perbandingan Metode Hirarki, Non Hirarki, dan Two Step Cluster
Aspek yang dibandingkan
Metode Hirarki Metode Non
Hirarki Two Step Cluster
Ukuran data Ukuran
data kecil
Untuk data
besar Untuk data sangat
besar
Jenis peubah Kontinu
Kontinu Kontinu dan katagorik
Banyak gerombol
Belum diketahui Sudah
diketahui Belum diketahui
Ukuran jarak Euclidian
atau mahalanobis
Euclidian Euclidian atau Log
likehood
Asumsi sebaran Tidak ada asumsi Tidak
ada asumsi
Peubah kontinu
menyebar normal Peubah
katagorik menyebar
multinominal Antar
peubahnya saling bebas
Universitas Sumatera Utara
14
Tabel 2.1 Lanjutan Aspek yang
dibandingkan Metode Hirarki
Metode Non Hirarki
Two Step Cluster Metode
Penggabungan agglomerative
dan pemisahan
devisice K-means
Pembentukan CF Tree Agglomerative
Menentukan gerombol optimal
2.1.3 Jarak Dalam Analisis Gerombol