and dependent variables . Analisis gerombol juga disebut analisis klasifikasi atau
taxonomi numerik numerical taxonomi. Menurut Anderberg 1973 terdapat dua metode dalam analisis gerombol
yaitu: metode berhierarki hierarchical clustering methods dan metode tak berhierarki non hierarchical clustering methods. Metode berhierarki digunakan
apabila belum ada informasi jumlah kelompok yang akan dipilih. Sedangkan metode tak berhierarki bertujuan untuk mengelompokkan n objek ke dalam k
kelompok kn dimana nilai k telah ditentukan sebelumnya. Pada dasarnya, terdapat dua teknik penggerombolan pada metode berhierarki, yaitu teknik
penggabungan agglomerative dan teknik pembagian divisive, sedangkan metode tak berhierarki antara lain dengan teknik penyekatan partitioning dan
penggunaan grafik. Gerombol yang baik adalah gerombol yang mempunyai sifat-sifat sebagai
berikut: 1 Kesamaan di dalam kelas Intraclass similarity yang tinggi antar anggotanya
dalam satu gerombol within-cluster. 2 Kesamaan antar kelas Interclass similarity yang rendah antar satu gerombol
dengan gerombol lainnya between cluster.
2.4 Ukuran Jarak
Menurut Andenberg 1973 ukuran jarak dibutuhkan untuk setiap pasang objek yang akan dikelompokkan. Beberapa metode pengukuran jarak antar dua
objek, yaitu: 1 Jarak Euclidean
Jarak ini merupakan jarak yang umum digunakan, dan dapat digunakan apabila semua peubahnya berskala kontinu. Jarak ini harus memenuhi asumsi
bahwa peubah-peubah yang diamati tidak berkorelasi dan antar peubah memiliki satuan yang sama. Dalam metode ini, pengukuran jarak dilakukan dengan
menghitung akar kuadrat dari penjumlahan kuadrat selisih dari nilai masing- masing peubah. Jarak Euclid dapat dirumuskan sebagai berikut:
dengan:
: jarak antara objek i dengan objek k : nilai objek i pada peubah ke- k
: nilai objek j pada peubah ke- k :banyaknya peubah yang diamati
2 Jarak Manhattan City BlockMinkowski Jarak ini merupakan bentuk umum dari jarak Euclidean. Jarak Manhattan
digunakan jika peubah yang diamati berkorelasi atau tidak saling bebas. Dalam metode ini, pengukuran jarak dilakukan dengan menghitung jumlah absolut
perbedaan untuk masing-masing peubah. Jarak Manhattan dapat dirumuskan sebagai berikut:
| |
. dengan:
: jarak antara objek i dengan objek k : nilai objek i pada peubah ke- k
: nilai objek j pada peubah ke- k : banyaknya peubah yang diamati
3 Jarak Chebysev Jarak Chebysev dilakukan dengan menghitung jumlah nilai maksimum
absolut perbedaan untuk beberapa peubah. Jarak Chebysev dapat dirumuskan sebagai berikut:
Max | |
2.3 dengan:
: jarak antara objek i dengan objek k : nilai objek i pada peubah ke- k
: nilai objek j pada peubah ke- k 4 Jarak Mahalonobis
Jarak ini sangat berguna dalam menghilangkan atau mengurangi perbedaan skala pada masing-masing komponen. Jarak Mahalonobis dapat dirumuskan
sebagai berikut:
′
.4
dengan: : jarak antara objek i dengan objek k
: nilai objek i pada peubah ke- k : nilai objek j pada peubah ke- k
S : matriks kovarian
5 Jarak Log-likelihood Jarak ini digunakan untuk peubah berskala kontinu dan kategorik. Jarak
antara gerombol j dengan gerombol s dapat dirumuskan sebagai berikut:
,
,
2.5 dengan:
log log
log log
log log
dengan: N
: jumlah total observasi N
j
: jumlah observasi di dalam gerombol j N
jkl
: jumlah objek di gerombol j untuk peubah kategorik ke k dengan kategori ke l
: ragam dugaan untuk peubah kontinu ke k untuk keseluruhan observasi
: ragam dugaan untuk peubah kontinu ke k untuk keseluruhan observasi dalam gerombol j
K
A
: jumlah total peubah kontinu K
B
: jumlah total peubah kategorik L
k
: jumlah kategori untuk peubah kategorik ke-k
2.5 k-means Clustering