Ukuran Jarak TINJAUAN PUSTAKA

and dependent variables . Analisis gerombol juga disebut analisis klasifikasi atau taxonomi numerik numerical taxonomi. Menurut Anderberg 1973 terdapat dua metode dalam analisis gerombol yaitu: metode berhierarki hierarchical clustering methods dan metode tak berhierarki non hierarchical clustering methods. Metode berhierarki digunakan apabila belum ada informasi jumlah kelompok yang akan dipilih. Sedangkan metode tak berhierarki bertujuan untuk mengelompokkan n objek ke dalam k kelompok kn dimana nilai k telah ditentukan sebelumnya. Pada dasarnya, terdapat dua teknik penggerombolan pada metode berhierarki, yaitu teknik penggabungan agglomerative dan teknik pembagian divisive, sedangkan metode tak berhierarki antara lain dengan teknik penyekatan partitioning dan penggunaan grafik. Gerombol yang baik adalah gerombol yang mempunyai sifat-sifat sebagai berikut: 1 Kesamaan di dalam kelas Intraclass similarity yang tinggi antar anggotanya dalam satu gerombol within-cluster. 2 Kesamaan antar kelas Interclass similarity yang rendah antar satu gerombol dengan gerombol lainnya between cluster.

2.4 Ukuran Jarak

Menurut Andenberg 1973 ukuran jarak dibutuhkan untuk setiap pasang objek yang akan dikelompokkan. Beberapa metode pengukuran jarak antar dua objek, yaitu: 1 Jarak Euclidean Jarak ini merupakan jarak yang umum digunakan, dan dapat digunakan apabila semua peubahnya berskala kontinu. Jarak ini harus memenuhi asumsi bahwa peubah-peubah yang diamati tidak berkorelasi dan antar peubah memiliki satuan yang sama. Dalam metode ini, pengukuran jarak dilakukan dengan menghitung akar kuadrat dari penjumlahan kuadrat selisih dari nilai masing- masing peubah. Jarak Euclid dapat dirumuskan sebagai berikut: dengan: : jarak antara objek i dengan objek k : nilai objek i pada peubah ke- k : nilai objek j pada peubah ke- k :banyaknya peubah yang diamati 2 Jarak Manhattan City BlockMinkowski Jarak ini merupakan bentuk umum dari jarak Euclidean. Jarak Manhattan digunakan jika peubah yang diamati berkorelasi atau tidak saling bebas. Dalam metode ini, pengukuran jarak dilakukan dengan menghitung jumlah absolut perbedaan untuk masing-masing peubah. Jarak Manhattan dapat dirumuskan sebagai berikut: | | . dengan: : jarak antara objek i dengan objek k : nilai objek i pada peubah ke- k : nilai objek j pada peubah ke- k : banyaknya peubah yang diamati 3 Jarak Chebysev Jarak Chebysev dilakukan dengan menghitung jumlah nilai maksimum absolut perbedaan untuk beberapa peubah. Jarak Chebysev dapat dirumuskan sebagai berikut: Max | | 2.3 dengan: : jarak antara objek i dengan objek k : nilai objek i pada peubah ke- k : nilai objek j pada peubah ke- k 4 Jarak Mahalonobis Jarak ini sangat berguna dalam menghilangkan atau mengurangi perbedaan skala pada masing-masing komponen. Jarak Mahalonobis dapat dirumuskan sebagai berikut: ′ .4 dengan: : jarak antara objek i dengan objek k : nilai objek i pada peubah ke- k : nilai objek j pada peubah ke- k S : matriks kovarian 5 Jarak Log-likelihood Jarak ini digunakan untuk peubah berskala kontinu dan kategorik. Jarak antara gerombol j dengan gerombol s dapat dirumuskan sebagai berikut: , , 2.5 dengan: log log log log log log dengan: N : jumlah total observasi N j : jumlah observasi di dalam gerombol j N jkl : jumlah objek di gerombol j untuk peubah kategorik ke k dengan kategori ke l : ragam dugaan untuk peubah kontinu ke k untuk keseluruhan observasi : ragam dugaan untuk peubah kontinu ke k untuk keseluruhan observasi dalam gerombol j K A : jumlah total peubah kontinu K B : jumlah total peubah kategorik L k : jumlah kategori untuk peubah kategorik ke-k

2.5 k-means Clustering