b. Mengukur jarak distance antara dua objek. Pengukuran ada bermacam-
macam, yang paling popular adalah metode Euclidean Distance. Pada dasarnya, cara ini memasukkan sebuah data ke dalam gerombol tertentu
dengan mengukur ‘jarak’ data tersebut dengan pusat gerombol. Jika data ada dalam jarak yang masih ada dalam batas tertentu, data tersebut dapat
dimasukkan pada gerombol tersebut. c.
Mengukur asosiasi antar-objek. Pada dasarnya, cara ini akan mengasosiasikan sebuah data dengan gerombol tertentu; dalam praktek,
cara ini tidak sepopuler kedua cara sebelumnya. Korelasi dan distance digunakan jika data adalah metrik, sedangkan
asosiasi digunakan jika data adalah non-metrik. Dalam praktek, penggunaan metode Euclidean Distance adalah yang
paling popular.
3. Melakukan Proses Standarisasi Data Jika Diperlukan
Setelah cara mengukur jarak ditetapkan, yang juga perlu diperhatikan adalah apakah satuan data mempunyai perbedaan yang besar. Sebagai contoh, jika variabel
penghasilan mempunyai satuan juta 000.000, sedangkan usia seseorang hanya mempunyai satuan puluhan 00, maka perbedaan yang mencolok ini akan membuat
perhitungan jarak distance menjadi tidak valid. Jika data memang mempunyai satuan yang berbeda secara signifikan, pada data harus dilakukan proses standarisasi
dengan mengubah data yang ada ke Z-Score. Proses standarisasi menjadikan dua data dengan perbedaan satuan yang lebar akan otomatis menjadi menyempit Santoso,
2010.
Universitas Sumatera Utara
4. Memilih Suatu Prosedur Penggerombolan
Setelah data yang dianggap mempunyai satuan yang sangat berbeda diseragamkan, dan metode gerombol ditentukan misal dipilih Eucledian, langkah
selanjutnya adalah pengelompokan data, yang bisa dilakukan dengan dua metode: a.
Hierarchical Method, ialah metode yang memulai pengelompokannya dengan dua atau lebih obyek yang mempunyai kesamaan paling dekat,
kemudian proses dilanjutkan ke objek lain yang mempunyai kedekatan kedua. Demikian seterusnya sehingga gerombol akan membentuk
semacam “pohon” dimana ada hierarki tingkatan yang jelas antar objek, dari yang paling mirip sampai dengan yang paling tidak mirip. Secara
logika semua objek pada akhirnya hanya akan membentuk sebuah gerombol. Dendogram biasanya digunakan untuk membantu memperjelas
proses hierarki tersebut. b.
Non Hirarchical Method, ialah metode yang dimulai dengan menentukan terlebih dahulu jumlah gerombol yang diinginkan dua gerombol, tiga
gerombol atau yang lain. Dan kemudiaan baru dilakukan proses gerombol tanpa mengikuti proses hierarki. Biasa disebut metode K-Means Cluster.
Dua kelemahan dari prosedur non-hierarki ialah bahwa banyaknya gerombol harus disebutkanditentukan sebelumnya dan pemilihan pusat
gerombol sembarang. Lebih lanjut, hasil gerombol mungkin tergantung pada bagaimana pusat dipilih. Banyak program non-hierarki, memilih k
objek kasus yang pertama, tanpa ada nilai yang hilang sebagai pusat gerombol awal k=banyaknya gerombol. Jadi hasil gerombol mungkin
Universitas Sumatera Utara
tergantung pada urutan observasi dalam data. Bagaimanapun juga, gerombol non-hierarki lebih cepat daripada metode hierarki dan lebih
menguntungkan kalau jumlah objekkasus atau observasi besar sekali sampel besar.
5. Melakukan Interpretasi Terhadap Gerombol yang Telah Terbentuk.