Melakukan Proses Standarisasi Data Jika Diperlukan Memilih Suatu Prosedur Penggerombolan

b. Mengukur jarak distance antara dua objek. Pengukuran ada bermacam- macam, yang paling popular adalah metode Euclidean Distance. Pada dasarnya, cara ini memasukkan sebuah data ke dalam gerombol tertentu dengan mengukur ‘jarak’ data tersebut dengan pusat gerombol. Jika data ada dalam jarak yang masih ada dalam batas tertentu, data tersebut dapat dimasukkan pada gerombol tersebut. c. Mengukur asosiasi antar-objek. Pada dasarnya, cara ini akan mengasosiasikan sebuah data dengan gerombol tertentu; dalam praktek, cara ini tidak sepopuler kedua cara sebelumnya. Korelasi dan distance digunakan jika data adalah metrik, sedangkan asosiasi digunakan jika data adalah non-metrik. Dalam praktek, penggunaan metode Euclidean Distance adalah yang paling popular.

3. Melakukan Proses Standarisasi Data Jika Diperlukan

Setelah cara mengukur jarak ditetapkan, yang juga perlu diperhatikan adalah apakah satuan data mempunyai perbedaan yang besar. Sebagai contoh, jika variabel penghasilan mempunyai satuan juta 000.000, sedangkan usia seseorang hanya mempunyai satuan puluhan 00, maka perbedaan yang mencolok ini akan membuat perhitungan jarak distance menjadi tidak valid. Jika data memang mempunyai satuan yang berbeda secara signifikan, pada data harus dilakukan proses standarisasi dengan mengubah data yang ada ke Z-Score. Proses standarisasi menjadikan dua data dengan perbedaan satuan yang lebar akan otomatis menjadi menyempit Santoso, 2010. Universitas Sumatera Utara

4. Memilih Suatu Prosedur Penggerombolan

Setelah data yang dianggap mempunyai satuan yang sangat berbeda diseragamkan, dan metode gerombol ditentukan misal dipilih Eucledian, langkah selanjutnya adalah pengelompokan data, yang bisa dilakukan dengan dua metode: a. Hierarchical Method, ialah metode yang memulai pengelompokannya dengan dua atau lebih obyek yang mempunyai kesamaan paling dekat, kemudian proses dilanjutkan ke objek lain yang mempunyai kedekatan kedua. Demikian seterusnya sehingga gerombol akan membentuk semacam “pohon” dimana ada hierarki tingkatan yang jelas antar objek, dari yang paling mirip sampai dengan yang paling tidak mirip. Secara logika semua objek pada akhirnya hanya akan membentuk sebuah gerombol. Dendogram biasanya digunakan untuk membantu memperjelas proses hierarki tersebut. b. Non Hirarchical Method, ialah metode yang dimulai dengan menentukan terlebih dahulu jumlah gerombol yang diinginkan dua gerombol, tiga gerombol atau yang lain. Dan kemudiaan baru dilakukan proses gerombol tanpa mengikuti proses hierarki. Biasa disebut metode K-Means Cluster. Dua kelemahan dari prosedur non-hierarki ialah bahwa banyaknya gerombol harus disebutkanditentukan sebelumnya dan pemilihan pusat gerombol sembarang. Lebih lanjut, hasil gerombol mungkin tergantung pada bagaimana pusat dipilih. Banyak program non-hierarki, memilih k objek kasus yang pertama, tanpa ada nilai yang hilang sebagai pusat gerombol awal k=banyaknya gerombol. Jadi hasil gerombol mungkin Universitas Sumatera Utara tergantung pada urutan observasi dalam data. Bagaimanapun juga, gerombol non-hierarki lebih cepat daripada metode hierarki dan lebih menguntungkan kalau jumlah objekkasus atau observasi besar sekali sampel besar.

5. Melakukan Interpretasi Terhadap Gerombol yang Telah Terbentuk.