Penggerombolan Individu Objek Step 2 Cluster Konsep Jarak

11

2. Penggerombolan Individu Objek Step 2 Cluster

Pada tahap ini diterapkan model berbasiskan teknik hirarki. Sebagaimana halnya dengan teknik hirarki aglomeratif, hasil penggerombolan awal digabungkan dengan menggunakan cara bertatar stepwise sampai semua objek berada dalam satu gerombol. Berbeda dengan teknik -teknik hirarki aglomeratif, algoritma TwoStep Cluster didasarkan pada suatu model statistik. Model dilandasi pada asumsi bahwa peubah-peubah kontinu x j j = 1,2,…,p pada gerombol ke-i menyebar normal bebas stokastik dengan nilai tengah ij µ dan ragam 2 ij σ , serta peubah-peubah kategorik a j pada gerombol ke-i mengikuti sebaran multinomial dengan peluang ijl π , yang mana jl adalah indeks dari kategori ke l l = 1,2,…,m l dari peubah a j j = 1,2,…,q.

3. Konsep Jarak

Terdapat dua konsep pengukuran jarak yang tersedia pada SPSS TwoStep Cluster yaitu jarak Euclidean dan jarak log-likelihood. Bacher, Weinzig, dan Vogler 2004 menyatakan bahwa ukuran jarak log-likelihood dapat diterapkan untuk atribut peubah-peubah campuran antara kategorik dan numerik. Jarak log-likelihood antara dua kelompok i dan s didefinisikan sebagai berikut: s i s i s i d , , ξ ξ ξ − + = 1     − + − = ∑ ∑ ∑ = = = p j m l ijl ijl q j j ij i i j n 1 1 1 2 2 ˆ log ˆ ˆ ˆ log 2 1 π π σ σ ξ 2     − + − = ∑ ∑ ∑ = = = p j m l sjl sjl q j j sj s s j n 1 1 1 2 2 ˆ log ˆ ˆ ˆ log 2 1 π π σ σ ξ 3     − + − = ∑ ∑ ∑ = = = p j m l jl s i jl s i q j j j s i s i s i j n 1 1 , , 1 2 2 , , , ˆ log ˆ ˆ ˆ log 2 1 π π σ σ ξ 4 12 Untuk penyingkatan s i, ξ dituliskan sebagai v ε , yang dapat ditafsirkan sebagai suatu jenis galat penyimpangan dispersi di dalam gerombol v v = i,s,i,s. v ε terdiri dari dua komponen keragaman. Bagian pertama adalah ˆ ˆ log 2 1 2 2 1 j vj p j v n σ σ + − ∑ = yang mengukur total simpangan keragaman dari peubah kontinu x j di dalam gerombol v dan bagian kedua ˆ log ˆ 1 1 vjl vjl mj l q j v n π π = = ∑ ∑ − entropy mengukur dispersi pada peubah kategorik. Seperti halnya dengan teknik hirarki aglomeratif, gerombol- gerombol dengan jarak terkecil di,s digabungkan pada tiap langkah. Fungsi log-likelihood untuk langkah dengan k gerombol dituliskan sebagai: ∑ = = k v v k l 1 ξ 5 Fungsi l k bukan merupakan fungsi log-likelihood yang selengkapnya sebagaimana dituliskan pada persamaan sebelumnya. Fungsi ini dapat ditafsirkan sebagai dispersi di dalam gerombol keragaman dalam gerombol. Bila hanya diperhatikan pada bagian peubah kategorik, l k adalah entropy dalam gerombol ke k.

4. Penentuan Banyaknya Gerombol