Perbandingan metode penggerombolan dengan komponen utama nonlinier dan gerombol dua langkah pada data campuran

RINGKASAN
YOGI YUNIANTO. Perbandingan Metode Penggerombolan Dengan Komponen Utama Nonlinier
Dan Gerombol Dua Langkah Pada Data Campuran. Dibimbing oleh MOHAMMAD MASJKUR
dan PIKA SILVIANTI.
Skala pengukuran yang berbeda sering ditemui pada berbagai kasus, termasuk pada kasus
penggerombolan. Dalam kasus penggerombolan jika terdapat perbedaan skala pengukuran pada
peubah yang akan digerombolkan, maka metode penggerombolan konvensional tidak dapat
digunakan. Diperlukan penanganan khusus atau metode tertentu untuk menggerombolkan peubah
yang memiliki skala campuran, yaitu skala numerik dan kategorik. Pada studi ini, akan dilakukan
pembandingan hasil penggerombolan dengan melakukan dua metode yang berbeda, yaitu dengan
transformasi terhadap data menggunakan Analisis Komponen Utama Nonlinier dan dengan
menggunakan metode penggerombolan dua langkah. Data yang digunakan dalam penelitian ini
adalah data kesejahteraan daerah – daerah di wilayah Jawa Barat. Hasil penggerombolan optimum
dengan menggunakan metode gerombol dua langkah menghasilkan tiga gerombol, sementara
penggerombolan menggunakan pautan centroid dengan transformasi AKU Nonlinier
menghasilkan dua gerombol. Metode gerombol dua langkah dapat menjelaskan hasil
penggerombolan yang lebih baik dan lebih spesifik dibandingkan metode pautan centroid dengan
transformasi AKU Nonlinier. Selain itu, keragaman dalam gerombol dan antar gerombol yang
dihasilkan metode gerombol dua langkah juga lebih baik dibandingkan metode pautan centroid
dengan transformasi AKU Nonlinier. Hal ini menjelaskan bahwa metode gerombol dua langkah
lebih baik dibandingkan metode pautan centroid dengan transformasi AKU Nonlinier.

Kata Kunci : Skala pengukuran campuran, Analisis Komponen Utama Nonlinier, Analisis
Gerombol Dua Langkah.

1

PENDAHULUAN
Latar Belakang
Peneliti dalam studinya biasa memakai
beberapa peubah untuk menggambarkan
karakteristik populasi yang diteliti. Seringkali,
peubah yang digunakan memiliki skala
pengukuran yang berbeda, yaitu skala numerik
dan kategorik.
Dalam penggerombolan jika skala peubah
– peubah yang akan digerombolkan memiliki
skala pengukuran yang berbeda, peneliti tidak
dapat langsung menggunakan metode
penggerombolan
konvensional
baik

penggerombolan berhirarki maupun nonhirarki. Diperlukan penanganan khusus atau
metode tertentu untuk menggerombolkan
peubah yang memiliki skala campuran.
Metode alternatif untuk mengatasi
masalah perbedaan skala pengukuran adalah
metode transformasi Komponen Utama
Nonlinier. Metode ini menghasilkan skor
komponen obyek yang berskala rasio atau
berjenis data numerik, sehingga dapat
dianalisis
menggunakan
analisis
penggerombolan. Pada penelitian terdahulu
mengenai AKU Nonlinier dikatakan bahwa
AKU nonlinier tidak dapat mentransformasi
nilai data yang nilainya diatas 10000 (Anonim
2005).
Metode
lainnya
adalah

metode
penggerombolan dua langkah. Metode ini
bertujuan untuk mengatasi masalah perbedaan
skala pengukuran dalam penggerombolan,
tanpa harus melakukan transformasi terhadap
data.
Tujuan
Studi ini bertujuan untuk membandingkan
metode penggerombolan jika peubah yang
akan digerombolkan berskala campuran.
Metode
yang
dibandingkan
yaitu
penggerombolan pautan centroid dengan
transformasi Komponen Utama Nonlinier dan
Metode Penggerombolan Dua Langkah.

TINJAUAN PUSTAKA
Analisis Gerombol

Analisis gerombol merupakan suatu
analisis statistika peubah ganda yang
digunakan untuk mengelompokan objek
pengamatan menjadi beberapa gerombol
berdasarkan ukuran kemiripan antar objek,
sehingga objek – objek yang berada dalam
satu gerombol memiliki kemiripan yang lebih

besar dibandingkan objek dari gerombol yang
berbeda (Johnson & Wichern 1992).
Salah satu ukuran jarak yang paling
umum dipakai dalam analisis gerombol adalah
ukuran jarak Euclid yang didefinisikan
sebagai berikut

dimana:
dij = jarak objek ke-i dengan objek ke-j
xi1 = nilai objek ke-i pada peubah ke-1
xj1 = nilai objek ke-j pada peubah ke-1
p = banyaknya peubah yang diamati

Secara umum terdapat dua metode
penggerombolan, yaitu metode berhirarki dan
metode tidak berhirarki. Metode berhirarki
mengelompokkan dua atau lebih objek yang
mempunyai kesamaan paling dekat, kemudian
proses diteruskan ke objek lain yang
mempunyai kedekatan kedua. Metode tak
berhirarki dimulai dengan menentukan
terlebih dahulu jumlah gerombol yang
diinginkan sehingga sifat pengelompokkannya
tidaklah alamiah karena dikondisikan untuk
jumlah kelompok tertentu.
Metode Pautan Centroid
Metode
ini
merupakan
metode
penggerombolan berhirarki. Pada metode ini
jarak antara dua gerombol didefinisikan
sebagai jarak antar centroid gerombol kedua

gerombol tersebut. Centroid gerombol adalah
nilai tengah observasi pada variabel dalam
suatu set variabel gerombol. Keuntungan
metode ini adalah tidak terlalu dipengaruhi
oleh pencilan. Jarak centroid didefinisikan
sebagai berikut

dengan:
cent(wi,wj) = jarak centroid gerombol i dan j.
Ni
= jumlah objek gerombol ke-i.
Nj
= jumlah objek gerombol ke-j.
dm
= jarak antara objek ke-m dalam
gerombol i dengan centroidnya.
dn
= jarak antara objek ke-n dalam
gerombol j dengan centroidnya.
Analisis Komponen Utama Nonlinier

Metode ini digunakan untuk mengatasi
perbedaan
skala
pengukuran
sebelum
dilakukan
penggerombolan.
Analisis
Komponen Utama Nonlinier merupakan
pengembangan dari Analisis Komponen
Utama dan biasa juga disebut Princals
(Principal Component Analysis by Alternating
Least Square) atau Analisis Komponen Utama

1

PENDAHULUAN
Latar Belakang
Peneliti dalam studinya biasa memakai
beberapa peubah untuk menggambarkan

karakteristik populasi yang diteliti. Seringkali,
peubah yang digunakan memiliki skala
pengukuran yang berbeda, yaitu skala numerik
dan kategorik.
Dalam penggerombolan jika skala peubah
– peubah yang akan digerombolkan memiliki
skala pengukuran yang berbeda, peneliti tidak
dapat langsung menggunakan metode
penggerombolan
konvensional
baik
penggerombolan berhirarki maupun nonhirarki. Diperlukan penanganan khusus atau
metode tertentu untuk menggerombolkan
peubah yang memiliki skala campuran.
Metode alternatif untuk mengatasi
masalah perbedaan skala pengukuran adalah
metode transformasi Komponen Utama
Nonlinier. Metode ini menghasilkan skor
komponen obyek yang berskala rasio atau
berjenis data numerik, sehingga dapat

dianalisis
menggunakan
analisis
penggerombolan. Pada penelitian terdahulu
mengenai AKU Nonlinier dikatakan bahwa
AKU nonlinier tidak dapat mentransformasi
nilai data yang nilainya diatas 10000 (Anonim
2005).
Metode
lainnya
adalah
metode
penggerombolan dua langkah. Metode ini
bertujuan untuk mengatasi masalah perbedaan
skala pengukuran dalam penggerombolan,
tanpa harus melakukan transformasi terhadap
data.
Tujuan
Studi ini bertujuan untuk membandingkan
metode penggerombolan jika peubah yang

akan digerombolkan berskala campuran.
Metode
yang
dibandingkan
yaitu
penggerombolan pautan centroid dengan
transformasi Komponen Utama Nonlinier dan
Metode Penggerombolan Dua Langkah.

TINJAUAN PUSTAKA
Analisis Gerombol
Analisis gerombol merupakan suatu
analisis statistika peubah ganda yang
digunakan untuk mengelompokan objek
pengamatan menjadi beberapa gerombol
berdasarkan ukuran kemiripan antar objek,
sehingga objek – objek yang berada dalam
satu gerombol memiliki kemiripan yang lebih

besar dibandingkan objek dari gerombol yang

berbeda (Johnson & Wichern 1992).
Salah satu ukuran jarak yang paling
umum dipakai dalam analisis gerombol adalah
ukuran jarak Euclid yang didefinisikan
sebagai berikut

dimana:
dij = jarak objek ke-i dengan objek ke-j
xi1 = nilai objek ke-i pada peubah ke-1
xj1 = nilai objek ke-j pada peubah ke-1
p = banyaknya peubah yang diamati
Secara umum terdapat dua metode
penggerombolan, yaitu metode berhirarki dan
metode tidak berhirarki. Metode berhirarki
mengelompokkan dua atau lebih objek yang
mempunyai kesamaan paling dekat, kemudian
proses diteruskan ke objek lain yang
mempunyai kedekatan kedua. Metode tak
berhirarki dimulai dengan menentukan
terlebih dahulu jumlah gerombol yang
diinginkan sehingga sifat pengelompokkannya
tidaklah alamiah karena dikondisikan untuk
jumlah kelompok tertentu.
Metode Pautan Centroid
Metode
ini
merupakan
metode
penggerombolan berhirarki. Pada metode ini
jarak antara dua gerombol didefinisikan
sebagai jarak antar centroid gerombol kedua
gerombol tersebut. Centroid gerombol adalah
nilai tengah observasi pada variabel dalam
suatu set variabel gerombol. Keuntungan
metode ini adalah tidak terlalu dipengaruhi
oleh pencilan. Jarak centroid didefinisikan
sebagai berikut

dengan:
cent(wi,wj) = jarak centroid gerombol i dan j.
Ni
= jumlah objek gerombol ke-i.
Nj
= jumlah objek gerombol ke-j.
dm
= jarak antara objek ke-m dalam
gerombol i dengan centroidnya.
dn
= jarak antara objek ke-n dalam
gerombol j dengan centroidnya.
Analisis Komponen Utama Nonlinier
Metode ini digunakan untuk mengatasi
perbedaan
skala
pengukuran
sebelum
dilakukan
penggerombolan.
Analisis
Komponen Utama Nonlinier merupakan
pengembangan dari Analisis Komponen
Utama dan biasa juga disebut Princals
(Principal Component Analysis by Alternating
Least Square) atau Analisis Komponen Utama

2

dengan menggunakan pendekatan alternating
least squares (Gifi 1990).
Apabila terdapat suatu data yang dibentuk
ke dalam matriks H yang berukuran n x m,
maka untuk memudahkan perhitungan
Analisis Komponen Utama Nonlinier dipakai
notasi:
n = banyak pengamatan (obyek) ; i = 1, …,
n.
m = banyak peubah.
kj = banyak kategori pada peubah ke-j ; j =
1, … , m.
hj = vektor kolom ke-j dari matriks H
berukuran n x 1.
Gj = matriks indikator dari hj berukuran nxkj.
dengan:
!"#$ %&! # #
#$
%'" #

- !"#$ %&! # #
#$
%'" #

" & '$ $ $($)
' $'" * +&$, !

" " $# & '$ $ $($)
' $'" * +&$, !

i = 1, 2, … , n ; r = 1, 2, …, kj.
/

/ / 0 / 0 /

& '+#+'$

.

#

/ merupakan matriks yang berisi
frekuensi dari tiap kategori pada setiap
peubah. / dikatakan lengkap apabila dari
setiap baris pada / mempunyai satu unsur
bernilai satu dan lainnya 0.
Model Analisis Komponen Utama
Nonlinier adalah sebagai berikut
1

2$ 2

2

dimana i = 1,2,…,n; j = 1,2,…,m; s = 1,2,…,p.
Analisis Komponen Utama Nonlinier
didasarkan pada teori meet loss yang bertujuan
untuk meminimumkan fungsi homogeneity
loss 34 :
34 5 6 7 )8

5

/6 9 5

/6

dengan normalisasi AVE(xs) = 0 untuk
dimensi s = 1, …, p dan 595 :. AVE(xs)
adalah vektor yang merupakan rata – rata
kolom dari elemen matriks xs. Notasi 34
- yang
digunakan karena 34 5 6
berimplikasi pada nilai ranking / paling
sedikit p. Algoritma alternating least squares
untuk meminimumkan 34 adalah,
6 ; ;

GRAM(Z)

=

/6

5 ; /?@A >
matriks orthogonal dari
orthogonalisasi
GramSchmidt.

algoritma diatas juga menghitung dimensi dari
ranking pertama p dari analisis kehomogenan
secara simultan (Gifi 1990).
Analisis Gerombol Dua Langkah
Metode ini digunakan untuk mengatasi
masalah skala pengukuran peubah yang
berbeda, yaitu skala numerik dan skala
kategorik. Jarak antar gerombol didefinisikan
sebagai jarak dari vektor centroid masing –
masing peubah yang terdapat dalam suatu
gerombol. Jarak yang digunakan dalam
metode analisis gerombol dua langkah adalah
jarak Log-Likelihood dan jarak Euclid.
Jarak Log-Likelihood dapat digunakan
untuk peubah numerik dan kategorik. Jarak
Log-Likelihood didefinisikan sebagai berikut
(Rong Liu 2005),
< @B
CDE F @
CDE F B
CDE F @B
G

QL R

3KL R

H

I

O

L

R
R

CDE J

TUR
TUR

SL

SL

3KL IM
N
3KL I

QV L R

M

O

L

CDE J

3KL IM
N P
3KL M

dengan :
log L(A) = log likelihood dari gerombol A
AB
= gerombol baru kombinasi
gerombol AB
S U 5 = untuk setiap y elemen X
Penggerombolan dua langkah terdiri dari
penggerombolan
langkah
awal
dan
penggerombolan optimal. Penggerombolan
langkah awal dimulai dengan pembentukan
Clustering Feature Tree (CF Tree).
Selanjutnya, hasil dari CF Tree dipakai dalam
penentuan gerombol optimal. Suatu gerombol
dikatakan optimal apabila memiliki jarak antar
gerombol paling jauh dan jarak antar objek
paling dekat.
Gerombol optimal diperoleh setelah
melakukan penghitungan terhadap nilai AIC
(Akaike’s Information Criterion) dan BIC
(Bayesian Information Criterion). Hasil
perhitungan tersebut digunakan untuk
menduga jumlah gerombol awal. Langkah
kedua adalah mencari peningkatan jarak
terbesar antara dua gerombol terdekat pada
masing –masing tahapan penggerombolan.
Jumlah gerombol optimal diperoleh
berdasarkan
ketentuan
diperolehnya
perbedaan yang nyata pada rasio perubahan
jarak gerombol. Rasio perubahan gerombol
dihitung dengan menggunakan rumus

3
? # W? #
dengan :
R(k1) = rasio perubahan jarak terbesar pertama
R(k2) = rasio perubahan jarak terbesar kedua
dan rumus R(k) sebagai berikut
? #
X8 Y X
(
(X
X
X8
dengan :
R(k) = rasio perubahan jarak
lv = (mvlog n – BICv)/2
v
= k, k-1
dk-1 = jarak jika k gerombol digabungkan
dengan k-1 gerombol
Jika rasio perubahan lebih besar dari batas
c2 , jumlah gerombol optimum ditetapkan
sama dengan k1, selainnya jumlah gerombol
optimal sama dengan maksimum {k1,k2}. Nilai
c2 = 1.15, berdasarkan studi simulasi (Bacher
et al 2004).
Keragaman Gerombol
Pada dasarnya pada penggerombolan
terdapat dua keragaman, yaitu, keragaman
dalam gerombol dan keragaman antar
gerombol. Beberapa definisi keragaman yaitu
(Lathifaturrahmah 2010),
1. Keragaman antar gerombol
^

ZZB

2.

[\

ZZa

^

<

[\

SSW = Sum of Square Within Cluster
dengan : xij = objek ke-i gerombol ke-j
[\ = rata-rata
objek
pada
gerombol j
k = banyaknya gerombol
nj = banyaknya objek gerombol
ke-j
Hasil penggerombolan yang baik adalah
jika objek dalam gerombol yang sama
memiliki keragaman yang rendah sedangkan
objek antar gerombol memiliki tingkat
keragaman yang tinggi. Dengan kata lain,
objek dalam satu gerombol memiliki tingkat
kemiripan yang tinggi dan objek berbeda
gerombol memiliki tingkat kemiripan yang
rendah (Serban & Grigoreta 2006).

bcd f bcd
ee

dengan :

2.

e e

3.

g

f

bhi
eXe

=

X

jj

= jarak antar kelompok
ci,cj.
=
X = jarak dalam kelompok
ck.
Nilai terbesar dari D diambil sebagai
jumlah optimum kelompok.
Indeks Davies-Bouldin (DB)