Perbandingan metode penggerombolan dengan komponen utama nonlinier dan gerombol dua langkah pada data campuran

PERBANDINGAN METODE PENGGEROMBOLAN DENGAN
KOMPONEN UTAMA NONLINIER DAN GEROMBOL DUA
LANGKAH PADA DATA CAMPURAN

YOGI YUNIANTO

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011

RINGKASAN
YOGI YUNIANTO. Perbandingan Metode Penggerombolan Dengan Komponen Utama Nonlinier
Dan Gerombol Dua Langkah Pada Data Campuran. Dibimbing oleh MOHAMMAD MASJKUR
dan PIKA SILVIANTI.
Skala pengukuran yang berbeda sering ditemui pada berbagai kasus, termasuk pada kasus
penggerombolan. Dalam kasus penggerombolan jika terdapat perbedaan skala pengukuran pada
peubah yang akan digerombolkan, maka metode penggerombolan konvensional tidak dapat
digunakan. Diperlukan penanganan khusus atau metode tertentu untuk menggerombolkan peubah
yang memiliki skala campuran, yaitu skala numerik dan kategorik. Pada studi ini, akan dilakukan

pembandingan hasil penggerombolan dengan melakukan dua metode yang berbeda, yaitu dengan
transformasi terhadap data menggunakan Analisis Komponen Utama Nonlinier dan dengan
menggunakan metode penggerombolan dua langkah. Data yang digunakan dalam penelitian ini
adalah data kesejahteraan daerah – daerah di wilayah Jawa Barat. Hasil penggerombolan optimum
dengan menggunakan metode gerombol dua langkah menghasilkan tiga gerombol, sementara
penggerombolan menggunakan pautan centroid dengan transformasi AKU Nonlinier
menghasilkan dua gerombol. Metode gerombol dua langkah dapat menjelaskan hasil
penggerombolan yang lebih baik dan lebih spesifik dibandingkan metode pautan centroid dengan
transformasi AKU Nonlinier. Selain itu, keragaman dalam gerombol dan antar gerombol yang
dihasilkan metode gerombol dua langkah juga lebih baik dibandingkan metode pautan centroid
dengan transformasi AKU Nonlinier. Hal ini menjelaskan bahwa metode gerombol dua langkah
lebih baik dibandingkan metode pautan centroid dengan transformasi AKU Nonlinier.
Kata Kunci : Skala pengukuran campuran, Analisis Komponen Utama Nonlinier, Analisis
Gerombol Dua Langkah.

PERBANDINGAN METODE PENGGEROMBOLAN DENGAN
KOMPONEN UTAMA NONLINIER DAN GEROMBOL DUA
LANGKAH PADA DATA CAMPURAN

YOGI YUNIANTO


Skripsi Sebagai Salah Satu Syarat untuk Memperoleh
Gelar Sarjana Statistika pada Departemen Statistika

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011

Judul

:

Nama :
NRP :

Perbandingan Metode Penggerombolan Dengan Komponen Utama Nonlinier
Dan Gerombol Dua Langkah Pada Data Campuran
Yogi Yunianto

G14060730

Menyetujui,

Pembimbing I

Ir. Mohammad Masjkur, MS
NIP. 19610608 1986011002

Pembimbing II

Pika Silvianti, S.Si, M.Si

Mengetahui,
Ketua Departemen Statistika
Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor

Dr. Ir. Hari Wijayanto
NIP. 19650421 1990021001


Tanggal Lulus :

KATA PENGANTAR
Segala puji hanya milik Allah, kami memuji-Nya, memohon pertolongan kepada-Nya,
memohon ampun kepada-Nya dan berlindung kepada-Nya dari kejelekan diri – diri kami serta dari
kejelekan amalan kami. Shalawat serta salam semoga tercurah kepada junjungan kita Nabi
Muhammad SAW, kepada keluarganya, sahabatnya, dan pengikutnya yang setia hingga akhir
zaman.
Banyak ilmu, pelajaran dan masukan yang penulis dapatkan dan rasakan selama proses
penyusunan karya ilmiah ini, sehingga pada kesempatan kali ini penulis ingin mengucapkan terima
kasih kepada:
1. Bapak Ir. Mohammad Masjkur, MS dan ibu Pika Silvianti, M.Si selaku pembimbing yang
telah meluangkan waktu, serta memberikan saran dan masukan yang bermanfaat bagi
penulis.
2. Kedua orang tua, Mama dan Papa yang telah sabar mendidik penulis dan memberi
penulis semangat agar cepat lulus serta kepada seluruh kakak penulis.
3. Tiara Kencana Ayu, atas dukungan, bantuan, masukan, semangat dan keceriaannya yang
telah diberikan kepada penulis.
4. Teman – teman STK 43 dan teman – teman Radiv Community atas semangat dan

bantuannya serta masukan yang diberikan.
5. Teman – teman Statistika Center atas dukungan dan ilmunya.
6. Serta kepada semua pihak yang telah membantu penulis dalam proses penyusunan karya
ilmiah ini, yang tidak dapat penulis tuliskan satu per satu.
Akhir kata, penulis meminta maaf apabila dalam proses penyusunan karya ilmiah ini terdapat
kesalahan – kesalahan yang dilakukan oleh penulis. Semoga karya ilmiah ini bermanfaat.

Bogor, Januari 2011

Yogi Yunianto

RIWAYAT HIDUP
Penulis dilahirkan di kota Bekasi pada tanggal 27 Juni 1988 sebagai anak kelima dari
pasangan Bapak Sukma Janani Tamin dan Ibu Mega Lelasuari. Penulis berasal dari Sumatra Barat.
Pada tahun 2000 penulis lulus dari SD Negeri Jatibening VII Bekasi, dan melanjutkan ke
sekolah menengah pertama SLTP Negeri 255 Jakarta. Penulis menyelesaikan studi di SMU Negeri
61 Jakarta pada tahun 2006 dan pada tahun yang sama penulis diterima di Institut Pertanian Bogor
melalui jalur Undangan Seleksi Masuk IPB (USMI). Pada tahun 2007, penulis diterima di
departemen Statistika Institut Pertanian Bogor.
Selama mengikuti perkuliahan, penulis aktif dalam kegiatan Himpunan Profesi Gamma Sigma

Beta (GSB) sebagai staf departemen Sains pada tahun 2008/2009. Penulis juga aktif mengikuti
kepanitiaan acara yang menjadi Program Kerja GSB, antara lain Statistika Ria, LJPS, WCS, SAS,
dan lain-lain. Penulis pernah bekerja di Statistika Center, sebagai staf promosi dan pengajar dari
tahun 2008-2010. Penulis mengikuti kegiatan praktik lapang di Media Planning Group pada bulan
Februari 2010 - April 2010.

DAFTAR ISI
Hal
DAFTAR TABEL……………………………………………………………............................. vii
DAFTAR GAMBAR…………………………………………………………………………… vii
DAFTAR LAMPIRAN…………………………………………………………………………. vii
PENDAHULUAN
Latar Belakang……………………………………………………………………………. 1
Tujuan…………………………………………………………………………………….. 1
TINJAUAN PUSTAKA
Analisis Gerombol……………………...……...………...…………...…………………… 1
Analisis Komponen Utama Nonlinier……………………………………………………..
Analisis Gerombol Dua Langkah………………………………………………………….
Keragaman Gerombol……………………………………………………………………..
Validitas Gerombol………………………………………………………………………..


1
2
3
3

METODOLOGI
Data………………………………………………………………………………………... 4
Metode…………………………………………………………………………………….. 4
HASIL DAN PEMBAHASAN
Deskripsi Data……………………………………………………………………………..
Analisis Komponen Utama Nonlinier……………………………………………………..
Gerombol Pautan Centroid dengan Transformasi Komponen Utama Nonlinier…….……
Gerombol Dua Langkah…………………………………………………………………...

4
4
5
5


Perbandingan Hasil Penggerombolan…………………………………………………....... 7
SIMPULAN DAN SARAN
Simpulan…………………………………………………………………………………... 7
Saran………………………………………………………………………………………. 7
DAFTAR PUSTAKA…………………………………………………………………………… 7
LAMPIRAN…………………………………………………………………………………….. 8

DAFTAR TABEL
1. Hasil AKU Nonlinier………………………………………………………………….....
2. Validasi Gerombol Optimum ….………………………………………………………..
3. Distribusi Hasil Penggerombolan………………………………………………………..

Hal
4
5
5

4. Distribusi Hasil Penggerombolan………………………………………………………..
5. Perbandingan Keragaman Gerombol…………………………………………………….


5
7

DAFTAR GAMBAR
Hal
1. Daerah Contoh……………………………...……………………………………………
2. Letak Wilayah ……………………...…………………………………............................

4
4

DAFTAR LAMPIRAN

1. Peubah – peubah yang Digunakan dalam Analisis Gerombol…………...........................
2. Nilai Komponen Loading Analisis Komponen Utama Nonlinier ……………………….
3. Tabel Rasio Perubahan BIC (Bayesian Information Criterion)………………………….
4. Ukuran Masing-masing Gerombol Pada Metode Gerombol Dua Langkah………………
5. Tingkat Kepentingan Peubah Kontinu dari Gerombol Pertama pada Metode Pautan
Centroid…………………………………………………………………………………...
6. Tingkat Kepentingan Peubah Kontinu dari Gerombol Pertama pada Metode Pautan

Centroid…………………………………………………………………………………...
7. Tingkat Kepentingan Peubah Kategorik dari Gerombol Pertama pada Metode Gerombol
Dua Langkah…………………………………………………………………...................
8. Tingkat Kepentingan Peubah Kategorik dari Gerombol Kedua pada Metode Gerombol
Dua Langkah………………………………………………………………………………
9. Tingkat Kepentingan Peubah Kategorik dari Gerombol Ketiga pada Metode Gerombol
Dua Langkah………………………………………………………………………………
10.Tingkat Kepentingan Peubah Kontinu dari Gerombol Pertama pada Metode Gerombol
Dua Langkah………………………………………………………………………………
11.Tingkat Kepentingan Peubah Kontinu dari Gerombol Kedua pada Metode Gerombol
Dua Langkah……………………………………………………………………………....
12.Tingkat Kepentingan Peubah Kontinu dari Gerombol Ketiga pada Metode Gerombol
Dua Langkah……………………………………………………………………………....

Hal
9
10
11
12
12

13
13
14
14
15
15
16

1

PENDAHULUAN
Latar Belakang
Peneliti dalam studinya biasa memakai
beberapa peubah untuk menggambarkan
karakteristik populasi yang diteliti. Seringkali,
peubah yang digunakan memiliki skala
pengukuran yang berbeda, yaitu skala numerik
dan kategorik.
Dalam penggerombolan jika skala peubah
– peubah yang akan digerombolkan memiliki
skala pengukuran yang berbeda, peneliti tidak
dapat langsung menggunakan metode
penggerombolan
konvensional
baik
penggerombolan berhirarki maupun nonhirarki. Diperlukan penanganan khusus atau
metode tertentu untuk menggerombolkan
peubah yang memiliki skala campuran.
Metode alternatif untuk mengatasi
masalah perbedaan skala pengukuran adalah
metode transformasi Komponen Utama
Nonlinier. Metode ini menghasilkan skor
komponen obyek yang berskala rasio atau
berjenis data numerik, sehingga dapat
dianalisis
menggunakan
analisis
penggerombolan. Pada penelitian terdahulu
mengenai AKU Nonlinier dikatakan bahwa
AKU nonlinier tidak dapat mentransformasi
nilai data yang nilainya diatas 10000 (Anonim
2005).
Metode
lainnya
adalah
metode
penggerombolan dua langkah. Metode ini
bertujuan untuk mengatasi masalah perbedaan
skala pengukuran dalam penggerombolan,
tanpa harus melakukan transformasi terhadap
data.
Tujuan
Studi ini bertujuan untuk membandingkan
metode penggerombolan jika peubah yang
akan digerombolkan berskala campuran.
Metode
yang
dibandingkan
yaitu
penggerombolan pautan centroid dengan
transformasi Komponen Utama Nonlinier dan
Metode Penggerombolan Dua Langkah.

TINJAUAN PUSTAKA
Analisis Gerombol
Analisis gerombol merupakan suatu
analisis statistika peubah ganda yang
digunakan untuk mengelompokan objek
pengamatan menjadi beberapa gerombol
berdasarkan ukuran kemiripan antar objek,
sehingga objek – objek yang berada dalam
satu gerombol memiliki kemiripan yang lebih

besar dibandingkan objek dari gerombol yang
berbeda (Johnson & Wichern 1992).
Salah satu ukuran jarak yang paling
umum dipakai dalam analisis gerombol adalah
ukuran jarak Euclid yang didefinisikan
sebagai berikut

dimana:
dij = jarak objek ke-i dengan objek ke-j
xi1 = nilai objek ke-i pada peubah ke-1
xj1 = nilai objek ke-j pada peubah ke-1
p = banyaknya peubah yang diamati
Secara umum terdapat dua metode
penggerombolan, yaitu metode berhirarki dan
metode tidak berhirarki. Metode berhirarki
mengelompokkan dua atau lebih objek yang
mempunyai kesamaan paling dekat, kemudian
proses diteruskan ke objek lain yang
mempunyai kedekatan kedua. Metode tak
berhirarki dimulai dengan menentukan
terlebih dahulu jumlah gerombol yang
diinginkan sehingga sifat pengelompokkannya
tidaklah alamiah karena dikondisikan untuk
jumlah kelompok tertentu.
Metode Pautan Centroid
Metode
ini
merupakan
metode
penggerombolan berhirarki. Pada metode ini
jarak antara dua gerombol didefinisikan
sebagai jarak antar centroid gerombol kedua
gerombol tersebut. Centroid gerombol adalah
nilai tengah observasi pada variabel dalam
suatu set variabel gerombol. Keuntungan
metode ini adalah tidak terlalu dipengaruhi
oleh pencilan. Jarak centroid didefinisikan
sebagai berikut

dengan:
cent(wi,wj) = jarak centroid gerombol i dan j.
Ni
= jumlah objek gerombol ke-i.
Nj
= jumlah objek gerombol ke-j.
dm
= jarak antara objek ke-m dalam
gerombol i dengan centroidnya.
dn
= jarak antara objek ke-n dalam
gerombol j dengan centroidnya.
Analisis Komponen Utama Nonlinier
Metode ini digunakan untuk mengatasi
perbedaan
skala
pengukuran
sebelum
dilakukan
penggerombolan.
Analisis
Komponen Utama Nonlinier merupakan
pengembangan dari Analisis Komponen
Utama dan biasa juga disebut Princals
(Principal Component Analysis by Alternating
Least Square) atau Analisis Komponen Utama

2

dengan menggunakan pendekatan alternating
least squares (Gifi 1990).
Apabila terdapat suatu data yang dibentuk
ke dalam matriks H yang berukuran n x m,
maka untuk memudahkan perhitungan
Analisis Komponen Utama Nonlinier dipakai
notasi:
n = banyak pengamatan (obyek) ; i = 1, …,
n.
m = banyak peubah.
kj = banyak kategori pada peubah ke-j ; j =
1, … , m.
hj = vektor kolom ke-j dari matriks H
berukuran n x 1.
Gj = matriks indikator dari hj berukuran nxkj.
dengan:
!"#$ %&! # #
#$
%'" #

- !"#$ %&! # #
#$
%'" #

" & '$ $ $($)
' $'" * +&$, !

" " $# & '$ $ $($)
' $'" * +&$, !

i = 1, 2, … , n ; r = 1, 2, …, kj.
/

/ / 0 / 0 /

& '+#+'$

.

#

/ merupakan matriks yang berisi
frekuensi dari tiap kategori pada setiap
peubah. / dikatakan lengkap apabila dari
setiap baris pada / mempunyai satu unsur
bernilai satu dan lainnya 0.
Model Analisis Komponen Utama
Nonlinier adalah sebagai berikut
1

2$ 2

2

dimana i = 1,2,…,n; j = 1,2,…,m; s = 1,2,…,p.
Analisis Komponen Utama Nonlinier
didasarkan pada teori meet loss yang bertujuan
untuk meminimumkan fungsi homogeneity
loss 34 :
34 5 6 7 )8

5

/6 9 5

/6

dengan normalisasi AVE(xs) = 0 untuk
dimensi s = 1, …, p dan 595 :. AVE(xs)
adalah vektor yang merupakan rata – rata
kolom dari elemen matriks xs. Notasi 34
- yang
digunakan karena 34 5 6
berimplikasi pada nilai ranking / paling
sedikit p. Algoritma alternating least squares
untuk meminimumkan 34 adalah,
6 ; ;

GRAM(Z)

=

/6

5 ; /?@A >
matriks orthogonal dari
orthogonalisasi
GramSchmidt.

algoritma diatas juga menghitung dimensi dari
ranking pertama p dari analisis kehomogenan
secara simultan (Gifi 1990).
Analisis Gerombol Dua Langkah
Metode ini digunakan untuk mengatasi
masalah skala pengukuran peubah yang
berbeda, yaitu skala numerik dan skala
kategorik. Jarak antar gerombol didefinisikan
sebagai jarak dari vektor centroid masing –
masing peubah yang terdapat dalam suatu
gerombol. Jarak yang digunakan dalam
metode analisis gerombol dua langkah adalah
jarak Log-Likelihood dan jarak Euclid.
Jarak Log-Likelihood dapat digunakan
untuk peubah numerik dan kategorik. Jarak
Log-Likelihood didefinisikan sebagai berikut
(Rong Liu 2005),
< @B
CDE F @
CDE F B
CDE F @B
G

QL R

3KL R

H

I

O

L

R
R

CDE J

TUR
TUR

SL

SL

3KL IM
N
3KL I

QV L R

M

O

L

CDE J

3KL IM
N P
3KL M

dengan :
log L(A) = log likelihood dari gerombol A
AB
= gerombol baru kombinasi
gerombol AB
S U 5 = untuk setiap y elemen X
Penggerombolan dua langkah terdiri dari
penggerombolan
langkah
awal
dan
penggerombolan optimal. Penggerombolan
langkah awal dimulai dengan pembentukan
Clustering Feature Tree (CF Tree).
Selanjutnya, hasil dari CF Tree dipakai dalam
penentuan gerombol optimal. Suatu gerombol
dikatakan optimal apabila memiliki jarak antar
gerombol paling jauh dan jarak antar objek
paling dekat.
Gerombol optimal diperoleh setelah
melakukan penghitungan terhadap nilai AIC
(Akaike’s Information Criterion) dan BIC
(Bayesian Information Criterion). Hasil
perhitungan tersebut digunakan untuk
menduga jumlah gerombol awal. Langkah
kedua adalah mencari peningkatan jarak
terbesar antara dua gerombol terdekat pada
masing –masing tahapan penggerombolan.
Jumlah gerombol optimal diperoleh
berdasarkan
ketentuan
diperolehnya
perbedaan yang nyata pada rasio perubahan
jarak gerombol. Rasio perubahan gerombol
dihitung dengan menggunakan rumus

3
? # W? #
dengan :
R(k1) = rasio perubahan jarak terbesar pertama
R(k2) = rasio perubahan jarak terbesar kedua
dan rumus R(k) sebagai berikut
? #
X8 Y X
(
(X
X
X8
dengan :
R(k) = rasio perubahan jarak
lv = (mvlog n – BICv)/2
v
= k, k-1
dk-1 = jarak jika k gerombol digabungkan
dengan k-1 gerombol
Jika rasio perubahan lebih besar dari batas
c2 , jumlah gerombol optimum ditetapkan
sama dengan k1, selainnya jumlah gerombol
optimal sama dengan maksimum {k1,k2}. Nilai
c2 = 1.15, berdasarkan studi simulasi (Bacher
et al 2004).
Keragaman Gerombol
Pada dasarnya pada penggerombolan
terdapat dua keragaman, yaitu, keragaman
dalam gerombol dan keragaman antar
gerombol. Beberapa definisi keragaman yaitu
(Lathifaturrahmah 2010),
1. Keragaman antar gerombol
^

ZZB

2.

[\

ZZa

^

<

[\

SSW = Sum of Square Within Cluster
dengan : xij = objek ke-i gerombol ke-j
[\ = rata-rata
objek
pada
gerombol j
k = banyaknya gerombol
nj = banyaknya objek gerombol
ke-j
Hasil penggerombolan yang baik adalah
jika objek dalam gerombol yang sama
memiliki keragaman yang rendah sedangkan
objek antar gerombol memiliki tingkat
keragaman yang tinggi. Dengan kata lain,
objek dalam satu gerombol memiliki tingkat
kemiripan yang tinggi dan objek berbeda
gerombol memiliki tingkat kemiripan yang
rendah (Serban & Grigoreta 2006).

bcd f bcd
ee

dengan :

2.

e e

3.

g

f

bhi
eXe

=

X

jj

= jarak antar kelompok
ci,cj.
=
X = jarak dalam kelompok
ck.
Nilai terbesar dari D diambil sebagai
jumlah optimum kelompok.
Indeks Davies-Bouldin (DB)
=

bhi J