Analisis pengelompokan objek dengan metode single linkage clustering dan Diskriminan Linear untuk kasus dua kelompok

ANALISIS PENGELOMPOKAN OBJEK
DENGAN METODE SINGLE LINKAGE CLUSTERING
DAN DISKRIMINAN LINEAR UNTUK KASUS DUA KELOMPOK

MELINDA

DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2006

ANALISIS PENGELOMPOKAN OBJEK
DENGAN METODE SINGLE LINKAGE CLUSTERING
DAN DISKRIMINAN LINEAR UNTUK KASUS DUA KELOMPOK

MELINDA

Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Sains pada

Departemen Matematika

DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2006

ABSTRAK
MELINDA. Analisis Pengelompokan Objek dengan Metode Single Linkage Clustering dan
Diskriminan Linear untuk Kasus Dua Kelompok. Dibimbing oleh MUHAMMAD NUR AIDI dan
RETNO BUDIARTI.
Banyak keragaman yang dapat dijumpai pada kehidupan ini sehingga pengelompokan suatu
objek yang relatif homogen selalu menjadi permasalahan yang menarik. Analisis cluster
merupakan teknik multivariat yang tujuan utamanya mengelompokkan objek-objek berdasarkan
kesamaan karakteristik di antara objek-objek tersebut. Ciri pengelompokan yang baik, pertama
terdapat kesamaan yang tinggi antar anggota dalam satu kelompok. Kedua, antar kelompok yang
satu dengan kelompok lainnya memiliki perbedaan yang tinggi.
Terdapat beberapa metode dalam analisis cluster, salah satu diantaranya adalah metode
hierarki yang akan mengelompokkan objek-objek secara bertingkat. Metode agglomeratif

merupakan metode hierarki yang sering dipakai untuk suatu data metrik. Metode ini secara
algoritma akan mengelompokkan objek-objek berdasarkan tingkat kesamaan antar objek-objek
dari yang terdekat sampai akhirnya semua objek berada dalam sebuah kelompok. Jarak antara
suatu kelompok terhadap kelompok lainnya dihitung sebagai jarak minimum antara anggota
kelompok pertama dengan anggota kelompok lainnya, metode pengukuran ini disebut sebagai
single linkage clustering merupakan metode yang paling sederhana.
Kevalidan hasil pengelompokan dengan metode yang digunakan perlu agar tidak terjadi
kesalahan (misklasifikasi) yang cukup besar terutama pada saat menentukan strategi dari tujuan
dilakukannya analisis cluster. Analisis diskriminan merupakan metode yang dapat digunakan
untuk menguji kevalidan hasil dari metode yang digunakan pada analisis cluster dan juga
merupakan analisis lanjutan untuk menentukan fungsi setiap kelompok yang terbentuk (fungsi
diskriminan). Dari fungsi diskriminan dapat dengan mudah menentukan kelompok untuk suatu
objek baru. Fungsi ini dapat diperoleh dari persamaan yang akan meminimumkan nilai expected
cost of misclassification (ECM).
Pengelompokan tujuh belas kabupaten/kota di Jawa Barat berdasarkan tiga indikator sosial
ekonomi pada tahun 2002, yaitu upah minimum kabupaten/kota (UMK), persentase tingkat
pengangguran, dan laju pertumbuhan ekonomi ke dalam dua kelompok menghasilkan fungsi
diskriminan y = 6,0694 x1 + 2,0993x 2 + 0,5153x 3 . Fungsi diskriminan yang diperoleh mempunyai
ketepatan mengklasifikasikan kasus sebesar 94,12%. Maka, fungsi ini dapat digunakan untuk
mengelompokkan sebuah kabupaten/kota berdasarkan ketiga indikator tersebut ke dalam

kelompok dengan tingkat sosial ekonomi menengah ke bawah atau menengah ke atas.

Judul Skripsi
Nama
NIM

: Analisis Pengelompokan Objek dengan Metode Single Linkage
Clustering dan Diskriminan Linear untuk Kasus Dua Kelompok
: Melinda
: G54101010

Menyetujui:

Pembimbing I

Pembimbing II

Dr. Ir. Muhammad Nur Aidi, MS.
NIP. 131842408


Ir. Retno Budiarti, MS.
NIP. 131842409

Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor

Prof. Dr. Ir. Yonny Koesmaryono, MS.
NIP. 131473999

Tanggal Lulus

: 27 September 2006

PRAKATA
Alhamdulillah, puji dan syukur penulis panjatkan kepada Allah SWT atas segala limpahan
rahmatNya sehingga karya ilmiah ini berhasil diselesaikan. Shalawat dan salam semoga tercurah
kepada Rasulullah SAW.
Selama menyusun karya ilmiah, penulis banyak mendapatkan bimbingan dan bantuan dari
berbagai pihak. Dalam kesempatan ini, penulis mengucapkan terima kasih kepada

Bapak Dr. Ir. Muhammad Nur Aidi, MS., dan Ibu Ir. Retno Budiarti, MS. selaku pembimbing serta
Bapak Dr. Ir. I Gusti Putu Purnaba, DEA. selaku penguji. Ungkapan terima kasih juga
disampaikan kepada kedua orang tua dan seluruh keluarga tercinta atas do’a dan kasih sayangnya.
Selain itu, penulis juga menghaturkan terima kasih kepada seluruh staf dan dosen Departemen
Matematika IPB. Terima kasih kepada semua teman Matematika 38, kost-an Al-Mardhiyah, dan
semua pihak yang telah membantu kelancaran karya ilmiah ini atas do’a, perhatian, dan dukungan
yang diberikan.
Semoga karya ilmiah ini bermanfaat dalam bidang ilmu pengetahuan.

Bogor, September 2006

Melinda

RIWAYAT HIDUP
Penulis dilahirkan di Sumedang, 20 Oktober 1983 sebagai anak pertama dari 3 bersaudara
dari pasangan Iman Arfiman dan Euis Suharyati.
Pada tahun 1995 penulis menyelesaikan sekolah di SDN Gudang Kopi 2 Sumedang dan
tahun 1998 penulis menyelesaikan sekolahnya di SMPN 8 Sumedang. Pada tahun sama, penulis
melanjutkan sekolah ke SMUN 2 Sumedang dan lulus pada tahun 2001. Pada tahun tersebut
penulis diterima di IPB Departemen Matematika melalui jalur USMI.

Selama perkuliahan, penulis terlibat sebagai pengurus Himpro Departemen Matematika
(GUMATIKA) dan TKA Al-Fikri. Selain itu penulis pernah bekerja sebagai staf administrasi pada
Yayasan Kirana Indonesia.

DAFTAR ISI
Halaman
DAFTAR TABEL......................................................................................................................... viii
DAFTAR GAMBAR .................................................................................................................... viii
DAFTAR LAMPIRAN..................................................................................................................viii
PENDAHULUAN
Latar Belakang .......................................................................................................................1
Tujuan .............................................................................................................. 1
LANDASAN TEORI ................................................................................................. 1
METODE DAN PEMBAHASAN
Analisis Cluster.......................................................................................................................5
Analisis Diskriminan ..............................................................................................................7
Contoh Kasus .........................................................................................................................11
SIMPULAN ..................................................................................................................................14
DAFTAR PUSTAKA ....................................................................................................................15
LAMPIRAN...................................................................................................................................16


DAFTAR TABEL
Halaman
1 Pengelompokan objek berdasarkan jumlah kelompok yang diinginkan.................................... 6
2 Upah minimum kabupaten/kota (UMK), persentase tingkat pengangguran, dan laju
pertumbuhan ekonomi (LPE) 14 kabupaten/kota di Jawa Barat pada tahun 2002 ....................11
3 Upah minimum kabupaten/kota (UMK), persentase tingkat pengangguran, dan laju
pertumbuhan ekonomi (LPE) Kab. Sumedang, Kab. Bogor, dan Kab. Purwakarta pada
tahun 2002 .................................................................................................................................13
4 Nilai diskriminan masing-masing kabupaten/kota.....................................................................14

DAFTAR GAMBAR
Halaman
1 Jarak antar kelompok untuk single linkage clustering .............................................................. 5
2 Contoh Dendogram .................................................................................................................. 6

DAFTAR LAMPIRAN
Halaman
1 ANALISIS CLUSTER
1.1 Nilai standarisasi upah minimum kabupaten/kota (UMK), persentase tingkat

pengangguran, dan laju pertumbuhan ekonomi (LPE) pada tahun 2002 ........................16
1.2 Matriks jarak euclid antar kabupaten/kota ( matriks kasamaan).....................................17
1.3 Tabel tahap agglomeratif dengan single linkage clustering ...........................................19
1.4 Tabel anggota kelompok untuk 4, 3, dan 2 pengelompokan ..........................................20
1.5 Gambar dendogram single linkage clustering untuk jarak antar kabupaten/kota ...........21
1.6 Diagram pencar UMK, tingkat pengangguran, dan LPE................................................22
2 ANALISIS DISKRIMINAN
2.1 Nilai standarisasi upah minimum kabupaten/kota (UMK), persentase tingkat
pengangguran, dan laju pertumbuhan ekonomi (LPE) kelompok pertama dan
kelompok kedua .............................................................................................................23
2.2 Hasil uji beda vektor rataan antar kelompok ..................................................................24
2.3 Hasil uji asumsi kenormalan variabel UMK, tingkat pengangguran, dan LPE ..............25
2.4 Hasil uji asumsi kehomogenan matriks kovarian kelompok pertama dengan
kelompok kedua LPE .....................................................................................................27

PENDAHULUAN
Latar Belakang
Banyak keragaman yang dapat dijumpai
pada kehidupan ini sehingga pengelompokan
suatu objek yang relatif homogen selalu

menjadi permasalahan yang menarik. Salah
satu alasan pengelompokan adalah untuk
memperoleh contoh data yang dapat mewakili
populasi
atau
dapat
menggambarkan
karakteristik objek dalam populasi yang
dikelompokkan.
Analisis
cluster
merupakan
teknik
multivariat
yang
tujuan
utamanya
mengelompokkan objek-objek berdasarkan
kesamaan karakteristik di antara objek-objek
tersebut. Analisis ini dapat bermanfaat dan

diterapkan pada berbagai bidang ilmu, seperti
: geografi, psikologi, biologi, manajemen dan
lain sebagainya. Objek yang diamati dapat
berupa produk (barang dan jasa), benda
(tumbuhan atau lainnya) serta orang
(responden, konsumen atau yang lain).
Ciri pengelompokan yang baik, pertama
terdapat kesamaan yang tinggi antar anggota
dalam satu kelompok (intra kelompok).
Kedua, antar kelompok yang satu dengan
kelompok lainnya (inter kelompok) memiliki
perbedaan yang tinggi. Salah satu metode
analisis cluster adalah dengan metode

hierarki. Metode hierarki yang banyak dipakai
untuk suatu data metrik adalah metode
agglomeratif. Adapun, setelah diperoleh hasil
pengelompokan perlu dilakukan validasi
dengan membandingkan hasil yang diperoleh
terhadap metode lainnya ataupun dapat

dilakukan suatu analisis lanjutan seperti
analisis diskriminan. Analisis diskriminan
selain itu berguna untuk memperoleh fungsi
yang
dapat
menunjukkan
perbedaan
(diskriminasi) antar kelompok.
Pada tulisan ini akan dibahas proses
pengelompokan objek secara agglomeratif
dengan
menggunakan
metode
paling
sederhana yaitu, single linkage clustering
serta menguraikan analisis diskriminan untuk
mengevaluasi objek pada kasus dua
kelompok. Contoh pengolahan data pada
tulisan ini menggunakan software SPSS.
Tujuan
Tujuan dari penulisan ini adalah
menguraikan dan mempelajari proses
pengelompokan
suatu
objek
dengan
menggunakan single linkage clustering. Serta
bagaimana proses mengevalusi suatu objek
pada kelompok yang terbentuk dengan
analisis diskriminan.

LANDASAN TEORI
Berikut ini beberapa pokok bahasan
berupa definisi dan teorema yang dijadikan
landasan dalam penyusunan tulisan ini.
Definisi 1 (Analisis Cluster)
Analisis cluster merupakan alat untuk
membangun kelompok-kelompok (cluster)
dari objek data multivariat.
(Härdle & Simar 2003)
Definisi 2 (Analisis Diskriminan)
Analisis diskriminan merupakan metode dan
alat yang digunakan untuk membedakan antar
kelompok serta berguna untuk menentukan
proses mengalokasikan objek baru ke dalam
kelompok.
(Härdle & Simar 2003)
Definisi 3 (Single Linkage Clustering)
Single linkage clustering mendefinisikan
bahwa jarak antar kelompok merupakan jarak
terdekat dari anggota kelompok pertama
dengan anggota kelompok lainnya.
(Hair, Anderson, Tatham, & Black 1998)

Definisi 4 (Ruang Contoh)
Ruang contoh adalah himpunan dari semua
kemungkinan
hasil
suatu
percobaan,
dinotasikan Ω .
(Hogg & Craig 1995)
Definisi 5 (Peubah Acak)
Peubah acak X adalah suatu fungsi yang
memetakan masing-masing elemen pada
ruang contoh tepat satu ke bilangan real,
dinotasikan X: Ω → R .
(Hogg & Craig 1995)
Definisi 6 (Jarak Euclid)
Jarak euclid untuk n objek dapat didefinisikan,
2
2
2
d ij = ⎛⎜ xi1 − x j1 ⎞⎟ + ⎛⎜ xi 2 − x j 2 ⎞⎟ + ... + ⎛⎜ xik − x jk ⎞⎟







dimana:
i, j= 1, 2, ..., n
dij = jarak euclid antara objek ke-i dengan
objek ke-j
xik = objek ke-i untuk variabel ke-k
xjk = objek ke-j untuk variabel ke-k
(Johnson & Wichern 1998)

Definisi 7 ( Rataan)
Misalkan x1, x2, ..., xn, objek pengamatan,
rataannya
n
∑ xi
µ = i =1
n
dimana:
µ = rataan untuk n objek pengamatan
xi = objek pengamatan ke-i
n = jumlah objek yang diamati
(Moore 1994)
Definisi 8 (Ragam)
Ragam untuk n objek pengamatan x1, x2, ..., xn
didefinisikan sebagai
n
2
∑ xi − µ
S2 = i =1
n −1
dimana:
S2 = ragam untuk n objek pengamatan

(

)

Definisi 11 (z-skor)
Suatu pengamatan x dari suatu populasi yang
mempunyai nilai tengah µ dan simpangan
baku S, mempunyai nilai z yang didefinisikan
sebagai
x−µ
z=
S
(Walpole 1995)
Definisi 12 (Fungsi Kepekatan Peluang)
Misalkan X peubah acak dengan ruang contoh
Ω berdimensi satu, terdiri dari sebuah interval
atau gabungan interval. Fungsi f(x) non
negatif maka
∫ f (x )dx = 1


Fungsi peluang P(R), R ⊂ Ω , dapat ditulis
P(R) = Pr(X ∈ R) = ∫ f X (x )dx
R

X disebut peubah acak kontinu dan fX(x)
disebut fungsi kepekatan peluang bagi X.
(Hogg & Craig 1995)

S=

S 2 = simpangan baku untuk n objek
pengamatan
µ = rataan untuk n objek pengamatan
xi = objek pengamatan ke-i
(Moore 1994)

Definisi 13 (Fungsi Likelihood)
Misalkan f (x, θ ) fungsi kepekatan peluang
dengan parameter θ , fungsi likelihood adalah
L(θ ) = f (x1 , θ ) f (x2 , θ )K f (x3 , θ ).
(Hogg & Craig 1995)

Definisi 9 (Koefisien Korelasi)
Korelasi antara variabel xl dan xk,
1 n ⎛ xil − µ l ⎞⎛ xik − µ k ⎞

⎟⎜
rlk =
∑⎜
n − 1 i =1⎜⎝ S l ⎟⎠⎜⎝ S k ⎟⎠

Definisi

dimana:
rlk = korelasi antara variabel ke-l dan ke-k
Sl = simpangan baku untuk variabel ke-l
Sk = simpangan baku untuk variabel ke-k
µ l = rataan untuk variabel ke-l
µ k = rataan untuk variabel ke-k
xil = objek ke i untuk variabel ke-l
xik = objek ke i untuk variabel ke-k
(Moore 1994)
Definisi 10 (Kovarian)
Kovarian antara variabel xl dan xk,
cov(xl , x k ) = rlk S l S k
dimana:
cov(xl ,xk) = kovarian antara variabel ke-l dan
ke-k
rlk = korelasi antara variabel ke-l dan ke-k
Sl = simpangan baku untuk variabel ke-l
Sk = simpangan baku untuk variabel ke-k
(Hogg & Craig 1995)

14
(Aturan
Diskriminan
Maksimum Likelihood)
Aturan
maksimum
likelihood
untuk
mengalokasikan sebuah objek x ke salah satu
kelompok Πg, dimana g = 1, 2,…,ng adalah
mengalokasikan x ke kelompok yang
memberikan likelihood terbesar ke x.
(Mardia, Kent & Bibby 1989)
Definisi 15 (Peluang Suatu Kejadian)
Peluang suatu kejadian A adalah jumlah
peluang semua titik contoh dalam A. Apabila
suatu percobaan mempunyai N hasil
percobaan yang berbeda dan masing-masing
mempunyai kemungkinan yang sama untuk
terjadi, dan bila tepat n di antara hasil
percobaan itu menyusun kejadian A, maka
peluang kejadian A adalah
n
P ( A) =
N
(Walpole 1995)
Definisi 16 (Peluang Bersyarat)
Peluang bersyarat B, bila A diketahui
dilambangkan dengan P(B|A), didefinisikan
sebagai

P ( B | A) =

P( A ∩ B )
jika P(A) > 0
P ( A)
(Walpole 1995)

Definisi 17 (Distribusi Multinormal)
Misalkan X = [X1, X2, ..., Xk]' vektor acak
kontinu memiliki fungsi kepekatan peluang
fX(x), X berdistribusi normal dengan vektor
rataan µ dan matriks kovarian Σ > 0. X ~
Nk( µ , Σ ),

f X (x ) = 2πΣ

−k / 2

⎡ 1

exp ⎢− (x − µ )' Σ −1 (x − µ )⎥
⎣ 2

(Härdle & Simar 2003)

Definisi 18 (Distribusi Khi-kuadrat)
Fungsi kepekatan peluang untuk peubah acak
kontinu X berdistribusi khi-kuadrat dengan
derajat bebas r, X~ χ r2 ,
f X (x ) =

1

Γ(r 2)2

r 2

xr

2 −1 − x 2

e

, 0< x < ∞.

dimana:


Γ(α ) = ∫ y α −1e − y dy , α > 0 .
0

(Hogg & Craig 1995)
Definisi 19 (Distribusi F)
Misalkan X1 dan X2 peubah acak bebas
masing-masing berdistribusi khi-kuadrat
dengan derajat bebas r1 dan r2. Fungsí
kepekatan peluang bersama untuk X1 dan X2
berdistribusi F,
f X1X 2 (x1, x2 ) =
1

r1 2−1 r2
x2
) / 2 x1

Γ(r1 / 2)Γ(r2 / 2)2(r1 + r2
0 < x1 < ∞ , 0 < x 2 < ∞.

2−1 −( x1 + x2 ) / 2
e

(Hogg & Craig 1995)
Definisi 20 (Modus)
Modus segugus pengamatan adalah nilai
tengah yang terjadi paling sering atau yang
mempunyai frekuensi paling tinggi.
(Walpole 1995)

atau distribusi normal. Koefisien kurtosis a4
dirumuskan
a 4 = m 4 / m 22
dimana:

(

)

r
∑ (x i − x )
,
r = 0, 1, 2, ...
n
mr = momen ke r
xi = objek pengamatan ke-i
x = rataan variabel untuk n objek pengamatan
(Sudjana 2000)

mr =

Uji beda 2 vektor rataan (T2 Hotelling)
H0: µ1 = µ 2
H1: µ 1 ≠ µ 2
T2 Hotelling didefinisikan,
n1n2
(µ − µ )' Σ −1
(µ − µ )
T2 =
(n1 + n2 ) 1 2 gabungan 1 2
(n + n2 − 2)k F
T2 ~ 1
(k , n1 + n 2 − k −1)
n1 + n2 − k − 1
dimana:
n1 = jumlah anggota kelompok pertama
n2 = jumlah anggota kelompok kedua
k = banyaknya variabel bebas
H0 diterima jika:
(n1 + n2 − 2)k T 2 ≤ F
(k , n1 + n 2 − k −1)
n1 + n2 − k − 1
(Mardia, Kent & Bibby 1989)
Uji Kenormalan Multivariat (Skewness dan
Kurtosis)
Misalkan X = [X1, X2, ..., Xk]' vektor acak dan
Σ matriks kovarian untuk contoh,
Σ=

1
n −1

n

∑ (x

i

− x )(x i − x )' = HD u H'

i =1

dimana:
H = (h1, h2, ..., hk) matriks ortogonal
Du = diag(u1, u2, ..., uk)
Skewness dan kurtosis untuk contoh data,
didefinisikan
1
k

b1k =

⎧⎪ − 3
⎨u r 2
r =1 ⎪

k



n

∑ ( y ri − y r )3
i =1

dan
Definisi 21 (Skewness)
Skewness adalah nilai ukuran kecondongan
grafik.
Nilai skewness
= (rataan-modus)/simpangan baku
(Santoso 2000)
Definisi 22 (Kurtosis)
Kurtosis menunjukkan tinggi rendahnya atau
runcing datarnya bentuk kurva model normal

b2 k =

1
nk

k

r =1

i =1

dimana:
r = 1, 2, ..., k
i = 1, 2, ..., n
y ri = hr' x i
yr =

1
n

n

∑ ∑ (y
u r− 2

k

∑y
i =1

ri

ri

− y i )4

⎫⎪
n⎬
⎪⎭

2

Data pengamatan tidak berdistribusi normal ,
jika
⎛ nk ⎞
2
⎜ ⎟b1k ≥ χ k ,α
⎝ 6 ⎠
Tes kurtosis menolak normality, jika
1

⎛ nk ⎞ 2
⎜ ⎟ (b2 k − 3) ≥ zα
⎝ 24 ⎠

2

(Srivastava 2002)
Uji kehomogenan kovarian (Uji Box’s M)
H0: Σ1 = Σ 2 = ... = Σ ng
H1: Σ i ≠ Σ j

, i ≠ j.

Box’s M dirumuskan sebagai berikut,

(

)

M = γ ∑ n g − 1 log Σ u−g1 Σ u ,

dimana:
γ = 1−

2k 2 + 3k − 1 ⎛⎜
1
1 ⎞⎟



6(k + 1)(g − 1) ⎝ n g − 1 n − g ⎟⎠

n
Σ
n−g
ng
=
Σg
n g −1

Σu =
Σ ug

L(θ ' ; x1 , x 2 , K , x n )
≤k,
L(θ " ; x1 , x 2 , K , x n )
dimana (x1, x2, ...., xn) ∈ C.
L(θ ' ; x1 , x 2 , K , x n )
≥k,
(b)
L(θ " ; x1 , x 2 , K , x n )
dimana (x1, x2, ...., xn) ∈ C*.
(c) α = Pr[( X 1 , X 2 , K , X n ) ∈ C*; H 0 ]
Maka C daerah kritis terbaik dengan ukuran α
untuk menguji hipotesis H0: θ = θ' dan
H1: θ = θ".
Bukti:
Jika α ukuran daerah kritis C, dan terdapat
daerah kritis lainnya berukuran α yaitu A.
Maka,
∫ L ∫ L(θ ; x1 , x 2 , K , x n )dx1 L dx n dinotasikan

(a)

R

oleh ∫R L(θ ) . Akan ditunjukkan bahwa,
∫C L(θ ") − ∫A L(θ ") ≥ 0 .
Jika C gabungan dari irisan C ∩ A dan C ∩ A*
dan A gabungan A ∩ C dan A ∩ C*, maka
∫C L(θ ") − ∫A L(θ ")
= ∫C∩A L(θ") + ∫C∩ A* L(θ") − ∫A∩C L(θ") − ∫A∩C* L(θ")
= ∫C ∩ A* L(θ ") − ∫A∩C * L(θ ")

Box’s M mempunyai distribusi khi-kuadrat
asimtotik
dengan
derajat
bebas
1
k (k + 1)(g − 1) .
2
dimana:
g = 1, 2, ..., ng.
ng = jumlah objek dalam kelompok ke-g
Σ = matriks kovarian gabungan
Σ g = matriks kovarian kelompok ke-g
H0 diterima jika M ≤ χ k2(k +1)(ng −1) 2
(Mardia, Kent & Bibby 1989)
Teorema Neyman-Pearson
Misalkan X1, X2,..., Xn, dimana n bilangan
bulat positif, merupakan contoh acak kontinu
dari fungsi kepekatan peluang f (x; θ ) . Maka
fungsi kepekatan peluang bagi X1, X2,..., Xn
adalah
L(θ ; x1, x2 ,K, xn ) = f (x1;θ ) f (x2 ;θ )K f (xn ;θ )
Misalkan θ' dan θ" nilai tetap nyata bagi θ
sehingga Ω = {θ : θ = θ ' ,θ "} , dan k bilangan
positif. Misalkan C himpunan bagian dari
ruang contoh Ω dan C* komplemen dari C
sehingga,

(1)

Karena L(θ ") ≥ (1 k )L(θ ') pada setiap titik di
C, dan setiap titik di C ∩ A*, maka
1
(2)
∫C ∩ A* L(θ ") ≥ ∫C ∩ A* L(θ ')
k
Tetapi, L(θ ") ≤ (1 k )L(θ ') pada setiap titik di
C*, dan setiap titik di A ∩ C*, maka
1
(3)
∫A∩C* L(θ ") ≤ ∫A∩C* L(θ ')
k
Dari persamaan (2) dan (3) dapat diperoleh
suatu pertidaksamaan berikut,
1
1
∫C∩ A* L(θ") − ∫A∩C* L(θ") ≥ ∫C∩A* L(θ ') − ∫A∩C* L(θ ')
k
k

dan dari persamaan (1), diperoleh
1
1
∫C L(θ") − ∫A L(θ") ≥ ∫C∩ A* L(θ ') − ∫A∩C* L(θ ') (4)
k
k
Sehingga,
∫C ∩ A* L(θ ') − ∫A∩C* L(θ ')
= ∫C ∩ A* L(θ ') + ∫C ∩ A L(θ ') − ∫A∩C L(θ ') − ∫A∩C* L(θ ')

= ∫C L(θ ') − ∫A L(θ ')
= α − α = 0.
Jika hasil disubstitusi ke persamaan (4),
diperoleh
∫C L(θ") − ∫A L(θ") ≥ 0.
(Hogg & Craig 1995)

METODE DAN PEMBAHASAN
Langkah pertama, membentuk matriks jarak
simetri berukuran n x n,

Analisis Cluster
Proses pengelompokan melalui analisis
cluster dapat dibagi ke dalam enam tahap:
Tahap
pertama,
memilih
ataupun
mengambil data yang akan digunakan sebagai
objek pada analisis cluster. Misalkan, terdapat
suatu data dengan n objek dan memiliki k
variabel. Matriks data:
⎛ x11

⎜ M
⎜ M

⎜ M

⎜ M
⎜x
⎝ n1

x12
x 22
M
M
M
xn2

L

L

L

O
O
O
L

L

L

x1k ⎞

M ⎟
M ⎟

M ⎟

M ⎟
x nk ⎟⎠

Tahap kedua, memperhatikan apakah nilai
variabel dari data mempunyai perbedaan yang
besar. Jika terdapat perbedaan maka data
harus dibakukan dengan mengubahnya ke
nilai z.
(x − µ l )
z il = il
Sl
dimana:
zil = nilai z untuk objek ke-i variabel ke-l
xil = objek ke-i variabel ke-l
µ l = rataan untuk semua nilai variabel ke-l
Sl = simpangan baku untuk variabel ke-l
Tahap ketiga, apabila data yang diambil
berupa contoh maka harus diasumsikan bahwa
contoh yang diambil benar-benar mewakili
populasi yang ada. Asumsi lainnya yaitu,
kemungkinan adanya korelasi antar variabel
bebas sebaiknya tidak ada jika ada harus tidak
besar (angka korelasi tidak mencapai 0,90).
Asumsi ini harus dipenuhi agar hasil analisis
yang diperoleh representatif, menggambarkan
karakteristik dari populasi.
Tahap keempat, memilih algoritma
pengelompokan yang akan dipakai. Metode
hierarki tepat digunakan untuk suatu data
metrik. Metode hierarki dengan menggunakan
metode agglomeratif, mengalokasikan objekobjek yang terpisah ke suatu kelompok
menurut tingkatan kesamaan sehingga
akhirnya semua objek berada dalam satu
kelompok. Jika ng menunjukkan banyaknya
kelompok, maka n g ≤ n .
Algoritma agglomeratif untuk n objek :

{ }

D = d ij

⎛ d11

⎜ M
⎜ M
=⎜
⎜ M

⎜ M
⎜d
⎝ n1

d12
d 22
M
M
M
d n2

d 1n ⎞

M ⎟
O
M ⎟

O
M ⎟

O
M ⎟
L L L d nn ⎟⎠
L L L

dimana:
i = 1, 2, ..., n
j = 1, 2, ..., n
dij jarak antara objek ke-i dan ke-j
menunjukkan
tingkat
kesamaan
atau
ketidaksamaan antara n objek. Jarak antar
objek tersebut menggunakan persamaan jarak
euclid.
Langkah kedua, menentukan pasangan objek
yang memiliki kesamaan paling besar,
misalkan jarak objek U dan V paling
minimum (dUV = min{dij}).
Langkah ketiga, menggabungkan objek U dan
V sebagai kelompok baru (UV). Membentuk
kembali matriks baru berukuran (n-1)x(n-1)
dengan menghapus baris dan kolom yang
bersesuaian dengan objek U dan V dan
menambah sebuah baris dan kolom yang
terdiri dari elemen jarak antara kelompok
(UV) dengan objek lain. Misalkan terdapat
objek lain W, fungsi jarak antara kelompok
(UV) dengan objek W yang didefinisikan oleh
metode single linkage clustering adalah
1
1
1
d (UV )W = dUW + dVW − dUW − dVW (5)
2
2
2
Single linkage clustering merupakan salah
satu metode pengukuran jarak antar kelompok
dimana jarak antara satu kelompok dengan
kelompok lain merupakan jarak terpendek dari
anggota kelompok yang satu terhadap anggota
kelompok lainnya (lihat Gambar 1).

Gambar 1 Jarak antar kelompok untuk single
linkage clustering..

Jarak minimum di antara jarak U ke W
dengan jarak V ke W, dinotasikan sebagai
d(UV)W = min {dUW, dVW}
(6)
Maka dapat ditunjukkan bahwa,
1
1
1
d(UV)W = d UW + d VW − d UW − d VW
2
2
2
= min {dUW, dVW}
Bukti :
Misalkan dUW > dVW,
d UW − d VW = d UW − d VW
substitusi ke persamaan (5), diperoleh
d(UV)W = dVW
Misalkan dUW < dVW,
d UW − d VW = d VW − d UW
substitusi ke persamaan (5), diperoleh
d(UV)W = dUW
Dari (7) dan (8) diperoleh bahwa
d(UV)W = min {dUW, dVW}.

(7)

(8)

Selanjutnya, ulangi langkah-langkah di atas
sampai terbentuk satu kelompok yang terdiri
dari semua objek yang dikelompokkan.
Namun, pengelompokan
dapat pula
dihentikan pada saat min{dij} ≤ do, dimana do
nilai batas jarak intra kelompok yang sudah
ditentukan.
Tahapan metode hierarki ini dapat
ditampilkan sebagai graf ataupun diagram
pohon seperti gambar 2. Graf hierarki disebut
juga dendogram.

Gambar 2 Contoh Dendogram.
Pada dendogram di atas terlihat jelas
adanya tingkatan yang menunjukkan tahap
pengelompokan. Jika dilihat pada Gambar 2,
proses agglomeratif berjalan ke arah kanan
menghasilkan beberapa kelompok sampai
akhirnya semua objek bergabung menjadi satu
kelompok. Jarak antar objek untuk setiap
tahap pengelompokan secara hieraki akan
semakin membesar atau jauh. Semakin besar
jarak antar objek menunjukkan semakin besar
perbedaan antar objek tersebut.
Dendogram
dapat
berfungsi
untuk
menunjukkan anggota kelompok yang sesuai
dengan jumlah kelompok yang diinginkan.

Berdasarkan Gambar 2, dapat ditunjukkan
anggota yang terdapat pada setiap kelompok
berdasarkan
jumlah
kelompok
yang
diinginkan seperti yang ditampilkan pada
Tabel 1.
Penentuan berapa jumlah kelompok
biasanya berdasarkan pada tujuan dari
dilakukannya
proses
analisis
cluster
(penelitian). Dalam hal ini, tidak ada
ketentuan khusus berapa jumlah cluster yang
ideal harus dibentuk. Adapun penentuan dari
anggota untuk setiap kelompok berdasarkan
pada
tingkat
kesamaan,
dengan
memperhatikan jarak antar objek. Setiap objek
dalam satu kelompok harus memiliki tingkat
kesamaan yang besar dan memiliki tingkat
perbedaan yang jauh dengan
kelompok
lainnya. Dengan memperhatikan hal ini maka
jumlah pengelompokan optimal dari Gambar
2 sebanyak tiga kelompok, dimana anggota
kelompok pertama terdiri dari objek 6, 12, 1,
8, 5, dan 3. Sedangkan kelompok kedua terdiri
dari objek 11, 2, 4, 13, 7, dan 9, serta objek 10
sebagai anggota kelompok ketiga.
Tabel 1 Pengelompokan objek berdasarkan
jumlah kelompok yang diinginkan.
Jumlah kelompok
Objek
4
3
2

1
2
3
4
5
6
7
8
9
10
11
12
13

2
3
2
3
2
1
3
2
3
4
3
1
3

1
2
1
2
1
1
2
1
2
3
2
1
2

1
2
1
2
1
1
2
1
2
1/2
2
1
2

Tahap kelima, setelah kelompok terbentuk
maka tahap selanjutnya menginterpretasikan
kelompok yang terbentuk, yaitu memberi
nama spesifik untuk menggambarkan objek
yang terdapat dalam kelompok tersebut.
Pemberian nama terhadap kelompok sama
halnya dengan penentuan jumlah kelompok
yaitu, berdasarkan pada tujuan dilakukan
analisis cluster.
Tahap keenam, melakukan profiling
kelompok dan validasi. Profiling adalah
menjelaskan karakteristik setiap kelompok
berdasarkan variabel yang membentuk

kelompok. Pada saat profiling ditentukan
persentase atas jumlah objek yang membentuk
kelompok serta melihat perbedaan komposisi
yang mencolok antar anggota kelompok.
Perbedaan komposisi dapat dijelaskan secara
lanjut melalui analisis diskriminan. Dari
analisis diskriminan dapat ditemukan fungsi
untuk kelompok yang terbentuk. Selain itu,
dari fungsi yang dibuat dapat mempermudah
pengelompokan objek yang baru. Kevalidan
dari
hasil
dapat
dilakukan
dengan
menggunakan analisis diskriminan. Apabila
hasil dari evalusi objek terhadap diskriminan
diperoleh nilai ketepatan lebih dari 50% maka
dapat dikatakan bahwa model diskriminan
yang diperoleh valid dan hasil dari
pengelompokan analisis cluster juga valid.

Analisis Diskriminan
Analisis diskriminan digunakan sebagai
metode dan alat untuk memisahkan objekobjek ke dalam kelompok secara tepat atau
mengevaluasi apakah objek-objek yang telah
dikelompokkan sudah tepat atau belum berada
dalam kelompok yang diduga, dari fungsi
diskriminan yang dicari. Fungsi diskriminan
dapat berguna pula untuk mengalokasikan
objek baru ke dalam kelompok yang sudah
terbentuk sebelumnya saat analisis cluster.
Dari fungsi diskriminan yang diperoleh, maka
dapat diketahui hubungan antara variabelvariabel bebas yang bersifat metrik terhadap
variabel terkait (kelompok) yang bersifat
kategori. Fungsi diskriminan yang bersifat
linear secara umum dituliskan,
y = λ1 x1 + λ 2 x 2 + ... + λ k x k
dimana:
y = nilai diskriminan (variabel terkait)
λ k = nilai pembobot diskriminan untuk
variabel ke-k
xk = variabel bebas ke-k
Asumsi yang diambil pada analisis
diskriminan untuk memperoleh fungsi
diskriminan linear yaitu: matriks kovarian
dari semua variabel bebas dalam setiap
kelompok
sama
(homogen).
Apabila
kehomogenan
matriks
kovarian
tidak
terpenuhi, akan menyebabkan fungsi atau
model yang diperoleh menunjukkan hubungan
yang kurang tepat antara variabel bebas
dengan variabel terkait. Variabel bebas boleh
diasumsikan atau tidak berdistribusi normal,
namun akan lebih baik apabila diasumsikan
berdistribusi normal sehingga dapat diperoleh

fungsi diskriminan yang memiliki ketepatan
mengelompokkan lebih baik.
Sebelum melakukan analisis diskriminan
lanjutan, dilakukan terlebih dahulu uji asumsi.
Salah satu uji asumsi terhadap kenormalan
data adalah dengan menggunakan statistik
skewness dan kurtosis. Sedangkan untuk
menguji asumsi kehomogenan matriks
kovarian salah satunya dengan uji Box’s M.
Selain melakukan kedua uji asumsi dapat pula
diuji beda 2 vektor rataan salah satunya
dengan menggunakan T2 Hotelling yang
berguna untuk melihat apakah terdapat
perbedaan yang nyata antara kelompok yang
terbentuk dari masing-masing variabel bebas.
Misalkan terdapat kelompok Πg, g = 1, 2, ...,
ng dan x sebagai objek yang akan dialokasikan
ke salah satu kelompok sedangkan x0
merupakan objek baru. Aturan diskriminan,
memisahkan ruang contoh Ω menjadi Rg
sehingga jika x ∈ R g , x diidentifikasikan
sebagai anggota dari kelompok Πg dengan
aturan diskriminan maksimum likelihood.
Aturan maksimum likelihood mengalokasikan
x ke Πg, dimana
L*g (x ) = f g (x ) = maks L g (x )
(9)
g

Sehingga diperoleh bahwa,
R g = x : Lg (x ) > Lh (x ) untuk g = 1,2,K , n g ,

{

g ≠ h}
Jika Lg(x) = Lh(x), g ≠ h maka x dapat
dialokasikan ke salah satu kelompok baik Πg
atau Πh karena peluang mengelompokkan x
misklasifikasi ke salah satu kelompok baik ke
Πg atau Πh adalah
P(Lg(x) = Lh(x), g ≠ h| Πg) = 0.

Misalkan g = 2, f1(x) dan f2(x) masingmasing merupakan fungsi kepekatan peluang
vektor acak X berdistribusi normal untuk
kelompok Π1 dan Π2, ruang contoh
Ω = R1 ∪ R2. Setiap objek hanya boleh
dikelompokkan ke dalam salah satu dari
kedua kelompok.
Pada saat pengelompokan akan mungkin
menemukan
kesalahan
pengelompokan
(misklasifikasi). Peluang mengelompokkan
sebuah objek x yang terdiri dari peubah acak
kontinu yang berasal dari Π1 ke Π2, dapat
dihitung sebagai peluang bersyarat P(2|1)
sebagai berikut,
P(2 | 1) = P(X ∈ R2 | Π1 ) = ∫R f1 (x )dx. (10)
2

Hal sama, peluang mengelompokkan sebuah
objek yang berasal dari Π2 ke Π1 adalah
P(1 | 2) = P(X ∈ R1 | Π 2 ) = ∫R f 2 (x )dx. (11)
1

Peluang pengelompokan objek-objek secara
tepat atau tidak tepat dapat dirumuskan
sebagai hasil kali peluang prior dengan
peluang bersyarat :
P(objek tepat dikelompokkan sebagai Π1) =
P(objek berasal dari Π1 dan tepat
diklasifikasikan sebagai Π1) =
(12)
P(X ∈ R1 | Π 1 )P(Π 1 ) = P(1 | 1) p1
P(objek tidak tepat dikelompokkan sebagai
Π1) = P(objek berasal dari Π2 dan tidak tepat
diklasifikasikan sebagai Π1) =
(13)
P(X ∈ R1 | Π 2 )P(Π 2 ) = P (1| 2 ) p 2
P(objek tepat dikelompokkan sebagai Π2) =
P(objek berasal dari Π2 dan tepat
diklasifikasikan sebagai Π2) =
(14)
P(X ∈ R2 | Π 2 )P (Π 2 ) = P (2 | 2 ) p 2
P(objek tidak tepat dikelompokkan sebagai
Π2) = P(objek berasal dari Π1 dan tidak tepat
diklasifikasikan sebagai Π2) =
(15)
P(X ∈ R2 | Π 1 )P(Π 1 ) = P(2 | 1) p1
Jumlah misklasifikasi objek pada setiap
kelompok dapat ditampilkan berupa tabel
berikut
Kelompok yang diduga
Π2
Π1
n1m
Π1
n1c
= n1-n1c
Kelompok
seharusnya
n2m
Π2
n2c
= n2-n2c
Ketepatan prediksi pengelompokan secara
n + n 2c
tepat = 1c
× 100%
n1 + n 2

Besar misklasifikasi pengelompokan
n + n2m
= 1m
× 100%
n1 + n 2
dimana:
n1c = jumlah objek Π1 tepat dikelompokkan
sebagai anggota Π1
n1m = jumlah objek Π1 misklasifikasi sebagai
anggota Π2
n2c = jumlah objek Π2 tepat dikelompokkan
sebagai anggota Π2
n2m = jumlah objek Π2 misklasifikasi sebagai
anggota Π1
n1 = n1c + n1m
n2 = n2c + n2m
Misklasifikasi akan membuat biaya sebesar
C(i | j). Matriks biaya tersebut :
Kelompok yang diduga
Π1
Π2
Π1
0
C(2|1)
Kelompok
seharusnya
Π2
C(1|2)
0
Biaya
sebesar
nol
terjadi
apabila
pengelompokan tepat, C(1|2) ketika objek dari
Π2 tidak tepat dikelompokkan sebagai Π1, dan
C(2|1) ketika objek dari Π1 tidak tepat
dikelompokkan sebagai Π2.
Biaya yang diduga akibat misklasifikasi
dirumuskan sebagai nilai expected cost of
misclassification (ECM) yaitu,
ECM = C (2 |1)P(2 |1) p1 + C (1| 2)P(1| 2) p 2 (16)

Dengan mensubstitusi persamaan (10) dan (11) ke persamaan (16) diperoleh,
ECM = C (2 | 1) p1 ∫R2 f1 (x )dx + C (1 | 2 ) p 2 ∫R1 f 2 (x )dx

karena Ω = R1 ∪ R2 , dimana
∫ f 1 (x )dx = ∫ f 1 (x )dx + ∫ f 1 (x )dx = 1


R1

R2

[

maka ECM dapat ditulis,

]

ECM = C (2 | 1) p1 1 − ∫R1 f1 (x )dx + C (1 | 2 ) p2 ∫R1 f 2 (x )dx

= ∫ [C (1 | 2 ) p 2 f 2 (x ) − C (2 | 1) p1 f1 (x )]dx + C (2 | 1) p1

(17)

R1

p1, p2 , C(1/2), C(2|1) nilainya diketahui dan
non negatif. f1(x) dan f2(x) juga diketahui dan
bernilai non negatif untuk semua nilai x.
Pengelompokan dikatakan tepat apabila ECM
minimum atau kecil. ECM bernilai minimum
apabila memenuhi aturan berikut :

⎧⎪ f (x ) ⎛ C (1 | 2) ⎞⎛ p2 ⎞⎫⎪
⎟⎬
⎟⎜
R1 = ⎨x : 1
≥⎜
⎪⎩ f 2 (x ) ⎜⎝ C (2 | 1) ⎟⎠⎜⎝ p1 ⎟⎠⎪⎭

(18)

⎧⎪ f (x ) ⎛ C (1 | 2) ⎞⎛ p2 ⎞⎫⎪
⎟⎬
⎟⎜
R2 = ⎨x : 1
0


f 1 (x ) ⎛ C (1 | 2 ) ⎞⎛ p 2 ⎞

⎟⎜