1
PENDAHULUAN
Latar Belakang
Terdapat dua metode dalam analisis gerombol
klasik yaitu metode penggerombolan berhirarki dan tak berhirarki.
Penentuan jumlah gerombol yang terbentuk untuk dua metode ini dilakukan secara
subjektif. Pada metode pen ggerombolan berhirarki, penentuan besarnya pemotongan
cut off pada dendogram masih ditentukan oleh peneliti Hair et. al, 1998. Sedangkan
pada metode penggerombolan non hirarki, penentuan banyaknya jumlah gerombol akhir
ditentukan oleh pengetahuan dan pengalaman peneliti Hair et. al, 1998.
Pada saat ini, umumnya data yang ada tidak hanya menggunakan tipe kontinu
numerik, tetapi juga menggunakan tipe data kategorik, contohnya data-data pada
marketing riset. Oleh karena itu, SPSS mengembangkan algoritma yang
memungkinkan untuk mengolah data dengan tipe numerik dan kategorik, serta dapat
menentukan jumlah gerombol secara objektif. Algoritma tersebut diimplementasikan pada
SPSS dengan nama Two Step Cluster.
Two Step Cluster menggunakan dua ukuran jarak yaitu Log-Likelihood dan
Euclidean. Kedua ukuran jarak tersebut dapat digunakan secara bersamaan pada analisis
Two Step Cluster apabila data yang digunakan bertipe numerik.
Tujuan
Tujuan penelitian ini adalah membandingkan pengaruh ukuran jarak Log-
Likelihood dan Euclidean terhadap
pembentukan gerombol pada analisis Two Step Custer dengan menggunakan data
simulasi.
TINJAUAN PUSTAKA
Analisis Gerombol
Analisis gerombol merupakan salah satu dari grup teknik peubah ganda multivariate
yang tujuan utamanya adalah
mengelompokkan objek berdasarkan atas kriteria yang dimiliki. Analisis gerombol
mengklasifikasi objek, sehingga antara satu objek dengan objek lainnya yang terletak
dalam satu gerombol akan memiliki kesamaan tinggi yang sesuai dengan kriteria pemilihan
yang ditentukan. Hasil dari penggerombolan harus memperlihatkan keragaman yang
homogen di dalam gerombol dan keragaman yang heterogen antargerombol yang terbentuk.
Ada dua metode dalam analisis gerombol satu tahap, yaitu :
1. Metode berhirarki
Metode penggerombolan berhirarki ditujukan untuk
ukuran contoh kecil.
Penggerombolan berhirarki menghasilkan seluruh kemungkinan terbentuknya gerombol.
Metode penggerombolan berhirarki digunakan apabila banyak gerombol yang akan dibentuk
belum diketahui sebelumnya. Pada dasarnya, terdapat dua prosedur pada penggerombolan
berhirarki, yaitu prosedur penggabungan agglomerative dan prosedur pembagian
divisive. Dalam metode berhirarki terdapat beberapa ukuran jarak antargerombol, antara
lain metode pautan tunggal single linkage, pautan lengkap complete linkage, pautan
rataan average linkage, metode Ward, dan metode centroid.
2. Metode tak berhirarki
Pada metode penggerombolan tak berhirarki, peneliti harus terlebih dahulu
menentukan jumlah gerombol yang diinginkan. Salah satu contoh dari metode ini
adalah metode K-means . Analisis gerombol K-means
menggunakan ukuran jarak Euclidean. Penentuan pusat gerombol
merupakan langkah awal pada metode ini. Langkah selanjutnya adalah menentukan
gerombol dari tiap objek, yaitu berdasarkan atas kedekatan ukuran jarak Euclidean
terhadap mean dari masing-masing gerombol.
SPSS Two Step Cluster
SPSS Two Step Cluster merupakan analisis penggerombolan yang dirancang
untuk menangani data dengan jumlah yang sangat besar. Analisis ini dapat menangani
masalah pengukuran dengan tipe data yang berbeda yaitu untuk tipe data numerik dan
kategorik SPSS Two Step Cluster Analysis, 2004. Terdapat dua tahap pada metode ini
yaitu : • Tahap pertama : Pembentukan gerombol
awal
Tahap gerombol awal menggunakan pendekatan penggerombolan sekuensial
Theodoridis dan Koutroumbas, 1999. Dimana tahap ini data yang ada dimasukkan
satu per satu, kemudian ditentukan data tersebut harus masuk pada gerombol yang
telah terbentuk sebelumnya atau membentuk gerom bol yang baru. Prosedur pada tahap ini
2
diimplementasikan dengan membangun modifikasi Cluster Feature CF Tree. CF
Tree terdiri dari tingkatan cabang depth dan masing-masing cabang berisikan dari angka
yang dientrikan. Apabila dimisalkan sebuah pohon, maka tingkatan cabang tersebut terdiri
dari batang pohon, dahan dan daun. Dalam CF tree tingkatan daun dikenal dengan nama
daun entri entrian pada cabang daun dimana pada tingkatan ini merepresentasikan hasil
akhir anak gerombol. Algoritma pertama pada CF Tree adalah memasukkan data satu per
satu. Data yang masuk dihitung jaraknya pada daun entri
yang telah ada dengan menggunakan ukuran jarak yang telah
ditentukan. Apabila jarak tersebut kurang dari kriteria
ukuran penerimaan threshold distance maka data tersebut masuk ke dalam
daun entri yang telah ada, tetapi jika sebaliknya maka data membentuk daun entri
baru.
Jika tidak ada lagi tempat dalam cabang daun untuk menciptakan daun entri baru node
telah melewati batas maksimum, maka cabang daun akan terbagi menjadi dua.
Apabila dimisalkan pada sebuah pohon, dari satu dahan kemudian membelah menjadi dua
dahan. Entrian pada cabang daun yang asli akan dibagi ke dalam dua grup dahan
dengan menggunakan pasangan daun terjauh sebagai penempatan, dan membagi-bagikan
kembali sisa entrian berdasarkan atas kriteria kedekatan.
Jika tidak tersedia tempat dalam cabang dahan untuk menciptakan daun entri baru,
maka cabang dahan yang telah melewati maksimum node akan terbagi menjadi dua.
Apabila dimisalkan pada sebuah pohon, dari satu pohon kemudian membelah menjadi dua
pohon . Entrian pada cabang dahan yang asli akan dibagi ke dalam dua grup pohon
dengan menggunakan pasangan dahan terjauh sebagai penempatan, dan membagi-bagikan
kembali sisa entrian berdasarkan atas kriteria kedekatan yang telah ditetapkan.
Proses ini berlanjut sampai semua data selesai dimasukkan. Jika CF Tree berkembang
melewati batas ukuran maksimum yang telah ditetapkan, maka CF Tree yang telah ada akan
dibangun ulang dengan cara meningkatkan kriteria ukuran penerimaan.
CF Tree yang melewati batas biasanya dikarenakan pada saat proses algoritma CF
Tree ini dijalankan, terbentuk daun entri yang beranggotakan outlier . Outlier pada analisis
Two Step Cluster adalah data yang tidak dapat dimasukkan pada gerombol manapun. Pada
saat CF Tree akan dibangun ulang, maka akan diperiksa daun entri yang berpotensi sebagai
outlier.
Daun entri yang anggotanya
berpotensi sebagai outlier merupakan daun entri yang jumlah anggotanya kurang dari
fraksi ukuran gerombol yang memiliki jumlah paling besar yang telah ditetapkan SPSS
Technical Support, 2001.
Pada saat pembangunan ulang, daun entri yang
berpotensi sebagai outlier disimpan. Setelah CF Tree dibangun ulang, maka satu per satu
data dalam daun entri yang berpotensi sebagai pencilan dimasukkan ke dalam CF Tree yang
baru tanpa mengubah ukuran CF Tree tersebut. Jika masih ada data yang tidak
masuk ke dalam daun entri manapun, maka data tersebut dikatakan sebagai outlier. Dan
data-data yang dideteksi sebagai outlier dimasukkan ke dalam satu gerombol.
Besarnya nilai fraksi dimasukkan ke dalam Options
“Outlier Treatment” pada SPSS. Pada gambar algoritma CF Tree di atas
dan pada penelitian ini, maksimum depth dan maksimum node yang digunakan mengikuti
default dari SPSS yaitu sebesar 3 dan 8. Sehingga maksimum daun entri anak
gerombol yang terbentuk adalah sebanyak 512 anak gerombol.
• Tahap kedua : Pembentukan gerombol
akhir
Pembentukan gerombol akhir ditandai dengan terbentuknya gerombol yang optimal.
Suat u gerombol dikatakan optim al apabila memiliki jarak antargerombol paling jauh dan
jarak antarobjek dalam gerombol tersebut paling dekat. Semakin dekat jarak antarobjek
maka semakin besar kemiripan antarobjek
3
dalam satu gerombol. Pada tahapan ini, hasil dar i tahap pertama yaitu daun entri anak
gerombol dari Cluster Feature CF Tree digerombolkan menggunakan
metode gerombol berhirarki dengan
prosedur penggabungan
agglomerative. Tiap-tiap
daun entri akhir yang terbentuk pada tahap pertama akan digabungkan satu per satu
sesuai dengan ukuran jarak yang telah ditetapkan. Prosedur ini berakhir sampai
seluruh daun entri menjadi satu gerombol. Apabila pada tahap pertama terdeteksi daun
entri yang beranggotakan outlier, maka daun entri tersebut tidak diikutsertakan pada tahap
kedua.
Penentuan Jumlah Gerombol
Dalam penentuan jumlah gerombol optimal, ada dua langkah yang harus
dilakukan. Langkah pertama yaitu menghitung BIC Bayesian Information Criterion atau
AIC Akaike’s Information Criterion saat semua daun entri hasil akhir pada tahap satu
menjadi anggota dalam 1, 2, 3,... gerombol.
Rumus BIC dan AIC untuk jumlah gerombol sebanyak J adalah sebagai berikut :
∑ =
+ −
= J
j N
j m
j J
BIC 1
log 2
ζ
∑
=
+ −
=
J j
j j
m J
AIC
1
2 ζ
dimana :
∑
= −
+ =
B K
k k
L A
K J
j m
1 1
2 A
K = jumlah total peubah numerik
B K
= jumlah total peubah kategorik k
L = jumlah kategori untuk peubah kategorik ke-k
N = jumlah total data Kemudian hasil perhitungan tersebut
digunakan untuk menduga jumlah gerombol. Langkah yang kedua yaitu mencari
peningkatan jarak terbesar antara dua gerombol terdekat pada masing-masing
tahapan penggerombolan. Solusi gerombol yang terbaik memiliki BIC terkecil, tetapi ada
beberapa kasus dalam penggerombolan dimana BIC akan terus menurun nilainya bila
jumlah gerombol semakin meningkat. Maka dalam situasi tersebut, ratio BIC Changes
rasio perubahan BIC dan ratio of Distance Measure Changes rasio perubahan jarak
mengidentifikasi solusi gerombol terbaik. M enurut Chiu et. al 2001: 266 BIC
k
atau AIC
k
menghasilkan penduga awal yang baik bagi jumlah gerombol maksimum.
Jumlah gerombol maksimum adalah
banyaknya gerombol yang memiliki rasio BIC
k
BIC
1
yang pertama kali lebih kecil dari c
1
SPSS menetapkan c
1
= 0. 04 yang didasarkan atas studi simulasi SPSS
Technical Support, 2001. Jumlah gerombol yang terbentuk dapat
diketahui dengan menggunakan perbandingan antar jarak untuk k gerombol, dengan rumus
perbandingannya sebagai berikut :
k d
k d
k R
1 −
= k
l k
l k
d −
− =
1 dimana :
2 log
v v
v
BIC n
r l
− =
atau 2
2
v v
v
AIC r
l −
= 1
, −
= k
k v
1 −
k
d = jarak jika k gerombol digabungkan
dengan k -1 gerombol Jumlah gerombol diperoleh berdasarkan
ketentuan ditemukannya perbedaan yang nyata pada rasio perubahan gerombol. Rasio
perubahan gerombol dihitung sebagai berikut :
2 1
k R
k R
untuk dua nilai terbesar dari Rk
k=1,2,…,k
max
; k
max
didapatkan dari langkah pertama.
Jika rasio perubahan lebih besar daripada nilai batas c
2
SPSS menetapkan nilai c
2
= 1.15 berdasarkan studi simulasi jumlah
gerombol ditetapkan sama dengan k
1
, selainnya jumlah gerombol sama dengan
maksimum {
k
1
,k
2
} .
Ukuran Jarak
Ukuran kemiripan dan ketakmiripan yang digunakan dalam analisis gerombol adalah
jarak antarobjek dan jarak antargerombol. Fungsi jarak yang digunakan pada
analisis Two Step Cluster adalah :
4
1. Jarak Euclidean