25
tanpa penanganan pencilan ditampilkan pada lampiran 1.gambar 6. Pada penelitian ini, akan dibandingkan hasil penggerombolan TwoStep Cluster antara penggunaan
opsi penanganan pencilan dengan tanpa penanganan pencilan.
Metode Analisis
Fokus penelitian ini adalah mengevaluasi keakuratan algoritma TwoStep Cluster dalam mendeteksi banyaknya gerombol dan ukuran masing-masing gerombol
pada gugus data dari populasi yang dianalisis. Analisis yang akan dilakukan adalah : 1. Mengukur tingkat keakuratan algoritma TwoStep Cluster dalam mendeteksi
banyaknya gerombol sebenarnya. Pada penelitian ini, tingkat keakuratan didefinisikan sebagai persentase jumlah percobaan run yang menghasilkan
banyaknya gerombol yang sama dengan populasi data hipotetik dipandang sebagai banyaknya gerombol sebenarnya.
A = Σ
Xi N
14
dengan Xi bernilai 1 bila banyaknya gerombol yang dihasilkan dari algoritma TwoStep Cluster sama dengan banyaknya gerombol sebenarnya di dalam
populasi pada penelitian ini diketahui dan 0 selainnya. N adalah banyaknya ulangan percobaan, pada penelitian ini sama dengan 100.
2. Analisis berikutnya adalah menelusuri kesesuaian sebaran ukuran gerombol
yang dihasilkan dari algoritma TwoStep Cluster dengan sebaran ukuran gerombol sebenarnya pada populasi. Kesesuaian sebaran ukuran
gerombol diuji dengan menggunakan uji khi-kuadrat sebagai berikut : Ho : Sebaran ukuran gerombol hasil TwoStep Cluster = sebaran gerombol
populasi. H1 : Sebaran ukuran gerombol hasil TwoStep Cluster ? sebaran gerombol
populasi
26
Pada taraf nyata a sebesar 30, dapat didefinisikan tingkat kesesuaian sebaran ukuran gerombol hasil algoritma TwoStep Cluster dengan ukuran
gerombol sebenarnya, yaitu :
K = Σ
Yi
N
15
dengan Yi bernilai 1 bila hasil uji khi-kuadrat pada taraf nyata tertentu
menghasilkan kesimpulan “Terima Ho”; dan 0 bila “Tolak Ho”. N adalah
banyaknya ulangan percobaan, pada penelitian ini sama dengan 100. 3. Tingkat salah klasifikasi dari anggota gerombol. Salah klasifikasi dari hasil
penggerombolan, pada penelitian ini didefinisikan sebagai total persentase semua individu objek yang berasal dari suatu gerombol namun
teridentifikasi sebagai anggota gerombol lain pada proses penggerombolan, dalam hal ini adalah hasil penggerombolan SPSS TwoStep Cluster.
Keanggotaan pada populasi yang sebenarnya
Hasil Penggerombolan
Populasi 1 Populasi 2
Gerombol 1 n
1
n
2
Gerombol 2 n
3
n
4
Salah klasifikasi pada 2 populasi geromb ol adalah n2+n3n1+n2+n3+n4
Prosedur dan Pelaksanaan Percobaan
1. Membangkitkan gugus data hipotetik untuk setiap kombinasi struktur populasi, komposisi jenis peubah, dan ukuran data yang tercantum pada
Tabel 1. Masing- masing kombinasi perlakuan diulang sebanyak 100 kali. Dengan demikian akan dibangkitkan sebanyak 8.000 gugus data untuk
dianalisis. Data hipotetik diperoleh dengan menggunakan prosedur yang telah
dipaparkan pada bagian metode pembangkitan data, sedangkan pembangkitan data sebaran
Νµ,1 dilakukan dengan menggunakan alat bantu perangkat
27
lunak software statistika yang tersedia, dalam hal ini peneliti menggunakan Minitab versi 13.2.
Pada setiap gugus data bangkitan yang akan digunakan sebagai bahan simulasi, akan ditambahkan peubah kolom atau field yang menunjukkan
indeks asal populasi. 2. Setiap gugus data yang terbentuk akan digerombolkan dengan menggunakan
prosedur SPSS TwoStep Cluster. Pada SPSS versi 11.5 tersedia pada modul Analyze - Clasify. Pilihan menu dasar basic option yang digunakan
adalah : Distance Measure
: Log-likelihood Number of clusters
: Determined Automatically, Maximum : 15 Clustering Criterion
: BIC
Sesuai dengan saran dari Bacher, Wenzig, dan Vogler 2004, pada menu Options, akan dilakukan pilihan pada kotak “Outlier Treatment” dengan memberi check
box pada kotak “Use noise handling” dan mengisi pada kotak “Percentage” bilangan 5 artinya 5 dan dicobakan pula tanpa pencilan.
Pada menu “Output” akan dipilih Statistik -statistik : a. Deskripsi setiap gerombol Descriptives by cluster untuk data kuantitatif.
b. Sebaran frekuensi setiap gerombol Cluster frequencies untuk data kategorik.
c. Informasi BIC , dan d. Simpan data keanggotaan gerombol Create cluster membership variable.
3. Hasil penggerombolan TwoStep Clust er, khususnya banyaknya gerombol yang terbentuk dan profil masing-masing gerombol, termasuk ukuran gerombol, akan
dicatat kemudian dimasukkan sebagai data yang akan dianalisis pada pengolahan selanjutnya.
4. Setelah semua 8.000 gugus data hipotetik terolah dan statistik-statistik yang dihasilkan dicatat sesuai untuk masing-masing kombinasi perlakuan, tahap
selanjutnya dilakukan analisis sebagaimana pada persamaan 13, dan menguji kesesuaian sebaran ukuran gerombol serta salah klasifikasi penggerombolan.
28
HASIL DAN PEMBAHASAN
Kasus Data Homogen
Data homogen adalah gugus data yang mana setiap individu berasal dari satu sebaran populasi tertentu. Dengan demikian pada populasi sebenarnya tidak terjadi
penggerombolan, yaitu hanya terdapat 1 gerombol. Kasus ini jarang dijumpai pada situasi nyata, kecuali pada beberapa masalah segmentasi pelanggan dari produk masal.
Berdasarkan percobaan simulasi, hasil analisis keakuratan penggerombolan algoritma TwoStep Cluster pada kasus ini berbeda dengan kasus-kasus populasi lain yang
dicobakan. Oleh karena itu kasus ini dibahas secara terpisah. Disamping itu, metode penggerombolan konvensiona l, baik metode hirarki maupun k-rataan tidak
memungkinkan untuk menghasilkan 1 gerombol. Pada Tabel 2 ditampilkan persentase kesesuaian banyaknya gerombol yang
dihasilkan dari algoritma TwoStep Cluster dengan banyaknya gerombol sebenarnya pada populasi. Pada tabel tersebut terlihat bahwa persentase ketepatan TwoStep
Cluster dalam mengidentifikasi banyaknya gerombol pada kasus data homogen umumnya sangat rendah, kecuali bila ukuran datanya kecil dalam penelitian ini yaitu
500. Algoritma TwoStep Cluster cukup akurat bilamana ukuran data relatif kecil dan peubah kriteria penggerombolan bersifat 1 semuanya kuantitatif V1, 2 semuanya
bersifat kategorik V2 dan mentransfernya menjadi peubah biner yang diperlakukan sebagai data numerik , atau 3 sebagian kecil peubah kriteria bersifat kuantitatif V3
dan sebagian kecil peubah kategorik V4, yang ditransformasi ke peubah biner dan diperlakukan sebagai numerik.
Tidak akuratnya algoritma TwoStep Cluster dalam menduga banyaknya gerombol di populasi, pada kasus data homogen, dapat dipahami, karena pada
metode-metode penggerombolan, baik metode konvensional maupun TwoStep Cluster, terdapat kecenderungan untuk memecah gugus data yang dianalisis menjadi
gerombol- gerombol Technical Manual SPSS, 2001.
29
Tabel 2 juga menyajikan hasil percobaan simulasi pada kasus data homogen dengan opsi tanpa penanganan pencilan dan dengan penanganan pencilan sebesar 5.
Secara keseluruhan, ketepatan algoritma TwoStep Cluster dalam menduga banyaknya gerombol pada gugus data homogen tanpa penanganan terhadap pencilan maupun
dengan penanganan terhadap pencilan sebesar 5 memberikan hasil yang tidak berbeda nyata.
Tabel 2. Persentase ketepatan banyaknya gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya pada kasus data
homogen
Jenis Peubah kriteria penggerombolan Semua kategorik V2
Sebagian kecil kontinu V3
Sebagian besar kontinu V4
Penanga- nan
Pencilan Ukuran Data
Semua kontinu
V1 Biner sbg
kategorik Biner sbg
numerik Biner sbg
kategorik Biner sbg
numeric Biner sbg
kategorik Biner sbg
numerik 500
100 97
96 40
2.000 5.000
Opsi tanpa penangan
- an pencilan
10.000 500
100 97
97 69
2.000 5.000
Opsi penangan
- an pencilan
5 10.000
Pada kasus ini banyaknya gerombol sebenarnya hanya 1, maka untuk setiap hasil banyaknya penggerombolan algoritma TwoStep Cluster yang tepat sama dengan
populasi, ukuran gerombolnya juga akan tepat sama, sedangkan bila dugaan banyaknya gerombol berbeda dengan populasi maka ukuran gerombolnya juga
berbeda. Pengertian yang sama dengan di atas juga berlaku untuk salah klasifikasi
pengge rombolan dari setiap individu. Bila dugaan banyaknya gerombol tepat sama dengan populasi hipotetik 1 gerombol, maka seluruh individu dikelompokkan
30
secara benar. Sebaliknya bila banyaknya gerombol dugaan lebih dari 1, maka terdapat individu yang salah klas ifikasi. Tabel 3 menampilkan rata-rata persentase
salah klasifikasi penggerombolan pada kasus di populasi hanya terdapat 1 gerombol. Pada Tabel 3 terlihat bahwa bila ketepatan pendugaan banyaknya gerombol
tinggi, maka salah klasifikasinya rendah, yaitu untuk kasus-kasus ukuran data 500 dengan semua peubah berjenis kontinu V1, semua peubah bersifat kategorik V2
yang ditransformasi ke bentuk biner dan diperlakukan sebagai peubah numerik, dan peubah campuran V3 dan V4 yang mana peubah kategorik ditransformasi ke biner
dan diperlakukan sebagai numerik. Tabel 3. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep
Cluster dengan gerombol populasi sebenarnya pada kasus data homogen
Jenis Peubah kriteria penggerombolan Semua kategorik V2
Sebagian kecil kontinu V3
Sebagian besar kontinu V4
Penanga- nan
Pencilan Ukuran
Data Semua
kontinu V1
Biner sbg kategorik
Biner sbg numerik
Biner sbg kategorik
Biner sbg numerik
Biner sbg kategorik
Biner sbg numerik
500 0,0
74,8 1,4
75,3 1,6
66,7 27,3
2000 68,6
58,4 58,8
62,2 32,5
78,4 64,3
5000 59,7
55,6 51,9
57,0 54,8
79,0 73,9
Opsi tanpa penangan
- an
pencilan 10000
50,0 53,9
52,3 50,1
49,8 50,0
50,0 500
0,0 77,2
1,4 75,1
1,6 66,5
28,0 2.000
67,9 59,1
58,1 60,8
59,5 78,2
66,7 5.000
66,7 55,3
51,7 59,8
71,2 76,2
78,2 Opsi
penangan -
an encilan 5
10.000 61,3
54,1 53,8
73,5 61,0
29,3 29,0
Kasus Data Berasal dari Populasi yang Terbedakan
Pada kasus populasi masing- masing mempunyai 2 dan 3 gerombol yang terpisah secara tegas P3 dan P4, TwoStep Cluster lebih akurat dalam menduga
banyaknya gerombol, yaitu menghasilkan banyaknya gerombol yang sama dengan populasi yang sebenarnya. Secara keseluruhan, percobaan simulasi mengindikasikan
31
semakin besar ukuran data, ketepatan rata-rata banyaknya gerombol cenderung menurun.
Pada kasus data berasal dari populasi yang saling terpisah secara tegas, algoritma TwoStep Cluster sangat akurat, dalam menduga banyaknya gerombol
sebenarnya pada populasi, untuk berbagai jenis kumpulan peubah kriteria penggerombolan, baik semua peubahnya berjenis kontinu V1, semua nya peubah
kategorik V2, ataupun peubah campuran V3 dan V4. Bilamana kumpulan peubah kriteria penggerombolan semuanya kategorik, transformasi ke peubah biner yang
diperlakukan sebagai peubah numerik akan menurunkan tingkat keakuratan pendugaan banyaknya gerombol, sedangkan bilamana kumpulan peubah kriteria
berupa campuran peubah kontinu dan kategorik, transformasi peubah kategorik menjadi peubah biner dan diperlakukan sebagai peubah numerik akan meningkatkan
ketepatan pendugaan banyaknya gerombol. Penanganan pencilan outlier treatment dengan pilihan sebesar 5
berpengaruh pada keakuratan pendugaan banyaknya gerombol yang terbentuk. Pada semua peubah kriteria penggerombolan berjenis kontinu V1 keakuratan penduga
banyaknya gerombol dari algoritma TwoStep Cluster menurun untuk ukuran data besar 10.000 baik untuk populasi dengan banyaknya gerombol 2 maupun 3.
Sementara itu, bila semua peubah kriteria penggerombolan bersifat kategorik, baik tetap dipandang sebagai kategorik atau ditransformasi menjadi peubah biner yang
diperlakukan sebagai numerik, memberikan hasil yang lebih buruk dibandingkan tanpa penanganan pencilan; kecuali untuk ukuran data kecil 500 dengan
memperlakukan biner sebagai numerik. Bilamana peubah kriteria berjenis campuran antara kontinu dan kategorik, pada
kasus 2 populasi yang terpisah tegas P3 algoritma TwoStep Cluster dengan penanganan pencilan 5 terlihat masih cukup akurat, walaupun menurun
dibandingkan dengan tanpa penanganan pencilan, sedangkan pada kasus 3 populasi yang terpisah tegas P4, penanganan pencilan sebesar 5 memberikan hasil yang
buruk untuk jenis peubah kriteria penggerombolan yang melibatkan lebih banyak peubah kategorik. Apabila peubah kriteria penggerombolan berjenis campuran
32
dengan sebagian besar kontinu; penanganan pencilan 5 masih cukup akurat untuk ukuran data kecil dan sedang 500 dan 2.000, tetapi untuk ukuran data besar 5.000
dan 10.000 keakuratan pendugaan menurun secara drastis dibandingkan tanpa penanganan pencilan.
Tabel 4. Persentase ketepatan banyaknya gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari
populasi yang terbedakan.
Jenis Peubah kriteria penggerombolan Semua kategorik
V2 Sebagian kecil
kontinu V3 Sebagian besar
kontinu V4 Penanga-
nan Pencilan
Model Populasi
asal Ukuran
Data Semua
kontinu V1
Biner sbg
kategorik Biner
sbg numerik
Biner sbg
kategorik Biner
sbg numerik
Biner sbg
kategorik Biner sbg
numerik 500
100 100
100 100
100 100
100 2.000
100 100
53 99
100 99
100 5.000
100 100
55 100
100 100
100 2 gerombol
terpisah Tegas
P3 10.000 100
100 51
100 100
100 100
500 100
100 100
100 100
100 100
2.000 100
100 93
100 100
100 100
5.000 100
100 65
100 100
89 100
Op si tanpa penanganan
pencilan 3 gerombol
terpisah tegas
P4 10.000
100 100
68 100
100 100
100 500
100 100
100 100
100 100
2.000 99
43 1
93 100
98 100
5.000 100
40 100
100 100
100 2 gerombol
terpisah tegas
P3 10.000
92 32
100 100
100 100
500 100
36 19
19 100
100 2.000
100 100
100 5.000
100 1
12 52
65 Opsi penanganan pencilan
5 3 gerombol
terpisah tegas
P4 10.000
73 2
12 9
4 3
10
Dengan menggunakan uji suai khi-kuadrat, diperoleh kesimpulan bahwa tanpa penanganan pencilan bila banyaknya gerombol yang dihasilkan dari algoritma
TwoStep Cluster sama dengan populasi sebenarnya, maka sebaran ukuran gerombol yang dihasilkan dari TwoStep Cluster sama dengan sebaran ukuran gerombol di
33
populasi terima Ho; kecuali pada perlakuan semua peubah kategorik ditransformasi ke biner dan dipandang sebagai peubah numerik untuk kasus 3 populasi. Sebaliknya,
dengan menerapkan opsi penanganan pencilan sebesar 5, sebaran ukuran gerombol yang terbentuk dari algoritma TwoStep Cluster hanya akurat pada kasus 2 populasi
yang terpisah secara tegas, sedangkan pada kasus 3 populasi, hanya akurat bilamana peubah kriteria penggerombolan semuanya kontinu atau ukuran datanya relatif kecil
500. Tabel
l 5. Persentase kesesuaian ukuran gerombol hasil olahan algoritma TwoStep
Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan.
Jenis Peubah kriteria penggerombolan Semua kategorik
V2 Sebagian kecil
kontinu V3 Sebagian besar
kontinu V4 Penanga-
nan pencilan
Model Populasi
asal Ukuran
Data Semua
kontinu V1
Biner sbg
kategorik Biner
sbg numerik
Biner sbg
kategorik Biner
sbg numerik
Biner sbg
kategorik Biner
sbg numerik
500 100
100 100
100 100
100 100
2.000 100
100 100
100 100
100 100
5.000 100
100 100
100 100
100 100
2 gerombol terpisah
Tegas P3
10.000 100
100 100
100 100
100 100
500 100
100 100
100 100
100 100
2.000 100
100 100
100 100
100 100
5.000 100
100 95
100 100
100 100
Op si tanpa penanganan
pencilan 3 gerombol
terpisah tegas
P4 10.000
100 100
100 100
100 100
100 500
100 100
100 100
100 100
2.000 97
100 100
100 100
99 100
5.000 100
100 100
100 100
100 2 gerombol
terpisah tegas
P3 10.000
96 100
100 100
92 100
500 100
- 100
100 100
100 2.000
100 -
100 100
5.000 100
50 35
Opsi penanganan pencilan 5
3 gerombol terpisah
tegas P4
10.000 100
58 22
75 100
34
Tabulasi silang antara individu- individu anggota gerombol asal dengan gerombol yang diperoleh dari TwoStep Cluster menunjukkan bahwa algoritma ini
akurat dalam menghasilkan gerombol yang sama dengan populasi asal. Secara keseluruhan, terutama pada opsi tanpa penanganan pencilan, salah klasifikasi dari
individu- individu gerombol sangat kecil di bawah 5; kecuali pada kasus semua peubah kriteria penggerombolan berjenis kategorik yang ditransformasi ke biner dan
diperlakukan sebagai numerik. Sebagaimana tampak pada Tabel 6; salah klasifikasi penggerombolan dari TwoStep Cluster sangat kecil bila seluruh peubah kriteria
penggerombolan berjenis kontinu, baik dengan penanganan pencilan 5 atau tanpa penanganan pencilan.
Bilamana semua peubah kriteria penggerombolan merupakan peubah kategorik, pilihan penanganan pencilan 5 atau transformasi peubah kategorik menjadi bentuk
biner yang diperlakukan sebagai peubah numerik akan memperbesar salah klasifikasi penggerombolan. Bila peubah kriteria penggerombolan merupakan campuran
kontinu dan kategorik penanganan pencilan 5 memperbesar salah klasifikasi. Sementara itu, bila tanpa perlakuan penanganan pencilan, salah klasifikasi
penggerombolan sangat kecil baik perlakuan peubah biner sebagai kategorik atau sebagai numerik.
Kasus Populasi yang Saling Tumpang Tindih
Pada kasus data berasal dari populasi yang saling tumpang tindih overlaping population, algoritma TwoStep Cluster masih cukup akurat untuk populasi data 2
gerombol, sedangkan pada kasus 5 gerombol yang saling tumpang tindih terjadi bias. Khusus untuk peubah kriteria berjenis campuran, transformasi peubah kategorik
menjadi biner dan memperlakukannya sebagai peubah numerik akan meningkatkan keakuratan pendugaan banyaknya gerombol. Pada kasus ini, juga dapat disimpulkan
bahwa penanganan pe ncilan secara umum akan mengurangi keakuratan hasil penggerombolan dari algoritma TwoStep Cluster.
35
Tabel 6. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari
populasi yang terbedakan.
Jenis Peubah kriteria penggerombolan Semua kategorik
V2 Sebagian kecil
kontinu V3 Sebagian besar
kontinu V4 Penanga-
nan pencilan
Model Populasi
asal Ukuran
Data Semua
kontinu V1
Biner sbg
kategorik Biner
sbg nume rik
Biner sbg
kategorik Biner
sbg numerik
Biner sbg
kategorik Biner
sbg numerik
500 2.000
20,0 0,1
5.000 23,0
2 gerombol terpisah
Tegas P3
10.000 21,0
500 0,0
0,1 2,1
0,1 0,1
0,0 0,0
2.000 0,6
0,1 2,5
0,1 0,1
0,0 0,0
5.000 0,5
0,1 17,9
0,1 0,1
2,8 0,0
Op si tanpa penanganan
pencilan 3 gerombol
terpisah tegas
P4 10.000
0,0 0,1
16,4 0,1
0,1 0,0
0,0 500
0,0 50,0
0,0 0,0
0,0 0,0
0,0 2.000
0,7 50,0
27,5 0,8
0,5 0,0
0,0 5.000
0,0 50,0
27,0 0,5
0,0 0,0
0,0 2 gerombol
terpisah tegas
P3 10.000
0,9 50,0
34,4 0,0
0,0 5,5
0,0 500
0,0 51,7
30,7 30,7
45,0 0,0
0,0 2.000
0,0 52,5
50,0 52,0
50,0 0,0
0,0 5.000
0,0 54,7
50,0 0,0
50,0 13,3
0,0 Opsi penanga
nan pencilan 5
3 gerombol terpisah
tegas P4
10.000 6,8
55,6 43,6
47,4 50,0
24,0 0,0
Dari Tabel 7 dapat dilihat bahwa apabila hanya terdapat 2 gerombol yang saling tumpang tindih, keakuratan algoritma TwoStep Cluster dalam menduga banyaknya
gerombol cukup baik untuk peubah kriteria penggerombolan semua kontinu V1, semua kategorik V2 dan peubah campuran yang mempunyai sebagian kecil kontinu
V3. Hal ini berlaku untuk semua ukuran data yang dicobakan, walaupun kecenderungan tingkat keakuratan menurun dengan semakin meningkatnya ukuran
data. Untuk populasi dengan peubah campuran yang sebagian besar kontinu, pendugaan gerombol akan menjadi akurat apabila peubah biner diperlakukan sebagai
36
numerik, namun dengan data yang sangat besar 10.000 juga tidak dapat menduga banyaknya gerombol dengan baik. Untuk populasi dengan 5 gerombol yang saling
tumpang tindih, TwoStep Cluster tidak dapat mengidentifikasi secara akurat. Tabel 7. Persentase ketepatan ukuran gerombol hasil olahan algoritma TwoStep
Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih
Jenis Peubah kriteria penggerombolan Semua kategorik
V2 Sebagian kecil
kontinu V3 Sebagian besar
kontinu V4 Penanga-
nan pencilan
Model Populasi asal
Ukuran Data
Semua kontinu
V1 Biner
sbg kategorik
Biner sbg
numerik Biner
sbg kategorik
Biner sbg
numerik Biner
sbg kategorik
Biner sbg
numerik 500
100 99
100 98
100 48
100 2.000
100 100
100 98
100 26
100 5.000
100 95
97 93
99 14
100 2 gerombol
tumpang tindih P2
10.000 100
84 80
80 92
16 18
500 2.000
5.000 Op
si tanpa penanganan pencilan
5 gerombol tumpang tindih
P5 10.000
500 100
99 99
98 100
47 100
2.000 100
99 99
99 100
26 100
5.000 99
56 66
79 96
24 99
2 gerombol tumpang tindih
P2 10.000
67 43
54 71
76 28
64 500
2.000 5.000
Opsi penanganan pencilan 5
5 gerombol tumpang tindih
P5 10.000
Bila ditelusuri lebih lanjut, dapat diketahui bahwa algoritma TwoStep Cluster menghasilkan pendugaan banyaknya gerombol sebanyak 3, untuk kasus 5 gerombol
yang saling tumpang tindih. Hasil ini dapat dipahami, karena seperti terlihat pada Gambar 6 bagian metode terdapat 3 gerombol yang secara nyata dapat terbedakan,
sedangkan 2 gerombol lainnya tersamar pada gerombol yang lain. Pada kasus
37
gerombol yang tidak terpisah secara tegas, ukuran masing- masing gerombol yang dihasilkan dari algoritma TwoStep Cluster sebagian besar tidak sesuai dengan ukuran
gerombol sebenarnya dari populasi bangkitan Tabel 8 . Tabel 8. Persentase kesesuaian ukuran gerombol hasil olahan algoritma TwoStep
Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih.
Jenis Peubah kriteria penggerombolan Semua kategorik
V2 Sebagian kecil
kontinu V3 Sebagian besar
kontinu V4 Penanga-
nan pencilan
Model Populasi asal
Ukuran Data
Semua kontinu
V1 Biner
sbg kategorik
Biner sbg
numerik Biner
sbg kategorik
Biner sbg
numerik Biner
sbg kategorik
Biner sbg
numerik 500
91 58
52 57
71 67
81 2.000
87 31
28 56
61 50
71 5.000
28 8
6 18
16 79
20 2 gerombol
tumpang tindih P2
10.000 28
5 5
19 8
63 11
500 -
- -
- -
- -
2.000 -
- -
- -
- -
5.000 -
- -
- -
- -
Op si tanpa penanganan
pencilan 5 gerombol
tumpang tindih P5
10.000 -
- -
- -
- -
500 88
50 52
72 26
53 2.000
87 28
44 53
65 79
5.000 37
205 24
14 63
16 2 gerombol
tumpang tindih P2
10.000 15
9 11
14 61
3 500
- -
- -
- -
- 2.000
- -
- -
- -
- 5.000
- -
- -
- -
- Opsi penanganan pencilan
5 5 gerombol
tumpang tindih P5
10.000 -
- -
- -
- -
Secara keseluruhan, salah klasifikasi penggerombolan dari algoritma Twostep Cluster pada kasus 5 gerombol yang saling tumpang tindih di populasi sangat besar
20 ke atas. Hasil ini cukup dapat dimengerti, karena secara visual pada Gambar 6 2 gerombol tumpang tindih dengan gerombol lainnya sehingga cenderung akan
menghasilkan salah klasifikasi dalam penggerombolan. Bilamana di populasi asal
38
terdapat 2 gerombol, algoritma TwoStep Cluster masih akurat dalam menggerombolkan individu untuk kasus semua peubah kriteria berjenis kontinu,
sedangkan bilamana peubah kriteria penggerombolan merupakan peubah kategorik atau campuran kontinu dan kategorik, salah klasifikasi penggerombolan relatif kecil
bila ukuran data di bawah 5.000 Tabel 9. Tabel 9. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep
Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih
Jenis Peubah kriteria penggerombolan Semua kategorik
V2 Sebagian kecil
kontinu V3 Sebagian besar
kontinu V4 Penanga-
nan pencilan
Model Populasi asal
Ukuran Data
Semua kontinu
V1 Biner
sbg kategorik
Biner sbg
numerik Biner
sbg kategorik
Biner sbg
numerik Biner
sbg kategorik
Biner sbg
numerik 500
3,7 8,1
7,8 7,7
6,4 44,9
4,8 2.000
3,2 7,6
7,3 8,6
5,8 54,7
4,0 5.000
3,4 11,2
11,4 14,2
10,4 58,8
4,9 2 gerombol
tumpang tindih P2
10.000 3,3
17,9 19,2
23,8 21,3
60,4 6,9
500 20,0
22,4 22,1
20,0 20,0
20,0 20,0
2.000 20,0
21,3 22,2
20,0 20,0
20,0 20,0
5.000 20,0
24,5 28,6
20,0 20,0
20,0 20,0
Op si tanpa penanganan
pencilan 5 gerombol
tumpang tindih P5
10.000 20,0
20,4 30,8
20,3 20,0
20,0 20,0
500 3,7
8,1 7,8
30,7 6,4
44,9 4,7
2.000 3,2
23,6 7,7
7,7 5,7
51,3 6,0
5.000 3,4
44,6 26,0
17,8 6,7
58,3 6,1
2 gerombol tumpang tindih
P2 10.000
23,5 46,8
32,0 20,0
10,9 58,2
6,1 500
20,0 62,8
59,2 69,5
54,20 20,0
20,0 2.000
20,0 67,5
85,0 70,0
60.3 20,0
20,0 5.000
20,0 70,0
50,0 70,0
57,40 27,9
20,0 Opsi penanganan pencilan
5 5 gerombol
tumpang tindih P5
10.000 20,0
71,6 50,0
54,4 37,30
67,1 32,8
39
Perbandingan dengan Metode Hirarki dan K-rataan
Secara umum, berdasarkan aspek-aspek penggunaannya, perbandingan antar metode penggerombolan hirarki, k-rataan, dan TwoStep Cluster diringkas pada Tabel
10. Ditinjau dari aspek peubah kriteria penggerombolannya, metode hirarki sesuai untuk peubah-peubah yang bersifat kuantitatif yang berskala rasio, interval, ordinal,
berupa peubah biner. Metode k-rataan hanya dapat digunakan bilamana peubah kriteria penggerombolan merupakan peubah kuantitatif dengan skala rasio atau
interval. TwoStep Cluster memungkinkan peubah kriteria penggerombolan bersifat kuantitatif, kategorik, atau campuran dari kuantitatif dan kategorik. Berdasarkan
konsep jarak yang berlaku, metode hirarki memiliki banyak pilihan konsep jarak diantaranya Euclidian, khi-kuadrat atau phi-kuadrat, beda pola pattern difference,
kecocokan sederhana simple matching, dan sebagainya. Konsep jarak yang berlaku pada metode k-rataan adalah Euclidian. Pada algoritma TwoStep Cluster, pilihan
konsep jarak yang dapat digunakan adalah Euclidian bila semua peubah bersifat kuantitatif atau biner atau jarak log-likelihood terutama bila melibatkan peubah
campuran atau kategorik. Metode hirarki dan k-rataan tidak mensyaratkan sebaran dari peubah-peubah kriteria penggerombolan; sedangkan
TwoStep Cluster mengasumsikan peubah kuantitatif berasal dari sebaran normal yang saling bebas
stokastik dan peubah kategorik berasal dari sebaran multinomial. Penentuan banyaknya gerombol yang terbentuk dari metode hirarki sangat tergantung dari
peneliti berdasarkan dendogram yang terbentuk atau jarak penggabungan antar sub - gerombol. Pada metode k-rataan, penentuan banyaknya gerombol ditentukan diawal
apriori sesuai dengan pengetahuan peneliti pada masalah yang ditelitinya. Sementara itu, penentuan banyaknya gerombol pada TwoStep Cluster dilakukan
secara obyektif dengan melibatkan kriteria statistik BIC atau AIC.
40
Tabel 10. Perbandingan metode penggerombolan hirarki, k-rataan, dan TwoStep Cluster
Aspek yang dibandingkan
Metode hirarki Metode k-rataan
Metode TwoStep Cluster
Jenis peubah kriteria
penggerombolan Kuantitatif rasio,
interval, ordinal atau peubah biner
Kuantitatif, dgn skala rasio atau
interval Kuantitatif
Kategorik Campuran
Konsep jarak yang berlaku
Euclidian, Chi- square, Pattern
difference, Simple matching, dsb.
Euclidian Euclidian
Log-likelihood
Prasyarat atau asumsi sebaran
peubah kriteria Tidak ada asumsi
sebaran Tidak ada asumsi
sebaran Asumsi peubah
kuantitatif menyebar Normal
bebas stokastik dan peubah
kategorik menyebar
multinomial Ukuran data
Sesuai untuk ukuran data relatif
kecil Cocok untuk
ukuran data besar Cocok untuk
ukuran dara besar
Penentuan Banyaknya
gerombol Secara posterior
berdasarkan dendogram
Secara apriori ditentukan oleh
peneliti Secara otomatik,
berdasarkan kriteria statistik.
41
Pada tabel perbandingan di atas, dipaparkan bahwa metode hirarki hanya sesuai untuk jenis peubah kriteria penggerombolan yang semuanya berjenis kuantitatif atau
semuanya peubah biner, selain itu ukuran data yang digerombolkan relatif kecil. Di pihak lain, metode TwoStep Cluster memungkinkan untuk mengolah data yang
berukuran besar dan peubah kriteria penggerombolan bersifat semuanya kuantitatif, semuanya kategorik, atau campuran kuantitatif dan kategorik. Dengan demikian,
perbandingan hasil penggerombolan antara metode hirarki dan TwoStep Cluster hanya dapat dilakukan untuk kasus peubah kriteria penggerombolan yang 1
semuanya bersifat kuantitatif dan 2 semuanya peubah biner. Mengingat metode hirarki efektif untuk ukuran data yang kecil, maka untuk tujuan perbandingan
digunakan kasus ukuran data relatif kecil 500 data. Pada paket program SPSS versi 11.5, penentuan banyaknya gerombol minimum dengan menggunakan metode
hirarki adalah 2 gerombol. Dengan demikian, metode ini tidak memungkinkan untuk mengidentifikasi kasus bilamana di dalam populasi hanya terdapat 1 gerombol. Oleh
karena itu, dalam perbandingan kasus ini tidak dilibatkan. Sebagaimana dipaparkan pada Tabel 10, penentuan banyaknya gerombol pada
metode hirarki umumnya bersifat subjektif sehingga sangat bervariasi dan sangat tergantung dari pengalaman pe neliti. Salah satu kriteria objektif yang sering
digunakan dalam menentukan banyaknya gerombol yang terbentuk adalah dengan menggunakan kriteria jarak penggabungan terbesar lihat Lampiran 2. Penentuan
banyaknya gerombol juga dapat ditelusuri dari pendekatan eksplorasi data dengan mengamati sebaran dari data yang akan digerombolkan, umumnya juga
memanfaatkan analisis komponen utama. Dengan situasi tersebut, maka perbandingan keakuratan penentuan banyaknya gerombol yang dihasilkan oleh
metode hirarki dan TwoStep Cluster tidak relevan; karena penentuan banyaknya gerombol dengan metode hirarki tergantung dari pengamatan secara visual.
Pada penelitian ini diasumsikan peneliti mengetahui secara tepat banyaknya gerombol yang terdapat di populasi, agar keakuratan metode hirarki dalam menduga
sebaran ukuran setiap gerombol dan salah klasifikasi penggerombolan dapat
42
dibandingkan dengan metode TwoStep Cluster. Kasus-kasus yang dibandingkan adalah kasus semua peubah kriteria penggerombolan berjenis kontinu V1 dan
semua peubah kategorik yang ditransformasi ke biner diperlakukan sebagai numerik V2 dengan ukuran contoh 500. Mempertimbangkan hasil evaluasi yang dilakukan
oleh Wijayanti 2002, pada penelitian ini digunakan metode perbaikan jarak pautan rataan dalam kelompok average linkage within group dan konsep jarak untuk
peubah biner yang digunakan adalah simple matching. Hasil simulasi dan uji kesesuaian sebaran ukuran gerombol sebenarnya dengan yang dihasilkan dari metode
hirarki dan TwoStep Cluster ditampilkan pada Tabel 11. Secara umum, pada kasus-kasus yang dibandingkan dengan ukuran data 500,
metode TwoStep Cluster lebih baik dibandingkan dengan metode hirarki. Pada kasus data berasal dari populasi yang terbedakan P3 dan P4 dan peubah kriteria
penggerombolan semuanya berjenis kontinu, persentase kesesuaian ukuran gerombol populasi dengan yang dihasilkan dari metode hirarki sama dengan yang dihasilkan
dari TwoStep Cluster 100, sedangkan bila semua peubah kriteria penggerombolan merupakan peubah biner metode TwoStep Cluster jauh lebih baik dibandingkan
dengan metode hirarki pada kasus populasi memiliki 3 gerombol yang terpisah secara tegas. Bila pada populasi terdapat 2 gerombol yang saling tumpang tindih,
metode TwoStep Cluster lebih baik dibandingkan dengan metode hirarki, pada kasus peubah kriteria penggerombo lan semuanya berjenis kontinu. Pada kasus yang sama,
metode hirarki sedikit lebih baik dibandingkan TwoStep Cluster untuk peubah kriteria berupa peubah biner. Sementara itu, bila pada populasi terdapat 5 gerombol yang
saling tumpang tindih, metode hirarki lebih baik dibandingkan TwoStep Cluster untuk peubah kriteria semuanya bersifat kontinu.
Dibandingkan dengan metode k-rataan, dengan asumsi banyaknya gerombol dapat diketahui sebelumnya, akurasi kesesuaian sebaran ukuran gerombol yang
dihasilkan dari metode TwoStep Cluster sama dengan metode k-rataan, kecuali pada kasus 2 populasi yang saling tumpang tindih.
43
Tabel 11. Perbandingan persentase kesesuaian sebaran ukuran gerombol hasil olahan metode hirarki, k-rataan, dan TwoStep Cluster hasil 100 kali simulasi
Jenis peubah yang dianalisis Jenis populasi
hipotetik Semua kontinu V1
Semua biner V2 diperlakukan sebagai
numerik hirarki k-rataan TwoStep hirarki
k-rataan TwoStep 2 gerombol tumpang
tindih P2 52,0
99 91
66,0 73
52 2 gerombol terpisah
tegas P3 100
100 100 100,0
100 100
3 gerombol terpisah tegas P4
100 100
100 0,0
69 100
5 gerombol tumpang tindih P5
28,0 16
0,0 Tabulasi silang antara individu- individu anggota gerombol asal dengan
gerombol yang diperoleh dari metode hirarki dan TwoStep Cluster menunjukkan bahwa secara umum metode TwoStep Cluster menghasilkan salah klasifikasi yang
lebih kecil dibandingkan metode hirarki. Pada kasus populasi yang terpisah secara tegas, metode hirarki dan TwoStep Cluster menghasilkan salah klasifikasi yang sama
0 bilamana peubah kriteria penggerombolan bersifat semuanya kontinu dan semuanya biner untuk kasus 2 populasi. Metode TwoStep Cluster menghasilkan salah
klasifikasi yang lebih kecil dibandingkan metode hirarki bila pada populasi terdapat 2 gerombol yang saling tumpang tindih, baik pada kasus semua peubah kriteria berjenis
kontinu maupun semuanya biner. Metode hirarki lebih akurat dibandingkan TwoStep Cluster bilamana pada populasi terdapat 5 gerombol yang saling tumpang tindih bila
diasumsikan peneliti dapat menduga banyaknya gerombol secara tepat dan semua peubah kriteria penggerombolan berjenis kontinu; sedangkan bila peubah kriteria.
penggerombolan semuanya peubah biner, metode TwoStep Cluster jauh lebih akurat Tabel 12.
44
Secara keseluruhan persentase salah klasifikasi dari metode TwoStep Cluster tidak berbeda nyata dengan yang dihasilkan dari metode k-rataan, bilamana semua
peubah kriteria penggerombolan merupakan peubah kontinu. Bila peubah kriteria penggerombolan merupakan peubah biner, salah klasifikasi dari metode TwoStep
Cluster lebih kecil dibandingkan metode k-rataan. Tabel 12. Perbandingan persentase salah klasifikasi individu pada populasi dengan
yang dihasilkan oleh metode hirarki, k-rataan, dan TwoStep Cluster hasil 100 kali simulasi
Jenis Peubah yang dianalisis Jenis populasi
hipotetik Semua kontinu V1
Semua biner V2 diperlakukan sebagai
numerik hirarki k-rataan TwoStep hirarki k-rataan TwoStep
2 gerombol tumpang tindih P2
6,7 3.5
3.7 11,1 7.3
7.8 2 gerombol terpisah
tegas P3 0,0
3 gerombol terpisah tegas P4
0 50,7 3
2.1 5 gerombol tumpang
tindih P5 7,1
12.8 20 72,8
52.0 22.1
45
SIMPULAN DAN SARAN
Simpulan
1. Metode TwoStep Cluster menghasilkan gerombol yang sama dengan populasi sebenarnya apabila semua peubah kriteria penggerombolan bersifat kontinu; kecuali
pada situasi data yang saling tumpang tindih dan tidak terbedakan. 2. Metode TwoStep Cluster sangat akurat dalam menghasilkan gerombol yang sama
dengan populasi sebenarnya pada kasus-kasus data yang terpisah secara tegas, atau setidaknya terlihat adanya perbedaan penggerombolan pada data yang dianalisis.
3. Transformasi peubah kategorik ke dalam bentuk biner dan memperlakukannya sebagai peubah numerik akan meningkatkan keakuratan TwoStep Cluster dalam
menduga banyaknya gerombol, apabila peubah kriteria penggerombolan merupakan peubah campuran.
4. Apabila pada data tidak terdapat pencilan, penggunaan opsi “Penanganan Pencilan” outlier treatment akan menurunkan keakuratan TwoStep Cluster dalam menduga
gerombol yang sebenarnya. 5. Pada kasus-kasus populasi dengan 2 dan 3 gerombol dan peubah kriteria
penggerombolan semuanya kontinu atau semuanya peubah biner untuk ukuran data kecil 500, metode TwoStep Cluster lebih baik dibandingkan dengan metode hirarki
dan tidak berbeda nyata dibandingkan metode k-rataan dalam hal akurasi sebaran ukuran gerombol asal serta salah klasifikasi.
Saran
1. Sebelum melakukan penggerombolan disarankan peneliti memiliki pengetahuan awal terhadap data atau populasi yang akan digerombolkan.
2. Sebelum melakukan penggerombolan disarankan untuk melakukan analisis eksplorasi sebaran data, agar dapat membantu dalam menentukan banyaknya
gerombol di populasi sebenarnya lebih akurat.
46
3. Perlu dilakukan studi perbandingan atau evaluasi terhadap keakuratan berbagai metode penggerombolan, khususnya metode hirarki, TwoStep Cluster, dan Latent
Segment dalam menduga banyaknya gerombol serta profil gerombol yang sebenarnya di populasi.
4. Perlu dilakukan studi lebih lanj ut untuk mengevaluasi metode Twostep Cluster, dan metode penggerombolan lainnya, pada kasus terjadinya korelasi antar peubah kriteria
karena dalam realitas sering terjadi korelasi antar peubah.
47
DAFTAR PUSTAKA
Aaker, D.A. 2001. Strategic Marketing Management. Ed ke-6. John Wiley Sons Inc. New York.
Aaker, D. A. And G. S. Day. 1990. Marketing Research. Ed ke-4. John Wiley Sons, New York.
Adenberg, M.R. 1973, Cluster Analysis For Applications, Academic Press, Inc. New York
Anonimous. 2001. The SPSS TwoStep Cluster Component. A scalable component to segment your customers more effectively. White paper – technical report, SPSS
Inc. Chicago.
__________. 2004. TwoStep Cluster Analysis. Technical Report, SPSS Inc. Chicago.
Bacher, J. 2000. A Probabilistic Clustering Model for Variables of Mixed Type. Quality Quantity.
Bacher, J., K. Wenzig and M. Vogler. 2004.. SPSS TwoStep Cluster : A First Evaluation. Friedrich-Alexander-Universität Erlangen-Nurnberg.
Bernstein, L. K. Bradley, and S. Zarich. 2002. GOLDminer : Improving Models for Classifying Patients with Chest Pain. Yale Journal of Biology and Medicine 75.
Chiu, T., Fang,D., Chen,J., Wang,Y., and Jeris,C. 2001. A Robust and Scalable Clustering Algorithm for Mixed Type Attributes in Large Database
Environment. In Proceedings of the 7th ACM SIGKDD International Confererence on Knowledge Discovery and Data Mining 2001.
Digby, P.G.N. and R.A. Kempton. 1987. Multivariate Analysis of Ecological Communities. Chapman and Hall. New York.
Dillon, W.R. M. Goldstein. 1984. Multivariate Analysis Method Applications. John Wiley and Sons, Inc. New York.
48
Everitt, B.S., Landan, S. and Leese, M. 2001. Cluster Analysis. Ed ke-4 Arnold, London.
Garson, D.G. 2006. Quantitative Research in Public Administration. Lecture Note. North Carolina State University.
Huang, Z. 1998. Extensions to the k- means Algorithm for Clustering Large Data Sets with Categorical Variables. Data Mining and Knowledge Discovery.
Kasali, R. 1998. Membidik Pasar Indonesia : Segmentasi, Targeting, dan Positioning. Gramedia Pustaka Utama, Jakarta..
Kotabe, M and K. Helsen. 2001. Global Marketing Management . Ed ke-2. John Wiley Sons, New York.
Kotler, P. 2000. Marketing Management : The Millennium Edition. Prentice Hall International Inc. New Jersey.
Lakshminarayan, C.K. and Q. Yu. 2001. A Novel Two-Stage Clustering Approach for Visitor Segmentation and Prediction Based on Click Stream Attributes. The
Indian Institute of Information Technology, Bangalore.
McCutcheon A, Hagenaars J., eds. 1999. Advances in Latent Class Modeling. Cambridge, UK and NY: Cambridge University Press.
Morrison, D.F. 1990. Multivariate Statistical Methods. McGraw-Hill. Inc. New York. Porter, M. 1980. Competitive Strategy : Techniques for Analyzing Industries and
Competitors. The Free Press, New York. Putri, D. Y. 2005. Penerapan Metode TwoStep Cluster dalam Analisis Gerombol :
Studi Kasus Data Potensi Desa Sensus Ekonomi 2003 Wilayah Jawa Barat, Skripsi S1. Departemen Statistika FMIPA Institut Pertanian Bogor, Bogor-
Indonesia.
49
Strehl, A. And J. Gosh. 2002. Relationship -Based Clustering and Visualization for High-Dimensional Data Mining. INFORMS. Journal on Computing. Pp. 1-23.
Theodoridis, S. and K. Koutroumbas. 1999. Pattern Recognition. Academic Press, New York.
Vermunt, J. K. and J. Magidson 2000. Latent class cluster analysis. Chapter B1 in Hagenaars and McCutcheon, eds., Advances in latent class models. Cambridge,
UK: Cambridge University Press. Related to Latent Gold software.
Wijayanti, A. 2002. Evaluasi Konsep Jarak dan Metode Penggerombolan untuk Data Biner. Skripsi. Jurusan Statistika. FMIPA. Institut Pertanian Bogor,
Bogor.
Zhang, T, R. Ramakrishnon and M. Livny. 1996. BIRCH: An Efficient data clustering method for very large databases. Proceeding of the ACM SIGMOD
Conference on Management of Data, 103-114, Montreal, Canada.
50
LAMPIRAN
51
Lampiran 1. Tahapan analisis TwoStep Cluster dengan SPSS
1. Penyiapan data. 2. Pilih Menu : AnalyzeClassifyTwoStep Cluster Gambar 1, maka akan muncul
kotak dialog Gambar 2.
Gambar 1 . Kotak dialog pemilihan metode TwoStep Cluster
Gambar 2 . Kotak dialog TwoStep Cluster
52
3. Pindahkan variabel yang akan digerombolkan ke kotak variabel sesuai dengan perlakuan yang diinginkan.
Gambar 3. Kotak dialog perlakuan variabel
4. Pada kotak DISTANCE MEASURE beri tanda log likelihood untuk pilihan