Deskripsi Data HASIL DAN PEMBAHASAN
Gambar 3 memperlihatkan bahwa sebaran data untuk masing-masing peubah tidak semuanya mempunyai pencilan.
Gambar 3 juga memperlihatkan bahwa keragaman peubah X
15
lebih besar dari keragaman peubah lainnya, sedangkan peubah X
13
mempunyai keragaman yang paling kecil dibandingkan peubah lainnya.
Tabel 2 Deskripsi data Afifi
Sedangkan untuk memberikan gambaran data yang sudah distandarisasi, dapat dilihat pada gambar berikut:
X16 X15
X14 X13
X12 X11
X10 X9
X8 X7
X6 X5
X4 X3
X2 X1
6 5
4 3
2 1
-1 -2
-3
D a
ta
Gambar 4 Boxplot data Afifi standarisasi
Peubah Rata-Rata
Standar Deviasi Min
Max Age
Height Sbp1
Map1 Heart1
Cardiac1 Ctime1
Urine1 Hgb1
Sbp2 Map2
Heart2 Cardiac2
Ctime2 Urine2
Hgb2 54.55
164.55 105.67
73.03 105.11
2.54 22.83
56.19 11.40
110.53 72.97
96.87 2.92
20.42 77.93
10.48 16.75
9.14 30.83
21.90 30.01
1.46 10.50
114.55 2.52
37.01 26.96
30.05 1.34
9.95 137.90
1.95 16
140 26
15 25
0.2 8
6.6 38
22 25
0.7 7
5.9 90
187 171
124 217
7.6 59
510 18.0
182 117
221 7.9
55 850
15.5
Gambar 4 memperlihatkan bahwa data yang sudah distandarisasi ini mempunyai variansi yang semua peubahnya cenderung relatif lebih homogen.
Karena dalam penggerombolan menggunakan konsep jarak Euclid, dimana konsep jarak ini mengharuskan tidak adanya korelasi antar peubah, maka terlebih
dahulu dilakukan Analisis Komponen Utama AKU, yang bertujuan untuk memperoleh peubah-peubah yang saling tidak berkorelasi. Hasil Analisis
Komponen Utama disajikan pada tabel berikut: Tabel 3 Koefisien Komponen Utama 1 dan 2
Peubah Komponen Utama 1
Komponen Utama 2 X
1
-0.2055 0.1417 X
2
0.2239 0.0050
X
3
0.3371 0.1548 X
4
0.3376 0.2173 X
5
-0.0215 0.0765 X
6
0.1763 -0.3690
X
7
-0.2015 0.4052 X
8
0.2015 -0.9954 X
9
-0.0417 0.4142 X
10
0.3468 0.2050 X
11
0.3662 0.2304 X
12
0.2278 0.1716 X
13
0.3487 -0.2041
X
14
-0.3005 0.2095 X
15
0.1470 0.1334 X
16
0.0623 0.4391
Tabel 4 Akar ciri, proporsi keragaman, dan keragaman kumulatif
KU Ke- Akar ciri Proporsi Keragaman Keragaman Kumulatif
1 4.1284
25.80 25.80
2 2.6764
16.73 42.53
3 1.5928
9.96 52.49
4 1.5928
8.05 60.54
5 1.2885
7.15 67.69
6 1.1445
6.78 74.48
7 1.0853
5.16 79.63
8 0.8249
4.57 84.20
9 0.7305
3.51 87.70
10 0.5608
3.11 90.81
11 0.4969
2.84 93.65
12 0.4543
2.42 96.07
13 0.3871
2.37 98.44
14 0.3787
0.85 99.2
15 0.0849
0.53 99.82
16 0.0287
0.18 100
Sebagai hasil pendekatan yang dilakukan oleh Analisis Komponen Utama pada tabel di atas, dapat dilihat bahwa hanya terdapat 7 komponen utama yang
memiliki akar ciri lebih dari 1, ini berarti bahwa ketujuh komponen utama tersebut memberikan kontribusi keragaman yang besar, dan komponen utama
yang memiliki akar ciri kurang dari 1 dianggap memiliki kontribusi keragaman yang kurang. Dari tabel di atas, dapat dilihat juga bahwa akar ciri pertama yang
memiliki nilai sebesar 4.1284 menjelaskan bahwa komponen utama ke-1 dapat menerangkan keragaman data sebesar 25.80. Dengan cara yang sama untuk
komponen utama selanjutnya sampai komponen ke 16 sebesar 2.87. Komponen utama ke 1 dan ke 2 memberikan kontribusi keragaman sebesar 25.80 dan
16.73 . Sehingga jika digunakan kedua komponen tersebut, secara kumulatif akan didapatkan keragaman total yang mampu dijelaskan keduanya adalah sebesar
42.53. Dan dari ketujuh komponen utama tersebut, secara kumulatif memiliki proporsi keragaman sebesar 79.63, ini berarti bahwa sudah mewakili keragaman
total dari seluruh data. Jika digambarkan nilai kedua skor komponen utama di atas, akan
didapatkan gambaran sebagai berikut:
5,0 2,5
0,0 - 2,5
- 5,0 4
3 2
1 - 1
- 2 - 3
- 4 - 5
Component 1 C
o m
p o
n e
n t
2
Gambar 5 Plot dua komponen utama pada data Afifi Gambar 5 memperlihatkan bahwa sebaran data Afifi ini tidak terlihat adanya
penggerombolan yang jelas, karena terdapat penggerombolan yang saling tumpang tindih.
Metode k-means
Pembentukan pengelompokan pada metode k-means ini, diawali dengan menentukan jumlah gerombol yang diinginkan, dengan mengasumsikan inisial
gerombol 1,…,k. Selanjutnya menentukan centroid awal secara random, yang kemudian menghitung ukuran jarak ke masing-masing objek ke centroid yang
terdekat. Dengan meminimumkan fungsi objektifnya. Misalkan kasus ke i dari peubah ke j mempunyai nilai
, ,
. Peubah-peubahnya diskalakan sehingga masalahnya dapat didekati dengan menggunakan jarak
Euclid. Partisi PM,K dibuat dari cluster 1,2,…,K. Setiap kasus M dimasukkan ke dalam cluster K. Rata-rata dari peubah ke j melebihi kasus pada cluster ke l yang
didefinisikan oleh Bl,j. Banyaknya kasus pada l adalah Nl. Jarak antara kasus ke i dan cluster ke l adalah Hartigan 1937:
, ,
Error partisi adalah ,
,
dimana li adalah cluster yang mengandung kasus ke i. Prosedur umum untuk mencari partisi dengan e kecil oleh perubahan kasus dari satu cluster ke cluster
yang lain. Pencarian berakhir ketika nilai e tidak berubah. Langkah 1. Asumsikan inisial cluster 1,2,…, K. Hitung rata-rata cluster
, ,
dan inisialisasi error ,
,
dimana ,
] didefinisikan jarak Euclid antara i dan rata-rata cluster yang mengandung i.
Langkah2. Untuk kasus pertama, hitung setiap cluster L ,
,
Pertambahan error pada pemindahan kasus pertama dari cluster akan
termasuk ke cluster l.
Jika minimum dari adalah negatif maka kasus
pertama dari cluster l1 dipindahkan ke l minimal, dan tambahkan peningkatan ini pada error yang negatif ke
, .
Langkah 3. Ulangi Langkah 2 untuk kasus ke I .
Langkah 4. Jika tidak ada perubahan dari satu cluster ke cluster lain, maka proses berhenti. Jika sebaliknya, kembali ke langkah 2.
Metode Fuzzy k-means
Pada penggerombolan dengan metode fuzzy k-means diawali dengan menentukan derajat keanggotaan secara acak setiap titik data terhadap cluster,
yang kemudian menentukan titik pusat cluster yang berulang sampai berada pada wilayah penerimaan yang ditentukan. Algoritma fuzzy k-means ini bertujuan
meminimumkan fungsi objektif dari jarak data yang berbobot pada cluster, yaitu ,
, dengan kendala
; untuk semua , …
dan ; untuk semua
, …
µ ,
dengan: µ
fungsi keanggotaan dari data x
k
pada cluster i, v
i
: centroid cluster ke I dv
i
,x
k
: jarak antara centroid v
i
dan data x
k
. Parameter m 1 disebut juga index fuzzy. Untuk m
→ 1 cluster cenderung akan menjadi crisp. Sedangkan u
ik
→ 1 atau u
ik
→ 0 menghasilkan algoritma hard c-means. Untuk m
→ ∞, mempunyai u
ik
→ 1c. Nilai m yang biasa digunakan adalah 2.
Sedangkan pada algoritma fuzzy k-means ini terdapat beberapa hal yang harus diperhatikan dalam proses penggerombolan diantaranya inisialisasi terhadap
nilai centroid awal, nilai pemangkatan atau m, iterasi maksimal dan nilai error terkecil yang diinginkan.
Metode two step cluster
Pada metode two step cluster ini bisa digunakan untuk mengolah data yang kriteria peubahnya kontinu, kategorik maupun yang campuran antara kontinu dan
kategorik. Jika dalam kasus data terdapat pencilan maka ketika dibentuk CF-tree diperiksa apakah dapat dimasukkan dalam gerombol yang sudah terbentuk tanpa
harus membentuk CF-tree baru. Untuk mendeteksi ada tidaknya pencilan maka dilakukan perhitungan jarak log-likelihood, jika terdapat jarak terbesar antar
gerombol yang melebihi titik kritis C, yaitu: C = logV
dengan:
: range dari peubah kontinu ke-k L
m
: banyaknya kategori untuk peubah kategori ke -m Setiap titik pada CF-tree merepresentasikan objek cluster dan karakteristik
nya didefinisikan sebagai 3-tuple . yaitu CF = N,LS,SS
dengan N : banyaknya objek dalam cluster
LS =
∑
= N
i i
X
1
SS =
∑
= N
i i
X
1 2
Metode two step cluster tidak dapat mendeteksi benar model tanpa solusi cluster. Pada penentuan keanggotaan cluster, setiap objek dimasukkan secara
deterministik ke cluster terdekat sesuai dengan ukuran jarak yang digunakan. Karena metode twostep cluster dapat menyediakan solusi untuk kasus khusus
peubah tipe campuran, maka pengguna harus memutuskan untuk menangani
peubah ordinal sebagai kontinu atau sebagai kategori jika peubah campuran itu ada.
Dalam penentuan banyaknya jumlah gerombol, tidak ada aturan baku yang digunakan, sehingga dapat ditentukan secara subjektif oleh peneliti. Dalam
penelitian ini digunakan penggerombolan dengan 2, 3, dan 4 gerombol dalam menentukan jumlah gerombol yang ideal.