Deskripsi Data HASIL DAN PEMBAHASAN

Gambar 3 memperlihatkan bahwa sebaran data untuk masing-masing peubah tidak semuanya mempunyai pencilan. Gambar 3 juga memperlihatkan bahwa keragaman peubah X 15 lebih besar dari keragaman peubah lainnya, sedangkan peubah X 13 mempunyai keragaman yang paling kecil dibandingkan peubah lainnya. Tabel 2 Deskripsi data Afifi Sedangkan untuk memberikan gambaran data yang sudah distandarisasi, dapat dilihat pada gambar berikut: X16 X15 X14 X13 X12 X11 X10 X9 X8 X7 X6 X5 X4 X3 X2 X1 6 5 4 3 2 1 -1 -2 -3 D a ta Gambar 4 Boxplot data Afifi standarisasi Peubah Rata-Rata Standar Deviasi Min Max Age Height Sbp1 Map1 Heart1 Cardiac1 Ctime1 Urine1 Hgb1 Sbp2 Map2 Heart2 Cardiac2 Ctime2 Urine2 Hgb2 54.55 164.55 105.67 73.03 105.11 2.54 22.83 56.19 11.40 110.53 72.97 96.87 2.92 20.42 77.93 10.48 16.75 9.14 30.83 21.90 30.01 1.46 10.50 114.55 2.52 37.01 26.96 30.05 1.34 9.95 137.90 1.95 16 140 26 15 25 0.2 8 6.6 38 22 25 0.7 7 5.9 90 187 171 124 217 7.6 59 510 18.0 182 117 221 7.9 55 850 15.5 Gambar 4 memperlihatkan bahwa data yang sudah distandarisasi ini mempunyai variansi yang semua peubahnya cenderung relatif lebih homogen. Karena dalam penggerombolan menggunakan konsep jarak Euclid, dimana konsep jarak ini mengharuskan tidak adanya korelasi antar peubah, maka terlebih dahulu dilakukan Analisis Komponen Utama AKU, yang bertujuan untuk memperoleh peubah-peubah yang saling tidak berkorelasi. Hasil Analisis Komponen Utama disajikan pada tabel berikut: Tabel 3 Koefisien Komponen Utama 1 dan 2 Peubah Komponen Utama 1 Komponen Utama 2 X 1 -0.2055 0.1417 X 2 0.2239 0.0050 X 3 0.3371 0.1548 X 4 0.3376 0.2173 X 5 -0.0215 0.0765 X 6 0.1763 -0.3690 X 7 -0.2015 0.4052 X 8 0.2015 -0.9954 X 9 -0.0417 0.4142 X 10 0.3468 0.2050 X 11 0.3662 0.2304 X 12 0.2278 0.1716 X 13 0.3487 -0.2041 X 14 -0.3005 0.2095 X 15 0.1470 0.1334 X 16 0.0623 0.4391 Tabel 4 Akar ciri, proporsi keragaman, dan keragaman kumulatif KU Ke- Akar ciri Proporsi Keragaman Keragaman Kumulatif 1 4.1284 25.80 25.80 2 2.6764 16.73 42.53 3 1.5928 9.96 52.49 4 1.5928 8.05 60.54 5 1.2885 7.15 67.69 6 1.1445 6.78 74.48 7 1.0853 5.16 79.63 8 0.8249 4.57 84.20 9 0.7305 3.51 87.70 10 0.5608 3.11 90.81 11 0.4969 2.84 93.65 12 0.4543 2.42 96.07 13 0.3871 2.37 98.44 14 0.3787 0.85 99.2 15 0.0849 0.53 99.82 16 0.0287 0.18 100 Sebagai hasil pendekatan yang dilakukan oleh Analisis Komponen Utama pada tabel di atas, dapat dilihat bahwa hanya terdapat 7 komponen utama yang memiliki akar ciri lebih dari 1, ini berarti bahwa ketujuh komponen utama tersebut memberikan kontribusi keragaman yang besar, dan komponen utama yang memiliki akar ciri kurang dari 1 dianggap memiliki kontribusi keragaman yang kurang. Dari tabel di atas, dapat dilihat juga bahwa akar ciri pertama yang memiliki nilai sebesar 4.1284 menjelaskan bahwa komponen utama ke-1 dapat menerangkan keragaman data sebesar 25.80. Dengan cara yang sama untuk komponen utama selanjutnya sampai komponen ke 16 sebesar 2.87. Komponen utama ke 1 dan ke 2 memberikan kontribusi keragaman sebesar 25.80 dan 16.73 . Sehingga jika digunakan kedua komponen tersebut, secara kumulatif akan didapatkan keragaman total yang mampu dijelaskan keduanya adalah sebesar 42.53. Dan dari ketujuh komponen utama tersebut, secara kumulatif memiliki proporsi keragaman sebesar 79.63, ini berarti bahwa sudah mewakili keragaman total dari seluruh data. Jika digambarkan nilai kedua skor komponen utama di atas, akan didapatkan gambaran sebagai berikut: 5,0 2,5 0,0 - 2,5 - 5,0 4 3 2 1 - 1 - 2 - 3 - 4 - 5 Component 1 C o m p o n e n t 2 Gambar 5 Plot dua komponen utama pada data Afifi Gambar 5 memperlihatkan bahwa sebaran data Afifi ini tidak terlihat adanya penggerombolan yang jelas, karena terdapat penggerombolan yang saling tumpang tindih. Metode k-means Pembentukan pengelompokan pada metode k-means ini, diawali dengan menentukan jumlah gerombol yang diinginkan, dengan mengasumsikan inisial gerombol 1,…,k. Selanjutnya menentukan centroid awal secara random, yang kemudian menghitung ukuran jarak ke masing-masing objek ke centroid yang terdekat. Dengan meminimumkan fungsi objektifnya. Misalkan kasus ke i dari peubah ke j mempunyai nilai , , . Peubah-peubahnya diskalakan sehingga masalahnya dapat didekati dengan menggunakan jarak Euclid. Partisi PM,K dibuat dari cluster 1,2,…,K. Setiap kasus M dimasukkan ke dalam cluster K. Rata-rata dari peubah ke j melebihi kasus pada cluster ke l yang didefinisikan oleh Bl,j. Banyaknya kasus pada l adalah Nl. Jarak antara kasus ke i dan cluster ke l adalah Hartigan 1937: , , Error partisi adalah , , dimana li adalah cluster yang mengandung kasus ke i. Prosedur umum untuk mencari partisi dengan e kecil oleh perubahan kasus dari satu cluster ke cluster yang lain. Pencarian berakhir ketika nilai e tidak berubah. Langkah 1. Asumsikan inisial cluster 1,2,…, K. Hitung rata-rata cluster , , dan inisialisasi error , , dimana , ] didefinisikan jarak Euclid antara i dan rata-rata cluster yang mengandung i. Langkah2. Untuk kasus pertama, hitung setiap cluster L , , Pertambahan error pada pemindahan kasus pertama dari cluster akan termasuk ke cluster l. Jika minimum dari adalah negatif maka kasus pertama dari cluster l1 dipindahkan ke l minimal, dan tambahkan peningkatan ini pada error yang negatif ke , . Langkah 3. Ulangi Langkah 2 untuk kasus ke I . Langkah 4. Jika tidak ada perubahan dari satu cluster ke cluster lain, maka proses berhenti. Jika sebaliknya, kembali ke langkah 2. Metode Fuzzy k-means Pada penggerombolan dengan metode fuzzy k-means diawali dengan menentukan derajat keanggotaan secara acak setiap titik data terhadap cluster, yang kemudian menentukan titik pusat cluster yang berulang sampai berada pada wilayah penerimaan yang ditentukan. Algoritma fuzzy k-means ini bertujuan meminimumkan fungsi objektif dari jarak data yang berbobot pada cluster, yaitu , , dengan kendala ; untuk semua , … dan ; untuk semua , … µ , dengan: µ fungsi keanggotaan dari data x k pada cluster i, v i : centroid cluster ke I dv i ,x k : jarak antara centroid v i dan data x k . Parameter m 1 disebut juga index fuzzy. Untuk m → 1 cluster cenderung akan menjadi crisp. Sedangkan u ik → 1 atau u ik → 0 menghasilkan algoritma hard c-means. Untuk m → ∞, mempunyai u ik → 1c. Nilai m yang biasa digunakan adalah 2. Sedangkan pada algoritma fuzzy k-means ini terdapat beberapa hal yang harus diperhatikan dalam proses penggerombolan diantaranya inisialisasi terhadap nilai centroid awal, nilai pemangkatan atau m, iterasi maksimal dan nilai error terkecil yang diinginkan. Metode two step cluster Pada metode two step cluster ini bisa digunakan untuk mengolah data yang kriteria peubahnya kontinu, kategorik maupun yang campuran antara kontinu dan kategorik. Jika dalam kasus data terdapat pencilan maka ketika dibentuk CF-tree diperiksa apakah dapat dimasukkan dalam gerombol yang sudah terbentuk tanpa harus membentuk CF-tree baru. Untuk mendeteksi ada tidaknya pencilan maka dilakukan perhitungan jarak log-likelihood, jika terdapat jarak terbesar antar gerombol yang melebihi titik kritis C, yaitu: C = logV dengan: : range dari peubah kontinu ke-k L m : banyaknya kategori untuk peubah kategori ke -m Setiap titik pada CF-tree merepresentasikan objek cluster dan karakteristik nya didefinisikan sebagai 3-tuple . yaitu CF = N,LS,SS dengan N : banyaknya objek dalam cluster LS = ∑ = N i i X 1 SS = ∑ = N i i X 1 2 Metode two step cluster tidak dapat mendeteksi benar model tanpa solusi cluster. Pada penentuan keanggotaan cluster, setiap objek dimasukkan secara deterministik ke cluster terdekat sesuai dengan ukuran jarak yang digunakan. Karena metode twostep cluster dapat menyediakan solusi untuk kasus khusus peubah tipe campuran, maka pengguna harus memutuskan untuk menangani peubah ordinal sebagai kontinu atau sebagai kategori jika peubah campuran itu ada. Dalam penentuan banyaknya jumlah gerombol, tidak ada aturan baku yang digunakan, sehingga dapat ditentukan secara subjektif oleh peneliti. Dalam penelitian ini digunakan penggerombolan dengan 2, 3, dan 4 gerombol dalam menentukan jumlah gerombol yang ideal.

4.2 Penggerombolan dengan 2 gerombol

Untuk data ini terlebih dahulu ditransformasikan ke dalam bentuk baku sebab adanya perbedaan satuan pengukuran antar peubah. Data yang digunakan untuk pengelompokan ini adalah data yang mempunyai skala kontinu interval atau rasio, skala data ini merupakan persyaratan umum digunakannya teknik analisis cluster. Hasil pengelompokan dengan 2 gerombol untuk metode k-means, fuzzy k- means dan two step cluster dapat dilihat sebagai berikut : Tabel 5 Distribusi anggota 2 gerombol Tabel 5 memperlihatkan bahwa untuk metode k-means dan fuzzy k-means penyebaran anggota antara gerombol 1 dan gerombol 2 cenderung hampir sama. Sedangkan distribusi anggota two step cluster terlihat jauh berbeda bila dibandingkan dengan kedua metode tersebut. Selain kesesuaian metode dengan jumlah data yang digunakan, faktor yang menentukan hasil clustering ini adalah pemilihan threshold atau kriteria penghentian algoritma dari masing-masing metode. Nilai threshold ini secara langsung mempengaruhi jumlah cluster yang dibentuk. Jika nilai terlalu kecil maka tidak akan membentuk suatu cluster. Sebaliknya jika nilai terlalu besar maka cluster-cluster yang tepat akan diciptakan. Hasil perbandingan jumlah anggota yang identik dan besarnya persentasi misclustering antara metode k-means, fuzzy k-means, dan two step cluster dapat dilihat sebagai berikut: Metode k-means fuzzy k-means two step cluster Jumlah Persen Jumlah Persen Jumlah Persen Gerombol 1 55 51 56 52 4 3.8 Gerombol 2 53 49 52 48 104 96.2 Tabel 6 Persentasi misclustering 2 gerombol hasil antara k-means dengan fuzzy k-means Tabel 7 Persentasi misclustering 2 gerombol antara metode k-means dengan two step cluster Metode two step cluster G1= 104 G2= 4 k-means G n = 53 10 n = 0 G n = 51 92.7 n = 4 . Tabel 8 Persentasi misclustering 2 gerombol antara metode two step cluster dengan fuzzy k-means Metode two step cluster G1=104 G2= 4 fuzzy k-means G1= 56 n = 56 10 n = 0 G n = 48 . n = 4 . Berdasarkan tabel 6, 7, dan 8 di atas, untuk penggerombolan dengan 2 gerombol banyaknya anggota identik terbesar dimiliki oleh metode k-means dengan fuzzy k-means. Persentasi salah penggerombolan misclustering untuk kondisi pada tabel-tabel di atas terlihat bahwa untuk metode penggerombolan yang berbasis k-means terhadap fuzzy k-means memiliki persentasi salah Metode fuzzy k-means G1= 56 G2= 52 k-means G n = 53 n G n = 3 5.5 n = 52 94.5