View of PERBANDINGAN METODE MODEL-BASED DENGAN METODE K-MEAN DALAM ANALISIS CLUSTER

PERBANDINGAN METODE MODEL-BASED DENGAN METODE K-MEAN DALAM ANALISIS CLUSTER

Timbul Pardede (timbul@mail.ut.ac.id) Universitas Terbuka

ABSTRACT

K-mean method is a clustering method in which grouping techniques are based only on distance measure among observed objects, without considering statistical aspects. Model- based clustering is a method that use statistical aspects, as its theoretical basis i.e. probability maximum criterion. This model has several variations with a variety of geometrical characteristics obtained by mean Gauss component. Data partition is conducted by utilizing EM (expectation-maximization) algorithm. Then by using Bayesian Information Criterion (BIC) the best model is obtained. This research aimed to comparing result of grouping methods between model-based clustering and K-mean clustering. The results showed that model-based clustering was more effective in separating overlap groups than K- mean.

Keywords: BIC, EM algorithm, K-mean clustering method, model-based clustering method.

Analisis cluster merupakan suatu metode pengelompokan satuan objek pengamatan menjadi beberapa kelompok objek pengamatan berdasarkan peubah-peubah yang dimiliki. Analisis ini menjadikan objek-objek yang terletak dalam kelompok yang sama relatif lebih homogen dibandingkan dengan objek-objek pada kelompok yang berbeda.

Dewasa ini terdapat beberapa metode cluster yang dapat dikelompokkan berdasarkan algoritma proses yang dilakukan, yakni teknik yang berdasarkan ukuran jarak sebagai basis pengelompokannya. Metode berbasis ukuran jarak ini terdiri dari metode cluster berhierarki dengan penggabungan (agglomerative), antara lain metode Ward dan juga metode cluster tak berhierarki, misalnya metode K-mean (Anderberg 1973). Metode cluster ini memiliki teknik yang berbeda dalam proses pembentukan kelompok, namun teknik tersebut hanya memperhatikan ukuran jarak antar objek pengamatan. Metode-metode ini tidak mempertimbangkan aspek statistiknya, seperti sebaran datanya.

Metode model-based adalah suatu metode yang berbeda dengan metode cluster yang didasarkan pada ukuran jarak. Metode ini merupakan suatu algoritma cluster yang tergolong baru. Analisis ini dilakukan berdasarkan pada aspek statistik yaitu menggunakan kriteria kemungkinan maksimum dalam memutuskan hasil kelompoknya. Metode ini mempunyai beberapa model dengan berbagai macam sifat geometris yang diperoleh melalui komponen Gauss.

Dari metode-metode cluster yang telah diungkapkan di atas, tidak semua metode dapat digunakan untuk menganalisis data, khususnya apabila data pengamatannya cukup besar atau data pengamatannya merupakan data cluster yang saling tumpang tindih. Sering muncul pertanyaan mengenai “Berapa banyak cluster yang ada?”, “Metode cluster apa yang digunakan?”. Pengguna statistika seringkali melakukan dengan coba-coba (trial and error) untuk mendapatkan hasil yang bermakna atau yang dapat diinterpretasikan sesuai dengan masalah kajiannya (Siswadi & Suharjo,

Pardede, Perbandingan Metode Model-Based dengan Metode K-Mean dalam Analisis Cluster

1999). Hal ini sudah barang tentu akan menimbulkan subjektivitas pengguna statisitika dalam memutuskan hasil cluster tersebut. Oleh karena itu upaya membandingkan hasil pengelompokan metode model-based dengan metode cluster yang didasarkan pada ukuran jarak (metode K-mean) menjadi suatu hal yang perlu dan menarik untuk dikaji.

Berdasarkan permasalahan tersebut, tujuan penelitian ini adalah untuk membandingkan hasil pengelompokan metode model-based dengan metode K-mean dalam analisis cluster. Penelitian ini diharapkan dapat memberi rekomendasi yang tepat tentang metode cluster yang digunakan dalam pengelompokan data yang cenderung terdapat cluster yang saling tumpang tindih.

Metode Cluster K-Mean

Metode K-mean merupakan suatu metode cluster tak berhierarki, yaitu metode cluster yang menyekat objek pengamatan ke dalam k cluster. Metode ini pada umumnya diaplikasikan pada gugus data yang berukuran relatif besar.

Macqueen dalam Johnson dan Wichern (1998) menggambarkan algoritma cluster untuk menyeleksi n unit data ke dalam k cluster adalah berdasarkan kedekatan pusat (rataan) yang disusun dengan tahapan berikut ini.

1. Mengambil k unit data pertama yang digunakan sebagai k pusat cluster awal.

2. Menggabungkan setiap (n-k) data yang merupakan sisa anggota ke pusat cluster terdekat. Kemudian dihitung masing-masing pusat (rataan) cluster baru yang terbentuk dari hasil penggabungan.

3. Setelah semua data digabungkan pada tahap 2, pusat cluster yang terbentuk dijadikan sebuah titik pusat (rataan) cluster. Kemudian dilakukan penggabungan kembali dari setiap unit data ke dalam titik pusat terdekat. Suatu cluster yang konvergen diperoleh dengan memperbaiki secara berulang titik pusat cluster

yang terbentuk pada tahap ke-3 melalui penggabungan semua n data ke titik pusat terdekat. Cluster yang konvergen ditandai dengan adanya titik pusat yang tetap dan tidak ada lagi perubahan anggota di antara cluster.

Ukuran ketakmiripan antar objek pengamatan yang digunakan dalam analisis cluster adalah jarak antar objek. Jarak antar dua objek harus didefinisikan sedemikian rupa sehingga semakin pendek jarak antar dua objek, semakin kecil ketakmiripannya. Nilai ukuran ketakmiripan yang sering digunakan adalah jarak Euclid dan jarak Mahalanobis. Jarak Mahalanobis digunakan bila semua peubah saling berkorelasi atau tidak saling ortogonal, sebaliknya jarak Euclid digunakan bila antar peubah saling bebas atau saling ortogonal (Johnson & Wichern, 1998). Jarak Euclid antara objek ke-i

dan objek ke-j dengan p peubah didefinisikan dengan d ij     X ik  X jk   dan jarak

ij    x i  x j  S x i  x j   dengan S adalah matriks

- Mahalanobis didefinisikan dengan 1 d

kovariansi.

Metode Cluster Model-Based

Dalam metode model-based (Fraley & Raftery, 1998), diasumsikan bahwa data dibangkitkan oleh sebaran peluang campuran dengan setiap subpopulasi mewakili suatu cluster yang berbeda. Misalkan X 1 , X 2 ,..., X n adalah variabel acak multivariat (p-variat) dari suatu populasi, dengan p

Jurnal Matematika, Sains, dan Teknologi, Volume 8, Nomor 2, September 2007, 98-108

menyatakan dimensi data dan n menyatakan banyaknya objek pengamatan. Ke-n objek pengamatan

ini dianggap berasal dari campuran G subpopulasi G 1 , G 2 ,...., G g yang masing-masing terdiri atas n j

data dengan  n j  n .

Secara umum fungsi kepekatan peubah acak ganda ini dapat dinyatakan sebagai fungsi kepekatan campuran berhingga

f  x    π j f j  x θ ;   Ω (1)

dengan f j  x θ merupakan fungsi kepekatan j G , yaitu subpopulasi ke-j dengan vektor parameter

θ yang tidak diketahui dan π merupakan proporsi data yang berasal dari subpopulasi ke-j dengan j

'  ' π j  1 dan π j  0  j  1,2,....., g  , sedangkan    ,  adalah gugus semua parameter

dari fungsi kepekatan campuran yang berasal dari ruang parameter  (Mclachlan & Basford, 1988).

Dengan asumsi X 1 , X 2 ,.....X n bebas stokastik dan identik dengan fungsi kepekatan f j  x i θ j

merupakan fungsi kepekatan pengamatan x i dari cluster ke-j maka Fungsi kemungkinan sebaran campuran (mixture likelihood) pada persamaan (1) adalah:

L(  )    π j f j  x i θ j  (2)

Dalam penelitian ini difokuskan pada suatu kasus dengan f j  x i  j adalah fungsi kepekatan

peubah ganda campuran normal (Gauss) dengan parameter  terdiri dari vektor rataan j  dan j

matriks koragam  , yang dinyatakan dalam bentuk: j

exp   2  x i   j   j  x i   j  

Dalam Metode model-based, diasumsikan bahwa data dibangkitkan dengan fungsi kepekatan peubah ganda campuran. Data bangkitan tersebut dicirikan oleh cluster ellipsoidal yang terpusat pada rataan  (Fraley & Raftery, 1999). Karakteristik geometrik (bentuk (shape), volume, j

dan orientasi (orientation)) cluster dihitung dengan matriks koragam  yang diparameterisasikan j untuk menentukan batasan antar cluster.

Banfield & Raftery (1993) mengembangkan metode model-based dengan memparameterisasikan setiap matriks koragam melalui suku dekomposisi nilai ciri dalam bentuk :

'  j   j D j A j D j (4) dengan :

D j adalah matriks ortogonal dari vektor ciri, yang menjelaskan orientasi dari komponen ke-j,

Pardede, Perbandingan Metode Model-Based dengan Metode K-Mean dalam Analisis Cluster

A j adalah matriks diagonal dengan masing-masing unsurnya proporsional terhadap nilai ciri

dari  , yang menjelaskan bentuk, j

 adalah skalar yang menjelaskan volume. j Sebagai ilustrasi, model  j   I mempunyai volume sama dan semua cluster berbentuk

bola (spherical). Model '  j   DAD mempunyai ciri geometrik sama dan semua cluster berbentuk ellipsoidal. Model ' 

j   j D j A j D j mempunyai model tanpa batasan dengan setiap cluster mempunyai ciri geometrik yang berbeda. Tabel 1 menunjukkan matriks koragam  untuk model j campuran normal ganda dan interpretasi geometrik (Fraley & Raftery, 1999).

Tabel 1. Interpretasi geometrik dan parameterisasi matriks koragam  dalam model campuran j normal ganda.  j Volume

Bentuk Geometri

Orientasi

Tebaran Simbol Mclust

 I Sama

Sama

Spherical EI

 j I Berbeda

Sama

Spherical VI

 ' DAD Sama

Sama

Sama

Ellipsoidal EEE

 ' j D j A j D j Berbeda

Berbeda

Berbeda

Ellipsoidal VVV

 ' D j AD j Sama

Sama

Berbeda

Ellipsoidal EEV

 ' j D j AD j Berbeda

Sama

Berbeda

Ellipsoidal VEV

Penduga Kemungkinan Maksimum Model Campuran melalui Algorithma EM

Algoritma EM (Expectation- maximization) merupakan metode perhitungan iteratif terhadap masalah pendugaan kemungkinan maksimum parameter pada data tidak lengkap. Model data

i   x i ,z i , dimana z i   z i1 , z i2 ,...., z ig  merupakan vektor indikator yang didefinisikan

lengkap ' y

dengan :

z ij  

; i  1,..., n ; j  1,..., g (5)

lainnya .

Algoritma EM ini terdiri dari dua tahap yaitu tahap E untuk pendugaan dan tahap M untuk pemaksimuman. Dengan asumsi Z bebas dan identik menurut sebaran multinomial dengan peluang

1 ,  2 ,....,  g dan fungsi kepekatan x i dengan z i adalah  f j  x i θ j , maka fungsi

 ij

kemungkinan data lengkap (complete-data likelihood) adalah

Jurnal Matematika, Sains, dan Teknologi, Volume 8, Nomor 2, September 2007, 98-108

L ( θ,π,z x )    π j f j  x i θ j  atau fungsi log kemungkinan data lengkap (complete-data

g z ij

loglikelihood) adalah L ( θ,π,z x )   z ij  ln π j  ln f j  x i θ j  .

Jika f j  x i θ j merupakan model campuran sebaran normal ganda yaitu f j  x i θ j  f j ( x i  j ;  j ) ,

maka fungsi log kemungkinan data lengkap pada model campuran normal ganda adalah:

L ( θ,π,z x )   z ij  ln π j  ln f j ( x i  j ;  j )  (6)

dengan tahap E pada iterasi EM pada model campuran normal ganda diperoleh

z ij 

g ; i  1,..., n ; j  1,...,  g   (7)

z merupakan dugaan peluang akhir ij x i dalam kelompok ke-j. Penduga kemungkinan maksimum

untuk parameter θ dan j π diperoleh dengan memasukkan nilai j z ke dalam persamaan (6), yaitu ij

L ( θ,π,z x )   z ij  ln π j  ln f j ( x i  j ;  j )  .

Kemudian * L ( θ,π,z x ) dimaksimumkan dengan tahap M pada iterasi EM. Demikian proses iterasi ini berlangsung hingga diperoleh hasil iterasi yang konvergen. Tahapan pendugaan dan

pemaksimuman untuk kasus model campuran normal ganda diparameterisasikan melalui dekomposisi nilai ciri seperti pada persamaan (4).

Pemilihan Model Cluster dengan Faktor Bayes

Dalam aplikasi analisis cluster ada dua masalah yang dihadapi, yaitu pemilihan metode cluster dan memutuskan jumlah cluster. Untuk menangani kedua masalah ini dilakukan pendekatan model campuran melalui faktor Bayes (Bayes Factor). Salah satu keuntungan pendekatan model campuran dengan menggunakan pendekatan faktor Bayes adalah dapat membandingkan antar model. Sistematika pemilihan tidak hanya untuk parameterisasi model (metode cluster yang digunakan), tetapi juga banyaknya cluster.

Misalkan X adalah data pengamatan, M dan 1 M adalah dua model yang berbeda 2 dengan parameter masing-masing adalah  dan 1  . Integral atau marginal kemungkinan (Integral 2

or marginal likelihood) didefinisikan sebagai:

P  X M k   P  X  k , M k  P   k M k  d  k k= 1,2

dengan P   k M k  adalah sebaran awal  , dengan k  adalah parameter model k M. k

Pardede, Perbandingan Metode Model-Based dengan Metode K-Mean dalam Analisis Cluster

Faktor Bayes didefinisikan sebagai rasio dari integral kemungkinan dari kedua model, yakni

B 12 1  . Metode ini dikembangan secara umum untuk lebih dari dua model (Kass &

Kass & Raftery (1995) mengemukakan bahwa integral kemungkinannya dapat didekati dengan pendekatan faktor Bayes melalui algoritma EM (Ekspektasi-Maksimum). Pendekatan ini disebut BIC (Bayesian Information Criterion) dengan formulasi sebagai berikut.

2 ln P  X M   2 ln P

 X θ, k k   k V ln(n) BIC  k

dengan

PXM  k  : adalah integral kemungkinan untuk model M k

  M  P  X θ, k k  : adalah kemungkinan maksimum model campuran untuk model M k

V k : adalah banyaknya parameter bebas yang diduga pada model M k θ 

: adalah dugaan kemungkinan maksimum untuk parameter  pada model

M. k

Nilai BIC terbesar mengindikasikan bahwa model tersebut adalah model yang paling layak. Fraley & Raftery (1998) membuat strategi metode model-based dengan cara mengkombinasikan cluster berhierarki penggabungan, algoritma EM, dan faktor Bayes dengan langkah-langkah sebagai berikut.

1. Tentukan banyak cluster maksimum (m) dan himpunan model campuran ganda normal.

2. Lakukan cluster berhierarki penggabungan untuk setiap model campuran normal ganda. Hasil

cluster ini ditransformasi ke dalam peubah indikator pada persamaan (5), yang kemudian digunakan sebagai nilai awal untuk algoritma EM.

3. Lakukan algoritma EM untuk setiap model dan masing-masing banyak cluster 2, 3, …., m, yang

diawali dengan klassifikasi cluster berhierarki.

4. Hitung nilai BIC untuk kasus satu cluster pada setiap model dan untuk model kemungkinan campuran dengan parameter optimal dari algoritma EM untuk 2, 3, …., m cluster.

5. Plotkan nilai BIC untuk setiap model. Nilai BIC terbesar mengindikasikan bahwa model tersebut

adalah model yang paling layak.

METODOLOGI

Data yang digunakan dalam penelitian ini adalah data hasil simulasi, yang dibangkitkan dengan menggunakan perangkat lunak program Minitab 11.12. Data yang dibangkitkan terdiri dari 3 cluster dengan 3 peubah dan jumlah pengamatan tiap cluster yang dicobakan sebesar 50, 100 dan 150. Ketiga cluster yang akan dibangkitkan dibuat dalam 3 macam kondisi, (1) ketiga cluster saling terpisah, (2) satu cluster terpisah dan dua cluster tumpang tindih, dan (3) ketiga cluster saling tumpang tindih. Untuk membangkitkan banyaknya pengamatan yang tumpang tindih, maka dicobakan 3 jenis ukuran jarak antara dua nilai tengah (pusat) cluster, yang disesuaikan dengan jauh dekatnya jarak antara vektor rataan cluster. Untuk melihat pengaruh tingkat korelasi antara peubah terhadap hasil akhir cluster, dicobakan 3 tingkat korelasi, yaitu tingkat rendah (0.20), tingkat korelasi

Jurnal Matematika, Sains, dan Teknologi, Volume 8, Nomor 2, September 2007, 98-108

sedang (0.50) dan tingkat korelasi tinggi (0.80). Selain itu sebagai contoh penerapan untuk mendukung hasil penelitian ini, diambil data sekunder, yaitu data Iris yang banyak digunakan dalam buku teks statistika multivariat dan dalam paket program statistika seperti S-plus dan Minitab.

Prosedur analisis data dilakukan sebagai berikut.

1. Data hasil bangkitan, selanjutnya dilakukan analisis cluster dengan menggunakan paket program Splus 2000 untuk metode K-mean, sedangkan untuk metode model-based digunakan paket program Mclust dengan interface Splus 2000.

2. Bandingkan hasil cluster masing-masing metode dengan cluster yang sebenarnya (ditentukan saat simulasi).

3. Hitung persentase salah pengelompokan dari masing-masing metode, kemudian hasilnya dibandingkan.

4. Persentase salah pengelompokan yang terkecil menunjukkan bahwa metode yang digunakan lebih baik.

HASIL DAN PEMBAHASAN

Data yang dibangkitkan terdiri dari 81 kasus data simulasi dengan masing-masing kasus terdiri dari 3 cluster. Semua kasus data dibedakan atas kondisi pengelompokan, jarak antar pusat cluster, tingkat korelasi dan banyak data. Setiap kasus data digunakan sebagai data awal bagi masing-masing metode K-mean dan metode model-based.

Ketiga Cluster Saling Terpisah

Persentase salah pengelompokan untuk kondisi ketiga cluster saling terpisah diperoleh hasil yang sama besar pada kedua metode yang dibandingkan, yaitu 0%. Ini menunjukkan bahwa pengelompokan setiap metode sesuai dan tepat dengan pengelompokan yang sebenarnya (ditentukan saat simulasi). Hal ini disebabkan oleh ukuran jarak antar vektor rataan cluster yang relatif jauh dan variansi setiap peubah cenderung kecil sehingga objek pengamatan mengelompok di sekitar vektor rataannya (lihat Gambar 1). Persentase salah pengelompokan ini tidak terpengaruh terhadap banyak objek pengamatan tiap cluster, ketiga jarak antar pusat cluster dan juga tingkat korelasi antar peubah.

0.15 9 56 V3 53 66 96 79 52 74 85 55 86 94 21 71 68 40

- 20 - 10 0 10 20 - 20 0 20 - 40 - 20 0 20 40 1

V2 81 78 43 32

73 76 69 96 63 57 84 56 54 98 94 68 77 95 99 74 65 60 71 61 74 105 123 115 102 81 32 30 Comp. 2 0.0 55 58 95 84 106 113 134 114 135 128 132 0 Comp. 2 0.0 93 0 Comp. 2 0.0 11 40 12

100 93 48 34 29 83 117 10 49 50 42 110 135 126 129 115 139 105 144 138 102 119 150 104 124 143 123 V1

80 97 89 53 V1 -10 96 150 91 125 85 104 127

134 140 -20

-0.1 61 67 130 117 -0.10

-20 V3 111 109

- 0.1 0.0 0.1 -20 - 0.1 0.0 0.1 -0.15 - 0.15 - 0.10 - 0.05 0.0 0.05 0.10 0.15 -40

64 112 148 106 109 114 134 138 V1

C omp. 1

C omp. 1

C omp. 1

c. d jauh, tingkat korelasi rendah dan n=50

d dekat, tingkat korelasi rendah dan

b. d sedang, tingkat korelasi rendah dan

n=50

n=50

Gambar 1. Pola simulasi data untuk kondisi ketiga cluster saling terpisah dengan banyak objek pengamatan untuk tiap cluster sebesar n=50

Pardede, Perbandingan Metode Model-Based dengan Metode K-Mean dalam Analisis Cluster

Satu Cluster Terpisah dan Dua Cluster Tumpang Tindih

Pada Gambar 2 disajikan hasil plot dua komponen utama pertama dari kondisi pengelompokan satu cluster terpisah dan dua cluster tumpang tindih, tingkat korelasi rendah dengan banyak objek pengamatan tiap cluster sebesar 50 pengamatan.

- 60 - 40 - 20 020 40 60 - 60 - 40 - 20 020 40 60 - 60 - 40 - 20 020 40 0.2 60

112 132 105 104 135 116 134 102 131 V1 113 139 103 136 0.1 126 128 129 106 147 V1 116 101 117 138 142 114 112 110 121 108 148 139 109 132 146 0.1 109

Comp. 2 75 57 22 18 58 59 28 51 92 74 65 V2 99 41 9 66 76 14 13 94 19 34 46 32 50 16 30 Comp. 2 0.0 9 67 80 60 8 23 41 18 19 40 2 020 Comp. 2 0.0 36 13 20 32 15 0

92 75 86 63 90 91 83 78 51 79 67 64 61 100 56 34 16 25 57 37 5 42 52 39 24 47 29 19 55 2 90 100 89 61 64 84 62 73 55 74 98 99 66 58 43 -0.1 -20 81

33 42 64 15 35 45 6 12 4 49 37 38 43 26 36 25 47 40 39 31 11 3 27 91 1 V3 21 36

78 71 70 96 77 93 14 88 78 94 95 76 63 66 83 57 58 86 V2 53 59 91 84 87 75 90 43 59 87 88 65 96 68 70 72 41 10 99 94 82 51 -20 89

61 86 97 67 79 62 83 10 95 87 93 69 2 68 44 73 5 80 89 96 84 24 98 73 79 71 97 54 56 39 10 16 70 81 25 85 47 42 92 4 32 38 68 69 1 55 72 30 15 20 35 17 5 13 22 74 31 7 6 48 3 50 29 17 80 69 30 28 23 45 49 8 76 44 54 22 9 85 31 35 26 97 4 27 46 60 33 6 40 48 3 21 7 11 53 38 63 88 60 54 85 -20 62 12 1

72 8 82 -0.1 65 93 53 V2 52 82

45 28 49 V3 50 18 V3

-40 -0.1

-60 -0.2

- 0.2 - 0.1 0.0 0.1 0.2 - 0.2 - 0.1 0.0 0.1 0.2 - 0.1 0.0 0.1 0.2 C omp. 1

C omp. 1

C omp. 1

c. d jauh, tingkat korelasi rendah dan n=50

a. d dekat, tingkat korelasi rendah dan

b. d sedang, tingkat korelasi rendah dan

n=50

n=50

Gambar 2. Pola simulasi data untuk kondisi satu cluster terpisah dan dua cluster tumpang tindih dengan banyak objek pengamatan tiap cluster sebesar n=50

Persentase salah pengelompokan untuk kondisi ini diperoleh hasil seperti tercantum pada Tabel 2. Metode model-based memperoleh persentase salah pengelompokan terkecil dan bahkan jauh lebih kecil persentase pengelompokannya dibandingkan metode K-mean. Ditinjau dari jarak antar pusat cluster, terjadi penurunan salah pengelompokan dengan semakin jauh jarak antar pusat cluster untuk kedua metode cluster. Ditinjau dari tingkat korelasi antar peubah menunjukkan bahwa metode model-based terjadi penurunan persentase salah pengelompokan dari tingkat korelasi rendah ke tingkat korelasi tinggi, walaupun penurunan ini hampir tidak ada perbedaan yang berarti. Untuk banyak objek pengamatan tiap cluster sebesar 50 mempunyai pola persentase salah pengelompokan yang tidak jauh berbeda dengan objek pengamatan tiap cluster sebesar 100 dan 150.

Tabel 2. Persentase Salah Pengelompokan pada Kondisi Satu Cluster Terpisah dan Dua Cluster Saling Tumpang Tindih.

Tingkat Metode

Sedang Jauh Rendah

K-mean 54.67 49.33 12.67 56.00 50.33 15.33 54.44 49.78 13.56 Model-based

2.67 2.00 0.00 4.67 0.00 0.00 2.89 0.89 0.00 Sedang

K-mean 58.67 55.33 14.00 51.67 40.00 15.67 54.89 55.33 12.00 Model-based

2.00 0.00 0.00 1.67 0.00 0.00 0.89 0.00 0.00 Tinggi

K-mean 55.33 52.67 19.33 59.33 53.33 15.00 58.00 46.44 12.44 Model-based

Jurnal Matematika, Sains, dan Teknologi, Volume 8, Nomor 2, September 2007, 98-108

Hasil pengelompokan kedua metode cluster yang dibandingkan, menunjukkan bahwa metode model-based lebih efektif dalam memisahkan kelompok-kelompok pada kondisi satu cluster terpisah dan dua cluster tumpang tindih dibandingkan metode K-mean.

Ketiga Cluster Saling Tumpang Tindih

Persentase salah pengelompokan untuk kondisi ketiga cluster saling tumpang tindih disajikan pada Tabel 3. Metode model-based pada tingkat korelasi rendah dan tingkat korelasi sedang dengan ketiga jenis jarak yang dicobakan tidak mampu memisahkan kelompok-kelompok yang saling tumpang tindih. Hal ini mungkin disebabkan oleh objek-objek pengamatannya mengelompok pada satu cluster (lihat Gambar 3). Sehingga secara geometris dari 6 model dari metode model-based tidak mampu memisahkan cluster yang saling tumpang tindih. Bahkan metode model-based ini menganjurkan bahwa akan lebih efektif jika pengelompokannya dibagi dalam 2 atau

4 cluster.

117 40 79 0.2 104 82 74 94 40 34 19 17 74 99 52 111 91 V3 108 112 14 134 40 117 59 64 51 85 47 18 8 48

- 60 - 40 - 20 020 40 60 - 60 - 40 - 20 0 20 40 - 60 - 40 - 20 020 40 60

21 139 V2

55 26 35 46 78 60 5 73 72 V3 2 50 13 24 116 25 29 73 90 39 95 10 71 79 58 63 13 76 11 24 67 146 113 114 138 14 61 142 12 15 24 31 23 1 95 44 32 12 5 135 11 83 27 4 115 53 97 101 65 70 88 0.0 41 47

66 1 V2 84 49 121 129 5 60 15 64 144

Comp. 2 51 25 87 74

90 96 137 57 139 0 Comp. 2 0.0 120 141

16 140 124 13 135 42 39 10 Comp. 2 114 23 123 109

142 75 108 66 69 -20 -0.1

80 45 70 16 81 75 77 123 100 17 118 128 29 102 122 105 44 47 11 49 6 -20

94 73 122 88 31 149 -0.1 129 150 130 20 27 33 22 19 -0.1 112 V3 141 139 121 149 105 128

134 124 150 137 145 51 129 111 30 94 92 89 2 63 68 132 84 69 127 65 58 46 71 V1 108 16 79 126 50 69 67 115 7 122 40 120 126 148 117 78 67

-40 V2 61 131 -40

82 -0.2

-0.2 132 125 103 V1 -60 -0.2 - 0.2 - 0.1 0.0 0.1 0.2 -60 - 0.2 - 0.1 0.0 0.1 0.2 -60 - 0.2 - 0.1 0.0 0.1 0.2

C omp. 1

C omp. 1

C omp. 1

c. d jauh, tingkat korelasi rendah dan n=50 dan n=50

a. d dekat, tingkat korelasi rendah

b. d sedang, tingkat korelasi rendah

dan n=50

Gambar 3. Pola simulasi data untuk kondisi ketiga cluster saling tumpang tindih dengan banyak objek pengamatan untuk tiap cluster sebesar n=50

Hasil pengelompokan kedua metode yang dibandingkan menunjukkan bahwa metode model-based lebih efektif memisahkan cluster yang saling tumpang tindih apabila tingkat korelasi tinggi dan jarak antar pusat cluster relatif sedang dan jauh. Sebaliknya, apabila tingkat korelasi tinggi dengan jarak antar pusat cluster relatif dekat dan juga pada tingkat korelasi rendah dan sedang dengan jarak antar pusat cluster dekat, sedang dan jauh, kedua metode yang dibandingkan tidak efektif dalam memisahkan cluster yang tumpang tindih.

Tabel 3. Persentase salah pengelompokan pada kondisi ketiga cluster saling tumpang tindih

n=150 Tingkat Metode

n=50

n=100

Jarak Korelasi

Jarak

Jarak

Sedang Jauh Rendah

K-mean 49.33 46.67 23.33 56.67 47.00 25.33 53.78 40.44 27.56 Model-based

52.67 53.33 24.67 64.00 55.00 31.00 58.67 52.89 22.67 Sedang

K-mean 58.00 50.00 44.00 62.33 52.33 41.33 60.67 51.78 48.44 Model-based

64.67 60.00 43.33 62.67 60.33 16.00 64.89 25.11 14.00 Tinggi

K-mean 64.00 62.00 52.00 64.67 63.00 60.67 65.11 60.22 55.56 Model-based

Pardede, Perbandingan Metode Model-Based dengan Metode K-Mean dalam Analisis Cluster

Data Iris

Data Iris merupakan contoh klasik yang sering digunakan dalam buku-buku teks statistik untuk mengilustrasikan masalah pengelompokan data. Data Iris ini adalah sejenis bunga yang terdiri dari 4 peubah yaitu, Panjang Petal (PP), Lebar Petal (LP), Panjang Sepal (PS) dan Lebar Sepal (LS). Masing-masing peubah terdiri dari 150 pengamatan, setiap ukuran peubah terbagi atas tiga spesies yaitu Iris Setosa (IS), Iris Versicolor (IC), dan Iris Virginica (IV) yang masing-masing terdiri dari 50 pengamatan.

- 20 - 10 0 10 20

79 64 74 139 127 71 105 101 Comp. 2 128 134

42 54 58 -10 94

-0.2 - 0.2 - 0.1 0.0 0.1 0.2 -20

C omp. 1

Gambar 4. Plot dua komponen utama pertama pada data Iris

Berdasarkan hasil plot dua komponen utama pertama (lihat Gambar 4) dapat digunakan sebagai petunjuk awal bahwa spesies IS terpisah dari kedua spesies lainnya. Ilustrasi data Iris ini dapat mewakili kondisi satu cluster terpisah dan dua cluster tumpang tindih.

Dari Tabel 4 terlihat bahwa untuk kelompok IC, metode model-based memperoleh 5 amatan masuk dalam kelompok IV, yang seharusnya masuk dalam kelompok IC, sementara untuk metode K-mean memperoleh salah pengelompokan sebesar 2 amatan masuk dalam kelompok IV, yang seharusnya masuk dalam kelompok IC. Untuk kelompok IV, metode model-based dapat memisahkan dengan tepat kelompok IV dari dua kelompok lainnya, sedangkan untuk metode K- mean memperoleh salah pengelompokan yang cukup besar, yaitu sebesar 14 amatan masuk dalam kelompok IC.

Tabel 4. Hasil pengelompokan data Iris menjadi 3 cluster dan persentase salah pengelompokannya.

Salah pengelompokan K-mean

Metode cluster IS (50,0,0)

5 (3.33%) Ket.: (50,0,0) : 50 masuk kelompok IS, 0 masuk kelompok IC dan 0 masuk kelompok IV

Salah pengelompokan terkecil terjadi pada metode pengelompokan model-based sebesar 3.33% (5 pengamatan), sementara persentase salah pengelompokan metode K-mean sebesar 10.67% (16 pengamatan).

Jurnal Matematika, Sains, dan Teknologi, Volume 8, Nomor 2, September 2007, 98-108

Salah pengelompokan yang terjadi disini hanya melibatkan spesies IC dan IV, sementara untuk spesies IS tidak terpengaruh untuk kedua metode yang dicobakan. Hal ini disebabkan oleh cukup dekatnya jarak antar pusat cluster spesies IC dengan spesies IV, sehingga menyebabkan spesies IS memang benar-benar terpisah dari dua spesies lainnya.

KESIMPULAN

Hasil penelitian ini menunjukkan bahwa secara umum metode model-based lebih efektif memisahkan cluster yang saling tumpang tindih dibandingkan dengan metode K-mean. Dalam hal untuk data lapangan yang cenderung terdapat cluster yang saling tumpang tindih disarankan menggunakan metode model-based.

REFERENSI

Anderberg, M.R. (1973). Cluster analysis for applications, New York: Academic Press. Banfield, J.D. & Raftery, A.E. (1993). Model-based Gaussian and non-Gaussian clustering.

Biometrics, 49, 803-821. Fraley, C. & Raftery, A.E. (1998). How many clusters? Which clustering method? Answers via model- based cluster analysis. The Computer Journal, 41, 578-588. Fraley, C. & Raftery, A.E. (1999). MCLUST: Software for model-based clustering analysis. Journal of Classifications, 16, 297-306. Johnson, R.A. & Wichern, D.W. (1998). Applied multivariate statistical analysis, 4 th Edition. New Jersey: Prentice-Hall. Kass, R.E. & Raftery, A.E. (1995). Bayes Factor. Journal of the American Statistical Association, 90, 773-795. Mclachlan, G.J. & Basford, K.E. (1988). Mixture models: Inference and applications to clustering, New York: Marcel Dekker. Siswadi & Suharjo, B. (1999). Analisis eksplorasi data peubah ganda. Bogor: Jurusan Matematika FMIPA IPB. Bogor.

Dokumen yang terkait

PENENTUAN OPERATOR KARTU SELULER TERBAIK MENGGUNAKAN METODE AHP(ANALITYCAL HIERARCHY PROCESS) Rizaldi, M.Kom Sekolah Tinggi Manajemen Informatika Komputer Royal Kisaran, Asahan e-mail : rizaldipilianggmail.com Abstrak - PENENTUAN OPERATOR KARTU SELULER TE

0 0 7

SISTEM PENDUKUNG KEPUTUSAN UNTUK MENENTUKAN KUALITAS STASIUN TELEVISI SEBAGAI KONSUMSI TERBAIK BAGI MASYARAKAT DENGAN MENGGUNAKAN METODE AHP

0 1 6

SISTEM PENDUKUNG KEPUTUSAN PENENTUAN PENERIMAAN RASKIN DI MENGGUNAKAN METODE TOPSIS Masitah Handayani, M.Kom Sekolah Tinggi Manajemen Informatika Komputer Royal Kisaran, Asahan E-mail : masitah_handayanigmail.com Abstrak - SISTEM PENDUKUNG KEPUTUSAN PENEN

0 0 8

SISTEM PENDUKUNG KEPUTUSAN DATA ALUMNI SARJANA KOMPUTER MENGGUNAKAN METODE INFERENSI MAMDANI BERBASIS MATLAB

0 0 9

ANALISIS RULE INFERENSI FUZZY MAMDANI DALAM MENENTUKAN IPK AKHIR

0 0 9

IMPLEMENTASI KRIPTOGRAFI VIGENERE CIPHER DENGAN PHP Muhammad Dedi Irawan Program Studi Teknik Informatika, Universitas Asahan, Jl. Jend. Ahmad Yani Kisaran 21244, Sumatera Utara, Telp : (0623) 347222 Abstrak - IMPLEMENTASI KRIPTOGRAFI VIGENERE CIPHER DENG

0 2 12

IMPLEMENTASI KRIPTOGRAFI RSA DENGAN PHP Muhammad Yasin Simargolang Program Studi Teknik Informatika, Universitas Asahan, Jl. Jend. Ahmad Yani Kisaran 21244, Sumatera Utara, Telp : (0623) 347222 Abstrak - IMPLEMENTASI KRIPTOGRAFI RSA DENGAN PHP

0 1 11

View of KUALITAS TANAH, AIR TANAH, DAN VEGETASI PADA LAHAN REKLAMASI PANTAI MUTIARA, JAKARTA UTARA

0 0 13

View of ESTIMASI NILAI PENURUNAN KESEHATAN AKIBAT POLUSI GAS NOX DI UDARA DKI JAKARTA

0 0 17

View of KAJIAN TENTANG PENGARUH TWO STAGE CLUSTER SAMPLING TERHADAP STATISTIK UJI-F

0 0 9