Model Based Analysis Cluster Study in Normal Distribution Multivariate Data

KAJIAN ANALISIS GEROMBOL BERBASIS MODEL
PADA DATA YANG MENYEBAR NORMAL GANDA

INDAH RATIH ANGGRIYANI

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
2011

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI
Dengan ini saya menyatakan bahwa tesis Kajian Analisis Gerombol Berbasis
pada Data yang Menyebar Normal Ganda, adalah karya saya dengan arahan dari
komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan
tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang
diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks
dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Bogor, Agustus 2011

Indah Ratih Anggriyani

G151090021

ABSTRACT
INDAH RATIH ANGGRIYANI. Model Based Analysis Cluster Study in Normal
Distribution Multivariate Data. Under direction of KUSMAN SADIK, and
UTAMI DYAH SAFITRI
Cluster analysis is data method classify objects into groups based on
similarity or dissimilarity. One of approach is model based clustering. The
assumptions used is the data derived from a mixture of two or more distribution
probability with certain proportions. The final cluster is determined by BIC. The
object of each cluster were obtained by EM algorithm. This study aims to assess
the effectiveness of the model based clustering on the data are from multivariate
normal distribution. Effectiveness would include the percentage of classification
errors produced at a several distance, comparing with the k-means, and their
application. If the distance between the center of a large and diverse cluster each
different variables, then averaging the resulting classification error rate small.
generally model based to cluster is more effective than the method of k-means.
The MAP was better than the MLE since it can overcome the singularity problem,
the rest same as MLE.
Keywords: cluster analysis, mixture model, BIC, EM algorithma, maximum

likelihood, conjugate prior, posterior mode

RINGKASAN
INDAH RATIH ANGGRIYANI. Kajian Analisis Gerombol Berbasis Model pada
Data yang Menyebar Normal Ganda. Dibimbing oleh KUSMAN SADIK dan
UTAMI DYAH SAFITRI
Analisis gerombol merupakan suatu metode penggerombolan yang
bertujuan untuk mengelompokkan objek ke dalam beberapa kelompok sedemikian
hingga objek yang berada di dalam kelompok yang sama cenderung mempunyai
karakteristik yang lebih homogen dari pada objek yang berada di kelompok yang
berbeda. Hal ini dilakukan dengan suatu ukuran jarak seperti jarak euclidean.
Pengukuran kemiripan antar objek dengan menggunakan jarak akan sangat sulit
dilakukan jika ukuran data yang digunakan sangat besar dan kondisi objek yang
ada saling tumpang tindih.
Dengan memperhatikan sebaran dari data yang digunakan untuk
penggerombolan, Mclachlan dan Basford (1988) memberikan suatu pendekatan
terbaru dalam analisis gerombol yaitu penggerombolan berbasis model campuran.
Metode ini mengasumsikan bahwa sebaran data yang digunakan adalah sebaran
campuran dengan setiap subpopulasi mewakili suatu gerombol yang berbeda.
Tujuan dari metode ini adalah untuk mengoptimalkan kemiripan antar objek

dengan menggunakan pendekatan model peluang. Tehnik perpindahan objek
berdasarkan pada algoritma Expectation Maximization (EM) dan penentuan
jumlah gerombol ditentukan berdasarkan nilai Bayes Information Criterion (BIC)
terbesar. Penggunaan algoritma EM dalam pendugaan parameternya dikarenakan
algoritma tersebut merupakan metode perhitungan iterasi yang sangat cocok untuk
pendugaan parameter dari fungsi kemungkinan pada data tidak lengkap seperti
yang terdapat pada sebaran campuran.
Sama halnya dengan metode penggerombolan lainnya, metode
penggerombolan berbasis model dilakukan untuk mengetahui jumlah gerombol
maupun anggota tiap gerombol. Dengan demikian, efektifitas dari metode ini
dibandingkan dengan metode berdasarkan ukuran jarak adalah suatu hal yang
sangat penting untuk diketahui. Tujuan dari penelitian ini yaitu mengkaji
efektifitas analisis gerombol berbasis model yang meliputi efektifitas pada
beberapa kondisi jarak antar pusat gerombol, perbandingan dengan metode klasik
atau k-rataan serta efektifitas analisis penggerombolan berbasis model
berdasarkan maximum likelihood (MLE) dan maximum posterior (MAP) pada
beberapa contoh penerapan. Perbandingan dengan metode klasik atau k-rataan,
keefektifannya dapat dikethaui dengan menghitung persentase rataan tingkat
kesalahan klasifikasi yang dihasilkan, sedangkan efektifitas MLE dan MAP dapat
diketahui berdasarkan persentase rataan tingkat kesalahan klasifikasi serta nilai

BIC yang dihasilkan.
Data yang digunakan dalam penelitian ini adalah hasil simulasi dan data
dari paket Mclust ver 3.4.8 pada R 2.12.1. Data simulasi yang dibangkitkan
merupakan data himpunan campuran normal ganda dengan kondisi titik pusat
gerombol, ragam dan tingkat korelasi antar peubah yang beragam.

Hasil simulasi menunjukkan bahwa semakin jauh jarak antar pusat
gerombol, jika ragam setiap peubah untuk setiap gerombol kecil maupun berbeda
maka tingkat kesalahan klasifikasi yang dihasilkan semakin kecil. Jika kondisi
ragam setiap peubah untuk setiap gerombol sama dan berukuran besar, maka nilai
korelasi berpengaruh terhadap hasil akhir penggerombolan. Nilai korelasi lebih
dari 0,5 (
) memberikan tingkat kesalahan klasifikasi yang kecil. Jika
dilakukan perbandingan dengan metode k-rataan, kedua metode ini memberikan
efektifitas yang sama pada kondisi ragam setiap peubah untuk setiap gerombol
kecil. Pada kondisi ragam setiap peubah untuk setiap gerombol sama dan besar, krataan menghasilkan efektifitas terbaik pada kondisi nilai korelasi kecil. Kondisi
ragam setiap peubah untuk setiap gerombol berbeda, penggerombolan berbasis
model menghasilkan efektifitas yang lebih baik dibandingkan dengan metode krataan. Tingkat kesalahan klasifikasi yang dihasilkan berdasarkan metode
kemungkinan maksimum dan metode Bayes tidak berbeda jauh. Munculnya
singularitas untuk matriks peragam dapat diatasi dengan menggunakan metode

Bayes.
Kata kunci: analisis gerombol, model campuran, BIC, algoritma EM, maksimum
likelihood, konjugasi sebaran awal

© Hak Cipta milik IPB, tahun 2011
Hak Cipta dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
yang wajar IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis
dalam bentuk apa pun tanpa izin IPB

KAJIAN ANALISIS GEROMBOL BERBASIS MODEL
PADA DATA YANG MENYEBAR NORMAL GANDA

INDAH RATIH ANGGRIYANI

Tesis

Sebagai salah satu syarat untuk memperoleh gelar
Magister Sains pada
Program Studi Statistika

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2011

Penguji Luar Komisi pada Ujian Tesis : Dr. Ir. Erfiani, M.Si

Judul Tesis
Nama
NIM

: Kajian Analisis Gerombol Berbasis Model pada Data yang
Menyebar Normal Ganda
: Indah Ratih Anggriyani
: G151090021


Disetujui
Komisi Pembimbing

Dr. Kusman Sadik, M.Si
Ketua

Utami Dyah Syafitri, S.Si, M.Si
Anggota

Diketahui ,
Ketua Program Studi Statistika

Dekan Sekolah Pascasarjana

Dr. Ir. Erfiani, M.Si

Dr. Ir. Dahrul Syah, M.Sc. Agr

Tanggal Ujian : 18 Agustus 2011


Tanggal Lulus :

PRAKATA
Alhamdulillah, puji dan syukur penulis panjatkan kepada Allah SWT atas
segala rahmat dan karunia-Nya, sehingga karya ilmiah ini berhasil diselesaikan.
Tema yang dipilih dalam penelitian ini adalah analisis gerombol, dengan judul
“Kajian Analisis Gerombol Berbasis Model pada Data yang Menyebar Normal
Ganda ”.
Terima kasih penulis ucapkan kepada Bapak Dr. Kusman Sadik, M.Si
selaku pembimbing I dan Ibu Utami Dyah Syafitri, S.Si, M.Si selaku pembimbing
II, yang telah memberikan bimbingan, kesabaran dan waktunya sehingga penulis
bisa menyelesaikan penelitian ini. Terima kasih juga penulis sampaikan kepada
Ibu Dr. Ir. Erfiani, M.Si selaku penguji luar komisi pada ujian tesis, dan seluruh
staf Program Studi Statistika.
Ucapan terimakasih juga penulis sampaikan kepada suami, orang tua dan
seluruh keluarga atas do’a dukungan, dan kasih sayangnya yang tiada terputus.
Terimakasih kepada Ula Susilawati, S.Si, teman-teman Statistika angkatan 2009
serta keluarga besar Statistika yang tidak dapat penulis sebutkan satu per satu atas
diskusi dan motivasi yang diberikan kepada penulis.
Semoga Allah SWT membalas segala kebaikan yang telah diberikan kepada

penulis, dan semoga karya ilmiah ini bermanfaat.

Bogor, Januari 2011
Indah Ratih Anggriyani

RIWAYAT HIDUP
Penulis dilahirkan di Manokwari, pada tanggal 28 Januari 1984 sebagai
anak tunggal dari pasangan Bapak Indah Suat dan Ibu Haryani
Penulis menyelesaikan Sekolah Dasar pada tahun 1995 di SDN Arfai I
Manokwari, kemudian melanjutkan studi di SLTP Negeri 2 Manokwari hingga
tahun 1998. Selanjutnya penulis menyelesaikan Sekolah Menengah Umum hingga
tahun 2001 di SMU Negeri 2 Manokwari. Pada tahun yang sama, melalui SLSB
penulis melanjutkan perkuliahan di Universitas Cenderawasih – Jayapura pada
Jurusan Matematika FMIPA. Tahun 2005 penulis menyelesaikan kuliah dan pada
tahun 2006 diterima sebagai staf pengajar di Jurusan Matematika dan Statistika,
Universitas Negeri Papua – Manokwari. Pada tahun 2009 penulis diterima di
Program Studi Statistika Pascasarjana Institut Pertanian Bogor.

DAFTAR ISI
Halaman

DAFTAR TABEL ........................................................................................... xiii
DAFTAR GAMBAR ....................................................................................... xiv
DAFTAR LAMPIRAN ................................................................................... xvi
PENDAHULUAN
Latar Belakang .......................................................................................
Tujuan ....................................................................................................

1
2

TINJAUAN PUSTAKA
Gambaran Umum Analisis Gerombol .................................................. 3
Penggerombolan Berbasis Model ........................................................ 4
Algoritma Expextation Maximization (EM) ......................................... 5
Karakteristik Geometrik Model ............................................................ 9
Penentuan Jumlah Gerombol ................................................................ 11
DATA DAN METODE
Sumber Data............................................................................................ 14
Metode Penelitian ................................................................................. 15
HASIL DAN PEMBAHASAN

Kondisi Jarak Antar Pusat Gerombol Sama ...........................................
Kondisi Jarak Antar Pusat Gerombol Dekat .........................................
Kondisi Jarak Antar Pusat Gerombol Sedang ........................................
Kondisi Jarak Antar Pusat Gerombol Jauh ............................................
Data Pohon ............................................................................................
Data Diabetes ........................................................................................

21
25
29
33
36
40

SIMPULAN DAN SARAN
Simpulan ................................................................................................ 44
Saran ...................................................................................................... 44
DAFTAR PUSTAKA ...................................................................................... 45
LAMPIRAN ..................................................................................................... 46

DAFTAR TABEL
Halaman
1

Matriks peragam untuk model campuran ganda dan interpretasi
geometrik
...........................................................................................

12

2

Parameter bebas tiap model

.............................................................

12

3

Kondisi setiap kasus simulasi

.............................................................

15

4

Statistika deskriptif peubah data pohon

.............................................

33

5

Nilai BIC setiap model berdasarkan maksimum likelihood untuk data
pohon ..................................................................................................

36

Nilai BIC setiap model berdasarkan maksimum posterior untuk data
pohon ..................................................................................................

39

7

Statistika deskriptif peubah data diabetes

..........................................

40

8

Nilai BIC setiap model berdasarkan maksimum likelihood untuk
data diabetes ........................................................................................

42

Nilai BIC setiap model berdasarkan maksimum posterior untuk
data diabetes ........................................................................................

43

6

9

DAFTAR GAMBAR
Halaman
1

Diagram alur penelitian

2

Diagram alur metode penggerombolan berbasis model

3

Diagram alur pembangkitan data dengan R

4

5

6

7

8

9

10

11

12

13

14

15

16

.......................................................................

18

......................

19

........................................

20

Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat
gerombol sama ...................................................................................

22

Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak
sama ....................................................................................................

23

Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak
sama berdasarkan MLE dan MAP .......................................................

23

Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak
sama berdasarkan model based dan k-means ......................................

24

Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat
gerombol dekat ...................................................................................

25

Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak
dekat ...................................................................................................

26

Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak
dekat berdasarkan MLE dan MAP .......................................................

27

Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak
dekat berdasarkan model based dan k-means ......................................

28

Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak
dekat berdasarkan jumlah amatan
.....................................................

29

Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat
gerombol sedang ................................................................................

30

Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak
sedang .................................................................................................

31

Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak
sedang berdasarkan MLE dan MAP ....................................................

32

Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak
sedang berdasarkan model based dan k-means ...................................

32

17

Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat
gerombol jauh .....................................................................................

34

Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak
jauh .....................................................................................................

34

Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak
sedang berdasarkan model based dan k-means ...................................

36

20

Plot dua komponen utama data pohon

................................................

37

21

Plot kuantil-kuantil data pohon

..........................................................

37

22

Plot nilai BIC setiap model berdasarkan maksimum likelihood untuk
data pohon ..........................................................................................

38

Plot nilai BIC setiap model berdasarkan maksimum posterior untuk
data pohon ..........................................................................................

39

24

Plot dua komponen utama data diabetes ...............................................

41

25

Plot kuantil-kuantil data diabetes

.......................................................

41

26

Plot nilai BIC setiap model untuk data diabetes ...................................

42

18

19

23

DAFTAR LAMPIRAN
Halaman
1

Plot dua komponen utama pada salah satu ulangan dengan jumlah data
tiap gerombol 50 ................................................................................

46

2

Persentase rataan tingkat kesalahan klasifikasi ......................................

49

3

Data pohon ...........................................................................................

53

4

Data Diabetes ........................................................................................

54

5

Sintaks membangkitkan data simulasi ..................................................

56

6

Sintaks Mclust .........................................................................................

63

1

PENDAHULUAN
Latar Belakang
Analisis gerombol merupakan suatu metode penggerombolan satuan objek
pengamatan menjadi beberapa gerombol berdasarkan karakteristik yang dimiliki.
Tujuan dari penggerombolan adalah untuk mengelompokkan objek ke dalam
beberapa kelompok sedemikian hingga objek yang berada di dalam kelompok
yang sama cenderung mempunyai karakteristik yang lebih homogen dibandingkan
objek yang berada pada kelompok yang berbeda. Hal ini dilakukan dengan suatu
ukuran kemiripan atau ketidakmiripan. Semakin mirip dua objek maka semakin
tinggi peluang untuk dikelompokkan dalam suatu gerombol, sebaliknya semakin
tidak mirip maka semakin rendah peluang untuk dikelompokkan dalam satu
gerombol. Pengukuran kemiripan antar objek menggunakan informasi jarak.
Pengukuran kemiripan antar objek dengan menggunakan jarak, akan sangat sulit
dilakukan jika ukuran data yang digunakan sangat besar dan kondisi objek yang
ada saling tumpang tindih.
Dengan memperhatikan sebaran dari data yang digunakan untuk
penggerombolan, Mclachlan dan Basford (1988) memberikan suatu pendekatan
terbaru dalam analisis gerombol yaitu penggerombolan berbasis model campuran.
Tujuan dari metode ini adalah mengoptimalkan kemiripan antar objek dengan
menggunakan pendekatan model peluang. Model peluang yang dimaksud adalah
menerapkan pengaturan karakteristik yang berbeda–beda pada data yang dimiliki.
Asumsi yang digunakan adalah keseluruhan objek merupakan campuran dari
sebaran peluang. Masing–masing sebaran mewakili suatu gerombol dengan
parameter tertentu. Parameter tersebut dapat diduga melalui algoritma Expectation
Maximization (EM), hal ini dikarenakan algoritma EM merupakan metode
perhitungan iterasi yang sangat cocok untuk pendugaan parameter dari fungsi
kemungkinan pada data tidak lengkap seperti yang terdapat pada sebaran
campuran. Penentuan jumlah gerombol ditentukan dengan menggunakan Bayes
Information Criterion (BIC).
Hasil yang diperoleh pada penggerombolan berdasarkan ukuran jarak antar
objek yaitu jumlah gerombol yang terbentuk dan anggota setiap gerombol. Pada

2

penggerombolan berbasis model selain mengetahui jumlah gerombol dan anggota
tiap gerombol dapat diketahui kepadatan yang mendasari tiap komponen. Hal ini
membuat metode penggerombolan berbasis model cukup berkembang. Beberapa
penelitian yang berhubungan dengan penggerombolan berbasis model campuran
telah dilakukan. Banfield dan Raftery (1993) menerapkan sebaran normal dan
bukan sebaran normal dalam penggerombolan. Kesimpulan yang diberikan dalam
penelitian ini yaitu bahwa data outlier dapat diatasi dengan menambahkan proses
poisson. Dempster, Laird dan Rubin (1997) membahas tentang metode
kemungkinan maksimum untuk data tidak lengkap melalui algoritma EM.
Penentuan jumlah gerombol dan anggota tiap gerombol dalam analisis gerombol
berbasis model, dilakukan oleh Fraley (1998). Kombinasi antara penggerombolan
berhirarki dengan algoritma EM dan faktor Bayes dalam pemilihan model,
dilakukan oleh Fraley (2002). Pardede (2002) membandingkan metode berbasis
model dengan metode ward dan metode k-rataan dalam analisis gerombol.
Pendugaan parameter dengan metode kemungkinan maksimum yang digunakan
dalam penelitian itu menyimpulkan bahwa metode berbasis model merupakan
metode yang lebih baik dibandingkan metode ward dan metode k-rataan, akan
tetapi dalam keadaan bentuk gerombol tertentu terjadi kesalahan penggerombolan.
Fraley (2007) melakukan pendekatan bayes dalam pendugaan parameternya guna
mengatasi munculnya singularitas untuk beberapa model. Pada penelitian ini akan
dilakukan pengkajian analisis gerombol berbasis model campuran pada data yang
menyebar normal ganda.
Tujuan
Tujuan yang ingin dicapai dalam penelitian ini yaitu
1. Mengkaji efektifitas analisis gerombol berbasis model. Kajian yang
dimaksud meliputi efektifitas analisis gerombol berbasis model pada
beberapa kondisi jarak antar pusat gerombol,
2. Membandingkan dengan metode klasik atau k-rataan serta efektifitas
analisis penggerombolan berbasis model berdasarkan metode maximum
likelihood (kemungkinan maksimum) dan metode Bayes pada beberapa
contoh penerapan.

3

TINJAUAN PUSTAKA
Gambaran Umum Analisis Gerombol
Analisis gerombol merupakan salah satu metode analisis peubah ganda yang
bertujuan untuk mengelompokkan objek kedalam kelompok – kelompok tertentu
yang relatif homogen berdasarkan kemiripan atau ketidakmiripan karakteristik–
karakteristik yang dimiliki (Hair et al, 1998). Ukuran kemiripan yang digunakan
adalah fungsi jarak antara dua objek. Bila antar peubah yang digunakan saling
bebas digunakan jarak euclidean

-

korelasi antar peubah digunakan jarak mahalanobis
dengan

sedangkan bila terdapat
-

-

-

adalah matriks ragam peragam. Secara umum terdapat dua metode

penggerombolan yang menggunakan ukuran jarak, yaitu metode penggerombolan
berhirarki dan metode penggerombolan tak berhirarki (Johnson, 1998).
a.

Metode berhirarki
Metode penggerombolan berhirarki dimulai dengan mengelompokkan dua

atau lebih objek yang memiliki kesamaan terdekat menjadi suatu gerombol baru
sehingga jumlah gerombol berkurang satu pada setiap tahap, atau dengan
menganggap seluruh objek berasal dari satu gerombol kemudian ketidakmiripan
yang paling tinggi dipisah hingga tiap observasi menjadi gerombol sendiri–
sendiri. Metode ini digunakan bila jumlah gerombol yang akan dibentuk belum
diketahui sebelumnya.
b.

Metode tak berhirarki
Metode penggerombolan tak berhirarki digunakan bila banyaknya gerombol

yang akan dibentuk sudah diketahui sebelumnya. K-rataan merupakan metode tak
berhirarki yang paling banyak digunakan. Penentuan objek kedalam gerombol
tertentu pada metode ini berdasarkan rataan terdekat, yang terdiri dari tiga tahap.
Tahap pertama mengambil k unit data pertama yang digunakan sebagai k pusat
gerombol awal. Tahap kedua, menggabungkan setiap (n-k) data yang merupakan
sisa objek ke pusat gerombol terdekat, kemudian dihitung masing-masing pusat
(rataan) gerombol baru yang terbentuk dari hasil gabungan. Pada tahap ketiga,
pusat gerombol yang terbentuk dijadikan sebuah titik pusat (rataan) gerombol

4

kemudian dilakukan penggabungan kembali dari setiap unit data ke dalam titik
pusat terdekat. Ketiga tahap ini dilakukan hingga diperoleh gerombol yang
konvergen yaitu adanya titik pusat yang tetap dan tidak ada lagi perubahan
anggota di setiap gerombol. Metode penggerombolan tak berhirarki lainnya
adalah metode penggerombolan berbasis model campuran.
Penggerombolan Berbasis Model
Metode penggerombolan berbasis model campuran mengasumsikan bahwa
sebaran data yang digunakan adalah sebaran campuran dengan setiap subpopulasi
mewakili suatu gerombol yang berbeda, sehingga dalam mendefinisikan setiap
gerombol yang terbentuk digunakan distribusi statistik (Fraley,1998). Tujuan dari
metode ini adalah untuk mengoptimalkan kemiripan antar objek dengan
menggunakan pendekatan model peluang. Pendekatan tersebut dapat memodelkan
data yang dimiliki dengan menerapkan pengaturan karakteristik yang berbedabeda dan menentukan jumlah gerombol yang sesuai dengan data seiring proses
pemodelan karakteristik dari masing-masing gerombol tersebut. Berbeda dengan
k-rataan yang perpindahan objek secara berulang dari satu gerombol ke gerombol
lain mulai dari partisi awal berdasarkan jarak metrik, tehnik perpindahan objek
pada analisis gerombol berbasis model didasarkan pada algoritma EM. Penentuan
banyaknya gerombol dalam metode ini ditentukan dengan menggunakan BIC.
Sebaran campuran merupakan campuran dari beberapa sebaran statistik,
dimana contoh berasal dari populasi yang tidak sama. Sebaran ini digunakan
dalam dua keadaan yaitu struktur campuran dari populasi diketahui dan struktur
campuran dari populasi tidak diketahui. Dengan demikian pada keadaan pertama
dapat diduga sebaran masing – masing subpopulasi dan proporsinya, sedangkan
pada keadaan kedua dapat dilakukan klasifikasi data ke dalam subpopulasi
berdasarkan

peluang

akhir

(Mclachlan

dan

Basford

1988).

Misalkan

adalah contoh acak peubah ganda p dari suatu populasi, dimana p
menyatakan dimensi data dan n menyatakan banyaknya objek pengamatan yang
dianggap berasal dari campuran G sub populasi, dengan fungsi kepekatan
, dimana

campurannya adalah
;

.

;

adalah fmp atau fkp campuran,

,

5

adalah proporsi subpopulasi ke-

adalah fmp atau fkp subpopulasi.

dan

Fungsi kepekatan campuran (fkp) dari subpopulasi tidak harus memiliki parameter
dan sebaran yang sama, namun dalam penelitian ini digunakan fkp subpopulasi
yang memiliki sebaran yang sama dan parameter yang berbeda. Dengan demikian
fkp campuran untuk beberapa vektor parameter

yang tidak diketahui yaitu:
(1)

Dengan asumsi contoh acak
kepekatan objek

bebas stokastik dan identik, dengan fungsi

dari gerombol ke-k yaitu

, maka fungsi kepekatan

campuran pada persamaan (1) didefinisikan sebagai:
(2)
dimana

merupakan peluang suatu pengamatan berada pada komponen ke-k
.

Dalam penelitian ini digunakan sebaran normal ganda yang dinotasikan
dengan

(

, sehingga jika

merupakan fungsi kepekatan peubah

ganda campuran normal dengan parameter vektor rataan

dan matriks peragam

dapat dinyatakan dalam bentuk

Algoritma EM
Dalam analisis gerombol berbasis model, algoritma EM dapat digunakan
sebagai tehnik perpindahan objek sehingga dapat memutuskan hasil gerombol.
Menurut Dempster (1977), algoritma ini merupakan metode perhitungan iterasi
yang sangat cocok untuk pendugaan parameter dari fungsi kemungkinan
maksimum pada data tidak lengkap seperti yang terdapat pada sebaran campuran.
Pada sebaran campuran dinyatakan bahwa data terdiri dari n pengamatan peubah
ganda yang diperoleh dari
dan

, dengan

merupakan peubah yang teramati

merupakan peubah yang tidak teramati.

gerombol dimana

memetakan objek ke dalam

yang didefinisikan dengan
dan

(3

6

diasumsikan saling bebas dan terdistribusi identik menurut sebaran multinomial
dari G kategori dengan peluang

dan fkp dari

dengan

adalah

. Setiap iterasi pada algoritma EM terdiri atas dua tahap yaitu
expectation-step (tahap E) dan maximization-step (tahap M).
Diketahui bahwa contoh acak

saling bebas dan

yang

menentukan objek dari gerombol mana berasal, maka

dengan

Fungsi kemungkinan yang diperoleh yaitu

Jika digunakan fungsi kepekatan peubah ganda campuran normal, maka fungsi
kemungkinannya adalah:
-

-

-

-

-

-

Tahap E
Pada tahap E merupakan tahap untuk menghitung nilai harapan bersyarat
dari loglikelihood. Dengan demikian, diperoleh:

-

-

-

-

-

-

dengan

Tahap M
Pada tahap M merupakan tahap untuk memaksimalkan nilai harapan bersyarat
dari loglikelihood. Paramater yang diduga yaitu proporsi campuran ( ), rata-rata
( ), dan matrik kovarian (

).

7

-

-

-

-

-

Terdapat dua metode pendugaan parameter yang bisa digunakan dalam tahap ini,
yaitu metode kemungkinan maksimum dan metode Bayes.
a.

Metode kemungkinan maksimum
Pendugaan

parameter

dengan

menggunakan

metode

kemungkinan

maksimum bertujuan untuk mencari nilai fungsi loglikelihood yang paling
maksimum (Fraley, 2002). Fungsi kemungkinan maksimum untuk peubah ganda
normal (n objek)
-

yaitu
-

-

-

-

-

-

(4

-

Pada model campuran dengan G komponen, fungsi kemungkinan maksimum
likelihood didefinisikan sebagai:

Jika fkp dari pengamatan

yang diberikan oleh

, maka

adalah

loglikelihood data lengkap adalah:
(5)
Fraley & Raftery (2002) mengemukakan bahwa penduga parameter yang
memaksimalkan

dihitung menggunakan

yang diperoleh pada

tahap E, dengan formula parameter sebagai berikut:

b.

Metode Bayes
Pendugaan

parameter

dengan

menggunakan

metode

Bayes

yaitu

menggabungkan informasi yang dikandung dalam sampel dengan informasi lain
yang telah tersedia sebelumnya. Asumsi yang digunakan dalam metode ini yaitu
setiap parameter itu bervariasi menurut sebaran peluang tertentu yang disebut
sebagai sebaran awal (Walpole, 1992). Sebaran peluang tersebut digunakan
bersama-sama untuk menghitung sebaran posterior bagi parameter. Berdasarkan
Fraley,2007 guna mencari penduga parameter yang dapat memaksimumkan
posterior digunakan conjugate prior (konjugasi sebaran awal). Konjugasi sebaran

8

awal yang dimaksud untuk peubah ganda normal yaitu sebaran normal untuk
kondisi rata-rata dengan syarat matriks peragam dan sebaran kebalikan wishart
untuk kondisi matriks peragam. Dengan demikian fkp sebaran awal merupakan
hasil kali dari sebaran normal dengan sebaran kebalikan wishart. Sebaran awal
untuk rata-rata adalah sebaran normal (bersyarat pada matriks peragam),
didefinisikan sebagai

-

-

(6)

dan sebaran awal matriks peragam yaitu sebaran kebalikan wishart, didefinisikan
sebagai
.
(7)

dan

diasumsikan sama untuk semua komponen, dengan rincian

sebagai berikut:
: rata-rata dari data
: 0,01 (pemulusan bagian kurva BIC)
: p+2
(untuk model spherical dan diagonal)
:

(

dan

(untuk model ellipsoidal)
adalah matriks peragam.

Fraley (2007) mengemukakan bahwa formula parameter yang digunakan guna
memaksimalkan posterior, yang dihitung menggunakan

pada tahap E sebagai

berikut:

Iterasi ini berlangsung hingga diperoleh nilai loglikelihood atau nilai posterior
yang konvergen.

9

Algoritma EM membutuhkan inisialisasi nilai awal dalam algoritmanya. Tingkat
konvergensi bisa sangat lama apabila tidak digunakan nilai inisialisasi awal yang
wajar. Banfiled (1993) menggunakan metode analisis gerombol berhirarki sebagai
inisialisasi nilai awal

, kemudian secara iteratif dugaan nilai parameter akan

diperbaharui. Berdasarkan Fraley (2010), penentuan nilai awal

berdasarkan

penggabungan objek dilakukan berdasarkan jarak minimum.
Karakteristik Geometrik Model
Setiap gerombol yang terbentuk berpusat di

dan matriks peragam

yang dihasilkan akan menentukan karakteristik geometrik yaitu bentuk, volume
dan orientasi (Fraley dan Raftery 2002). Pencirian sebaran geometrik (orientasi,
bentuk, volume) mungkin akan diperoleh dari berbagai macam bentuk gerombol
atau terbatas pada gerombol yang sama. Bentuk komponen matriks peragam
terdiri atas tiga macam yaitu spherical, diagonal dan ellipsoidal. Fraley (2007)
mengemukakan formula berdasarkan metode pendugaan parameter yang
digunakan, yaitu:
a.

Metode kemungkinan maksimum
1.

2.

Bentuk spherical (sebanding dengan matriks identitas)
-

Spherical sama

-

Spherical berbeda

Bentuk diagonal (sejajar sumbu)
-

Diagonal sama

-

Diagonal berbeda

10

3.

b.

Bentuk ellipsoidal
-

Diagonal sama

-

Diagonal berbeda

Metode bayes
1.

2.

Bentuk spherical (sebanding dengan matriks identitas)
-

Spherical sama

-

Spherical berbeda

Bentuk diagonal (sejajar sumbu)
-

Diagonal sama

-

Diagonal berbeda

3
3.

dengan

Bentuk ellipsoidal
-

Diagonal sama

-

Diagonal berbeda

-

-

11

Guna mendefinisikan kelas metode penggerombolan berhirarki berdasarkan
geometri lintas gerombol, Branfield dan Raftery (1993) menyatakan matriks
peragam melalui suku-suku dekomposisi akar ciri untuk komponen

gerombol

model campuran peubah ganda dalam bentuk:
(9
dimana
adalah matriks vektor ciri
adalah akar ciri terbesar dari
adalah matriks diagonal dengan elemennya proporsional terhadap akar ciri
dari

, yaitu

dimana

Ketiga suku dekomposisi diatas mencirikan karakteristik geometrik dimana
mencirikan orientasi dari k gerombol,

mencirikan ukuran dan

mencirikan

bentuk. Ukuran tersebut diartikan sebagai volume dari cluster dalam p peubah
yang berisi objek.
Pencirian sebaran geometrik (orientasi, bentuk, volume) mungkin akan
diperoleh dari berbagai macam bentuk gerombol atau terbatas pada gerombol
yang sama. Matriks peragam untuk semua komponen bisa sama atau bervariasi,
yang secara umum dapat dilihat pada Tabel 1.
Penentuan Jumlah Gerombol
Jumlah gerombol terbaik dapat ditentukan dengan memilih model terbaik
melalui nilai BIC terbesar. Fraley (1998) menyatakan bahwa pemilihan model
terbaik dilakukan dengan membandingkan model parameterisasi matriks peragam
yang berbeda dan banyaknya gerombol yang berbeda. Secara umum formulasi
yang digunakan adalah sebagai berikut:
(10)
dimana
= loglikelihood yang dimaksimalkan untuk model dan data
= jumlah parameter bebas yang diduga dalam model
= jumlah observasi dalam data.

12

Tabel 1

Matriks peragam untuk model campuran normal ganda dan
interpretasi geometrik

Simbol
Mclust
EII
VII
EEI
VEI
EVI
VVI
EEE
VEE

Bentuk

Prior

Spherical
Spherical
Diagonal
Diagonal
Diagonal
Diagonal
Ellipsoidal

Dipakai untuk

Inverse gamma
Inverse gamma
Inverse gamma Setiap anggota diagonal

Inverse gamma Setiap anggota diagonal
Inverse wishart
Inverse gamma
Inverse wishart

EVE
VVE
EEV
VEV
EVV

Ellipsoidal
Ellipsoidal Inverse gamma Setiap anggota diagonal
Ellipsoidal Inverse gamma Setiap anggota diagonal
Ellipsoidal
Ellipsoidal Inverse gamma
Inverse wishart
VVV
Ellipsoidal Inverse wishart
Sumber: (Fraley, 2007).
Jika pada algoritma EM ingin dihasilkan nilai maksimum posterior yang
konvergen, maka

pada persamaan diatas diganti dengan nilai

posterior (Fraley,2007). Dalam perhitungan nilai BIC setiap model dibutuhkan
informasi mengenai jumlah parameter bebas yang diduga, yang secara garis besar
dapat dilihat pada Tabel 2.
Tabel 2

Parameter bebas tiap model

Model

Parameter Bebas

(
Sumber: (Celeux,2006)

(

(
(
(

13

Fraley

(2002)

membuat

strategi

metode

berbasis

model

dengan

mengkombinasikan penggerombolan hirarki, algoritma EM dan faktor bayes,
dengan langkah–langkah sebagai berikut:
1.

Tentukan banyak gerombol maksimum ( ) dari himpunan model campuran

2.

Lakukan penggerombolan secara hirarki penggabungan, untuk setiap model
campuran normal ganda. Hasil gerombol ini ditransformasikan ke dalam
peubah indikator, yang kemudian digunakan sebagai nilai awal untuk
algoritma EM

3.

Lakukan algoritma EM untuk setiap model dan setiap gerombol

3

,

yang dimulai dengan klasifikasi dari gerombol berhirarki
4.

Hitung nilai BIC untuk kasus satu gerombol pada setiap model dan model
campuran, dengan parameter optimal dari algoritma EM untuk
gerombol

3

14

DATA DAN METODE
Sumber Data
Data yang digunakan dalam penelitian ini adalah data hasil simulasi dan
data dari paket Mclust ver 3.4.8. Data simulasi dibuat dalam dua jumlah amatan
yaitu 50 dan 150. Tujuan dari data simulasi ini adalah untuk mengenalkan model
karena data ini dihasilkan berdasarkan kondisi yang diinginkan. Penggunaan
jumlah amatan yang berbeda, bertujuan untuk mengetahui efektifitas analisis
gerombol berbasis model pada jumlah amatan kecil dan besar. Setiap kasus
simulasi dilakukan sebanyak lima kali ulangan, hal ini dikarenakan setiap kasus
yang digunakan pemilihannya dilakukan secara acak. Pemilihan jarak antar pusat
gerombol dan ragam setiap peubah mengacu pada Pardede (2002). Guna melihat
pengaruh tingkat korelasi antara peubah terhadap hasil akhir penggerombolan,
dicobakan empat tingkat korelasi yaitu tidak ada korelasi (0), korelasi rendah
(0,2), korelasi sedang (0,5) dan korelasi tinggi (0,8).
Data simulasi yang dibangkitkan merupakan data himpunan campuran
normal ganda, yang dibangkitkan dengan menggunakan fungsi mvnorm pada
perangkat lunak program R ver.2.12.1. Kondisi kasus simulasi yang digunakan
terbagi dalam empat kondisi jarak antar pusat gerombol yaitu (1) pusat antar
gerombol sama, (2) pusat antar gerombol berdekatan, (3) pusat antar gerombol
memiliki jarak sedang dan (4) pusat antar gerombol saling terpisah.
Secara garis besar kondisi kasus simulasi yang digunakan dalam penelitian
ini terangkum pada Tabel 3. Guna mendukung hasil penelitian ini digunakan data
sekunder yang berasal dari paket Mclust yang terdiri atas data pohon dan data
diabetes. Tujuan digunakannya data pohon yaitu untuk melihat efektifitas analisis
gerombol berbasis model pada data berukuran kecil, hal ini dikarenakan pada data
pohon masing-masing peubah terdiri dari 31 pengamatan. Berbeda dengan tujuan
digunakannya data pohon sebagai contoh penerapan, tujuan digunakannya data
diabetes yaitu untuk melihat efektifitas analisis gerombol berbasis model pada
data berukuran besar, dikarenakan masing-masing peubah terdiri dari 145
pengamatan.

15

Tabel 3 Kondisi setiap kasus simulasi
Jarak

Ragam
Kecil

Sama
Besar
5
3

Berbeda

3

Dekat
d=5,099

9
5

Kecil

Besar
5

5
5

Berbeda

5
3

3

9
5

Korelasi
0
0,2
0,5
0,8
0
0,2
0,5
0,8
0
0,2
0,5
0,8
0
0,2
0,5
0,8
0
0,2
0,5
0,8
0
0,2
0,5
0,8

Kasus
Simulasi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
37
38
39
40

Jarak

Ragam

Sedang
d=7,483

Kecil

3
7
3
7
7
3

3

Jauh
d=9,899
4
9
4
9
9
3

4

Besar
5
Berbeda

3

9
5

Kecil

Besar
5
Berbeda

3

9
5

Korelasi
0
0,2
0,5
0,8
0
0,2
0,5
0,8
0
0,2
0,5
0,8
0
0,2
0,5
0,8
0
0,2
0,5
0,8
0
0,2
0,5
0,8

Kasus
Simulasi
21
22
23
24
25
26
27
28
41
42
43
44
29
30
31
32
33
34
35
36
45
46
47
48

Metode Penelitian
Pada data simulasi, prosedur yang digunakan terdiri atas tujuh tahap, yaitu:
1.

Membangkitkan data simulasi dengan menggunakan paket R
Tahapan yang dilakukan dalam membangkitkan data simulasi dengan
menggunakan paket R adalah sebagai berikut:
i.

Menentukan banyak gerombol (G=3), banyak peubah (p=3) dan
banyak amatan setiap gerombol (n1=n2=n3=50), dan sebaran setiap
gerombol (Gk

ii.

Normal Ganda)

Menentukan parameter sebaran masing-masing gerombol, yaitu vektor
rataan

, dan matriks peragam

tersebut diperoleh dengan cara:

. Matriks peragam

16

a.

yang merupakan matriks diagonal

Menentukan matriks

dengan elemen diagonalnya adalah standar deviasi masingmasing peubah, berdimensi 3x3
b.

Menentukan matriks

yang merupakan matriks korelasi antar

peubah, k=1,2,3
c.

Menghitung matriks peragam

iii.

Membangkitkan peubah acak sebanyak

untuk gerombol 1,

iv.

Membangkitkan peubah acak sebanyak

untuk gerombol 2,

v.

Membangkitkan peubah acak sebanyak

untuk gerombol 1,

vi.

Menggabungkan ketiga gerombol tersebut menjadi sebuah kasus
simulasi

vii.

Ulangi tahap ii - vi untuk kondisi penggerombolan yang telah
ditentukan

Secara garis besar alur pembangkitan data dapat dilihat pada Gambar 1.
2.

Membuat plot dua komponen utama pada setiap kasus simulasi, guna
melihat pola data dan mengidentifikasi penggerombolan objek.

3.

Menerapkan

metode

analisis

gerombol

berbasis

model

dengan

menggunakan paket Mclust pada program R. Tahapan yang digunakan
dalam penggerombolan berbasis model adalah sebagai berikut:
i.

Melakukan

penggerombolan

menggunakan model

berhirarki

gabungan

sehingga diperoleh nilai

G=1,2,..M dimana M merupakan jumlah gerombol maksimum.
ii.

Melakukan algoritma EM
yang dimulai dengan iterasi saat m=0
Tahap E

dengan
untuk

17

Tahap M
-

Metode kemungkinan maksimum

Metode Bayes

(

(
(

-

(

(

(

(

(
(

(

(

(

tergantung model

tergantung model

Lakukan untuk iterasi (m+1) dan seterusnya, hingga diperoleh nilai
maksimum loglikelihood atau masksimum posterior yang konvergen.
iii.

Menghitung nilai BIC

iv.

Melakukan tahap i–iii

v.

Membandingkan nilai BIC untuk setiap solusi gerombol yang

untuk banyak gerombol yang berbeda,

terbentuk dan nilai BIC terbesar yang terpilih.
4.

Membandingkan dugaan parameter yang dihasilkan pada tahap 3 dengan
parameter yang sebenarnya

5.

Membandingkan hasil klasifikasi tiap amatan yang dihasilkan dengan hasil
klasifikasi yang sebenarnya

6.

Menghitung rataan persentase salah pengelompokkan setiap gerombol

7.

Rataan persentase salah pengelompokkan yang terkecil menunjukkan bahwa
metode analisis gerombol berbasis model lebih baik.

8.

Lakukan tahap 1-7 untuk jumlah amatan tiap gerombol 150.

Prosedur yang digunakan untuk contoh penerapan terdiri atas empat tahap yaitu:
1. Membuat plot dua komponen utama dari data yang digunakan untuk
melihat pola dan mengidentifikasi penggerombolan objek
2. Melakukan uji normal ganda
3. Menerapkan

metode

analisis

gerombol

berbasis

model

dengan

menggunakan paket Mclust pada program R
4. Membandingkan nilai BIC yang dihasilkan oleh metode kemungkinan
maksimum (MLE) dan metode Bayes (MAP)
Secara garis besar, alur penelitian ini dapat dilihat pada Gambar 2

18

MULAI

Tentukan banyak gerombol (G=3), banyak peubah (p=3), banyak amatan
setiap gerombol (n1=n2=n3=50; n1=n2=n3=150), dan sebaran setiap

Tentukan parameter sebaran masing-masing gerombol.

Vektor rataan

Bangkitkan peubah
acak n1 untuk
gerombol 1,

, dengan
Matriks peragam
cara:
a. Menentukan matriks
(matriks diagonal, dengan elemen
diagonal standar deviasi masingmasing peubah)
b. Menentukan matriks
(matriks
korelasi antar peubah)
c. Menghitung matriks peragam

Bangkitkan peubah
acak n2 untuk
gerombol 2,

Bangkitkan peubah
acak n3 untuk
gerombol 3,

Menggabungkan ketiga gerombol menjadi sebuah kasus simulasi

SELESAI

Gambar 1 Diagram alur pembangkitan data dengan R

19

MULAI
Membangkitkan data simulasi

Jarak antar pusat
gerombol sama

Jarak antar pusat
gerombol dekat

Jarak antar pusat
gerombol sedang

Jarak antar pusat
gerombol jauh

Buat plot dua komponen utama

Menerapkan penggerombolan
dengan metode berbasis model

Metode
kemungkinan
maksimum

Menerapkan
penggerombolan dengan
metode k-rataan

Metode
Bayes

Bandingkan dugaan
parameter yang
dihasilkan dengan yang
sebenarnya

Hitung persentase salah
penggerombolan

Bandingkan persentase
salah penggerombolan, yang
dihasilkan dengan k-rataan
dengan evaluasi terbaik dari
model based

Bandingkan hasil klasifikasi
tiap amatan yang dihasilkan
dengan yang sebenarnya

S
E
L
E
S
A
I

Hitung persentase salah penggerombolan

Bandingkan persentase salah penggerombolan dari masing-masing metode
Bandingkan nilai BIC dari masing-masing metode
Gambar 2 Diagram alur penelitian

20

MULAI

Masukkan data hasil simulasi

Hitung penggerombolan berhirarki

Lakukan algoritma EM untuk setiap model
matriks peragam dan setiap gerombol

Hitung dan plotkan nilai BIC untuk
setiap model matriks peragam

Tentukan model terbaik
berdasarkan nilai BIC terbesar

SELESAI

Gambar 3 Diagram alur metode penggerombolan berbasis model

21

HASIL DAN PEMBAHASAN
Data yang dibangkitkan terdiri dari 96 kasus data simulasi, dengan setiap
kasus data simulasi terdiri dari tiga gerombol. Kasus data simulasi tersebut
dibedakan atas jarak antar pusat gerombol, ragam setiap peubah pada setiap
gerombol, nilai korelasi, dan banyak data.
Berdasarkan plot skor dua komponen utama yang dihasilkan untuk setiap
kasus simulasi, dapat diketahui kondisi yang terbentuk dari ketiga gerombol yang
dibangkitkan. Terdapat tiga macam kondisi yang terbentuk dari ketiga gerombol
yang dibangkitkan, yaitu saling berdekatan, saling berjauhan maupun saling
tumpang tindih. Plot skor dua komponen utama untuk n=50 yang dibuat pada
salah satu ulangan, secara lengkap dapat dilihat pada Lampiran 1.
Guna melihat efektifitas dari metode analisis gerombol berbasis model,
maka metode tersebut diterapkan pada setiap kasus simulasi. Semakin kecil rataan
tingkat kesalahan klasifikasi yang dihasilkan, maka metode ini semakin efektif
dalam menggerombolkan kasus simulasi sesuai dengan gerombol awal. Rataan
tingkat kesalahan klasifikasi yang dihasilkan, secara lengkap dapat dilihat pada
Lampiran 2.
Kondisi Jarak Antar Pusat Gerombol Sama
Kondisi jarak antar pusat gerombol sama dapat diartikan bahwa setiap
gerombol yang terbentuk memiliki titik pusat gerombol yang sama. Dengan
menerapkan metode penggerombolan berbasis model pada kondisi jarak antar
pusat gerombol sama, hasil gerombol yang diperoleh dapat diketahui berdasarkan
warna yang berbeda pada plot dua komponen utama. Contoh plot dua komponen
utama hasil klasifikasi pada tingkat korelasi rendah dan tinggi dengan jumlah
amatan tiap gerombol 50, dapat dilihat pada Gambar 4.
Pada kondisi titik pusat setiap gerombol dan ragam setiap peubah sama,
akan membentuk satu gerombol. Hal ini disebabkan karena ketiga gerombol
memiliki parameter yang identik sehingga tidak dapat dipisahkan. Kondisi
gerombol yang terbentuk saling tumpang tindih.

10
-5
-10

-4
-6

-2

0

comp2

0

comp2

-2

0
-1

comp2

2

5

1

4

6

2

22

-3

-2

-1

0

1

2

-20

3

-10

0

-10

10

-5

10

4

6

0

comp2

-4

-6

-1.0

-4

-2

-2

0

comp2

0.0
-0.5

comp2

2

2

0.5

4

1.0

5

(e)

(c)

(a)

0
comp1

comp1

comp1

-4

-2

0
comp1

(b)

2

4

-20

-10

0

10

-15

-10

-5

0

comp1

comp1

(d)

(f)

5

10

15

Gambar 4 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat
gerombol sama (a) ragam kecil korelasi rendah, (b) ragam kecil
korelasi tinggi, (c) ragam besar korelasi rendah, (d) ragam besar
korelasi tinggi, (e) ragam berbeda korelasi rendah, (f) ragam berbeda
korelasi tinggi.
Jika ragam setiap peubah berbeda dan titik pusat antar gerombol sama, walaupun
kondisi gerombol yang terbentuk saling tumpang tindih akan menghasilkan dua
gerombol. Hal ini dikarenakan titik pusat gerombol yang bertumpuk pada satu
titik, walaupun ragam setiap peubah untuk setiap gerombol berbeda menyebabkan
amatan setiap gerombol menyebar disekitar titik pusat.
Hasil klasifikasi gerombol yang telah diperoleh, didukung oleh persentase
tingkat kesalahan klasifikasi yang dihasilkan. Jika ragam setiap peubah untuk
setiap gerombol sama maka tingkat kesalahan klasifikasi yang dihasilkan lebih
dari 60%, sebaliknya jika ragam setiap peubah untuk setiap gerombol berbeda
maka tingkat kesalahan klasifikasi yang dihasilkan kurang dari 43%. Persentase
tingkat kesalahan klasifikasi yang dimaksud dapat dilihat pada Gambar 5.
Ditinjau dari tingkat korelasi antar peubah menunjukkan bahwa pada
kondisi ragam setiap peubah sama tidak ada pengaruh tingkat korelasi antar
peubah terhadap persentase salah penggerombolan, sedangkan pada kondisi ragam
setiap peubah berbeda terjadi penurunan persentase salah penggerombolan pada

23

tingkat korelasi tinggi, walaupun penurunan tersebut hampir tidak ada perbedaan

Rataan tingkat kesalahan
klasifikasi (%)

yang berarti.

60
40
20
0
0

0.2

0.5

0.8

Korelasi

Gambar 5 Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak
sama.
ragam kecil,
ragam besar,
ragam berbeda
Dengan menggunakan kedua metode pendugaan parameter yang ada pada
penggerombolan berbasis

model, hasil

penggerombolan

yang diperoleh

berdasarkan metode kemungkinan maksimum dan metode Bayes menunjukkan
tidak adanya perbedaan yang berarti. Hal ini dapat dilihat berdasarkan persentase
tingkat kesalahan klasifikasi yang dihasilkan, yang secara lengkap dapat dilihat

Rataan tingkat kesalahan
klasifikasi (%)

Rataan tingkat kesalahan
klasifikasi (%)

pada Gambar 6.
60
40
20
0

60
40
20
0

0

0.2

0.5

Korelasi

(a)

0.8

0

0.2

0.5

0.8

Korelasi

(b)

Gambar 6 Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak
sama berdasarkan (a) MLE dan (b) MAP.
ragam kecil,
ragam besar,
ragam berbeda
Dari kedua metode pendugaan parameter tersebut, akan dipilih metode pendugaan
yang menghasilkan penggerombolan terbaik. Hasil penggerombolan terbaik
berdasarkan nilai BIC dan tingkat kesalahan klasifikasi yang dihasilkan. Nilai BIC
secara lengkap dapat dilihat pada Lampiran 3. Model yang dihasilkan berbedabeda yaitu (1) untuk tingkat korelasi 0 dan 0,2 di berbagai kondisi ragam adalah

24

VII, (2) untuk tingkat korelasi 0,5 dan 0,8 pada kondisi ragam identik adalah
VVV serta (3) untuk tingkat korelasi 0,5 dan 0,8 pada kondisi ragam berbeda
adalah VEV. Bentuk yang dihasilkan pada model VII adalah bulat sehingga
komponen utama yang dihasilkan pararel dengan sumbu kooordinat serta ukuran
setiap gerombol berbeda. Model VVV merupakan model terbaik dengan bentuk
yang dihasilkan adalah ellipsoidal, serta memiliki karakteristik yang berbeda
untuk setiap gerombol. pada model VEV, ukuran setiap gerombol sama dengan
bentuk yang dihasilkan adalah ellipsoidal. Tingkat kesalahan klasifikasi terbaik
akan dibandingkan dengan hasil klasifikasi yang diperoleh dengan menggunakan
metode k-rataan guna melihat keefektifan dari kedua metode penggerombolan

Rataan tingkat kesalahan
klasifikasi (%)

Rataan tingkat kesalahan
klasifikasi (%)

tersebut. Hasil perbandingan tingkat klasifikasi dapat dilihat pada Gambar 7.
60
40
20
0
0.2

Gambar 7

60
40
20

0.8

0
0.2

0.8

Korelasi

Korelasi

(a)

(b)

Persentase rataan tingkat kesalahan klasifikasi pada kondisi jarak
sama berdasarkan (a) model based , (b) k-means.
ragam
kecil,
ragam besar,
ragam berbeda

Berdasarkan hasil perbandingan yang diperoleh, pada parameter yang identik
yaitu rataan dan nilai peragam setiap gerombol sama, penggerombolan berbasis
model maupun penggerombolan berdasarkan k-rataan tidak efektif memisahkan
objek sesuai dengan kondisi gerombol awal. Jika kondisi ragam setiap peubah
untuk setiap gerombol berbeda, persentase tingkat ke