Implementasi Algoritma EM pada Metode Kemungkinan Maksimum untuk Pemodelan Regresi Linear Gerombol

IMPLEMENTASI ALGORITMA EM
PADA METODE KEMUNGKINAN MAKSIMUM UNTUK
PEMODELAN REGRESI LINEAR GEROMBOL

RIZKY ARDINSYAH

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Implementasi Algoritma
EM pada Metode Kemungkinan Maksimum untuk Pemodelan Regresi Linear
Gerombol adalah benar karya saya dengan arahan dari komisi pembimbing dan
belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Agustus 2014
Rizky Ardinsyah
NIM G14100078

ABSTRAK
RIZKY ARDINSYAH. Implementasi Algoritma EM pada Metode Kemungkinan
Maksimum untuk Pemodelan Regresi Linear Gerombol. Dibimbing oleh BAGUS
SARTONO dan AJI HAMIM WIGENA.
Pemodelan dengan menggunakan regresi gerombol mempertimbangkan
keberadaan gerombol dari suatu gugus data yang masing-masing memiliki fungsi
regresi yang berbeda. Regresi gerombol dalam penelitian ini digunakan untuk
menentukan jumlah gerombol optimal, menentukan anggota setiap gerombol, dan
menduga model regresinya. Pendugaan parameter dilakukan dengan metode
kemungkinan maksimum yang diimplementasikan melalui Algoritma ExpectationMaximization (EM). Algoritma EM terdiri atas dua tahapan, yaitu tahapan E
(Expectation) yang merupakan proses perhitungan nilai log kemungkinan dan
tahapan M (Maximization) yang merupakan tahapan penentuan parameter yang
baru dan proses penentuan nilai log kemungkinan yang maksimum. Dugaan
parameter regresi terbaik dan jumlah gerombol yang optimal diperoleh ketika nilai

log kemungkinan yang maksimum dan nilai Akaike’s Information Criterion (AIC)
yang minimum. Data yang digunakan dalam penelitian ini merupakan data hasil
simulasi dengan beberapa kriteria yang dikombinasikan dengan rancangan faktorial
pecahan (fractional factorial design).
Kata kunci: AIC, algoritma EM, fungsi kemungkinan maksimum, rancangan
faktorial pecahan, regresi gerombol.
ABSTRACT
RIZKY ARDINSYAH. Implementation of EM Algorithm in Maximum Likelihood
Methodology for Clusterwise Linear Regression Modelling. Supervised by
BAGUS SARTONO and AJI HAMIM WIGENA.
Clusterwise regression modelling consider the several hidden clusters from a
data set which have different regression functions. This method is used
simultaneously to determine the number of clusters, to separate membership into
specified cluster K, and to estimate each regression function. Maximum likelihood
methodology implemented by Expectation-Maximization (EM) algorithm is used
for parameter estimation. EM algorithm consists of two steps. The first step is
expectation (E-step), to count log-likelihood function, and the second step is
maximization (M-step), to determine the new parameter value which maximizes
log-likelihood function. The best regression coefficients estimation and the number
of optimal clusters are obtained when log-likelihood value is maximum and

Akaike’s Information Criterion (AIC) value is minimum. Some simulation data sets
in this research are provided with some criteria that combined with fractional
factorial design.
Key words: AIC, clusterwise regression, EM algorithm, fractional factorial
design, maximum likelihood estimation.

IMPLEMENTASI ALGORITMA EM
PADA METODE KEMUNGKINAN MAKSIMUM UNTUK
PEMODELAN REGRESI LINEAR GEROMBOL

RIZKY ARDINSYAH

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Statistika
pada
Departemen Statistika

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

INSTITUT PERTANIAN BOGOR
BOGOR
2014

Judul Skripsi : Implementasi Algoritma EM pada Metode Kemungkinan
Maksimum untuk Pemodelan Regresi Linear Gerombol
Nama
: Rizky Ardinsyah
NIM
: G14100078

Disetujui oleh

Dr Bagus Sartono, MSi
Pembimbing I

Dr Ir Aji Hamim Wigena, MSc
Pembimbing II

Diketahui oleh


Dr Anang Kurnia, Msi
Ketua Departemen

Tanggal Lulus:

PRAKATA
Puji syukur dipanjatkan ke hadirat Tuhan Yang Maha Esa yang telah
memberikan rahmat dan karunia-Nya sehingga karya ilmiah ini dapat diselesaikan.
Tema yang dipilih dalam penelitian ini ialah Regresi Gerombol dengan judul
Implementasi Algoritma EM pada Metode Kemungkinan Maksimum untuk
Pemodelan Regresi Linear Gerombol. Karya ilmiah ini merupakan salah satu syarat
untuk mendapatkan gelar Sarjana Statistika pada Departemen Statistika, Fakultas
Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Penulis mengucapkan terima kasih kepada semua pihak yang telah membantu
dalam menyelesaikan karya ilmiah ini, antara lain:
1. Bapak Dr Bagus Sartono, MSi dan Bapak Dr Ir Aji Hamim Wigena, MSc
selaku pembimbing yang telah memberikan banyak saran pada penelitian ini.
2. Dosen pengajar Departemen Statistika atas ilmu yang telah diberikan.
3. Ibu Markonah, Ibu Tri, dan staf Tata Usaha Departemen Statistika yang ulet

dan tak pernah lelah mengurusi administrasi kelengkapan mulai dari
kolokium hingga sidang mahasiswa Statistika.
4. Orang tua, kakek-nenek, dan adik-adik atas kesabaran, kasih sayang, dan
dorongan batin yang begitu besar kepada penulis.
5. Pihak Goodwill International Scholarship Program atas bantuan beasiswa
dan training yang diberikan. Serta teman-teman Goodwill yang telah banyak
memberikan inspirasi dan motivasi bagi penulis.
6. Dewi Lestari, Amri Najih, Hariz, Benny, Raedi, Nanda Puspita, dan Frisca
sebagai teman satu perjuangan satu dosen bimbingan yang selalu memberikan
dukungan dan masukannya.
7. Guntur, Azizah, Tusi, Nia, Meta, dan Fathmah sebagai teman-teman terbaik
yang selalu memberikan dukungan dan membantu proses belajar selama studi
di Statistika.
8. Teman-teman Statistika 47 atas motivasi dan dukungannya selama ini.
Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak. Penulis mohon
maaf atas segala kekurangan dan kesalahan yang terdapat dalam pembuatan karya
ilmiah ini.

Bogor, Agustus 2014
Rizky Ardinsyah


DAFTAR ISI
DAFTAR TABEL

x

PENDAHULUAN

1

Latar Belakang

1

Tujuan Penelitian

2

TINJAUAN PUSTAKA


2

Regresi Linear Gerombol

2

Penduga Kemungkinan Maksimum

2

Algoritma EM

4

METODOLOGI

5

Data


5

Metode

6

HASIL DAN PEMBAHASAN

7

Regresi Linear Gerombol

7

Pendugaan Parameter

8

Evaluasi Model
Uji Performa Algoritma EM

SIMPULAN DAN SARAN

10
11
13

Simpulan

13

Saran

13

DAFTAR PUSTAKA

13

LAMPIRAN


15

RIWAYAT HIDUP

16

DAFTAR TABEL
Faktor dan taraf untuk pembangkitan gugus data simulasi
Kombinasi gugus data melalui rancangan faktorial pecahan 24-1
Hasil regresi linear gerombol pada gugus data nomor 8
Hasil dugaan parameter λk, σk, & bjk gugus data nomor 8 pada K = 4
Nilai MAPE untuk evaluasi pilihan model pada gugus data
simulasi
Waktu komputasi (detik) pada gugus data simulasi
RMSE bjk pada gugus data simulasi
RMSE σk pada gugus data simulasi

6
8
9
9
10
10
12
12

PENDAHULUAN
Latar Belakang
Regresi gerombol adalah salah satu solusi metode pemodelan dalam
menghadapi kasus keheterogenan subjek atau amatan. Metode pemodelan ini
bekerja dengan mempertimbangkan keberadaan gerombol dalam suatu populasi
untuk mendapatkan model yang tepat sesuai dengan kesamaan karakteristik subjek.
Berdasarkan model tersebut, selanjutnya dapat diketahui hubungan fungsional
antara peubah bebas dan peubah responnya. Regresi telah banyak
diimplementasikan pada berbagai jenis data, baik data pemasaran, ekonomi,
kependudukan, pertanian, maupun sosial politik (Chatterjee & Hadi 2006).
Demikian halnya dengan regresi gerombol yang dapat dimanfaatkan dalam
berbagai bidang, salah satunya dalam bidang pemasaran (Wedel 1990).
Smith (1956) memperkenalkan eksistensi segmentasi dalam bidang
pemasaran. Hal ini didasarkan atas pandangan Smith terhadap konsumen yang
memiliki karakteristik yang beragam, sehingga pasar dianggap sebagai suatu
instrumen yang bersifat heterogen. Ini berarti bahwa dalam suatu pasar tidak
menutup kemungkinan terdapat pasar-pasar kecil yang sifatnya lebih homogen.
Pasar-pasar kecil itulah yang menggambarkan perbedaan karakter antar kelompok
konsumen. Dengan demikian, segmentasi menjadi hal yang cukup penting dalam
penentuan kebijakan atau strategi pemasaran karena setiap gerombol memiliki
fungsi regresi yang berbeda dan tidak dapat dipaksakan dengan nilai parameter
yang sama (Kang & Ghosal 2008). Gerombol yang terbentuk pada metode ini
didasarkan pada tingkat kemiripan parameter regresinya (Qian & Wu 2011).
Ada beberapa cara pendugaan parameter yang dapat digunakan dalam regresi,
diantaranya metode pendugaan kemungkinan maksimum, metode kuadrat terkecil
dan metode Bayes. Penelitian ini merujuk pada penelitian DeSarbo & Cron (1988)
yang menggunakan metode kemungkinan maksimum (Maximum Likelihood
Estimation/MKM). Prinsip kerja MKM adalah mencari nilai dugaan parameter
yang memaksimumkan fungsi kemungkinan. Kemudian dalam menentukan jumlah
gerombol yang optimal, banyaknya gerombol dipilih saat Akaike’s Information
Criterion (AIC) bernilai minimum. Untuk memudahkan komputasi, algoritma EM
digunakan dalam penelitian ini. Algoritma EM (Expectation-Maximization
Algorithm) diperkenalkan oleh Dempster, Laird, dan Rubin pada tahun 1977 untuk
mengatasi kesulitan dalam memaksimumkan log fungsi kemungkinan dengan
menyediakan prosedur iteratif yang cepat dan mudah diimplementasikan
(McLachlan & Krishnan 2008). Fokus penelitian ini adalah regresi linear gerombol
(clusterwise linear regression/CLR) yang diharapkan sebagai solusi yang baik
dalam pemodelan dengan mempertimbangkan keberadaan gerombol yang
tersembunyi agar dapat meningkatkan kebaikan dugaan model (DeSarbo & Cron
1988).

2
Tujuan Penelitian
1.

2.

Tujuan dari penelitian ini adalah sebagai berikut:
Mengimplementasikan algoritma EM untuk pemodelan pada regresi gerombol
dengan metode pendugaan kemungkinan maksimum agar mendapatkan jumlah
gerombol yang optimal dan ketepatan menempatkan anggota gerombol.
Menguji performa algoritma EM berdasarkan waktu komputasi serta kebaikan
nilai dugaan parameter.

TINJAUAN PUSTAKA
Regresi Linear Gerombol
Regresi gerombol pertama kali digunakan oleh Spath (1979) sebagai
pengembangan dari pemodelan regresi klasik yang hanya membentuk satu model.
Regresi gerombol mempertimbangkan keberadaan subgrup pada populasi sehingga
model yang terbentuk akan memiliki nilai parameter yang berbeda pada setiap X.
Hal ini masuk akal karena X diambil dari populasi yang heterogen.
De Sarbo & Cron (1988) mengaplikasikan regresi gerombol pada data bidang
pemasaran untuk mengidentifikasi gerombol dan memisahkan sampel pada
populasi tersebut hingga tahap pemodelan pada masing-masing gerombolnya.
Metode pendugaan parameter yang digunakan adalah metode kemungkinan
maksimum yang diimplementasikan dengan algoritma EM.
Model regresi linear gerombol secara umum (DeSarbo et al. 1989) adalah:
= ∑∑
=

=

+

dengan:
yi = amatan ke-i dari peubah respon,
xij = amatan ke-i dari kolom ke-j matriks X,
X = matriks peubah bebas dengan ukuran n × J,
bjk = nilai koefisien regresi ke-j di dalam gerombol ke-k,
jika amatan ke-i ditetapkan ke gerombol ke-k
aik = {
jika amatan ke-i tidak ditetapkan ke gerombol ke-k
ei = galat,
i
= 1,…, n (banyaknya amatan),
j
= 1,…, J (banyaknya parameter regresi),
k = 1,…, K (banyaknya gerombol yang ditentukan).

Pendugaan Kemungkinan Maksimum
Pemodelan pada regresi gerombol dengan menggunakan metode pendugaan
kemungkinan maksimum telah dilakukan oleh DeSarbo dan Cron (1988). Dalam
MKM, nilai dugaan parameter dicari yang nilai harapannya sama dengan nilai

3
parameternya (tak bias). Selain itu, penduga dalam MKM dinilai konsisten dan
efisien (Ramachandran 2009).
Penduga �̂� dikatakan penduga yang konsisten jika, untuk � > ,
lim �[|�̂� − �| ≤ �] =

�→∞

atau ekuivalen dengan,

lim �[|�̂� − �| > �] =

�→∞

Penduga yang konsisten seharusnya semakin mendekati nilai parameternya untuk
ukuran sampel yang besar. Oleh karena itu dalam literatur dikatakan bahwa
berdasarkan beberapa kasus, performa metode MKM akan lebih optimal untuk
ukuran data yang besar (Ramachandran 2009). Kemudian apabila penduga �̂�
adalah penduga yang tak bias, artinya nilai harapan dari penduga sama dengan
parameternya, maka penduga tersebut dikatakan sebagai penduga konsisten jika
lim � �(�̂� ) = .

�→∞

Penduga yang tak bias akan mungkin didapatkan lebih dari satu, dengan demikian
penduga yang paling baik nanti dipilih satu penduga yang memiliki ragam paling
kecil.
Berikut ini adalah log fungsi kemungkinan untuk ukuran contoh sebesar n:




=

− /

��

= ∑ � [∑
=

exp [



− �� ′ �


]]

dengan asumsi galat contoh diambil secara acak dari fungsi kepekatan normal dari
setiap gerombol yang belum diketahui proporsinya , , … , . Fungsi tersebut
akan dimaksimumkan untuk mendapatkan nilai dugaan λk, σk, dan bjk, dengan
kendala 0 ≤ λk ≤ 1, ∑ = λ = , d�n � > 0, untuk semua nilai k = 1,2,…,K. Kemudian
untuk menempatkan amatan ke-i ke dalam gerombol ke-k dilakukan dengan
memilih nilai peluang posterior Bayesian di setiap gerombol k yang paling besar.
Dugaan peluang posterior Bayesian-nya adalah sebagai berikut:
�̂

dengan

( |

, �̂ , ̂ ) =

=

��̂



λ̂

=

− /

λ̂

, �̂ , ̂ )
.
( | , �̂ , ̂ )

( |

exp [

2

̂� )
−(�� −�� ′ �

̂�2

]

Oleh karena dalam metode penelitian ini terdapat kendala ∑ = λ =
, fungsi yang akan dimaksimumkan akan diselesaikan menggunakan metode
pengganda Lagrange. Fungsi Lagrange merupakan selisih (atau dapat juga sebagai
penjumlahan) antara fungsi yang dioptimumkan (fungsi objektif) dengan hasil
perkalian antara pengganda Lagrange ( ) dan fungsi kendalanya. Dengan demikian,
fungsi Lagrange yang akan dimaksimumkan untuk mendapatkan dugaan parameter
k, σk, dan pik yaitu:


ɸ = ∑ � [∑
=

=

( |

,� ,

)] − (∑

− )

4
Untuk mengoptimumkan fungsi Lagrange tersebut maka menurut teori
optimasi dalam kalkulus, turunan parsial pertamanya harus sama dengan nol.
Secara geometris, hal ini berhubungan dengan titik saat kurvanya memiliki
kemiringan nol.
Dengan proses tersebut diperoleh penduga bagi k dan σk adalah sebagai
berikut (DeSarbo & Cron 1988):
̂ =

∑�= �̂


d�n �̂ =

∑�= �̂

∑�=

− �� ′ �
�̂

dengan � adalah vektor kolom yang berisi parameter regresi pada kolom ke-k.

Sedangkan untuk mencari dugaan bk adalah melalui regresi kuadrat terkecil
terboboti (DeSarbo & Cron 1988):





=
, dengan � = (
)


��
Algoritma EM
Proses iterasi dari algoritma EM terdiri atas dua tahap, yaitu tahap-E (tahap
ekspektasi) dan tahap-M (tahap maksimisasi). Tahap-E bertujuan menemukan log
fungsi kemungkinan dari nilai dugaan parameter k, � , dan bjk,. Nilai parameter k,
� , dan bjk pada iterasi pertama didapat dari nilai inisialisasi. Kemudian tahap
selanjutnya adalah tahap-M yang bertujuan mencari nilai dugaan parameter baru k*,
� ∗ , dan bjk*. Sebelum penghitungan nilai dugaan parameter yang baru, nilai
peluang posterior Bayesian pik dihitung dengan menggunakan nilai parameter pada
tahap-E (McLachlan & Krishnan 2008).
Proses iterasi dikatakan konvergen jika selisih nilai log fungsi kemungkinan
dengan nilai log fungsi kemungkinan sebelumnya telah mencapai batas konvergen
(10-5):

−5
| ( ∗, � , ∗ ) − ( , � ,
)| <
Nilai tersebut ditentukan berdasarkan referensi dengan pertimbangan bahwa
nilai tersebut sudah cukup kecil sebagai batas kekonvergenan (McLachlan &
Krishnan 2008).
Berikut ini adalah beberapa keuntungan lainnya dari penggunaan algoritma
EM (McLachlan & Krishnan 2008):
(1) Algoritma EM cukup stabil dan mudah dibuat programnya;
(2) Secara umum, algoritma EM memiliki kekonvergenan yang handal, artinya
selalu konvergen hampir ke titik maksimum lokalnya;
(3) Membutuhkan kapasitas penyimpanan yang kecil pada komputer; dan
(4) Dapat digunakan untuk menduga nilai dari data yang hilang, karena dalam
algoritma EM terjadi proses pendistribusian data yang tidak lengkap ke data
lengkap berdasarkan nilai peluang bersyaratnya.

5

METODOLOGI
Terdapat beberapa jurnal yang membahas regresi gerombol. Salah satunya
adalah jurnal DeSarbo dan Cron yang membahas pemodelan regresi gerombol
dengan pendugaan parameter melalui metode kemungkinan maksimum. Dalam
jurnal tersebut DeSarbo dan Cron mengimplementasikan algoritma EM dalam
proses komputasinya.
Data
Data yang digunakan adalah data hasil simulasi. Banyaknya gugus data
simulasi didasarkan atas beberapa faktor yang digunakan sebagai kriteria gugus
data tersebut. Hal ini pun dilakukan oleh DeSarbo dan Cron pada penelitiannya.
Untuk mengurangi banyaknya gugus data yang dicobakan dalam penelitian ini,
rancangan faktorial pecahan (fractional factorial design) 24-1 digunakan, sehingga
banyak gugus data yang digunakan adalah sebanyak setengah dari total kombinasi
faktor. Rancangan ini membantu dalam pemilihan kombinasi faktor yang
digunakan.
Proses pembangkitan gugus data dilakukan sebagai berikut:
1. Menentukan faktor-faktor dan masing-masing tarafnya yang digunakan sebagai
kriteria pembangkitan data. Faktor-faktor dan taraf tersebut ditampilkan dalam
Tabel 1.
2. Membangkitkan peubah bebas dan peubah respon yang masing-masing terdiri
atas n total amatan. Peubah bebas dibangkitkan dari sebaran seragam diskret
dengan batas minimum dan maksimum yang berbeda-beda. Jika peubah bebas
yang digunakan pada penelitian ini lebih dari satu, maka antar peubah bebas
tersebut tidak boleh terjadi kasus multikolinearitas.
3. Membangkitkan galat (ε) sebanyak n dari sebaran normal dengan rataan = 0 dan
ragam = σ2.
4. Menentukan parameter regresi (bjk).
a. Untuk J = 2 dan K = 2
c. Untuk J = 2 dan K = 4



=
=



b. Untuk J = 5 dan K = 2
d. Untuk J = 5 dan K = 4








=
=




− )
− )

(
(

5. Menentukan proporsi ( ) amatan di setiap gerombol:
a. Untuk K = 2, maka 1 = 0.5; 2 = 0.5.
b. Untuk K = 4, maka 1 = 0.4; 2 = 0.1; 3 = 0.2; 4 = 0.3.
6. Menghitung nilai peubah respon dengan persamaan y = Xβ + ε.

6

Tabel 1 Faktor dan taraf untuk pembangkitan gugus data simulasi
Faktor
A. Banyak Amatan (n)
B. Banyak Parameter Regresi (J)
C. Banyak Gerombol (K)
D. Simpangan Baku Galat (σ)

Taraf
n = 100
n = 500
J=2
J=5
K=2
K=4
σ=1
σ=2

Kode
100
500
2
5
2
4
1
2

Metode
Analisis yang digunakan dalam penelitian ini adalah regresi gerombol dengan
pendugaan parameter melalui metode kemungkinan maksimum. Algoritma EM
digunakan untuk mempermudah proses penentuan log fungsi kemungkinan.
Algoritma ini digunakan untuk mengatasi kesulitan dalam memaksimumkan log
fungsi kemungkinan dengan menyediakan prosedur iteratif yang mudah
diimplementasikan (McLachlan dan Krishnan 2008). Penelitian ini dibantu dengan
perangkat lunak R.
Algoritma dalam penelitian ini ditampilkan dalam diagram alir pada
Lampiran 1 dengan penjelasan lebih rinci sebagai berikut:
1. Membangkitkan delapan gugus data dengan empat faktor yang masing-masing
terdiri atas dua taraf. Pemilihan gugus data ditentukan oleh rancangan faktorial
pecahan 24-1.
2. Menentukan model regresi terbaik terhadap gugus data terpilih.
Tahap E (Expectation Step):
a. Memberikan inisialisasi awal untuk jumlah gerombol k (dengan k ≥ 1), k, σk,
dan bjk.
b. Menduga nilai peluang posterior Bayesian pik dari inisialisasi k, σk, dan bjk.
c. Menghitung nilai log fungsi kemungkinan sebanyak r kali untuk
mendapatkan nilai yang maksimum.
Tahap M (Maximization Step):
d. Menghitung nilai dugaan k, σk, dan bjk yang baru dengan menggunakan hasil
perhitungan pik pada langkah 2b.
e. Mengulang langkah 2a sampai 2d sebanyak m kali untuk mendapatkan nilai
log fungsi kemungkinan di titik global maksimum.
f. Memilih penduga parameter saat log fungsi kemungkinan yang maksimum di
titik global.
g. Menghitung nilai AIC (Akaike’s Information Criterion).
AIC dihitung dengan rumus berikut:
���

= − × m�x �

+ �

dengan n(K) = J x K + 2K – 1 adalah jumlah dugaan parameter efektif untuk
hasil regresi gerombol K.
h. Mengulang langkah 2a sampai 2g untuk nilai k yang berbeda.
i. Menentukan banyaknya gerombol yang memiliki nilai AIC minimum.

7
3. Menempatkan amatan ke dalam gerombolnya dengan peluang posterior
Bayesian. Amatan ke-i berada di gerombol ke-k jika �̂ > �̂ .
4. Menguji performa algoritma EM berdasarkan waktu komputasi (detik), RMSE
bjk, dan RMSE σk. RMSE atau Root Mean Square Error dihitung dengan
menghitung akar dari jumlah kuadrat selisih nilai dugaan dan parameternya yang
dibagi dengan banyaknya tes ulangan. Nilai ini biasa digunakan sebagai alat ukur
untuk kebaikan nilai dugaan.

HASIL DAN PEMBAHASAN
Hasil pembangkitan data, pemodelan, dan pengujian performa algoritma akan
dijelaskan pada bab ini. Banyaknya gugus data dalam penelitian ini adalah
sebanyak 24-1 atau 8 gugus data dengan beberapa kriteria yang dikombinasikan
melalui rancangan faktorial pecahan. Informasi gugus data diberikan pada Tabel 2.
Kemudian dalam menampilkan hasil pendugaan parameter regresi untuk
pemodelan, hanya satu gugus data saja yang digunakan. Gugus data yang dipilih
adalah gugus data simulasi nomor 8. Pemilihan gugus data nomor 8 adalah secara
subjektif oleh peneliti tanpa ada syarat tertentu, gugus data nomor 8 dipilih karena
banyaknya peubah bebas dan banyaknya gerombol yang tidak sedikit, sehingga halhal yang ingin ditunjukkan dapat dilihat dengan jelas, seperti kekonsistenan nilai
log fungsi kemungkinan dan AIC.
Keberadaan gerombol yang belum diketahui dalam suatu gugus data dapat
dideteksi melalui plot diagram pencar antara peubah respon (Y) dengan peubah
bebasnya (X). Diagram pencar antara peubah Y dan peubah X1 (Gambar 1) pada
gugus data simulasi nomor 8 memberikan ilustrasi bahwa amatan membentuk
empat gerombol. Untuk kasus tertentu gerombol dapat mudah diketahui, namun
seringkali ditemukan kasus yang lebih kompleks sehingga sulit untuk menentukan
banyak gerombol. Oleh karena itu, regresi gerombol menjadi salah satu metode
yang bermanfaat dalam menangani kasus seperti ini.

Regresi Linear Gerombol
Pemodelan umumnya dilakukan pada gugus data tanpa memperhatikan
keberadaan gerombol. Namun model yang dihasilkan menjadi tidak baik saat
amatan membentuk gerombol seperti yang ditampilkan pada Gambar 1.
Penggunaan regresi linear gerombol (CLR) pada penelitian ini diharapkan dapat
memberikan hasil penggerombolan yang tepat dan hasil pemodelan yang baik
karena regresi gerombol dapat mengurangi risiko kesalahan penggambaran data dan
meningkatkan kebaikan dugaan model (DeSarbo & Cron 1988).
Setiap amatan yang berada dalam satu gerombol akan memiliki karakteristik
yang mirip dan berbeda dengan amatan lainnya yang berada di gerombol lain.
Pendekatan metode ini memang mirip dengan analisis gerombol, namun
perbedaannya adalah pada regresi gerombol dapat dilakukan pemodelan dan uji
signifikansi peubah bebasnya.

8
Tabel 2 Kombinasi gugus data melalui rancangan faktorial pecahan 24-1
No
1
2
3
4
5
6
7
8

n
100
500
100
500
100
500
100
500

J
2
2
5
5
2
2
5
5

σ
1
2
2
1
2
1
1
2

K
2
2
2
2
4
4
4
4

3000

2000

Y

1000

0

-1000

-2000

-3000
50

60

70

80

90

100

X1

Gambar 1 Diagram pencar Y dan X1 pada gugus data nomor 8

Pendugaan Parameter
Algoritma EM digunakan dalam penelitian ini sebagai prosedur penentuan
penduga parameter yang dapat mengoptimumkan log fungsi kemungkinan.
Inisialisasi terhadap k, σk, bjk, r, dan m diperlukan untuk memulai proses pada
algoritma EM.
Inisialisasi k, σk, dan bjk tidak memiliki kriteria tertentu karena besar kecilnya
nilai inisial tidak mempengaruhi nilai pendugaan. Oleh karena itu, inisialisasi
terhadap ketiga parameter tersebut di dalam program pada penelitian ini dibuat
secara otomatis, misalnya inisial bjk dibangkitkan melalui bilangan acak yang
menyebar seragam diskret (bjk ~ U(-1,1)). Penentuan seragam diskret ini merujuk
pada penelitian yang dilakukan oleh DeSarbo & Cron (1988), namun tentu sebaran
ini dapat diubah menjadi sebaran lain karena tidak akan mempengaruhi hasil nilai
dugaan parameter barunya. Kemudian σk diinisialisasi sebesar 10 untuk setiap
gerombol dan λk diinisialisasi 1/k untuk setiap k sehingga ∑ =
= . Namun perlu
diketahui bahwa semakin dekat nilai inisialisasi dengan nilai aslinya iterasi akan
semakin cepat.
Proses pendugaan parameter ini dilakukan berulang-ulang sebanyak r kali
untuk mendapatkan nilai log fungsi kemungkinan yang maksimum, r dipilih sebesar
60. Nilai log fungsi kemungkinan pada iterasi r ini juga belum tentu didapatkan

9
Tabel 3 Hasil regresi linear gerombol pada gugus data nomor 8
k
1
2
3
4
5
6

ln L
-4443.3243
-3765.5841
-3736.8943
-1702.2620
-1701.8650
-1701.9070

AIC
8898.6486
7577.1682
7513.7886
3458.5240
3471.7300
3485.8150

Tabel 4 Hasil dugaan parameter k, σk, & bjk gugus data nomor 8 pada k = 4
K
1
2
3
4

̂

0.4
0.3
0.1
0.2

�̂

2.0141
2.3782
2.3262
2.4306

Dugaan parameter regresi
b0
b1
b2
b3
b4
4.6886
10.002 1.9605 -4.9939 7.0025
-10.1433 -25.0065 4.0693 -12.0017 -7.9677
-4.5044 -10.0118 -1.9135
4.9885 -6.9858
10.3081 24.9733 -4.0316 12.0301 8.0737

yang maksimum pada titik globalnya. Oleh karena itu, perlu dilakukan ulangan
terhadap iterasi r sebanyak m kali, m dipilih sebesar 20. Penentuan r dan m dalam
penelitian ini ditentukan berdasarkan percobaan beberapa kali untuk mendapatkan
nilai yang konsisten. Jika pada r = 20 hasil nilai log fungsi kemungkinan berubahubah dengan percobaan komputasi yang diulang beberapa kali, maka nilai tersebut
belum tentu nilai yang maksimum. Oleh karena itu perlu dilakukan peningkatan
nilai r hingga pada saat komputasi diulang-ulang, nilai log fungsi kemungkinan
selalu menghasilkan hal yang sama. Hal ini pun berlaku pada ulangan m dalam
mencari nilai log fungsi kemungkinan di titik maksimum global.
Tabel 3 memberikan informasi hasil komputasi CLR pada gugus data
simulasi nomor 8 untuk nilai k = 1 hingga 6, ulangan r = 60, dan ulangan m = 20.
Dalam Tabel 3, nilai ln L yang ditampilkan adalah nilai yang sudah konvergen dan
maksimum di titik globalnya. Selanjutnya yang perlu diperhatikan adalah
perubahan nilai AIC sebagai penentu banyaknya gerombol optimal yang akan
dipilih. Model dengan nilai AIC yang paling kecil adalah model yang terbaik atau
dengan kata lain, jika ada beberapa pilihan model, maka pilih model dengan nilai
AIC yang paling kecil (Latif et al. 2008). Berdasarkan Tabel 3 dapat dilihat bahwa
nilai AIC terus menurun seiring dengan bertambahnya k, namun terus meningkat
ketika k > 5. Dengan demikian, proses iterasi k dapat dipotong pada k = 6.
Kemudian gerombol yang optimal ditentukan saat nilai AIC minimum, yaitu
3458.5240. Dengan demikian, model terbaik yang direkomendasikan adalah model
dengan empat gerombol.
Selanjutnya nilai dugaan parameter k, σk, dan bjk yang diperoleh pada saat k
= 4 ditampilkan pada Tabel 4. Nilai dugaan proporsi amatan di setiap gerombol
tepat dengan nilai parameternya, yaitu 0.4, 0.3, 0.2, dan 0.1. Artinya bahwa pada
penelitian ini amatan ditempatkan sesuai dengan gerombol aslinya. Kemudian nilai
dugaan simpangan baku galat, yaitu 2.0141, 2.3782, 2.4306, dan 2.2362, cukup
mendekati dari nilai aslinya, yaitu 2. Kemudian nilai dugaan parameter untuk
pemodelan ditampilkan pada kolom 4 sampai kolom 8 dalam Tabel 4. X1

10
memberikan pengaruh positif terhadap gerombol 1 dan 4, hal ini berlawanan
dengan pengaruh pada X1 gerombol 2 dan 3 yang negatif. Ini membuktikan bahwa
terdapat sejumlah amatan yang memberikan pengaruh yang berbeda terhadap X1.
Pengaruh amatan akan dilihat untuk peubah-peubah bebas lainnya sehingga
sedimikian rupa terbentuklah gerombol-gerombol yang mewakili karakteristik
sejumlah amatan yang paling mirip.
Evaluasi Model
Dugaan model untuk gugus data simulasi nomor 8 adalah sebagai berikut:
̂ = 4.6886ai1 – 10.1433ai2 – 4.5044ai3 + 10.3081ai4 + 10.002ai1xi1 – 25.0065ai2xi1
– 10.0118ai3xi1 + 24.9733ai4xi1 + 1.9605ai1xi2 + 4.0693ai2xi2 – 1.9135ai3xi2 –
4.0316ai4xi2 – 4.9939ai1xi3 – 12.0017ai2xi3 + 4.9885ai3xi3 + 12.0301ai4xi3 +
7.0025ai1xi4 – 7.9677ai2xi4 – 6.9858ai3xi4 + 8.0737ai4xi4
Peubah a pada model di atas adalah peubah boneka untuk menunjukkan
gerombol yang dimaksud. Contohnya, untuk gerombol 1 maka nilai ai1 = 1,
sedangkan ai2, ai3, dan ai4 masing-masing bernilai 0.
Hasil evaluasi model dengan nilai Mean Absolute Percentage Error (MAPE)
ditampilkan dalam Tabel 5. Nilai MAPE yang baik adalah kurang dari 10%, nilai
ini menunjukkan bahwa model tersebut memiliki keakuratan yang sangat baik.
Sebaliknya, model dikatakan kurang akurat jika nilai MAPE yang diperoleh lebih
dari 30% (Mukhopadhyay 2007). Pada Tabel 5 nilai MAPE yang dicetak tebal
adalah presentase nilai kebaikan model untuk setiap gugus data hasil simulasi.
Seluruh nilai MAPE tersebut kurang dari 10%. Oleh karena itu, secara keseluruhan
seluruh dugaan model pada penelitian ini, dapat dikatakan cukup baik.
Tabel 5 Nilai MAPE untuk evaluasi pilihan model pada gugus data simulasi
k
1
2
3
4
5
6

1
100.45
0.106
0.105
0.105
0.105
0.105

2
85.67
0.182
0.182
0.181
0.182
0.182

MAPE (%) Gugus Data Ke3
4
5
6
91.42 99.93 69.95 67.14
0.185 0.116 24.86 23.69
0.145 0.114
9.46 8.72
0.129 0.112 0.076 0.042
0.116 0.110 0.076 0.042
0.116 0.111 0.076 0.042

7
8
69.95 58.07
24.86 20.32
9.46 17.75
0.076 0.06
0.076 0.06
0.076 0.06

Tabel 6 Waktu komputasi (detik) pada gugus data simulasi
k
1
2
3
4
5
6

Gugus Data Ke1
30.09
43.97
57.39
74.03
98.61
100.34

2
3
4
5
176.99 25.44 218.20 31.40
230.90 39.81 375.42 40.62
364.03 69.14 492.79 64.71
520.95 89.10 636.95 68.11
599.53 102.32 775.70 83.90
738.50 112.78 891.61 118.03

6
7
8
159.64 26.44 188.62
278.46 41.95 329.65
371.13 69.62 443.40
476.95 71.59 715.53
567.50 100.63 765.69
680.20 112.26 898.86

11
Uji Performa Algoritma EM
Pengujian performa algoritma EM dilakukan dengan melihat pengaruh
banyak amatan (n), banyak parameter regresi (J), simpangan baku galat (σ), dan
banyak gerombol (K) terhadap faktor-faktor berikut:
1. Waktu komputasi (detik). Saat mengukur peubah ini, program sudah dibuat
homogen dalam spesifikasi komputer dan jumlah ulangan.
2. RMSE bjk. Peubah ini didapat dengan menghitung akar dari rataan jumlah
kuadrat sisaan antara nilai bjk aktual dengan bjk dugaan yang diulang sebanyak
100 kali. Nilai ini menunjukkan kebaikan dugaan bjk.
3. RMSE σk. Peubah ini didapat dengan menghitung akar dari rataan jumlah
kuadrat sisaan antara nilai σk aktual dengan σk dugaan yang diulang sebanyak
100 kali. Nilai ini menunjukkan kebaikan dugaan σk.
Hasil perhitungan ketiga faktor tersebut pada delapan gugus data disajikan
dalam Tabel 6, Tabel 7, dan Tabel 8. Berdasarkan Tabel 6 dapat dilihat pengaruh n,
J, dan K terhadap waktu komputasi. Semakin banyak gerombol maka waktu
komputasi semakin meningkat. Hal lainnya yang dapat dilihat adalah waktu
komputasi pada gugus data yang memiliki n = 500 lebih lama daripada waktu
komputasi pada gugus data yang memiliki n = 100 dan waktu komputasi lebih lama
pada gugus data yang memiliki peubah bebas lebih banyak. Pengaruh jumlah
amatan, banyaknya gerombol, dan banyaknya peubah bebas memang memberikan
pengaruh terhadap banyaknya iterasi di dalam program, sehingga waktu yang
dibutuhkan akan meningkat pula. Hasil waktu komputasi pada Tabel 6 akan
berbeda jika program dijalankan pada jenis komputer yang memiliki spesifikasi
yang berbeda. Kecepatan processor dan besarnya Random Access Memory (RAM)
sangat menentukan lama atau lambatnya komputasi program. Pada penelitian ini,
spesifikasi komputer yang digunakan adalah processor Intel Atom dan RAM 1 Gb.
Waktu komputasi tentu akan lebih cepat jika processor yang digunakan lebih
banyak dan ukuran RAM lebih besar daripada komputer yang digunakan pada
penelitian ini.
Selanjutnya akan dibahas pengaruh n, J, dan K terhadap nilai kebaikan
dugaan bjk (RMSE bjk). Pada penelitian ini, koefisien regresi yang digunakan untuk
perbandingan adalah b0 dan b1. Ada dua pertimbangan yang mendasari pemilihan
kedua koefisien regresi tersebut, yaitu keduanya dimiliki oleh semua gugus data
dan terdapat kecenderungan pola yang sama antara semua koefisien regresi pada
satu gugus data dan gugus data yang lainnya. Oleh karena itu, koefisien regresi b2,
b3, dan b4 dapat diwakilkan oleh b0 dan b1. Berdasarkan Tabel 7, jika gugus data
nomor 1 dan 2, 3 dan 4, 5 dan 6, atau 7 dan 8, dibandingkan maka dapat diketahui
pengaruh n terhadap kebaikan dugaan bjk. Hasilnya adalah semakin besar jumlah
amatan maka nilai dugaan terhadap bjk akan semakin baik. Jika gugus data nomor
1 dan 3, 2 dan 4, 5 dan 7, atau 6 dan 8, dibandingkan maka dapat diketahui pengaruh
J terhadap kebaikan dugaan bjk. Hasilnya adalah semakin banyak parameter/peubah
bebas yang digunakan maka nilai dugaan terhadap bjk akan semakin baik. Kemudian
jika gugus data nomor 1 dan 5, 2 dan 6, atau 3 dan 7, dibandingkan maka dapat
diketahui pengaruh K terhadap kebaikan dugaan bjk. Hasilnya adalah semakin
banyak gerombol dalam populasi maka dugaan bjk akan semakin baik. Dalam jurnal
DeSarbo & Cron (1988) ditambahkan pula bahwa besarnya simpangan baku galat

12
dalam data akan berpengaruh pada besar kecilnya RMSE, semakin besar σ maka
RMSE akan semakin besar.
Terakhir, berdasarkan Tabel 8 hanya dapat dilihat bahwa banyaknya
gerombol (K) mempengaruhi nilai dugaan kebaikan σk jika dibandingkan hasil
antara gugus data 1-4 dan 5-8. Semakin banyak gerombolnya, maka RMSE σk justru
akan semakin besar. Kemudian pada bagian ini, pengaruh faktor lainnya belum
dapat dilihat disebabkan pola yang berbeda-beda, sehingga kesimpulan tidak dapat
ditentukan berdasarkan hasil pada Tabel 8. Diperlukan gugus data yang lebih
banyak untuk menangkap pengaruh faktor lainnya terhadap RMSE σk ini. Hal ini
dapat menjadi masukan bagi penelitian selanjutnya.
Tabel 7 RMSE bjk pada gugus data simulasi
RMSE
b0 pada Gerombol keGugus
Data
ke1
2
3
4
5
6
7
8

b1 pada Gerombol ke-

1

2

3

4

1

2

3

4

0.2642
0.8907
4.3109
0.3264
6.3559
0.0558
1.2570
0.3114

0.6041
0.3084
0.5606
0.6974
1.2428
1.0950
2.5465
0.4955

1.2813
0.5722
1.7610
0.3080

0.9209
0.3507
0.7870
0.1434

0.0042
0.0094
0.0155
0.0009
0.0683
0.0013
0.0027
0.0020

0.0096
0.0059
0.0062
0.0037
0.0142
0.0106
0.0189
0.0118

0.0232
0.0045
0.0251
0.0267

0.0220
0.0033
0.0124
0.0065

Tabel 8 RMSE σk pada gugus data simulasi
RMSE
σ pada Gerombol keGugus
Data ke1
2
3
4
5
6
7
8

1

2

3

4

0.7194
0.7094
0.7257
0.7079
0.8697
0.8735
0.8689
0.8807

0.7199
0.7102
0.7254
0.7079
0.8693
0.8741
0.8681
0.8826

0.8710
0.8742
0.8690
0.8778

0.8697
0.8724
0.8681
0.8818

13

SIMPULAN DAN SARAN
Simpulan
Regresi gerombol dapat melakukan pemodelan dengan memisahkan data
populasi berdasarkan kemiripan parameternya dengan tepat. Hasil pendugaan
parameter pada gugus data simulasi dengan ukuran amatan 500, banyaknya
parameter 5, banyaknya gerombol 4, dan simpangan baku error sebesar 2,
memberikan hasil pendugaan parameter yang mendekati nilai aktualnya. Ini
menunjukkan bahwa melalui algoritma EM, pemodelan regresi dengan metode
pendugaan kemungkinan maksimum memberikan hasil model yang cukup baik.
Evaluasi model dengan nilai MAPE menujukkan hasil model yang akurat.
Berdasarkan pengujian performa algoritma EM terhadap dua peubah respon,
yaitu waktu komputasi, RMSE bjk, dan RMSE σk, algoritma ini cukup baik
digunakan untuk ukuran data yang besar dan jumlah peubah bebas yang banyak.
Namun semakin besar simpangan baku galat akan mempengaruhi RMSE bjk serta
banyaknya jumlah amatan dan gerombol dalam data dapat meningkatkan waktu
komputasi.
Saran
Pemodelan yang dilakukan oleh program CLR yang dibuat terbatas pada data
yang peubah bebasnya tidak mengalami kasus multikolinearitas. Program dapat
dikembangkan untuk penanganan kasus multikolinearitas dan penelitian
dilanjutkan untuk tahap pengujian pengaruh peubah bebas terhadap peubah
responnya.

DAFTAR PUSTAKA
Chatterjee S, Hadi AS. 2006. Regression Analysis by Example 4th Ed. New Jersey
(US): John Wiley & Sons Inc.
DeSarbo WS, Cron WL. 1988. A maximum likelihood methodology for clusterwise
linear regression. J Classification. 5:249-282.
DeSarbo WS, Oliver RL, Rangaswamy A. 1989. A simulated annealing
methodology for clusterwise linear regression. Psychometrika. 54(4):707-736.
Kang C, Ghosal S. 2008. Clusterwise regression using Dirichlet mixtures. World
Sci. 9:301-322.
Latif AHMM, Hossain MZ, Islam MA. 2008. Model selection using modified
Akaike’s Information Criterion: an application to maternal morbidity data.
Austrian J Statistics. 37(2):175-184.
McLachlan GI, Krishnan T. 2008. The EM Algorithm and Extensions 2nd Ed. New
Jersey (US): J Wiley.
Mukhopadhyay SK. 2007. Production Planning and Control Text and Cases 2nd Ed.
New Delhi (IN): Prentice Hall of India Private Limited.
Qian G, Wu Y. 2011. Estimation and selection in regression clustering. European
JPAM. 4(4):455-466.

14
Ramachandran KM, Tsokos CP. 2009. Mathematical Statistics with Applications.
New York (US): Elsevier Academic Press.
Smith WR. 1956. Product differentiation and market segmentation as alternative
strategies. Journal of Marketting. 21(7):3-8.
Spath H. 1979. Algorithm 39: Clusterwise Linear Regression. Computing. 22: 367373.
Wedel M. 1990. Clusterwise Regression and Market Segmentation. Development
and application. Wageningen (NL): Landbouwuniversiteit Wageningen.

15
Lampiran 1 Diagram alir metode penelitian

Data Simulasi Dibangkitkan

Tahap E
Inisialisasi Awal k , k, σk, dan bjk.
Menghitung nilai peluang
posterior Bayesian pik
Menghitung nilai log fungsi kemungkinan (ln L)
diulang r kali
Tahap M
Menghitung nilai dugaan

k,

σk, dan bjk baru.
diulang m kali

Mendapatkan nilai Ln L yang maksimum di titik global
Mendapatkan penduga parameter
Menghitung nilai AIC
ulang dengan nilai k yang berbeda
Mendapatkan model regresi terbaik
dengan gerombol yang optimal

16

RIWAYAT HIDUP
Penulis dilahirkan di Bogor tanggal 22 Februari 1992, sebagai anak pertama
dari tujuh bersaudara pasangan Risman Melanoviarsyah dan Selly Sulaeha. Penulis
lulus dari SMA Negeri 6 Bogor pada tahun 2010 dan pada tahun yang sama diterima
di Institut Pertanian Bogor melalui jalur Ujian Talenta Masuk IPB (UTMI). Penulis
diberikan kesempatan untuk belajar menempuh pendidikan sarjananya di
Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam IPB
dengan minor Ekonomi Studi Pembangunan. Pada semester 6, penulis juga
berkesempatan melaksanakan kegiatan praktik lapang di perusahaan Survey and
Research Lingkaran Survei Indonesia di Jakarta Utara. Penulis selama
melaksanakan studi di IPB tidak hanya aktif dalam bidang akademik, tetapi juga
dalam bidang non-akademik di dalam kampus.
Selama menempuh pendidikan di Institut Pertanian Bogor penulis
berpengalaman menjadi asisten dosen untuk mata kuliah Metode Statistika. Penulis
juga aktif baik dalam kegiatan Himpro, UKM, dan kepanitian-kepanitiaan. Pada
tahun 2010-2011 penulis bergabung dalam Paduan Suara Mahasiswa IPB Agria
Swara dan tahun 2011-2012 bergabung dalam staf Manajemen Leadership and
Entrepreneurship School (LES) IPB. Pada dua periode masa bakti Himpunan
Profesi Mahasiswa Statistika Gamma Sigma Beta (GSB) pada tahun 2012-2013,
penulis aktif dalam Badan Pengawas Himpunan Profesi GSB.
Penulis mendapatkan beasiswa pendidikan dari Yayasan Goodwill
International pada tahun 2013. Melalui beasiswa selama 1 tahun tersebut, penulis
mendapatkan berbagai training mengenai kepemimpinan, bisnis & jaringan sosial,
dan pengembangan minat bakat.