Metode Pendugaan Matriks Ragam-Peragam dalam Analisis Regresi Komponen Utama (RKU)

RINGKASAN
YANI SURYANI. Metode Pendugaan Matriks Ragam-Peragam dalam Analisis Regresi
Komponen Utama (RKU). Dibimbing oleh ITASIA DINA S dan DIAN KUSUMANINGRUM.
Regresi Komponen Utama (RKU) merupakan salah satu analisis regresi yang menggunakan
komponen utama untuk mengatasi adanya multikolinearitas pada regresi berganda. Maximum
Likelihood Estimation (MLE) biasanya digunakan untuk menduga matrik ragam-peragam pada
analisis regresi komponen utama. Namun, metode pendugaan ini sangat sensitif terhadap adanya
data pencilan multivariat. Oleh karena itu, salah satu cara untuk mengatasi masalah ini adalah
dengan menggunakan metode Minimum Covariance Determinant (MCD) yang diperkenalkan oleh
Rousseeuw pada tahun 1985 dalam menduga matriks ragam-peragamnya.
Penelitian ini menggunakan metode MLE dan MCD untuk menduga matriks ragam-peragam
pada analisis regresi komponen utama. Sedangkan parameter regresinya diduga oleh Metode
Kuadrat Terkecil (MKT). Sementara itu, untuk pemilihan jumlah komponen utama digunakan
kriteria 80% proporsi keragaman dari data contoh. Hasil penelitian ini menunjukkan bahwa
dampak adanya pencilan multivariat pada analisis regresi komponen utama yang matriks ragamperagamnya diduga oleh metode MCD akan menghasilkan nilai rata-rata akar ciri pertama yang
tetap stabil pada Komponen Utama Pertama (KU1), walaupun rasio pencilan multivariat dengan
banyaknya data terus bertambah.
Saat rasio pencilan multivariat dengan banyaknya data sebesar 5%, metode pendugaan
parameter regresi komponen utama dengan MKT-MLE dan MKT-MCD menunjukkan hasil yang
sama baik karena kedua metode ini cenderung menghasilkan nilai bias dan Mean Squared Error
(MSE) yang relatif sama kecil. Namun, pada saat rasio pencilan multivariat dengan banyaknya

data lebih besar dari 5% (10%,15%,20%), metode MKT-MCD menunjukkan hasil yang lebih baik
dibandingkan metode MKT-MLE dalam menduga parameter regresi komponen utama. Hal ini
terjadi karena metode MKT-MCD cenderung menghasilkan nilai bias dan Mean Squared Error
(MSE) yang lebih kecil dibandingkan MKT-MLE.

METODE PENDUGAAN MATRIKS RAGAM-PERAGAM
DALAM ANALISIS REGRESI KOMPONEN UTAMA (RKU)

YANI SURYANI

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2009

RINGKASAN
YANI SURYANI. Metode Pendugaan Matriks Ragam-Peragam dalam Analisis Regresi
Komponen Utama (RKU). Dibimbing oleh ITASIA DINA S dan DIAN KUSUMANINGRUM.
Regresi Komponen Utama (RKU) merupakan salah satu analisis regresi yang menggunakan
komponen utama untuk mengatasi adanya multikolinearitas pada regresi berganda. Maximum

Likelihood Estimation (MLE) biasanya digunakan untuk menduga matrik ragam-peragam pada
analisis regresi komponen utama. Namun, metode pendugaan ini sangat sensitif terhadap adanya
data pencilan multivariat. Oleh karena itu, salah satu cara untuk mengatasi masalah ini adalah
dengan menggunakan metode Minimum Covariance Determinant (MCD) yang diperkenalkan oleh
Rousseeuw pada tahun 1985 dalam menduga matriks ragam-peragamnya.
Penelitian ini menggunakan metode MLE dan MCD untuk menduga matriks ragam-peragam
pada analisis regresi komponen utama. Sedangkan parameter regresinya diduga oleh Metode
Kuadrat Terkecil (MKT). Sementara itu, untuk pemilihan jumlah komponen utama digunakan
kriteria 80% proporsi keragaman dari data contoh. Hasil penelitian ini menunjukkan bahwa
dampak adanya pencilan multivariat pada analisis regresi komponen utama yang matriks ragamperagamnya diduga oleh metode MCD akan menghasilkan nilai rata-rata akar ciri pertama yang
tetap stabil pada Komponen Utama Pertama (KU1), walaupun rasio pencilan multivariat dengan
banyaknya data terus bertambah.
Saat rasio pencilan multivariat dengan banyaknya data sebesar 5%, metode pendugaan
parameter regresi komponen utama dengan MKT-MLE dan MKT-MCD menunjukkan hasil yang
sama baik karena kedua metode ini cenderung menghasilkan nilai bias dan Mean Squared Error
(MSE) yang relatif sama kecil. Namun, pada saat rasio pencilan multivariat dengan banyaknya
data lebih besar dari 5% (10%,15%,20%), metode MKT-MCD menunjukkan hasil yang lebih baik
dibandingkan metode MKT-MLE dalam menduga parameter regresi komponen utama. Hal ini
terjadi karena metode MKT-MCD cenderung menghasilkan nilai bias dan Mean Squared Error
(MSE) yang lebih kecil dibandingkan MKT-MLE.


METODE PENDUGAAN MATRIKS RAGAM-PERAGAM
DALAM ANALISIS REGRESI KOMPONEN UTAMA (RKU)

YANI SURYANI

Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Statistika
Pada Departemen Statistika

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2009

Judul Skripsi
Nama
NRP


: Metode Pendugaan Matriks Ragam-Peragam dalam
Analisis Regresi Komponen Utama (RKU)
: Yani Suryani
: G14052326

Menyetujui:
Pembimbing I,

Pembimbing II,

Dra. Itasia Dina S, M.Si
NIP. 196005081988032002

Dian Kusumaningrum, S.Si

Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor

Dr. drh. Hasim, DEA

NIP. 19610328198011002

Tanggal Lulus :

RIWAYAT HIDUP
Penulis dilahirkan di Pajar Bulan, Lampung Barat pada tanggal 17 September 1987 sebagai
putri kedua dari pasangan H. Asep Saepudin dan Hj. Erosmana.
Penulis menyelesaikan pendidikan dasar di SDN Purlaksana, Lampung Barat pada tahun 1999.
Pada tahun yang sama penulis diterima di SLTP Al-Quran Metro, Lampung tengah dan lulus pada
tahun 2002, penulis menyelesaikan pendidikan SMU pada tahun 2005 di SMU Al-Kautsar Bandar
Lampung. Pada tahun yang sama, penulis diterima sebagai mahasiswa Institut Pertanian Bogor
(IPB) melalui jalur Undangan Seleksi Masuk IPB (USMI). Pada semester 3, penulis resmi menjadi
salah satu mahasiswa Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam sebagai jurusan
mayor dan Manejemen Fungsional sebagai program minor.
Semasa menjadi mahasiswa, penulis aktif sebagai pengurus Dewan Perwakilan Mahasiswa
(DPM) pada periode 2006-2007 dan Himpunan Profesi Departemen Statistika Gamma Sigma Beta
(GSB) pada periode 2007-2008. Penulis pernah menjadi asisten praktikum Metode Statistika dan
Analisis Regresi 2 serta pengajar privat Metode Statistika dan Matematika untuk tingkat SMU.
Penulis melakukan Praktik Lapang (PL) di PT. Lingkaran Survey Indonesia (LSI) pada bulan
Februari-April 2009.


UCAPAN TERIMA KASIH
Alhamdulillah, segala puji dan syukur penulis panjatkan kehadirat Allah SWT atas segala
karunia-Nya sehingga karya ilmiah ini dapat terselesaikan. Karya ilmiah ini berjudul Metode
Pendugaan Matriks Ragam-Peragam dalam Analisis Regresi Komponen Utama (RKU).
Selesainya karya ilmiah ini tidak terlepas dari bantuan berbagai pihak. Oleh karena itu, pada
kesempatan ini penulis ingin mengucapkan terima kasih kepada:
1. Ibu Dra. Itasia Dina S, M.Si dan Ibu Dian Kusumaningrum, S.Si selaku dosen
pembimbing yang selalu memberikan arahan, saran, dan kesabaran dalam membimbing
penulis.
2. Bapak H. Asep Saepudin dan Ibu Hj. Erosmana selaku orang tua penulis yang telah
mencurahkan kasih sayang, doa, dan dukungannya selama ini.
3. Kakakku Maya Lestari, serta adik-adikku Chevy Ariesta, Salma Rosadah, dan Ilham
Fahmi terima kasih atas dukungannya.
4. Seluruh dosen Departemen Statistika FMIPA IPB atas ilmu yang diajarkan dan seluruh
staf Departemen Statistika (Bu Markonah, Bu Tri, Bu Aat, Pak Edi, Pak Iyan, Mang
Sudin, Mang Herman, Mang Dur) yang telah membantu penulis selama belajar di
Statistika IPB.
5. Bapak Suyana, S.Si, M.Si atas inspirasi yang telah diberikan kepada penulis.
6. Maulani, Monica Halim, Wiwid Widiyani, Erfira Sefitri, dan Saleem Iqbal atas dukungan

dan doanya.
7. Widya Ningsih dan Andi Setiawan atas diskusi dan bantuan dalam pembuatan program
simulasi.
8. Teman, sahabat, dan saudara seperjuangan penulis, Statistika `42, atas kebersamaan dan
kenangan yang indah selama 4 tahun.
9. Ayi, Lutfi, Mbak Dian, Bunda Karlin (the five angels), Sukma, Dini, dan seluruh
penghuni Jaika 90a atas kebersamaan dan kecerian dalam suka maupun duka.
10. Kakak kelas STK `40 dan `41 serta adik-adik STK `43,`44, dan `45.
11. Persatuan Orangtua Mahasiswa (POM) IPB atas bantuan beasiswa yang diberikan penulis
pada tingkat 1 & 2 dan IPB atas bantuan beasiswa pada tingkat 4 melalui program
Peningkatan Prestasi Akademik (PPA).
12. Semua pihak yang tidak bisa disebutkan satu persatu yang telah membantu penulis dalam
pembuatan karya ilmiah ini.
Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak yang membutuhkan.

Bogor, November 2009

Penulis

DAFTAR ISI

Halaman
DAFTAR TABEL ............................................................................................................... vii
DAFTAR GAMBAR ........................................................................................................... vii
DAFTAR LAMPIRAN ....................................................................................................... viii
PENDAHULUAN
Latar Belakang ............................................................................................................. 1
Tujuan ......................................................................................................................... 1
TINJAUAN PUSTAKA
Analisis Regresi Linear Berganda ................................................................................. 1
Multikolinearitas .......................................................................................................... 1
Analisis Komponen Utama (AKU) ................................................................................ 2
Regresi Komponen Utama (RKU) ................................................................................. 2
Maximum Likelihood Estimation (MLE ......................................................................... 2
Minimum Covariance Determinant (MCD ..................................................................... 3
Pencilan........................................................................................................................ 4
Pembangkitan Data Pencilan ......................................................................................... 4

BAHAN DAN METODE ..................................................................................................... 4
HASIL DAN PEMBAHASAN
Karakteristik Data Bangkitan ........................................................................................ 5

Perbedaan Akar Ciri ..................................................................................................... 5
Bias dan Mean Squared Error (MSE) ........................................................................... 6
KESIMPULAN DAN SARAN
Kesimpulan .................................................................................................................. 8
Saran ............................................................................................................................ 9
DAFTAR PUSTAKA ........................................................................................................... 9
LAMPIRAN ........................................................................................................................ 10

vii

DAFTAR TABEL
Halaman
1. Rata-rata akar ciri pertama pada komponen utama pertama saat n=20 dan n=100 ............. 5

DAFTAR GAMBAR
Halaman

1. Rasio antara akar ciri pertama dengan akar ciri kedua saat n=20 ...................................... 5
2. Rasio antara akar ciri pertama dengan akar ciri kedua saat n=100 .................................... 5
3. Perbandingan nilai bias β1 saat n=20 dan n=100 untuk

MLE-MKT dan MCD-MKT ........................................................................................... 6
4. Perbandingan nilai εSE β1 saat n=20 dan n=100 untuk
MLE-MKT dan MCD-MKT ........................................................................................... 6
5. Perbandingan nilai bias β2 saat n=20 dan n=100 untuk
MLE-MKT dan MCD-MKT ........................................................................................... 6
6. Perbandingan nilai εSE β2 saat n=20 dan n=100 untuk
MLE-MKT dan MCD-MKT ........................................................................................... 7
7. Perbandingan nilai bias β3 saat n=20 dan n=100 untuk
MLE-MKT dan MCD-MKT ........................................................................................... 7
8. Perbandingan nilai εSE β3 saat n=20 dan n=100 untuk
MLE-MKT dan MCD-MKT ........................................................................................... 7
9. Perbandingan nilai bias β4 saat n=20 dan n=100 untuk
MLE-MKT dan MCD-MKT ........................................................................................... 7
10. Perbandingan nilai εSE β4 saat n=20 dan n=100 untuk
MLE-MKT dan MCD-MKT ........................................................................................... 7
11. Perbandingan nilai bias β5 saat n=20 dan n=100 untuk
MLE-MKT dan MCD-MKT ........................................................................................... 8
12. Perbandingan nilai εSE β5 saat n=20 dan n=100 untuk
MLE-MKT dan MCD-MKT ........................................................................................... 8


viii

DAFTAR LAMPIRAN
Halaman
1. Skema Kerangka Pemikiran ........................................................................................... 10
2. Skema Algoritma Metode FAST-MCD .......................................................................... 11
3. Skema Algoritma Simulasi ............................................................................................ 12
4. Tabel Nilai Korelasi Antar Peubah Penjelas ................................................................... 13
5. Nilai Akar Ciri yang Dihasilkan Tiap Komponen Pada Saat n=20 .................................. 13
6. Nilai Akar Ciri yang Dihasilkan Tiap Komponen Pada Saat n=100................................. 13
7. Nilai bias yang dihasilkan saat n=20 dan n=100 ........................................................... 14
8. Nilai Mean Squared Error (MSE) yang dihasilkan saat n=20 dan n=100 ...................... 15

1

PENDAHULUAN
Latar Belakang
Salah satu masalah yang sering muncul
dalam analisis regresi linear berganda adalah
adanya korelasi yang kuat antar peubah bebas
(multikolinearitas). Hal ini menyebabkan
Metode
Kuadrat
Terkecil
(MKT)
menghasilkan penduga yang tidak efisien
karena matriks yang dibangun untuk menduga
akan memiliki
parameter regresi yaitu
kondisi buruk (ill-conditioned) atau singular
yang pada akhirnya menyebabkan penduga
ragam bagi parameter regresi menjadi lebih
besar dari seharusnya (Myers 1989).
Salah satu metode untuk mengatasi adanya
multikolinearitas dalam analisis regresi
berganda adalah Regresi Komponen Utama
(RKU). RKU merupakan salah satu analisis
regresi yang menggunakan komponen utama
sebagai peubah bebasnya. Komponen utama
ini merupakan kombinasi linear dari peubah
asal yang bersifat saling bebas dan dihasilkan
dari penguraian matriks ragam-peragam.
Metode Kemungkinan Maksimum atau
Maximum Likelihood Estimation (MLE)
biasanya digunakan untuk menduga matriks
ragam-peragam pada RKU. Namun, metode
pendugaan ini sangat sensitif terhadap adanya
data pencilan multivariat. Data pencilan
mutivariat diidentifikasi sebagai pengamatan
yang memiliki jarak Mahalanobis kekar yang
besar secara statistik. Oleh karena itu, metode
Minimum Covariance Determinant (MCD),
yang diperkenalkan oleh Rousseeuw pada
tahun 1985, merupakan salah satu metode
pendugaan matriks ragam-peragam yang
digunakan untuk mengatasi masalah ini.
Pada penelitian ini, menggunakan metode
MLE dan MCD untuk menduga matriks
ragam-peragam dalam analisis regresi
komponen utama. Sedangkan parameter
regresinya diduga dengan Metode Kuadrat
Terkecil (MKT).
Metode MKT-MLE
didefinisikan sebagai metode RKU yang
matriks ragam-peragamnya diduga dengan
metode MLE dan parameter regresinya diduga
dengan metode MKT. Sedangkan MKT-MCD
didefinisikan sebagai metode RKU yang
matriks ragam-peragamnya diduga dengan
metode MCD dan pendugaan parameter
regresinya diduga dengan metode MKT.
Adapun kerangka pemikiran dari penelitian ini
dapat dilihat pada Lampiran 1.

Tujuan
Tujuan dari penelitian ini adalah untuk
mengetahui dampak adanya data pencilan
multivariat pada Regresi Komponen Utama
(RKU) yang matriks ragam-peragamnya
diduga dengan metode MLE dan MCD. Serta
ingin membandingkan kekekaran metode
MKT-MLE dan MKT-MCD.

TINJAUAN PUSTAKA
Analisis Regresi Linear Berganda
Analisis regresi linear berganda adalah
salah satu alat statistika yang dapat digunakan
untuk menjelaskan hubungan antara peubah
respon (Y) dengan beberapa peubah penjelas
(X) yang saling bebas. Model regresi linear
berganda yang melibatkan p peubah penjelas
adalah
dalam notasi matriks dapat disajikan sebagai
berikut
………………………………..(2)
y adalah vektor berukuran nx1 yang elemenelemennya merupakan nilai-nilai amatan dari
peubah respon. X adalah matriks berukuran
nx(p+1), β adalah vektor berukuran (p+1)x1
yang elemen-elemennya berupa parameter
regresi dan
adalah vektor sisaan yang
berukuran nx1, dengan asumsi bahwa sisaan
memiliki E( i)=0 dan Var( i)= 2 untuk
i=1,2,..,n.
Salah satu metode yang digunakan untuk
menduga parameter regresi (β) dalam regresi
linear berganda adalah Metode Kuadrat
Terkecil (MKT). Konsep dasar dari MKT
adalah menduga parameter regresi (β) dengan
meminimumkan kuadrat sisaan

sehingga dugaan bagi parameter regresi dalam
bentuk matriks dapat dirumuskan sebagai
berikut (Draper & Smith 1992).

Multikolinearitas
Salah satu asumsi dalam analisis regresi
berganda
adalah
tidak
adanya
multikolinearitas. Multikolinearitas dapat
ditandai dengan adanya korelasi yang kuat
antar peubah bebasnya. Sehingga hal ini
mengindikasikan adanya informasi yang
berlebihan
(Myers
1989).
Adanya
multikolinearitas
menyebabkan
Metode

2

Kuadrat Terkecil (MKT) menghasilkan
penduga yang tidak efisien karena matriks
yang dibangun untuk menduga parameter
regresi yaitu
akan memiliki kondisi buruk
(ill-conditioned) atau singular yang pada
akhirnya penduga ragam bagi parameter
regresi menjadi lebih besar dari seharusnya
(Myers 1989).
Analisis Komponen Utama
(AKU)
Analisis Komponen Utama (AKU) adalah
salah satu analisis peubah ganda yang
digunakan untuk menjelaskan struktur ragamperagam dari sekumpulan peubah melalui
beberapa peubah baru yang saling bebas.
Peubah baru ini merupakan kombinasi linear
dari peubah asal dan disebut sebagai
komponen utama (principal component).
Secara umum tujuan dari Analisis Komponen
Utama (AKU) adalah mereduksi dimensi data
yang besar dan saling berkorelasi menjadi
dimensi yang lebih kecil dan tidak saling
berkorelasi (Jolliffe 2002).
Komponen
utama
yang
dibentuk
berdasarkan matriks ragam-peragam adalah
sebagai berikut. Misalkan Σ merupakan
matriks ragam-peragam dari vektor x1,x2,…,xp
dengan pasangan akar ciri dan vektor ciri yang
saling ortonormal λ1,e1 , λ2,e2 ,…, λp,ep)
dengan λ1 λ2 … λp , maka komponen
utama ke-i didefinisikan sebagai berikut:

Berdasarkan definisi di atas maka ragam
dari komponen utama ke-1 adalah

Hasil penurunan persamaan Langrange
menunjukkan bahwa λ1 merupakan akar ciri
terbesar yang memaksimumkan ragam KU1
dan e1 merupakan vektor ciri yang berpadanan
dengan λ1. KU2 adalah komponen utama ke-2
. KUp
yang memaksimumkan nilai
adalah komponen utama ke-p yang memenuhi
keragaman selain KU1,KU2,...,KUp-1 dengan
memaksimumkan nilai
. Urutan
KU1,KU2,...,KUp harus memenuhi persyaratan
λ1 λ2 … λp. Sementara itu, kontribusi
keragaman dari setiap komponen utama ke-k
terhadap total keragaman adalah

Regresi Komponen Utama
(RKU)
Regresi Komponen Utama (RKU)
merupakan implementasi dari Analisis
Komponen Utama (AKU). RKU digunakan
untuk menjelaskan hubungan antara peubah
respon dengan beberapa komponen utama
sebagai peubah penjelasnya (Jolliffe 2002).
Cara pembentukan regresi komponen
utama melalui analisis komponen utama
berdasarkan matriks ragam-peragam adalah
sebagai berikut. Misalkan P adalah matriks
orthogonal (P`P=PP`=I) dan W=KU=XcP,
maka persamaan regresi linear berganda
…………………………..…..(6)
dapat disajikan
komponen utama:

dalam

bentuk

regresi

………………………….……(7)
Xc adalah matriks yang elemen-elemennya
dikurangi dengan rataannya (centered) yang
mensyaratkan rataan nol dan ragam 2. W
adalah suatu matriks berukuran nxp yang
memuat seluruh komponen utama.
Sehingga model regresi komponen utama
yang telah direduksi menjadi k komponen
adalah

α0 adalah intersep, 1 adalah vektor berukuran
nx1 yang elemen-elemennya adalah 1, Wk
adalah suatu matriks berukuran nxk dengan
k0, penggunaan formulasi di
atas
akan
menghasilkan
C2
yang
det(C2)≤det(C1). Dalam FAST-MCD akan
digunakan algoritma C-step dengan C disebut
concentration (pemusatan). Pemusatannya
dilakukan pada h amatan agar menghasilkan
jarak relatif terkecil dan C2 dipusatkan agar
memiliki determinan yang lebih kecil
dibandingkan C1. Adapun algoritma dari Cstep sebagai berikut:
1. Hitung jarak relatif dold(i) untuk i=1,2,…,n
2. Urutkan jarak relatif hasil permutasi dari π
dengan dold(π(1)) ≤ dold(π(2)) ≤…≤ dold(π
(n)).
3. Tentukan Hnew:={ π(1), π(2),…, π(h)}.
4. Hitung Tnew dan Cnew.
pengulangan
algoritma
C-step
akan
menghasilkan sejumlah proses iterasi. Proses
iterasi akan berhenti, jika det(C2)=0 atau
det(C2)=det(C1). Jika kondisi di atas belum
terpenuhi, maka proses iterasi akan terus
berlangsung hingga menghasilkan sejumlah h
amatan yang memiliki nilai determinan
terkecil dan konvergen (Tfull,Cfull). Untuk
mendapatkan konsistensi ketika data berasal
dari sebaran peubah ganda, maka hitung
……………………………...(14)
………….(15)
Selanjutnya hasil akhir dari pendugaan
FAST-MCD adalah melalui pembobot.
Pendugaan terboboti diperoleh dengan cara
sebagai beikut

4

dengan

1 Jika d (TMCD ,CMCD ) (i )

2
p ,0.975

0 Lainnya.....................................(18)
Skema algoritma FAST-MCD
dilihat pada Lampiran 2.

dapat

Pencilan
Data pencilan adalah suatu pengamatan
yang menyimpang cukup jauh dari
pengamatan lainnya sehingga menimbulkan
kecurigaan bahwa pengamatan tersebut
berasal dari distribusi data yang berbeda
(Hawkins dalam Suryana). Identifikasi data
pencilan pada data peubah ganda (multivariat)
umumnya menggunakan jarak kuadrat
Mahalanobis. Pengamatan ke-i didefinisikan
sebagai data pencilan multivariat jika jarak
Mahalanobisnya lebih besar dari nilai khikuadratnya pada p buah peubah (Jhonson
1998).

dan ∑ menyatakan vektor rataan dan
matriks ragam-peragam. Penggunaan jarak
Mahalanobis untuk mengidentifikasi pencilan
multivariat tidak maksimal jika data
mengandung lebih dari satu pengamatan
pencilan. Hal ini muncul akibat adanya
pengaruh masking dan swamping (Rousseeuw
& von Zomeren 1990; Rocke & Woodru
1996). Masking terjadi pada saat pengamatan
pencilan tidak terdeteksi sebagai pencilan
karena adanya pengamatan pencilan lain yang
berdekatan.
Swamping
terjadi
saat
pengamatan bukan pencilan teridentifikasi
sebagai pengamatan pencilan.
Masking maupun swamping dapat diatasi
dengan menggunakan penduga kekar. MCD
adalah salah satu penduga kekar untuk
menduga vektor rataan dan matriks ragamperagam yang digunakan untuk menduga
jarak Mahalanobis sehingga disebut jarak
kuadrat Mahalanobis kekar. Pengamatan ke-i
diidentifikasi sebagai pencilan multivariat jika
jarak Mahalanobis kekarnya lebih besar dari
nilai khi-kuadratnya pada p buah peubah.

)
dan
menyatakan vektor rataan dan
matriks ragam-peragam yang diduga dengan
metode MCD.

Pembangkitan Data Pencilan
Menurut Huber dkk (2005) untuk
mendapatkan
n
data
contoh
yang
terkontaminasi oleh data pencilan multivariat
dapat dilakukan dengan cara membangkitkan
sejumlah
dari sebaran normal
peubah ganda dengan parameter
,
dibangkitkan dari sebaran
sedangkan
normal peubah ganda dengan parameter
.
adalah rasio antara banyaknya
pencilan multivariat dengan banyaknya data.

BAHAN DAN METODE
Penelitian ini akan menggunakan data
simulasi. Adapun tahapan yang dilakukan
adalah sebagai berikut
1. Bangkitkan data populasi
dengan m=2000 dan p=5
berukuran
serta kondisi antar vektor x nya saling
berkorelasi,
2. Bangkitkan data pencilan multivariat
berukuran
dengan m=300 dan p=5 serta kondisi antar
vektor x nya saling berkorelasi,
3. Bangkitkan data sisaan (e) yang menyebar
N(0,1). Selanjutnya hitung Y=atX+e,
dengan at adalah vektor satuan yang
merupakan parameter populasi yang
sesungguhnya.
4. Ambil data contoh misalkan X(1)
berukuran nxp dari X(0) dengan % dari n
data diantaranya adalah data pencilan
(X(out)).
5. Hitung matriks ragam-peragam dengan
metode MLE dan MCD.
6. Hitung nilai akar ciri dari matriks ragamperagam metode MLE dan MCD.
7. Lakukan analisis komponen utama
berdasarkan ragam-peragam metode MLE
dan MCD.
8. Regresikan skor komponen pada langkah 7
terhadap Y(1) dengan metode MKT. Vektor
koefisien
regresi
yang
diperoleh
disimbolkan dengan βMKT(1).
9. Ulangi langkah 4-8 sampai r kali
10. Hitung nilai bias dan Mean Squared Error
(MSE) dari dengan cara

5

banyaknya pencilan multivariat terhadap
banyaknya data ( ) yang digunakan adalah
5%, 10%, 15% dan 20%
12. Ulangi langkah 4-11 dengan ukuran n=20
dan n=100.
13. Bandingkan nilai bias dan MSE yang
dihasilkan dari masing-masing metode.
Skema algoritma simulasi ini dapat dilihat
pada Lampiran 3. Sedangkan software yang
digunakan adalah SAS 9.1 dan Microsoft
Excel.
HASIL DAN PEMBAHASAN
Karakteristik Data Bangkitan
dibangkitkan dengan
Data populasi
vektor rataan
sedangkan data
pencilan multivariat dibangkitkan dengan
. Sedangkan
vektor rataan
besarnya korelasi antar peubah dapat dilihat
pada Lampiran 4.
Analisis pendugaan parameter regresi
komponen utama dilakukan pada ukuran data
contoh n=20 dan n=100. Ukuran contoh n=20
dipilih sebagai representasi ukuran contoh
kecil sedangkan n=100 dipilih sebagai
representasi ukuran contoh besar. Sedangkan
rasio antara banyaknya pencilan multivariat
dengan banyaknya data ( ) yang dicobakan
adalah 5%, 10%, 15% dan 20%, serta ulangan
dilakukan sebanyak 100 kali. Adapun hasil
simulasi yang dilakukan sebagai berikut.

Tabel 1 memperlihatkan bahwa dengan
bertambahnya rasio antara banyaknya
pencilan multivariat dengan banyaknya data,
RKU yang matriks ragam-peragamnya diduga
dengan MLE akan menghasilkan rata-rata
akar ciri pertama yang lebih besar
dibandingkan metode MCD terutama pada
komponen utama pertama. Akibatnya,
komponen utama pertama pada penduga MLE
akan didominasi oleh amatan pencilan, dan
tidak mencakup keragaman dari data pada
umumnya (Huber dkk 2005). Sedangkan
metode MCD menghasilkan nilai rata-rata
akar ciri pertama yang cenderung stabil,
karena rata-rata akar ciri pertama yang diduga
oleh metode ini diperoleh dari penguraian
matriks ragam-peragam yang kekar terhadap
adanya pencilan multivariat. Adapun nilainilai akar ciri dari setiap komponen utama
yang dihasilkan oleh metode MLE dan MCD
saat n=20 dan n =100 dapat dilihat pada
Lampiran 5 dan Lampiran 6.
Gambar di bawah ini menggambarkan
rasio antara nilai akar ciri pertama pada
komponen utama pertama dengan nilai akar
ciri kedua pada komponen utama kedua saat
n=20 dan n=100.
14
12
10
Nilai Rasio

11. Ulangi langkah 4-10 dengan rasio antara

8
6
4
2

Tabel 1

n
n=20

n=100

Rata-rata akar ciri pertama pada
komponen utama pertama saat
n=20 dan n=100
METODE
MLE
MCD
5%
12.10047 3.281058
10%
21.84225 3.878747
15%
31.20774 3.098879
20%
38.92775 3.560835
5%
11.94905 3.034016
10%
21.56266 3.223575
15%
30.06375 3.521161
20%
37.38446 3.281375

0
5%

10%
15%
Proporsi Pencilan
MLE

Gambar 1

20%

MCD

Rasio antara akar ciri pertama dan
akar ciri kedua saat n=20

14
12
10
Nilai Rasio

Perbedaan Akar Ciri
Rata-rata nilai akar ciri pertama pada
komponen utama pertama yang dihasilkan
oleh metode MLE dan MCD pada saat n=20
dan n=100 serta rasio antara banyaknya
pencilan multivariat dengan banyaknya data
( ) sebanyak 5%, 10%, 15% dan 20% adalah
sebagai berikut:

8
6
4
2
0

5%

10%

15%

20%

Proporsi Pencilan
MLE
MCD

Gambar 2 Rasio antara akar ciri pertama dan
akar ciri kedua saat n=100
Gambar 1 dan Gambar 2 menunjukkan
bahwa metode MLE menghasilkan rasio akar
ciri yang besar dengan semakin bertambahnya
rasio antara banyaknya pencilan multivariat

6

1.20
1.00

Mutlak Bias

1.00
0.80
0.60
0.40
0.20
0.00
5%

10%

15%

20%

Proporsi Pencilan
MLE-MKT n=20

MLE-MKT n=100

MCD-MKT n=20

MCD-MKT n=100

Gambar 4 Perbandingan nilai MSE β1 saat
n=20 dan n=100 untuk MKTMLE dan MKT-MCD.
Gambar 1 dan Gambar 2 memperlihatkan
bahwa saat rasio antara banyaknya pencilan
multivariat
dengan
banyaknya
data
meningkat lebih dari 5% nilai bias dan MSE
β1 yang dihasilkan oleh metode MKT-MCD
akan tetap lebih kecil dibandingkan MKTMLE baik pada saat ukuran contoh n=20
maupun n=100. Hal ini dikarenakan metode
MCD sebagai metode pendugaan matriks
ragam-peragam
mampu
meminimalisasi
adanya pengaruh data pencilan multivariat,
sehingga saat bertambahnya rasio antara
banyaknya pencilan multivariat terhadap
banyaknya data, metode ini akan tetap kekar.
Penambahan besarnya ukuran contoh dari
n=20 menjadi n=100 dapat memperkecil
nilai MSE pada metode MKT-MCD.
1.20
1.00
Mutlak BIas

Bias dan Mean Squared Error (MSE)
Nilai bias dan Mean Squared Error (MSE)
yang diperoleh dengan metode MKT-MLE
dan MKT-MCD, pada saat n=20 dan n=100
dapat dilihat pada Lampiran 7 dan Lampiran
8.

1.20

MSE

dengan banyaknya data baik pada saat n=20
dan n=100. Sedangkan rasio akar ciri yang
dihasilkan oleh metode MCD cenderung
konstan atau stabil. Perbedaan nilai rata-rata
akar ciri pertama pada metode MLE dan MCD
dapat menyebabkan perbedaan jumlah
komponen utama yang terpilih.
Menurut Jhonson (1998) salah satu kriteria
penentuan banyaknya jumlah komponen
utama yang digunakan adalah dengan
mengambil sejumlah komponen utama yang
mampu menjelaskan 80% total keragaman
dari data contoh. Saat peubah penjelas yang
digunakan sebanyak lima, metode MLE
memiliki kemungkinan hanya menggunakan
satu komponen utama saja untuk menjelaskan
80% total keragaman dari data contoh.
Sedangkan metode MCD akan memiliki
kemungkinan untuk menggunakan lebih besar
atau sama dengan satu komponen utama.
Dalam penelitian ini, saat rasio antara
banyaknya pencilan multivariat dengan
banyaknya data lebih besar dari 5%, metode
MCD menggunakan satu hingga dua
komponen utama saja untuk menjelaskan 80%
total keragaman dari data contoh. Walaupun
dalam analisis regresi diharapkan hanya
sedikit saja komponen utama yang digunakan
untuk menjelaskan keragaman dari data
contoh, tetapi nilai bias dan Mean Squared
Error (MSE) yang dihasilkan MKT-MLE
lebih besar dibandingkan MKT-MCD.

0.80
0.60
0.40

0.80

0.20
0.60
0.00
0.40

5%

0.20

10%

15%

20%

Proporsi Pencilan

0.00
5%

10%
15%
20%
Proporsi Pencilan
MLE-MKT n=20
MLE-MKT n=100
MCD-MKT n=20

MCD-MKT n=100

Gambar 3 Perbandingan nilai bias β1 saat
n=20 dan n=100 untuk MKTMLE dan MKT-MCD.

MLE-MKT n=20

MLE-MKT n=100

MCD-MKT n=20

MCD-MKT n=100

Gambar 5 Perbandingan nilai bias β2 saat
n=20 dan n=100 untuk MKTMLE dan MKT-MCD.

7

1.00

MSE

0.80
0.60
0.40
0.20
0.00
5%

10%
15%
20%
Proporsi Pencilan
MLE-MKT n=20
MLE-MKT n=100
MCD-MKT n=20
MCD-MKT n=100

Gambar 6 Perbandingan nilai εSE β2 saat
n=20 dan n=100 untuk MKTMLE dan MKT-MCD.
Sama halnya pada pendugaan β1, Gambar
3 dan Gambar 4 memperlihatkan bahwa nilai
bias dan MSE pada pendugaan β2 yang
dihasilkan oleh metode MKT-MCD akan
lebih kecil dibandingkan MKT-MLE, baik
saat ukuran contoh n=20 maupun n=100.
Penambahan banyaknya contoh dari n=20
menjadi n=100 mampu memperkecil nilai
MSE pada metode MKT-MCD.
1.20

Gambar 7 dan Gambar 8 memperlihatkan
kondisi yang relatif sama seperti pendugaan
β1 dan β2. Nilai bias dan MSE dari pendugaan
β3 yang dihasilkan oleh metode MKT-MCD
akan lebih kecil dibandingkan MKT-MLE
baik saat ukuran contoh n=20 maupun n=100.
Pada metode MKT-MCD, penambahan
banyaknya contoh n=20 menjadi n=100
mampu menghasilkan nilai MSE yang relatif
lebih kecil.
1.20
1.00
Mutlak Bias

1.20

0.80
0.60
0.40
0.20
0.00
5%

10%

15%

20%

Proporsi Pencilan
MLE-MKT n=20

MLE-MKT n=100

MCD-MKT n=20

MCD-MKT n=100

Gambar 9 Perbandingan nilai εSE β4 saat
n=20 dan n=100 untuk MKTMLE dan MKT-MCD.
1.2

1.00

0.8
0.60

MSE

Mutlak Bias

1
0.80

0.6

0.40

0.4

0.20

0.2
0

0.00
5%
5%

10%
15%
Proporsi Pencilan

MLE-MKT n=20
MCD-MKT n=20

20%

Proporsi Pencilan
MCD-MKT n=100

1.20
1.00
0.80

MSE

15%

MLE-MKT n=100

Gambar 7 Perbandingan nilai bias β3 saat
n=20 dan n=100 untuk MKTMLE dan MKT-MCD.

0.60
0.40
0.20
0.00
5%

10%

20%

10%
15%
20%
Proporsi Pencilan
MLE-MKT n=20
MLE-MKT n=100
MCD-MKT n=20
MCD-MKT n=100

Gambar 8 Perbandingan nilai εSE β3 saat
n=20 dan n=100 untuk MKTMCD dan MKT-MCD.

Gambar 10

MLE-MKT n=20

MLE-MKT n=100

MCD-MKT n=20

MCD-MKT n=100

Perbandingan nilai εSE β4 saat
n=20 dan n=100 untuk MKTMLE dan MKT-MCD.

Gambar 9 dan Gambar 10 menunjukkan
bahwa bias dan MSE pada pendugaan β4 yang
dihasilkan dari kedua metode pendugaan
parameter regresi komponen utama memiliki
performa yang hampir sama. Namun, jika
dilihat pada Lampiran 7 dan Lampiran 8 untuk
pendugaan β4, metode MKT-MCD tetap
menghasilkan bias dan MSE yang lebih kecil
dibandingkan metode MKT-MLE.
Nilai bias dan MSE yang dihasilkan
metode MKT-MCD tetap kecil dan hampir
sama dengan pendugaan β lainnya. Dengan
kata lain, metode ini tetap kekar saat

8

1.20

Mutlak Bias

1.00

0.80
0.60
0.40
0.20
0.00
5%

10%
15%
20%
Proporsi Pencilan
MLE-MKT n=20
MLE-MKT n=100
MCD-MKT n=20

MCD-MKT n=100

Gambar 11 Perbandingan nilai εSE β5 saat
n=20 dan n=100 untuk MLEMKT dan MKT-MCD.

1.20
1.00
0.80
MSE

bertambahnya rasio antara banyaknya
pencilan multivariat dengan banyaknya data.
Sedangkan MKT-MLE menunjukkan hal
sebaliknya yaitu nilai bias dan MSE yang
dihasilkan pada pendugaan β4 berbeda dan
cenderung relatif lebih kecil dibandingkan
pendugaan β lainnya. Hal ini dikarenakan,
pada simulasi data pencilan multivariat
dibangkitkan dengan cara menggantikan nilai
elemen rataan pada X4 dengan suatu nilai
tertentu yang lebih besar dari sebelumnya,
sedangkan nilai elemen rataan pada X lainnya
tetap. Sehingga saat n data contoh
terkontaminasi oleh pencilan multivariat,
karakteristik data pada X4 akan berbeda
dengan data-data peubah penjelas lainnya.
Perbedaan yang terjadi pada X4 adalah X4
akan memiliki rataan dan ragam yang lebih
besar dibandingkan sebelumnya. Hal ini akan
berpengaruh pada pendugaan akar ciri
maupun vektor ciri.
Peubah penjelas yang lebih dominan
berpengaruh terhadap komponen utama
pertama dapat dilihat pada vektor ciri pertama.
Adanya n data contoh yang terkontaminasi
oleh
pencilan
multivariat,
akan
mengakibatkan nilai elemen vektor ciri pada
X4 memiliki nilai yang jauh lebih besar
dibandingkan elemen vektor ciri pada X
lainnya. Sehingga komponen utama pertama
akan didominasi oleh X4.
Transformasi peubah baru ke peubah X
atau peubah asal dilakukan untuk mengetahui
dugaan parameter regresi pada model awal.
Pengaruh X4 yang dominan pada komponen
utama pertama, akan menyebabkan nilai
dugaan parameter regresi yang dihasilkannya
mendekati nilai parameter sesungguhnya.
Sehingga dengan kondisi seperti ini nilai bias
dan MSE yang dihasilkan untuk menduga
parameter X4 relatif lebih kecil dibandingkan
X lainnya.

0.60
0.40
0.20
0.00
5%

10%

15%

20%

Proporsi Pencilan

Gambar 12

MLE-MKT n=20

MLE-MKT n=100

MCD-MKT n=20

MCD-MKT n=100

Perbandingan nilai εSE β5 saat
n=20 dan n=100 untuk MKTMLE dan MKT-MCD.

Kedua gambar di atas menggambarkan
nilai bias dan MSE yang dihasilkan pada
pendugaan β5. Nilai bias dan MSE yang
dihasilkannya cenderung memiliki performa
yang relatif sama seperti pada pendugaan β1,
β2, dan β3. Metode MKT-MCD menghasilkan
nilai bias dan MSE yang relatif lebih kecil
dibandingkan MKT-MLE saat ukuran contoh
n=20 maupun n=100. Penambahan banyaknya
contoh n=20 menjadi n=100 pada metode
MKT-MCD mampu memperkecil nilai MSE.
Secara umum pada saat n=20 dan n=100
nilai bias dan MSE yang dihasilkan oleh
metode MKT-MCD cenderung lebih kecil
dibandingkan metode MKT-MLE dalam
menduga parameter regresi komponen utama
(RKU).

KESIMPULAN DAN SARAN
Kesimpulan
Hasil penelitian ini menunjukkan bahwa
dampak adanya pencilan multivariat pada
analisis regresi komponen utama yang matriks
ragam-peragamnya diduga oleh metode MCD
akan menghasilkan nilai rata-rata akar ciri
pertama yang tetap stabil pada Komponen
Utama Pertama (KU1), walaupun rasio
pencilan multivariat dengan banyaknya data
terus bertambah.
Metode MKT-MCD akan lebih baik dalam
menduga parameter regresi komponen utama
apabila rasio pencilan multivariat dengan
banyaknya data lebih besar dari 5% (10%,
15% dan 20%) karena metode MKT-MCD
cenderung mengahasilkan nilai bias dan Mean
Squared Error (MSE) yang relatif kecil.
Sedangkan jika rasio pencilan multivariat
dengan banyaknya data kurang dari 5%,

9

metode MKT-MCD dan MKT-MLE akan
menghasilkan performa yang sama baik .

Sartono, B. at al. 2003. Modul Teori Analisis
Peubah Ganda. Institut Pertanian Bogor.

Saran
Perlu pengkajian mengenai kombinasi
adanya pengaruh pencilan dalam peubah
respon maupun peubah penjelas terhadap
dugaan parameter regresi. Pengkajian dalam
penggunaan matrik ragam-peragam dalam
analisis peubah ganda seperti analisis biplot,
analisis
gerombol
maupun
analisis
diskriminan cukup menarik untuk dikaji.

Smith, I.L. 2002. A Tutorial on Principal
Components Analysis. http://www.cs.
otago.ac.nz/cosc453/...tutorial/principal_c
omponents.pdf. [16 Juli 2009]

DAFTAR PUSTAKA
Atkinson, A. and M. Riani. 2000. Robust
Diagnostic Regression Analysis. New
York: Springer.
Aunuddin. 1989. Analisis Data. Institut
Pertanian Bogor.
Huber, M., P.J.
Rousseew, & K.V.
Branden. 2005. ROBPCA:
A New
Approach to Robust Principal Component
Analysis. Technometrrics 47, 64-79.
Jhonson, R.A. & D.W. Wichern. 1998.
Applied Multivaiate Statistics Analysis,
Fourt edition. London: Prentice-Hall.
Myers, R.M. 1989. Clasical and Modern
Regression with Application, Second
Edition. Boston: PWS-KENT.
Nasoetion, A.H & A. Rambe. 1984. Teori
Statistika untuk Ilmu-Ilmu Kuantitatif,
Edisi kedua. Jakarta: Bhratara Karya
Aksara
Notiragayu. 2008. Pembandingan Beberapa
Metode Analisis Regresi Komponen
Utama Robust. [Makalah Seminar Hasil
Penelitian
&
Pengabdian
Kepada
Masyarakat].
Bandar
Lampung:
Universitas Lampung.
Rocke, D.M. & D.L. Woodruff. 1996.
Identification of Outliers in Multivariate
Data. Journal of the American Statistical
Association 91, 1047–1061.
Rousseeuw, P. & V. Driessen. 1999. A Fast
Algorithm for the Minimum Covariance
Determinant Estimator. Technometrics 41,
212-223.

Sumantri, B. 1992. Analisis Regresi Terapan,
Edisis kedua. Draper, N.R. & H. Smith,
penerjemah; Jakarta: PT Gramedia Pustaka
Umum.
Terjemahan
dari: Applied
Regression Analiysis, Second Edition.
Suryana. 2008. Analisis Deskriminan Robust
dengan
Menggunakan
Penaksiran
Minimum Covariance Determinant dan
Minimum Weight Covariance Determinant
[Tesis]. Surabaya: Sekolah Pascasarjana,
Institut Teknologi Surabaya.

LAMPIRAN

10

Lampiran 1. Skema kerangka pemikiran
Regresi Berganda

Multikolinear

Regresi Komponen Utama
(RKU)

Komponen Utama

Matriks
Ragam-peragam

Maximum Likelihood
Estimation (MLE)

Tidak Resisten Terhadap
pencilan Multivariat

Komponen Utama

Matriks
Ragam-peragam

Minimum Covariance
Determinant (MCD)

11

Lampiran 2. Skema algoritma metode FAST-MCD

Misalkan didefinisikan
X=[x1,x2,…,xp]'

Tentukan H1 dari X yang terdiri
dari h elemen dengan
h=(n+p+1)/2

Hitung tMCD dan CMCD
Hitung rataan(t1), ragamperaga(C1 ) dan Det(CI) dari
H1 .

Hitung jarak relatif di

Tentukan H2 berdasarkan jarak
relatif yang terkecil di

YES

NO

Apakah
Det(C2)