Manajemen data pencilan pada analisis regresi komponen utama

RINGKASAN
MAGRI HANDOKO. Manajemen Data Pencilan pada Analisis Regresi Komponen Utama.
Dibimbing oleh TOTONG MARTONO dan ANIK DJURAIDAH.
Metode Determinan Peragam Minimum (MCD) merupakan metode pendugaan matriks
ragam-peragam yang kekar terhadap pencilan. Metode ini membentuk matriks ragam-peragam
dengan cara menemukan himpunan bagian amatan yang memiliki determinan matriks ragamperagam terkecil. Dalam regresi komponen utama, matriks ragam-peragam ini digunakan untuk
membentuk komponen utama yang akan diregresikan dengan peubah respon. Untuk pendugaan
parameter regresi biasanya digunakan Metode Kuadrat Terkecil (MKT). Metode ini sensitif
terhadap pencilan, padahal terdapat juga kemungkinan adanya pencilan ketika komponen utama
diregresikan dengan peubah respon. Oleh karena itu digunakan Metode Kuadrat Terkecil
Terpotong (MKTT) yang diharapkan dapat menyusun model regresi yang kekar. MKTT ini
menduga parameter regresi dengan menggunakan himpunan bagian amatan yang memiliki jumlah
kuadrat sisaan terkecil. Pada penelitian ini, peneliti menerapkan dua metode untuk menduga
parameter regresi yaitu metode MCD-MKT dan MCD-MKTT. Kedua metode tersebut dicobakan
pada data yang dikontaminasi pencilan dengan proporsi 1% sampai 10%. Hal ini dilakukan untuk
melihat kekekaran kedua metode tersebut. Hasil yang diperoleh dari penelitian ini menunjukkan
bahwa metode MCD-MKTT menghasilkan pendugaan yang lebih kekar dibandingkan metode
MCD-MKT.
Kata Kunci : Multikolinearitas, kekar, Minimum Covariance Determinant, Metode Kuadrat
Terkecil Terpotong.


1

PENDAHULUAN

TINJAUAN PUSTAKA

Latar Belakang
Multikolinearitas merupakan masalah
yang sering muncul dalam analisis regresi
linear berganda. Masalah tersebut terjadi
ketika adanya korelasi yang kuat antara
peubah penjelas. Hal ini dapat menyebabkan
matriks X’X memiliki kondisi buruk (ill
condition) atau hampir singular yang pada
akhirnya akan menyebabkan nilai penduga
ragam bagi parameter regresi menjadi lebih
besar (Draper & Smith 1992).
Salah satu metode yang digunakan untuk
mengatasi adanya multikolinearitas dalam
regresi linear berganda adalah Regresi

Komponen Utama (RKU). Metode ini
mengatasi multikolinearitas dengan cara
membentuk komponen-komponen utama yang
tidak
saling
berkorelasi.
Komponenkomponen utama ini dibentuk dari peubah
penjelasnya yang dihasilkan dari penguraian
matriks ragam-peragam. Untuk menduga
matriks ragam-peragam biasanya digunakan
metode kemungkinan maksimum (Maximum
Likelihood Estimation). Namun, metode
pendugaan ini sangat sensitif terhadap
pencilan. Oleh karena itu, digunakan metode
Determinan Peragam Minimum (Minimum
Covariance
Determinant/MCD),
yang
diperkenalkan oleh Rousseeuw pada tahun
1984, yang merupakan metode pendugaan

matriks ragam-peragam yang kekar terhadap
pencilan.
Komponen-komponen utama yang telah
terbentuk kemudian diregresikan terhadap
peubah respon. Metode Kuadrat Terkecil
(MKT) biasanya digunakan untuk pendugaan
parameter regresi. Saat menduga parameter
regresi terdapat juga kemungkinan adanya
pencilan ketika satu atau lebih komponen
utama diregresikan dengan peubah respon,
sehingga digunakan Metode Kuadrat Terkecil
Terpotong (MKTT) yang diharapkan dapat
menyusun model regresi yang kekar.
Penelitian ini akan menggunakan MCD
untuk menduga matriks ragam-peragam dalam
analisis regresi komponen utama. Sedangkan
parameter regresi akan diduga dengan
menggunakan MKT dan MKTT.

Analisis Regresi Linear Berganda

Analisis regresi linear berganda adalah
salah satu alat statistika untuk mengevaluasi
hubungan antara peubah respon dengan
beberapa peubah penjelas. Model regresi
linear berganda yang melibatkan p peubah
penjelas (x1,x2,…,xp) yang terkoreksi dengan
rataannya adalah

Tujuan
Tujuan dari penelitian ini adalah untuk
membandingkan kekekaran metode MCDMKT dan MCD-MKTT terhadap data yang
dikontaminasi dengan pencilan.

Dalam notasi matriks dapat disajikan
sebagai berikut:
dengan y adalah vektor peubah respon
berukuran nx1, X adalah matriks peubah
penjelas berukuran nxp, β adalah vektor
koefisien regresi berukuran px1 dan ε adalah
vektor

sisaan,
dengan
(Saefuddin et al 2009).
Salah satu metode yang digunakan untuk
menduga parameter regresi dalam regresi
linear berganda adalah MKT. Konsep dasar
dari MKT untuk menduga parameter regresi
adalah dengan jalan meminimumkan jumlah
kuadrat simpangan nilai pengamatan dengan
nilai dugaan (Aunuddin 2005).
Multikolinearitas
Salah satu asumsi dalam analisis regresi
berganda adalah tidak adanya korelasi yang
kuat antara peubah penjelasnya atau disebut
multikolinearitas. Hal ini dapat menyebabkan
MKT menghasilkan penduga yang tidak
efisien karena matriks yang dibangun untuk
menduga parameter yaitu X’X hampir
singular sehingga penduga ragam bagi
parameter regresi menjadi lebih besar dari

seharusnya (Myers 1989).
Analisis Kompnen Utama
Analisis Komponen Utama (AKU) adalah
metode analisis peubah ganda yang bertujuan
memperoleh peubah-peubah baru (komponen
utama) yang berasal dari peubah asalnya.
Komponen-komponen utama yang terbentuk
tidak
saling
berkorelasi
dan
dapat
diungkapkan dalam bentuk
dengan W adalah nilai atau skor
komponen utama, X adalah matriks data
terkoreksi oleh rataannya (centered), dan V
adalah matriks berukuran pxp yang kolom kei merupakan vektor ciri ke-i dari matriks
ragam-peragam
dan akar-akar cirinya
disusun dalam urutan

(Jollife 2002).

1

PENDAHULUAN

TINJAUAN PUSTAKA

Latar Belakang
Multikolinearitas merupakan masalah
yang sering muncul dalam analisis regresi
linear berganda. Masalah tersebut terjadi
ketika adanya korelasi yang kuat antara
peubah penjelas. Hal ini dapat menyebabkan
matriks X’X memiliki kondisi buruk (ill
condition) atau hampir singular yang pada
akhirnya akan menyebabkan nilai penduga
ragam bagi parameter regresi menjadi lebih
besar (Draper & Smith 1992).
Salah satu metode yang digunakan untuk

mengatasi adanya multikolinearitas dalam
regresi linear berganda adalah Regresi
Komponen Utama (RKU). Metode ini
mengatasi multikolinearitas dengan cara
membentuk komponen-komponen utama yang
tidak
saling
berkorelasi.
Komponenkomponen utama ini dibentuk dari peubah
penjelasnya yang dihasilkan dari penguraian
matriks ragam-peragam. Untuk menduga
matriks ragam-peragam biasanya digunakan
metode kemungkinan maksimum (Maximum
Likelihood Estimation). Namun, metode
pendugaan ini sangat sensitif terhadap
pencilan. Oleh karena itu, digunakan metode
Determinan Peragam Minimum (Minimum
Covariance
Determinant/MCD),
yang

diperkenalkan oleh Rousseeuw pada tahun
1984, yang merupakan metode pendugaan
matriks ragam-peragam yang kekar terhadap
pencilan.
Komponen-komponen utama yang telah
terbentuk kemudian diregresikan terhadap
peubah respon. Metode Kuadrat Terkecil
(MKT) biasanya digunakan untuk pendugaan
parameter regresi. Saat menduga parameter
regresi terdapat juga kemungkinan adanya
pencilan ketika satu atau lebih komponen
utama diregresikan dengan peubah respon,
sehingga digunakan Metode Kuadrat Terkecil
Terpotong (MKTT) yang diharapkan dapat
menyusun model regresi yang kekar.
Penelitian ini akan menggunakan MCD
untuk menduga matriks ragam-peragam dalam
analisis regresi komponen utama. Sedangkan
parameter regresi akan diduga dengan
menggunakan MKT dan MKTT.


Analisis Regresi Linear Berganda
Analisis regresi linear berganda adalah
salah satu alat statistika untuk mengevaluasi
hubungan antara peubah respon dengan
beberapa peubah penjelas. Model regresi
linear berganda yang melibatkan p peubah
penjelas (x1,x2,…,xp) yang terkoreksi dengan
rataannya adalah

Tujuan
Tujuan dari penelitian ini adalah untuk
membandingkan kekekaran metode MCDMKT dan MCD-MKTT terhadap data yang
dikontaminasi dengan pencilan.

Dalam notasi matriks dapat disajikan
sebagai berikut:
dengan y adalah vektor peubah respon
berukuran nx1, X adalah matriks peubah
penjelas berukuran nxp, β adalah vektor

koefisien regresi berukuran px1 dan ε adalah
vektor
sisaan,
dengan
(Saefuddin et al 2009).
Salah satu metode yang digunakan untuk
menduga parameter regresi dalam regresi
linear berganda adalah MKT. Konsep dasar
dari MKT untuk menduga parameter regresi
adalah dengan jalan meminimumkan jumlah
kuadrat simpangan nilai pengamatan dengan
nilai dugaan (Aunuddin 2005).
Multikolinearitas
Salah satu asumsi dalam analisis regresi
berganda adalah tidak adanya korelasi yang
kuat antara peubah penjelasnya atau disebut
multikolinearitas. Hal ini dapat menyebabkan
MKT menghasilkan penduga yang tidak
efisien karena matriks yang dibangun untuk
menduga parameter yaitu X’X hampir
singular sehingga penduga ragam bagi
parameter regresi menjadi lebih besar dari
seharusnya (Myers 1989).
Analisis Kompnen Utama
Analisis Komponen Utama (AKU) adalah
metode analisis peubah ganda yang bertujuan
memperoleh peubah-peubah baru (komponen
utama) yang berasal dari peubah asalnya.
Komponen-komponen utama yang terbentuk
tidak
saling
berkorelasi
dan
dapat
diungkapkan dalam bentuk
dengan W adalah nilai atau skor
komponen utama, X adalah matriks data
terkoreksi oleh rataannya (centered), dan V
adalah matriks berukuran pxp yang kolom kei merupakan vektor ciri ke-i dari matriks
ragam-peragam
dan akar-akar cirinya
disusun dalam urutan
(Jollife 2002).

2

Keragaman komponen utama ke-i adalah:
dengan total keragaman komponen utama
adalah
. Sementara
itu, persentase total keragaman yang mampu
dijelaskan oleh komponen utama ke-i adalah
.
Pada praktiknya, analisis komponen utama
juga digunakan untuk mereduksi banyaknya p
peubah asal menjadi k peubah baru yang akan
digunakan, dengan
. Terdapat tiga
metode untuk menentukan banyaknya k yang
akan digunakan, yaitu sebagai berikut:
1. Scree plot, merupakan plot antara akar
ciri
dengan k. Penentuan banyaknya k
yaitu ketika pada titik k, plot tersebut
curam di kiri tapi landai di kanan.
2. Akar ciri, penentuan banyaknya k yang
digunakan yaitu berdasarkan nilai akar
cirinya. Kaiser (1960) menjelaskan bahwa
komponen utama yang digunakan adalah
komponen utama yang memiliki padanan
akar ciri lebih dari satu. Jollife (1972)
dalam studinya mengatakan bahwa nilai
cut off yang lebih baik bukanlah satu
melainkan 0.7.
3. Persentase kumulatif total keragaman,
penentuan banyaknya k yang akan
digunakan yaitu ketika komponen utama
yang pertama sampai dengan k telah
memenuhi batas proporsi kumulatif total
keragaman yang diinginkan. Tidak ada
patokan baku mengenai berapa nilai
minimum persentase kumulatif total
keragaman yang digunakan, sehingga
tergantung
peneliti
yang
ingin
menggunakannya.
Jollife
(2002)
menyatakan nilai minimum persentase
kumulatif total keragaman berkisar antara
70% sampai 90%.
Regresi Komponen Utama
RKU merupakan implementasi dari AKU.
RKU digunakan untuk menjelaskan hubungan
antara peubah respon dengan satu atau lebih
peubah komponen utama sebagai peubah
penjelasnya.
Berikut ini disajikan model regresi
komponen utama yang dibentuk dari model
regresi linear berganda

dengan
adalah suatu matriks yang
berukuran nxk yang memuat sejumlah k
komponen utama,
adalah vektor koefisien
regresi komponen utama yang berukuran kx1.
Determinan Peragam Minimum
MCD merupakan penduga yang sangat
kekar untuk menduga parameter nilai tengah
dan matriks ragam-peragam (Rousseeuw et al
2004). MCD bertujuan mendapatkan h
pengamatan dari n objek yang memiliki
matriks ragam-peragam terkecil, dengan h
merupakan bilangan bulat terbesar dari
(Rousseeuw & Driessen
1999). Algoritma MCD sebagai berikut:
1. Ambil secara acak
amatan,
dan
kemudian hitung nilai tengah
matriks ragam-peragamnya
.
2. Inisiasikan k=0
3. Lakukan pengulangan untuk proses di
bawah ini:
dan
3.1. Definisikan
3.2. Hitung jarak setiap amatan dengan
rumus

3.3. Urutkan data amatan dari yang
terkecil hingga terbesar dengan acuan
.
3.4. Pilih sebanyak
amatan yang memiliki
terkecil dan tempatkan dalam
himpunan bagian H
3.5.
dan matriks
3.6. Hitung nilai tengah
dari sejumlah h
ragam-peragam
amatan yang terambil
4. Lakukan langkah 3 sampai
.
atau
5. Himpunan bagian H terakhir yang
terbentuk adalah himpunan bagian yang
memiliki determinan matriks ragamperagam terkecil, sehingga
dan
6. Selanjutnya, dilakukan tahap pembobotan:

dengan
sehingga model regresi komponen utama yang
telah direduksi menjadi k komponen adalah

3

Metode Kuadrat Terkecil Terpotong
MKTT adalah salah satu metode
penaksiran parameter regresi yang kekar
terhadap kehadiran pencilan. Prinsip dari
MKTT ini adalah dengan meminimumkan
jumlah kuadrat sisaan dari himpunan bagian
data yang terbentuk (Rousseeuw & Driessen
2006).

dimana

dan
.

Pencilan
Jarak Mahalanobis adalah salah satu
metode untuk mengidentifikasi data pencilan
pada data peubah ganda. Pengamatan ke-i
didefinisikan sebagai pencilan jika jarak
Mahalanobisnya lebih besar dari nilai khikuadrat pada p peubah.

2. Hitung dari persamaan
,
dengan
merupakan vektor koefisien
regresi berdimensi px1. Pada penilitian ini,
peneliti menggunakan
.
3. Membuat matriks
dengan cara
mengganti sejumlah data
dengan data
pencilan pada
. Banyaknya pencilan
yang diberikan adalah , dengan adalah
proporsi pencilan dari jumlah data.
4. Menghitung matriks ragam-peragam
dengan metode MCD.
5. Melakukan analisis komponen utama
berdasarkan
matriks
ragam-peragam
metode MCD.
6. Meregresikan skor komponen utama pada
langkah 7 terhadap dengan metode MKT
dan MKTT. Vektor koefisien regresi yang
diperoleh disimbolkan dengan
.
7. Ulangi langkah 3 sampai 6 sebanyak 100
kali.
8. Menghitung nilai bias dan Kuadrat Tengah
yang dihasilkan
Galat (KTG) dari
masing-masing metode.

METODOLOGI
Karakteristik Data Bangkitan
Penelitian ini menggunakan data bangkitan
atau simulasi. Matriks data
dibangkitkan
dengan kondisi antar kolomnya memiliki nilai
korelasi yang tinggi (lebih dari 0.8). Matriks
korelasi yang digunakan dapat dilihat pada
Lampiran 1. Matriks data
dibangkitkan
dari sebaran normal ganda dengan vektor
rataan µ = [10 10 10 10] dan matriks ragam
peragam yang dapat dilihat pada Lampiran
2. Matriks data
ini beukuran nxp, dengan
n=100 dan p=4.
Matriks data pencilan
dibangkitkan
dari sebaran normal ganda dengan vektor
rataan µ = [25 25 25 25] dan matriks ragamperagamnya sama seperti matriks ragamperagam pada
. Matriks data pencilan
ini berukuran mxp, dengan m=5000 dan
p=4. Kemudian dibangkitkan juga data sisaan
dari sebaran normal dengan nilai tengah
dan simpangan baku
.
Proporsi banyaknya pencilan dari jumlah
data
yang dicobakan adalah 1% sampai
10%. Jumlah ulangan yang dilakukan untuk
setiap proporsi pencilan sebanyak 100 kali.
Metode
Berikut ini adalah tahapan metode yang
akan dilakukan dalam penelitian ini:
1. Membangkitkan data
dan
seperti yang telah dijelaskan di atas.

9. Ulangi langkah 3 sampai 8 dengan yang
berbeda (nilai
yang digunakan 1%
sampai 10%).
10. Membandingkan nilai bias dan KTG yang
dihasilkan dari masing-masing metode.

HASIL DAN PEMBAHASAN
Analisis Komponen Utama
Pada penelitian ini, komponen utama yang
digunakan yaitu komponen utama yang
mampu menjelaskan minimal 80% total
keragaman. Besarnya persentase kumulatif
total keragaman pada komponen utama
pertama yang dihasilkan oleh metode MCD
yaitu di atas 80% pada setiap proporsi
pencilan
yang dicobakan, sehingga
banyaknya
komponen
utama
yang
diregresikan dengan peubah respon yaitu satu
komponen utama.
Bias dan KTG dari
Nilai bias dan KTG yang diperoleh dari
metode MCD-MKT dan MCD-MKTT
terdapat di Lampiran 3 dan 4.

3

Metode Kuadrat Terkecil Terpotong
MKTT adalah salah satu metode
penaksiran parameter regresi yang kekar
terhadap kehadiran pencilan. Prinsip dari
MKTT ini adalah dengan meminimumkan
jumlah kuadrat sisaan dari himpunan bagian
data yang terbentuk (Rousseeuw & Driessen
2006).

dimana

dan
.

Pencilan
Jarak Mahalanobis adalah salah satu
metode untuk mengidentifikasi data pencilan
pada data peubah ganda. Pengamatan ke-i
didefinisikan sebagai pencilan jika jarak
Mahalanobisnya lebih besar dari nilai khikuadrat pada p peubah.

2. Hitung dari persamaan
,
dengan
merupakan vektor koefisien
regresi berdimensi px1. Pada penilitian ini,
peneliti menggunakan
.
3. Membuat matriks
dengan cara
mengganti sejumlah data
dengan data
pencilan pada
. Banyaknya pencilan
yang diberikan adalah , dengan adalah
proporsi pencilan dari jumlah data.
4. Menghitung matriks ragam-peragam
dengan metode MCD.
5. Melakukan analisis komponen utama
berdasarkan
matriks
ragam-peragam
metode MCD.
6. Meregresikan skor komponen utama pada
langkah 7 terhadap dengan metode MKT
dan MKTT. Vektor koefisien regresi yang
diperoleh disimbolkan dengan
.
7. Ulangi langkah 3 sampai 6 sebanyak 100
kali.
8. Menghitung nilai bias dan Kuadrat Tengah
yang dihasilkan
Galat (KTG) dari
masing-masing metode.

METODOLOGI
Karakteristik Data Bangkitan
Penelitian ini menggunakan data bangkitan
atau simulasi. Matriks data
dibangkitkan
dengan kondisi antar kolomnya memiliki nilai
korelasi yang tinggi (lebih dari 0.8). Matriks
korelasi yang digunakan dapat dilihat pada
Lampiran 1. Matriks data
dibangkitkan
dari sebaran normal ganda dengan vektor
rataan µ = [10 10 10 10] dan matriks ragam
peragam yang dapat dilihat pada Lampiran
2. Matriks data
ini beukuran nxp, dengan
n=100 dan p=4.
Matriks data pencilan
dibangkitkan
dari sebaran normal ganda dengan vektor
rataan µ = [25 25 25 25] dan matriks ragamperagamnya sama seperti matriks ragamperagam pada
. Matriks data pencilan
ini berukuran mxp, dengan m=5000 dan
p=4. Kemudian dibangkitkan juga data sisaan
dari sebaran normal dengan nilai tengah
dan simpangan baku
.
Proporsi banyaknya pencilan dari jumlah
data
yang dicobakan adalah 1% sampai
10%. Jumlah ulangan yang dilakukan untuk
setiap proporsi pencilan sebanyak 100 kali.
Metode
Berikut ini adalah tahapan metode yang
akan dilakukan dalam penelitian ini:
1. Membangkitkan data
dan
seperti yang telah dijelaskan di atas.

9. Ulangi langkah 3 sampai 8 dengan yang
berbeda (nilai
yang digunakan 1%
sampai 10%).
10. Membandingkan nilai bias dan KTG yang
dihasilkan dari masing-masing metode.

HASIL DAN PEMBAHASAN
Analisis Komponen Utama
Pada penelitian ini, komponen utama yang
digunakan yaitu komponen utama yang
mampu menjelaskan minimal 80% total
keragaman. Besarnya persentase kumulatif
total keragaman pada komponen utama
pertama yang dihasilkan oleh metode MCD
yaitu di atas 80% pada setiap proporsi
pencilan
yang dicobakan, sehingga
banyaknya
komponen
utama
yang
diregresikan dengan peubah respon yaitu satu
komponen utama.
Bias dan KTG dari
Nilai bias dan KTG yang diperoleh dari
metode MCD-MKT dan MCD-MKTT
terdapat di Lampiran 3 dan 4.

3

Metode Kuadrat Terkecil Terpotong
MKTT adalah salah satu metode
penaksiran parameter regresi yang kekar
terhadap kehadiran pencilan. Prinsip dari
MKTT ini adalah dengan meminimumkan
jumlah kuadrat sisaan dari himpunan bagian
data yang terbentuk (Rousseeuw & Driessen
2006).

dimana

dan
.

Pencilan
Jarak Mahalanobis adalah salah satu
metode untuk mengidentifikasi data pencilan
pada data peubah ganda. Pengamatan ke-i
didefinisikan sebagai pencilan jika jarak
Mahalanobisnya lebih besar dari nilai khikuadrat pada p peubah.

2. Hitung dari persamaan
,
dengan
merupakan vektor koefisien
regresi berdimensi px1. Pada penilitian ini,
peneliti menggunakan
.
3. Membuat matriks
dengan cara
mengganti sejumlah data
dengan data
pencilan pada
. Banyaknya pencilan
yang diberikan adalah , dengan adalah
proporsi pencilan dari jumlah data.
4. Menghitung matriks ragam-peragam
dengan metode MCD.
5. Melakukan analisis komponen utama
berdasarkan
matriks
ragam-peragam
metode MCD.
6. Meregresikan skor komponen utama pada
langkah 7 terhadap dengan metode MKT
dan MKTT. Vektor koefisien regresi yang
diperoleh disimbolkan dengan
.
7. Ulangi langkah 3 sampai 6 sebanyak 100
kali.
8. Menghitung nilai bias dan Kuadrat Tengah
yang dihasilkan
Galat (KTG) dari
masing-masing metode.

METODOLOGI
Karakteristik Data Bangkitan
Penelitian ini menggunakan data bangkitan
atau simulasi. Matriks data
dibangkitkan
dengan kondisi antar kolomnya memiliki nilai
korelasi yang tinggi (lebih dari 0.8). Matriks
korelasi yang digunakan dapat dilihat pada
Lampiran 1. Matriks data
dibangkitkan
dari sebaran normal ganda dengan vektor
rataan µ = [10 10 10 10] dan matriks ragam
peragam yang dapat dilihat pada Lampiran
2. Matriks data
ini beukuran nxp, dengan
n=100 dan p=4.
Matriks data pencilan
dibangkitkan
dari sebaran normal ganda dengan vektor
rataan µ = [25 25 25 25] dan matriks ragamperagamnya sama seperti matriks ragamperagam pada
. Matriks data pencilan
ini berukuran mxp, dengan m=5000 dan
p=4. Kemudian dibangkitkan juga data sisaan
dari sebaran normal dengan nilai tengah
dan simpangan baku
.
Proporsi banyaknya pencilan dari jumlah
data
yang dicobakan adalah 1% sampai
10%. Jumlah ulangan yang dilakukan untuk
setiap proporsi pencilan sebanyak 100 kali.
Metode
Berikut ini adalah tahapan metode yang
akan dilakukan dalam penelitian ini:
1. Membangkitkan data
dan
seperti yang telah dijelaskan di atas.

9. Ulangi langkah 3 sampai 8 dengan yang
berbeda (nilai
yang digunakan 1%
sampai 10%).
10. Membandingkan nilai bias dan KTG yang
dihasilkan dari masing-masing metode.

HASIL DAN PEMBAHASAN
Analisis Komponen Utama
Pada penelitian ini, komponen utama yang
digunakan yaitu komponen utama yang
mampu menjelaskan minimal 80% total
keragaman. Besarnya persentase kumulatif
total keragaman pada komponen utama
pertama yang dihasilkan oleh metode MCD
yaitu di atas 80% pada setiap proporsi
pencilan
yang dicobakan, sehingga
banyaknya
komponen
utama
yang
diregresikan dengan peubah respon yaitu satu
komponen utama.
Bias dan KTG dari
Nilai bias dan KTG yang diperoleh dari
metode MCD-MKT dan MCD-MKTT
terdapat di Lampiran 3 dan 4.

4

0.9

1

0.8

0.9
0.8

0.7

0.7
0.6
Bias

Bias

0.6
0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1
0

0
1
1

2

3

4
5
6
7
8
Proporsi pencilan (%)

MCD-MKTT

9

2

3

4

5

6

7

8

9

10

10
Proporsi pencilan (%)

MCD-MKT

MCD-MKTT

Gambar 1 Perbandingan nilai bias 1 pada
MCD-MKTT dan MCD-MKT

MCD-MKT

Gambar 3 Perbandingan nilai bias 2 pada
MCD-MKTT dan MCD-MKT

0.8
0.8
0.7
0.7
0.6
0.6
0.5
Bias

Bias

0.5
0.4

0.4

0.3
0.3
0.2
0.2
0.1
0.1
0
0
1

2

3

4

5

6

7

8

9

10
1

2

3

4

5

6

7

8

9

10

Proporsi pencilan (%)
Proporsi pencilan (%)
MCD-MKTT

MCD-MKT
MCD-MKTT

Gambar 2 Perbandingan nilai KTG 1 pada
MCD-MKTT dan MCD-MKT
Pendugaan koefisien regresi
1 yang
dihasilkan oleh metode MCD-MKTT lebih
baik dibandingkan dengan metode MCDMKT. Hal ini dikarenakan pada metode
MCD-MKTT menghasilkan nilai bias dan
KTG yang lebih kecil dibandingkan dengan
MCD-MKT seperti yang terlihat pada Gambar
1 dan 2. Seiring dengan peningkatan proporsi
pencilan yang diberikan pada data contoh,
bias dan KTG yang dihasilkan metode MCDMKT juga mengalami peningkatan, berbeda
dengan
metode
MCD-MKTT
yang
menghasilkan nilai bias dan KTG yang relatif
stabil.

MCD-MKT

Gambar 4 Perbandingan nilai KTG 2 pada
MCD-MKTT dan MCD-MKT
Gambar 3 dan 4 menunjukkan nilai bias
dan KTG pada pendugaan koefisien regresi
2. Gambar tersebut dapat menjelaskan bahwa
nilai bias dan KTG yang dihasilkan oleh
metode
MCD-MKTT
lebih
kecil
dibandingkan dengan metode MCD-MKT.
Pada gambar di atas terlihat bahwa
walaupun terdapat peningkatan proporsi
pencilan pada data contoh, metode MCDMKTT memiliki performa yang stabil, seperti
yang ditunjukkan pada nilai bias dan KTG.
Hal ini berbeda dengan metode MCD-MKT
yang memperlihatkan pola peningkatan nilai
bias dan KTG seiring dengan peningkatan
proporsi pencilan pada data contoh.

0.9

0.9

0.8

0.8

0.7

0.7

0.6

0.6

0.5

0.5

Bias

Bias

5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0

0
1

2

3

4

5

6

7

8

9

10

1

2

3

Proporsi pencilan (%)
MCD-MKTT

5

6

7

8

9

10

Proporsi pencilan (%)

MCD-MKT

MCD-MKTT

Gambar 5 Perbandingan nilai bias 3 pada
MCD-MKTT dan MCD-MKT
0.8

0.8

0.7

0.7

0.6

0.6

0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0

MCD-MKT

Gambar 7 Perbandingan nilai bias 4 pada
MCD-MKTT dan MCD-MKT

Bias

Bias

4

0
1

2

3

4

5

6

7

8

9

10

Proporsi pencilan (%)
MCD-MKTT

MCD-MKT

Gambar 6 Perbandingan nilai KTG 3 pada
MCD-MKTT dan MCD-MKT
Sama halnya dengan pendugaan koefisien
regresi 1 dan 2, pendugaan koefisien regresi
3 dengan metode MCD-MKTT lebih baik
dibandingkan dengan metode MCD-MKT.
Hal ini terlihat pada Gambar 5 dan 6 yang
menunjukkan bahwa nilai bias dan KTG
metode
MCD-MKTT
lebih
kecil
dibandingkan metode MCD-MKT.

1

2

3

4

5

6

7

8

9

10

Proporsi pencilan (%)
MCD-MKTT

MCD-MKT

Gambar 8 Perbandingan nilai KTG 4 pada
MCD-MKTT dan MCD-MKT
Gambar 7 dan 8 menunjukkan nilai bias
dan KTG pendugaan koefisien regresi 4 yang
kondisinya relatif sama dengan pendugaan
koefisien regresi 1, 2 dan 3. Nilai bias dan
KTG yang dihasilkan oleh metode MCDMKTT lebih kecil dibandingkan dengan
metode MCD-MKT.

KESIMPULAN
Simulasi dengan matriks data
yang
dibangkitkan dari sebaran normal ganda ini
menunjukkan bahwa metode MCD-MKTT
menghasilkan nilai bias dan KTG yang lebih
kecil dibandingkan metode MCD-MKT,
sehingga dapat dikatakan bahwa metode
MCD-MKTT
menghasilkan
pendugaan
koefisien
regresi
yang
lebih
baik
dibandingkan dengan metode MCD-MKT.

0.9

0.9

0.8

0.8

0.7

0.7

0.6

0.6

0.5

0.5

Bias

Bias

5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0

0
1

2

3

4

5

6

7

8

9

10

1

2

3

Proporsi pencilan (%)
MCD-MKTT

5

6

7

8

9

10

Proporsi pencilan (%)

MCD-MKT

MCD-MKTT

Gambar 5 Perbandingan nilai bias 3 pada
MCD-MKTT dan MCD-MKT
0.8

0.8

0.7

0.7

0.6

0.6

0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0

MCD-MKT

Gambar 7 Perbandingan nilai bias 4 pada
MCD-MKTT dan MCD-MKT

Bias

Bias

4

0
1

2

3

4

5

6

7

8

9

10

Proporsi pencilan (%)
MCD-MKTT

MCD-MKT

Gambar 6 Perbandingan nilai KTG 3 pada
MCD-MKTT dan MCD-MKT
Sama halnya dengan pendugaan koefisien
regresi 1 dan 2, pendugaan koefisien regresi
3 dengan metode MCD-MKTT lebih baik
dibandingkan dengan metode MCD-MKT.
Hal ini terlihat pada Gambar 5 dan 6 yang
menunjukkan bahwa nilai bias dan KTG
metode
MCD-MKTT
lebih
kecil
dibandingkan metode MCD-MKT.

1

2

3

4

5

6

7

8

9

10

Proporsi pencilan (%)
MCD-MKTT

MCD-MKT

Gambar 8 Perbandingan nilai KTG 4 pada
MCD-MKTT dan MCD-MKT
Gambar 7 dan 8 menunjukkan nilai bias
dan KTG pendugaan koefisien regresi 4 yang
kondisinya relatif sama dengan pendugaan
koefisien regresi 1, 2 dan 3. Nilai bias dan
KTG yang dihasilkan oleh metode MCDMKTT lebih kecil dibandingkan dengan
metode MCD-MKT.

KESIMPULAN
Simulasi dengan matriks data
yang
dibangkitkan dari sebaran normal ganda ini
menunjukkan bahwa metode MCD-MKTT
menghasilkan nilai bias dan KTG yang lebih
kecil dibandingkan metode MCD-MKT,
sehingga dapat dikatakan bahwa metode
MCD-MKTT
menghasilkan
pendugaan
koefisien
regresi
yang
lebih
baik
dibandingkan dengan metode MCD-MKT.

6

Meningkatnya proporsi pencilan pada data
mengakibatkan meningkat pula nilai bias dan
KTG metode MCD-MKT. Sebaliknya, nilai
bias dan KTG metode MCD-MKTT tetap
stabil meskipun proporsi pencilan mengalami
peningkatan. Hal ini menunjukkan bahwa
metode MKTT merupakan metode pendugaan
yang kekar terhadap pencilan, sedangkan
metode MKT sangat sensitif terhadap adanya
pencilan.

DAFTAR PUSTAKA
Aunuddin. 2005. Statistika: Rancangan dan
Analisis Data. Bogor: IPB PRESS.
Draper NR, Smith H. 1992. Analisis Regresi
Terapan Edisi Kedua. Sumantri B,
penerjemah. Jakarta: Gramedia Pustaka
Utama.
Terjemahan
dari:
Applied
Regression Analysis.
Jollife IT. 2002. Principal Component
Analysis. 2nd Edition. New York: Springer
Science+Business Media, LLC.
Myers RH. 1989. Classical and Modern
Regression with Applications Second
Edition. Boston: PWS-KENT Publishing
Company.
Rousseeuw et al. 2004. Robust Multivariate
Regression. Technometrics 46.
Rousseeuw PJ, van Driessen K. 1999. A Fast
Algorithm for the Minimum Covariance
Determinant Estimator. Technometrics 41.
Rousseeuw PJ, van Driessen K. 2006.
Computing LTS Regression for Large
Data Sets. Data Min Knowl Discov 12.
Saefuddin, Asep et al. 2009. Statistika Dasar.
Jakarta: PT Grasindo.

MANAJEMEN DATA PENCILAN PADA ANALISIS REGRESI
KOMPONEN UTAMA

MAGRI HANDOKO

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2011

6

Meningkatnya proporsi pencilan pada data
mengakibatkan meningkat pula nilai bias dan
KTG metode MCD-MKT. Sebaliknya, nilai
bias dan KTG metode MCD-MKTT tetap
stabil meskipun proporsi pencilan mengalami
peningkatan. Hal ini menunjukkan bahwa
metode MKTT merupakan metode pendugaan
yang kekar terhadap pencilan, sedangkan
metode MKT sangat sensitif terhadap adanya
pencilan.

DAFTAR PUSTAKA
Aunuddin. 2005. Statistika: Rancangan dan
Analisis Data. Bogor: IPB PRESS.
Draper NR, Smith H. 1992. Analisis Regresi
Terapan Edisi Kedua. Sumantri B,
penerjemah. Jakarta: Gramedia Pustaka
Utama.
Terjemahan
dari:
Applied
Regression Analysis.
Jollife IT. 2002. Principal Component
Analysis. 2nd Edition. New York: Springer
Science+Business Media, LLC.
Myers RH. 1989. Classical and Modern
Regression with Applications Second
Edition. Boston: PWS-KENT Publishing
Company.
Rousseeuw et al. 2004. Robust Multivariate
Regression. Technometrics 46.
Rousseeuw PJ, van Driessen K. 1999. A Fast
Algorithm for the Minimum Covariance
Determinant Estimator. Technometrics 41.
Rousseeuw PJ, van Driessen K. 2006.
Computing LTS Regression for Large
Data Sets. Data Min Knowl Discov 12.
Saefuddin, Asep et al. 2009. Statistika Dasar.
Jakarta: PT Grasindo.

MANAJEMEN DATA PENCILAN PADA ANALISIS REGRESI
KOMPONEN UTAMA

MAGRI HANDOKO

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2011

RINGKASAN
MAGRI HANDOKO. Manajemen Data Pencilan pada Analisis Regresi Komponen Utama.
Dibimbing oleh TOTONG MARTONO dan ANIK DJURAIDAH.
Metode Determinan Peragam Minimum (MCD) merupakan metode pendugaan matriks
ragam-peragam yang kekar terhadap pencilan. Metode ini membentuk matriks ragam-peragam
dengan cara menemukan himpunan bagian amatan yang memiliki determinan matriks ragamperagam terkecil. Dalam regresi komponen utama, matriks ragam-peragam ini digunakan untuk
membentuk komponen utama yang akan diregresikan dengan peubah respon. Untuk pendugaan
parameter regresi biasanya digunakan Metode Kuadrat Terkecil (MKT). Metode ini sensitif
terhadap pencilan, padahal terdapat juga kemungkinan adanya pencilan ketika komponen utama
diregresikan dengan peubah respon. Oleh karena itu digunakan Metode Kuadrat Terkecil
Terpotong (MKTT) yang diharapkan dapat menyusun model regresi yang kekar. MKTT ini
menduga parameter regresi dengan menggunakan himpunan bagian amatan yang memiliki jumlah
kuadrat sisaan terkecil. Pada penelitian ini, peneliti menerapkan dua metode untuk menduga
parameter regresi yaitu metode MCD-MKT dan MCD-MKTT. Kedua metode tersebut dicobakan
pada data yang dikontaminasi pencilan dengan proporsi 1% sampai 10%. Hal ini dilakukan untuk
melihat kekekaran kedua metode tersebut. Hasil yang diperoleh dari penelitian ini menunjukkan
bahwa metode MCD-MKTT menghasilkan pendugaan yang lebih kekar dibandingkan metode
MCD-MKT.
Kata Kunci : Multikolinearitas, kekar, Minimum Covariance Determinant, Metode Kuadrat
Terkecil Terpotong.

MANAJEMEN DATA PENCILAN PADA ANALISIS REGRESI
KOMPONEN UTAMA

MAGRI HANDOKO

Skripsi
sebagai salah satu syarat untuk memperoleh
gelar Sarjana Statistika pada
Departemen Statistika

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2011

Judul
Nama
NRP

:
:
:

Manajemen Data Pencilan pada Analisis Regresi Komponen Utama.
Magri Handoko
G14062520

Menyetujui,

Pembimbing I

Pembimbing II

Dr. Totong Martono
NIP. 19530428 197802 1 001

Dr. Ir. Anik Djuraidah, MS
NIP. 19630515 198703 2 002

Mengetahui,
Kepala Departemen Statistika
Institut Pertanian Bogor

Dr. Ir. Hari Wijayanto, MS
NIP. 19650421 199002 1 001

Tanggal Lulus :

v

RIWAYAT HIDUP

Penulis dilahirkan di Jakarta pada tanggal 4 Nopember 1988 sebagai anak pertama dari tiga
bersaudara dari pasangan Johan Arifin dan Nurhayati Adiantum Koniyati. Penulis memulai
pendidikan formalnya di SDI Al-Falah II pagi Jakarta dan lulus pada tahun 2000. Penulis
melanjutkan pendidikan di MTS Al-Falah Jakarta dan lulus tahun 2003. Pada tahun 2006 penulis
menyelesaikan pendidikan menengah atas di MA Al-Falah Jakarta dan pada tahun yang sama
diterima sebagai mahasiswa Institut Pertanian Bogor. Setelah satu tahun berada di Tingkat Persiapan
Bersama (TPB), penulis akhirnya diterima di Departemen Statistika Institut Pertanian Bogor.
Selama mengikuti perkuliahan, penulis aktif di Dewan Perwakilan Mahasiswa TPB IPB sebagai
anggota komisi Pengembangan Sumberdaya Manusia pada periode 2006/2007 dan di Gamma Sigma
Beta (GSB) sebagai staf departemen Sains pada tahun 2007/2008 serta terdaftar sebagai anggota
Community of Santri Scholar of Ministry of Religion Affairs (CSS MoRA) IPB. Penulis juga aktif
mengikuti kepanitiaan yang menjadi program kerja GSB, antara lain Statitika Ria, LJPS, WCS dan
lain-lain. penulis mengikuti kegiatan praktek lapang di PT Bogor Life Science and Technology pada
Februari sampai April 2010.

vi

KATA PENGANTAR

Segala puji bagi Allah atas segala limpahan rahmat dan karunia-Nya sehingga penulis dapat
menyelesaikan karya ilmiah ini. Shalawat serta salam semoga tercurah kepada junjungan kita Nabi
Muhammad SAW, kepada keluarganya, sahabatnya, dan pengikutnya yang setia hingga akhir zaman.
Banyak ilmu, pelajaran dan masukan yang penulis dapatkan dan rasakan selama proses
penyusunan karya ilmiah ini, sehingga pada kesempatan kali ini penulis ingin mengucapkan terima
kasih kepada:
1. Bapak Dr. Totong Martono dan Ibu Dr. Ir. Anik Djuraidah, M.S selaku pembimbing I dan
pembimbing II yang telah meluangkan waktu, serta memberikan saran dan masukan yang
bermanfaat bagi penulis.
2. Kedua orang tua, Ayah dan Mama atas segala doa, kasih sayang dukungan dan pengertian
yang telah diberikan kepada penulis.
3. Kementrian Agama yang telah memberikan kesempatan dan beasiswa kepada penulis untuk
kuliah di IPB.
4. Seluruh dosen Departemen Statistika IPB atas ilmu dan nasihat yang bermanfaat bagi
penulis serta seluruh staf Departemen Statistika IPB yang telah membantu penulis selama
belajar di Statistika IPB
5. Serta kepada semua pihak yang telah membantu penulis dalam proses penyusunan karya
ilmiah ini, yang tidak dapat penulis tuliskan satu per satu.
Akhir kata, penulis mengharapkan kritik dan saran yang bersifat membangun untuk karya ilmiah
ini. Semoga karya ilmiah ini bermanfaat.

Bogor, Januari 2011

Penulis

vii

DAFTAR ISI

Halaman
DAFTAR GAMBAR .......................................................................viii
DAFTAR LAMPIRAN ...................................................................viii
PENDAHULUAN
Latar Belakang…………………………….. ................................... 1
Tujuan ............................................................................................ 1
TINJAUAN PUSTAKA
Analisis Regresi Linear Berganda ................................................... 1
Multikolinearitas ............................................................................ 1
Analisis Komponen Utama ............................................................. 1
Regresi Komponen Utama .............................................................. 2
Minimum Covariance Determinant ................................................ 2
Metode Kuadrat Terkecil Terpotong ............................................... 3
Pencilan ......................................................................................... 3

METODOLOGI
Karakteristik Data Bangkitan.......................................................... 3
Metode ........................................................................................... 3

HASIL DAN PEMBAHASAN
Analisis Komponen Utama ............................................................. 3
Bias dan Kuadrat Tengah Galat (KTG) dari

............................... 3

KESIMPULAN .................................................................................. 5
DAFTAR PUSTAKA ......................................................................... 6
LAMPIRAN ....................................................................................... 7

viii

DAFTAR GAMBAR

Halaman
1 Perbandingan nilai bias 1 pada MCD-MKTT dan MCD-MKT................. 4
2 Perbandingan nilai KTG
3 Perbandingan nilai bias

1
2

4 Perbandingan nilai KTG
5 Perbandingan nilai bias
6 Perbandingan nilai KTG
7 Perbandingan nilai bias
8 Perbandingan nilai KTG

pada MCD-MKTT dan MCD-MKT................. 4
2

3

pada MCD-MKTT dan MCD-MKT ............... 4

pada MCD-MKTT dan MCD-MKT................. 5
3

4

pada MCD-MKTT dan MCD-MKT ............... 4

pada MCD-MKTT dan MCD-MKT ............... 5

pada MCD-MKTT dan MCD-MKT................. 5
4

pada MCD-MKTT dan MCD-MKT ............... 5

DAFTAR LAMPIRAN

Halaman
1 Matriks korelasi ...................................................................................... 7
2 Matriks ragam-peragam .......................................................................... 7
3 Nilai bias metode MCD-MKT dan MCD-MKTT..................................... 7
4 Nilai KTG metode MCD-MKT dan MCD-MKTT ................................... 7

1

PENDAHULUAN

TINJAUAN PUSTAKA

Latar Belakang
Multikolinearitas merupakan masalah
yang sering muncul dalam analisis regresi
linear berganda. Masalah tersebut terjadi
ketika adanya korelasi yang kuat antara
peubah penjelas. Hal ini dapat menyebabkan
matriks X’X memiliki kondisi buruk (ill
condition) atau hampir singular yang pada
akhirnya akan menyebabkan nilai penduga
ragam bagi parameter regresi menjadi lebih
besar (Draper & Smith 1992).
Salah satu metode yang digunakan untuk
mengatasi adanya multikolinearitas dalam
regresi linear berganda adalah Regresi
Komponen Utama (RKU). Metode ini
mengatasi multikolinearitas dengan cara
membentuk komponen-komponen utama yang
tidak
saling
berkorelasi.
Komponenkomponen utama ini dibentuk dari peubah
penjelasnya yang dihasilkan dari penguraian
matriks ragam-peragam. Untuk menduga
matriks ragam-peragam biasanya digunakan
metode kemungkinan maksimum (Maximum
Likelihood Estimation). Namun, metode
pendugaan ini sangat sensitif terhadap
pencilan. Oleh karena itu, digunakan metode
Determinan Peragam Minimum (Minimum
Covariance
Determinant/MCD),
yang
diperkenalkan oleh Rousseeuw pada tahun
1984, yang merupakan metode pendugaan
matriks ragam-peragam yang kekar terhadap
pencilan.
Komponen-komponen utama yang telah
terbentuk kemudian diregresikan terhadap
peubah respon. Metode Kuadrat Terkecil
(MKT) biasanya digunakan untuk pendugaan
parameter regresi. Saat menduga parameter
regresi terdapat juga kemungkinan adanya
pencilan ketika satu atau lebih komponen
utama diregresikan dengan peubah respon,
sehingga digunakan Metode Kuadrat Terkecil
Terpotong (MKTT) yang diharapkan dapat
menyusun model regresi yang kekar.
Penelitian ini akan menggunakan MCD
untuk menduga matriks ragam-peragam dalam
analisis regresi komponen utama. Sedangkan
parameter regresi akan diduga dengan
menggunakan MKT dan MKTT.

Analisis Regresi Linear Berganda
Analisis regresi linear berganda adalah
salah satu alat statistika untuk mengevaluasi
hubungan antara peubah respon dengan
beberapa peubah penjelas. Model regresi
linear berganda yang melibatkan p peubah
penjelas (x1,x2,…,xp) yang terkoreksi dengan
rataannya adalah

Tujuan
Tujuan dari penelitian ini adalah untuk
membandingkan kekekaran metode MCDMKT dan MCD-MKTT terhadap data yang
dikontaminasi dengan pencilan.

Dalam notasi matriks dapat disajikan
sebagai berikut:
dengan y adalah vektor peubah respon
berukuran nx1, X adalah matriks peubah
penjelas berukuran nxp, β adalah vektor
koefisien regresi berukuran px1 dan ε adalah
vektor
sisaan,
dengan
(Saefuddin et al 2009).
Salah satu metode yang digunakan untuk
menduga parameter regresi dalam regresi
linear berganda adalah MKT. Konsep dasar
dari MKT untuk menduga parameter regresi
adalah dengan jalan meminimumkan jumlah
kuadrat simpangan nilai pengamatan dengan
nilai dugaan (Aunuddin 2005).
Multikolinearitas
Salah satu asumsi dalam analisis regresi
berganda adalah tidak adanya korelasi yang
kuat antara peubah penjelasnya atau disebut
multikolinearitas. Hal ini dapat menyebabkan
MKT menghasilkan penduga yang tidak
efisien karena matriks yang dibangun untuk
menduga parameter yaitu X’X hampir
singular sehingga penduga ragam bagi
parameter regresi menjadi lebih besar dari
seharusnya (Myers 1989).
Analisis Kompnen Utama
Analisis Komponen Utama (AKU) adalah
metode analisis peubah ganda yang bertujuan
memperoleh peubah-peubah baru (komponen
utama) yang berasal dari peubah asalnya.
Komponen-komponen utama yang terbentuk
tidak
saling
berkorelasi
dan
dapat
diungkapkan dalam bentuk
dengan W adalah nilai atau skor
komponen utama, X adalah matriks data
terkoreksi oleh rataannya (centered), dan V
adalah matriks berukuran pxp yang kolom kei merupakan vektor ciri ke-i dari matriks
ragam-peragam
dan akar-akar cirinya
disusun dalam urutan
(Jollife 2002).

2

Keragaman komponen utama ke-i adalah:
dengan total keragaman komponen utama
adalah
. Sementara
itu, persentase total keragaman yang mampu
dijelaskan oleh komponen utama ke-i adalah
.
Pada praktiknya, analisis komponen utama
juga digunakan untuk mereduksi banyaknya p
peubah asal menjadi k peubah baru yang akan
digunakan, dengan
. Terdapat tiga
metode untuk menentukan banyaknya k yang
akan digunakan, yaitu sebagai berikut:
1. Scree plot, merupakan plot antara akar
ciri
dengan k. Penentuan banyaknya k
yaitu ketika pada titik k, plot tersebut
curam di kiri tapi landai di kanan.
2. Akar ciri, penentuan banyaknya k yang
digunakan yaitu berdasarkan nilai akar
cirinya. Kaiser (1960) menjelaskan bahwa
komponen utama yang digunakan adalah
komponen utama yang memiliki padanan
akar ciri lebih dari satu. Jollife (1972)
dalam studinya mengatakan bahwa nilai
cut off yang lebih baik bukanlah satu
melainkan 0.7.
3. Persentase kumulatif total keragaman,
penentuan banyaknya k yang akan
digunakan yaitu ketika komponen utama
yang pertama sampai dengan k telah
memenuhi batas proporsi kumulatif total
keragaman yang diinginkan. Tidak ada
patokan baku mengenai berapa nilai
minimum persentase kumulatif total
keragaman yang digunakan, sehingga
tergantung
peneliti
yang
ingin
menggunakannya.
Jollife
(2002)
menyatakan nilai minimum persentase
kumulatif total keragaman berkisar antara
70% sampai 90%.
Regresi Komponen Utama
RKU merupakan implementasi dari AKU.
RKU digunakan untuk menjelaskan hubungan
antara peubah respon dengan satu atau lebih
peubah komponen utama sebagai peubah
penjelasnya.
Berikut ini disajikan model regresi
komponen utama yang dibentuk dari model
regresi linear berganda

dengan
adalah suatu matriks yang
berukuran nxk yang memuat sejumlah k
komponen utama,
adalah vektor koefisien
regresi komponen utama yang berukuran kx1.
Determinan Peragam Minimum
MCD merupakan penduga yang sangat
kekar untuk menduga parameter nilai tengah
dan matriks ragam-peragam (Rousseeuw et al
2004). MCD bertujuan mendapatkan h
pengamatan dari n objek yang memiliki
matriks ragam-peragam terkecil, dengan h
merupakan bilangan bulat terbesar dari
(Rousseeuw & Driessen
1999). Algoritma MCD sebagai berikut:
1. Ambil secara acak
amatan,
dan
kemudian hitung nilai tengah
matriks ragam-peragamnya
.
2. Inisiasikan k=0
3. Lakukan pengulangan untuk proses di
bawah ini:
dan
3.1. Definisikan
3.2. Hitung jarak setiap amatan dengan
rumus

3.3. Urutkan data amatan dari yang
terkecil hingga terbesar dengan acuan
.
3.4. Pilih sebanyak
amatan yang memiliki
terkecil dan tempatkan dalam
himpunan bagian H
3.5.
dan matriks
3.6. Hitung nilai tengah
dari sejumlah h
ragam-peragam
amatan yang terambil
4. Lakukan langkah 3 sampai
.
atau
5. Himpunan bagian H terakhir yang
terbentuk adalah himpunan bagian yang
memiliki determinan matriks ragamperagam terkecil, sehingga
dan
6. Selanjutnya, dilakukan tahap pembobotan:

dengan
sehingga model regresi komponen utama yang
telah direduksi menjadi k komponen adalah

3

Metode Kuadrat Terkecil Terpotong
MKTT adalah salah satu metode
penaksiran parameter regresi yang kekar
terhadap kehadiran pencilan. Prinsip dari
MKTT ini adalah dengan meminimumkan
jumlah kuadrat sisaan dari himpunan bagian
data yang terbentuk (Rousseeuw & Driessen
2006).

dimana

dan
.

Pencilan
Jarak Mahalanobis adalah salah satu
metode untuk mengidentifikasi data pencilan
pada data peubah ganda. Pengamatan ke-i
didefinisikan sebagai pencilan jika jarak
Mahalanobisnya lebih besar dari nilai khikuadrat pada p peubah.

2. Hitung dari persamaan
,
dengan
merupakan vektor koefisien
regresi berdimensi px1. Pada penilitian ini,
peneliti menggunakan
.
3. Membuat matriks
dengan cara
mengganti sejumlah data
dengan data
pencilan pada
. Banyaknya pencilan
yang diberikan adalah , dengan adalah
proporsi pencilan dari jumlah data.
4. Menghitung matriks ragam-peragam
dengan metode MCD.
5. Melakukan analisis komponen utama
berdasarkan
matriks
ragam-peragam
metode MCD.
6. Meregresikan skor komponen utama pada
langkah 7 terhadap dengan metode MKT
dan MKTT. Vektor koefisien regresi yang
diperoleh disimbolkan dengan
.
7. Ulangi langkah 3 sampai 6 sebanyak 100
kali.
8. Menghitung nilai bias dan Kuadrat Tengah
yang dihasilkan
Galat (KTG) dari
masing-masing metode.

METODOLOGI
Karakteristik Data Bangkitan
Penelitian ini menggunakan data bangkitan
atau simulasi. Matriks data
dibangkitkan
dengan kondisi antar kolomnya memiliki nilai
korelasi yang tinggi (lebih dari 0.8). Matriks
korelasi yang digunakan dapat dilihat pada
Lampiran 1. Matriks data
dibangkitkan
dari sebaran normal ganda dengan vektor
rataan µ = [10 10 10 10] dan matriks ragam
peragam yang dapat dilihat pada Lampiran
2. Matriks data
ini beukuran nxp, dengan
n=100 dan p=4.
Matriks data pencilan
dibangkitkan
dari sebaran normal ganda dengan vektor
rataan µ = [25 25 25 25] dan matriks ragamperagamnya sama seperti matriks ragamperagam pada
. Matriks data pencilan
ini berukuran mxp, dengan m=5000 dan
p=4. Kemudian dibangkitkan juga data sisaan
dari sebaran normal dengan nilai tengah
dan simpangan baku
.
Proporsi banyaknya pencilan dari jumlah
data
yang dicobakan adalah 1% sampai
10%. Jumlah ulangan yang dilakukan untuk
setiap proporsi pencilan sebanyak 100 kali.
Metode
Berikut ini adalah tahapan metode yang
akan dilakukan dalam penelitian ini:
1. Membangkitkan data
dan
seperti yang telah dijelaskan di atas.

9. Ulangi langkah 3 sampai 8 dengan yang
berbeda (nilai
yang digunakan 1%
sampai 10%).
10. Membandingkan nilai bias dan KTG yang
dihasilkan dari masing-masing metode.

HASIL DAN PEMBAHASAN
Analisis Komponen Utama
Pada penelitian ini, komponen utama yang
digunakan yaitu komponen utama yang
mampu menjelaskan minimal 80% total
keragaman. Besarnya persentase kumulatif
total keragaman pada komponen utama
pertama yang dihasilkan oleh metode MCD
yaitu di atas 80% pada setiap proporsi
pencilan
yang dicobakan, sehingga
banyaknya
komponen
utama
yang
diregresikan dengan peubah respon yaitu satu
komponen utama.
Bias dan KTG dari
Nilai bias dan KTG yang diperoleh dari
metode MCD-MKT dan MCD-MKTT
terdapat di Lampiran 3 dan 4.

4

0.9

1

0.8

0.9
0.8

0.7

0.7
0.6
Bias

Bias

0.6
0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1
0

0
1
1

2

3

4
5
6
7
8
Proporsi pencilan (%)

MCD-MKTT

9

2

3

4

5

6

7

8

9

10

10
Proporsi pencilan (%)

MCD-MKT

MCD-MKTT

Gambar 1 Perbandingan nilai bias 1 pada
MCD-MKTT dan MCD-MKT

MCD-MKT

Gambar 3 Perbandingan nilai bias 2 pada
MCD-MKTT dan MCD-MKT

0.8
0.8
0.7
0.7
0.6
0.6
0.5
Bias

Bias

0.5
0.4

0.4

0.3
0.3
0.2
0.2
0.1
0.1
0
0
1

2

3

4

5

6

7

8

9

10
1

2

3

4

5

6

7

8

9

10

Proporsi pencilan (%)
Proporsi pencilan (%)
MCD-MKTT

MCD-MKT
MCD-MKTT

Gambar 2 Perbandingan nilai KTG 1 pada
MCD-MKTT dan MCD-MKT
Pendugaan koefisien regresi
1 yang
dihasilkan oleh metode MCD-MKTT lebih
baik dibandingkan dengan metode MCDMKT. Hal ini dikarenakan pada metode
MCD-MKTT menghasilkan nilai bias dan
KTG yang lebih kecil dibandingkan dengan
MCD-MKT seperti yang terlihat pada Gambar
1 dan 2. Seiring dengan peningkatan proporsi
pencilan yang diberikan pada data contoh,
bias dan KTG yang dihasilkan metode MCDMKT juga mengalami peningkatan, berbeda
dengan
metode
MCD-MKTT
yang
menghasilkan nilai bias dan KTG yang relatif
stabil.

MCD-MKT

Gambar 4 Perbandingan nilai KTG 2 pada
MCD-MKTT dan MCD-MKT
Gambar 3 dan 4 menunjukkan nilai bias
dan KTG pada pendugaan koefisien regresi
2. Gambar tersebut dapat menjelaskan bahwa
nilai bias dan KTG yang dihasilkan oleh
metode
MCD-MKTT
lebih
kecil
dibandingkan dengan metode MCD-MKT.
Pada gambar di atas terlihat bahwa
walaupun terdapat peningkatan proporsi
pencilan pada data contoh, metode MCDMKTT memiliki performa yang stabil, seperti
yang ditunjukkan pada nilai bias dan KTG.
Hal ini berbeda dengan metode MCD-MKT
yang memperlihatkan pola peningkatan nilai
bias dan KTG seiring dengan peningkatan
proporsi pencilan pada data contoh.

0.9

0.9

0.8

0.8

0.7

0.7

0.6

0.6

0.5

0.5

Bias

Bias

5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0

0
1

2

3

4

5

6

7

8

9

10

1

2

3

Proporsi pencilan (%)
MCD-MKTT

5

6

7

8

9

10

Proporsi pencilan (%)

MCD-MKT

MCD-MKTT

Gambar 5 Perbandingan nilai bias 3 pada
MCD-MKTT dan MCD-MKT
0.8

0.8

0.7

0.7

0.6

0.6

0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0

MCD-MKT

Gambar 7 Perbandingan nilai bias 4 pada
MCD-MKTT dan MCD-MKT

Bias

Bias

4

0
1

2

3

4

5

6

7

8

9

10

Proporsi pencilan (%)
MCD-MKTT

MCD-MKT

Gambar 6 Perbandingan nilai KTG 3 pada
MCD-MKTT dan MCD-MKT
Sama halnya dengan pendugaan koefisien
regresi 1 dan 2, pendugaan koefisien regresi
3 dengan metode MCD-MKTT lebih baik
dibandingkan dengan metode MCD-MKT.
Hal ini terlihat pada Gambar 5 dan 6 yang
menunjukkan bahwa nilai bias dan KTG
metode
MCD-MKTT
lebih
kecil
dibandingkan metode MCD-MKT.

1

2

3

4

5

6

7

8

9

10

Proporsi pencilan (%)
MCD-MKTT

MCD-MKT

Gambar 8 Perbandingan nilai KTG 4 pada
MCD-MKTT dan MCD-MKT
Gambar 7 dan 8 menunjukkan nilai bias
dan KTG pendugaan koefisien regresi 4 yang
kondisinya relatif sama dengan pendugaan
koefisien regresi 1, 2 dan 3. Nilai bias dan
KTG yang