Makalah Pelanggaran Asumsi Multikolinear Skpb

Makalah Pelanggaran Asumsi Multikolinearitas
1. Latar Belakang Masalah
Analisis regresi digunakan untuk membantu mengungkapkan hubungan atau pengaruh
satu atau lebih peubah bebas terhadap peubah tak bebas. Dalam analisis regresi terdapat
beberapa asumsi, diantaranya adalah galat saling bebas, menyebar normal dengan rataan nol
2

dan ragamnya δ ε , serta tidak terdapat multikolinearitas antar peubah bebas.
Masalah multikolinearitas penting diperhatikan dan perlu diatasi karena akan
berdampak terhadap pendugaan dan pengujian koefisien regresi. Masalah ini muncul akibat
terdapat fungsi linear hampir konstan atau sering disebut dengan tingginya korelasi linear di
antara dua atau lebih peubah bebas.
Gejala ini menimbulkan masalah dalam pemodelan regresi. Korelasi yang sangat
tinggi akan menghasilkan penaksir bias, tidak stabil dan mungkin jauh dari nilai sasaran (Gonst
and Mason, 1977), dan pendugaan parameter model regresi dengan menggunakan metode
kuadrat terkecil akan menghasilkan penduga yang tak bias tetapi mungkin penduga tersebut
mempunyai ragam yang besar (Walpole dan Myers, 1995). Ragam yang besar ini akan
mengakibatkan pengujian hipotesis cenderung menerima Ho, yang berarti koefisien regresi
tersebut tidak berbeda nyata dengan nol.
Oleh karena itu, penting bagi setiap analis untuk bisa menanggulangi masalah
multikolinearitas tersebut. Makalah ini akan membahas salah satu metode untuk mengatasi

masalah dalam regresi linier ganda, yaitu menggunakan ridge regression.
2. Tujuan
Tujuan analisa dalam makalah ini adalah untuk memperoleh persamaan yang akan
digunakan untuk menaksir dan atau mememprediksi.
3. Critical Review
Penyelesaian masalah multikolinearitas ini telah dikembangkan oleh banyak peneliti
melalui berbagai pendekatan, diantaranya dengan menggunakan regresi himpunan terbaik (best
subset regression) dan regresi stepwise (stepwise regression) seperti yang dibahas dalam
Draper dan Smith (1992). Namun demikian jika seluruh peubah bebas berkorelasi tinggi
pendekatan-pendekatan tersebut sulit dilakukan dan tidak akan memperoleh solusi yang baik.
Pendekatan lain dalam mengatasi multikolinearitas dapat digunakan regresi gulud
(ridge regression), regresi akar laten (latent root regression) dan regresi komponen utama
(principal component regression). Diantara metode-metode tersebut, regresi komponen utama
merupakan metode yang dikenal baik dan sering digunakan (Jollife,1986 ).

Regresi komponen utama bermula dari analisis komponen utama pada peubah-peubah
bebas yang akan menghasilkan komponen-komponen utama yang saling bebas (orthogonal).
Skor komponen utama kemudian diperlakukan sebagai peubah bebas untuk menggantikan
peubah bebas asal. Jika semua komponen utama diikutkan dalam regresi,


model yang

dihasilkan ekuivalen dengan yang diperoleh dari metode kuadrat terkecil sehingga ragam
penduga yang besar akibat multikolinearitas tidak

tereduksi. Sebaliknya, jika beberapa

komponen utama tidak disertakan dalam model regresi maka penduga koefisien regresi pada
model asal akan berbias, namun bersamaan dengan itu telah terjadi reduksi besar-besaran pada
ragam penduga koefisien regresi (Jollife, 1986).
Salah satu strategi untuk memilih komponen utama dalam regresi komponen utama
adalah mengabaikan komponen utama yang bersesuaian dengan akar ciri terkecil. Akan tetapi
Jollife (1986) menyarankan untuk memperhatikan kontribusi komponen utama tersebut
terhadap peubah tak bebas Y. Jollife (1982) dalam Hwang dan Nettleton (2003) menyajikan
beberapa contoh di kehidupan nyata dimana komponen utama yang bersesuaian dengan akar
ciri kecil mempunyai korelasi yang tinggi dengan Y. Hwang dan Nettleton (2003) membahas
sebuah metode untuk memilih himpunan bagian komponen utama yang dapat meminimumkan
kuadrat tengah galat (mean square error–MSE= KTG) dari penduga parameter regresi ß.
Mereka menunjukkan bahwa suatu koefisien regresi komponen utama yang signifikan dan
berbeda dari nol tidaklah cukup untuk menjamin keabsahan penggunaan komponen utama

tersebut untuk menduga ß, melainkan suatu koefisien regresi komponen utama haruslah cukup
jauh dari nol untuk menjamin bahwa reduksi biasnya cenderung lebih bermanfaat. Dengan
menggunakan kriteria ini, Hwang dan Nettleton (2003) menunjukkan bagaimana membangun
suatu penduga regresi komponen utama baru yang secara substansial mempunyai kuadrat
tengah galat lebih minimum dibandingkan dengan regresi komponen utama yang umum
digunakan.
Sedangkan metode yang digunakan dalam penelitian ini adalah metode regresi ridge.
Regresi ridge merupakan modifikasi dari metode kuadrat terkecil dengan cara menambah
tetapan bias q yang kecil kepada nilai diagonal matriks X tX. Besarnya tetapan bias q
mencerminkan besarnya bias dalam koefisien penduga

ridge dan q yang bernilai nol

merupakan implementasi dari metode kuadrat terkecil. Hoerl, Kennard, dan Balwin (1975)
dalam Gusriani (2004) menyarankan pemilihan nilai q dengan meggunakan rumus HKB (Hoerl,
Kennard, dan Balwin) dengan prosedur iterasi.
4. Metodologi
Multikolinearitas
Pemeriksaan adanya masalah multikolinearitas dapat dilakukan dengan beberapa
metode, diantaranya :


1. Menentukan matriks korelasi dari semua peubah bebas
Prosedur ini merupakan pemeriksaan yang paling sederhana dan paling mudah. Nilai
korelasi yang tinggi antara peubah satu dengan yang lainnya memperlihatkan adanya
hubungan linier pada peubah-peubah tersebut.
2. VIF (Variance Inflation Factor)
Mulitikolinearitas dalam peubah bebas dapat diperiksa dengan melihat nilai Variance
Inflation Factors (VIF). Nilai VIF ini diperoleh dari diagonal utama hasil perhitungan
matriks (XtX)-1. Apabila salah satu dari nilai VIF lebih dari 10, maka dapat diidentifikasikan
bahwa peubah Xj berhubungan erat dengan peubah-peubah X lainnya atau dengan kata lain
dalam peubah bebas terdapat masalah multikolinearitas (Myers,1990). Nilai Variance
Inflation Factors (faktor inflasi ragam) dapat juga dihitung berdasarkan rumus :
VIFj = ( 1- R2j) -1
Dengan R2j adalah koefisien determinan yang diperoleh jika peubah x j diregresikan dengan
p-1 peubah bebas lainnya. VIF memperlihatkan kenaikan ragam dugaan parameter yang
dipengaruhi oleh keberadaan multikolinearitas (Sen dan Srivastava 1990, dalam Gusriani
2004).
3. Akar ciri dari XtX
Beberapa peneliti menentukan kondisi XtX dengan menentukan indeks kondisi :


≥30 menunjukkan adanya masalah multikolinieritas pada X tX , (dalam Gusriani

Nilai
2004).

Selain cara-cara diatas ada satu hal yang dapat dijadikan acuan untuk melihat
keberadaan multikolinearitas, yaitu dengan melihat koefisien determinasi

R2 (Gujarati,

1995). Apabila nilai R 2 tinggi tetapi tidak satupun parameter dugaannya signifikan, maka hal
ini menunjukkan adanya kasus multikolinearitas.
Regresi Ridge
Regresi ridge merupakan salah satu metode yang dapat digunakan untuk mengatasi
masalah multikolinearitas melalui modifikasi terhadap metode kuadrat terkecil (Neter,
Waserman dan Kutner, 1990, dalam Herwindiati 1997). Modifikasi tersebut ditempuh dengan
cara menambah tetapan bias q yang relatif kecil pada diagonal matriks

X tX, sehingga


koefisien penduga ridge dipengaruhi oleh besarnya tetapan bias q. Dengan demikian
paramater dugaan akan menjadi:

Pemilihan besarnya tetapan bias q merupakan masalah yang perlu diperhatikan.
Tetapan bias q yang diinginkan adalah tetapan bias yang menghasilkan bias relatif kecil dan
menghasilkan koefisien penduga yang relatif stabil. Ada beberapa acuan yang digunakan untuk
memilih besarnya q, diantaranya dengan melihat besarnya VIF dan melihat pola kecendrungan
ridge trace. Ridge Trace berupa plot dari penduga regresi ridge secara bersama dengan berbagai
kemungkinan nilai tetapan bias q (Gibbons dan McDonald, 1984, dalam Herwindiati 1997).
Nilai q yang dipilih yaitu q yang memberikan nilai penduga regresi ridge
yang relatif stabil.
Hoerl dan Kennard (1970)

dalam Gusriani (2004) menentukan nilai q dengan

menggunakan ridge trace yang merupakan suatu plot data antara

dengan beberapa nilai q

dalam selang 0-1 hingga tercapai kestabilan pada parameter dugaannya. Akan tetapi pemilihan

q dengan ridge trace menjadi prosedur yang subjektif karena memerlukan keputusan peneliti
untuk menentukan nilai q yang akan dipilih, (Montgomery dan Peck 1992). Hoerl, Kennard,
dan Balwin (1975) dalam Gusriani (2004) menyarankan pemilihan nilai q dengan meggunakan
rumus HKB :

dimana ^β dan σ^ diperoleh dari metode kuadrat terkecil. Pada penelitian selanjutnya
(Montgomery dan Peck 1992), mengajukan prosedur iterasi dengan menggunakan nilai q pada
(2.27) sebagai nilai awal untuk menghitung nilai q dan selanjutnya ^β dan σ^ yang digunakan
diperoleh dari metode regresi ridge dengan demikian prosedur ini akan berhenti jika

Tahapan penaksiran koefisien ridge regression :
1. Lakukan transformasi tehadap matriks X dan vektor Y, melalui centering and rescaling.
2. Hitung matriks

= rxx = matriks korelasi dari variable bebas, serta hitung

korelasi dari variable bebas terhadap variable tak bebas y.
3. Hitung nilai penaksir parameter β * dengan berbagai kemungkinan tetapan bias θ , θ ≥ 0.
4. Hitung nilai C θ dengan berbagai nilai θ .
5. Tentukan nilai θ dengan mempertimbangkan nilai C θ.

Tentukan koefisien penaksir ridge regression dari nilai θ yang bersesuaian.
6. Hitung nilai ^y dan menganalisa ANAVA

=

Data
Data yang digunakan untuk contoh pemakaian ini adalah data dari RumahSakit
Sardjito Yogyakarta. Data ini menyangkut tentang jam kerja pegawai rumah sakit (Y) yang
diduga bergantung pada rata–rata peningkatan jumlah pasien (X 1), tempat tidur harian yang
dipakai perbulan ( X2), dan populasi pasien yang memenuhi syarat pada area rumah sakit,
dalam ribuan (X3).
4. Analisis
4.1 Penaksiran Model Regresi Linier Ganda
Hasil Analisis Regresi dengan menggunakan Metode Kuadrat Terkecil terhadap
data pada lampiran 1 tercantum pada tabel nilai penaksir parameter (tabel 5.1).
Pengujian keberartian model regresi ganda yang dilakukan secara parsial atau individu ,
dengan hipotesis :
Ho : βi = 0 , untuk i=1,2,3 (variabel independen X secara individu tidak
berpengaruh secara signifikan terhadap nilai taksiran Y)
H1 : βi ≠ 0 , untuk i=1,2,3 (variabel independen X secara individu

berpengaruh secara signifikan terhadap nilai taksiran Y)
α = 5%
Dengan statistik uji t-student, maka kita peroleh nilai T hitung dari masing-masing
variabel X secara individu adalah sebagai berikut :
Tabel 4.1 Penaksir Parameter Metode Kuadrad Terkecil

Tabel 4.2 Deskripsi Data

Dengan kriteria uji :
Tolak Ho jika thitung ≤ -t(n-2;α/2) atau thitung ≥ t(n-2;α/2), terima dalam hal lainnya.
Kriteria uji ini bisa juga dilihat dari nilai p. Tolak Ho jika nilai p ≤ α, terima dalam hal lainnya.
Dari tabel 4.1 diatas diperoleh model regresi sebagai berikut :

Y^ = -12.414 – 163.950 X1 + 6.230 X2 + 13.023 X3
Dilihat dari Tabel 4.1 dan 4.2 diatas maka dapat disimpulkan koefisien penaksir tidak
bisa ditaksir secara tepat, hal ini ditunjukkan oleh nila galat baku yang cukup besar dan nilai p
yang lebih besar dari α menunjukkan bahwa tidak ada satu pun variabel independen X secara
individu yang berpengaruh secara signifikan terhadap nilai taksiran Y. Begitu juga apabila
dilihat dari thitung yang lebih kecil dari ttabel berarti semua variabel regressor X secara individu
tidak berpengaruh secara signifikan terhadap nilai taksiran Y.

Sedangkan apabila kita uji keberartian model secara simultan atau bersama sama untuk
semua β , maka hipotesisnya adalah sebagai berikut :
Ho : β = 0 , (variabel independen X secara simultan tidak bergantung terhadap nilai
taksiran Y)
H1 : β ≠ 0 , (variabel independen X secara simultan bergantung terhadap nilai taksiran Y)
α = 5%
Dengan menggunakan statistik uji ANAVA atau uji F, maka berdasarkan taksiran
parameter melalui Metode Kuadrat Terkecil untuk regresi linier ganda pada data dalam
lampiran 1 diperoleh tabel ANAVA sebagai berikut:
Tabel 4.3 ANAVA Metode Kuadrat Terkecil

R2 = 0.978
Dengan kriteria uji:
Tolak H0 jika Fhitung ≥ F(p;n-p-1;α/2) atau bisa juga dilihat dari nilai p, tolak Ho jika nilai p ≤ α.
Dari tabel diatas terlihat bahwa nilai p < α. Ini berarti semua variabel X secara
simultan berpengaruh terhadap nilai taksiran Y. Hal ini berbeda jika pengujian dilakukan
secara parsial atau individu. Dari tabel 4.3 dilihat bahwa R 2 mendekati satu, tidak diikuti

dengan hasil uji hipotesis yang signifikan dari koefisien β . Hal ini menunjukkan adanya
kolinieritas.

Di bawah ini disajikan tabel hasil perhitungan nilai korelasi antar variabel independen.

Tabel 4.4 Matriks dari Variabel X

Dari tabel 4.4 terlihat korelasi yang sangat tinggi antar variabel independen-nya. Hal ini
menunjukkan adanya multikolinieritas.
4.2. Penaksiran Model Ridge Regression
Dalam analisis ridge regression digunakan data yang sudah ditransformasi melalui
metode centering and rescaling (lampiran 2).
Dalam memilih tetapan θ untuk dapat menaksir ridge regression digunakan statistik Cp Mallows
(Cθ). Nilai Cθ dengan berbagai nilai kemungkinan tetapan θ disajikan dalam tabel 4.5 berikut :
Tabel 4.6 Nilai Cθ dengan berbagai nilai θ

Dari tabel 4.5 dibuat grafik dengan sumbu datar θ
disajikan dalam Grafik 4.1

Grafik 4.1

dan sumbu tegak Cθ , hasilnya

Nilai θ yang terpilih adalah pada saat Cθ minimum. Dari tabel 4.5 dan grafik 4.1
terlihat bahwa nilai θ yang meminimumkan Cθ adalah θ = 0.04.
Sehingga persamaan regresinya menjadi :

Setelah dikembalikan ke variabel-variabel asal diperoleh persamaan regresinya :

Jika kita uji secara simultan untuk semua β, maka hipotesisnya adalah sebagai berikut :
Ho : β = 0 , (variabel independen X secara simultan tidak bergantung terhadap nilai
taksiran Y)
H1 : β ≠ 0 , (variabel independen X secara simultan bergantung terhadap nilai taksiran Y)
α = 5%
Dengan menggunakan statistik uji ANAVA atau uji F, maka kita dapatkan tabel untuk
metode ridge regression yang disajikan dalam tabel 4.6 berikut :
Tabel 4.6 ANAVA Ridge Regression

Dengan kriteria uji :
Tolak H0 jika Fhitung ≥ F(p;n-p-1;α/2) atau bisa juga dilihat dari nilai p, tolak Ho jika nilai p ≤ α.
Dari table distribusi F diperoleh F Tabel = F(3;13;0,025) = 3,41. Ternyata Fhitung ≥ F(p;n-p-1;α/2) sehingga
tolak Ho. Ini menunjukkan bahwa regresi linier ganda Y atas X bersifat signifikan.

Pegujian keberartian model ridge regression yang dilakukan secara parsial atau individu dapat
dilakukan melalui pengujian hipotesis sebagai berikut :
Ho : βi* = 0 , untuk i=1,2,3 (variabel independen X secara individu tidak
berpengaruh secara signifikan terhadap nilai taksiran Y)
H1 : βi* ≠ 0 , untuk i=1,2,3 (variabel independen X secara individu
berpengaruh secara signifikan terhadap nilai taksiran Y)
α = 5%
Dengan statistik uji t-student, maka kita peroleh nilai T hitung dari masing-masing variabel X
secara individu adalah sebagai berikut :
Tabel 5.7 THitung

Dengan kriteria uji :
Tolak Ho jika thitung ≤ -t(n-2;α/2) atau thitung ≥ t(n-2;α/2), terima dalam hal lainnya. Kriteria uji ini bisa
juga dilihat dari nilai p. Tolak Ho jika nilai p ≤ α, terima dalam hal lainnya.
Dari table distribusi t-student diperoleh t Tabel = t(13;0,0025) = 2,16 dari table 5.7 terlihat bahwa
semua nilai thitung ≥ tTabel sehingga tolak Ho . Hal ini menunjukkan bahwa setiap variable X
secara individu berpengaruh secara signifikan terhadap nilai taksiran Y.
6 Kesimpulan
Berdasarkan penjelasan yang telah diuraikan sebelumnya, kita bisa
menyimpulkan hal-hal sebagai berikut :
1. Nilai R2 yang besar tidak diikuti oleh hasil uji hipotesis yang signifkan
dari semua koefsien penaksir b i serta eigen valuenya yang kecil. Hal ini
menunjukan multikolinieritas dalam data.
2. Jika

antar

variable

regressor

pemanfaatan aljabar matriks

terjadi

multikolinieritas,

maka

dapat digunakan melalui transformasi

centering and rescaling.
3. Metode

Ridge

Regression

digunakan

untuk

mengatasi

multikolinieritas tidak sempurna atau yang terjadi antara variable
regressor.

LAMPIRAN 1 . Data Mengenai Tenaga Kerja di Rumah Sakit Sardjito
Yogyakarta
Y
566.52

X1
15.57

696.82
1033.1
5
1603.6
2
1611.3
7
1613.2
7
1854.1
7
2160.5
5
2305.5
8
3503.9
3
3571.8
9
3741.4
4026.5
2
10343.
81
11732.
17
15414.
94
18854.
45

44.02

X2
472.92
1339.7
5

9.5

20.42

620.25

12.8

18.74

568.33

36.7

49.2

1497.6
1365.8
3

35.7

1687
1639.9
2
2872.3
3
3655.0
8

43.3

180.5

2912

60.9

3921
3865.6
7

103.7

7684.1
12446.
33
14098.
4

157.7

15524

371.6

44.92
55.48
59.28
94.39
128.0
2
96
131.4
2
127.2
1
252.9
409.2
463.7
510.2
2

X3
18

24

46.7
78.7

126.8

169.4
331.4

LAMPIRAN 2. Data hasil Transformasi Melalui Metode Centering and
Rescaling
Y'
0.198
36
0.192
5
0.177
38
0.151
73
0.151
38
0.151
3
0.140
47
0.126
69
0.120
17
0.066
3
0.063
24

Z1
0.206
02
0.161
85
0.198
49
0.201
09
0.153
81
0.160
45
0.144
06
0.138
16
0.083
65
0.031
45
0.081
15

Z2
0.204
2
0.160
03
0.196
69
0.199
34
0.151
99
0.158
7
0.142
34
0.144
74
0.081
94
0.042
06
0.079
92

Z3
0.204
53
0.224
21
0.216
57
0.161
22
0.163
54
0.190
63
0.145
94
0.138
06
0.063
96
0.171
791
0.105
18

0.055
62
0.042
8
0.241
224
0.303
644
0.469
22
0.623
86

0.026
17
0.032
7
0.162
421
0.405
065
0.489
672
0.561
89

0.028
51
0.031
33
0.163
222
0.405
864
0.490
039
0.562
675

0.006
06
0.047
433
0.118
991
0.146
086
0.521
245
0.614
34