Pengujian Asumsi-asumsi di dalam Regresi Linier
Ekonometrika
Program Studi Statistika, semester Ganjil 2012/2013
Pengujian Asumsi-asumsi di dalam Regresi
Linier Galat menyebar normal
Multikolinearity
Heteroskedasticity
Autocorrelation
Misspecifcation:
Peubah bebas yang kurang tepat
Measurement errors
Bentuk fungsional yang salah Asumsi kenormalan
Pelanggaran, dengan kemungkinan penyebab: 1.
Sebaran peubah eksogen atau endogennya tidak normal
Sebaran galat menjulur karena adanya pencilan 4. Ukuran sampel yang terlalu kecil
Efek pelanggaran:
Pencilan berpengaruh besar terhadap penduga parameter (bias)
Hasil pengujian tidak sah Asumsi Kenormalan
Bagaimana mendeteksinya?
Normal probability plot
Histogram dari sisaan
Chi square goodness test of ft
Anderson Darling normality test
Jarque Berra normality test
Jika dilanggar, bagaimana memperbaikinya?
Transformasi non linier pada penyebab 1 atau 2
Pada penyebab 3, pencilan harus dievaluasi penyebabnya
Murni kesalahan: pencilan dapat dibuang
Apa adanya: pencilan memberikan informasi tambahan pada hasil analisis
Perbesar ukuran sampel untuk penyebab 4
Transformasi: sesuaikan dengan permasalahan teori ekonomi yang ingin dianalisis
Multikolinieritas
Terdapat hubungan linier di antara peubah eksogen
Multikolinieritas sempurna:
Satu peubah eksogen adalah fungsi linier dari peubah eksogen yang lain u
X X Y
3
3
2
2
1
2
2
1
X Multikolinieritas
Efek dari multikolinieritas: Y
X X u
X X
1
2
2
3
3
3
1
2
2 Y
X X u
1
2
2 3
1
2 2 Y
X u
1
3 1
2
3 2
2 Y v v X u
1
2
2
Sampel dipakai untuk menduga koefsien v dan v
1
2 Multikolinieritas
Untuk memperoleh penduga β dan β : solusi dari persamaan
1
2 berikut:
ˆ ˆ ˆ v
1
1
3
1 ˆ ˆ ˆ v
2
2
3
2
2 persamaan untuk 3 peubah
Tidak ada solusi unik bagi penduga parameter populasi
Efek dari struktur matriks akibat satu kolom yang merupakan fungsi linier dari kolom yang lain: X'
X Matriks singular
Karena determinan matriks singular = 0
X '
X
Tidak dapat diperoleh inverse dari X’X pada:
1 ˆ
X '
X X ' Y
2
1
1 Karena:
X ' X adj X '
X
X '
X
Koefsien regresi menjadi ‘indeterminate’
Multikolinieritas tak sempurna
Terjadi jika terdapat hubungan linier yang tidak sempurna antar peubah eksogen
X X v
3
2
Dengan v sebagai galat acak yang tidak sama dengan
nol Kasus ini sering terjadi pada kasus terapan
Bagaimana mengidentifkasi seberapa serius derajat multikolinieritas yang terjadi.
Efek dari Multikolinieritas tak sempurna
Penduga OLS tetap dapat diduga
Penduga OLS tetap bersifat BLUE
Penduga OLS tetap efsien (ragam dari penduga paling kecil dari semua penduga yang mungkin)
Akan tetapi pada nilai yang cukup besar
Relatif lebih besar jika tidak ada multikolinieritas
1 ˆ var
X '
X
1
1
X 'X X ' X adj X '
X
X '
X Efek dari Multikolinieritas tak sempurna
Ragam dan peragam dari penduga OLS relatif besar
Selang kepercayaan menjadi lebih besar
Lebih banyak menerima hipotesis nol (koefsien tidak
nyata) Statistik uji t dari satu atau beberapa koefsien menjadi tidak nyata
2
Walaupun R secara keseluruhan besar
Tanda bagi penduga koefsien berkebalikan dengan
Struktur Ragam Peragam dengan adanya
Multikolinieritas ˆ , ˆ cov
3
1
2
1
1
2 ˆ var
ˆ , ˆ cov
2
ˆ , ˆ cov
ˆ var ˆ ,
ˆ cov ˆ ,
ˆ cov ˆ ,
ˆ cov ˆ var
ˆ
1
2
Pada multiple regression:
1
ˆ
β var
Dengan 2 peubah eksogen:
2
3
3
2
3
1
3
β var
k ki ki
2
2
2 1 r x i
2
3
2
2
3
2
2
23
2
2
3 ˆ var
i i i i i x x x x x
2
23
2
3
2 1 r x i
2
2
X X x
2 ˆ var
2
3
2
2
3
2
2
2
3
2
i i i i i x x x x x
2
3
2
2
2
3
2
2
23 i i i i x x x x r
Struktur Korelasi dinamakan dengan Variance Infation Factor (VIF)
VIF x i
2
2
2
2 ˆ var
VIF x i
VIF
2
3
2
3 ˆ var
Semakin besar multikolinieritas maka semakin besar VIF
1 r
23
2
3
2
2
2
2
1
23
3
2
1 ˆ , ˆ cov i i x x r r
2
23
Semakin besar VIF semakin besar ragam penduga OLS
Untuk regresi lebih dari 2 peubah defnisi dari VIF:
2
1
1 j
R
VIF
:
2 j
R
Koefsien determinasi dari auxiliary
regression Auxiliary regression: regresi dengan X j sebagai peubah endogen, dan X selainnya sebagai peubah eksogen
Nilai VIF berdasarkan Koefsien Determinasi dari Auxiliary Regression
1
0.5
2
0.8
5
0.9
10
0.95
20 0.975 40 0.99 100
0.995 200 0.999 1000
2 j
R
VIF
VIF yang naik seiring dengan kenaikan koefsien determinasi
VIF yang lebih dari 10: bukti cukup untuk multikolinieritas Pendeteksian Multikolinieritas
Dari koefsien korelasi sederhana
Efektif untuk regresi dengan 2 peubah eksogen
Dari VIF, multikolinieritas serius jika r ≥ 0.9
Dari koefsien determinasi auxiliary regression
Efektif untuk regresi dengan 3 peubah eksogen atau lebih
Peubah eksogen pada auxiliary regression : peubah yang mempunyai masalah multikolinieritas
Hasil dari auxiliary regression:
Standar error yang kecil
Contoh:
Model regresi dengan 2 peubah eksogen,
Dua peubah eksogen tsb mempunyai korelasi tinggi:
Dari matrix korelasi berikut:
X2 X3 Y
X2
1 Y 0.857369 0.857438
1
Kedua X berkorelasi positif dengan Y
Antar X berkorelasi positif
Output dari pendugaan Model Regresi dengan Kedua Peubah
Model 1: OLS, using observations 1-25 Dependent variable: Y coefficient std. error t-ratio p-value
- const 35.8677 19.3872 1.850 0.0778 * X2 -6.32650 33.7510 -0.1874 0.8530 X3 1.78976 8.43832 0.2121 0.8340 Mean dependent var 169.3680 S.D. dependent var 79.05857 Sum squared resid 39658.40 S.E. of regression 42.45768
R-squared 0.735622 Adjusted R-squared 0.711587 F(2, 22) 30.60702 P-value(F) 4.41e-07 Log-likelihood -127.5882 Akaike criterion 261.1765 Schwarz criterion 264.8331 Hannan-Quinn 262.1907 Output model regresi dengan memakai X
2 saja
Model 2: OLS, using observations 1-25 Dependent variable: Y coefficient std. error t-ratio p-value
- const 36.7186 18.5695 1.977 0.0601 * X2 0.832012 0.104149 7.989 4.39e-08 *** Mean dependent var 169.3680 S.D. dependent var 79.05857 Sum squared resid 39739.49 S.E. of regression 41.56686 R-squared 0.735081 Adjusted R-squared 0.723563
F(1, 23) 63.81897 P-value(F) 4.39e-08 Log-likelihood -127.6138 Akaike criterion 259.2276 Schwarz criterion 261.6653 Hannan-Quinn 259.9037 Output model regresi dengan peubah X saja
3 Model 3: OLS, using observations 1-25
Dependent variable: Y coefficient std. error t-ratio p-value
- const 36.6097 18.5764 1.971 0.0609 * X3 0.208034 0.0260332 7.991 4.37e-08 *** Mean dependent var 169.3680 S.D. dependent var 79.05857 Sum squared resid 39721.74 S.E. of regression 41.55758 R-squared 0.735199 Adjusted R-squared 0.723686
F(1, 23) 63.85778 P-value(F) 4.37e-08 Log-likelihood -127.6082 Akaike criterion 259.2164 Schwarz criterion 261.6541 Hannan-Quinn 259.8925 Output dari auxiliary regression
Regresi X terhadap X
2
Dependent variable: X2 coefficient std. error t-ratio p-value
- const -0.117288 0.117251 -1.000 0.3276 X3 0.250016 0.000164318 1522 4.83e-059 *** Mean dependent var 159.4320 S.D. dependent var 81.46795 Sum squared resid 1.582488 S.E. of regression 0.262305 R-squared 0.999990 Adjusted R-squared 0.999990
F(1, 23) 2315090 P-value(F) 4.83e-59 Log-likelihood -0.974992 Akaike criterion 5.949985 Schwarz criterion 8.387736 Hannan-Quinn 6.626113 Bagaimana mengatasinya?
Do nothing
Rule of Thumb Procedure
A priori information
Combining cross sectional and time series data
Dropping a variable(s) and specifcation bias
Transformation of variables
Additional or new data Do Nothing
Multikolinieritas adalah masalah akibat ketidaksempurnaan data
Untuk data ekonomi: tidak dapat dikontrol dan tidak ada pilihan
Penduga secara keseluruhan tetap dapat dipakai walaupun penduga secara individu relatif kurang efsien dan tidak signifkan A priori information
Informasi dari penelitian sebelumnya mengenai hubungan fungsional antar parameter peubah yang berkorelasi u
3
3 1 .
2
Diketahui dari penelitian sebelumnya bahwa perubahan
kekayaan terhadap perubahan konsumsi adalah 1/10 perubahan pendapatan terhadap perubahan konsumsi3 : Kekayaan, Y: konsumsi
2 : pendapatan, X
X
Misal:
X
2 yang berkorelasi tinggi dengan X
X X Y
Dengan
1
2
2
3
3
Y
X X u .
1
1
2
2
3
3
3
2 Y X .
1 X u
1
2
2
2
3 Y
X u
1 X
- 1
2
3
Lakukan transformasi terhadap kedua peubah eksogen dengan hubungan sesuai (*)
Lakukan pendugaan menggunakan peubah yang sudah ditransformasi Menggabungkan data cross section dan time series
Misalkan:
Y : jumlah penjualan mobil
P : rata-rata harga mobil
I : pendapatan
Pada data time series, P dan I cenderung berkorelasi
ln Y ln P ln I u t1 2 t 3 t t
β : adalah elastisitas harga terhadap jumlah
2 penjualan mobil
β : adalah elastisitas pendapatan terhadap
3
Jika terdapat data cross section (pada satu waktu) yang dapat dipakai untuk menduga koefsien elastisitas pedapatan β
3
Dengan asumsi bahwa pada satu waktu harga tidak terlalu bervariasi
Gunakan penduga bagi β untuk melakukan
3 transformasi terhadap Y
ˆ ln Y ln P ln I u
t
1 2 t 3 t t
ˆ ln Y ln I ln P u
t
3 t
1 2 t t
Membuang salah satu dari peubah yang berkorelasi
Masalah:
Jika semua peubah secara ekonomi harus ada di dalam model: specifcation bias
Jika pendapatan dan kekayaan memang harus ada di
dalam model konsumsi Tujuan perbaikan multikolinieritas dapat memunculkan masalah baru: specifcation bias
Tetap gunakan dua-duanya Transformation of variables
Contoh pada data time series pada
1
X X Y
t t t t u
1
1
2
2
3 1 ,
3
1 1 ,
2
X
2
3
3
X X Y
Pada waktu t berlaku: t t t t u
3 seiring dengan waktu
2 yang berkorelasi tinggi dengan X
Dengan X
3
: Kekayaan, Y: konsumsi
2 : pendapatan, X
Model yang sama dapat berlaku pada waktu t-1
Untuk meminimumkan multikolinieritas, dilakukan pembedaan dari model di waktu t dan waktu t-1
X X Y Y t t t t v
X
2 dan ∆
X
Korelasi di antara peubah beda (∆
Regresi dilakukan pada masing-masing peubah yang sudah dibedakan
2
2
3
3
X X Y
X X
First diference form
t t t t t t t t
u u1
2
2
2
1
3
3
3
1
1
3 ) tidak sebesar korelasi dari peubah aslinya Additional or new data
Jika multikolinieritas terjadi akibat pengambilan sampel
Penambahan ukuran sampel dapat mengurangi efek dari multikolinieritas Ragam lebih kecil/lebih
2 efsien
ˆ var
2
2
2
x
1 r 2 i
23
Komponen ini diasumsikan tetap
Sampel bertambah akan