Regresi dengan Pencilan

Regresi dengan Pencilan
Eni Sumarminingsih, Ssi, MM

Identifikasi Pencilan pada Y
Dalam beberapa analisis regresi seringkali
ditemukan adanya amatan ekstrem, yaitu
bernilai jauh dengan amatan yang lain dalam
sampel
Adanya amatan ekstrem atau pencilan ini
dapat menyebabkan residual yang besar dan
seringkali memiliki efek yang besar pada
dugaan fungsi regresi yang menggunakan
OLS sehingga penduga koefisien regresi
menjadi bias dan atau tidak konsisten

Pencilan harus diteliti dengan hati –
hati apakah sebaiknya amatan ini
dipertahankan atau dihilangkan.
Jika dipertahankan, efek pencilan ini
harus dikurangi


Suatu amatan dapat menjadi pencilan
pada Y atau pada X atau pada
keduanya

Pendeteksian Outlier
Untuk pendeteksian pencilan ,
diperlukan suatu matriks yang
dinamakan hat matrix yang
dilambangkan dengan H

Penduga Y dapat ditulis sebagai

Dengan

Elemen diagonal dari matriks H
memberikan informasi tentang data
observasi yang mempunyai nilai
leverage yang besar
Elemen diagonal ke-i dari matriks H
yang dilambangkan dengan hii

diperoleh dari:

Dengan
adalah vektor baris yang
berisi nilai-nilai dari variabel bebas
atau independen dalam pengamatan
ke-i.
Pada elemen diagonal matriks H,
diperoleh
dimana p adalah
banyaknya peubah dalam model

Pendeteksian pencilan pada X
Jika nilai
lebih besar dari
maka pengamatan ke-i dikatakan
sebagai outlier pada X (leverage
point).

Pendeteksian Pencilan pada

Y
Hipotesis yang digunakan untuk
menguji adalah:
H0 : Pengamatan ke-i bukan outlier
H1 : Pengamatan ke-i merupakan
outlier
Statistik uji yang dapat digunakan
untuk menguji adalah studentized
residual atau studentized deleted
residual yang didefinisikan:

Pendeteksian Pencilan pada
Y
Kriteria yang digunakan untuk
menguji ada tidaknya outlier adalah

di mana p adalah banyaknya variabel
bebas ditambah satu

Pendeteksian Pengamatan

Berpengaruh
Pengamatan berpengaruh
• merupakan pengamatan yang
berpengaruh besar dalam
pendugaan koefisien regresi
• memiliki nilai galat atau sisaan yang
besar atau mungkin pula tidak,
tergantung pada model yang
digunakan

Metode untuk mendeteksi
pengamatan berpengaruh
1. Cook’s Distance
Cook’s Distance merupakan jarak
antara pendugaan parameter dengan
MKT yang diperoleh dari n
pengamatan atau observasi yaitu
dan pendugaan parameter yang
diperoleh dengan terlebih dahulu
menghapus pengamatan atau

observasi ke-i yaitu

Jarak tersebut dapat dituliskan sebagai
berikut:

dengan

Hipotesis untuk menguji adanya
pengamatan berpengaruh adalah
sebagai berikut:
H0 : Pengamatan ke-i tidak
berpengaruh
H1 : Pengamatan ke-i berpengaruh
kriteria yang digunakan untuk menguji
hipotesis tersebut adalah sebagai
berikut:

2. The Difference In Fits Statistic
(DFITS)
Hipotesis untuk menguji adanya

pengamatan berpengaruh adalah
sebagai berikut:
H0 : Pengamatan ke-i tidak
berpengaruh
H1 : Pengamatan ke-i berpengaruh
merupakan pengaruh
pengamatan atau observasi ke-i

Kriteria yang digunakan untuk menguji
hipotesis tersebut adalah

Metode untuk Penanganan Pencilan
1. Metode Theil
Merupakan metode regresi nonparametrik
Tidak terpengaruh terhadap adanya data
outlier atau pencilan
Asumsi:
• Contoh yang diambil bersifat acak dan
kontinyu;
• Regresi bersifat linier;

• Data diasumsikan tidak berdistribusi normal.

Misalkan terdapat n pasangan pengamatan,
(X1, Y1), (X2, Y2), …, (Xn, Yn), persamaan
regresi linier sederhana adalah:
Theil (1950) dalam Sprent (1991, hal 179180) mengusulkan perkiraan slope garis
regresi sebagai median slope dari seluruh
pasangan garis dari titik-titik dengan nilai
X yang berbeda

Untuk satu pasangan (Xi, Yi) dan (Xj,
Yj) slope-nya adalah

untuk i < j
penduga
dinotasikan dengan
dinyatakan sebagai median dari nilainilai
sehingga

Tugas 1

i
1
2
3
4

X1
14
19
12
11

Y
301
327
246
187

1. Deteksi pencilan pada
X dan pada Y

2. Deteksi adakah
pengamatan
berpengaruh
3. Dugalah beta
menggunakan metode
Theil
** Perhitungan dilakukan
di Excell
**Dipresentasikan
Minggu depan