Outlier Pada Analisis Regresi

Outlier Pada Analisis
Regresi
By Eni Sumarminingsih, SSi,
MM

Pendahuluan
Tujuan dari Analisis Regresi adalah
mengepas persamaan pada peubah
yang terobservasi
Model regresi linier klasik
mengasumsikan hubungan berikut :
Dimana n adalah ukuran contoh
Variabel xi1, …, xip adalah variabel
penjelas dan yi adalah variabel

Pada theori klasik diasumsikan eror ei
menyebar normal dengan rata – rata
nol dan ragam 2
Jadi dengan analisis regresi kita
menduga parameter
Dari data


Dengan menggunakan metode
penduga regresi pada data tersebut
didapatkan

Dimana
adalah koefisien regresi
adalah nilai duga y yang didapat
dari persamaan berikut

Residual ri dari amatan ke I adalah
selisih antara y observasi dan y
dugaan

Metode Kuadrat Terkecil (MKT) atau
Ordinary Least Square (OLS) adalah
metode paling populer untuk
menduga parameter model regresi

Ide dasar metode OLS adalah mencari

nilai duga paramete yang
meminimumkan Jumlah Kuadrat
Galat

Efek Outlier pada Regresi Linier
Sederhana
Model Regresi Linier Sederhana

Misal kita memiliki 5 observasi (x1,y1),
…, (x5,y5) yang jika diplotkan akan
tampak seperti berikut : setiap titik
sangat dekat dengan garis regresi

Misalkan terdapat kesalahan penulisan
y4, maka titik (x4,y4) akan terletak
jauh dari garis idealnya.
Titik ini dinamakan outlier dalam y,
dan mempengaruhi garis LS

Outlier juga dapat terjadi dalam X.

Berikut adalah plot dari 5 titik
(x1,y1), … (x5,y5) berikut garis LSnya

Misalkan kita membuat kesalahan
dalam mencatat x1 sehingga maka
kita dapatkan gambar berikut

Titik (x1,y1) dinamakan outlier dalam
arah x dan efeknya pada penduga LS
sangat besar karena merubah garis
LS.
Titik (x1,y1) disebut leverage point

Perhatikan bahwa (xk,yk) dalam
gambar berikut bukan leverage
point. Mengapa?

Breakdown Point
Misalkan terdapat sample dengan n
titik data

Dan misalkan T adalah penduga
regresi sehingga
Misalkan Z’ adalah sample yang
didapat dari Z dimana m titik dalam
Z diganti dengan titik – titik yang
sembarang (ada kemungkinan

Notasikan bias(m; T, Z) adalah bias
maksimum yang dapat disebabkan
oleh kontaminasi tersebut

Jika bias (m;T, Z) infinite berarti m
outlier dapat memiliki efek yang
besar pada T atau dapat dikatakan
bahwa estimator “breaks down”

Breakdown point dari estimator T pada
sample Z didefinisikan sebagai

Dengan kata lain, break down point

adalah proporsi kontaminasi terkecil
yang dapat menyebabkan estimator T
menghasilkan yang cukup jauh dari T(Z)

Breakdown point untuk MKT (OLS)
adalah

Karena telah kita lihat bahwa satu
outlier sudah dapat merubah nilai
koefisien regresi
Hal ini menunjukkan bahwa OLS
sangat sensitif terhadap outlier

Identifikasi Pencilan pada Y
Dalam beberapa analisis regresi seringkali
ditemukan adanya amatan ekstrem, yaitu
bernilai jauh dengan amatan yang lain dalam
sampel
Adanya amatan ekstrem atau pencilan ini
dapat menyebabkan residual yang besar dan

seringkali memiliki efek yang besar pada
dugaan fungsi regresi yang menggunakan
OLS sehingga penduga koefisien regresi
menjadi bias dan atau tidak konsisten

Pencilan harus diteliti dengan hati –
hati apakah sebaiknya amatan ini
dipertahankan atau dihilangkan.
Jika dipertahankan, efek pencilan ini
harus dikurangi

Suatu amatan dapat menjadi pencilan
pada Y atau pada X atau pada
keduanya

Pendeteksian Outlier
Untuk pendeteksian pencilan ,
diperlukan suatu matriks yang
dinamakan hat matrix yang
dilambangkan dengan H


Penduga Y dapat ditulis sebagai

Dengan

Elemen diagonal dari matriks H
memberikan informasi tentang data
observasi yang mempunyai nilai
leverage yang besar
Elemen diagonal ke-i dari matriks H
yang dilambangkan dengan hii
diperoleh dari:

Dengan
adalah vektor baris yang
berisi nilai-nilai dari variabel bebas
atau independen dalam pengamatan
ke-i.
Pada elemen diagonal matriks H,
diperoleh

dimana p adalah
banyaknya peubah dalam model

Pendeteksian pencilan pada X
Jika nilai
lebih besar dari
2(p+1)/n
maka pengamatan ke-i
dikatakan sebagai outlier pada X
(leverage point).

Pendeteksian Pencilan pada
Y
Hipotesis yang digunakan untuk
menguji adalah:
H0 : Pengamatan ke-i bukan outlier
H1 : Pengamatan ke-i merupakan
outlier
Statistik uji yang dapat digunakan
untuk menguji adalah studentized

residual atau studentized deleted
residual yang didefinisikan:

Pendeteksian Pencilan pada
Y
Kriteria yang digunakan untuk
menguji ada tidaknya outlier adalah

di mana p adalah banyaknya variabel
bebas ditambah satu

Pendeteksian Pengamatan
Berpengaruh
Pengamatan berpengaruh
• merupakan pengamatan yang
berpengaruh besar dalam
pendugaan koefisien regresi
• memiliki nilai galat atau sisaan yang
besar atau mungkin pula tidak,
tergantung pada model yang

digunakan

Metode untuk mendeteksi
pengamatan berpengaruh
1. Cook’s Distance
Cook’s Distance merupakan jarak
antara pendugaan parameter dengan
MKT yang diperoleh dari n
pengamatan atau observasi yaitu
dan pendugaan parameter yang
diperoleh dengan terlebih dahulu
menghapus pengamatan atau
observasi ke-i yaitu

Jarak tersebut dapat dituliskan sebagai
berikut:

dengan

Hipotesis untuk menguji adanya

pengamatan berpengaruh adalah
sebagai berikut:
H0 : Pengamatan ke-i tidak
berpengaruh
H1 : Pengamatan ke-i berpengaruh
kriteria yang digunakan untuk menguji
hipotesis tersebut adalah sebagai
berikut, alpha = 0.5:

2. The Difference In Fits Statistic
(DFITS)
Hipotesis untuk menguji adanya
pengamatan berpengaruh adalah
sebagai berikut:
H0 : Pengamatan ke-i tidak
berpengaruh
H1 : Pengamatan ke-i berpengaruh
merupakan pengaruh
pengamatan atau observasi ke-i

Kriteria yang digunakan untuk menguji
hipotesis tersebut adalah

Metode untuk Penanganan Pencilan
1. Metode Theil
Merupakan metode regresi nonparametrik
Tidak terpengaruh terhadap adanya data
outlier atau pencilan
Asumsi:
• Contoh yang diambil bersifat acak dan
kontinyu;
• Regresi bersifat linier;
• Data diasumsikan tidak berdistribusi normal.

Misalkan terdapat n pasangan pengamatan,
(X1, Y1), (X2, Y2), …, (Xn, Yn), persamaan
regresi linier sederhana adalah:
Theil (1950) dalam Sprent (1991, hal 179180) mengusulkan perkiraan slope garis
regresi sebagai median slope dari seluruh
pasangan garis dari titik-titik dengan nilai
X yang berbeda

Untuk satu pasangan (Xi, Yi) dan (Xj,
Yj) slope-nya adalah

untuk i < j
penduga
dinotasikan dengan
dinyatakan sebagai median dari nilainilai
sehingga

Penduga M (M-Estimator)
dengan Fungsi Huber
Penduga M adalah solusi

(1)
Dimana (.) adalah fungsi kriteria
yang dapat berubah-ubah

fungsi krtiteria (.) mempunyai
beberapa sifat sebagai berikut:

Untuk mendapatkan penduga koefisien
regresi maka fungsi kriteria diturunkan
dan disamakan dengan nol

Dimana
adalah hasil diferensiasi dari
fungsi kriteria dan Xij adalah observasi
ke-i pada regressor ke-j

Bentuk umum dari persamaan (1)
adalah

Dan bentuk umum persamaan (2)
adalah

Fungsi kriteria Huber yang
didefinisikan sebagai berikut :

Dan fungsi pengaruhnya adalah

Dengan

Persamaan kedua dapat dituliskan

Dengan
Jika
menjadi

maka persamaan (2)

Untuk fungsi pengaruh Huber,
diperloleh pembobot sebagai
berikut :

Langkah-langkah penghitungan
penduga M: