Outlier Pada Analisis Regresi
Outlier Pada Analisis
Regresi
By Eni Sumarminingsih, SSi,
MM
Pendahuluan
Tujuan dari Analisis Regresi adalah
mengepas persamaan pada peubah
yang terobservasi
Model regresi linier klasik
mengasumsikan hubungan berikut :
Dimana n adalah ukuran contoh
Variabel xi1, …, xip adalah variabel
penjelas dan yi adalah variabel
Pada theori klasik diasumsikan eror ei
menyebar normal dengan rata – rata
nol dan ragam 2
Jadi dengan analisis regresi kita
menduga parameter
Dari data
Dengan menggunakan metode
penduga regresi pada data tersebut
didapatkan
Dimana
adalah koefisien regresi
adalah nilai duga y yang didapat
dari persamaan berikut
Residual ri dari amatan ke I adalah
selisih antara y observasi dan y
dugaan
Metode Kuadrat Terkecil (MKT) atau
Ordinary Least Square (OLS) adalah
metode paling populer untuk
menduga parameter model regresi
Ide dasar metode OLS adalah mencari
nilai duga paramete yang
meminimumkan Jumlah Kuadrat
Galat
Efek Outlier pada Regresi Linier
Sederhana
Model Regresi Linier Sederhana
Misal kita memiliki 5 observasi (x1,y1),
…, (x5,y5) yang jika diplotkan akan
tampak seperti berikut : setiap titik
sangat dekat dengan garis regresi
Misalkan terdapat kesalahan penulisan
y4, maka titik (x4,y4) akan terletak
jauh dari garis idealnya.
Titik ini dinamakan outlier dalam y,
dan mempengaruhi garis LS
Outlier juga dapat terjadi dalam X.
Berikut adalah plot dari 5 titik
(x1,y1), … (x5,y5) berikut garis LSnya
Misalkan kita membuat kesalahan
dalam mencatat x1 sehingga maka
kita dapatkan gambar berikut
Titik (x1,y1) dinamakan outlier dalam
arah x dan efeknya pada penduga LS
sangat besar karena merubah garis
LS.
Titik (x1,y1) disebut leverage point
Perhatikan bahwa (xk,yk) dalam
gambar berikut bukan leverage
point. Mengapa?
Breakdown Point
Misalkan terdapat sample dengan n
titik data
Dan misalkan T adalah penduga
regresi sehingga
Misalkan Z’ adalah sample yang
didapat dari Z dimana m titik dalam
Z diganti dengan titik – titik yang
sembarang (ada kemungkinan
Notasikan bias(m; T, Z) adalah bias
maksimum yang dapat disebabkan
oleh kontaminasi tersebut
Jika bias (m;T, Z) infinite berarti m
outlier dapat memiliki efek yang
besar pada T atau dapat dikatakan
bahwa estimator “breaks down”
Breakdown point dari estimator T pada
sample Z didefinisikan sebagai
Dengan kata lain, break down point
adalah proporsi kontaminasi terkecil
yang dapat menyebabkan estimator T
menghasilkan yang cukup jauh dari T(Z)
Breakdown point untuk MKT (OLS)
adalah
Karena telah kita lihat bahwa satu
outlier sudah dapat merubah nilai
koefisien regresi
Hal ini menunjukkan bahwa OLS
sangat sensitif terhadap outlier
Identifikasi Pencilan pada Y
Dalam beberapa analisis regresi seringkali
ditemukan adanya amatan ekstrem, yaitu
bernilai jauh dengan amatan yang lain dalam
sampel
Adanya amatan ekstrem atau pencilan ini
dapat menyebabkan residual yang besar dan
seringkali memiliki efek yang besar pada
dugaan fungsi regresi yang menggunakan
OLS sehingga penduga koefisien regresi
menjadi bias dan atau tidak konsisten
Pencilan harus diteliti dengan hati –
hati apakah sebaiknya amatan ini
dipertahankan atau dihilangkan.
Jika dipertahankan, efek pencilan ini
harus dikurangi
Suatu amatan dapat menjadi pencilan
pada Y atau pada X atau pada
keduanya
Pendeteksian Outlier
Untuk pendeteksian pencilan ,
diperlukan suatu matriks yang
dinamakan hat matrix yang
dilambangkan dengan H
Penduga Y dapat ditulis sebagai
Dengan
Elemen diagonal dari matriks H
memberikan informasi tentang data
observasi yang mempunyai nilai
leverage yang besar
Elemen diagonal ke-i dari matriks H
yang dilambangkan dengan hii
diperoleh dari:
Dengan
adalah vektor baris yang
berisi nilai-nilai dari variabel bebas
atau independen dalam pengamatan
ke-i.
Pada elemen diagonal matriks H,
diperoleh
dimana p adalah
banyaknya peubah dalam model
Pendeteksian pencilan pada X
Jika nilai
lebih besar dari
2(p+1)/n
maka pengamatan ke-i
dikatakan sebagai outlier pada X
(leverage point).
Pendeteksian Pencilan pada
Y
Hipotesis yang digunakan untuk
menguji adalah:
H0 : Pengamatan ke-i bukan outlier
H1 : Pengamatan ke-i merupakan
outlier
Statistik uji yang dapat digunakan
untuk menguji adalah studentized
residual atau studentized deleted
residual yang didefinisikan:
Pendeteksian Pencilan pada
Y
Kriteria yang digunakan untuk
menguji ada tidaknya outlier adalah
di mana p adalah banyaknya variabel
bebas ditambah satu
Pendeteksian Pengamatan
Berpengaruh
Pengamatan berpengaruh
• merupakan pengamatan yang
berpengaruh besar dalam
pendugaan koefisien regresi
• memiliki nilai galat atau sisaan yang
besar atau mungkin pula tidak,
tergantung pada model yang
digunakan
Metode untuk mendeteksi
pengamatan berpengaruh
1. Cook’s Distance
Cook’s Distance merupakan jarak
antara pendugaan parameter dengan
MKT yang diperoleh dari n
pengamatan atau observasi yaitu
dan pendugaan parameter yang
diperoleh dengan terlebih dahulu
menghapus pengamatan atau
observasi ke-i yaitu
Jarak tersebut dapat dituliskan sebagai
berikut:
dengan
Hipotesis untuk menguji adanya
pengamatan berpengaruh adalah
sebagai berikut:
H0 : Pengamatan ke-i tidak
berpengaruh
H1 : Pengamatan ke-i berpengaruh
kriteria yang digunakan untuk menguji
hipotesis tersebut adalah sebagai
berikut, alpha = 0.5:
2. The Difference In Fits Statistic
(DFITS)
Hipotesis untuk menguji adanya
pengamatan berpengaruh adalah
sebagai berikut:
H0 : Pengamatan ke-i tidak
berpengaruh
H1 : Pengamatan ke-i berpengaruh
merupakan pengaruh
pengamatan atau observasi ke-i
Kriteria yang digunakan untuk menguji
hipotesis tersebut adalah
Metode untuk Penanganan Pencilan
1. Metode Theil
Merupakan metode regresi nonparametrik
Tidak terpengaruh terhadap adanya data
outlier atau pencilan
Asumsi:
• Contoh yang diambil bersifat acak dan
kontinyu;
• Regresi bersifat linier;
• Data diasumsikan tidak berdistribusi normal.
Misalkan terdapat n pasangan pengamatan,
(X1, Y1), (X2, Y2), …, (Xn, Yn), persamaan
regresi linier sederhana adalah:
Theil (1950) dalam Sprent (1991, hal 179180) mengusulkan perkiraan slope garis
regresi sebagai median slope dari seluruh
pasangan garis dari titik-titik dengan nilai
X yang berbeda
Untuk satu pasangan (Xi, Yi) dan (Xj,
Yj) slope-nya adalah
untuk i < j
penduga
dinotasikan dengan
dinyatakan sebagai median dari nilainilai
sehingga
Penduga M (M-Estimator)
dengan Fungsi Huber
Penduga M adalah solusi
(1)
Dimana (.) adalah fungsi kriteria
yang dapat berubah-ubah
fungsi krtiteria (.) mempunyai
beberapa sifat sebagai berikut:
Untuk mendapatkan penduga koefisien
regresi maka fungsi kriteria diturunkan
dan disamakan dengan nol
Dimana
adalah hasil diferensiasi dari
fungsi kriteria dan Xij adalah observasi
ke-i pada regressor ke-j
Bentuk umum dari persamaan (1)
adalah
Dan bentuk umum persamaan (2)
adalah
Fungsi kriteria Huber yang
didefinisikan sebagai berikut :
Dan fungsi pengaruhnya adalah
Dengan
Persamaan kedua dapat dituliskan
Dengan
Jika
menjadi
maka persamaan (2)
Untuk fungsi pengaruh Huber,
diperloleh pembobot sebagai
berikut :
Langkah-langkah penghitungan
penduga M:
Regresi
By Eni Sumarminingsih, SSi,
MM
Pendahuluan
Tujuan dari Analisis Regresi adalah
mengepas persamaan pada peubah
yang terobservasi
Model regresi linier klasik
mengasumsikan hubungan berikut :
Dimana n adalah ukuran contoh
Variabel xi1, …, xip adalah variabel
penjelas dan yi adalah variabel
Pada theori klasik diasumsikan eror ei
menyebar normal dengan rata – rata
nol dan ragam 2
Jadi dengan analisis regresi kita
menduga parameter
Dari data
Dengan menggunakan metode
penduga regresi pada data tersebut
didapatkan
Dimana
adalah koefisien regresi
adalah nilai duga y yang didapat
dari persamaan berikut
Residual ri dari amatan ke I adalah
selisih antara y observasi dan y
dugaan
Metode Kuadrat Terkecil (MKT) atau
Ordinary Least Square (OLS) adalah
metode paling populer untuk
menduga parameter model regresi
Ide dasar metode OLS adalah mencari
nilai duga paramete yang
meminimumkan Jumlah Kuadrat
Galat
Efek Outlier pada Regresi Linier
Sederhana
Model Regresi Linier Sederhana
Misal kita memiliki 5 observasi (x1,y1),
…, (x5,y5) yang jika diplotkan akan
tampak seperti berikut : setiap titik
sangat dekat dengan garis regresi
Misalkan terdapat kesalahan penulisan
y4, maka titik (x4,y4) akan terletak
jauh dari garis idealnya.
Titik ini dinamakan outlier dalam y,
dan mempengaruhi garis LS
Outlier juga dapat terjadi dalam X.
Berikut adalah plot dari 5 titik
(x1,y1), … (x5,y5) berikut garis LSnya
Misalkan kita membuat kesalahan
dalam mencatat x1 sehingga maka
kita dapatkan gambar berikut
Titik (x1,y1) dinamakan outlier dalam
arah x dan efeknya pada penduga LS
sangat besar karena merubah garis
LS.
Titik (x1,y1) disebut leverage point
Perhatikan bahwa (xk,yk) dalam
gambar berikut bukan leverage
point. Mengapa?
Breakdown Point
Misalkan terdapat sample dengan n
titik data
Dan misalkan T adalah penduga
regresi sehingga
Misalkan Z’ adalah sample yang
didapat dari Z dimana m titik dalam
Z diganti dengan titik – titik yang
sembarang (ada kemungkinan
Notasikan bias(m; T, Z) adalah bias
maksimum yang dapat disebabkan
oleh kontaminasi tersebut
Jika bias (m;T, Z) infinite berarti m
outlier dapat memiliki efek yang
besar pada T atau dapat dikatakan
bahwa estimator “breaks down”
Breakdown point dari estimator T pada
sample Z didefinisikan sebagai
Dengan kata lain, break down point
adalah proporsi kontaminasi terkecil
yang dapat menyebabkan estimator T
menghasilkan yang cukup jauh dari T(Z)
Breakdown point untuk MKT (OLS)
adalah
Karena telah kita lihat bahwa satu
outlier sudah dapat merubah nilai
koefisien regresi
Hal ini menunjukkan bahwa OLS
sangat sensitif terhadap outlier
Identifikasi Pencilan pada Y
Dalam beberapa analisis regresi seringkali
ditemukan adanya amatan ekstrem, yaitu
bernilai jauh dengan amatan yang lain dalam
sampel
Adanya amatan ekstrem atau pencilan ini
dapat menyebabkan residual yang besar dan
seringkali memiliki efek yang besar pada
dugaan fungsi regresi yang menggunakan
OLS sehingga penduga koefisien regresi
menjadi bias dan atau tidak konsisten
Pencilan harus diteliti dengan hati –
hati apakah sebaiknya amatan ini
dipertahankan atau dihilangkan.
Jika dipertahankan, efek pencilan ini
harus dikurangi
Suatu amatan dapat menjadi pencilan
pada Y atau pada X atau pada
keduanya
Pendeteksian Outlier
Untuk pendeteksian pencilan ,
diperlukan suatu matriks yang
dinamakan hat matrix yang
dilambangkan dengan H
Penduga Y dapat ditulis sebagai
Dengan
Elemen diagonal dari matriks H
memberikan informasi tentang data
observasi yang mempunyai nilai
leverage yang besar
Elemen diagonal ke-i dari matriks H
yang dilambangkan dengan hii
diperoleh dari:
Dengan
adalah vektor baris yang
berisi nilai-nilai dari variabel bebas
atau independen dalam pengamatan
ke-i.
Pada elemen diagonal matriks H,
diperoleh
dimana p adalah
banyaknya peubah dalam model
Pendeteksian pencilan pada X
Jika nilai
lebih besar dari
2(p+1)/n
maka pengamatan ke-i
dikatakan sebagai outlier pada X
(leverage point).
Pendeteksian Pencilan pada
Y
Hipotesis yang digunakan untuk
menguji adalah:
H0 : Pengamatan ke-i bukan outlier
H1 : Pengamatan ke-i merupakan
outlier
Statistik uji yang dapat digunakan
untuk menguji adalah studentized
residual atau studentized deleted
residual yang didefinisikan:
Pendeteksian Pencilan pada
Y
Kriteria yang digunakan untuk
menguji ada tidaknya outlier adalah
di mana p adalah banyaknya variabel
bebas ditambah satu
Pendeteksian Pengamatan
Berpengaruh
Pengamatan berpengaruh
• merupakan pengamatan yang
berpengaruh besar dalam
pendugaan koefisien regresi
• memiliki nilai galat atau sisaan yang
besar atau mungkin pula tidak,
tergantung pada model yang
digunakan
Metode untuk mendeteksi
pengamatan berpengaruh
1. Cook’s Distance
Cook’s Distance merupakan jarak
antara pendugaan parameter dengan
MKT yang diperoleh dari n
pengamatan atau observasi yaitu
dan pendugaan parameter yang
diperoleh dengan terlebih dahulu
menghapus pengamatan atau
observasi ke-i yaitu
Jarak tersebut dapat dituliskan sebagai
berikut:
dengan
Hipotesis untuk menguji adanya
pengamatan berpengaruh adalah
sebagai berikut:
H0 : Pengamatan ke-i tidak
berpengaruh
H1 : Pengamatan ke-i berpengaruh
kriteria yang digunakan untuk menguji
hipotesis tersebut adalah sebagai
berikut, alpha = 0.5:
2. The Difference In Fits Statistic
(DFITS)
Hipotesis untuk menguji adanya
pengamatan berpengaruh adalah
sebagai berikut:
H0 : Pengamatan ke-i tidak
berpengaruh
H1 : Pengamatan ke-i berpengaruh
merupakan pengaruh
pengamatan atau observasi ke-i
Kriteria yang digunakan untuk menguji
hipotesis tersebut adalah
Metode untuk Penanganan Pencilan
1. Metode Theil
Merupakan metode regresi nonparametrik
Tidak terpengaruh terhadap adanya data
outlier atau pencilan
Asumsi:
• Contoh yang diambil bersifat acak dan
kontinyu;
• Regresi bersifat linier;
• Data diasumsikan tidak berdistribusi normal.
Misalkan terdapat n pasangan pengamatan,
(X1, Y1), (X2, Y2), …, (Xn, Yn), persamaan
regresi linier sederhana adalah:
Theil (1950) dalam Sprent (1991, hal 179180) mengusulkan perkiraan slope garis
regresi sebagai median slope dari seluruh
pasangan garis dari titik-titik dengan nilai
X yang berbeda
Untuk satu pasangan (Xi, Yi) dan (Xj,
Yj) slope-nya adalah
untuk i < j
penduga
dinotasikan dengan
dinyatakan sebagai median dari nilainilai
sehingga
Penduga M (M-Estimator)
dengan Fungsi Huber
Penduga M adalah solusi
(1)
Dimana (.) adalah fungsi kriteria
yang dapat berubah-ubah
fungsi krtiteria (.) mempunyai
beberapa sifat sebagai berikut:
Untuk mendapatkan penduga koefisien
regresi maka fungsi kriteria diturunkan
dan disamakan dengan nol
Dimana
adalah hasil diferensiasi dari
fungsi kriteria dan Xij adalah observasi
ke-i pada regressor ke-j
Bentuk umum dari persamaan (1)
adalah
Dan bentuk umum persamaan (2)
adalah
Fungsi kriteria Huber yang
didefinisikan sebagai berikut :
Dan fungsi pengaruhnya adalah
Dengan
Persamaan kedua dapat dituliskan
Dengan
Jika
menjadi
maka persamaan (2)
Untuk fungsi pengaruh Huber,
diperloleh pembobot sebagai
berikut :
Langkah-langkah penghitungan
penduga M: