13
2.2.2 Jenis Outlier
Analisis regresi memberikan suatu model yang menggambarkan hubungan dari beberapa variabel independen
i
X , i = 1,2,…n dengan variabel
dependen , 1, 2,....,
i
Y i n
. Model regresi tersebut didapatkan dengan
menggunkan metode estimasi kuadrat terkecil least square estimate. Metode LS didasarkan pada asumsi bahwa error dari model yang dihasilkan harus
berdistribusi normal. Karena dengan error berdistribusi normal metode LS memberikan estimasi parameter yang optimal bagi model regresi tersebut [3].
Akan tetapi, dengan adanya data outlier asumsi kenormalan model regresi tersebut akan tidak terpenuhi [5]. Seperti diketahui pada analisis regresi, terdapat
satu variabel dependen yang digambarkan pada scatterplot sebagai arah y, dan beberapa variabel independen pada scatterplot digambarkan sebagai arah x. Oleh
karena itu, keberadaan data outlier mungkin teredapat pada arah-y atau pada arah- x atau di keduanya.
Data outlier pada arah-y akan memberikan nilai residual
r
yang sangat besar positif atau negatif. Hal ini disebabkan karena data yang menjadi outlier
mempunyai jarak yang sangat besar terhadap garis LS. Seperti yang ditunjukkan gambar 2.3.a yang merupakan scatterplot dan garis LS dari enam titik,
1 1
6 6
, ,....,
, x y
x y , yang hampir terletak pada suatu garis lurus garis LS. Oleh karena itu, penyelesaian LS kecocokannya sangat bagus untuk ke-6 data tersebut.
Akan tetapi, andaikan dengan data yang sama, tetapi data ke-4 merupakan data outlier, yaitu
4
y yang disebabkan karena ada suatu kesalahan, maka titik
4 4
, x y
mungkin akan jauh dari garis ideal garis LS. Hal ini digambarkan pada gambar
14
Gambar 2.3 a . Enam data asli dan garis LS-nya. b. Data yang
sama dengan data pada a, tetapi dengan outlier dalam arah-y,
yaitu
4
y .
2.3.b. titk data yang ke-4 bergeser ke atas dan jauh dari posisi asalnya ditunjukkan dengan bulatan, dan titik ke-4 itu memberikan pengaruh yang besar
pada garis LS, yang sangat berbeda dari garis LS pada gambar 2.3.a yaitu garis LS tidak memberikan kecocokan terhadap ke-6 data tersebut.
Sedangkan data outlier pada arah-x, memberikan pengaruh yang sangat besar pada estimator metode LS karena outlier pada arah-x akan membalikkan
garis LS. oleh karena itu, outlier pada arah-x disebut sebagai titik leverage [3]. Seperti ditunjukkan pada gambar 2.4.a yang merupakan scatterplot dan garis LS
dari lima titik data
1 1
5 5
, ,...,
, x y
x y yang hampir terletak pada suatu garis lurus
garis LS. Misalkan dengan data yang sama akan tetapi titik
1
x adalah outlier yang disebabkan karena suatu kesalahan. Maka, garis LS akan berbalik dari
keadaan yang digambarkan pada gambar 2.4.a, seperti yang ditunjukkan pada gambar 2.4.b. Hal ini dapat dijelaskan sebagai berikut: karena
1
x terletak jauh, maka residual
1
r dari garis asal seperti yang ditunjukkan pada gambar 2.4.a
15 menjadi sangat besar negatif, berkontribusi terhadap besarnya jumlah
5 2
1 i i
r
untuk garis tersebut. Oleh karena itu, garis asal tidak dapat dipilih dari prespektif LS, dan tentunya garis pada gambar 2.4.b mempunyai nilai
5 2
1 i i
r
yang terkecil, karena itu garis asal dibalikkan menjadi garis pada gambar 2.4.b untuk
mengurangi besarnya nilai
2 1
r , bahkan jika keempat bentuk lainnya,
2 2
2 2
2 3
4 5
, ,
, r r r r ,
sedikit dinaikkan [3].
Secara umum, suatu observasi
,
k k
x y dikatakan suatu titik leverage
ketika
k
x terletak jauh dari sebagian besar data observasi
i
x dalam sampel. Sebagai catatan, bahwa suatu titik leverage tidak memasukkan nilai
k
y ke dalam perhitungan, jadi titik
,
k k
x y tidak harus perlu menjadi outlier pada regresi.
Ketika
,
k k
x y dekat terhadap garis regresi yang ditentukan dengan sebagian
besar data, maka hal itu dapat diperkirakan sebagai titik leverage yang bagus seperti ditunjukkan pada gambar 2.5. Oleh karena itu, untuk mengatakan bahwa
,
k k
x y adalah suatu titik leverage hanya merujuk pada kepotensialannya
Gambar 2.4 a . Data asal dengan lima titik dan garis LS-nya. b.
Data yang sama dengan data a, tetapi dengan satu data outlier
pada arah- x, yaitu
1
x .
16 mempengaruhi secara kuat terhadap koefisien-koefisien regresi disebabkan
keterpencilannya komponen
k
x saja. Titik
,
k k
x y tidak harus dipandang
menyebabkan pengaruh yang besar terhadap koefisien-koefisien regresi, karena mungkin saja titik
,
k k
x y tepat pada garis yang ditentukan kecendrungannya
dengan sebagian besar himpunan data lainnya [3].
Dalam regresi berganda,
1
,...,
i ip
x x
terletak pada suatu ruang berdimensi p. Suatu titik leverage tetap didefinisikan sebagai suatu titik
1
,..., ,
k kp
k
x x
y
di mana
1
,...,
k kp
x x
merupakan titik-titik yang terpisah dari himpunan data
1
,...,
i ip
x x
. Seperti sebelumnya, suatu titik leverage yang berpotensial berpengaruh besar
pada koefisien regresi LS, bergantung pada nilai aktual dari .
k
y akan tetapi pada situasi ini, akan sangat susah mengidentifikasi titik-titik leverage, karena
dimensinya yang tinggi [3].
Gambar 2.5 Titik
,
k k
x y merupakan titik
leverage karena
k
x terpencil. Akan tetapi,
,
k k
x y bukan
outlier regresi karena cocok dengan pola kelineran sebagian himpunan titik data lainnya.
17
2.2.3 Deteksi outlier