Jenis Outlier Outlier Dalam Regresi: Sumber, Jenis dan Deteksi Outlier

13

2.2.2 Jenis Outlier

Analisis regresi memberikan suatu model yang menggambarkan hubungan dari beberapa variabel independen i X , i = 1,2,…n dengan variabel dependen , 1, 2,...., i Y i n  . Model regresi tersebut didapatkan dengan menggunkan metode estimasi kuadrat terkecil least square estimate. Metode LS didasarkan pada asumsi bahwa error dari model yang dihasilkan harus berdistribusi normal. Karena dengan error berdistribusi normal metode LS memberikan estimasi parameter yang optimal bagi model regresi tersebut [3]. Akan tetapi, dengan adanya data outlier asumsi kenormalan model regresi tersebut akan tidak terpenuhi [5]. Seperti diketahui pada analisis regresi, terdapat satu variabel dependen yang digambarkan pada scatterplot sebagai arah y, dan beberapa variabel independen pada scatterplot digambarkan sebagai arah x. Oleh karena itu, keberadaan data outlier mungkin teredapat pada arah-y atau pada arah- x atau di keduanya. Data outlier pada arah-y akan memberikan nilai residual r yang sangat besar positif atau negatif. Hal ini disebabkan karena data yang menjadi outlier mempunyai jarak yang sangat besar terhadap garis LS. Seperti yang ditunjukkan gambar 2.3.a yang merupakan scatterplot dan garis LS dari enam titik,     1 1 6 6 , ,...., , x y x y , yang hampir terletak pada suatu garis lurus garis LS. Oleh karena itu, penyelesaian LS kecocokannya sangat bagus untuk ke-6 data tersebut. Akan tetapi, andaikan dengan data yang sama, tetapi data ke-4 merupakan data outlier, yaitu 4 y yang disebabkan karena ada suatu kesalahan, maka titik   4 4 , x y mungkin akan jauh dari garis ideal garis LS. Hal ini digambarkan pada gambar 14 Gambar 2.3 a . Enam data asli dan garis LS-nya. b. Data yang sama dengan data pada a, tetapi dengan outlier dalam arah-y, yaitu 4 y . 2.3.b. titk data yang ke-4 bergeser ke atas dan jauh dari posisi asalnya ditunjukkan dengan bulatan, dan titik ke-4 itu memberikan pengaruh yang besar pada garis LS, yang sangat berbeda dari garis LS pada gambar 2.3.a yaitu garis LS tidak memberikan kecocokan terhadap ke-6 data tersebut. Sedangkan data outlier pada arah-x, memberikan pengaruh yang sangat besar pada estimator metode LS karena outlier pada arah-x akan membalikkan garis LS. oleh karena itu, outlier pada arah-x disebut sebagai titik leverage [3]. Seperti ditunjukkan pada gambar 2.4.a yang merupakan scatterplot dan garis LS dari lima titik data     1 1 5 5 , ,..., , x y x y yang hampir terletak pada suatu garis lurus garis LS. Misalkan dengan data yang sama akan tetapi titik 1 x adalah outlier yang disebabkan karena suatu kesalahan. Maka, garis LS akan berbalik dari keadaan yang digambarkan pada gambar 2.4.a, seperti yang ditunjukkan pada gambar 2.4.b. Hal ini dapat dijelaskan sebagai berikut: karena 1 x terletak jauh, maka residual 1 r dari garis asal seperti yang ditunjukkan pada gambar 2.4.a 15 menjadi sangat besar negatif, berkontribusi terhadap besarnya jumlah 5 2 1 i i r   untuk garis tersebut. Oleh karena itu, garis asal tidak dapat dipilih dari prespektif LS, dan tentunya garis pada gambar 2.4.b mempunyai nilai 5 2 1 i i r   yang terkecil, karena itu garis asal dibalikkan menjadi garis pada gambar 2.4.b untuk mengurangi besarnya nilai 2 1 r , bahkan jika keempat bentuk lainnya, 2 2 2 2 2 3 4 5 , , , r r r r , sedikit dinaikkan [3]. Secara umum, suatu observasi   , k k x y dikatakan suatu titik leverage ketika k x terletak jauh dari sebagian besar data observasi i x dalam sampel. Sebagai catatan, bahwa suatu titik leverage tidak memasukkan nilai k y ke dalam perhitungan, jadi titik   , k k x y tidak harus perlu menjadi outlier pada regresi. Ketika   , k k x y dekat terhadap garis regresi yang ditentukan dengan sebagian besar data, maka hal itu dapat diperkirakan sebagai titik leverage yang bagus seperti ditunjukkan pada gambar 2.5. Oleh karena itu, untuk mengatakan bahwa   , k k x y adalah suatu titik leverage hanya merujuk pada kepotensialannya Gambar 2.4 a . Data asal dengan lima titik dan garis LS-nya. b. Data yang sama dengan data a, tetapi dengan satu data outlier pada arah- x, yaitu 1 x . 16 mempengaruhi secara kuat terhadap koefisien-koefisien regresi disebabkan keterpencilannya komponen k x saja. Titik   , k k x y tidak harus dipandang menyebabkan pengaruh yang besar terhadap koefisien-koefisien regresi, karena mungkin saja titik   , k k x y tepat pada garis yang ditentukan kecendrungannya dengan sebagian besar himpunan data lainnya [3]. Dalam regresi berganda,   1 ,..., i ip x x terletak pada suatu ruang berdimensi p. Suatu titik leverage tetap didefinisikan sebagai suatu titik   1 ,..., , k kp k x x y di mana   1 ,..., k kp x x merupakan titik-titik yang terpisah dari himpunan data   1 ,..., i ip x x . Seperti sebelumnya, suatu titik leverage yang berpotensial berpengaruh besar pada koefisien regresi LS, bergantung pada nilai aktual dari . k y akan tetapi pada situasi ini, akan sangat susah mengidentifikasi titik-titik leverage, karena dimensinya yang tinggi [3]. Gambar 2.5 Titik   , k k x y merupakan titik leverage karena k x terpencil. Akan tetapi,   , k k x y bukan outlier regresi karena cocok dengan pola kelineran sebagian himpunan titik data lainnya. 17

2.2.3 Deteksi outlier