Outlier OUTLIER DAN REGRESI ROBUST

20

BAB III OUTLIER DAN REGRESI ROBUST

Dalam suatu pengamatan, misalkan Y simbol yang akan digunakan untuk variabel bebas dan X simbol yang akan digunakan untuk variabel tak bebas, maka rumusan model regresi antara variabel Y dan X adalah: i ip p i i ε β β β + Χ + + Χ + = Υ L 1 1 3.1 Menurut asumsi regresi linear i ε berdistribusi normal, namun ketika distribusi dari i ε tidak normal atau adanya beberapa outlier yang berpengaruh pada model, maka penduga kuadrat terkecil menjadi bias sehingga kurang tepat untuk menduga parameter-parameter dalam model regresi tersebut. Oleh karena itu dibutuhkan suatu model regresi dengan parameter-parameter yang tidak terpengaruh oleh outlier. Metode pendekatan alternatif yang berguna untuk mencari parameter-parameter dalam model regresi tersebut adalah regresi robust. Regresi robust yang diperkenalkan oleh Andrews 1972 adalah alat penting untuk menganalisa data yang dipengaruhi oleh outlier sehingga dihasilkan model yang tidak terpengaruh oleh outlier.

A. Outlier

Menurut Staudte dan Snether 1990 outlier adalah suatu observasi yang jauh dari sebagian besar data. Pada regresi linear, outlier adalah pengamatan dengan nilai residual yang besar. Munculnya outlier dapat membuat penduga kuadrat terkecil menjadi bias. Munculnya outlier dikarenakan adanya kesalahan dalam memasukkan data, kesalahan pengukuran, analisis, atau kesalahan-kesalahan lainnya. Keberadaan data yang mengandung outlier akan mengganggu proses analisa data dan harus dihindari dalam banyak hal. Dalam kaitannya dengan analisa regresi, outlier dapat menyebabkan hal-hal berikut : 1. Residual yang besar dari model yang terbentuk atau ε i ≠ E 2. Variansi pada data tersebut menjadi lebih besar 3. Taksiran interval memiliki rentang yang lebar Permasalahan dengan data yang memuat outlier adalah: 1. Permasalahan dengan outlier di sumbu y Andaikan 5 5 1 1 , , , , Υ Χ Υ Χ L suatu pengamatan sampel dengan suatu garis L yang diperlihatkan dalam Gambar 3.1a. Jika terdapat kesalahan dalam memasukkan data, misalnya nilai 4 Υ tinggi yang akan menyebabkan adanya outlier. Maka Gambar 3.1a akan berubah seperti yang diperlihatkan dalam Gambar 3.1b yaitu titik yang keempat menjauh dari posisi aslinya ditandai oleh lingkaran garis putus-putus. Titik ini disebut suatu outlier di sumbu y, yang mempunyai suatu pengaruh besar dengan garis L, yang sungguh berbeda dari garis L di dalam Gambar 3.1a. Gambar 3.1. a Regresi linear dengan lima data Gambar 3.1. b Regresi linear dengan satu outlier di sumbu y. 2. Permasalahan dengan outlier di sumbu x Andaikan 5 5 1 1 , , , , Υ Χ Υ Χ L suatu pengamatan sampel dengan suatu garis L yang diperlihatkan dalam Gambar 3.2a. Jika terdapat kesalahan dalam memasukkan data, misalnya nilai 1 Χ tinggi yang akan menyebabkan adanya outlier. Maka Gambar 3.2a akan berubah seperti yang diperlihatkan dalam Gambar 3.2b yaitu titik yang pertama menjauh dari posisi aslinya ditandai oleh lingkaran garis putus-putus. Titik ini disebut suatu outlier di sumbu x, yang mempunyai suatu pengaruh besar dengan garis L, yang sungguh berbeda dari garis L di dalam Gambar 3.2a. Gambar 3.2. a Regresi linear dengan lima data. Gambar 3.2. b Regresi linear dengan satu outlier di sumbu x. Untuk mendeteksi suatu data yang memuat outlier dan menentukan batasan out- lier dalam sebuah analisa, akan digunakan 3 metode estimasi yaitu: 1. Metode Grafis Scatter-plot Untuk melihat apakah terdapat outlier pada data, dapat dilakukan dengan mem- plot data. Selain itu, jika sudah didapatkan model regresi maka dapat dilakukan dengan cara memplot antara residual ε dengan nilai prediksi Υˆ . Jika terdapat satu atau beberapa data yang terletak jauh dari pola kumpulan data keseluruhan maka hal ini mengindikasikan adanya outlier. Metode ini mempunyai kelemahan yaitu keputusan bahwa suatu data merupakan outlier sangat bergantung pada peneliti, karena hanya mengandalkan visualisasi grafis, untuk itu dibutuhkan seseorang yang ahli dan berpe- ngalaman dalam menginterpretasikan gambar tersebut. Contoh 3.1 Sebuah toko memiliki rincian banyaknya barang yang terjual beserta harganya yang disajikan dalam Tabel 3.1. Dengan X = banyaknya barang yang terjual dan Y = harga barang dalam ribuan Tabel 3.1. Banyak barang yang terjual dan harga barang Observasi X Y 1 18 770 2 16 785 3 15 790 4 12 800 5 10 810 6 7 825 7 6 830 Dengan menggunakan Metode Grafis Scatter-plot, tentukan apakah data tersebut memuat outlier? Jawab: Melalui metode grafis akan diuji apakah data memuat outlier. Dengan menggunakan SPSS, scatter-plot antara nilai X dengan nilai Y ditunjukkan dalam Gambar 3.3. Gambar 3.3. Scatter-plot 6.00 8.00 10.00 12.00 14.00 16.00 18.00 X 770.00 780.00 790.00 800.00 810.00 820.00 830.00 Y Dari Gambar 3.3. terlihat bahwa tidak ada data yang jauh dari pola kumpulan data keseluruhan. Jadi data tersebut tidak memuat outlier. Contoh 3.2 Menggunakan Contoh 3.1 dengan mengganti jumlah barang yang terjual pada observasi ke-6 dengan nilai 30. Dengan menggunakan Metode Grafis Scatter-plot, tentukan apakah data tersebut memuat outlier? Jawab: Melalui metode grafis akan diuji apakah data memuat outlier. Dengan menggunakan SPSS, scatter-plot antara nilai X dengan nilai Y ditunjukkan dalam Gambar 3.4. Gambar 3.4. Scatter-plot 5.00 10.00 15.00 20.00 25.00 30.00 X 770.00 780.00 790.00 800.00 810.00 820.00 830.00 Y Dari Gambar 3.4. terlihat bahwa data pada observasi ke-6 jauh dari pola kumpulan data keseluruhan. Jadi data tersebut memuat outlier. 2. Boxplot Metode ini merupakan metode yang paling umum yaitu dengan menggunakan nilai kuartil dan jangkauan. Kuartil 1, 2, dan 3 akan membagi sebuah urutan data menjadi empat bagian. Jangkauan IQR, Interquartile Range didefinisikan sebagai selisih kuartil satu terhadap kuartil 3, atau IQR = Q3 – Q1. Dalam Gambar 3.5 diberikan skema identifikasi outlier menggunakan IQR atau boxplot. Outlier terletak pada nilai yang kurang dari 1.5IQR terhadap kuartil 1 dan nilai yang lebih dari 1.5IQR terhadap kuartil 3. Gambar 3.5. Skema identifikasi outlier menggunakan IQR atau boxplot Contoh 3.3 Dengan menggunakan Boxplot, tentukan apakah data pada Contoh 3.1 memuat outlier? Jawab: Untuk keperluan ini terlebih dahulu dihitung nilai kuartil Q 1, 2, dan 3 serta jangkauan IQR, Interquartile Range seperti yang tercantum dalam Tabel 3.2 Tabel 3.2. Kuartil dan jangkauan X Y Q1 7 785 Q2 12 800 Q3 16 825 IQR 9 40 1.5IQR 13.5 60 Dari Tabel 3.2. outlier terletak pada daerah X -6.5 dan X 29.5 atau Y 725 dan Y 885. Karena nilai X pada data berada pada nilai -6.5 X 29.5 dan nilai Y pada data berada pada nilai 725 Y 885, maka dapat disimpulkan bahwa data tersebut tidak memuat outlier. Dengan menggunakan SPSS yang disajikan dalam boxplot akan tampak seperti Gambar 3.6a. dan Gambar 3.6b. X 6.00 8.00 10.00 12.00 14.00 16.00 18.00 Gambar 3.6a. Boxplot untuk variabel X Y 770.00 780.00 790.00 800.00 810.00 820.00 830.00 Gambar 3.6b. Boxplot untuk variabel Y Dari Gambar 3.6a. maupun Gambar 3.6b. terlihat tidak ada data yang berada di daerah outlier. Jadi data tersebut tidak memuat outlier. Contoh 3.4 Dengan menggunakan Boxplot, tentukan apakah data pada Contoh 3.2 memuat outlier? Jawab: Untuk keperluan ini terlebih dahulu dihitung nilai kuartil Q 1, 2, dan 3 serta jangkauan IQR, Interquartile Range seperti yang tercantum dalam Tabel 3.3 Tabel 3.3. Kuartil dan jangkauan X Y Q1 10 785 Q2 15 800 Q3 18 825 IQR 8 40 1.5IQR 12 60 Dari Tabel 3.3. outlier terletak pada daerah X -2 dan X 30 atau Y 725 dan Y 885. Karena nilai X pada observasi ke-6 yaitu X = 30 berada pada daerah outlier maka data tersebut memuat outlier di sumbu X. Dengan menggunakan SPSS yang disajikan dalam boxplot akan tampak seperti Gambar 3.7a. dan Gambar 3.7b. X 5.00 10.00 15.00 20.00 25.00 30.00 6 Gambar 3.7a. Boxplot untuk variabel X Y 770.00 780.00 790.00 800.00 810.00 820.00 830.00 Gambar 3.7b. Boxplot untuk variabel Y Dari Gambar 3.7a. terlihat bahwa data pada observasi ke-6 berada di daerah outlier. Jadi data tersebut memuat outlier di sumbu X. 3. Residual yang distudentkan Studentized Residual Umumnya outlier dipengaruhi oleh pengamatan i i X , Υ pada penduga kuadrat terkecil yang tergantung pada i Υ yang terlalu besar atau terlalu kecil dibandingkan dengan nilai i X . Suatu metode yang sederhana dan efektif untuk mendeteksi outlier adalah analisis residual. Residual banyak memegang peranan penting dalam pengujian model regresi karena residual itu sendiri merupakan sisa pada suatu pengamatan. Residual ke-i didefinisikan sebagai berikut: i i i Υ − Υ = ˆ ε Umumnya pengamatan yang dicurigai sebagai outlier dikategorikan ke dalam pelanggaran asumsi. Maka lebih tepat jika digunakan analisis residual. Untuk mendeteksi apakah terdapat outlier atau tidak, dapat dilakukan dengan menghitung nilai is ε sebagai berikut: i i is h s − = 1 ε ε 3.2 dengan: p n s n i i − = ∑ =1 2 2 ε p adalah banyaknya parameter i h nilai laverage adalah ukuran seberapa jauh i x menyimpang dari nilai rata-rata X . Andaikan H matriks orthogonal dari X , dengan elemen diagonalnya n h h , , 1 K adalah nilai leverage dari n x x , , 1 K . Matriks H memenuhi X X X X H 1 − ′ ′ = dan i i x x h 1 i X X − ′ ′ = . Jika 2 is ε atau 2 − is ε untuk data kecil 30 n dan 5 . 3 is ε atau 5 . 3 − is ε untuk data besar 30 ≥ n maka data mengandung outlier. Contoh 3.5 Dengan menggunakan studentized residual, tentukan apakah data pada Contoh 3.1 memuat outlier? Jawab: Dari M-file pada program MATLAB yang ditunjukkan dalam Lampiran A diperoleh nilai i h = [0.4286 0.2698 0.2143 0.1429 0.1746 0.3413 0.4286] T i ε = [-3.0952 2.4603 2.7381 -1.4286 -0.8730 -0.0397 0.2381] T s = 2.2800 dengan memasukkan nilai i h , i ε , dan s ke Persamaan 3.2 diperoleh nilai studentized residual sebagai berikut: is ε = [-1.7959 1.2628 1.3548 -0.6768 -0.4215 -0.0214 0.1381] T Karena nilai studentized residual dari data adalah 2 2 − is ε maka dapat diyatakan bahwa data tidak memuat outlier. Contoh 3.6 Dengan menggunakan studentized residual, tentukan apakah data pada Contoh 3.2 memuat outlier? Jawab: Dari M-file pada program MATLAB yang ditunjukkan dalam Lampiran B diperoleh nilai i h = [0.1639 0.1443 0.1431 0.1738 0.2228 0.7625 0.3896] T i ε = [-31.0180 -16.3205 -11.4718 -1.9256 7.7719 25.7972 27.1668] T s = 23.7812 dengan memasukkan nilai i h , i ε , dan s ke Persamaan 3.2 diperoleh nilai studentized residual sebagai berikut: is ε = [-1.4265 -0.7419 -0.5221 -0.0891 0.3707 2.2258 1.4622] T Karena studentized residual dari data observasi ke-6 adalah 2.2258 2 maka dapat di- nyatakan bahwa data memuat outlier.

B. Regresi Least Absolute Deviation Regresi L