Permasalahan pada Regresi Sederhana

BAB 3 PEMBAHASAN

3.1 Permasalahan pada Regresi Sederhana

Berikut akan diambil contoh permasalahan data yang mengandung pencilan.Dua dimensi data set berasal dari sekolah Mickey 1967. Variabel yang diteliti adalah: X :The Age in months at which a child utters its firts word Usia dalam hitungan bulan disaat anak mengucapkan kata-kata pertamanya. Y :Gesell adaptive score Score penyesuaian kata menurut Gesell Tabel 3.1 First Word – Gesell Adaptive Score Data No X Y 1 15 95 2 26 71 3 10 83 4 9 91 5 15 102 6 20 87 7 18 93 8 11 100 9 8 104 10 20 94 11 7 113 12 9 96 13 10 83 14 11 84 15 11 102 16 10 100 17 12 105 18 42 57 19 17 121 20 11 86 21 10 100 Sumber Data dari Peter J.Rousseeuw, Annick M.Leroy, 1987,Robust Regression And Outlier Detection, Canada, John WilleySons. Universitas Sumatera Utara Langkahpertama yang dapat dilakukan adalah dengan membuat scatter plot dan boxplot dari data. Gambar 3.1 Scatter Plot First Word- Gesell Adaptive Score Dari scatter plot di atas dapat dilihat pada variabel Age in months terdapat 1 data yang menjauh dari sebaran yaitu data ke 18 demikian halnya pada variabel Gesell Adaptive Score. Gambar 3.2. Boxplot First Word – Gesell Adaptive Score Tabel 3.2 Quartil Data First Word-Gesell Adaptive Score X Y Q1 10 86 Q2 11 95 Q3 17 102 IQR 7 16 1.5IQR 10,5 24 10 20 30 40 50 10 20 30 X X 20 40 60 80 100 120 140 10 20 30 Y Y 40 30 20 10 18 120 100 80 60 18 Universitas Sumatera Utara Demikian juga pada boxplot dapat dilihat data ke 18 jauh dari sebaran baik pada variabel Age in Months maupun pada variabel Gesell Adaptive Score. 3.1.1 Mencari Persamaan Regresi Linier Langkah berikutnya adalah dengan mencari persamaan regresi linier, sebagai berikut : i X Y ε β β + + = 1 1 Tabel 3.3. Menentukan Koefisien Variabel Penduga No 1 Y i 2 X i 3 X i 2 4 X i Y i 5 Y i 2 6 1 95 15 225 1425 9025 2 71 26 676 1846 5041 3 83 10 100 830 6889 4 91 9 81 819 8281 5 102 15 225 1530 10404 6 87 20 400 1740 7569 7 93 18 324 1674 8649 8 100 11 121 1100 10000 9 104 8 64 832 10816 10 94 20 400 1880 8836 11 113 7 49 791 12769 12 96 9 81 864 9216 13 83 10 100 830 6889 14 84 11 121 924 7056 15 102 11 121 1122 10404 16 100 10 100 1000 10000 17 105 12 144 1260 11025 18 57 42 1764 2394 3249 19 121 17 289 2057 14641 20 86 11 121 946 7396 21 100 10 100 1000 10000 Jumlah 1967 302 5606 26864 188155 Dengan data di atas dapat dicari dengan persamaan berikut : 2 2 1 2 2 2 ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ − − = − − = i i i i i i i i i i i i i X X n Y X Y X n X X n Y X X X Y β β Universitas Sumatera Utara Maka : 12699 , 1 302 5606 21 1967 302 26864 21 874 , 109 302 5606 21 26864 302 5606 1967 2 1 2 − = − − = = − − = x x x x x x β β Jadi persamaan regresi adalah 1 127 , 1 874 , 109 X Y − =

3.1.2. Mencari Nilai Residu Nilai residu dapat dicari dengan cara berikut :

Tabel.3.4 Nilai Residu Data First Word-Gesell Adaptive Score No 1 Y i 2 i Y 3 i i Y Y − 4 2 i i Y Y − 5 1 95 92,96901 2,030993 4,124933 2 71 80,57213 -9,57213 91,62565 3 83 98,60395 -15,604 243,4833 4 91 99,73094 -8,73094 76,22932 5 102 92,96901 9,030993 81,55884 6 87 87,33406 -0,33406 0,111598 7 93 89,58804 3,41196 11,64147 8 100 97,47696 2,523037 6,365718 9 104 100,8579 3,142071 9,872608 10 94 87,33406 6,665938 44,43473 11 113 101,9849 11,01508 121,332 12 96 99,73094 -3,73094 13,91992 13 83 98,60395 -15,604 243,4833 14 84 97,47696 -13,477 181,6285 15 102 97,47696 4,523037 20,45787 16 100 98,60395 1,396049 1,948952 17 105 96,34997 8,650026 74,82296 18 57 62,54031 -5,54031 30,69499 19 121 90,71503 30,28497 917,1795 20 86 97,47696 -11,477 131,7207 21 100 98,60395 1,396049 1,948952 Jumlah 1967 1967 -7,8E-14 2308,586 Nilai Residu yang distudenkan : 1 1 − − ≈ − = p n ii i t h s r t Universitas Sumatera Utara Dengan : 4293 , 115 586 , 2308 1 21 1 1 2 2 = − = − = ∑ i r p n s Maka: 7438 , 10 4293 , 115 = = s Dan h ii = 2pn = 221 = 0,0952 Maka didapat t i : 2196 , 10 0952 , 1 7438 , 10 1 i i ii i i r r h s r t = − = − = Dengan memasukkan nilai residu maka diperoleh t 1 sampai dengan t 21 sebagai berikut: 0,1987 ; -0,93664 ; -1,5269 ; -0,8543 ; 0,8837 ; -0,0327 ; 0,3339 ; 0,2469 ; 0,3074 ; 0,6523 ; 1,0778 ; -0,3651 ; -1,5269 ; -1,3187 ; 0,4426 ; 0,1366 ; 0,8464 ; 2,9634 ;-0,5421; -1,12303 ; 0,1366 t tab = t α,n-p-1 = t 0,95,19 = 1,73 Kriteria uji : H O ditolak jika t i ≥ t α2;n-p-1 , dan H O diterima jika t i t α2;n-p-1 , Hanya 2,9634 1,73 t 18 t tab maka t 18 dianggap outlier. 3.1.3 Mencari Nilai Leverage, DfFITS, DfBETAs, Cook Distance Dari perhitungan diperoleh nilai-nilai berikut : • Leverage Values = 2p – 1n = 2x2-121= 0,0952 • DfFITS = 2xsqrtpn = 2xsqrt221 = 0,6172 • Cook’s Distance = F0.5;p,n-p = F0.5;2, 17 = 0,72 • DfBETAs = 2sqrtn = 2sqrt21 = 0,4364 Universitas Sumatera Utara Dengan kriteria di atas, akan diidentifikasi keberadaan pencilan padamasing-masing variabel prediktor maupun respon. Tabel 3.5 Case Summeries Identifikasi Outlier Cooks Distance Leverage Value Syandardized DfFITS Standardized DFBETA Y Standardized DFBETA X 0,0009 0,0003 0,04127 0,01664 0,00328 0,0815 0,10689 -0,40252 0,18862 -0,3348 0,07166 0,0152 -0,39114 -0,33098 0,19239 0,02562 0,02293 -0,22433 -0,20004 0,12788 0,01774 0,0003 0,18686 0,07532 0,01487 0,00004 0,025 -0,00857 0,00113 -0,00503 0,00313 0,01037 0,07722 0,00447 0,03266 0,00167 0,00905 0,0563 0,0443 -0,0225 0,00383 0,03224 0,08541 0,07907 -0,05427 0,01544 0,025 0,17284 -0,02283 0,10141 0,05481 0,04314 0,332 0,3156 -0,22889 0,00468 0,02293 -0,09445 -0,08422 0,05384 0,07166 0,0152 -0,39114 -0,33098 0,19239 0,0476 0,00905 -0,31367 -0,24681 0,12536 0,00536 0,00905 0,10126 0,07968 -0,04047 0,00057 0,0152 0,03298 0,02791 -0,01622 0,01786 0,00449 0,18717 0,13328 -0,05493 0,67811 0,60399 -1,15578 0,83112 -1,11275 0,22329 0,00543 0,85374 0,14348 0,27317 0,03452 0,00905 -0,26385 -0,20761 0,10544 0,00057 0,0152 0,03298 0,02791 -0,01622 3.1.4 Mencari Persamaan Regresi LTS Langkah awal yang dilakukan adalah menentukan coverage h h= [ ] [ ] 2 1 2 + + p n h = [n+p+12] h = [21+1+12] h=12 Selanjutnya mengurutkan nilai kuadrat residu dari yang terkecil sampai ke yang terbesar. 2 1 r 2 2 r 2 3 r …. 2 i r … 2 h r … 2 n r Dai tabel 3.4 dapat diurutkan kuadrat residu dari yang terkecil sebagai berikut : 0,1116 1,9489 1,9489 4,1249 6,3657 9,8726 11,6415 13,9199 20,4579 30,695 44,4347 74,823 76,2293 81,5588 91,6256 121,332 131,7207 181,6285 243,4833 243,4833 917,1795 Dikarenakan h = 12, maka residu yang digunakan dari yang terkecil sampai ke urutan terkecil ke 12, yakni : 0,1116 1,9489 1,9489 4,1249 6,3657 9,8726 11,6415 13,9199 20,4579 30,695 44,4347 74,823 Universitas Sumatera Utara Maka diperoleh 3437 , 220 1 2 = ∑ = o h i i r Nilai new β = 3437 , 220 1 2 = ∑ = o h i i r Selanjutnya dihitung kembali kuadrat residu untuk new β 2 2 ˆ new i i i X y r β − = Tabel 3.6 Residu dari new β No Y i Y new i X Y β − r i 2 1 2 3 4 5 1 95 92,96901 -3212,17 10318045,7 2 71 80,57213 -5648,34 31903722,97 3 83 98,60395 -2104,82 4430280,066 4 91 99,73094 -1883,35 3547019,877 5 102 92,96901 -3212,17 10318045,7 6 87 87,33406 -4319,52 18658252,49 7 93 89,58804 -3876,58 15027876,84 8 100 97,47696 -2326,29 5411637,9 9 104 100,8579 -1661,88 2761857,335 10 94 87,33406 -4319,52 18658252,49 11 113 101,9849 -1440,41 2074792,439 12 96 99,73094 -1883,35 3547019,877 h= [ ] [ ] 2 1 2 + + p n h = [n+p+12] h = [12+1+12] h=7 Selanjutnya mengurutkan nilai kuadrat residu dari yang terkecil sampai ke yang terbesar sampai ke urutan 7, yakni. 2 1 r 2 2 r 2 3 r …. 2 i r … 2 h r … 2 n r Maka diperoleh 2 , 32090653 1 2 = ∑ = new h i i r Nilai new β = 2 , 32090653 1 2 = ∑ = new h i i r Universitas Sumatera Utara Selanjutnya dihitung kembali kuadrat residu untuk new β 2 2 ˆ new i i i X y r β − = Setelah melalui proses iterasi maka didapat persamaan regresi sebagai berikut : X Y 87 , 862 , 97 − = 3.1.5 Mencari Residu Robust dan Jarak Robust Titik Leverage dapat dideteksi dengan menggunakan jarak robust yaitu 1 T i i i RD X X T X C X X T X −   = − −   Tabel 3.7Residu Robust dan Jarak Robust No. r i s 2.50 RD i 2.500 1 0,18 0,786 2 -0,87 2,867 3 -1,42 1,419 4 -0,79 1,000 5 0,82 0,892 6 -0,03 1,688 7 0,31 1,288 8 0,23 0,339 9 0,29 0,618 10 0,60 1,624 11 1,00 0,887 12 -0,34 0,677 13 -1,42 1,419 14 -1,22 1,258 15 0,41 0,387 16 0,13 0,363 17 0,78 0,534 18 -0,50 5,752 19 2,75 1,803 20 -1,04 1,129 21 0,13 0,363 Universitas Sumatera Utara Dalam Diagram titik dapat dilihat : Gambar 3.3 Diagram Ttik Residu Robust dan Jarak Robust Dari gambar diagram diatas dapat dilihat residu robust dan jarak robust tidak begitu berbeda, yang mencolok hanyalah pada data ke 2 dan 18. Maka dapat ditarik kesimpulan data First Word – Gesell Adaptive Score mengandung outlier pada data ke 2 dan 18.

3.2 Permasalahan Pada Regresi Berganda