BAB 3
PEMBAHASAN
3.1 Permasalahan pada Regresi Sederhana
Berikut akan diambil contoh permasalahan data yang mengandung pencilan.Dua dimensi data set berasal dari sekolah Mickey 1967. Variabel yang diteliti adalah:
X :The Age in months at which a child utters its firts word Usia dalam hitungan
bulan disaat anak mengucapkan kata-kata pertamanya. Y :Gesell adaptive score Score penyesuaian kata menurut Gesell
Tabel 3.1 First Word – Gesell Adaptive Score Data
No X
Y 1
15 95
2 26
71 3
10 83
4 9
91 5
15 102
6 20
87 7
18 93
8 11
100 9
8 104
10 20
94 11
7 113
12 9
96 13
10 83
14 11
84 15
11 102
16 10
100 17
12 105
18 42
57 19
17 121
20 11
86 21
10 100
Sumber Data dari Peter J.Rousseeuw, Annick M.Leroy, 1987,Robust Regression And Outlier Detection, Canada, John WilleySons.
Universitas Sumatera Utara
Langkahpertama yang dapat dilakukan adalah dengan membuat scatter plot dan boxplot dari data.
Gambar 3.1 Scatter Plot First Word- Gesell Adaptive Score
Dari scatter plot di atas dapat dilihat pada variabel Age in months terdapat 1 data yang menjauh dari sebaran yaitu data ke 18 demikian halnya pada variabel Gesell
Adaptive Score.
Gambar 3.2. Boxplot First Word – Gesell Adaptive Score
Tabel 3.2 Quartil Data First Word-Gesell Adaptive Score
X Y
Q1
10 86
Q2 11
95
Q3 17
102
IQR
7 16
1.5IQR 10,5
24
10 20
30 40
50
10 20
30
X
X 20
40 60
80 100
120 140
10 20
30
Y
Y
40
30
20
10
18
120
100
80
60
18
Universitas Sumatera Utara
Demikian juga pada boxplot dapat dilihat data ke 18 jauh dari sebaran baik pada variabel Age in Months maupun pada variabel Gesell Adaptive Score.
3.1.1 Mencari Persamaan Regresi Linier Langkah berikutnya adalah dengan mencari persamaan regresi linier, sebagai
berikut :
i
X Y
ε β
β
+ +
=
1 1
Tabel 3.3. Menentukan Koefisien Variabel Penduga
No 1
Y
i
2 X
i
3 X
i 2
4 X
i
Y
i
5 Y
i 2
6 1
95 15
225 1425
9025
2
71 26
676 1846
5041
3
83 10
100 830
6889
4
91 9
81 819
8281
5
102 15
225 1530
10404
6
87 20
400 1740
7569
7
93 18
324 1674
8649
8
100 11
121 1100
10000
9
104 8
64 832
10816
10
94 20
400 1880
8836
11
113 7
49 791
12769
12
96 9
81 864
9216
13
83 10
100 830
6889
14
84 11
121 924
7056
15
102 11
121 1122
10404
16
100 10
100 1000
10000
17
105 12
144 1260
11025
18
57 42
1764 2394
3249
19
121 17
289 2057
14641
20
86 11
121 946
7396
21
100 10
100 1000
10000
Jumlah 1967
302 5606
26864 188155
Dengan data di atas dapat dicari dengan persamaan berikut :
2 2
1 2
2 2
∑ ∑
∑ ∑
∑ ∑
∑ ∑
∑ ∑
∑
− −
= −
− =
i i
i i
i i
i i
i i
i i
i
X X
n Y
X Y
X n
X X
n Y
X X
X Y
β β
Universitas Sumatera Utara
Maka :
12699 ,
1 302
5606 21
1967 302
26864 21
874 ,
109 302
5606 21
26864 302
5606 1967
2 1
2
− =
− −
= =
− −
=
x x
x x
x x
β β
Jadi persamaan regresi adalah
1
127 ,
1 874
, 109
X Y
− =
3.1.2. Mencari Nilai Residu Nilai residu dapat dicari dengan cara berikut :
Tabel.3.4 Nilai Residu Data First Word-Gesell Adaptive Score
No 1
Y
i
2
i
Y 3
i i
Y Y
− 4
2 i
i
Y Y
− 5
1
95 92,96901
2,030993 4,124933
2
71 80,57213
-9,57213 91,62565
3
83 98,60395
-15,604 243,4833
4
91 99,73094
-8,73094 76,22932
5
102 92,96901
9,030993 81,55884
6
87 87,33406
-0,33406 0,111598
7
93 89,58804
3,41196 11,64147
8
100 97,47696
2,523037 6,365718
9
104 100,8579
3,142071 9,872608
10
94 87,33406
6,665938 44,43473
11
113 101,9849
11,01508 121,332
12
96 99,73094
-3,73094 13,91992
13
83 98,60395
-15,604 243,4833
14
84 97,47696
-13,477 181,6285
15
102 97,47696
4,523037 20,45787
16
100 98,60395
1,396049 1,948952
17
105 96,34997
8,650026 74,82296
18
57 62,54031
-5,54031 30,69499
19
121 90,71503
30,28497 917,1795
20
86 97,47696
-11,477 131,7207
21
100 98,60395
1,396049 1,948952
Jumlah
1967 1967
-7,8E-14 2308,586
Nilai Residu yang distudenkan :
1
1
− −
≈ −
=
p n
ii i
t h
s r
t
Universitas Sumatera Utara
Dengan :
4293 ,
115 586
, 2308
1 21
1 1
2 2
= −
= −
=
∑
i
r p
n s
Maka: 7438
, 10
4293 ,
115 =
= s
Dan h
ii
= 2pn = 221 = 0,0952 Maka didapat t
i
:
2196 ,
10 0952
, 1
7438 ,
10 1
i i
ii i
i
r r
h s
r t
= −
= −
=
Dengan memasukkan nilai residu maka diperoleh t
1
sampai dengan t
21
sebagai berikut: 0,1987 ; -0,93664 ; -1,5269 ; -0,8543 ; 0,8837 ; -0,0327 ; 0,3339 ; 0,2469 ;
0,3074 ; 0,6523 ; 1,0778 ; -0,3651 ; -1,5269 ; -1,3187 ; 0,4426 ; 0,1366 ; 0,8464 ; 2,9634 ;-0,5421; -1,12303 ; 0,1366
t
tab
= t
α,n-p-1
= t
0,95,19
= 1,73
Kriteria uji : H
O
ditolak jika t
i
≥ t
α2;n-p-1
, dan H
O
diterima jika t
i
t
α2;n-p-1
,
Hanya 2,9634 1,73 t
18
t
tab
maka t
18
dianggap outlier.
3.1.3 Mencari Nilai Leverage, DfFITS, DfBETAs, Cook Distance Dari perhitungan diperoleh nilai-nilai berikut :
• Leverage Values = 2p – 1n = 2x2-121= 0,0952 • DfFITS = 2xsqrtpn = 2xsqrt221 = 0,6172
• Cook’s Distance = F0.5;p,n-p = F0.5;2, 17 = 0,72 • DfBETAs = 2sqrtn = 2sqrt21 = 0,4364
Universitas Sumatera Utara
Dengan kriteria di atas, akan diidentifikasi keberadaan pencilan padamasing-masing variabel prediktor maupun respon.
Tabel 3.5 Case Summeries Identifikasi Outlier
Cooks Distance
Leverage Value
Syandardized DfFITS
Standardized DFBETA Y
Standardized DFBETA X
0,0009 0,0003
0,04127 0,01664
0,00328 0,0815
0,10689 -0,40252
0,18862 -0,3348
0,07166 0,0152
-0,39114 -0,33098
0,19239 0,02562
0,02293 -0,22433
-0,20004 0,12788
0,01774 0,0003
0,18686 0,07532
0,01487 0,00004
0,025 -0,00857
0,00113 -0,00503
0,00313 0,01037
0,07722 0,00447
0,03266 0,00167
0,00905 0,0563
0,0443 -0,0225
0,00383 0,03224
0,08541 0,07907
-0,05427 0,01544
0,025 0,17284
-0,02283 0,10141
0,05481 0,04314
0,332 0,3156
-0,22889 0,00468
0,02293 -0,09445
-0,08422 0,05384
0,07166 0,0152
-0,39114 -0,33098
0,19239 0,0476
0,00905 -0,31367
-0,24681 0,12536
0,00536 0,00905
0,10126 0,07968
-0,04047 0,00057
0,0152 0,03298
0,02791 -0,01622
0,01786 0,00449
0,18717 0,13328
-0,05493 0,67811
0,60399 -1,15578
0,83112 -1,11275
0,22329 0,00543
0,85374 0,14348
0,27317 0,03452
0,00905 -0,26385
-0,20761 0,10544
0,00057 0,0152
0,03298 0,02791
-0,01622
3.1.4 Mencari Persamaan Regresi LTS Langkah awal yang dilakukan adalah menentukan coverage h
h=
[ ] [ ]
2 1
2 +
+ p n
h = [n+p+12] h = [21+1+12]
h=12
Selanjutnya mengurutkan nilai kuadrat residu dari yang terkecil sampai ke yang terbesar.
2 1
r
2 2
r
2 3
r
….
2 i
r
…
2 h
r
…
2 n
r
Dai tabel 3.4 dapat diurutkan kuadrat residu dari yang terkecil sebagai berikut : 0,1116 1,9489 1,9489 4,1249 6,3657 9,8726 11,6415 13,9199 20,4579
30,695 44,4347 74,823 76,2293 81,5588 91,6256 121,332 131,7207 181,6285 243,4833 243,4833 917,1795
Dikarenakan h = 12, maka residu yang digunakan dari yang terkecil sampai ke urutan terkecil ke 12, yakni :
0,1116 1,9489 1,9489 4,1249 6,3657 9,8726 11,6415 13,9199 20,4579 30,695 44,4347 74,823
Universitas Sumatera Utara
Maka diperoleh 3437
, 220
1 2
=
∑
=
o
h i
i
r
Nilai
new
β
=
3437 ,
220
1 2
=
∑
=
o
h i
i
r
Selanjutnya dihitung kembali kuadrat residu untuk
new
β
2 2
ˆ
new i
i i
X y
r
β
− =
Tabel 3.6 Residu dari
new
β
No Y
i
Y
new i
X Y
β
−
r
i 2
1 2
3 4
5 1
95
92,96901 -3212,17
10318045,7
2
71
80,57213 -5648,34
31903722,97
3
83
98,60395 -2104,82
4430280,066
4
91
99,73094 -1883,35
3547019,877
5
102
92,96901 -3212,17
10318045,7
6
87
87,33406 -4319,52
18658252,49
7
93
89,58804 -3876,58
15027876,84
8
100
97,47696 -2326,29
5411637,9
9
104
100,8579 -1661,88
2761857,335
10
94
87,33406 -4319,52
18658252,49
11
113
101,9849 -1440,41
2074792,439
12
96
99,73094 -1883,35
3547019,877
h=
[ ] [ ]
2 1
2 +
+ p n
h = [n+p+12] h = [12+1+12]
h=7 Selanjutnya mengurutkan nilai kuadrat residu dari yang terkecil sampai ke yang terbesar
sampai ke urutan 7, yakni.
2 1
r
2 2
r
2 3
r
….
2 i
r
…
2 h
r
…
2 n
r
Maka diperoleh 2
, 32090653
1 2
=
∑
=
new
h i
i
r
Nilai
new
β
=
2 ,
32090653
1 2
=
∑
=
new
h i
i
r
Universitas Sumatera Utara
Selanjutnya dihitung kembali kuadrat residu untuk
new
β
2 2
ˆ
new i
i i
X y
r
β
− =
Setelah melalui proses iterasi maka didapat persamaan regresi sebagai berikut :
X Y
87 ,
862 ,
97 −
=
3.1.5 Mencari Residu Robust dan Jarak Robust Titik Leverage dapat dideteksi dengan menggunakan jarak robust yaitu
1 T
i i
i
RD X X
T X C X
X T X
−
= −
−
Tabel 3.7Residu Robust dan Jarak Robust
No. r
i
s 2.50
RD
i
2.500 1
0,18 0,786
2 -0,87
2,867 3
-1,42 1,419
4 -0,79
1,000 5
0,82 0,892
6 -0,03
1,688 7
0,31 1,288
8 0,23
0,339 9
0,29 0,618
10 0,60
1,624 11
1,00 0,887
12 -0,34
0,677 13
-1,42 1,419
14 -1,22
1,258 15
0,41 0,387
16 0,13
0,363 17
0,78 0,534
18 -0,50
5,752 19
2,75 1,803
20 -1,04
1,129 21
0,13 0,363
Universitas Sumatera Utara
Dalam Diagram titik dapat dilihat :
Gambar 3.3 Diagram Ttik Residu Robust dan Jarak Robust
Dari gambar diagram diatas dapat dilihat residu robust dan jarak robust tidak begitu berbeda, yang mencolok hanyalah pada data ke 2 dan 18. Maka
dapat ditarik kesimpulan data First Word – Gesell Adaptive Score mengandung outlier pada data ke 2 dan 18.
3.2 Permasalahan Pada Regresi Berganda