8
�� ���
= 0 − 2 ∑
�
� �
�=1
− 0 + 2 ∑ ��̂ +
�̂
1
�
�
�
� �=1
= 0
�� ���
= − ∑
�
� �
�=1
+ ∑ ��̂
+ �̂
1
�
�
� = 0
� �=1
∑ �
� �
�=1
= ��̂
+ �̂
1
∑ �
� �
�=1
2.7 dan
�� ���
1
= 0 − 0 − 2 ∑
�
�
�
� �
�=1
+ 2 ∑ ��̂
+ �̂
1
�
�
��
� �
�=1
= 0
�� ���
1
= − ∑
�
�
�
� �
�=1
+ ∑ ��̂
+ �̂
1
�
�
�
� �=1
�
�
= 0 ∑
�
�
�
� �
�=1
= �̂
∑ �
� �
�=1
+ �̂
1
∑ �
� 2
� �=1
2.8
Dari persamaan 2.7 maka akan dicari nilai �̂
sebagai berikut: ∑
�
� �
�=1
= ��̂
+ �̂
1
∑ �
� �
�=1
�̂ =
∑ �
� �
�=1
− �̂
1
∑ �
� �
�=1
� �̂
= �� − �̂
1
�� 2.9
Selanjutnya, dari persamaan 2.8, akan dicari nilai �̂
1
sebagai berikut: ∑
�
�
�
� �
�=1
= �̂
∑ �
� �
�=1
+ �̂
1
∑ �
� 2
� �=1
= �
∑ �
� �
�=1
−��
1
∑ �
� �
�=1
�
� ∑ �
� �
�=1
+ �̂
1
∑ �
� 2
� �=1
=
∑ �
�
∑ �
� �
�=1 �
�=1
�
−
��
1
�∑ �
� �
�=1
�
2
�
+ �̂
1
∑ �
� 2
� �=1
∑ �
�
�
� �
�=1
−
∑ �
�
∑ �
� �
�=1 �
�=1
�
= −
��
1
�∑ �
� �
�=1
�
2
�
+ �̂
1
∑ �
� 2
� �=1
= �̂
1
�−
1 �
∑ �
� �
�=1 2
+ ∑
�
� 2
� �=1
� maka diperolehlah
�̂
1
yaitu: �̂
1
=
∑ �
�
�
� �
�=1
−
∑ �� ∑
�� �
�=1 �
�=1 �
∑ �
� 2
� �=1
−
1 �
�∑ �
� �
�=1
�
2
2.10
2.3 Rataan Kuadrat Sisa Mean Square Error
Menurut Sembiring 1995, salah satu untuk menentukan kecocokan model dengan rataan kuadrat sisa
�
2
, jika semakin kecil rataan kuadrat sisanya maka
9
semakin baik modelnya. Ukuran ini memperhitungkan banyaknya parameter dalam model melalui pembagian dengan derajat kebebasannya. Untuk
menentukan rataan kuadrat sisa dinyatakan dalam rumus sebagai berikut: �
2
=
��� �−�
=
��� −��� �−�
2.11 Keterangan:
JKS = Jumlah Kuadrat Sisa
JKT = Jumlah Kuadrat Total = ∑�
�
− ��
2
JKR = Jumlah Kuadrat Regresi = ∑��
�
− ��
2
� = Banyaknya sampel
� = Banyaknya parameter
�
�
= Data sebenarnya ��
�
= Data dugaan ��
= Rataan data sebenarnya
2.4 Pencilan
2.4.1 Pengertian Pencilan
Menurut Sembiring 1995, secara umum pencilan ialah data yang tidak mengikuti pola umum model.
2.4.2 Dampak Pencilan
Menurut Soemartini 2007, keberadaan data pencilan akan mengganggu dalam proses analisis data dan harus dihindari dalam banyak hal. Salah satu penyebab
tidak terpenuhi asumsi kenormalan galat adalah pencilan Gujarati, 1991. Dalam kaitannya dengan analisis regresi, pencilan dapat menyebabkan hal-hal berikut:
1. Residual yang besar dari model yang terbentuk 2. Varians pada data tersebut menjadi lebih besar
3. Taksiran interval memiliki rentang yang lebar
10
2.4.3 Pendeteksian Pencilan
Menurut Soemartini 2007 beberapa metode dan nilai yang dapat digunakan untuk mendeteksi ada atau tidak adanya pencilan ialah sebagai berikut:
1. Metode Grafik
Metode grafik merupakan salah satu cara pendeteksian pencilan yang mudah dipahami karena menampilkan data secara grafis gambar tanpa melibatkan
perhitungan yang rumit. Namun, kelemahan metode ini yaitu yang menentukan data tersebut sebagai pencilan atau tidak tergantung pada kebijakan
judgement peneliti, karena metode ini hanya mengandalkan visualisasi gambar. Pendeteksian pencilan dengan metode grafik di antaranya ialah:
a. Diagram Pencar Scatter Plot Metode ini dilakukan dengan cara memplot data dengan observasi ke-
� � = 1, 2, …,
�. Selain itu, setelah diperoleh model regresi maka dapat dilakukan dengan cara memplot antara residual
� dengan nilai prediksi Y ��. Jika terdapat satu atau beberapa data yang terletak jauh dari pola kumpulan data
keseluruhan maka hal ini mengindikasikan adanya pencilan.
b. Boxplot Metode boxplot merupakan metode yang paling umum yaitu dengan
menggunakan nilai kuartil dan jangkauan. Jangkauan IQR, Interquartile Range didefinisikan sebagai selisih kuartil 1 terhadap kuartil 3, atau IQR =
�
�
− �
�
. Pendeteksian pencilan dapat ditentukan jika nilai yang kurang dari 1,5IQR terhadap kuartil 1 dan nilai yang lebih dari 1,5IQR terhadap kuartil
3.
11
Gambar 2.1 Skema Identifikasi Data Pencilan dengan IQR atau Box Plot
2. Leverage Values, DFFITS, Cook’s Distance, dan DfBETAs
Cara mendeteksi pencilan dapat juga dengan menentukan nilai Leverage, DFFITS, Cook’s Distance, dan DfBETAs. Definisi dari masing-masing nilai
tersebut ialah sebagai berikut: a. Leverage Values; menampilkan nilai leverage pengaruh terpusat.
b. DFFITS atau Standardized DfFIT; menampilkan nilai perubahan dalam harga yang diprediksi bilamana case tertentu dikeluarkan dan sudah
distandarkan. c. Cook’s Distance; menampilkan nilai jarak Cook.
d. DfBETAs; menampilkan nilai perubahan koefisien regresi sebagai hasil perubahan yang disebabkan oleh pengeluaran case tertentu. Digunakan
untuk mendeteksi pencilan pada variabel bebas.
12
Ketentuan dalam pendeteksian pencilan dengan nilai-nilai tersebut adalah:
Gambar 2.2 Kriteria Pengambilan Keputusan Adanya Pencilan atau Tidak
Keterangan: n = jumlah observasi sampel.
p = jumlah parameter.
2.5 Regresi Robust
Menurut Drafer dan Smith 1981, penolakan begitu saja suatu pencilan bukanlah prosedur yang bijaksana, adakalanya pencilan memberikan informasi yang tidak
bisa diberikan oleh titik data lainnya. Metode kuadrat terkecil MKT merupakan metode yang baik untuk menduga
� pada model regresi linier. Tetapi jika dalam penelitian diketahui terdapat pengamatan yang merupakan pencilan, maka
penggunaan MKT akan menghasilkan kesimpulan yang tidak sempurna. Sebagai alternatif digunakan regresi robust.
Secara umum robust memiliki arti kekar. Regresi robust merupakan alat yang penting untuk menganalisis data yang terkontaminasi oleh pencilan dan
memberikan hasil yang lebih fleksibel. Regresi robust tetap menggunakan seluruh
data, tetapi dengan memberikan bobot yang kecil untuk data pencilan Soemartini,
2007: 12. Regresi robust digunakan untuk mendeteksi pencilan dan memberikan hasil terhadap adanya pencilan Chen, 2002.
����
⎩ ⎪
⎪ ⎨
⎪ ⎪
⎧ �. ��������
�� − � �
�. ������ 2 ∗ ���� � �
�� �. ����
′
� � ��. �; �, � − � �. �������
� �����
⎭ ⎪
⎪ ⎬
⎪ ⎪
⎫ ���������������
13
2.5.1 Regresi Robust Penduga-S
Penduga-S Scale pertama kali diperkenalkan oleh Rousseeuw dan Yohai 1984 di mana metode ini merupakan keluarga high breakdown point yaitu ukuran
umum proporsi dari data pencilan yang dapat ditangani sebelum pengamatan tersebut mempengaruhi model prediksi. Disebut penduga-S karena mengestimasi
berdasarkan skala. Skala yang digunakan adalah simpangan baku sisaan.
Pendugaan koefisien regresi pada model regresi linier dengan MKT dilandasi pada peubah
�
�
= �
�
− ��
�
pada persamaan: ∑
�
�
�
�
= 0
� �=1
2.12 Bentuk yang lebih umum dari pendugaan parameter pada model regresi adalah
pemecahan terhadap: ∑
��
�
�
�
= 0
� �=1
2.13 Di mana
�
�
=
�
�
��
2.14 Dengan S didefinisikan sebagai:
�
�
= ������|�
�
|, � = 1, 2, . . . , �
2.15 Di mana
�
�
adalah sisaan yang diperoleh dari MKT.
Penyelesaian koefisien regresi pada persamaan 2.13 disebut dengan penduga-M dan dapat diselesaikan dengan MKT terboboti berikut:
β = X’WX
-1
X’WY di mana W matriks diagonal
��� = diagonal utama [�
1
, �
2
, … , �
�
], �
�
merupakan pembobot pengamatan ke- � Myers, 1990.
Jika �
�
=
��
�
�
�
maka persamaan 2.13 menjadi: ∑
�
�
�
�
�
�
= 0
� �=1
2.16
14
Tahapan iterasi dalam penaksiran koefisien regresi Winahju, 2010 adalah: 1. Dihitung penaksir
β, dinotasikan b menggunakan least square, sehingga
didapatkan
,
ˆ
i
y
dan ε
i,0
= y
i
−
,
ˆ
i
y
, i = 1, 2, ... n yang diperlakukan sebagai nilai awal y
i
adalah hasil eksperimen. 2. Dari nilai-nilai residual ini dihitung
ˆ σ , dan pembobot awal w
i,0
=
, ,
i i
ε ε
ψ .
Nilai ψε
i
dihitung sesuai fungsi Huber, dan ε
i,0
= ε
i,0
ˆ σ .
3. Disusun matrik pembobot berupa matrik diagonal dengan elemen w
1,0
, w
2,0
, . . . , w
n,0
, dinamai W .
4. Dihitung penaksir koefisien regresi: b
Robust ke 1
= X
T
W X
-1
X
T
W Y
5. Dengan menggunakan b
Robust ke 1
dihitung pula
∑
=
−
n i
i i
y y
1 1
,
| ˆ
|
atau
∑
= n
i i
1 1
.
| |
ε .
6. Selanjutnya langkah 2 sampai dengan 5 diulang sampai didapatkan
∑
= n
i m
i 1
.
| |
ε
konvergen. Nilai
∑
= n
i m
i 1
.
| |
ε yang konvergen adalah selisih antara
�
�+1
dan �
�
mendekati 0; � = banyak iterasi.
Persamaan 2.15 menunjukkan bahwa penduga-M hanya menggunakan median pada pembentukan nilai pembobot. Kelemahan median adalah kurangnya
pertimbangan pada pola sebaran data dan bukan merupakan fungsi dari keseluruhan data. Rousseeuw dan Yohai 1984 memperkenalkan penduga-S yang
merupakan pengembangan dari penduga-M. Penduga-S menggunakan simpangan baku sisaan untuk mengatasi kelemahan dari median. Menurut Salibian dan Yohai
2006 penduga-S �̂
�
dinyatakan dalam bentuk rumus sebagai berikut: �̂
�
= min ∑
� �
�
�
�
�
�
� �=1
atau �̂
�
= min ∑
� �
�
�
−�
��
�
�
�
�
�
� �=1
2.17
Penyelesaian persamaan 2.17 adalah dengan cara menurunkannya terhadap � sehingga,
15
���
�
��
= ∑
�
��
�
� �=1
�
�
�
�
�
� = 0 2.18
� disebut fungsi pengaruh yang merupakan turunan dari �, sedangkan �
�
didefinisikan sebagai: �
�
= �
� ∑ �
� �
2
− �∑ �
� �
� �=1
�
2 �
�=1
��−1
2.19 Di mana
�
� �
adalah sisaan yang diperoleh melalui penduga-M. Persamaan 2.18 dapat diselesaikan melalui MKT terboboti secara iterasi yang disebut
Iteratively Reweighted Least Squares Iterasi kuadrat terkecil terboboti kembali. Sisaan awal yang digunakan pada penduga-S adalah sisaan yang diperoleh dari
penduga-M. Selanjutnya dikatakan bahwa Iterasi kuadrat terkecil terboboti kembali merupakan proses pendugaan melalui metode kuadrat terkecil terboboti
dilanjutkan dengan menghitung sisaan dan pembobot ��
�
yang baru dan dilakukan pendugaan secara berulang-ulang sampai konvergen. Kekonvergen
tercapai jika perubahan jumlah mutlak sisaan, ∑
| �
�:�
|
� �=1
dari iterasi terakhir ke iterasi berikutnya kurang dari 0,01 Salibian dan Yohai, 2006.
Fungsi � pada persamaan 2.17 disebut fungsi kriteria � disarankan
memakai fungsi obyektif berikut Tukey, 1977, dalam Chen, 2002: �u
i
= �
c
2
[1 −�1−
u i c
2
�
3
] 6
, | �
�
| ≤ c
c
2
6
, | �
�
| c 2.20
dengan fungsi pengaruh: ��
�
= �
′
�
�
= �
�
�
1 −
u
i
c 2
2
, | �
�
| ≤ c
0, | �
�
| c Oleh karena
�
�
=
��
�
�
�
, sehingga: �
�
= �
[1 −
u
i
c 2
]
2
, | �
�
| ≤ c
0, | �
�
| c 2.21
Rousseeuw dan Leroy 1987 menyarankan nilai � = 1,547 agar mendapatkan
nilai breakdown point 50. Fungsi pengaruh atau penimbang ini disebut fungsi Tukey atau bisquare weight atau biweight. Selanjutnya diterangkan juga bahwa
secara umum ide dalam biweight adalah bahwa sisaan yang kecil mendapatkan
16
bobot yang besar. Secara ringkas, fungsi obyektif dan pembobot dari estimator Least Square, Huber, dan Tukey Bisquare dapat dilihat pada Tabel 2.1.
Tabel 2.1 Fungsi Objektif , Fungsi Influence dan Fungsi Pembobot untuk
Least Square, Huber, dan Tukey Bisquare
Metode Least
Square Huber
Tukey Bisquare Fungsi
objektif
2 i
LS
e e
=
ρ
−
≤ =
r e
untuk r
e r
r e
untuk e
e
i i
i i
H
| |
, 2
| |
| |
, 2
2 2
ρ
≤
− −
= r
e untuk
r r
e untuk
e
i i
r e
k
i
2 3
2 6
B
6 1
1
2
ρ
Fungsi influence
i LS
e e
=
ψ
− −
≤ =
r e
untuk r
r e
untuk r
r e
untuk e
e
i i
i i
H
ψ
≤
− =
r e
untuk r
e untuk
e e
i i
r e
i
i
2 2
B
1 ψ
Fungsi Pembobot
1 =
e w
LS
≤ =
r e
untuk e
r r
e untuk
e w
i i
i H
1
≤ −
= r
e untuk
r e
untuk e
w
i i
r e
i
2 2
B
1
Sumber: Fox 2002, Montgomery 1992
Langkah-langkah menentukan regresi robust penduga-S Salibian dan Yohai, 2006 adalah sebagai berikut:
a. Didapatkan vektor penduga awal �
1
, �
2
, … , �
�
dari model regresi dengan MKT didapatkan galat
�
�
. b. Dari sisaan awal dihitung
�
�
sesuai persamaan 2.15 untuk mendapatkan �
�
berdasarkan persamaan 2.14. c. Menghitung nilai
�
�
sesuai persamaan 2.21. d. Dengan menggunakan MKT terboboti didapatkan penduga kuadrat terkecil
terboboti:
β = X’WX
-1
X’WY
e. Menjadikan sisaan langkah d sebagai sisaan awal pada langkah b, sehingga didapatkan nilai
�
�
dan pembobot �
�
yang baru. f.
Iterasi diulang sampai didapatkan kekonvergenan sehingga diperoleh �
�
, �
1 �
, … , �
� �
yang merupakan penduga-M sehingga didapatkan sisaan �
� �
.
17
g. Dari sisaan yang diperoleh pada langkah f, dihitung robust �
�
sesuai persamaan2.19 untuk mendapatkan nilai
�
�
sesuai persamaan 2.14. h. Menghitung nilai
�
�
sesuai persamaan 2.21. i.
Digunakan MKT terboboti untuk mendapatkan penduga kuadrat terkecil terboboti:
β = X’WX
-1
X’WY
j. Menjadikan sisaan yang diperoleh pada langkah i sebagai sisaan pada
langkah g, sehingga didapatkan nilai �
�
dan pembobot �
�
yang baru. k. Iterasi ulang sampai didapatkan kekonvergenan sehingga diperoleh
�
�
, �
1 �
, … , �
� �
yang merupakan penduga-S.
2.5.2 Regresi Robust Penduga Least Trimmed Squares LTS
Least Trimmed Squares LTS merupakan metode penduga regresi robust yang menggunakan konsep pengepasan metode kuadrat terkecil ordinary least
squares untuk meminimumkan jumlah kuadrat sisaan Akbar dan Maftukhah, 2007. Menurut Rousseeuw dan Leroy 1987, penduga LTS
�̂ dinyatakan dalam bentuk rumus sebagai berikut:
�̂
���
= min ∑ �
2 �:�
ℎ �=1
2.22 Keterangan:
�
2 1:
�
≤ �
2 2:
�
≤ … ≤ �
2 �:�
= sisaan kuadrat yang diurutkan ℎ =
� 2
+
�+1 2
=
�+�+1 2
n = banyaknya sampel p = banyaknya parameter
Jumlah h menunjukkan sejumlah subset data dengan kuadrat fungsi obyektif terkecil. Nilai h pada persamaan akan membangun breakdown point yang
besar sebanding dengan 50. Kuadrat sisa pada persamaan 2.22 berasal dari persamaan estimasi regresi linier menggunakan konsep metode kuadrat terkecil
dengan banyaknya sisaan kuadrat �
2 �:�
yang akan diolah adalah sebanyak h residual.
18
BAB 3
PEMBAHASAN
3.1 Data
Data yang akan digunakan dalam bab ini yaitu 4 model data simulasi yang mengandung permasalahan pencilan di berbagai letak ujung bawah, tengah
bawah, ujung atas, tengah atas pada garis regresi dengan bantuan software R, sintaxnya dapat dilihat di lampiran 1. Prosedur pembangkitan data simulasi adalah
sebagai berikut: 1. Tentukan parameter
� dan
�
1
. Dalam kasus ini �
= 0 dan �
1
= 1. 2. Bangkitkan nilai
�
�
acak normal dengan nilai tengah 10 dan ragam 1. 3. Bangkitkan sisaan
� acak normal dengan nilai tengah 0 dan ragam 1. 4. Tentukan nilai
� = �
�
+ �.
5. Tentukan nilai � dan � yang akan dijadikan data pencilan, dalam hal ini
penulis mensimulasi data ke-5 setiap kelompok data sebagai pencilan. 6. Data dideteksi dengan metode scatterplot dan DfFITS.
7. Menentukan model regresi robust penduga-Least Trimmed Square dan penduga-S dengan bantuan R dan program Macro MINITAB.
8. Membandingkan model regresi robust penduga-Least Trimmed Square dan penduga-S berdasarkan nilai rataan kuadrat sisa.
9. Ulangi langkah 2-8 sebanyak 20 kali. 10. Membuat kesimpulan.
Berikut ini 4 model data simulasi dengan ketentuan model 1 letak pencilan berada di bagian ujung bawah garis regresi, model 2 letak pencilan berada di
bagian tengah bawah garis regresi, model 3 letak pencilan berada di bagian ujung atas garis regresi, model 4 letak pencilan berada di tengah atas garis regresi.
Model data 1, model data 2, model data 3 dan model data 4 berturut-turut dapat dilihat pada Tabel 3.1, Tabel 3.2, Tabel 3.3 dan Tabel 3.4.
19
Tabel 3.1 Data 1
Data ke- �
� 1
11,8038 11,0423
2 8,1046
6,7440 3
8,0656 8,3468
4 10,4036
9,1351 5
8,5000 3,5000
6 11,7014
11,6395 7
10,2912 10,2815
8 10,5793
11,7110 9
9,2151 9,4347
10 11,8172
11,3707 11
10,6973 10,3699
12 9,9292
9,3904 13
10,0137 11,4476
14 9,9285
10,4417 15
10,7070 11,0885
16 9,6483
8,6174 17
9,9878 9,0197
18 9,6268
8,3214 19
10,3465 11,6652
20 8,1715
7,1458
Tabel 3.2 Data 2
Data ke- �
� 1
11,0241 11,4980
2 10,2882
10,5252 3
11,7282 10,6744
4 12,5672
12,1090 5
11,0000 4,5000
6 9,9557
10,2858 7
10,2784 10,7365
8 10,4886
9,8091 9
8,7464 9,3495
10 9,7922
9,0131 11
11,8901 11,2485
12 11,0021
11,0305 13
8,4359 7,1680
14 9,0771
10,5344 15
9,8870 7,5402
16 10,5200
12,5262 17
11,3214 10,9116
18 9,9333
9,9338
20
Data ke- �
� 19
10,9497 10,1612
20 8,5925
7,3656
Tabel 3.3 Data 3
Data ke- �
� 1
9,5773 9,7371
2 9,3945
9,4338 3
7,9194 7,7132
4 10,1013
9,5401 5
11,0000 15,0000
6 10,7799
11,6411 7
10,2695 8,6576
8 9,4592
9,7154 9
9,4570 8,7120
10 9,4673
10,1323 11
9,8394 10,0377
12 11,5536
11,6654 13
9,4288 8,6048
14 9,9497
9,6230 15
10,7975 10,0127
16 10,0982
10,8020 17
11,0523 10,5382
18 10,1207
10,5308 19
8,9341 10,2095
20 9,9465
9,7970
Tabel 3.4 Data 4
Data ke- �
� 1
9,5036 9,5427
2 8,9949
9,0709 3
9,7543 9,6939
4 10,4547
11,0912 5
9,0000 15,0000
6 11,8226
12,5695 7
10,1489 10,0318
8 9,0099
9,1426 9
10,4718 9,6921
10 8,3023
6,9711 11
9,6177 9,3676
21
Data ke- �
� 12
9,6586 9,1162
13 9,0581
8,7251 14
9,4222 8,6212
15 9,9249
12,0854 16
9,0239 10,8013
17 10,5082
9,6814 18
11,0018 11,2574
19 8,4898
7,6267 20
8,8304 8,7640
3.2 Pendeteksian Pencilan Outlier