Rataan Kuadrat Sisa Mean Square Error Data

8 �� ��� = 0 − 2 ∑ � � � �=1 − 0 + 2 ∑ ��̂ + �̂ 1 � � � � �=1 = 0 �� ��� = − ∑ � � � �=1 + ∑ ��̂ + �̂ 1 � � � = 0 � �=1 ∑ � � � �=1 = ��̂ + �̂ 1 ∑ � � � �=1 2.7 dan �� ��� 1 = 0 − 0 − 2 ∑ � � � � � �=1 + 2 ∑ ��̂ + �̂ 1 � � �� � � �=1 = 0 �� ��� 1 = − ∑ � � � � � �=1 + ∑ ��̂ + �̂ 1 � � � � �=1 � � = 0 ∑ � � � � � �=1 = �̂ ∑ � � � �=1 + �̂ 1 ∑ � � 2 � �=1 2.8 Dari persamaan 2.7 maka akan dicari nilai �̂ sebagai berikut: ∑ � � � �=1 = ��̂ + �̂ 1 ∑ � � � �=1 �̂ = ∑ � � � �=1 − �̂ 1 ∑ � � � �=1 � �̂ = �� − �̂ 1 �� 2.9 Selanjutnya, dari persamaan 2.8, akan dicari nilai �̂ 1 sebagai berikut: ∑ � � � � � �=1 = �̂ ∑ � � � �=1 + �̂ 1 ∑ � � 2 � �=1 = � ∑ � � � �=1 −�� 1 ∑ � � � �=1 � � ∑ � � � �=1 + �̂ 1 ∑ � � 2 � �=1 = ∑ � � ∑ � � � �=1 � �=1 � − �� 1 �∑ � � � �=1 � 2 � + �̂ 1 ∑ � � 2 � �=1 ∑ � � � � � �=1 − ∑ � � ∑ � � � �=1 � �=1 � = − �� 1 �∑ � � � �=1 � 2 � + �̂ 1 ∑ � � 2 � �=1 = �̂ 1 �− 1 � ∑ � � � �=1 2 + ∑ � � 2 � �=1 � maka diperolehlah �̂ 1 yaitu: �̂ 1 = ∑ � � � � � �=1 − ∑ �� ∑ �� � �=1 � �=1 � ∑ � � 2 � �=1 − 1 � �∑ � � � �=1 � 2 2.10

2.3 Rataan Kuadrat Sisa Mean Square Error

Menurut Sembiring 1995, salah satu untuk menentukan kecocokan model dengan rataan kuadrat sisa � 2 , jika semakin kecil rataan kuadrat sisanya maka 9 semakin baik modelnya. Ukuran ini memperhitungkan banyaknya parameter dalam model melalui pembagian dengan derajat kebebasannya. Untuk menentukan rataan kuadrat sisa dinyatakan dalam rumus sebagai berikut: � 2 = ��� �−� = ��� −��� �−� 2.11 Keterangan: JKS = Jumlah Kuadrat Sisa JKT = Jumlah Kuadrat Total = ∑� � − �� 2 JKR = Jumlah Kuadrat Regresi = ∑�� � − �� 2 � = Banyaknya sampel � = Banyaknya parameter � � = Data sebenarnya �� � = Data dugaan �� = Rataan data sebenarnya

2.4 Pencilan

2.4.1 Pengertian Pencilan

Menurut Sembiring 1995, secara umum pencilan ialah data yang tidak mengikuti pola umum model.

2.4.2 Dampak Pencilan

Menurut Soemartini 2007, keberadaan data pencilan akan mengganggu dalam proses analisis data dan harus dihindari dalam banyak hal. Salah satu penyebab tidak terpenuhi asumsi kenormalan galat adalah pencilan Gujarati, 1991. Dalam kaitannya dengan analisis regresi, pencilan dapat menyebabkan hal-hal berikut: 1. Residual yang besar dari model yang terbentuk 2. Varians pada data tersebut menjadi lebih besar 3. Taksiran interval memiliki rentang yang lebar 10

2.4.3 Pendeteksian Pencilan

Menurut Soemartini 2007 beberapa metode dan nilai yang dapat digunakan untuk mendeteksi ada atau tidak adanya pencilan ialah sebagai berikut:

1. Metode Grafik

Metode grafik merupakan salah satu cara pendeteksian pencilan yang mudah dipahami karena menampilkan data secara grafis gambar tanpa melibatkan perhitungan yang rumit. Namun, kelemahan metode ini yaitu yang menentukan data tersebut sebagai pencilan atau tidak tergantung pada kebijakan judgement peneliti, karena metode ini hanya mengandalkan visualisasi gambar. Pendeteksian pencilan dengan metode grafik di antaranya ialah: a. Diagram Pencar Scatter Plot Metode ini dilakukan dengan cara memplot data dengan observasi ke- � � = 1, 2, …, �. Selain itu, setelah diperoleh model regresi maka dapat dilakukan dengan cara memplot antara residual � dengan nilai prediksi Y ��. Jika terdapat satu atau beberapa data yang terletak jauh dari pola kumpulan data keseluruhan maka hal ini mengindikasikan adanya pencilan. b. Boxplot Metode boxplot merupakan metode yang paling umum yaitu dengan menggunakan nilai kuartil dan jangkauan. Jangkauan IQR, Interquartile Range didefinisikan sebagai selisih kuartil 1 terhadap kuartil 3, atau IQR = � � − � � . Pendeteksian pencilan dapat ditentukan jika nilai yang kurang dari 1,5IQR terhadap kuartil 1 dan nilai yang lebih dari 1,5IQR terhadap kuartil 3. 11 Gambar 2.1 Skema Identifikasi Data Pencilan dengan IQR atau Box Plot

2. Leverage Values, DFFITS, Cook’s Distance, dan DfBETAs

Cara mendeteksi pencilan dapat juga dengan menentukan nilai Leverage, DFFITS, Cook’s Distance, dan DfBETAs. Definisi dari masing-masing nilai tersebut ialah sebagai berikut: a. Leverage Values; menampilkan nilai leverage pengaruh terpusat. b. DFFITS atau Standardized DfFIT; menampilkan nilai perubahan dalam harga yang diprediksi bilamana case tertentu dikeluarkan dan sudah distandarkan. c. Cook’s Distance; menampilkan nilai jarak Cook. d. DfBETAs; menampilkan nilai perubahan koefisien regresi sebagai hasil perubahan yang disebabkan oleh pengeluaran case tertentu. Digunakan untuk mendeteksi pencilan pada variabel bebas. 12 Ketentuan dalam pendeteksian pencilan dengan nilai-nilai tersebut adalah: Gambar 2.2 Kriteria Pengambilan Keputusan Adanya Pencilan atau Tidak Keterangan: n = jumlah observasi sampel. p = jumlah parameter.

2.5 Regresi Robust

Menurut Drafer dan Smith 1981, penolakan begitu saja suatu pencilan bukanlah prosedur yang bijaksana, adakalanya pencilan memberikan informasi yang tidak bisa diberikan oleh titik data lainnya. Metode kuadrat terkecil MKT merupakan metode yang baik untuk menduga � pada model regresi linier. Tetapi jika dalam penelitian diketahui terdapat pengamatan yang merupakan pencilan, maka penggunaan MKT akan menghasilkan kesimpulan yang tidak sempurna. Sebagai alternatif digunakan regresi robust. Secara umum robust memiliki arti kekar. Regresi robust merupakan alat yang penting untuk menganalisis data yang terkontaminasi oleh pencilan dan memberikan hasil yang lebih fleksibel. Regresi robust tetap menggunakan seluruh data, tetapi dengan memberikan bobot yang kecil untuk data pencilan Soemartini, 2007: 12. Regresi robust digunakan untuk mendeteksi pencilan dan memberikan hasil terhadap adanya pencilan Chen, 2002. ���� ⎩ ⎪ ⎪ ⎨ ⎪ ⎪ ⎧ �. �������� �� − � � �. ������ 2 ∗ ���� � � �� �. ���� ′ � � ��. �; �, � − � �. ������� � ����� ⎭ ⎪ ⎪ ⎬ ⎪ ⎪ ⎫ ��������������� 13

2.5.1 Regresi Robust Penduga-S

Penduga-S Scale pertama kali diperkenalkan oleh Rousseeuw dan Yohai 1984 di mana metode ini merupakan keluarga high breakdown point yaitu ukuran umum proporsi dari data pencilan yang dapat ditangani sebelum pengamatan tersebut mempengaruhi model prediksi. Disebut penduga-S karena mengestimasi berdasarkan skala. Skala yang digunakan adalah simpangan baku sisaan. Pendugaan koefisien regresi pada model regresi linier dengan MKT dilandasi pada peubah � � = � � − �� � pada persamaan: ∑ � � � � = 0 � �=1 2.12 Bentuk yang lebih umum dari pendugaan parameter pada model regresi adalah pemecahan terhadap: ∑ �� � � � = 0 � �=1 2.13 Di mana � � = � � �� 2.14 Dengan S didefinisikan sebagai: � � = ������|� � |, � = 1, 2, . . . , � 2.15 Di mana � � adalah sisaan yang diperoleh dari MKT. Penyelesaian koefisien regresi pada persamaan 2.13 disebut dengan penduga-M dan dapat diselesaikan dengan MKT terboboti berikut: β = X’WX -1 X’WY di mana W matriks diagonal ��� = diagonal utama [� 1 , � 2 , … , � � ], � � merupakan pembobot pengamatan ke- � Myers, 1990. Jika � � = �� � � � maka persamaan 2.13 menjadi: ∑ � � � � � � = 0 � �=1 2.16 14 Tahapan iterasi dalam penaksiran koefisien regresi Winahju, 2010 adalah: 1. Dihitung penaksir β, dinotasikan b menggunakan least square, sehingga didapatkan , ˆ i y dan ε i,0 = y i − , ˆ i y , i = 1, 2, ... n yang diperlakukan sebagai nilai awal y i adalah hasil eksperimen. 2. Dari nilai-nilai residual ini dihitung ˆ σ , dan pembobot awal w i,0 = , , i i ε ε ψ . Nilai ψε i dihitung sesuai fungsi Huber, dan ε i,0 = ε i,0 ˆ σ . 3. Disusun matrik pembobot berupa matrik diagonal dengan elemen w 1,0 , w 2,0 , . . . , w n,0 , dinamai W .

4. Dihitung penaksir koefisien regresi: b

Robust ke 1 = X T W X -1 X T W Y

5. Dengan menggunakan b

Robust ke 1 dihitung pula ∑ = − n i i i y y 1 1 , | ˆ | atau ∑ = n i i 1 1 . | | ε . 6. Selanjutnya langkah 2 sampai dengan 5 diulang sampai didapatkan ∑ = n i m i 1 . | | ε konvergen. Nilai ∑ = n i m i 1 . | | ε yang konvergen adalah selisih antara � �+1 dan � � mendekati 0; � = banyak iterasi. Persamaan 2.15 menunjukkan bahwa penduga-M hanya menggunakan median pada pembentukan nilai pembobot. Kelemahan median adalah kurangnya pertimbangan pada pola sebaran data dan bukan merupakan fungsi dari keseluruhan data. Rousseeuw dan Yohai 1984 memperkenalkan penduga-S yang merupakan pengembangan dari penduga-M. Penduga-S menggunakan simpangan baku sisaan untuk mengatasi kelemahan dari median. Menurut Salibian dan Yohai 2006 penduga-S �̂ � dinyatakan dalam bentuk rumus sebagai berikut: �̂ � = min ∑ � � � � � � � � �=1 atau �̂ � = min ∑ � � � � −� �� � � � � � � �=1 2.17 Penyelesaian persamaan 2.17 adalah dengan cara menurunkannya terhadap � sehingga, 15 ��� � �� = ∑ � �� � � �=1 � � � � � � = 0 2.18 � disebut fungsi pengaruh yang merupakan turunan dari �, sedangkan � � didefinisikan sebagai: � � = � � ∑ � � � 2 − �∑ � � � � �=1 � 2 � �=1 ��−1 2.19 Di mana � � � adalah sisaan yang diperoleh melalui penduga-M. Persamaan 2.18 dapat diselesaikan melalui MKT terboboti secara iterasi yang disebut Iteratively Reweighted Least Squares Iterasi kuadrat terkecil terboboti kembali. Sisaan awal yang digunakan pada penduga-S adalah sisaan yang diperoleh dari penduga-M. Selanjutnya dikatakan bahwa Iterasi kuadrat terkecil terboboti kembali merupakan proses pendugaan melalui metode kuadrat terkecil terboboti dilanjutkan dengan menghitung sisaan dan pembobot �� � yang baru dan dilakukan pendugaan secara berulang-ulang sampai konvergen. Kekonvergen tercapai jika perubahan jumlah mutlak sisaan, ∑ | � �:� | � �=1 dari iterasi terakhir ke iterasi berikutnya kurang dari 0,01 Salibian dan Yohai, 2006. Fungsi � pada persamaan 2.17 disebut fungsi kriteria � disarankan memakai fungsi obyektif berikut Tukey, 1977, dalam Chen, 2002: �u i = � c 2 [1 −�1− u i c 2 � 3 ] 6 , | � � | ≤ c c 2 6 , | � � | c 2.20 dengan fungsi pengaruh: �� � = � ′ � � = � � � 1 − u i c 2 2 , | � � | ≤ c 0, | � � | c Oleh karena � � = �� � � � , sehingga: � � = � [1 − u i c 2 ] 2 , | � � | ≤ c 0, | � � | c 2.21 Rousseeuw dan Leroy 1987 menyarankan nilai � = 1,547 agar mendapatkan nilai breakdown point 50. Fungsi pengaruh atau penimbang ini disebut fungsi Tukey atau bisquare weight atau biweight. Selanjutnya diterangkan juga bahwa secara umum ide dalam biweight adalah bahwa sisaan yang kecil mendapatkan 16 bobot yang besar. Secara ringkas, fungsi obyektif dan pembobot dari estimator Least Square, Huber, dan Tukey Bisquare dapat dilihat pada Tabel 2.1. Tabel 2.1 Fungsi Objektif , Fungsi Influence dan Fungsi Pembobot untuk Least Square, Huber, dan Tukey Bisquare Metode Least Square Huber Tukey Bisquare Fungsi objektif 2 i LS e e = ρ      − ≤ = r e untuk r e r r e untuk e e i i i i H | | , 2 | | | | , 2 2 2 ρ      ≤       − − = r e untuk r r e untuk e i i r e k i 2 3 2 6 B 6 1 1 2 ρ Fungsi influence i LS e e = ψ       − − ≤ = r e untuk r r e untuk r r e untuk e e i i i i H ψ      ≤ − = r e untuk r e untuk e e i i r e i i 2 2 B 1 ψ Fungsi Pembobot 1 = e w LS     ≤ = r e untuk e r r e untuk e w i i i H 1      ≤ − = r e untuk r e untuk e w i i r e i 2 2 B 1 Sumber: Fox 2002, Montgomery 1992 Langkah-langkah menentukan regresi robust penduga-S Salibian dan Yohai, 2006 adalah sebagai berikut: a. Didapatkan vektor penduga awal � 1 , � 2 , … , � � dari model regresi dengan MKT didapatkan galat � � . b. Dari sisaan awal dihitung � � sesuai persamaan 2.15 untuk mendapatkan � � berdasarkan persamaan 2.14. c. Menghitung nilai � � sesuai persamaan 2.21. d. Dengan menggunakan MKT terboboti didapatkan penduga kuadrat terkecil terboboti: β = X’WX -1 X’WY e. Menjadikan sisaan langkah d sebagai sisaan awal pada langkah b, sehingga didapatkan nilai � � dan pembobot � � yang baru. f. Iterasi diulang sampai didapatkan kekonvergenan sehingga diperoleh � � , � 1 � , … , � � � yang merupakan penduga-M sehingga didapatkan sisaan � � � . 17 g. Dari sisaan yang diperoleh pada langkah f, dihitung robust � � sesuai persamaan2.19 untuk mendapatkan nilai � � sesuai persamaan 2.14. h. Menghitung nilai � � sesuai persamaan 2.21. i. Digunakan MKT terboboti untuk mendapatkan penduga kuadrat terkecil terboboti: β = X’WX -1 X’WY j. Menjadikan sisaan yang diperoleh pada langkah i sebagai sisaan pada langkah g, sehingga didapatkan nilai � � dan pembobot � � yang baru. k. Iterasi ulang sampai didapatkan kekonvergenan sehingga diperoleh � � , � 1 � , … , � � � yang merupakan penduga-S.

2.5.2 Regresi Robust Penduga Least Trimmed Squares LTS

Least Trimmed Squares LTS merupakan metode penduga regresi robust yang menggunakan konsep pengepasan metode kuadrat terkecil ordinary least squares untuk meminimumkan jumlah kuadrat sisaan Akbar dan Maftukhah, 2007. Menurut Rousseeuw dan Leroy 1987, penduga LTS �̂ dinyatakan dalam bentuk rumus sebagai berikut: �̂ ��� = min ∑ � 2 �:� ℎ �=1 2.22 Keterangan: � 2 1: � ≤ � 2 2: � ≤ … ≤ � 2 �:� = sisaan kuadrat yang diurutkan ℎ = � 2 + �+1 2 = �+�+1 2 n = banyaknya sampel p = banyaknya parameter Jumlah h menunjukkan sejumlah subset data dengan kuadrat fungsi obyektif terkecil. Nilai h pada persamaan akan membangun breakdown point yang besar sebanding dengan 50. Kuadrat sisa pada persamaan 2.22 berasal dari persamaan estimasi regresi linier menggunakan konsep metode kuadrat terkecil dengan banyaknya sisaan kuadrat � 2 �:� yang akan diolah adalah sebanyak h residual. 18 BAB 3 PEMBAHASAN

3.1 Data

Data yang akan digunakan dalam bab ini yaitu 4 model data simulasi yang mengandung permasalahan pencilan di berbagai letak ujung bawah, tengah bawah, ujung atas, tengah atas pada garis regresi dengan bantuan software R, sintaxnya dapat dilihat di lampiran 1. Prosedur pembangkitan data simulasi adalah sebagai berikut: 1. Tentukan parameter � dan � 1 . Dalam kasus ini � = 0 dan � 1 = 1. 2. Bangkitkan nilai � � acak normal dengan nilai tengah 10 dan ragam 1. 3. Bangkitkan sisaan � acak normal dengan nilai tengah 0 dan ragam 1. 4. Tentukan nilai � = � � + �. 5. Tentukan nilai � dan � yang akan dijadikan data pencilan, dalam hal ini penulis mensimulasi data ke-5 setiap kelompok data sebagai pencilan. 6. Data dideteksi dengan metode scatterplot dan DfFITS. 7. Menentukan model regresi robust penduga-Least Trimmed Square dan penduga-S dengan bantuan R dan program Macro MINITAB. 8. Membandingkan model regresi robust penduga-Least Trimmed Square dan penduga-S berdasarkan nilai rataan kuadrat sisa. 9. Ulangi langkah 2-8 sebanyak 20 kali. 10. Membuat kesimpulan. Berikut ini 4 model data simulasi dengan ketentuan model 1 letak pencilan berada di bagian ujung bawah garis regresi, model 2 letak pencilan berada di bagian tengah bawah garis regresi, model 3 letak pencilan berada di bagian ujung atas garis regresi, model 4 letak pencilan berada di tengah atas garis regresi. Model data 1, model data 2, model data 3 dan model data 4 berturut-turut dapat dilihat pada Tabel 3.1, Tabel 3.2, Tabel 3.3 dan Tabel 3.4. 19 Tabel 3.1 Data 1 Data ke- � � 1 11,8038 11,0423 2 8,1046 6,7440 3 8,0656 8,3468 4 10,4036 9,1351 5 8,5000 3,5000 6 11,7014 11,6395 7 10,2912 10,2815 8 10,5793 11,7110 9 9,2151 9,4347 10 11,8172 11,3707 11 10,6973 10,3699 12 9,9292 9,3904 13 10,0137 11,4476 14 9,9285 10,4417 15 10,7070 11,0885 16 9,6483 8,6174 17 9,9878 9,0197 18 9,6268 8,3214 19 10,3465 11,6652 20 8,1715 7,1458 Tabel 3.2 Data 2 Data ke- � � 1 11,0241 11,4980 2 10,2882 10,5252 3 11,7282 10,6744 4 12,5672 12,1090 5 11,0000 4,5000 6 9,9557 10,2858 7 10,2784 10,7365 8 10,4886 9,8091 9 8,7464 9,3495 10 9,7922 9,0131 11 11,8901 11,2485 12 11,0021 11,0305 13 8,4359 7,1680 14 9,0771 10,5344 15 9,8870 7,5402 16 10,5200 12,5262 17 11,3214 10,9116 18 9,9333 9,9338 20 Data ke- � � 19 10,9497 10,1612 20 8,5925 7,3656 Tabel 3.3 Data 3 Data ke- � � 1 9,5773 9,7371 2 9,3945 9,4338 3 7,9194 7,7132 4 10,1013 9,5401 5 11,0000 15,0000 6 10,7799 11,6411 7 10,2695 8,6576 8 9,4592 9,7154 9 9,4570 8,7120 10 9,4673 10,1323 11 9,8394 10,0377 12 11,5536 11,6654 13 9,4288 8,6048 14 9,9497 9,6230 15 10,7975 10,0127 16 10,0982 10,8020 17 11,0523 10,5382 18 10,1207 10,5308 19 8,9341 10,2095 20 9,9465 9,7970 Tabel 3.4 Data 4 Data ke- � � 1 9,5036 9,5427 2 8,9949 9,0709 3 9,7543 9,6939 4 10,4547 11,0912 5 9,0000 15,0000 6 11,8226 12,5695 7 10,1489 10,0318 8 9,0099 9,1426 9 10,4718 9,6921 10 8,3023 6,9711 11 9,6177 9,3676 21 Data ke- � � 12 9,6586 9,1162 13 9,0581 8,7251 14 9,4222 8,6212 15 9,9249 12,0854 16 9,0239 10,8013 17 10,5082 9,6814 18 11,0018 11,2574 19 8,4898 7,6267 20 8,8304 8,7640

3.2 Pendeteksian Pencilan Outlier