Mengatasi outlier dengan metode least trimmed squares (LTS) pada Regresi robust.
MENGATASI OUTLIER DENGAN METODE LEAST TRIMMED
SQUARES (LTS) PADA REGRESI ROBUST
SKRIPSI
I’SYATUN MARDHIAH
070823027
DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SUMATERA UTARA
MEDAN
2011
(2)
MENGATASI OUTLIERDENGAN METODE LEAST TRIMMED SQUARES (LTS) PADA REGRESI ROBUST
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Sains
I’SYATUN MARDHIAH 070823027
DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
MEDAN 2011
(3)
PERSETUJUAN
Judul : MENGATASI OUTLIER DENGAN METODE
LEAST TRIMMED SQUARES (LTS) PADA REGRESI ROBUST
Kategori : SKRIPSI
Nama : I’SYATUN MARDHIAH
Nomor Induk Mahasiswa : 070823027
Program Studi : SARJANA (S1) MATEMATIKA
Departemen : MATEMATIKA
Fakultas : MATEMATIKA DAN ILMU PENGETAHUAN
ALAM (FMIPA) UNIVERSITAS SUMATERA UTARA
Diluluskan di Medan, 21Juni 2011
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
Drs. Djakaria Sebayang, M.Si Drs. Marwan Harahap, M.Eng
NIP.19511227 198503 1 002 NIP.19461225 197403 1 001
Diketahui/Disetujui oleh
Departemen Matematika FMIPA USU Ketua,
Prof. Dr. Tulus, M.Si
(4)
PERNYATAAN
MENGATASI OUTLIER DENGAN METODE LEAST TRIMMED SQUARES (LTS) PADA REGRESI ROBUST
SKRIPSI
Saya mengakui bahwa skripsi saya ini adalah hasil kerja saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya.
Medan, Juni 2011
I’SYATUN MARDHIAH 070823027
(5)
PENGHARGAAN
Puji dan syukur penulis panjatkan kepada Allah SWT, arena atas berkat rahmatNya skripsi ini berhasi diselesaikan dalam waktu yang telah ditetapkan.
Ucapan terima kasih saya sampaikan kepada Drs. Marwan Harahap, M.Eng dan Drs. Djakaria Sebayang, M.Si selaku pembimbing pada penyelesaian skripsi ini yang telah memberikan panduan dan penuh kepercayaan kepada saya untuk menyempurnakan kajian ini, juga kepada Drs. H. Haluddin Panjaitan dan Dra. Elly Rosmaini, M.Si selaku panguji. Panduan ringkas, padat dan profesional telah diberikan kepada saya agar penulis dapat menyelesaikan skripsi ini. Ucapan terima kasih juga ditujukan kepada Ketua dan Sekretaris Departemen Prof. Dr. Tulus, M.Si dan Dra. Mardiningsih, M.Si, Koordinator Ekstension Matematika Drs. Pangarapen Bangun, M.Si, Dekan dan Pembantu Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara, pegawai di FMIPA USU. Kepada rekan-rekan kuliah yang telah memberikan bantuan demi kelancaran skripsi ini. Akhirnya tidak terlupakan kepada orang tua tercinta dan keluarga penulis yang selama ini memberikan bantuan dan dorongan yang diperlukan. Hanya Allah SWT yang dapat membalasnya.
(6)
ABSTRAK
Kajian ini bertujuan untuk mendapatkan suatu model persamaan regresi yang lebih baik daripada persamaan regresi sebelumnya untuk data yang mengandung outlier. Dengan terlebih dahulu memeriksa keberadaan outlier baik dengan grafik maupun dengan rumus ynag digunakan penulis yakni mencari nilai residu yang distudentkan, nilai leverage, DfFITS, DfBETA(S) dan Cook’s Distance. Kemudian dicari persamaan regresi dengan metode Least Trimmed Squares (LTS) pada regresi robust yakni dengan mencari jumlah kuadrat minimum residu dengan ukuran coverage. Dengan metode LTS akan didapatkan suatu persamaan yang lebih baik dibandingkan yang sebelumnya menggunakan OLS untuk data yang mengandung outlierkarena LTS mampu mengurangi pengaruh outlier pada data.
(7)
ABSTRACT
This study is to get a regression equation better than regression equation before for data have outlier. First, check outlier at data, with grafic and looking for residu studenization, leverage value, DfFitS, DfBETAS(s) and Cook’s Distance. And then searching regression equation with Least Trimmed Squares (LTS) method at robust regression, that is with get total of sum minimum kuadrat residu with coverage measured. It will get regression equation with LTS method better than equation before with OLS because LTS can make outlier influence be smaller than before for data.
(8)
DAFTAR ISI
Halaman
Persetujuan ii
Pernyataan iii
Penghargaan iv
Abstrak v
Abstract vi
Daftar Isi vii
Daftar Tabel viii
Daftar Gambar ix
Bab 1 Pendahuluan 1
1.1 Latar Belakang 1
1.2 Perumusan Masalah 2
1.3 Tujuan Penelitian 3
1.4 Kontribusi Penelitian 3
1.5 Tinjauan Pustaka 3
1.6 Metode Penelitian 4
Bab 2 Landasan Teori 5
2.1 Outlier 5
2.2 Pengamatan Berpengaruh 8
2.3 Regresi Robust 10
2.4 Least Trimmed Squares 11
2.5 Penggunaan LTS dalam Masalah Outlier 12
Bab 3 Pembahasan 14
3.1 Permasalahan pada Regresi Sederhana 14
3.1.1 Mencari Persamaan Regresi Linier 16
3.1.2 Mencari Nilai Residu 17
3.1.3 Mencari Nilai Leverage, DfFITS, DfBETA(s), Cook’s Distance 18
3.1.4 Mencari Persamaan Regresi LTS 19
3.1.5 Mencari Residu Robust dan Jarak Robust 21
3.2 Permasalahan pada Regresi Berganda 22
3.2.1 Mencari Persamaan Regresi Linier 26
3.2.2 Mencari Nilai Residu 28
3.2.3 Mencari Nilai Leverage, DfFITS, DfBETA(s), Cook’s Distance 29
3.2.4 Mencari Persamaan Regresi LTS 30
3.2.5 Mencari Residu Robust dan Jarak Robust 31
3.3 Perhitungan dengan SPSS 32
Bab 4 Kesimpulan dan Saran 38
4.1 Kesimpulan 38
4.2 Saran 38
Daftar Pustaka x
(9)
DAFTAR TABEL
Halaman
Tabel 3.1 First Word – Gesell Adaptive Score Data 14
Tabel 3.2 Quartil Data First Word – Gesell Adaptive Score 15
Tabel 3.3 Menentukan Koefisien Variabel Penduga 16
Tabel 3.4 Nilai Residu Data First Word – Gesell Adaptive Score 17
Tabel 3.5 Case Summeries Identifikasi Outlier 19
Tabel 3.6 Residu dari new ^
β 20
Tabel 3.7 Residu Robust dan Jarak Robust 21
Tabel 3.8 Data Stackloss 23
Tabel 3.9 Quartil Data Stackloss 25
Tabel 3.10 Menentukan Koefisien Variabel Penduga 26
Tabel 3.11 Nilai Residu Data Stack Loss 28
Tabel 3.12 Case Summeries Identifikasi Outlier 30
(10)
DAFTAR GAMBAR
Halaman Gambar 2.1 Scatter Plot WRI Januari dan Luas Panen Periode I 9 Gambar 3.1 Scatter Plot First Word – Gesell Adaptive Score 15
Gambar 3.2 Box Plot First Word – Gesell Adaptive Score 15
Gambar 3.3 Diagram Titik Residu Robust dan Jarak Robust 22
Gambar 3.4 Scatter Plot Stackloss 24
Gambar 3.5 Box Plot Stacklos 25
(11)
ABSTRAK
Kajian ini bertujuan untuk mendapatkan suatu model persamaan regresi yang lebih baik daripada persamaan regresi sebelumnya untuk data yang mengandung outlier. Dengan terlebih dahulu memeriksa keberadaan outlier baik dengan grafik maupun dengan rumus ynag digunakan penulis yakni mencari nilai residu yang distudentkan, nilai leverage, DfFITS, DfBETA(S) dan Cook’s Distance. Kemudian dicari persamaan regresi dengan metode Least Trimmed Squares (LTS) pada regresi robust yakni dengan mencari jumlah kuadrat minimum residu dengan ukuran coverage. Dengan metode LTS akan didapatkan suatu persamaan yang lebih baik dibandingkan yang sebelumnya menggunakan OLS untuk data yang mengandung outlierkarena LTS mampu mengurangi pengaruh outlier pada data.
(12)
ABSTRACT
This study is to get a regression equation better than regression equation before for data have outlier. First, check outlier at data, with grafic and looking for residu studenization, leverage value, DfFitS, DfBETAS(s) and Cook’s Distance. And then searching regression equation with Least Trimmed Squares (LTS) method at robust regression, that is with get total of sum minimum kuadrat residu with coverage measured. It will get regression equation with LTS method better than equation before with OLS because LTS can make outlier influence be smaller than before for data.
(13)
BAB 1
PENDAHULUAN
1.1Latar Belakang
Hal pertama yang dilakukan dalam analisis data adalah tahap persiapan yang meliputi pengumpulan dan pemeriksaan data. Proses pemeriksaan dilakukan untuk menghindari kekeliruan dan ketidakcocokan data.
Data yang diperoleh tidak jarang ditemukan satu atau beberapa yang jauh dari pola kumpulan data keseluruhan yang lazim didefenisikan sebagai pencilan (outlier). Pencilan dapat dilihat sebagai pengamatan dengan sisaan yang cukup besar (Aunuddin, 1989). Pencilan adalah yang nilai mutlaknya jauh lebih besar daripada sisaan-sisaan lainnya dan bisa jadi terletak tiga atau empat simpangan baku atau lebih jauh lagi dari rata-rata sisaannya. Pencilan merupakan suatu keganjilan dan menandakan suatu titik data yang sama sekali tidak tipikal dibandingkan data lainnya. Oleh karenanya, suatu pencilan patut diperiksa secara seksama, berangkali saja alasan dibalik keganjilan itu dapat diketahui.
Berbagai kaidah telah diajukan untuk menolak pencilan (dengan kata lain untuk memutuskan menyisihkan amatan tersebut dari data, untuk kemudian menganalisis kembali tanpa amatan tersebut). Penolakan begitu saja suatu pencilan bukanlah prosedur yang bijaksana. Adakalanya pencilan memberikan informasi yang tidak bisa diberikan oleh titik data lainnya, misalnya karena pencilan timbul dari kombinasi keadaan yang tidak biasa yang mungkin saja sangat penting dan perlu diselidiki lebih jauh. Sebagai kaidah umum, pencilan baru kita tolak jika setelah ditelusuri ternyata merupakan akibat dari kesalahan-kesalahan seperti kesalahan mencatat amatan bersangkutan atau kesalahan ketika menyiapkan peralatan. Bila ternyata bukan akibat dari kesalahan-kesalahan semacam itu, penyelidikan yang seksama harus dilakukan. (N.Draper & H.Smith, 1992)
(14)
Penilaian ketetapan model regresi tidak cukup hanya didasarkan pada besarnya koefisien determinasi atau koefisien regresi tetapi perlu pemeriksaan sisaan (error) dengan lebih seksama yang menyangkut antara lain kemungkinan adanya pencilan. Identifikasi pencilan dan melihat bagaimana peranannya terhadap taksiran model merupakan tahapan diagnosis yang perlu ditempuh terutama bila penaksiran modelnya dilakukan dengan metode kuadrat terkecil. Prosedur analisis yang diharapkan adalah prosedur yang menghasilkan keluaran yang cukup baik meskipun beberapa asumsinya tidak terpenuhi secara sempurna. Metode lain yang dapat digunakan untuk mengatasi pencilan adalah regresi robust. Prosedur ini dirancang untuk mengurangi pengaruh data-data yang mempunyai pengaruh tinggi jika metode kuadrat terkecil digunakan. Prosedur regresi robust cenderung mengabaikan sisaan-sisaan (error) yang berhubungan dengan pencilan yang besar. (Aunuddin, 1989).
Ada beberapa metode dalam regresi robust yang dapat digunakan untuk menangani data pencilan, salah satunya adalah metode Least Trimmed Squares (LTS).Olehnya itu, penulis tertarik melakukan penelitian lebih lanjut dengan judul “MENGATASI OUTLIER DENGAN METODE LEAST TRIMMED SQUARES (LTS) PADA REGRESI ROBUST”.
1.2Perumusan Masalah
Masalah yang dibahas dalam kajian ini yakni bagaimana cara mendeteksi outlier yang berpengaruh terhadap model regresi selanjutnya membuat model menjadi lebih baik dengan tidak mengabaikan outlier. Metode yang digunakan yakni Metode Least Trimmed Squares (LTS) sebagai salah satu metode penaksiran parameter model regresi robust terhadap kehadiran outlier yang mampu menciptakan model regresi yang lebih baik untuk data yang mempunyai outlier.
(15)
1.3. Tujuan Penelitian
Penelitian ini bertujuan untuk mendapatkan nilai dari model regresi Least Trimmed Squares sebagai regresi robust terhadap kehadiran pencilan.
1.4. Kontribusi penelitian
1. Mendapatkan informasi mengenai macam cara mendeteksi outlier
2. Mendapatkan persamaan regresi dengan metode Least Trimmed Squares untuk data yang mengandung outlier
3. Memperoleh informasi ketepatan model Least Squares dan Least Trimmed Squares sehingga dapat dipertimbangkan dalam mengatasi outlier
1.5 Tinjauan Pustaka
Salah satu alternatif terhadap penduga least square yang bersifat robust adalah pendugaan dengan kriteria meminimumkan.
Prosedur perhitungannya adalah : 1. Pemilihan penduga awal 2. Perhitungan
^
i Y −Y
3. Penyelesaian persamaan Yi = +β β0 1X1+ +... εi untuk model fitnya 4. Perhitungan dilanjutkan secara iteratif hingga tercapai kriteria
konvergensinya.
Metode Least Trimmed Squares tidak membuang bagian dari data melainkan menemukan model fit dari mayoritas data. Metode ini menduga koefisien regresi dengan meminimumkan kuadrat sisaan.(Aunuddin, 1989)
(16)
1.6 Metode Penelitian
Metode Least Trimmed Squares
Solusi koefisien regresi ( ^
β) pada metode Least Trimmed Squares (LTS) dihitung pada subhimpunan data yang berukuran nilai cakupan/ coverage yang disimbolkan dengan h. Penentuan subhimpunan data dilakukan dengan menggunakan algoritma resampling dari seluruh kemungkinan subhimpunan yang dapat dibentuk yaitu sebanyak kombinasi n dari h atau n
h
. Subhimpunan data yang diperoleh merupakan sebaran data yang sudah terpangkas (trimmed distribution). [9] Kemudian model dengan jumlah kuadrat residu yang terkecil dijadikan sebagai model fit.
Robust Statistik
Prosedur analisis statistik yang kita harapkan adalah prosedur yang menghasilkan keluaran yang cukup baik meskipun beberapa asumsinya tidak terpenuhi secara sempurna. Metode diagnosis sisaan ditujukan untuk menilai data yang mengandung pencilan dan pengaruhnya terhadap hasil analisis. Dilain pihak, prosedur statistik yang besifat robust ditujukan untuk mengakomodasi adanya data yang mengandung pencilan dan sekaligus meniadakan pengaruhnya tehadap hasil analisis tanpa terlebih dahulu mengadakan identifikasi data tersebut. Prosedur ini lebih cepat dalam menanggulangi kelainan data. Diantara macam regresi robust yang banyak digunakan yaitu Least Weight Squares (LWS), Least Median Squares (LMS) dan Least Trimmed Squares (LTS).
Regresi robust diperkenalkan oleh Andrews (1972) dan merupakan metode regresi yang digunakan ketika distribusi nilairesidu tidak normal dan atau adanya beberapa outlier yang berpengaruh pada model (Ryan, 1997). Metode ini merupakan alat penting untuk menganalisa data yang dipengaruhi oleh outlier sehingga dihasilkan model yang robust atau resistance terhadap outlier. Suatu estimasi yang resistant adalah relatif tidak terpengaruh oleh perubahan besar pada bagian kecil data atau perubahan kecil pada bagian besar data.
(17)
BAB 2
LANDASAN TEORI
2.1 Outlier
Outlier merupakan suatu pengamatan yang menyimpang cukup jauh dari pengamatan lainnya sehingga menimbulkan kecurigaan bahwa pengamatan tersebut berasal dari distribusi data yang berbeda (Hawkins dalam Sujatmiko, 2005:4). Distribusi pertama disebut sebagai “distribusi dasar” (basic distribution) yang menghasilkan pengamatan “baik”. Distribusi kedua disebut sebagai “distribusi kontaminan” (contaminating distribution) yang menghasilkan pengamatan “tidak baik”. Jumlah maksimum outlier dalam data yang diperbolehkan adalah 50 persen (Rousseeuw dan Leroy dalam Hubert dan Van Driessen,2004:303).
Berdasarkan pengaruh pengamatan outlier terhadap data, maka outlier dapat dibedakan menjadi tiga, yaitu :
• Shift Outlier, mampu menggeser vektor rata-rata sehingga pusat data menjadi berubah.
• Scale Outlier, mampu merubah bentuk ellipsoid dari data.
• Radial Outlier, selain menggeser pusat ellipsoid juga merubah bentuk ellipsoid.
Pengamatan yang dikategorikan sebagai pencilan mempunyai nilai residu yang relatif besar untuk ukuran residu pada ketetapan pengamatan. Diasumsikan bahwa hubungan anatara dua variabel x dan y diperkirakan dengan garis lurus. Model regresi formalnya adalah
0 1 ...
i i i
y = +β β x + +ε (2.1)
Denganβ0 dan β1 adalah parameter untuk diestimasi.εiadalah kesalahan random yang tidak diperhatikan dan diasumsikan berdistribusi normal. Diberikan data
(18)
yang cukup pada x dan y, model parameter dapat diestimasi dengan metode least squares. Interpretasi dari koefisien regresi adalah menyediakan bentuk kedekatan dimana tidak ada variabelyang menyimpangdari asumsi dasar regresi yang telah diketahui. Asumsi ini diperiksa dengan menganalisis regresi residual.
Analisis residu biasanya dimulai dengan grafik dari residu dengan variabel bebas x, dan memfitkannilai
^
y . Secara umum grafik ini dimulai dengan titik-titik untuk memeriksa simpangan dari model asumsi, seperti ketidakcukupan asumsi garis lurus, kecukupan variansi konstan, ada tidaknya outlier dan korelasi kesalahan. Dalam kajian ini perhatian terbatas untuk mendeteksi outlier dan mengukur pengaruhnya pada hasil regresi.(Chatterje-Price,1977)
Untuk mendeteksi outlier dapat dilakukan dengandiagramdan perhitungan nilai seperti :
1. Scatter Plot
Data observasi diplotkan dalam suatu grafis, jika terdapat data yang jauh dari kumpulan plot maka dapat dikatakan bahwa data tersebut termasuk pencilan.
2. Boxplot
Dengan menggunakan nilai kuartil 1,2 dan 3 yang akan membagi sebuah urutan data menjadi beberapa bagian.
IQR = Q3 - Q1 (2.2)
Dengan :
Q1 = Kuartil ke 1 Q2 = Kuartil ke 2 Q3 = Kuartil ke 3
IQR = Interquartule Range (Jangkauan)
Dengan batas bukan pencilan kurang dari 1,5xIQR atas dan besar dari 1,5xIQR bawah. [10]
(19)
3. Leverage Values, DfFITS, Cook’s Distance, dan DfBETA(s)
• Leverage Values; menampilkan nilai leverage (pengaruh) terpusat. Outlier yang disebabkan oleh variabel prediktor dinamakan leverage. Leverage sangat sulit diketahui sejak awal karena :
1. Visualisasi seperti scatter diagram tidak mampu menggambarkan secara utuh dalam satu gambar.
2. Beberapa pencilan dalam data membentuk efek masking / tidak terlihat mencolok.
• DfFITS atau Standardized DfFIT; menampilkan nilai perubahan dalam
hargayang diprediksi bilamana data yang dianggap pencilan dikeluarkan, yang sudah distandarkan.
• Cook’s Distance; menampilkan nilai jarak Cook
• DfBETA(s); menampilkan nilai perubahan koefisien regresi sebagai
hasilperubahan yang disebabkan oleh pengeluaran data yang dianggap pencilan. Digunakan untukmendeteksi pencilan pada variabel bebas.
Adapun ketentuan yang berlaku dalam pengambilan keputusan adanya pencilan atau tidak adalah sebagai berikut :
Ket. : n = Jumlah observasi (sampel); p = Jumlah parameter
4. Internal Studenization ( Residu Yang Distudentkan)
Umumnya outlier memiliki nilai y yang ekstrim. Untuk mendeteksi apakah terdapat outlier atau tidak, Internal Studenization (Residu yang distudentkan) Hipotesis :
H0: ∆i = o ( tidak terdapat outlier )
(20)
Uji Statistik :
1
1− ≈ − −
= n p
ii t h s
r
t 2.3
Dengan :
∑
−= 1 2
i r p n s
Dengan: r = residu
p= banyaknya variabel bebas hii = 2p/n
Kriteria uji :
HO ditolak jika ti≥tα/2;n-p-1, dan HO diterima jika ti<tα/2;n-p-1 , Dengan α = taraf nyata
2.2 Pengamatan Berpengaruh
Pencilan dapat dilihat sebagai pengamatan dengan sisaan yang cukup besar yakni nilai mutlak dari residu lebih besar dari 2 atau ǀr iǀ>2, tetapi Seber (1977,hal165)
memberikan patokan kasaryakni nilai mutlak dari residu lebih besar dari 3 atau
ǀr iǀ>3, sedangkan pengamatan berpengaruh lebih berkaitan dengan besarnya
perubahan yang terjadi pada koefisien regresi jika pengamatan tersebut disisihkan. Secara umum, pencilan tidak selalu berarti pengamatan berpengaruh ataupun sebaliknya. Ada atau tidaknya pengamatan berpengaruh dalam analisis tidak hanya merubah nilai koefisien regresi tapi juga akan merubah penafsiran atau kesimpulan. Pendekatan eksploratif mungkin dianggap kurang efisien dan berkesan mencoba-coba, sehingga dibutuhkan pendekatan yang lebih sistematik. Prosedur yang dapat ditempuh dalam hai ini adalah pemeriksaan sisaan.
Penentuan pengamatan berpengaruh didasarkan pada nilai coverage/cakupan yang disimbolkan dengan h. Secara umum 0≤h≤ 1 dan ∑h = p, dengan p adalah banyaknya parameter dalam model. Sehingga secara rata-rata besarnya h adalah p/n. Hoaglin dan Welsch (1978) menyebutkan bahwa h > 2p/n dapat dianggap cukup besar untuk menyatakan pengamatan tersebut berpotensi sebagai pengamatan berpengaruh. Sedangkan Huber (1981) membayangkan 1/h sebagai besaran yang setara dengan
(21)
banyaknya pengamatan yang ikut menentukan pendugaan ^
y , sehingga nilai h > 0,5 dianggap besar dan kritis, dan h > 0,2 sebagai petunjuk peringatan.
Pada dasarnya nilai h yang semakin besar menunjukkan semakin besar potensinya untuk berpengaruh, yang kemudian dapat diketahui setelah analisis dengan penyisihan pengamatan tersebut.
DfFITS dan jarak Cook (Cook’s Distance) digunakan untuk mengukur amatan berpengaruh. Suatu amatan dikatakan berpengaruh jika nilai mutlak DfFITS > 1 untuk gugus data berukuran kecil dan nilai mutlak DfFITS > untuk gugus data berukuran sedang dan besar. Cook’s Distance > F(0,5;p;n-p) dikatakan berpengaruh. Contoh pola hubungan data yang mengandung pencilan
Gambar 2.1 Scaterplot WRI Januari dan Luas Panen Periode I.
WRI Jan
L
P
-1
140 120
100 80
60 40
20 350
300
250
200
150
100
50
0
15
14
13 12
11 10
9 8
7
6 5
4 3 2 1
Scatterplot of LP-1 vs WRI Jan
Gambar 2.1 menunjukkan contoh pola hubungan Weighted Rainfall Index Januari (WRI Jan) terhadap luas panen padi periode I (LP I). Diketahui pada pengamatan ke-15 terletak lebih jauh dari pola pengamatan-pengamatan lainnya pada umumnya. Melalui perbandingan nilai DfFITS dapat dikatakan pengamatan tersebut sebagai outlier dikarenakan memiliki nilai DfFITS = 5.74699 lebih dari batas DfFITS yaitu
15 / 2
(22)
2.3 Regresi Robust
Metode kuadrat terkecil atau OLS (ordinary least square) merupakan metode penduga terbaik untuk analisis regresi, namun metode ini sangat sensitif terhadap pencilan. Bahkan jika hanya terdapat satu saja pencilan extrim dalam data, maka akan mengakibatkan penyimpangan pada dugaan OLS.Untuk mengatasi data yang mengandung pencilan diperlukan metode yang tegar terhadap pencilan yang disebut sebagai metode robust.
Titik pencilan dapat dideteksi dengan menggunakan nilai residualnya.Titik pencilan dikatakan 0 jika r ≤3 dan 1 untuk lainnya.
Dengan
^ ^ ^
0 1 1 2 2 , 1,...,
i i i i
r = −Y β β+ X +β X i= n
(2.4)
Titik Leverage dapat dideteksi dengan menggunakan jarak robust yaitu 1
( i) ( i ( ))T ( ) ( i ( ))
RD X− = X T X −C X − X T X (2.5)
Dimana : RD : Jarak Robust
T(X) : vektor rata-rata robust
C(X) : matriks kovarians robust. [10]
Langkah-langkahpendeteksian outlier dengan metode Least Trimmed Squares pada Regresi Robust meliputi beberapa tahap :
1. Tentukan pencilan pada data
2. Tentukan nilai coverage yakni h =
[ ] [
n/2 + (p+1)/2]
3. Buat subset dari data yaitu sebanyak kombinasi n dari h.4. Gunakan metode kuadrat terkecil biasa untuk mendapatkan nilai parameter dan residu dari tiap subset
5. Tentukan model fit dengan mencari jumlah kuadrat residu yang terkecil dari keseluruhan subset
Setelah didapat model yang fit, kemudian
a. Hitung nilai residu robust untuk menentukan titik pencilan, yang diperoleh dari model fit Least Trimmed Squares
(23)
c. Buat plot antara jarak robust vs residu robust [10]
Dan terakhir plot antara residu robust dan jarak robust memungkinkanpengguna untuk mencirikan/membedakan 4 model titik yaitu: observasi biasa,pencilan vertikal, titik good leverage dan titik bad leverage.
1. Observasi regular yaitu suatu titik yang memiliki nilai residu robust dan nilaijarak robust kecil.
2. Pencilan vertikal yaitu suatu titik yang memiliki nilai residu robust besar dannilai jarak robust kecil.
3. Good leverage yaitu suatu titik yang memiliki nilai residu robust kecil dannilai jarak robust besar. Ini berarti bahwa Xi menjauh tetapi Yi cocok dengangaris
linear.
4. Bad leverage yaitu suatu titik yang memiliki nilai residu robust dan nilaijarak robust besar. Titik ini lebih berbahaya dari pada pencilan karenamemiliki pengaruh paling besar pada regresi linear klasik.
Tentu saja tidak selalu semua titik ini dimiliki oleh data.
2.4 Least Trimmed Squares
Least Trimmed Squares(LTS) merupakan suatu metode pendugaan parameter regresi robust untuk meminimumkan jumlah kuadrat h residual (fungsi objektif).
^ β =
∑
= h
i n i r 1
2 ) :
( (2.6)
Dengan h=
[ ] [
n/2 + (p+1)/2]
Keterangan :2 ) (i
r
: Kuadrat residual yang diurutkan dari terkecil ke terbesar.2 ) 1 (
r
<r
(22)<r
(23)< …. <r
(i2)< … <r
(h2)< … <r
(n2) n : Banyaknyapengamatan(24)
Jumlah h menunjukkan sejumlah subset data dengan kuadrat fungsi objektif terkecil. Nilai h pada persamaan (2.6) akan membangun breakdown point yang besar sebanding dengan 50%. Algoritma LTS menurut Rousseeauw dan Van Driessen (1999) dalam Willems dan Aels (2005) adalah gabungan FAST-LTS dan C-steps.
Tahapan algoritma yang digunakan FAST LTS, C-steps dan FWLS yaitu : 1) Menghitung estimasi parameter bo
2) Menentukan n residual ri2 =
(
yˆi −Xibo)
2yang bersesuaian dengan (bo) kemudianmenghitung sejumlah ho =(n+ p+1)/2pengamatan dengan nilai
2 ) (i
e terkecil.
3) Menghitung
∑
=
o
h
i i
r
1 2
) (
4) Melakukan estimasi parameter bnew dari ho pengamatan.
5) Menentukan n kuadrat residual ri2 =
(
yˆi −Xibnew)
2yang bersesuaian dengan (bnew)kemudian menghitung sejumlah hnew pengamatan dengan nilai 2
) (i
e terkecil.
6) Menghitung
∑
=
new
h
i i
r
1 2
) (
7) Melakukan C-steps yaitu tahap 4 sampai 6 untuk mendapatkan fungsi objektif yang kecil dan konvergen.
Dengan metode LTS, model hubungan antara WRI Jan dan LP I diperoleh h = 9 subset data dengan kuadrat fungsi objektif terkecil. Kemudian melalui FWLS didapatkan hanya variabel intercept yang signifikan berpengaruh, R Square 18,19 % dan standard deviasi 12,38.
2.5 Penggunaan LTS dalam masalah outlier
Untuk menanggulangi pencilan pada data, yaitu dengan mengeluarkan ataumembuang observasi ke-i pada data yang diduga merupakan pencilan. Kemudiandilakukan pengujian kembali untuk mendeteksi terdapat atau tidaknya pencilanpada data sampai tidak terdapat lagi pencilan pada data tersebut.Meskipun pencilan identik dengan data yang tidak bagus, akan tetapi iamerupakan bagian terpenting dari data, karena
(25)
menyimpan informasi tertentu. Untuk itu alternatif yang dapat diambil terhadap data yang terkontaminasipencilan adalah dengan menggunakan metode Least Trimmed Square (LTS) dalampenaksiran model regresi.
(26)
BAB 3
PEMBAHASAN
3.1 Permasalahan pada Regresi Sederhana
Berikut akan diambil contoh permasalahan data yang mengandung pencilan.Dua dimensi data set berasal dari sekolah Mickey (1967). Variabel yang diteliti adalah: X :The Age (in months) at which a child utters its firts word (Usia (dalam hitungan
bulan) disaat anak mengucapkan kata-kata pertamanya). Y :Gesell adaptive score ( Score penyesuaian kata menurut Gesell)
Tabel 3.1 First Word – Gesell Adaptive Score Data
No X Y
1 15 95
2 26 71
3 10 83
4 9 91
5 15 102
6 20 87
7 18 93
8 11 100
9 8 104
10 20 94
11 7 113
12 9 96
13 10 83
14 11 84
15 11 102
16 10 100
17 12 105
18 42 57
19 17 121
20 11 86
21 10 100
Sumber Data dari Peter J.Rousseeuw, Annick M.Leroy, 1987,Robust Regression And Outlier Detection, Canada, John Willey&Sons.
(27)
Langkahpertama yang dapat dilakukan adalah dengan membuat scatter plot dan boxplot dari data.
Gambar 3.1 Scatter Plot First Word- Gesell Adaptive Score
Dari scatter plot di atas dapat dilihat pada variabel Age in months terdapat 1 data yang menjauh dari sebaran yaitu data ke 18 demikian halnya pada variabel Gesell Adaptive Score.
Gambar 3.2. Boxplot First Word – Gesell Adaptive Score
Tabel 3.2 Quartil Data First Word-Gesell Adaptive Score
X Y
Q1 10 86
Q2 11 95
Q3 17 102
IQR 7 16
1.5*IQR 10,5 24
0 10 20 30 40 50
0 10 20 30
X
X
0 20 40 60 80 100 120 140
0 10 20 30
Y
Y
40
30
20
10
18
120
100
80
60
(28)
Demikian juga pada boxplot dapat dilihat data ke 18 jauh dari sebaran baik pada variabel Age in Months maupun pada variabel Gesell Adaptive Score.
3.1.1 Mencari Persamaan Regresi Linier
Langkah berikutnya adalah dengan mencari persamaan regresi linier, sebagai berikut :
i X Y =β0 +β1 1+ε
^
Tabel 3.3. Menentukan Koefisien Variabel Penduga
No (1) Yi (2) Xi (3)
Xi2 (4)
XiYi (5)
Yi2 (6)
1 95 15 225 1425 9025
2 71 26 676 1846 5041
3 83 10 100 830 6889
4 91 9 81 819 8281
5 102 15 225 1530 10404
6 87 20 400 1740 7569
7 93 18 324 1674 8649
8 100 11 121 1100 10000
9 104 8 64 832 10816
10 94 20 400 1880 8836
11 113 7 49 791 12769
12 96 9 81 864 9216
13 83 10 100 830 6889
14 84 11 121 924 7056
15 102 11 121 1122 10404
16 100 10 100 1000 10000
17 105 12 144 1260 11025
18 57 42 1764 2394 3249
19 121 17 289 2057 14641
20 86 11 121 946 7396
21 100 10 100 1000 10000
Jumlah 1967 302 5606 26864 188155
Dengan data di atas dapat dicari dengan persamaan berikut :
2 2 1 2 2 2 0 ) ( ) )( ( ) ( ) )( ( ) )( (
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
− − = − − = i i i i i i i i i i i i i X X n Y X Y X n X X n Y X X X Y β β(29)
Maka : 12699 , 1 ) 302 ( 5606 21 1967 302 26864 21 874 , 109 ) 302 ( 5606 21 26864 302 5606 1967 2 1 2 0 − = − − = = − − = x x x x x x β β
Jadi persamaan regresi adalah Y^ =109,874−1,127X1
3.1.2. Mencari Nilai Residu
Nilai residu dapat dicari dengan cara berikut :
Tabel.3.4 Nilai Residu Data First Word-Gesell Adaptive Score No
(1)
Yi
(2) Yi
^ (3) i i Y Y ^ − (4) 2 ^ ) (Yi −Yi
(5)
1 95 92,96901 2,030993 4,124933
2 71 80,57213 -9,57213 91,62565
3 83 98,60395 -15,604 243,4833
4 91 99,73094 -8,73094 76,22932
5 102 92,96901 9,030993 81,55884
6 87 87,33406 -0,33406 0,111598
7 93 89,58804 3,41196 11,64147
8 100 97,47696 2,523037 6,365718
9 104 100,8579 3,142071 9,872608
10 94 87,33406 6,665938 44,43473
11 113 101,9849 11,01508 121,332
12 96 99,73094 -3,73094 13,91992
13 83 98,60395 -15,604 243,4833
14 84 97,47696 -13,477 181,6285
15 102 97,47696 4,523037 20,45787
16 100 98,60395 1,396049 1,948952
17 105 96,34997 8,650026 74,82296
18 57 62,54031 -5,54031 30,69499
19 121 90,71503 30,28497 917,1795
20 86 97,47696 -11,477 131,7207
21 100 98,60395 1,396049 1,948952
Jumlah 1967 1967 -7,8E-14 2308,586
Nilai Residu yang distudenkan : 1
1− ≈ − −
= n p
ii i t h s r t
(30)
Dengan : 4293 , 115 ) 586 , 2308 ( 1 21 1 1 2 2 = − = −
=
∑
rip n s Maka: 7438 , 10 4293 , 115 = = s
Dan hii = 2p/n = 2/21 = 0,0952
Maka didapat ti :
2196 , 10 0952 , 0 1 7438 , 10 1 i i ii i i r r h s r t = − = − =
Dengan memasukkan nilai residu maka diperoleh t1sampai dengan t21
sebagai berikut:
0,1987 ; -0,93664 ; -1,5269 ; -0,8543 ; 0,8837 ; -0,0327 ; 0,3339 ; 0,2469 ; 0,3074 ; 0,6523 ; 1,0778 ; -0,3651 ; -1,5269 ; -1,3187 ; 0,4426 ; 0,1366 ; 0,8464 ; 2,9634 ;-0,5421; -1,12303 ; 0,1366
ttab = tα,n-p-1 = t0,95,19 = 1,73
Kriteria uji :
HO ditolak jika ti≥ tα/2;n-p-1, dan HO diterima jika ti< tα/2;n-p-1 ,
Hanya 2,9634 > 1,73 t18> ttab
maka t18 dianggap outlier.
3.1.3 Mencari Nilai Leverage, DfFITS, DfBETA(s), Cook Distance Dari perhitungan diperoleh nilai-nilai berikut :
• Leverage Values = (2p – 1)/n = (2x2-1)/21= 0,0952 • DfFITS = 2xsqrt(p/n) = 2xsqrt(2/21) = 0,6172 • Cook’s Distance = F(0.5;p,n-p) = F(0.5;2, 17) = 0,72 • DfBETA(s) = 2/sqrt(n) = 2/sqrt(21) = 0,4364
(31)
Dengan kriteria di atas, akan diidentifikasi keberadaan pencilan padamasing-masing variabel (prediktor maupun respon).
Tabel 3.5 Case Summeries Identifikasi Outlier Cook's
Distance
Leverage Value
Syandardized DfFITS
Standardized DFBETA Y
Standardized DFBETA X
0,0009 0,0003 0,04127 0,01664 0,00328
0,0815 0,10689 -0,40252 0,18862 -0,3348
0,07166 0,0152 -0,39114 -0,33098 0,19239
0,02562 0,02293 -0,22433 -0,20004 0,12788
0,01774 0,0003 0,18686 0,07532 0,01487
0,00004 0,025 -0,00857 0,00113 -0,00503
0,00313 0,01037 0,07722 0,00447 0,03266
0,00167 0,00905 0,0563 0,0443 -0,0225
0,00383 0,03224 0,08541 0,07907 -0,05427
0,01544 0,025 0,17284 -0,02283 0,10141
0,05481 0,04314 0,332 0,3156 -0,22889
0,00468 0,02293 -0,09445 -0,08422 0,05384
0,07166 0,0152 -0,39114 -0,33098 0,19239
0,0476 0,00905 -0,31367 -0,24681 0,12536
0,00536 0,00905 0,10126 0,07968 -0,04047
0,00057 0,0152 0,03298 0,02791 -0,01622
0,01786 0,00449 0,18717 0,13328 -0,05493
0,67811 0,60399 -1,15578 0,83112 -1,11275
0,22329 0,00543 0,85374 0,14348 0,27317
0,03452 0,00905 -0,26385 -0,20761 0,10544
0,00057 0,0152 0,03298 0,02791 -0,01622
3.1.4 Mencari Persamaan Regresi LTS
Langkah awal yang dilakukan adalah menentukan coverage (h)
h=
[ ] [
n/2 + (p+1)/2]
h = [(n+p+1)/2] h = [21+1+1)/2] h=12
Selanjutnya mengurutkan nilai kuadrat residu dari yang terkecil sampai ke yang terbesar.
2 ) 1 (
r
<r
(22)<r
(23)< …. <r
(i2)< … <r
(h2)< … <r
(n2)Dai tabel 3.4 dapat diurutkan kuadrat residu dari yang terkecil sebagai berikut :
0,1116 < 1,9489 < 1,9489 < 4,1249 < 6,3657 < 9,8726 < 11,6415 < 13,9199 < 20,4579 < 30,695 < 44,4347 < 74,823 < 76,2293 < 81,5588 < 91,6256 < 121,332 < 131,7207 < 181,6285 < 243,4833 < 243,4833 < 917,1795
Dikarenakan h = 12, maka residu yang digunakan dari yang terkecil sampai ke urutan terkecil ke 12, yakni :
0,1116 < 1,9489 < 1,9489 < 4,1249 < 6,3657 < 9,8726 < 11,6415 < 13,9199 < 20,4579 < 30,695 < 44,4347 < 74,823
(32)
Maka diperoleh 220,3437
1 2
) ( =
∑
h=oi i
r
Nilai new
^
β = 220,3437
1 2
) ( =
∑
h=oi i
r
Selanjutnya dihitung kembali kuadrat residu untuk new
^ β
(
)
22
ˆi i new
i y X
r = − β
Tabel 3.6 Residu dari new
^ β
No Yi Y^
new i X Y− β
^
ri2
(1) (2) (3) (4) (5)
1 95 92,96901 -3212,17 10318045,7
2 71 80,57213 -5648,34 31903722,97
3 83 98,60395 -2104,82 4430280,066
4 91 99,73094 -1883,35 3547019,877
5 102 92,96901 -3212,17 10318045,7
6 87 87,33406 -4319,52 18658252,49
7 93 89,58804 -3876,58 15027876,84
8 100 97,47696 -2326,29 5411637,9
9 104 100,8579 -1661,88 2761857,335
10 94 87,33406 -4319,52 18658252,49
11 113 101,9849 -1440,41 2074792,439
12 96 99,73094 -1883,35 3547019,877
h=
[ ] [
n/2 + (p+1)/2]
h = [(n+p+1)/2] h = [12+1+1)/2] h=7
Selanjutnya mengurutkan nilai kuadrat residu dari yang terkecil sampai ke yang terbesar sampai ke urutan 7, yakni.
2 ) 1 (
r
<r
(22)<r
(23)< …. <r
(i2)< … <r
(h2)< … <r
(n2) Maka diperoleh 32090653,21 2
) ( =
∑
new=h i i r Nilai new ^
β = 32090653,2
1 2
) ( =
∑
new=h
i i
(33)
Selanjutnya dihitung kembali kuadrat residu untukβ^new
(
)
22
ˆi i new
i y X
r = − β
Setelah melalui proses iterasi maka didapat persamaan regresi sebagai berikut : X
Y 97,862 0,87
^
− =
3.1.5 Mencari Residu Robust dan Jarak Robust
Titik Leverage dapat dideteksi dengan menggunakan jarak robust yaitu 1
( i) ( i ( ))T ( ) ( i ( ))
RD X− = X T X −C X − X T X Tabel 3.7Residu Robust dan Jarak Robust
No. ri / s
(2.50)
RDi
(2.500)
1 0,18 0,786
2 -0,87 2,867
3 -1,42 1,419
4 -0,79 1,000
5 0,82 0,892
6 -0,03 1,688
7 0,31 1,288
8 0,23 0,339
9 0,29 0,618
10 0,60 1,624
11 1,00 0,887
12 -0,34 0,677
13 -1,42 1,419
14 -1,22 1,258
15 0,41 0,387
16 0,13 0,363
17 0,78 0,534
18 -0,50 5,752
19 2,75 1,803
20 -1,04 1,129
(34)
Dalam Diagram titik dapat dilihat :
Gambar 3.3 Diagram Ttik Residu Robust dan Jarak Robust
Dari gambar diagram diatas dapat dilihat residu robust dan jarak robust tidak begitu berbeda, yang mencolok hanyalah pada data ke 2 dan 18. Maka dapat ditarik kesimpulan data First Word – Gesell Adaptive Score mengandung outlier pada data ke 2 dan 18.
3.2 Permasalahan Pada Regresi Berganda
Diketahui data tiga variabel yang diteliti terhadap responden untuk mengukurpertumbuhan oksidasi amonia ke nitrat acid pada tanaman selama 21 hari sebagai berikut :
• air flow to the plant (pergerakan udara ke tanaman) • cooling water inlet temperature (kadar temperatur air) • acid concentration (konsentrasi asam)
Variabel respon the permillage of ammonia lost / stackloss (amoniak yang hilang / ml).
-2 -1 0 1 2 3 4 5 6 7
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
ri / s RDi
(35)
Tabel 3.8. Data Stackloss
No x1 x2 x3 Y
1 80 27 89 42
2 80 27 88 37
3 75 25 90 37
4 62 24 87 28
5 62 22 87 18
6 62 23 87 18
7 62 24 93 19
8 62 24 93 20
9 58 23 87 15
10 58 18 80 14
11 58 18 89 14
12 58 17 88 13
13 58 18 82 11
14 58 19 93 12
15 50 18 89 8
16 50 18 86 7
17 50 19 72 8
18 50 19 79 8
19 50 20 80 9
20 56 20 82 15
21 70 20 91 15
Sumber Data dari Peter J.Rousseeuw, Annick M.Leroy, 1987,Robust Regression And Outlier Detection, Canada, John Willey&Sons.
Langkah pertama dapat dilakukan dengan menggunakan scatter plot, sebagai berikut :
(36)
Gambar 3.4. Scatter Plot Stackloss
Dari scatter plot di atas dapat dilihat sepintas bahwa pada data x1
terdapat data yang agak jauh dari sebaran yakni data ke 1dan 2. Pada x2 dan x3 sebaran data tidak ada yang menyimpang, sedangkan pada y data ke 1,2,3 dan 4 agak menjauh dari sebaran.
Langkah kedua untuk melihat pencilan dapat dilihat dengan menggunakan boxplot, sebagai berikut :
0 20 40 60 80 100
0 5 10 15 20 25
x
1x1
0 5 10 15 20 25 30
0 5 10 15 20 25
x
2x2
0 20 40 60 80 100
0 5 10 15 20 25
x
3x3
0 10 20 30 40 50
0 5 10 15 20 25
y
(37)
Gambar 3.5. Boxplot Stackloss
x1 x2
x3 Y
Tabel 3.9. Quartil Stackloss
X1 X2 X3 y
Q1 56 18 82 11
Q2 58 20 87 15
Q3 62 24 89 19
IQR 6 6 7 8
1.5*IQR 9 9 10,5 12
80
75
70
65
60
55
50
13
28
26
24
22
20
18
16
95
90
85
80
75
70
40
30
20
10
(38)
Dari boxplot di atas dapat dilihat bahwa pada data x1 terdapat dua data
yang agak jauh dari sebaran. Pada x2 dan x3 sebaran data tidak ada yang
menyimpang, sedangkan pada y ada dua agak menjauh dari sebaran.
3.2.1 Mencari Persamaan Regresi Linier
Langkah berikutnya adalah dengan mencari persamaan regresi linier berganda, sebagai berikut :
i X X
X
Y =β0 +β1 1+β2 2 +β3 3 +ε ^
Tabel 3.10 Menentukan Koefisien Variabel Penduga
No (1)
Yi (2)
X1i (3)
X2i (4)
X3i (5)
X1i2 (6)
X1iX2i (7)
X1iX3i (8)
1 42 80 27 89 6400 2160 7120
2 37 80 27 88 6400 2160 7040
3 37 75 25 90 5625 1875 6750
4 28 62 24 87 3844 1488 5394
5 18 62 22 87 3844 1364 5394
6 18 62 23 87 3844 1426 5394
7 19 62 24 93 3844 1488 5766
8 20 62 24 93 3844 1488 5766
9 15 58 23 87 3364 1334 5046
10 14 58 18 80 3364 1044 4640
11 14 58 18 89 3364 1044 5162
12 13 58 17 88 3364 986 5104
13 11 58 18 82 3364 1044 4756
14 12 58 19 93 3364 1102 5394
15 8 50 18 89 2500 900 4450
16 7 50 18 86 2500 900 4300
17 8 50 19 72 2500 950 3600
18 8 50 19 79 2500 950 3950
19 9 50 20 80 2500 1000 4000
20 15 56 20 82 3136 1120 4592
21 15 70 20 91 4900 1400 6370
(39)
X2i2
(9)
X2iX3i
(10)
X3i2
(11)
X1iYi
(12)
X2iYi
(13)
X3iYi
(14)
Yi2
(15)
729 2403 7921 3360 1134 3738 1764
729 2376 7744 2960 999 3256 1369
625 2250 8100 2775 925 3330 1369
576 2088 7569 1736 672 2436 784
484 1914 7569 1116 396 1566 324
529 2001 7569 1116 414 1566 324
576 2232 8649 1178 456 1767 361
576 2232 8649 1240 480 1860 400
529 2001 7569 870 345 1305 225
324 1440 6400 812 252 1120 196
324 1602 7921 812 252 1246 196
289 1496 7744 754 221 1144 169
324 1476 6724 638 198 902 121
361 1767 8649 696 228 1116 144
324 1602 7921 400 144 712 64
324 1548 7396 350 126 602 49
361 1368 5184 400 152 576 64
361 1501 6241 400 152 632 64
400 1600 6400 450 180 720 81
400 1640 6724 840 300 1230 225
400 1820 8281 1050 300 1365 225
9545 38357 156924 23953 8326 32189 8518
Dari tabel di atas diperoleh nilai-nilai yang akan disubsitusikan ke dalam persamaan berikut :
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
+ + + = + + + = + + + = + + + = 2 3 3 3 2 2 3 1 1 3 0 3 3 2 3 2 2 2 2 1 1 2 0 2 3 1 3 2 1 2 2 1 1 1 0 1 3 3 2 2 1 1 0 i i i i i i i i i i i i i i i i i i i i i i i i i i i X X X X X X Y X X X X X X X Y X X X X X X X Y X X X X n Y β β β β β β β β β β β β β β β βSehingga didapat persamaan sebagai berikut :
3 2 1 0 3 2 1 0 3 2 1 0 3 2 1 0 156924 38357 109988 1812 32189 38357 9545 27223 443 8326 109988 27223 78365 1269 23953 1812 443 1269 21 368 β β β
β β β β
β β β β β
β β β β + + + = + + + = + + + = + + + =
(40)
Dari keempat persamaan di atas, setelah disubsitusi, maka didapat persamaan regresi : 3 2 1 ^ 152 , 0 295 , 1 716 , 0 92 ,
39 X X X
Y =− + + −
3.2.2 Mencari Nilai Residu
Nilai residu dapat dicari dengan mengurangkan variabel dependent terhadap variabel dugaan, sebagai berikut :
Tabel.3.11 Nilai Residu Data Stackloss No
(1)
Yi
(2) Yi
^ (3) i i Y Y ^ − (4) 2 ^ ) (Yi −Yi
(5)
1 42 38,77 3,235 10,46523
2 37 38,92 -1,917 3,674889
3 37 32,44 4,556 20,75714
4 28 22,30 5,698 32,4672
5 18 19,71 -1,712 2,930944
6 18 21,01 -3,007 9,042049
7 19 21,39 -2,389 5,707321
8 20 21,39 -1,389 1,929321
9 15 18,14 -3,144 9,884736
10 14 12,73 1,267 1,605289
11 14 11,36 2,636 6,948496
12 13 10,22 2,779 7,722841
13 11 12,43 -1,429 2,042041
14 12 12,05 -,050 0,0025
15 8 5,64 2,361 5,574321
16 7 6,09 ,905 0,819025
17 8 9,52 -1,520 2,3104
18 8 8,46 -,455 0,207025
19 9 9,60 -,598 0,357604
20 15 13,59 1,412 1,993744
21 15 22,24 -7,238 52,38864
Jumlah 368 368 0,001 178,831
Nilai Residu yang distudenkan : 1
1− ≈ − −
= n p
ii i t h s r t Dengan : 935 , 9 ) 831 , 178 ( 3 21 1 1 2 2 = − = −
=
∑
rip n s
(41)
Maka:
152 , 3
935 , 9 = = s
Dan hii = 2p/n = 6/21 = 0,2857
Maka didapat ti :
6639 . 2
2857 , 0 1 152 , 3
1
i i ii i i
r r h s
r t
=
− =
− =
Dengan memasukkan nilai residu maka diperoleh t1sampai dengan t21 sebagai
berikut:
1,2144 ; -0,7196; 1,7103 ; 2,139 ; -0,6427 ; -1,1288 ; -0,89681 ; -0,5214 ; -1,1802 ; 0,4756 ; 0,9895 ; 1,0432 ; -0,53643 ; -0,01877 ; 0,8863 ; 0,3397 ; -0,5706 ; -0,1708 ; -0,2245 ; 0,53 ; -2,7171
ttab = tα,n-p-1 = t0,95,17 = 1,74 hanya 2,7171> 1,74 jadi t21> ttab
maka t21 dianggap outlier.
3.2.3 Mencari Nilai Leverage, DfFITS, DfBETA(s), Cook Distance Dari perhitungan diperoleh nilai-nilai berikut :
• Leverage Values = (2p – 1)/n = (2x4-1)/21= 0,3333 • DfFITS = 2xsqrt(p/n) = 2xsqrt(4/21) = 0,8729 • Cook’s Distance = F(0.5;p,n-p) = F(0.5;4, 17) = 0,88 • DfBETA(s) = 2/sqrt(n) = 2/sqrt(21) = 0,4364
Dengan kriteria di atas, akan diidentifikasi keberadaan pencilan padamasing-masing variabel (prediktor maupun respon).
(42)
Tabel 3.12. Case Summaries Identifikasi Outlier
3.2.4 Mencari Pesamaan Regresi LTS
Langkah awal yang dilakukan adalah menentukan coverage (h)
h=
[ ] [
n/2 + (p+1)/2]
h = [(n+p+1)/2] h = [21+3+1)/2] h=13
Selanjutnya mengurutkan nilai kuadrat residu dari yang terkecil sampai ke yang terbesar.
2 ) 1 (
r
<r
(22)<r
(23)< …. <r
(i2)< … <r
(h2)< … <r
(n2)Dai tabel 3.4 dapat diurutkan kuadrat residu dari yang terkecil sebagai berikut :
0,0025 < 0,2071 < 0,3579 < 0,8191 < 1, 6058 < 1,9307 <1,9941 < 2,0408 < 2,3102 < 2,9297 < 3,6767 < 5,5763 < 5,7097 < 6,9501 < 7,7254 < 9,0417 < 9,8871 < 10,4629 < 20,7529 < 32,4646 < 52,3845
Dikarenakan h = 13, maka residu yang digunakan dari yang terkecil sampai ke urutan terkecil ke 13, yakni :
0,0025 < 0,2071 < 0,3579 < 0,8191 < 1, 6058 < 1,9307 < 1,9941 < 2,0408 < 2,3102 < 2,9297 < 3,6767 < 5,5763 < 5,7097
Maka diperoleh 29,1608
1 2
) ( =
∑
h=oi i
r No Cook's
Distance Leverage Value Standardized DfFITs Standardized DfBETA Intercept Standardized DfBETA x1 Standardized DfBETA x2 Standardized DfBETA x3 1 0,15371 0,25394 0,79472 -0,08512 0,40023 0,10332 -0,20967
2 0,05968 0,27022 -0,48132 0,01312 -0,25005 -0,06094 0,16483
3 0,12641 0,127 0,74416 -0,18831 0,39049 -0,00463 -0,04679
4 0,13054 0,08089 0,78788 -0,12178 -0,41495 0,61879 0,02711
5 0,00405 0,0046 -0,12452 0,01178 0,01191 -0,02975 -0,0067
6 0,01957 0,02987 -0,27916 0,03862 0,10562 -0,16855 -0,01235
7 0,0488 0,17162 -0,43767 0,29546 0,26807 -0,26322 -0,2818
8 0,0165 0,17162 -0,25099 0,16944 0,15373 -0,15095 -0,1616
9 0,04456 0,09256 -0,4234 0,07727 0,30718 -0,32842 -0,07767
10 0,01193 0,15243 0,21312 0,15261 0,12391 -0,13199 -0,12806
11 0,03587 0,10741 0,37621 -0,06761 0,10803 -0,26458 0,15761
12 0,06507 0,16956 0,50918 -0,01138 0,23258 -0,42654 0,12756
13 0,01076 0,10991 -0,20269 -0,11918 -0,11612 0,14144 0,08802
14 0,00002 0,1582 -0,00863 0,00497 0,00068 0,00311 -0,0068
15 0,03852 0,14285 0,38834 -0,11602 -0,19539 -0,02866 0,2471
16 0,00338 0,08345 0,11309 -0,00001 -0,05329 -0,01007 0,04159
17 0,06547 0,3645 -0,50202 -0,46241 0,01987 -0,06343 0,42345
18 0,00112 0,11297 -0,06503 -0,04661 0,02268 -0,01317 0,03313
19 0,00218 0,12692 -0,09068 -0,04924 0,05199 -0,04225 0,03385
20 0,00449 0,03257 0,13083 0,08533 -0,0105 0,00515 -0,0666
(43)
Nilai ^
β = 29,1608
1 2
) ( =
∑
h=oi i
r
Melalui proses iterasi maka didapat persamaan dengan LTS adalah : ^
Y= -37,652 + 798X1 + 0,577X2 – 0,067X3
3.2.5 Mencari Residu Robust dan Jarak Robust
Titik Leverage dapat dideteksi dengan menggunakan jarak robust yaitu 1
( i) ( i ( ))T ( ) ( i ( ))
RD X− = X T X −C X − X T X
Tabel 3.13. Residu Robust dan Jarak Robust No. ri / s
(2.50)
RDi
(2.500)
1 7,70 3,289
2 3,74 1,596
3 7,14 3,047
4 7,64 3,265
5 0,28 0,617
6 0,00 0,821
7 0,51 1,000
8 1,30 0,892
9 -0,11 0,860
10 0,51 1,275
11 0,51 0,842
12 0,00 1,044
13 -1,87 1,018
14 -1,36 0,902
15 0,28 0,990
16 -0,51 0,700
17 0,00 2,137
18 0,00 1,146
19 0,51 0,941
20 1,87 0,806
(44)
Dalam Diagram titik dapat dilihat :
Gambar 3.6. Diagram Titik Residu Robust dan Jarak Robust
Dari gambar diagram diatas dapat dilihat residu robust dan jarak robust tidak begitu berbeda, yang mencolok hanyalah pada data ke 1,3,4 dan 21. Maka dapat ditarik kesimpulan data stacloss mengandung outlier pada data ke 1,3,4 dan 21.
3.3 Perhitungan dengan SPSS Regresi Linier
Model Summary(b)
Mod
el R
R Square
Adjusted R Square
Std. Error of the Estimate
Change Statistics R
Square Change
F
Change df1 df2
Sig. F Change 1 ,640(a) ,410 ,379 11,023 ,410 13,202 1 19 ,002
a Predictors: (Constant), Age in months b Dependent Variable: Gesell Adaptive Score
ANOVA(b)
Model
Sum of
Squares df Mean Square F Sig. 1 Regression 1604,081 1 1604,081 13,202 ,002(a)
Residual 2308,586 19 121,505
Total 3912,667 20
a Predictors: (Constant), Age in months b Dependent Variable: Gesell Adaptive Score
-8 -6 -4 -2 0 2 4 6 8 10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Series1 Series2
(45)
Coefficients(a)
Model Unstandardized Coefficients Standardized Coefficients Sig.
B Beta t
1 (Constant) 109,874 5,068 21,681 ,000
Age in months -1,127 ,310 -,640 -3,633 ,002 a Dependent Variable: Gesell Adaptive Score
Dari output spsss di atas dapat dilihat nilai R2 adalah 0,64 Persamaan Regresinya adalah
^
Y = 109,874 – 1,127X
Sedangkan nilai-nilai residu nya juga dapat dilihat sebagai berikut :
Casewise Diagnostics(a)
Case Number Std. Residual
Gesell Adaptive
Score
Predicted
Value Residual
1 ,184 95 92,97 2,031
2 -,868 71 80,57 -9,572
3 -1,416 83 98,60 -15,604
4 -,792 91 99,73 -8,731
5 ,819 102 92,97 9,031
6 -,030 87 87,33 -,334
7 ,310 93 89,59 3,412
8 ,229 100 97,48 2,523
9 ,285 104 100,86 3,142
10 ,605 94 87,33 6,666
11 ,999 113 101,98 11,015
12 -,338 96 99,73 -3,731
13 -1,416 83 98,60 -15,604
14 -1,223 84 97,48 -13,477
15 ,410 102 97,48 4,523
16 ,127 100 98,60 1,396
17 ,785 105 96,35 8,650
18 -,503 57 62,54 -5,540
19 2,747 121 90,72 30,285
20 -1,041 86 97,48 -11,477
21 ,127 100 98,60 1,396
a Dependent Variable: Gesell Adaptive Score
Dari hasil nilai residu di atas dapat dilihat nilai residu yang besar terdapat pada data ke 3,11,13,14, 19 dan 20. Dapat diartikan data First Word-Gessel Adaptive Score diatas mengandung pencilan sehingga menyebabkan nilai residu yang besar.
Selanjutnya dengan melihat nilai Cook’s Distance, DfFITS, DfBETA(s) dan Leverage maka data ke 2 dan 18 dapat dikeluarkan karena diduga adalah outlier, maka kita kembali ke proses regresi sebagai berikut :
(46)
Model Summary
Model R R Square
Adjusted R Square
Std. Error of the Estimate
Change Statistics R Square
Change
F
Change df1 df2
Sig. F Change 1 ,034(a) ,001 -,058 10,480 ,001 ,020 1 17 ,890
a Predictors: (Constant), Age in months
ANOVA(b)
Model
Sum of
Squares Df Mean Square F Sig. 1 Regression 2,154 1 2,154 ,020 ,890(a)
Residual 1867,004 17 109,824 Total 1869,158 18
a Predictors: (Constant), Age in months b Dependent Variable: Gesell Adaptive Score
Coefficients(a)
Model
Unstandardized
Coefficients Standardized Coefficients Sig.
B Beta t
1 (Constant) 97,862 8,026 12,193 ,000
Age in
months -,087 ,622 -,034 -,140 ,890
a Dependent Variable: Gesell Adaptive Score
Setelah outlier dikeluarkan, maka dari output spsss diatas dapat dilihat nilai R2 adalah 0, 01. Persamaan Regresinya adalah Y 97,862 0,87X
^
− =
(47)
Regresi Linier Berganda
Dengan menggunakan spss didapat hasil sebagai berikut :
Model Summary(b)
Mod
el R
R Square
Adjusted R Square
Std. Error of the Estimate
Change Statistics R
Square Change
F
Change df1 df2
Sig. F Change 1 ,956(a) ,914 ,898 3,243 ,914 59,902 3 17 ,000
a Predictors: (Constant), Acid Concentration, Cooling water inlet temperature, Air flow to the plant b Dependent Variable: The permillage of ammonia lost
ANOVA(b)
Model
Sum of
Squares df Mean Square F Sig. 1 Regression 1890,408 3 630,136 59,902 ,000(a)
Residual 178,830 17 10,519 Total 2069,238 20
a Predictors: (Constant), Acid Concentration, Cooling water inlet temperature, Air flow to the plant b Dependent Variable: The permillage of ammonia lost
Coefficients(a)
Model Unstandardized Coefficients
Standardized
Coefficients t Sig. B Std. Error Beta
1 (Constant) -39,920 11,896 -3,356 ,004 Air flow to the
plant ,716 ,135 ,645 5,307 ,000
Cooling water inlet
temperature
1,295 ,368 ,403 3,520 ,003 Acid
Concentration -,152 ,156 -,080 -,973 ,344 a Dependent Variable: The permillage of ammonia lost
Dari output spsss diatas dapat dilihat nilai R2 adalah 0,914. Persamaan Regresinya adalah y = -39,920 + 0,716x1 + 1,295x2 – 0,152x3
(48)
Casewise Diagnostics(a)
Case Number Std. Residual
The permillage of ammonia
lost
Predicted
Value Residual
1 ,997 42 38,77 3,235
2 -,591 37 38,92 -1,917
3 1,405 37 32,44 4,556
4 1,757 28 22,30 5,698
5 -,528 18 19,71 -1,712 6 -,927 18 21,01 -3,007 7 -,737 19 21,39 -2,389 8 -,428 20 21,39 -1,389 9 -,969 15 18,14 -3,144
10 ,391 14 12,73 1,267
11 ,813 14 11,36 2,636
12 ,857 13 10,22 2,779
13 -,440 11 12,43 -1,429
14 -,016 12 12,05 -,050
15 ,728 8 5,64 2,361
16 ,279 7 6,09 ,905
17 -,469 8 9,52 -1,520
18 -,140 8 8,46 -,455
19 -,184 9 9,60 -,598
20 ,435 15 13,59 1,412
21 -2,232 15 22,24 -7,238 a Dependent Variable: The permillage of ammonia lost
Dari hasil nilai residu di atas dapat dilihat nilai residu yang besar terdapat pada data ke 1, 3, 4, 6, 9 dan 21. Dapat diartikan data stackloss diatas mengandung pencilan sehingga menyebabkan nilai residu yang besar.
Selanjutnya dengan melihat nilai Cook’s Distance, DfFITS, DfBETA(s) dan Leverage maka data ke 1,3,4, dan 21 dapat dikeluarkan karena diduga adalah outlier, maka kita kembali ke proses regresi sebagai berikut :
Model Summary(b)
Model R R Square
Adjusted R Square
Std. Error of the Estimate 1 ,987(a) ,975 ,969 1,253
a Predictors: (Constant), Acid Concentration, Cooling water inlet temperature, Air flow to the plant b Dependent Variable: The permillage of ammonia lost
ANOVA(b)
Model
Sum of
Squares df Mean Square F Sig. 1 Regression 795,834 3 265,278 169,043 ,000(a)
Residual 20,401 13 1,569 Total 816,235 16
a Predictors: (Constant), Acid Concentration, Cooling water inlet temperature, Air flow to the plant b Dependent Variable: The permillage of ammonia lost
(49)
Coefficients(a)
a Dependent Variable: The permillage of ammonia lost
Setelah outlier dikeluarkan maka dari output spsss di atas dapat dilihat nilai R2 adalah 0,987. Persamaan Regresinya adalah :
y = -37,652 + 0,798x1 + 0,577x2 – 0,067x3
Model
Unstandardized
Coefficients Standardized Coefficients t Sig. B Std. Error Beta
1 (Constant) -37,652 4,732 -7,957 ,000
Air flow to the plant ,798 ,067 ,824 11,828 ,000 Cooling water inlet
temperature ,577 ,166 ,232 3,479 ,004
(50)
BAB 4
KESIMPULAN DAN SARAN
4.1. Kesimpulan
Pengamatan yang dikategorikan sebagai pencilan mempunyai nilai residu yang relatif besar untuk ukuran residu pada ketetapan pengamatan. Diasumsikan bahwa hubungan anatara dua variabel x dan y diperkirakan dengan garis lurus. Model regresi formalnya adalahyi = +β β0 1xi+ +... εi
Pencilan dapat dideteksi dengan metode grafis, Boxplot, atau LeverageValues, DfFITS, Cook’s Distance, dan DfBETA(s). Pencilan dapat ditanggulangidengan membuang observasi ke-i yang dianggap pencilan. Adapun alternatiflainnya adalah menggunakan metode Least Trimmed Square dalam penaksiranmodel regresi, yang biasanya menggunakan OLS.
4.2. Saran
Saran untuk penelitian selanjutnya adalah supaya peneliti lebih banyak mendapatkan bahan tentang pencilan, supaya mendapatkan lebihbanyak cara untuk mendeteksi dan menanggulangi pencilan pada data.
(51)
DAFTAR PUSTAKA
[1] Aunuddin. 1989. Analisa Data.Bandung. ITB.
[2] Chatterjee, Price.1977.Regression Analysis by Example.New York.John Willey & Sons.
[3] Frank R.Hampel, Elvezio M.Ronchetti, Peter J.Rousseeuw, Werner A.Shatel. 1986.Robust Statistics The Approach Based on Influence Functions.Canada. John Willey&Sons.
[4] Norman Draper, Harry Smith.1992.Analisis Regresi Terapan. diterjemahkan oleh Ir.Bambang Sumantri.Jakarta.Gramedia Pustaka Utama.
[5] Peter J.Rousseeuw. Annick M.Leroy.1987. Robust Regression And Outlier Detection.Canada.John Willey&Sons.
[6] Govindarajan Kothandaraman.2001.Robust Least Squares [7] John Fox. 2002. Robust Regression Appendix to An R and S-Plus Companion to
Applied Regression
[8] Khairi. 2008.Contoh Proposal AAT. IPB
[9] Notiragayu.Perbandingan Beberapa Metode Analisis Regresi Komponen Utama Robust. Universitas Lampung
[10] Sumartini.2007.Outliers. UNPAD [11] Wikipedia.Robust Regression
[12] Trihendradi, Cornelius. 2005.Step by Step SPSS 13 Analisis Data Statistik. Yogyakarta. Penerbit Andi
(1)
Model Summary
Model R R Square
Adjusted R Square
Std. Error of the Estimate
Change Statistics R Square
Change
F
Change df1 df2
Sig. F Change
1 ,034(a) ,001 -,058 10,480 ,001 ,020 1 17 ,890
a Predictors: (Constant), Age in months
ANOVA(b)
Model
Sum of
Squares Df Mean Square F Sig. 1 Regression 2,154 1 2,154 ,020 ,890(a)
Residual 1867,004 17 109,824 Total 1869,158 18
a Predictors: (Constant), Age in months b Dependent Variable: Gesell Adaptive Score
Coefficients(a)
Model
Unstandardized
Coefficients Standardized Coefficients Sig.
B Beta t
1 (Constant) 97,862 8,026 12,193 ,000
Age in
months -,087 ,622 -,034 -,140 ,890
a Dependent Variable: Gesell Adaptive Score
Setelah outlier dikeluarkan, maka dari output spsss diatas dapat dilihat
nilai R
2adalah 0, 01. Persamaan Regresinya adalah
Y
97
,
862
0
,
87
X
^
−
=
(2)
Regresi Linier Berganda
Dengan menggunakan spss didapat hasil sebagai berikut :
Model Summary(b)
Mod
el R
R Square Adjusted R Square Std. Error of the Estimate Change Statistics R Square Change F
Change df1 df2
Sig. F Change 1 ,956(a) ,914 ,898 3,243 ,914 59,902 3 17 ,000
a Predictors: (Constant), Acid Concentration, Cooling water inlet temperature, Air flow to the plant b Dependent Variable: The permillage of ammonia lost
ANOVA(b)
Model
Sum of
Squares df Mean Square F Sig. 1 Regression 1890,408 3 630,136 59,902 ,000(a)
Residual 178,830 17 10,519 Total 2069,238 20
a Predictors: (Constant), Acid Concentration, Cooling water inlet temperature, Air flow to the plant b Dependent Variable: The permillage of ammonia lost
Coefficients(a)
Model Unstandardized Coefficients
Standardized
Coefficients t Sig. B Std. Error Beta
1 (Constant) -39,920 11,896 -3,356 ,004
Air flow to the
plant ,716 ,135 ,645 5,307 ,000
Cooling water inlet
temperature
1,295 ,368 ,403 3,520 ,003
Acid
Concentration -,152 ,156 -,080 -,973 ,344 a Dependent Variable: The permillage of ammonia lost
Dari output spsss diatas dapat dilihat nilai R
2adalah 0,914. Persamaan
Regresinya adalah y = -39,920 + 0,716x
1+ 1,295x
2– 0,152x
3(3)
Casewise Diagnostics(a)
Case Number Std. Residual
The permillage of ammonia
lost
Predicted
Value Residual
1 ,997 42 38,77 3,235
2 -,591 37 38,92 -1,917
3 1,405 37 32,44 4,556
4 1,757 28 22,30 5,698
5 -,528 18 19,71 -1,712
6 -,927 18 21,01 -3,007
7 -,737 19 21,39 -2,389
8 -,428 20 21,39 -1,389
9 -,969 15 18,14 -3,144
10 ,391 14 12,73 1,267
11 ,813 14 11,36 2,636
12 ,857 13 10,22 2,779
13 -,440 11 12,43 -1,429
14 -,016 12 12,05 -,050
15 ,728 8 5,64 2,361
16 ,279 7 6,09 ,905
17 -,469 8 9,52 -1,520
18 -,140 8 8,46 -,455
19 -,184 9 9,60 -,598
20 ,435 15 13,59 1,412
21 -2,232 15 22,24 -7,238
a Dependent Variable: The permillage of ammonia lost
Dari hasil nilai residu di atas dapat dilihat nilai residu yang besar
terdapat pada data ke 1, 3, 4, 6, 9 dan 21. Dapat diartikan data stackloss diatas
mengandung pencilan sehingga menyebabkan nilai residu yang besar.
Selanjutnya dengan melihat nilai Cook’s Distance, DfFITS, DfBETA(s) dan Leverage
maka data ke 1,3,4, dan 21 dapat dikeluarkan karena diduga adalah outlier, maka kita
kembali ke proses regresi sebagai berikut :
Model Summary(b)
Model R R Square
Adjusted R Square
Std. Error of the Estimate
(4)
Coefficients(a)
a Dependent Variable: The permillage of ammonia lost
Setelah outlier dikeluarkan maka dari output spsss di atas dapat dilihat
nilai R
2adalah 0,987. Persamaan Regresinya adalah :
y = -37,652 + 0,798x
1+ 0,577x
2– 0,067x
3 ModelUnstandardized
Coefficients Standardized Coefficients t Sig. B Std. Error Beta
1 (Constant) -37,652 4,732 -7,957 ,000
Air flow to the plant ,798 ,067 ,824 11,828 ,000 Cooling water inlet
temperature ,577 ,166 ,232 3,479 ,004
(5)
BAB 4
KESIMPULAN DAN SARAN
4.1. Kesimpulan
Pengamatan yang dikategorikan sebagai pencilan mempunyai nilai residu yang relatif
besar untuk ukuran residu pada ketetapan pengamatan. Diasumsikan bahwa hubungan
anatara dua variabel x dan y diperkirakan dengan garis lurus. Model regresi formalnya
adalah
y
i= +
β β
0 1x
i+ +
...
ε
iPencilan dapat dideteksi dengan metode grafis, Boxplot, atau LeverageValues,
DfFITS, Cook’s Distance, dan DfBETA(s). Pencilan dapat ditanggulangidengan membuang
observasi ke-i yang dianggap pencilan. Adapun alternatiflainnya adalah menggunakan metode
Least Trimmed Square dalam penaksiranmodel regresi, yang biasanya menggunakan OLS.
4.2. Saran
Saran untuk penelitian selanjutnya adalah supaya peneliti lebih banyak mendapatkan bahan
tentang pencilan, supaya mendapatkan lebihbanyak cara untuk mendeteksi dan
menanggulangi pencilan pada data.
(6)