Mengatasi outlier dengan metode least trimmed squares (LTS) pada Regresi robust.

(1)

MENGATASI OUTLIER DENGAN METODE LEAST TRIMMED

SQUARES (LTS) PADA REGRESI ROBUST

SKRIPSI

I’SYATUN MARDHIAH

070823027

DEPARTEMEN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SUMATERA UTARA

MEDAN

2011


(2)

MENGATASI OUTLIERDENGAN METODE LEAST TRIMMED SQUARES (LTS) PADA REGRESI ROBUST

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Sains

I’SYATUN MARDHIAH 070823027

DEPARTEMEN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA

MEDAN 2011


(3)

PERSETUJUAN

Judul : MENGATASI OUTLIER DENGAN METODE

LEAST TRIMMED SQUARES (LTS) PADA REGRESI ROBUST

Kategori : SKRIPSI

Nama : I’SYATUN MARDHIAH

Nomor Induk Mahasiswa : 070823027

Program Studi : SARJANA (S1) MATEMATIKA

Departemen : MATEMATIKA

Fakultas : MATEMATIKA DAN ILMU PENGETAHUAN

ALAM (FMIPA) UNIVERSITAS SUMATERA UTARA

Diluluskan di Medan, 21Juni 2011

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Drs. Djakaria Sebayang, M.Si Drs. Marwan Harahap, M.Eng

NIP.19511227 198503 1 002 NIP.19461225 197403 1 001

Diketahui/Disetujui oleh

Departemen Matematika FMIPA USU Ketua,

Prof. Dr. Tulus, M.Si


(4)

PERNYATAAN

MENGATASI OUTLIER DENGAN METODE LEAST TRIMMED SQUARES (LTS) PADA REGRESI ROBUST

SKRIPSI

Saya mengakui bahwa skripsi saya ini adalah hasil kerja saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya.

Medan, Juni 2011

I’SYATUN MARDHIAH 070823027


(5)

PENGHARGAAN

Puji dan syukur penulis panjatkan kepada Allah SWT, arena atas berkat rahmatNya skripsi ini berhasi diselesaikan dalam waktu yang telah ditetapkan.

Ucapan terima kasih saya sampaikan kepada Drs. Marwan Harahap, M.Eng dan Drs. Djakaria Sebayang, M.Si selaku pembimbing pada penyelesaian skripsi ini yang telah memberikan panduan dan penuh kepercayaan kepada saya untuk menyempurnakan kajian ini, juga kepada Drs. H. Haluddin Panjaitan dan Dra. Elly Rosmaini, M.Si selaku panguji. Panduan ringkas, padat dan profesional telah diberikan kepada saya agar penulis dapat menyelesaikan skripsi ini. Ucapan terima kasih juga ditujukan kepada Ketua dan Sekretaris Departemen Prof. Dr. Tulus, M.Si dan Dra. Mardiningsih, M.Si, Koordinator Ekstension Matematika Drs. Pangarapen Bangun, M.Si, Dekan dan Pembantu Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara, pegawai di FMIPA USU. Kepada rekan-rekan kuliah yang telah memberikan bantuan demi kelancaran skripsi ini. Akhirnya tidak terlupakan kepada orang tua tercinta dan keluarga penulis yang selama ini memberikan bantuan dan dorongan yang diperlukan. Hanya Allah SWT yang dapat membalasnya.


(6)

ABSTRAK

Kajian ini bertujuan untuk mendapatkan suatu model persamaan regresi yang lebih baik daripada persamaan regresi sebelumnya untuk data yang mengandung outlier. Dengan terlebih dahulu memeriksa keberadaan outlier baik dengan grafik maupun dengan rumus ynag digunakan penulis yakni mencari nilai residu yang distudentkan, nilai leverage, DfFITS, DfBETA(S) dan Cook’s Distance. Kemudian dicari persamaan regresi dengan metode Least Trimmed Squares (LTS) pada regresi robust yakni dengan mencari jumlah kuadrat minimum residu dengan ukuran coverage. Dengan metode LTS akan didapatkan suatu persamaan yang lebih baik dibandingkan yang sebelumnya menggunakan OLS untuk data yang mengandung outlierkarena LTS mampu mengurangi pengaruh outlier pada data.


(7)

ABSTRACT

This study is to get a regression equation better than regression equation before for data have outlier. First, check outlier at data, with grafic and looking for residu studenization, leverage value, DfFitS, DfBETAS(s) and Cook’s Distance. And then searching regression equation with Least Trimmed Squares (LTS) method at robust regression, that is with get total of sum minimum kuadrat residu with coverage measured. It will get regression equation with LTS method better than equation before with OLS because LTS can make outlier influence be smaller than before for data.


(8)

DAFTAR ISI

Halaman

Persetujuan ii

Pernyataan iii

Penghargaan iv

Abstrak v

Abstract vi

Daftar Isi vii

Daftar Tabel viii

Daftar Gambar ix

Bab 1 Pendahuluan 1

1.1 Latar Belakang 1

1.2 Perumusan Masalah 2

1.3 Tujuan Penelitian 3

1.4 Kontribusi Penelitian 3

1.5 Tinjauan Pustaka 3

1.6 Metode Penelitian 4

Bab 2 Landasan Teori 5

2.1 Outlier 5

2.2 Pengamatan Berpengaruh 8

2.3 Regresi Robust 10

2.4 Least Trimmed Squares 11

2.5 Penggunaan LTS dalam Masalah Outlier 12

Bab 3 Pembahasan 14

3.1 Permasalahan pada Regresi Sederhana 14

3.1.1 Mencari Persamaan Regresi Linier 16

3.1.2 Mencari Nilai Residu 17

3.1.3 Mencari Nilai Leverage, DfFITS, DfBETA(s), Cook’s Distance 18

3.1.4 Mencari Persamaan Regresi LTS 19

3.1.5 Mencari Residu Robust dan Jarak Robust 21

3.2 Permasalahan pada Regresi Berganda 22

3.2.1 Mencari Persamaan Regresi Linier 26

3.2.2 Mencari Nilai Residu 28

3.2.3 Mencari Nilai Leverage, DfFITS, DfBETA(s), Cook’s Distance 29

3.2.4 Mencari Persamaan Regresi LTS 30

3.2.5 Mencari Residu Robust dan Jarak Robust 31

3.3 Perhitungan dengan SPSS 32

Bab 4 Kesimpulan dan Saran 38

4.1 Kesimpulan 38

4.2 Saran 38

Daftar Pustaka x


(9)

DAFTAR TABEL

Halaman

Tabel 3.1 First Word – Gesell Adaptive Score Data 14

Tabel 3.2 Quartil Data First Word – Gesell Adaptive Score 15

Tabel 3.3 Menentukan Koefisien Variabel Penduga 16

Tabel 3.4 Nilai Residu Data First Word – Gesell Adaptive Score 17

Tabel 3.5 Case Summeries Identifikasi Outlier 19

Tabel 3.6 Residu dari new ^

β 20

Tabel 3.7 Residu Robust dan Jarak Robust 21

Tabel 3.8 Data Stackloss 23

Tabel 3.9 Quartil Data Stackloss 25

Tabel 3.10 Menentukan Koefisien Variabel Penduga 26

Tabel 3.11 Nilai Residu Data Stack Loss 28

Tabel 3.12 Case Summeries Identifikasi Outlier 30


(10)

DAFTAR GAMBAR

Halaman Gambar 2.1 Scatter Plot WRI Januari dan Luas Panen Periode I 9 Gambar 3.1 Scatter Plot First Word – Gesell Adaptive Score 15

Gambar 3.2 Box Plot First Word – Gesell Adaptive Score 15

Gambar 3.3 Diagram Titik Residu Robust dan Jarak Robust 22

Gambar 3.4 Scatter Plot Stackloss 24

Gambar 3.5 Box Plot Stacklos 25


(11)

ABSTRAK

Kajian ini bertujuan untuk mendapatkan suatu model persamaan regresi yang lebih baik daripada persamaan regresi sebelumnya untuk data yang mengandung outlier. Dengan terlebih dahulu memeriksa keberadaan outlier baik dengan grafik maupun dengan rumus ynag digunakan penulis yakni mencari nilai residu yang distudentkan, nilai leverage, DfFITS, DfBETA(S) dan Cook’s Distance. Kemudian dicari persamaan regresi dengan metode Least Trimmed Squares (LTS) pada regresi robust yakni dengan mencari jumlah kuadrat minimum residu dengan ukuran coverage. Dengan metode LTS akan didapatkan suatu persamaan yang lebih baik dibandingkan yang sebelumnya menggunakan OLS untuk data yang mengandung outlierkarena LTS mampu mengurangi pengaruh outlier pada data.


(12)

ABSTRACT

This study is to get a regression equation better than regression equation before for data have outlier. First, check outlier at data, with grafic and looking for residu studenization, leverage value, DfFitS, DfBETAS(s) and Cook’s Distance. And then searching regression equation with Least Trimmed Squares (LTS) method at robust regression, that is with get total of sum minimum kuadrat residu with coverage measured. It will get regression equation with LTS method better than equation before with OLS because LTS can make outlier influence be smaller than before for data.


(13)

BAB 1

PENDAHULUAN

1.1Latar Belakang

Hal pertama yang dilakukan dalam analisis data adalah tahap persiapan yang meliputi pengumpulan dan pemeriksaan data. Proses pemeriksaan dilakukan untuk menghindari kekeliruan dan ketidakcocokan data.

Data yang diperoleh tidak jarang ditemukan satu atau beberapa yang jauh dari pola kumpulan data keseluruhan yang lazim didefenisikan sebagai pencilan (outlier). Pencilan dapat dilihat sebagai pengamatan dengan sisaan yang cukup besar (Aunuddin, 1989). Pencilan adalah yang nilai mutlaknya jauh lebih besar daripada sisaan-sisaan lainnya dan bisa jadi terletak tiga atau empat simpangan baku atau lebih jauh lagi dari rata-rata sisaannya. Pencilan merupakan suatu keganjilan dan menandakan suatu titik data yang sama sekali tidak tipikal dibandingkan data lainnya. Oleh karenanya, suatu pencilan patut diperiksa secara seksama, berangkali saja alasan dibalik keganjilan itu dapat diketahui.

Berbagai kaidah telah diajukan untuk menolak pencilan (dengan kata lain untuk memutuskan menyisihkan amatan tersebut dari data, untuk kemudian menganalisis kembali tanpa amatan tersebut). Penolakan begitu saja suatu pencilan bukanlah prosedur yang bijaksana. Adakalanya pencilan memberikan informasi yang tidak bisa diberikan oleh titik data lainnya, misalnya karena pencilan timbul dari kombinasi keadaan yang tidak biasa yang mungkin saja sangat penting dan perlu diselidiki lebih jauh. Sebagai kaidah umum, pencilan baru kita tolak jika setelah ditelusuri ternyata merupakan akibat dari kesalahan-kesalahan seperti kesalahan mencatat amatan bersangkutan atau kesalahan ketika menyiapkan peralatan. Bila ternyata bukan akibat dari kesalahan-kesalahan semacam itu, penyelidikan yang seksama harus dilakukan. (N.Draper & H.Smith, 1992)


(14)

Penilaian ketetapan model regresi tidak cukup hanya didasarkan pada besarnya koefisien determinasi atau koefisien regresi tetapi perlu pemeriksaan sisaan (error) dengan lebih seksama yang menyangkut antara lain kemungkinan adanya pencilan. Identifikasi pencilan dan melihat bagaimana peranannya terhadap taksiran model merupakan tahapan diagnosis yang perlu ditempuh terutama bila penaksiran modelnya dilakukan dengan metode kuadrat terkecil. Prosedur analisis yang diharapkan adalah prosedur yang menghasilkan keluaran yang cukup baik meskipun beberapa asumsinya tidak terpenuhi secara sempurna. Metode lain yang dapat digunakan untuk mengatasi pencilan adalah regresi robust. Prosedur ini dirancang untuk mengurangi pengaruh data-data yang mempunyai pengaruh tinggi jika metode kuadrat terkecil digunakan. Prosedur regresi robust cenderung mengabaikan sisaan-sisaan (error) yang berhubungan dengan pencilan yang besar. (Aunuddin, 1989).

Ada beberapa metode dalam regresi robust yang dapat digunakan untuk menangani data pencilan, salah satunya adalah metode Least Trimmed Squares (LTS).Olehnya itu, penulis tertarik melakukan penelitian lebih lanjut dengan judul “MENGATASI OUTLIER DENGAN METODE LEAST TRIMMED SQUARES (LTS) PADA REGRESI ROBUST”.

1.2Perumusan Masalah

Masalah yang dibahas dalam kajian ini yakni bagaimana cara mendeteksi outlier yang berpengaruh terhadap model regresi selanjutnya membuat model menjadi lebih baik dengan tidak mengabaikan outlier. Metode yang digunakan yakni Metode Least Trimmed Squares (LTS) sebagai salah satu metode penaksiran parameter model regresi robust terhadap kehadiran outlier yang mampu menciptakan model regresi yang lebih baik untuk data yang mempunyai outlier.


(15)

1.3. Tujuan Penelitian

Penelitian ini bertujuan untuk mendapatkan nilai dari model regresi Least Trimmed Squares sebagai regresi robust terhadap kehadiran pencilan.

1.4. Kontribusi penelitian

1. Mendapatkan informasi mengenai macam cara mendeteksi outlier

2. Mendapatkan persamaan regresi dengan metode Least Trimmed Squares untuk data yang mengandung outlier

3. Memperoleh informasi ketepatan model Least Squares dan Least Trimmed Squares sehingga dapat dipertimbangkan dalam mengatasi outlier

1.5 Tinjauan Pustaka

Salah satu alternatif terhadap penduga least square yang bersifat robust adalah pendugaan dengan kriteria meminimumkan.

Prosedur perhitungannya adalah : 1. Pemilihan penduga awal 2. Perhitungan

^

i YY

3. Penyelesaian persamaan Yi = +β β0 1X1+ +... εi untuk model fitnya 4. Perhitungan dilanjutkan secara iteratif hingga tercapai kriteria

konvergensinya.

Metode Least Trimmed Squares tidak membuang bagian dari data melainkan menemukan model fit dari mayoritas data. Metode ini menduga koefisien regresi dengan meminimumkan kuadrat sisaan.(Aunuddin, 1989)


(16)

1.6 Metode Penelitian

Metode Least Trimmed Squares

Solusi koefisien regresi ( ^

β) pada metode Least Trimmed Squares (LTS) dihitung pada subhimpunan data yang berukuran nilai cakupan/ coverage yang disimbolkan dengan h. Penentuan subhimpunan data dilakukan dengan menggunakan algoritma resampling dari seluruh kemungkinan subhimpunan yang dapat dibentuk yaitu sebanyak kombinasi n dari h atau n

h    

 . Subhimpunan data yang diperoleh merupakan sebaran data yang sudah terpangkas (trimmed distribution). [9] Kemudian model dengan jumlah kuadrat residu yang terkecil dijadikan sebagai model fit.

Robust Statistik

Prosedur analisis statistik yang kita harapkan adalah prosedur yang menghasilkan keluaran yang cukup baik meskipun beberapa asumsinya tidak terpenuhi secara sempurna. Metode diagnosis sisaan ditujukan untuk menilai data yang mengandung pencilan dan pengaruhnya terhadap hasil analisis. Dilain pihak, prosedur statistik yang besifat robust ditujukan untuk mengakomodasi adanya data yang mengandung pencilan dan sekaligus meniadakan pengaruhnya tehadap hasil analisis tanpa terlebih dahulu mengadakan identifikasi data tersebut. Prosedur ini lebih cepat dalam menanggulangi kelainan data. Diantara macam regresi robust yang banyak digunakan yaitu Least Weight Squares (LWS), Least Median Squares (LMS) dan Least Trimmed Squares (LTS).

Regresi robust diperkenalkan oleh Andrews (1972) dan merupakan metode regresi yang digunakan ketika distribusi nilairesidu tidak normal dan atau adanya beberapa outlier yang berpengaruh pada model (Ryan, 1997). Metode ini merupakan alat penting untuk menganalisa data yang dipengaruhi oleh outlier sehingga dihasilkan model yang robust atau resistance terhadap outlier. Suatu estimasi yang resistant adalah relatif tidak terpengaruh oleh perubahan besar pada bagian kecil data atau perubahan kecil pada bagian besar data.


(17)

BAB 2

LANDASAN TEORI

2.1 Outlier

Outlier merupakan suatu pengamatan yang menyimpang cukup jauh dari pengamatan lainnya sehingga menimbulkan kecurigaan bahwa pengamatan tersebut berasal dari distribusi data yang berbeda (Hawkins dalam Sujatmiko, 2005:4). Distribusi pertama disebut sebagai “distribusi dasar” (basic distribution) yang menghasilkan pengamatan “baik”. Distribusi kedua disebut sebagai “distribusi kontaminan” (contaminating distribution) yang menghasilkan pengamatan “tidak baik”. Jumlah maksimum outlier dalam data yang diperbolehkan adalah 50 persen (Rousseeuw dan Leroy dalam Hubert dan Van Driessen,2004:303).

Berdasarkan pengaruh pengamatan outlier terhadap data, maka outlier dapat dibedakan menjadi tiga, yaitu :

• Shift Outlier, mampu menggeser vektor rata-rata sehingga pusat data menjadi berubah.

• Scale Outlier, mampu merubah bentuk ellipsoid dari data.

• Radial Outlier, selain menggeser pusat ellipsoid juga merubah bentuk ellipsoid.

Pengamatan yang dikategorikan sebagai pencilan mempunyai nilai residu yang relatif besar untuk ukuran residu pada ketetapan pengamatan. Diasumsikan bahwa hubungan anatara dua variabel x dan y diperkirakan dengan garis lurus. Model regresi formalnya adalah

0 1 ...

i i i

y = +β β x + +ε (2.1)

Denganβ0 dan β1 adalah parameter untuk diestimasi.εiadalah kesalahan random yang tidak diperhatikan dan diasumsikan berdistribusi normal. Diberikan data


(18)

yang cukup pada x dan y, model parameter dapat diestimasi dengan metode least squares. Interpretasi dari koefisien regresi adalah menyediakan bentuk kedekatan dimana tidak ada variabelyang menyimpangdari asumsi dasar regresi yang telah diketahui. Asumsi ini diperiksa dengan menganalisis regresi residual.

Analisis residu biasanya dimulai dengan grafik dari residu dengan variabel bebas x, dan memfitkannilai

^

y . Secara umum grafik ini dimulai dengan titik-titik untuk memeriksa simpangan dari model asumsi, seperti ketidakcukupan asumsi garis lurus, kecukupan variansi konstan, ada tidaknya outlier dan korelasi kesalahan. Dalam kajian ini perhatian terbatas untuk mendeteksi outlier dan mengukur pengaruhnya pada hasil regresi.(Chatterje-Price,1977)

Untuk mendeteksi outlier dapat dilakukan dengandiagramdan perhitungan nilai seperti :

1. Scatter Plot

Data observasi diplotkan dalam suatu grafis, jika terdapat data yang jauh dari kumpulan plot maka dapat dikatakan bahwa data tersebut termasuk pencilan.

2. Boxplot

Dengan menggunakan nilai kuartil 1,2 dan 3 yang akan membagi sebuah urutan data menjadi beberapa bagian.

IQR = Q3 - Q1 (2.2)

Dengan :

Q1 = Kuartil ke 1 Q2 = Kuartil ke 2 Q3 = Kuartil ke 3

IQR = Interquartule Range (Jangkauan)

Dengan batas bukan pencilan kurang dari 1,5xIQR atas dan besar dari 1,5xIQR bawah. [10]


(19)

3. Leverage Values, DfFITS, Cook’s Distance, dan DfBETA(s)

Leverage Values; menampilkan nilai leverage (pengaruh) terpusat. Outlier yang disebabkan oleh variabel prediktor dinamakan leverage. Leverage sangat sulit diketahui sejak awal karena :

1. Visualisasi seperti scatter diagram tidak mampu menggambarkan secara utuh dalam satu gambar.

2. Beberapa pencilan dalam data membentuk efek masking / tidak terlihat mencolok.

DfFITS atau Standardized DfFIT; menampilkan nilai perubahan dalam

hargayang diprediksi bilamana data yang dianggap pencilan dikeluarkan, yang sudah distandarkan.

Cook’s Distance; menampilkan nilai jarak Cook

DfBETA(s); menampilkan nilai perubahan koefisien regresi sebagai

hasilperubahan yang disebabkan oleh pengeluaran data yang dianggap pencilan. Digunakan untukmendeteksi pencilan pada variabel bebas.

Adapun ketentuan yang berlaku dalam pengambilan keputusan adanya pencilan atau tidak adalah sebagai berikut :

Ket. : n = Jumlah observasi (sampel); p = Jumlah parameter

4. Internal Studenization ( Residu Yang Distudentkan)

Umumnya outlier memiliki nilai y yang ekstrim. Untuk mendeteksi apakah terdapat outlier atau tidak, Internal Studenization (Residu yang distudentkan) Hipotesis :

H0: ∆i = o ( tidak terdapat outlier )


(20)

Uji Statistik :

1

1− ≈ − −

= n p

ii t h s

r

t 2.3

Dengan :

= 1 2

i r p n s

Dengan: r = residu

p= banyaknya variabel bebas hii = 2p/n

Kriteria uji :

HO ditolak jika ti≥tα/2;n-p-1, dan HO diterima jika ti<tα/2;n-p-1 , Dengan α = taraf nyata

2.2 Pengamatan Berpengaruh

Pencilan dapat dilihat sebagai pengamatan dengan sisaan yang cukup besar yakni nilai mutlak dari residu lebih besar dari 2 atau ǀr iǀ>2, tetapi Seber (1977,hal165)

memberikan patokan kasaryakni nilai mutlak dari residu lebih besar dari 3 atau

ǀr iǀ>3, sedangkan pengamatan berpengaruh lebih berkaitan dengan besarnya

perubahan yang terjadi pada koefisien regresi jika pengamatan tersebut disisihkan. Secara umum, pencilan tidak selalu berarti pengamatan berpengaruh ataupun sebaliknya. Ada atau tidaknya pengamatan berpengaruh dalam analisis tidak hanya merubah nilai koefisien regresi tapi juga akan merubah penafsiran atau kesimpulan. Pendekatan eksploratif mungkin dianggap kurang efisien dan berkesan mencoba-coba, sehingga dibutuhkan pendekatan yang lebih sistematik. Prosedur yang dapat ditempuh dalam hai ini adalah pemeriksaan sisaan.

Penentuan pengamatan berpengaruh didasarkan pada nilai coverage/cakupan yang disimbolkan dengan h. Secara umum 0≤h≤ 1 dan ∑h = p, dengan p adalah banyaknya parameter dalam model. Sehingga secara rata-rata besarnya h adalah p/n. Hoaglin dan Welsch (1978) menyebutkan bahwa h > 2p/n dapat dianggap cukup besar untuk menyatakan pengamatan tersebut berpotensi sebagai pengamatan berpengaruh. Sedangkan Huber (1981) membayangkan 1/h sebagai besaran yang setara dengan


(21)

banyaknya pengamatan yang ikut menentukan pendugaan ^

y , sehingga nilai h > 0,5 dianggap besar dan kritis, dan h > 0,2 sebagai petunjuk peringatan.

Pada dasarnya nilai h yang semakin besar menunjukkan semakin besar potensinya untuk berpengaruh, yang kemudian dapat diketahui setelah analisis dengan penyisihan pengamatan tersebut.

DfFITS dan jarak Cook (Cook’s Distance) digunakan untuk mengukur amatan berpengaruh. Suatu amatan dikatakan berpengaruh jika nilai mutlak DfFITS > 1 untuk gugus data berukuran kecil dan nilai mutlak DfFITS > untuk gugus data berukuran sedang dan besar. Cook’s Distance > F(0,5;p;n-p) dikatakan berpengaruh. Contoh pola hubungan data yang mengandung pencilan

Gambar 2.1 Scaterplot WRI Januari dan Luas Panen Periode I.

WRI Jan

L

P

-1

140 120

100 80

60 40

20 350

300

250

200

150

100

50

0

15

14

13 12

11 10

9 8

7

6 5

4 3 2 1

Scatterplot of LP-1 vs WRI Jan

Gambar 2.1 menunjukkan contoh pola hubungan Weighted Rainfall Index Januari (WRI Jan) terhadap luas panen padi periode I (LP I). Diketahui pada pengamatan ke-15 terletak lebih jauh dari pola pengamatan-pengamatan lainnya pada umumnya. Melalui perbandingan nilai DfFITS dapat dikatakan pengamatan tersebut sebagai outlier dikarenakan memiliki nilai DfFITS = 5.74699 lebih dari batas DfFITS yaitu

15 / 2


(22)

2.3 Regresi Robust

Metode kuadrat terkecil atau OLS (ordinary least square) merupakan metode penduga terbaik untuk analisis regresi, namun metode ini sangat sensitif terhadap pencilan. Bahkan jika hanya terdapat satu saja pencilan extrim dalam data, maka akan mengakibatkan penyimpangan pada dugaan OLS.Untuk mengatasi data yang mengandung pencilan diperlukan metode yang tegar terhadap pencilan yang disebut sebagai metode robust.

Titik pencilan dapat dideteksi dengan menggunakan nilai residualnya.Titik pencilan dikatakan 0 jika r ≤3 dan 1 untuk lainnya.

Dengan

^ ^ ^

0 1 1 2 2 , 1,...,

i i i i

r = −Yβ β+ XX i= n

  (2.4)

Titik Leverage dapat dideteksi dengan menggunakan jarak robust yaitu 1

( i) ( i ( ))T ( ) ( i ( ))

RD X− =  X T XC XX T X (2.5)

Dimana : RD : Jarak Robust

T(X) : vektor rata-rata robust

C(X) : matriks kovarians robust. [10]

Langkah-langkahpendeteksian outlier dengan metode Least Trimmed Squares pada Regresi Robust meliputi beberapa tahap :

1. Tentukan pencilan pada data

2. Tentukan nilai coverage yakni h =

[ ] [

n/2 + (p+1)/2

]

3. Buat subset dari data yaitu sebanyak kombinasi n dari h.

4. Gunakan metode kuadrat terkecil biasa untuk mendapatkan nilai parameter dan residu dari tiap subset

5. Tentukan model fit dengan mencari jumlah kuadrat residu yang terkecil dari keseluruhan subset

Setelah didapat model yang fit, kemudian

a. Hitung nilai residu robust untuk menentukan titik pencilan, yang diperoleh dari model fit Least Trimmed Squares


(23)

c. Buat plot antara jarak robust vs residu robust [10]

Dan terakhir plot antara residu robust dan jarak robust memungkinkanpengguna untuk mencirikan/membedakan 4 model titik yaitu: observasi biasa,pencilan vertikal, titik good leverage dan titik bad leverage.

1. Observasi regular yaitu suatu titik yang memiliki nilai residu robust dan nilaijarak robust kecil.

2. Pencilan vertikal yaitu suatu titik yang memiliki nilai residu robust besar dannilai jarak robust kecil.

3. Good leverage yaitu suatu titik yang memiliki nilai residu robust kecil dannilai jarak robust besar. Ini berarti bahwa Xi menjauh tetapi Yi cocok dengangaris

linear.

4. Bad leverage yaitu suatu titik yang memiliki nilai residu robust dan nilaijarak robust besar. Titik ini lebih berbahaya dari pada pencilan karenamemiliki pengaruh paling besar pada regresi linear klasik.

Tentu saja tidak selalu semua titik ini dimiliki oleh data.

2.4 Least Trimmed Squares

Least Trimmed Squares(LTS) merupakan suatu metode pendugaan parameter regresi robust untuk meminimumkan jumlah kuadrat h residual (fungsi objektif).

^ β =

= h

i n i r 1

2 ) :

( (2.6)

Dengan h=

[ ] [

n/2 + (p+1)/2

]

Keterangan :

2 ) (i

r

: Kuadrat residual yang diurutkan dari terkecil ke terbesar.

2 ) 1 (

r

<

r

(22)<

r

(23)< …. <

r

(i2)< … <

r

(h2)< … <

r

(n2) n : Banyaknyapengamatan


(24)

Jumlah h menunjukkan sejumlah subset data dengan kuadrat fungsi objektif terkecil. Nilai h pada persamaan (2.6) akan membangun breakdown point yang besar sebanding dengan 50%. Algoritma LTS menurut Rousseeauw dan Van Driessen (1999) dalam Willems dan Aels (2005) adalah gabungan FAST-LTS dan C-steps.

Tahapan algoritma yang digunakan FAST LTS, C-steps dan FWLS yaitu : 1) Menghitung estimasi parameter bo

2) Menentukan n residual ri2 =

(

yˆiXibo

)

2yang bersesuaian dengan (bo) kemudian

menghitung sejumlah ho =(n+ p+1)/2pengamatan dengan nilai

2 ) (i

e terkecil.

3) Menghitung

=

o

h

i i

r

1 2

) (

4) Melakukan estimasi parameter bnew dari ho pengamatan.

5) Menentukan n kuadrat residual ri2 =

(

yˆiXibnew

)

2yang bersesuaian dengan (bnew)

kemudian menghitung sejumlah hnew pengamatan dengan nilai 2

) (i

e terkecil.

6) Menghitung

=

new

h

i i

r

1 2

) (

7) Melakukan C-steps yaitu tahap 4 sampai 6 untuk mendapatkan fungsi objektif yang kecil dan konvergen.

Dengan metode LTS, model hubungan antara WRI Jan dan LP I diperoleh h = 9 subset data dengan kuadrat fungsi objektif terkecil. Kemudian melalui FWLS didapatkan hanya variabel intercept yang signifikan berpengaruh, R Square 18,19 % dan standard deviasi 12,38.

2.5 Penggunaan LTS dalam masalah outlier

Untuk menanggulangi pencilan pada data, yaitu dengan mengeluarkan ataumembuang observasi ke-i pada data yang diduga merupakan pencilan. Kemudiandilakukan pengujian kembali untuk mendeteksi terdapat atau tidaknya pencilanpada data sampai tidak terdapat lagi pencilan pada data tersebut.Meskipun pencilan identik dengan data yang tidak bagus, akan tetapi iamerupakan bagian terpenting dari data, karena


(25)

menyimpan informasi tertentu. Untuk itu alternatif yang dapat diambil terhadap data yang terkontaminasipencilan adalah dengan menggunakan metode Least Trimmed Square (LTS) dalampenaksiran model regresi.


(26)

BAB 3

PEMBAHASAN

3.1 Permasalahan pada Regresi Sederhana

Berikut akan diambil contoh permasalahan data yang mengandung pencilan.Dua dimensi data set berasal dari sekolah Mickey (1967). Variabel yang diteliti adalah: X :The Age (in months) at which a child utters its firts word (Usia (dalam hitungan

bulan) disaat anak mengucapkan kata-kata pertamanya). Y :Gesell adaptive score ( Score penyesuaian kata menurut Gesell)

Tabel 3.1 First Word – Gesell Adaptive Score Data

No X Y

1 15 95

2 26 71

3 10 83

4 9 91

5 15 102

6 20 87

7 18 93

8 11 100

9 8 104

10 20 94

11 7 113

12 9 96

13 10 83

14 11 84

15 11 102

16 10 100

17 12 105

18 42 57

19 17 121

20 11 86

21 10 100

Sumber Data dari Peter J.Rousseeuw, Annick M.Leroy, 1987,Robust Regression And Outlier Detection, Canada, John Willey&Sons.


(27)

Langkahpertama yang dapat dilakukan adalah dengan membuat scatter plot dan boxplot dari data.

Gambar 3.1 Scatter Plot First Word- Gesell Adaptive Score

Dari scatter plot di atas dapat dilihat pada variabel Age in months terdapat 1 data yang menjauh dari sebaran yaitu data ke 18 demikian halnya pada variabel Gesell Adaptive Score.

Gambar 3.2. Boxplot First Word – Gesell Adaptive Score

Tabel 3.2 Quartil Data First Word-Gesell Adaptive Score

X Y

Q1 10 86

Q2 11 95

Q3 17 102

IQR 7 16

1.5*IQR 10,5 24

0 10 20 30 40 50

0 10 20 30

X

X

0 20 40 60 80 100 120 140

0 10 20 30

Y

Y

40

30

20

10

18

120

100

80

60


(28)

Demikian juga pada boxplot dapat dilihat data ke 18 jauh dari sebaran baik pada variabel Age in Months maupun pada variabel Gesell Adaptive Score.

3.1.1 Mencari Persamaan Regresi Linier

Langkah berikutnya adalah dengan mencari persamaan regresi linier, sebagai berikut :

i X Y =β0 +β1 1+ε

^

Tabel 3.3. Menentukan Koefisien Variabel Penduga

No (1) Yi (2) Xi (3)

Xi2 (4)

XiYi (5)

Yi2 (6)

1 95 15 225 1425 9025

2 71 26 676 1846 5041

3 83 10 100 830 6889

4 91 9 81 819 8281

5 102 15 225 1530 10404

6 87 20 400 1740 7569

7 93 18 324 1674 8649

8 100 11 121 1100 10000

9 104 8 64 832 10816

10 94 20 400 1880 8836

11 113 7 49 791 12769

12 96 9 81 864 9216

13 83 10 100 830 6889

14 84 11 121 924 7056

15 102 11 121 1122 10404

16 100 10 100 1000 10000

17 105 12 144 1260 11025

18 57 42 1764 2394 3249

19 121 17 289 2057 14641

20 86 11 121 946 7396

21 100 10 100 1000 10000

Jumlah 1967 302 5606 26864 188155

Dengan data di atas dapat dicari dengan persamaan berikut :

2 2 1 2 2 2 0 ) ( ) )( ( ) ( ) )( ( ) )( (

− − = − − = i i i i i i i i i i i i i X X n Y X Y X n X X n Y X X X Y β β


(29)

Maka : 12699 , 1 ) 302 ( 5606 21 1967 302 26864 21 874 , 109 ) 302 ( 5606 21 26864 302 5606 1967 2 1 2 0 − = − − = = − − = x x x x x x β β

Jadi persamaan regresi adalah Y^ =109,874−1,127X1

3.1.2. Mencari Nilai Residu

Nilai residu dapat dicari dengan cara berikut :

Tabel.3.4 Nilai Residu Data First Word-Gesell Adaptive Score No

(1)

Yi

(2) Yi

^ (3) i i Y Y ^ − (4) 2 ^ ) (YiYi

(5)

1 95 92,96901 2,030993 4,124933

2 71 80,57213 -9,57213 91,62565

3 83 98,60395 -15,604 243,4833

4 91 99,73094 -8,73094 76,22932

5 102 92,96901 9,030993 81,55884

6 87 87,33406 -0,33406 0,111598

7 93 89,58804 3,41196 11,64147

8 100 97,47696 2,523037 6,365718

9 104 100,8579 3,142071 9,872608

10 94 87,33406 6,665938 44,43473

11 113 101,9849 11,01508 121,332

12 96 99,73094 -3,73094 13,91992

13 83 98,60395 -15,604 243,4833

14 84 97,47696 -13,477 181,6285

15 102 97,47696 4,523037 20,45787

16 100 98,60395 1,396049 1,948952

17 105 96,34997 8,650026 74,82296

18 57 62,54031 -5,54031 30,69499

19 121 90,71503 30,28497 917,1795

20 86 97,47696 -11,477 131,7207

21 100 98,60395 1,396049 1,948952

Jumlah 1967 1967 -7,8E-14 2308,586

Nilai Residu yang distudenkan : 1

1− ≈ − −

= n p

ii i t h s r t


(30)

Dengan : 4293 , 115 ) 586 , 2308 ( 1 21 1 1 2 2 = − = −

=

ri

p n s Maka: 7438 , 10 4293 , 115 = = s

Dan hii = 2p/n = 2/21 = 0,0952

Maka didapat ti :

2196 , 10 0952 , 0 1 7438 , 10 1 i i ii i i r r h s r t = − = − =

Dengan memasukkan nilai residu maka diperoleh t1sampai dengan t21

sebagai berikut:

0,1987 ; -0,93664 ; -1,5269 ; -0,8543 ; 0,8837 ; -0,0327 ; 0,3339 ; 0,2469 ; 0,3074 ; 0,6523 ; 1,0778 ; -0,3651 ; -1,5269 ; -1,3187 ; 0,4426 ; 0,1366 ; 0,8464 ; 2,9634 ;-0,5421; -1,12303 ; 0,1366

ttab = tα,n-p-1 = t0,95,19 = 1,73

Kriteria uji :

HO ditolak jika ti≥ tα/2;n-p-1, dan HO diterima jika ti< tα/2;n-p-1 ,

Hanya 2,9634 > 1,73 t18> ttab

maka t18 dianggap outlier.

3.1.3 Mencari Nilai Leverage, DfFITS, DfBETA(s), Cook Distance Dari perhitungan diperoleh nilai-nilai berikut :

Leverage Values = (2p – 1)/n = (2x2-1)/21= 0,0952 DfFITS = 2xsqrt(p/n) = 2xsqrt(2/21) = 0,6172 Cook’s Distance = F(0.5;p,n-p) = F(0.5;2, 17) = 0,72 DfBETA(s) = 2/sqrt(n) = 2/sqrt(21) = 0,4364


(31)

Dengan kriteria di atas, akan diidentifikasi keberadaan pencilan padamasing-masing variabel (prediktor maupun respon).

Tabel 3.5 Case Summeries Identifikasi Outlier Cook's

Distance

Leverage Value

Syandardized DfFITS

Standardized DFBETA Y

Standardized DFBETA X

0,0009 0,0003 0,04127 0,01664 0,00328

0,0815 0,10689 -0,40252 0,18862 -0,3348

0,07166 0,0152 -0,39114 -0,33098 0,19239

0,02562 0,02293 -0,22433 -0,20004 0,12788

0,01774 0,0003 0,18686 0,07532 0,01487

0,00004 0,025 -0,00857 0,00113 -0,00503

0,00313 0,01037 0,07722 0,00447 0,03266

0,00167 0,00905 0,0563 0,0443 -0,0225

0,00383 0,03224 0,08541 0,07907 -0,05427

0,01544 0,025 0,17284 -0,02283 0,10141

0,05481 0,04314 0,332 0,3156 -0,22889

0,00468 0,02293 -0,09445 -0,08422 0,05384

0,07166 0,0152 -0,39114 -0,33098 0,19239

0,0476 0,00905 -0,31367 -0,24681 0,12536

0,00536 0,00905 0,10126 0,07968 -0,04047

0,00057 0,0152 0,03298 0,02791 -0,01622

0,01786 0,00449 0,18717 0,13328 -0,05493

0,67811 0,60399 -1,15578 0,83112 -1,11275

0,22329 0,00543 0,85374 0,14348 0,27317

0,03452 0,00905 -0,26385 -0,20761 0,10544

0,00057 0,0152 0,03298 0,02791 -0,01622

3.1.4 Mencari Persamaan Regresi LTS

Langkah awal yang dilakukan adalah menentukan coverage (h)

h=

[ ] [

n/2 + (p+1)/2

]

h = [(n+p+1)/2] h = [21+1+1)/2] h=12

Selanjutnya mengurutkan nilai kuadrat residu dari yang terkecil sampai ke yang terbesar.

2 ) 1 (

r

<

r

(22)<

r

(23)< …. <

r

(i2)< … <

r

(h2)< … <

r

(n2)

Dai tabel 3.4 dapat diurutkan kuadrat residu dari yang terkecil sebagai berikut :

0,1116 < 1,9489 < 1,9489 < 4,1249 < 6,3657 < 9,8726 < 11,6415 < 13,9199 < 20,4579 < 30,695 < 44,4347 < 74,823 < 76,2293 < 81,5588 < 91,6256 < 121,332 < 131,7207 < 181,6285 < 243,4833 < 243,4833 < 917,1795

Dikarenakan h = 12, maka residu yang digunakan dari yang terkecil sampai ke urutan terkecil ke 12, yakni :

0,1116 < 1,9489 < 1,9489 < 4,1249 < 6,3657 < 9,8726 < 11,6415 < 13,9199 < 20,4579 < 30,695 < 44,4347 < 74,823


(32)

Maka diperoleh 220,3437

1 2

) ( =

h=o

i i

r

Nilai new

^

β = 220,3437

1 2

) ( =

h=o

i i

r

Selanjutnya dihitung kembali kuadrat residu untuk new

^ β

(

)

2

2

ˆi i new

i y X

r = − β

Tabel 3.6 Residu dari new

^ β

No Yi Y^

new i X Y− β

^

ri2

(1) (2) (3) (4) (5)

1 95 92,96901 -3212,17 10318045,7

2 71 80,57213 -5648,34 31903722,97

3 83 98,60395 -2104,82 4430280,066

4 91 99,73094 -1883,35 3547019,877

5 102 92,96901 -3212,17 10318045,7

6 87 87,33406 -4319,52 18658252,49

7 93 89,58804 -3876,58 15027876,84

8 100 97,47696 -2326,29 5411637,9

9 104 100,8579 -1661,88 2761857,335

10 94 87,33406 -4319,52 18658252,49

11 113 101,9849 -1440,41 2074792,439

12 96 99,73094 -1883,35 3547019,877

h=

[ ] [

n/2 + (p+1)/2

]

h = [(n+p+1)/2] h = [12+1+1)/2] h=7

Selanjutnya mengurutkan nilai kuadrat residu dari yang terkecil sampai ke yang terbesar sampai ke urutan 7, yakni.

2 ) 1 (

r

<

r

(22)<

r

(23)< …. <

r

(i2)< … <

r

(h2)< … <

r

(n2) Maka diperoleh 32090653,2

1 2

) ( =

new=

h i i r Nilai new ^

β = 32090653,2

1 2

) ( =

new=

h

i i


(33)

Selanjutnya dihitung kembali kuadrat residu untukβ^new

(

)

2

2

ˆi i new

i y X

r = − β

Setelah melalui proses iterasi maka didapat persamaan regresi sebagai berikut : X

Y 97,862 0,87

^

− =

3.1.5 Mencari Residu Robust dan Jarak Robust

Titik Leverage dapat dideteksi dengan menggunakan jarak robust yaitu 1

( i) ( i ( ))T ( ) ( i ( ))

RD X− =  X T XC XX T X Tabel 3.7Residu Robust dan Jarak Robust

No. ri / s

(2.50)

RDi

(2.500)

1 0,18 0,786

2 -0,87 2,867

3 -1,42 1,419

4 -0,79 1,000

5 0,82 0,892

6 -0,03 1,688

7 0,31 1,288

8 0,23 0,339

9 0,29 0,618

10 0,60 1,624

11 1,00 0,887

12 -0,34 0,677

13 -1,42 1,419

14 -1,22 1,258

15 0,41 0,387

16 0,13 0,363

17 0,78 0,534

18 -0,50 5,752

19 2,75 1,803

20 -1,04 1,129


(34)

Dalam Diagram titik dapat dilihat :

Gambar 3.3 Diagram Ttik Residu Robust dan Jarak Robust

Dari gambar diagram diatas dapat dilihat residu robust dan jarak robust tidak begitu berbeda, yang mencolok hanyalah pada data ke 2 dan 18. Maka dapat ditarik kesimpulan data First Word – Gesell Adaptive Score mengandung outlier pada data ke 2 dan 18.

3.2 Permasalahan Pada Regresi Berganda

Diketahui data tiga variabel yang diteliti terhadap responden untuk mengukurpertumbuhan oksidasi amonia ke nitrat acid pada tanaman selama 21 hari sebagai berikut :

• air flow to the plant (pergerakan udara ke tanaman) • cooling water inlet temperature (kadar temperatur air) • acid concentration (konsentrasi asam)

Variabel respon the permillage of ammonia lost / stackloss (amoniak yang hilang / ml).

-2 -1 0 1 2 3 4 5 6 7

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

ri / s RDi


(35)

Tabel 3.8. Data Stackloss

No x1 x2 x3 Y

1 80 27 89 42

2 80 27 88 37

3 75 25 90 37

4 62 24 87 28

5 62 22 87 18

6 62 23 87 18

7 62 24 93 19

8 62 24 93 20

9 58 23 87 15

10 58 18 80 14

11 58 18 89 14

12 58 17 88 13

13 58 18 82 11

14 58 19 93 12

15 50 18 89 8

16 50 18 86 7

17 50 19 72 8

18 50 19 79 8

19 50 20 80 9

20 56 20 82 15

21 70 20 91 15

Sumber Data dari Peter J.Rousseeuw, Annick M.Leroy, 1987,Robust Regression And Outlier Detection, Canada, John Willey&Sons.

Langkah pertama dapat dilakukan dengan menggunakan scatter plot, sebagai berikut :


(36)

Gambar 3.4. Scatter Plot Stackloss

Dari scatter plot di atas dapat dilihat sepintas bahwa pada data x1

terdapat data yang agak jauh dari sebaran yakni data ke 1dan 2. Pada x2 dan x3 sebaran data tidak ada yang menyimpang, sedangkan pada y data ke 1,2,3 dan 4 agak menjauh dari sebaran.

Langkah kedua untuk melihat pencilan dapat dilihat dengan menggunakan boxplot, sebagai berikut :

0 20 40 60 80 100

0 5 10 15 20 25

x

1

x1

0 5 10 15 20 25 30

0 5 10 15 20 25

x

2

x2

0 20 40 60 80 100

0 5 10 15 20 25

x

3

x3

0 10 20 30 40 50

0 5 10 15 20 25

y


(37)

Gambar 3.5. Boxplot Stackloss

x1 x2

x3 Y

Tabel 3.9. Quartil Stackloss

X1 X2 X3 y

Q1 56 18 82 11

Q2 58 20 87 15

Q3 62 24 89 19

IQR 6 6 7 8

1.5*IQR 9 9 10,5 12

80

75

70

65

60

55

50

13

28

26

24

22

20

18

16

95

90

85

80

75

70

40

30

20

10


(38)

Dari boxplot di atas dapat dilihat bahwa pada data x1 terdapat dua data

yang agak jauh dari sebaran. Pada x2 dan x3 sebaran data tidak ada yang

menyimpang, sedangkan pada y ada dua agak menjauh dari sebaran.

3.2.1 Mencari Persamaan Regresi Linier

Langkah berikutnya adalah dengan mencari persamaan regresi linier berganda, sebagai berikut :

i X X

X

Y =β0 +β1 1+β2 2 +β3 3 +ε ^

Tabel 3.10 Menentukan Koefisien Variabel Penduga

No (1)

Yi (2)

X1i (3)

X2i (4)

X3i (5)

X1i2 (6)

X1iX2i (7)

X1iX3i (8)

1 42 80 27 89 6400 2160 7120

2 37 80 27 88 6400 2160 7040

3 37 75 25 90 5625 1875 6750

4 28 62 24 87 3844 1488 5394

5 18 62 22 87 3844 1364 5394

6 18 62 23 87 3844 1426 5394

7 19 62 24 93 3844 1488 5766

8 20 62 24 93 3844 1488 5766

9 15 58 23 87 3364 1334 5046

10 14 58 18 80 3364 1044 4640

11 14 58 18 89 3364 1044 5162

12 13 58 17 88 3364 986 5104

13 11 58 18 82 3364 1044 4756

14 12 58 19 93 3364 1102 5394

15 8 50 18 89 2500 900 4450

16 7 50 18 86 2500 900 4300

17 8 50 19 72 2500 950 3600

18 8 50 19 79 2500 950 3950

19 9 50 20 80 2500 1000 4000

20 15 56 20 82 3136 1120 4592

21 15 70 20 91 4900 1400 6370


(39)

X2i2

(9)

X2iX3i

(10)

X3i2

(11)

X1iYi

(12)

X2iYi

(13)

X3iYi

(14)

Yi2

(15)

729 2403 7921 3360 1134 3738 1764

729 2376 7744 2960 999 3256 1369

625 2250 8100 2775 925 3330 1369

576 2088 7569 1736 672 2436 784

484 1914 7569 1116 396 1566 324

529 2001 7569 1116 414 1566 324

576 2232 8649 1178 456 1767 361

576 2232 8649 1240 480 1860 400

529 2001 7569 870 345 1305 225

324 1440 6400 812 252 1120 196

324 1602 7921 812 252 1246 196

289 1496 7744 754 221 1144 169

324 1476 6724 638 198 902 121

361 1767 8649 696 228 1116 144

324 1602 7921 400 144 712 64

324 1548 7396 350 126 602 49

361 1368 5184 400 152 576 64

361 1501 6241 400 152 632 64

400 1600 6400 450 180 720 81

400 1640 6724 840 300 1230 225

400 1820 8281 1050 300 1365 225

9545 38357 156924 23953 8326 32189 8518

Dari tabel di atas diperoleh nilai-nilai yang akan disubsitusikan ke dalam persamaan berikut :

+ + + = + + + = + + + = + + + = 2 3 3 3 2 2 3 1 1 3 0 3 3 2 3 2 2 2 2 1 1 2 0 2 3 1 3 2 1 2 2 1 1 1 0 1 3 3 2 2 1 1 0 i i i i i i i i i i i i i i i i i i i i i i i i i i i X X X X X X Y X X X X X X X Y X X X X X X X Y X X X X n Y β β β β β β β β β β β β β β β β

Sehingga didapat persamaan sebagai berikut :

3 2 1 0 3 2 1 0 3 2 1 0 3 2 1 0 156924 38357 109988 1812 32189 38357 9545 27223 443 8326 109988 27223 78365 1269 23953 1812 443 1269 21 368 β β β

β β β β

β β β β β

β β β β + + + = + + + = + + + = + + + =


(40)

Dari keempat persamaan di atas, setelah disubsitusi, maka didapat persamaan regresi : 3 2 1 ^ 152 , 0 295 , 1 716 , 0 92 ,

39 X X X

Y =− + + −

3.2.2 Mencari Nilai Residu

Nilai residu dapat dicari dengan mengurangkan variabel dependent terhadap variabel dugaan, sebagai berikut :

Tabel.3.11 Nilai Residu Data Stackloss No

(1)

Yi

(2) Yi

^ (3) i i Y Y ^ − (4) 2 ^ ) (YiYi

(5)

1 42 38,77 3,235 10,46523

2 37 38,92 -1,917 3,674889

3 37 32,44 4,556 20,75714

4 28 22,30 5,698 32,4672

5 18 19,71 -1,712 2,930944

6 18 21,01 -3,007 9,042049

7 19 21,39 -2,389 5,707321

8 20 21,39 -1,389 1,929321

9 15 18,14 -3,144 9,884736

10 14 12,73 1,267 1,605289

11 14 11,36 2,636 6,948496

12 13 10,22 2,779 7,722841

13 11 12,43 -1,429 2,042041

14 12 12,05 -,050 0,0025

15 8 5,64 2,361 5,574321

16 7 6,09 ,905 0,819025

17 8 9,52 -1,520 2,3104

18 8 8,46 -,455 0,207025

19 9 9,60 -,598 0,357604

20 15 13,59 1,412 1,993744

21 15 22,24 -7,238 52,38864

Jumlah 368 368 0,001 178,831

Nilai Residu yang distudenkan : 1

1− ≈ − −

= n p

ii i t h s r t Dengan : 935 , 9 ) 831 , 178 ( 3 21 1 1 2 2 = − = −

=

ri

p n s


(41)

Maka:

152 , 3

935 , 9 = = s

Dan hii = 2p/n = 6/21 = 0,2857

Maka didapat ti :

6639 . 2

2857 , 0 1 152 , 3

1

i i ii i i

r r h s

r t

=

− =

− =

Dengan memasukkan nilai residu maka diperoleh t1sampai dengan t21 sebagai

berikut:

1,2144 ; -0,7196; 1,7103 ; 2,139 ; -0,6427 ; -1,1288 ; -0,89681 ; -0,5214 ; -1,1802 ; 0,4756 ; 0,9895 ; 1,0432 ; -0,53643 ; -0,01877 ; 0,8863 ; 0,3397 ; -0,5706 ; -0,1708 ; -0,2245 ; 0,53 ; -2,7171

ttab = tα,n-p-1 = t0,95,17 = 1,74 hanya 2,7171> 1,74 jadi t21> ttab

maka t21 dianggap outlier.

3.2.3 Mencari Nilai Leverage, DfFITS, DfBETA(s), Cook Distance Dari perhitungan diperoleh nilai-nilai berikut :

Leverage Values = (2p – 1)/n = (2x4-1)/21= 0,3333 DfFITS = 2xsqrt(p/n) = 2xsqrt(4/21) = 0,8729 Cook’s Distance = F(0.5;p,n-p) = F(0.5;4, 17) = 0,88 DfBETA(s) = 2/sqrt(n) = 2/sqrt(21) = 0,4364

Dengan kriteria di atas, akan diidentifikasi keberadaan pencilan padamasing-masing variabel (prediktor maupun respon).


(42)

Tabel 3.12. Case Summaries Identifikasi Outlier

3.2.4 Mencari Pesamaan Regresi LTS

Langkah awal yang dilakukan adalah menentukan coverage (h)

h=

[ ] [

n/2 + (p+1)/2

]

h = [(n+p+1)/2] h = [21+3+1)/2] h=13

Selanjutnya mengurutkan nilai kuadrat residu dari yang terkecil sampai ke yang terbesar.

2 ) 1 (

r

<

r

(22)<

r

(23)< …. <

r

(i2)< … <

r

(h2)< … <

r

(n2)

Dai tabel 3.4 dapat diurutkan kuadrat residu dari yang terkecil sebagai berikut :

0,0025 < 0,2071 < 0,3579 < 0,8191 < 1, 6058 < 1,9307 <1,9941 < 2,0408 < 2,3102 < 2,9297 < 3,6767 < 5,5763 < 5,7097 < 6,9501 < 7,7254 < 9,0417 < 9,8871 < 10,4629 < 20,7529 < 32,4646 < 52,3845

Dikarenakan h = 13, maka residu yang digunakan dari yang terkecil sampai ke urutan terkecil ke 13, yakni :

0,0025 < 0,2071 < 0,3579 < 0,8191 < 1, 6058 < 1,9307 < 1,9941 < 2,0408 < 2,3102 < 2,9297 < 3,6767 < 5,5763 < 5,7097

Maka diperoleh 29,1608

1 2

) ( =

h=o

i i

r No Cook's

Distance Leverage Value Standardized DfFITs Standardized DfBETA Intercept Standardized DfBETA x1 Standardized DfBETA x2 Standardized DfBETA x3 1 0,15371 0,25394 0,79472 -0,08512 0,40023 0,10332 -0,20967

2 0,05968 0,27022 -0,48132 0,01312 -0,25005 -0,06094 0,16483

3 0,12641 0,127 0,74416 -0,18831 0,39049 -0,00463 -0,04679

4 0,13054 0,08089 0,78788 -0,12178 -0,41495 0,61879 0,02711

5 0,00405 0,0046 -0,12452 0,01178 0,01191 -0,02975 -0,0067

6 0,01957 0,02987 -0,27916 0,03862 0,10562 -0,16855 -0,01235

7 0,0488 0,17162 -0,43767 0,29546 0,26807 -0,26322 -0,2818

8 0,0165 0,17162 -0,25099 0,16944 0,15373 -0,15095 -0,1616

9 0,04456 0,09256 -0,4234 0,07727 0,30718 -0,32842 -0,07767

10 0,01193 0,15243 0,21312 0,15261 0,12391 -0,13199 -0,12806

11 0,03587 0,10741 0,37621 -0,06761 0,10803 -0,26458 0,15761

12 0,06507 0,16956 0,50918 -0,01138 0,23258 -0,42654 0,12756

13 0,01076 0,10991 -0,20269 -0,11918 -0,11612 0,14144 0,08802

14 0,00002 0,1582 -0,00863 0,00497 0,00068 0,00311 -0,0068

15 0,03852 0,14285 0,38834 -0,11602 -0,19539 -0,02866 0,2471

16 0,00338 0,08345 0,11309 -0,00001 -0,05329 -0,01007 0,04159

17 0,06547 0,3645 -0,50202 -0,46241 0,01987 -0,06343 0,42345

18 0,00112 0,11297 -0,06503 -0,04661 0,02268 -0,01317 0,03313

19 0,00218 0,12692 -0,09068 -0,04924 0,05199 -0,04225 0,03385

20 0,00449 0,03257 0,13083 0,08533 -0,0105 0,00515 -0,0666


(43)

Nilai ^

β = 29,1608

1 2

) ( =

h=o

i i

r

Melalui proses iterasi maka didapat persamaan dengan LTS adalah : ^

Y= -37,652 + 798X1 + 0,577X2 – 0,067X3

3.2.5 Mencari Residu Robust dan Jarak Robust

Titik Leverage dapat dideteksi dengan menggunakan jarak robust yaitu 1

( i) ( i ( ))T ( ) ( i ( ))

RD X− =  X T XC XX T X

Tabel 3.13. Residu Robust dan Jarak Robust No. ri / s

(2.50)

RDi

(2.500)

1 7,70 3,289

2 3,74 1,596

3 7,14 3,047

4 7,64 3,265

5 0,28 0,617

6 0,00 0,821

7 0,51 1,000

8 1,30 0,892

9 -0,11 0,860

10 0,51 1,275

11 0,51 0,842

12 0,00 1,044

13 -1,87 1,018

14 -1,36 0,902

15 0,28 0,990

16 -0,51 0,700

17 0,00 2,137

18 0,00 1,146

19 0,51 0,941

20 1,87 0,806


(44)

Dalam Diagram titik dapat dilihat :

Gambar 3.6. Diagram Titik Residu Robust dan Jarak Robust

Dari gambar diagram diatas dapat dilihat residu robust dan jarak robust tidak begitu berbeda, yang mencolok hanyalah pada data ke 1,3,4 dan 21. Maka dapat ditarik kesimpulan data stacloss mengandung outlier pada data ke 1,3,4 dan 21.

3.3 Perhitungan dengan SPSS Regresi Linier

Model Summary(b)

Mod

el R

R Square

Adjusted R Square

Std. Error of the Estimate

Change Statistics R

Square Change

F

Change df1 df2

Sig. F Change 1 ,640(a) ,410 ,379 11,023 ,410 13,202 1 19 ,002

a Predictors: (Constant), Age in months b Dependent Variable: Gesell Adaptive Score

ANOVA(b)

Model

Sum of

Squares df Mean Square F Sig. 1 Regression 1604,081 1 1604,081 13,202 ,002(a)

Residual 2308,586 19 121,505

Total 3912,667 20

a Predictors: (Constant), Age in months b Dependent Variable: Gesell Adaptive Score

-8 -6 -4 -2 0 2 4 6 8 10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Series1 Series2


(45)

Coefficients(a)

Model Unstandardized Coefficients Standardized Coefficients Sig.

B Beta t

1 (Constant) 109,874 5,068 21,681 ,000

Age in months -1,127 ,310 -,640 -3,633 ,002 a Dependent Variable: Gesell Adaptive Score

Dari output spsss di atas dapat dilihat nilai R2 adalah 0,64 Persamaan Regresinya adalah

^

Y = 109,874 – 1,127X

Sedangkan nilai-nilai residu nya juga dapat dilihat sebagai berikut :

Casewise Diagnostics(a)

Case Number Std. Residual

Gesell Adaptive

Score

Predicted

Value Residual

1 ,184 95 92,97 2,031

2 -,868 71 80,57 -9,572

3 -1,416 83 98,60 -15,604

4 -,792 91 99,73 -8,731

5 ,819 102 92,97 9,031

6 -,030 87 87,33 -,334

7 ,310 93 89,59 3,412

8 ,229 100 97,48 2,523

9 ,285 104 100,86 3,142

10 ,605 94 87,33 6,666

11 ,999 113 101,98 11,015

12 -,338 96 99,73 -3,731

13 -1,416 83 98,60 -15,604

14 -1,223 84 97,48 -13,477

15 ,410 102 97,48 4,523

16 ,127 100 98,60 1,396

17 ,785 105 96,35 8,650

18 -,503 57 62,54 -5,540

19 2,747 121 90,72 30,285

20 -1,041 86 97,48 -11,477

21 ,127 100 98,60 1,396

a Dependent Variable: Gesell Adaptive Score

Dari hasil nilai residu di atas dapat dilihat nilai residu yang besar terdapat pada data ke 3,11,13,14, 19 dan 20. Dapat diartikan data First Word-Gessel Adaptive Score diatas mengandung pencilan sehingga menyebabkan nilai residu yang besar.

Selanjutnya dengan melihat nilai Cook’s Distance, DfFITS, DfBETA(s) dan Leverage maka data ke 2 dan 18 dapat dikeluarkan karena diduga adalah outlier, maka kita kembali ke proses regresi sebagai berikut :


(46)

Model Summary

Model R R Square

Adjusted R Square

Std. Error of the Estimate

Change Statistics R Square

Change

F

Change df1 df2

Sig. F Change 1 ,034(a) ,001 -,058 10,480 ,001 ,020 1 17 ,890

a Predictors: (Constant), Age in months

ANOVA(b)

Model

Sum of

Squares Df Mean Square F Sig. 1 Regression 2,154 1 2,154 ,020 ,890(a)

Residual 1867,004 17 109,824 Total 1869,158 18

a Predictors: (Constant), Age in months b Dependent Variable: Gesell Adaptive Score

Coefficients(a)

Model

Unstandardized

Coefficients Standardized Coefficients Sig.

B Beta t

1 (Constant) 97,862 8,026 12,193 ,000

Age in

months -,087 ,622 -,034 -,140 ,890

a Dependent Variable: Gesell Adaptive Score

Setelah outlier dikeluarkan, maka dari output spsss diatas dapat dilihat nilai R2 adalah 0, 01. Persamaan Regresinya adalah Y 97,862 0,87X

^

− =


(47)

Regresi Linier Berganda

Dengan menggunakan spss didapat hasil sebagai berikut :

Model Summary(b)

Mod

el R

R Square

Adjusted R Square

Std. Error of the Estimate

Change Statistics R

Square Change

F

Change df1 df2

Sig. F Change 1 ,956(a) ,914 ,898 3,243 ,914 59,902 3 17 ,000

a Predictors: (Constant), Acid Concentration, Cooling water inlet temperature, Air flow to the plant b Dependent Variable: The permillage of ammonia lost

ANOVA(b)

Model

Sum of

Squares df Mean Square F Sig. 1 Regression 1890,408 3 630,136 59,902 ,000(a)

Residual 178,830 17 10,519 Total 2069,238 20

a Predictors: (Constant), Acid Concentration, Cooling water inlet temperature, Air flow to the plant b Dependent Variable: The permillage of ammonia lost

Coefficients(a)

Model Unstandardized Coefficients

Standardized

Coefficients t Sig. B Std. Error Beta

1 (Constant) -39,920 11,896 -3,356 ,004 Air flow to the

plant ,716 ,135 ,645 5,307 ,000

Cooling water inlet

temperature

1,295 ,368 ,403 3,520 ,003 Acid

Concentration -,152 ,156 -,080 -,973 ,344 a Dependent Variable: The permillage of ammonia lost

Dari output spsss diatas dapat dilihat nilai R2 adalah 0,914. Persamaan Regresinya adalah y = -39,920 + 0,716x1 + 1,295x2 – 0,152x3


(48)

Casewise Diagnostics(a)

Case Number Std. Residual

The permillage of ammonia

lost

Predicted

Value Residual

1 ,997 42 38,77 3,235

2 -,591 37 38,92 -1,917

3 1,405 37 32,44 4,556

4 1,757 28 22,30 5,698

5 -,528 18 19,71 -1,712 6 -,927 18 21,01 -3,007 7 -,737 19 21,39 -2,389 8 -,428 20 21,39 -1,389 9 -,969 15 18,14 -3,144

10 ,391 14 12,73 1,267

11 ,813 14 11,36 2,636

12 ,857 13 10,22 2,779

13 -,440 11 12,43 -1,429

14 -,016 12 12,05 -,050

15 ,728 8 5,64 2,361

16 ,279 7 6,09 ,905

17 -,469 8 9,52 -1,520

18 -,140 8 8,46 -,455

19 -,184 9 9,60 -,598

20 ,435 15 13,59 1,412

21 -2,232 15 22,24 -7,238 a Dependent Variable: The permillage of ammonia lost

Dari hasil nilai residu di atas dapat dilihat nilai residu yang besar terdapat pada data ke 1, 3, 4, 6, 9 dan 21. Dapat diartikan data stackloss diatas mengandung pencilan sehingga menyebabkan nilai residu yang besar.

Selanjutnya dengan melihat nilai Cook’s Distance, DfFITS, DfBETA(s) dan Leverage maka data ke 1,3,4, dan 21 dapat dikeluarkan karena diduga adalah outlier, maka kita kembali ke proses regresi sebagai berikut :

Model Summary(b)

Model R R Square

Adjusted R Square

Std. Error of the Estimate 1 ,987(a) ,975 ,969 1,253

a Predictors: (Constant), Acid Concentration, Cooling water inlet temperature, Air flow to the plant b Dependent Variable: The permillage of ammonia lost

ANOVA(b)

Model

Sum of

Squares df Mean Square F Sig. 1 Regression 795,834 3 265,278 169,043 ,000(a)

Residual 20,401 13 1,569 Total 816,235 16

a Predictors: (Constant), Acid Concentration, Cooling water inlet temperature, Air flow to the plant b Dependent Variable: The permillage of ammonia lost


(49)

Coefficients(a)

a Dependent Variable: The permillage of ammonia lost

Setelah outlier dikeluarkan maka dari output spsss di atas dapat dilihat nilai R2 adalah 0,987. Persamaan Regresinya adalah :

y = -37,652 + 0,798x1 + 0,577x2 – 0,067x3

Model

Unstandardized

Coefficients Standardized Coefficients t Sig. B Std. Error Beta

1 (Constant) -37,652 4,732 -7,957 ,000

Air flow to the plant ,798 ,067 ,824 11,828 ,000 Cooling water inlet

temperature ,577 ,166 ,232 3,479 ,004


(50)

BAB 4

KESIMPULAN DAN SARAN

4.1. Kesimpulan

Pengamatan yang dikategorikan sebagai pencilan mempunyai nilai residu yang relatif besar untuk ukuran residu pada ketetapan pengamatan. Diasumsikan bahwa hubungan anatara dua variabel x dan y diperkirakan dengan garis lurus. Model regresi formalnya adalahyi = +β β0 1xi+ +... εi

Pencilan dapat dideteksi dengan metode grafis, Boxplot, atau LeverageValues, DfFITS, Cook’s Distance, dan DfBETA(s). Pencilan dapat ditanggulangidengan membuang observasi ke-i yang dianggap pencilan. Adapun alternatiflainnya adalah menggunakan metode Least Trimmed Square dalam penaksiranmodel regresi, yang biasanya menggunakan OLS.

4.2. Saran

Saran untuk penelitian selanjutnya adalah supaya peneliti lebih banyak mendapatkan bahan tentang pencilan, supaya mendapatkan lebihbanyak cara untuk mendeteksi dan menanggulangi pencilan pada data.


(51)

DAFTAR PUSTAKA

[1] Aunuddin. 1989. Analisa Data.Bandung. ITB.

[2] Chatterjee, Price.1977.Regression Analysis by Example.New York.John Willey & Sons.

[3] Frank R.Hampel, Elvezio M.Ronchetti, Peter J.Rousseeuw, Werner A.Shatel. 1986.Robust Statistics The Approach Based on Influence Functions.Canada. John Willey&Sons.

[4] Norman Draper, Harry Smith.1992.Analisis Regresi Terapan. diterjemahkan oleh Ir.Bambang Sumantri.Jakarta.Gramedia Pustaka Utama.

[5] Peter J.Rousseeuw. Annick M.Leroy.1987. Robust Regression And Outlier Detection.Canada.John Willey&Sons.

[6] Govindarajan Kothandaraman.2001.Robust Least Squares [7] John Fox. 2002. Robust Regression Appendix to An R and S-Plus Companion to

Applied Regression

[8] Khairi. 2008.Contoh Proposal AAT. IPB

[9] Notiragayu.Perbandingan Beberapa Metode Analisis Regresi Komponen Utama Robust. Universitas Lampung

[10] Sumartini.2007.Outliers. UNPAD [11] Wikipedia.Robust Regression

[12] Trihendradi, Cornelius. 2005.Step by Step SPSS 13 Analisis Data Statistik. Yogyakarta. Penerbit Andi


(1)

Model Summary

Model R R Square

Adjusted R Square

Std. Error of the Estimate

Change Statistics R Square

Change

F

Change df1 df2

Sig. F Change

1 ,034(a) ,001 -,058 10,480 ,001 ,020 1 17 ,890

a Predictors: (Constant), Age in months

ANOVA(b)

Model

Sum of

Squares Df Mean Square F Sig. 1 Regression 2,154 1 2,154 ,020 ,890(a)

Residual 1867,004 17 109,824 Total 1869,158 18

a Predictors: (Constant), Age in months b Dependent Variable: Gesell Adaptive Score

Coefficients(a)

Model

Unstandardized

Coefficients Standardized Coefficients Sig.

B Beta t

1 (Constant) 97,862 8,026 12,193 ,000

Age in

months -,087 ,622 -,034 -,140 ,890

a Dependent Variable: Gesell Adaptive Score

Setelah outlier dikeluarkan, maka dari output spsss diatas dapat dilihat

nilai R

2

adalah 0, 01. Persamaan Regresinya adalah

Y

97

,

862

0

,

87

X

^

=


(2)

Regresi Linier Berganda

Dengan menggunakan spss didapat hasil sebagai berikut :

Model Summary(b)

Mod

el R

R Square Adjusted R Square Std. Error of the Estimate Change Statistics R Square Change F

Change df1 df2

Sig. F Change 1 ,956(a) ,914 ,898 3,243 ,914 59,902 3 17 ,000

a Predictors: (Constant), Acid Concentration, Cooling water inlet temperature, Air flow to the plant b Dependent Variable: The permillage of ammonia lost

ANOVA(b)

Model

Sum of

Squares df Mean Square F Sig. 1 Regression 1890,408 3 630,136 59,902 ,000(a)

Residual 178,830 17 10,519 Total 2069,238 20

a Predictors: (Constant), Acid Concentration, Cooling water inlet temperature, Air flow to the plant b Dependent Variable: The permillage of ammonia lost

Coefficients(a)

Model Unstandardized Coefficients

Standardized

Coefficients t Sig. B Std. Error Beta

1 (Constant) -39,920 11,896 -3,356 ,004

Air flow to the

plant ,716 ,135 ,645 5,307 ,000

Cooling water inlet

temperature

1,295 ,368 ,403 3,520 ,003

Acid

Concentration -,152 ,156 -,080 -,973 ,344 a Dependent Variable: The permillage of ammonia lost

Dari output spsss diatas dapat dilihat nilai R

2

adalah 0,914. Persamaan

Regresinya adalah y = -39,920 + 0,716x

1

+ 1,295x

2

– 0,152x

3


(3)

Casewise Diagnostics(a)

Case Number Std. Residual

The permillage of ammonia

lost

Predicted

Value Residual

1 ,997 42 38,77 3,235

2 -,591 37 38,92 -1,917

3 1,405 37 32,44 4,556

4 1,757 28 22,30 5,698

5 -,528 18 19,71 -1,712

6 -,927 18 21,01 -3,007

7 -,737 19 21,39 -2,389

8 -,428 20 21,39 -1,389

9 -,969 15 18,14 -3,144

10 ,391 14 12,73 1,267

11 ,813 14 11,36 2,636

12 ,857 13 10,22 2,779

13 -,440 11 12,43 -1,429

14 -,016 12 12,05 -,050

15 ,728 8 5,64 2,361

16 ,279 7 6,09 ,905

17 -,469 8 9,52 -1,520

18 -,140 8 8,46 -,455

19 -,184 9 9,60 -,598

20 ,435 15 13,59 1,412

21 -2,232 15 22,24 -7,238

a Dependent Variable: The permillage of ammonia lost

Dari hasil nilai residu di atas dapat dilihat nilai residu yang besar

terdapat pada data ke 1, 3, 4, 6, 9 dan 21. Dapat diartikan data stackloss diatas

mengandung pencilan sehingga menyebabkan nilai residu yang besar.

Selanjutnya dengan melihat nilai Cook’s Distance, DfFITS, DfBETA(s) dan Leverage

maka data ke 1,3,4, dan 21 dapat dikeluarkan karena diduga adalah outlier, maka kita

kembali ke proses regresi sebagai berikut :

Model Summary(b)

Model R R Square

Adjusted R Square

Std. Error of the Estimate


(4)

Coefficients(a)

a Dependent Variable: The permillage of ammonia lost

Setelah outlier dikeluarkan maka dari output spsss di atas dapat dilihat

nilai R

2

adalah 0,987. Persamaan Regresinya adalah :

y = -37,652 + 0,798x

1

+ 0,577x

2

– 0,067x

3 Model

Unstandardized

Coefficients Standardized Coefficients t Sig. B Std. Error Beta

1 (Constant) -37,652 4,732 -7,957 ,000

Air flow to the plant ,798 ,067 ,824 11,828 ,000 Cooling water inlet

temperature ,577 ,166 ,232 3,479 ,004


(5)

BAB 4

KESIMPULAN DAN SARAN

4.1. Kesimpulan

Pengamatan yang dikategorikan sebagai pencilan mempunyai nilai residu yang relatif

besar untuk ukuran residu pada ketetapan pengamatan. Diasumsikan bahwa hubungan

anatara dua variabel x dan y diperkirakan dengan garis lurus. Model regresi formalnya

adalah

y

i

= +

β β

0 1

x

i

+ +

...

ε

i

Pencilan dapat dideteksi dengan metode grafis, Boxplot, atau LeverageValues,

DfFITS, Cook’s Distance, dan DfBETA(s). Pencilan dapat ditanggulangidengan membuang

observasi ke-i yang dianggap pencilan. Adapun alternatiflainnya adalah menggunakan metode

Least Trimmed Square dalam penaksiranmodel regresi, yang biasanya menggunakan OLS.

4.2. Saran

Saran untuk penelitian selanjutnya adalah supaya peneliti lebih banyak mendapatkan bahan

tentang pencilan, supaya mendapatkan lebihbanyak cara untuk mendeteksi dan

menanggulangi pencilan pada data.


(6)

DAFTAR PUSTAKA

[1] Aunuddin. 1989. Analisa Data.Bandung. ITB.

[2] Chatterjee, Price.1977.Regression Analysis by Example.New York.John Willey &

Sons.

[3] Frank R.Hampel, Elvezio M.Ronchetti, Peter J.Rousseeuw, Werner A.Shatel.

1986.Robust Statistics The Approach Based on Influence Functions.Canada.

John Willey&Sons.

[4] Norman Draper, Harry Smith.1992.Analisis Regresi Terapan. diterjemahkan oleh

Ir.Bambang Sumantri.Jakarta.Gramedia Pustaka Utama.

[5] Peter J.Rousseeuw. Annick M.Leroy.1987. Robust Regression And Outlier

Detection.Canada.John Willey&Sons.

[6] Govindarajan Kothandaraman.2001.Robust Least Squares

[7] John Fox. 2002. Robust Regression Appendix to An R and S-Plus Companion to

Applied Regression

[8] Khairi. 2008.Contoh Proposal AAT. IPB

[9] Notiragayu.Perbandingan Beberapa Metode Analisis Regresi Komponen Utama

Robust. Universitas Lampung

[10] Sumartini.2007.Outliers. UNPAD

[11] Wikipedia.Robust Regression

[12] Trihendradi, Cornelius. 2005.Step by Step SPSS 13 Analisis Data Statistik.

Yogyakarta. Penerbit Andi