Perbandingan Antara Estimasi M dengan Type Welsch dengan Least Trimmed Square untuk Mengatasi Adanya Data Pencilan
BAB 1
PENDAHULUAN
1.1 Latar Belakang Masalah
Regresi merupakan suatu metode statistika yang digunakan untuk menyelidiki
pola hubungan antara dua atau lebih variabel.Bentuk atau pola hubungan variabelvariabel tersebut dapat diidentifikasi berdasarkan scatter plot atau pengalaman
masa lalu yang memuat informasi tentang kurva regresi.
Tujuan dari analisis regresi adalah untuk mengestimasi parameter model
yang menyatakan pengaruh hubungan antara variabel prediktor dan variabel
respon. Metode estimasi yang banyak digunakan untuk mengestimasi parameter
model regresi adalah metode kuadrat terkecil (Ordinary Least Squares). Metode
ini mempunyai asumsi-asumsi yang beberapa diantaranya dalam penggunaan pada
data riil sering tidak dapat dipenuhi. Salah satu asumsi tersebut adalah mengenai
kenormalan residual ei yang sering dilanggar ketika adanya pengamatan yang
bersifat outlier.
Outlier tidak dapat dibuang atau dihapus begitu saja dari
pengamatan.Menurut Draper dan Smith (1992), adakalanya outlier
memberikan informasi yang tidak bisa diberikan oleh titik data lainnya, misalnya
karena outlier timbul dari kombinasi keadaan yang tidak biasa yang mungkin saja
sangat penting dan perlu diselidiki lebih jauh.
Penolakan begitu saja terhadap suatu pencilan bukanlah prosedur yang
bijaksana.Pencilan baru dapat ditolak setelah ditelusuri ternyata akibat dari
kesalahan kesalahan seperti kesalahan mencatat amatan bersangkutan atau
kesalahan ketika menyiapkan perlatan.Bila ternyata bukan akibat dari kesalahan
kesalahan itu perlu diadakan penyelidikan.
Universitas Sumatera Utara
Akibat dari adanya outlier, residual tidak lagi berdistribusi normal atau
variansi dari residualnya tidak lagi homogen.Model regresi yang baik memerlukan
data yang baik pula. Suatu data dikatakan baik apabila data tersebut berada di
sekitar garis regresi. OLS bukan merupakan prosedur regresi yang robust terhadap
adanya outlier,karena estimasinya menjadi tidak sesuai meskipun hanya dengan
kehadiran satu outlier dalam data (Rousseeuw dan Leroy, 1987). Sehingga untuk
mengatasi hal tersebut, dibutuhkan suatu estimator robust yang mempunyai
kemampuan mendeteksi outlier sekaligus menyesuaikan taksiran parameter
regresi.
Ada beberapa metode dalam regresi robust yang dapat digunakan untuk
menangani data pencilan,yaitu Estimasi M dengan Type Welsch dan Least
Trimmed Square.Karena itu penulis tertarik untuk membandingkan kedua estimasi
tersebut untuk mendapatkan estimasi yang lebih baik untuk menangani data
pencilan tersebut dengan judul
“STUDI PERBANDINGAN ANTARA ESTIMASI M DENGAN TYPE
WELSCH DENGAN LEAST TRIMMED SQUARE DALAM REGRESI
ROBUST UNTUK MENGATASI ADANYA DATA PENCILAN “
1.2 Rumusan Masalah
Permasalahan yang dibahas disini adalah mengatasi adanya outlier (data
pencilan) dalam regresi linier berganda menggunakan regresi robust yaitu dengan
estimasi M type welsch dan least trimmed square dengan terlebih dahulu
mendeteksi adanya data pencilan.
1.3 Tujuan Penelitian
Penelitian ini bertujuan membandingkan dua estimasi regresi robust dalam
mengatasi adanya data pencilan untuk mendapatkan estimasi yang terbaik
berdasarkan nilai R2 (koefisien determinasi)
Universitas Sumatera Utara
1.4 Batasan Masalah
Adapun batasan masalah dalam skripsi saya ini adalah
1.
Adapun data yang diambil penulis dalam skripsi ini ialah data bangkitan
yang terdiri dari 28 buah data.
2.
Metode yang dipakai penulis dalam mengatsi data pencilan ini adalah regersi
robust dengan estimasi M type Welsch dan Least Trimmed Square
3.
Pengolahan data dengan menggunakan software SPSS dan Matlab.
1.5 Kontribusi Penelitian
1.Mendapatkan informasi mengenai cara mendeteksi outlier
2.Membandingkan estimasi M type Welsch dengan Least Trimmed Square
1.6 Tinjauan Pustaka
Secara umum analisis regresi digunakan untuk melihat hubungan antara variabel
terikat dengan satu atau lebih variabel bebas. Model yang dihasilkan
menggunakan analisis regresi adalah model regresi.
Model regresi linear dapat dinyatakan sebagai berikut:
Ŷ = β x + β x + ... + β x + ε
n n
1 1
2 2
Metode kuadrat terkecil memerlukan beberapa asumsi yang harus
dipenuhi oleh komponen ε i , yaitu memenuhi asumsi kenormalan, kehomogenan
ragam, dan keacakan (tidak memiliki autokorelasi).Jika semua asumsi itu
terpenuhi, maka penduga hasil Metode Kuadrat Terkecil pada model regresi
merupakan penduga yang bersifat BLUE (Best Linier Unlinier Estimasi) (Myers
1990). Prinsip dasar dari Metode Kuadrat Terkecil adalah meminimumkan
jumlah kuadrat sisaan (selisih antara data sebenarnya dengan data dugaan) dari
model regresi yang terbentuk.
Pencilan (Outlier) adalah data yang tidak mengikuti pola umum dalam
model regresi yang dihasilkan, atau tidak mengikuti pola data secara
keseluruhan.Apabila dalam data amatan terdapat data pencilan, maka alternatif
langkah yang dibuat adalah menghilangkan ataupun membuang data pencilan
Universitas Sumatera Utara
secara langsung terlebih dahulu sebelum dilakukan analisis lanjutan.Data pencilan
dapat dibuang jika data diperoleh dari kesalahan teknis seperti kesalahan
mencatat amatan atau kesalahan menyiapakan peralatan.
Jika terdapat masalah yang berkaitan dengan outlier , maka diperlukan alat
diagnosis yang dapat mengidentifikasi masalah outlier, salah satunya dengan
menyisihkan outlier dari kelompok data kemudian menganalisis data tanpa
outlier.
Terdapat beberapa metode untuk menentukan batasan pencilan dalam sebuah
analisis:
1.6.1.Boxplot
Identifikasi outlier dapat menggunakan metode grafis. Metode ini merupakan
yang paling umum yakni dengan mempergunakan kuartil dan jangkauan. Kuartil
1, 2, dan 3 akan membagi sebuah urutan data menjadi empat bagian. Jangkauan
(IQR, Interquartile Range) didefinisikan sebagai selisih kuartil 1 terhadap kuartil
3, atau IQR Q3 Q1
Data-data pencilan dapat ditentukan yaitu nilai yang kurang dari 1.5*IQR
terhadap kuartil 1 dan nilai yang lebih dari 1.5*IQR terhadap kuartil 3.
1.6.2.Leverage values,DfFITS,Cook Distance dan DfBeta(s)
Kriteria pengambilan keputusan ada atau tidaknya pencilan adalah
Jika
Leverage Values
>(2p-1)/n
DfFITS
>2*sqrt(p/n)
Cook Distance
F(0,5;p;n-p)
DfBeta(s)
2/sqrt(n)
Pencilan (outlier)
Universitas Sumatera Utara
Estimasi parameter menggunakan jumlah kuadrat terkecil menjadi kurang
baik apabila distribusi residual-nya tidak normal dan mengandung outlier.Salah
satu solusinya adalah menggunakan regresi robust. Metode regresi robust yang
paling sering digunakan adalah estimasi M, yang diperkenalkan oleh Huber pada
tahun 1973 (Chen, 2002).
Menurut Fox (2002), pada umumnya estimasi M meminimalisasi fungsi
obyektif dengan persamaan:
n
n
n
ρ (ei ) ρ (Yi Xb) .Persamaan estimasinya adalah
ψ (Y
i 1
i 1
i 1
i
Xb) X T 0
dengan ψ ρ dan ψ merupakan fungsi influence yang digunakan untuk
memperoleh bobot.Lalu, residua- nya distandarisasi, sehingga persamaan
menjadi
n
ψ (Yi Xb) / σˆ ) X T 0. Nilai σˆ
i 1
MAR
dengan MAR merupaka Median
0,6745
Absolute Residual.
Menurut Ryan, metode ini merupakan metode analisis yang memiliki sifat:
1. Sama baiknya dengan MKT ketika semua asumsi terpenuhi dan tidak
terdapat titik data
yang berpengaruh.
2. Dapat menghasilkan model regresi yang lebih baik daripada MKT ketika
asumsi tidak dipenuhi dan terdapat titik data yang berpengaruh.
3. Perhitungannya cukup sederhana dan mudah dimengerti, tetapi dilakukan
secara iteratif sampai diperoleh dugaan terbaik yang memiliki standar error
parameter yang paling kecil.
Estimasi M dengan type Welsch adalah penduga parameter menghasilkan
model yang lebih baik dari model hasil Metode Kuadrat Terkecil (MKT) yang
didasarkan atas kriteria R2
Universitas Sumatera Utara
Adapun algoritma penyelesain dari Estimasi M dengan Type Welsch adalah:
1. Menentukan data
2. Mengestimasi parameter model regresi menggunakan metode kuadrat
terkecil sehingga didapatkan yˆ i ,o dan menghitug ε i , 0 y i yˆ i , 0
3.Menentukan σ̂ 0 dan pembobot awal
w i,0
ψ(ε *i,0 )
i
i,0
(ε )
.Dengan ε i*, 0
ε i ,0
.Nilai
σˆ 0
1 n
1[Yi Yˆi ]
MAR
n
σ̂ 0 diperoleh dengan menggunakan rumus σˆ 0
untuk
0,6745
0,6745
masing-masing iterasi t.
4.Berdasarkan tabel diatas diperoleh ψ(ε *i,0 ) (ε *i,0 ) exp( (ε *i,0 / c ) 2 ) .
5.Mencari estimasi pada masing-masing iterasi dengan weighted least square
yaitu (XTWt-1X)-1XTWt-1Y
6.Tahap (3) dan (4) diulang sampai diperoleh estimasi parameter model yang
konvergen, artinya selisih hasil iterasi t dengan t-1 bernilai 0.
7. Perhitungan dilakukan menggunakan komputer
R2 adalah suatu indikator yang menggambarkan berapa banyak variasi yang
dijelaskan dalam model.
Didefinisikan sebagai:
b1 x1 y b2 x 2 y b3 x 3 y
2
R
y
2
Least Trimmed Square adalah salah satu alternatif terhadap penduga least
penduga least square yang bersifat robust adalah pendugaan dengan kriteria
meminimumkan.
Tahapan algoritma Least Trimmed Square adalah
1. Menghitung estimasi parameter b0
2.Menentukan n residual ri 2 ( yˆ i X i bo ) 2 yang bersesuain dengan (bo )
kemudian
menghitung sejumlah h0 (n p 1) / 2 pengamatan dengan nilai e(i2 ) terkecil.
Universitas Sumatera Utara
h0
3. Menghitung
r
2
(i )
i 1
4. Melakukan estimasi parameter bnew dari h0 pengamatan.
5.Menentukan n kuadrat residual ri 2 ( yˆ X i bnew ) 2 yang bersesuain dengan (bnew)
kemudian menghitung sejumlah hnew pengamatan dengan e(i2 ) terkecil.
hnew
6. Menghitung
r
2
(i )
i 1
7.Melakukan C-steps yaitu tahap 4 sampai 6 untuk mendapatkan fungsi objektif
yang kecil dan konvergen.
Universitas Sumatera Utara
PENDAHULUAN
1.1 Latar Belakang Masalah
Regresi merupakan suatu metode statistika yang digunakan untuk menyelidiki
pola hubungan antara dua atau lebih variabel.Bentuk atau pola hubungan variabelvariabel tersebut dapat diidentifikasi berdasarkan scatter plot atau pengalaman
masa lalu yang memuat informasi tentang kurva regresi.
Tujuan dari analisis regresi adalah untuk mengestimasi parameter model
yang menyatakan pengaruh hubungan antara variabel prediktor dan variabel
respon. Metode estimasi yang banyak digunakan untuk mengestimasi parameter
model regresi adalah metode kuadrat terkecil (Ordinary Least Squares). Metode
ini mempunyai asumsi-asumsi yang beberapa diantaranya dalam penggunaan pada
data riil sering tidak dapat dipenuhi. Salah satu asumsi tersebut adalah mengenai
kenormalan residual ei yang sering dilanggar ketika adanya pengamatan yang
bersifat outlier.
Outlier tidak dapat dibuang atau dihapus begitu saja dari
pengamatan.Menurut Draper dan Smith (1992), adakalanya outlier
memberikan informasi yang tidak bisa diberikan oleh titik data lainnya, misalnya
karena outlier timbul dari kombinasi keadaan yang tidak biasa yang mungkin saja
sangat penting dan perlu diselidiki lebih jauh.
Penolakan begitu saja terhadap suatu pencilan bukanlah prosedur yang
bijaksana.Pencilan baru dapat ditolak setelah ditelusuri ternyata akibat dari
kesalahan kesalahan seperti kesalahan mencatat amatan bersangkutan atau
kesalahan ketika menyiapkan perlatan.Bila ternyata bukan akibat dari kesalahan
kesalahan itu perlu diadakan penyelidikan.
Universitas Sumatera Utara
Akibat dari adanya outlier, residual tidak lagi berdistribusi normal atau
variansi dari residualnya tidak lagi homogen.Model regresi yang baik memerlukan
data yang baik pula. Suatu data dikatakan baik apabila data tersebut berada di
sekitar garis regresi. OLS bukan merupakan prosedur regresi yang robust terhadap
adanya outlier,karena estimasinya menjadi tidak sesuai meskipun hanya dengan
kehadiran satu outlier dalam data (Rousseeuw dan Leroy, 1987). Sehingga untuk
mengatasi hal tersebut, dibutuhkan suatu estimator robust yang mempunyai
kemampuan mendeteksi outlier sekaligus menyesuaikan taksiran parameter
regresi.
Ada beberapa metode dalam regresi robust yang dapat digunakan untuk
menangani data pencilan,yaitu Estimasi M dengan Type Welsch dan Least
Trimmed Square.Karena itu penulis tertarik untuk membandingkan kedua estimasi
tersebut untuk mendapatkan estimasi yang lebih baik untuk menangani data
pencilan tersebut dengan judul
“STUDI PERBANDINGAN ANTARA ESTIMASI M DENGAN TYPE
WELSCH DENGAN LEAST TRIMMED SQUARE DALAM REGRESI
ROBUST UNTUK MENGATASI ADANYA DATA PENCILAN “
1.2 Rumusan Masalah
Permasalahan yang dibahas disini adalah mengatasi adanya outlier (data
pencilan) dalam regresi linier berganda menggunakan regresi robust yaitu dengan
estimasi M type welsch dan least trimmed square dengan terlebih dahulu
mendeteksi adanya data pencilan.
1.3 Tujuan Penelitian
Penelitian ini bertujuan membandingkan dua estimasi regresi robust dalam
mengatasi adanya data pencilan untuk mendapatkan estimasi yang terbaik
berdasarkan nilai R2 (koefisien determinasi)
Universitas Sumatera Utara
1.4 Batasan Masalah
Adapun batasan masalah dalam skripsi saya ini adalah
1.
Adapun data yang diambil penulis dalam skripsi ini ialah data bangkitan
yang terdiri dari 28 buah data.
2.
Metode yang dipakai penulis dalam mengatsi data pencilan ini adalah regersi
robust dengan estimasi M type Welsch dan Least Trimmed Square
3.
Pengolahan data dengan menggunakan software SPSS dan Matlab.
1.5 Kontribusi Penelitian
1.Mendapatkan informasi mengenai cara mendeteksi outlier
2.Membandingkan estimasi M type Welsch dengan Least Trimmed Square
1.6 Tinjauan Pustaka
Secara umum analisis regresi digunakan untuk melihat hubungan antara variabel
terikat dengan satu atau lebih variabel bebas. Model yang dihasilkan
menggunakan analisis regresi adalah model regresi.
Model regresi linear dapat dinyatakan sebagai berikut:
Ŷ = β x + β x + ... + β x + ε
n n
1 1
2 2
Metode kuadrat terkecil memerlukan beberapa asumsi yang harus
dipenuhi oleh komponen ε i , yaitu memenuhi asumsi kenormalan, kehomogenan
ragam, dan keacakan (tidak memiliki autokorelasi).Jika semua asumsi itu
terpenuhi, maka penduga hasil Metode Kuadrat Terkecil pada model regresi
merupakan penduga yang bersifat BLUE (Best Linier Unlinier Estimasi) (Myers
1990). Prinsip dasar dari Metode Kuadrat Terkecil adalah meminimumkan
jumlah kuadrat sisaan (selisih antara data sebenarnya dengan data dugaan) dari
model regresi yang terbentuk.
Pencilan (Outlier) adalah data yang tidak mengikuti pola umum dalam
model regresi yang dihasilkan, atau tidak mengikuti pola data secara
keseluruhan.Apabila dalam data amatan terdapat data pencilan, maka alternatif
langkah yang dibuat adalah menghilangkan ataupun membuang data pencilan
Universitas Sumatera Utara
secara langsung terlebih dahulu sebelum dilakukan analisis lanjutan.Data pencilan
dapat dibuang jika data diperoleh dari kesalahan teknis seperti kesalahan
mencatat amatan atau kesalahan menyiapakan peralatan.
Jika terdapat masalah yang berkaitan dengan outlier , maka diperlukan alat
diagnosis yang dapat mengidentifikasi masalah outlier, salah satunya dengan
menyisihkan outlier dari kelompok data kemudian menganalisis data tanpa
outlier.
Terdapat beberapa metode untuk menentukan batasan pencilan dalam sebuah
analisis:
1.6.1.Boxplot
Identifikasi outlier dapat menggunakan metode grafis. Metode ini merupakan
yang paling umum yakni dengan mempergunakan kuartil dan jangkauan. Kuartil
1, 2, dan 3 akan membagi sebuah urutan data menjadi empat bagian. Jangkauan
(IQR, Interquartile Range) didefinisikan sebagai selisih kuartil 1 terhadap kuartil
3, atau IQR Q3 Q1
Data-data pencilan dapat ditentukan yaitu nilai yang kurang dari 1.5*IQR
terhadap kuartil 1 dan nilai yang lebih dari 1.5*IQR terhadap kuartil 3.
1.6.2.Leverage values,DfFITS,Cook Distance dan DfBeta(s)
Kriteria pengambilan keputusan ada atau tidaknya pencilan adalah
Jika
Leverage Values
>(2p-1)/n
DfFITS
>2*sqrt(p/n)
Cook Distance
F(0,5;p;n-p)
DfBeta(s)
2/sqrt(n)
Pencilan (outlier)
Universitas Sumatera Utara
Estimasi parameter menggunakan jumlah kuadrat terkecil menjadi kurang
baik apabila distribusi residual-nya tidak normal dan mengandung outlier.Salah
satu solusinya adalah menggunakan regresi robust. Metode regresi robust yang
paling sering digunakan adalah estimasi M, yang diperkenalkan oleh Huber pada
tahun 1973 (Chen, 2002).
Menurut Fox (2002), pada umumnya estimasi M meminimalisasi fungsi
obyektif dengan persamaan:
n
n
n
ρ (ei ) ρ (Yi Xb) .Persamaan estimasinya adalah
ψ (Y
i 1
i 1
i 1
i
Xb) X T 0
dengan ψ ρ dan ψ merupakan fungsi influence yang digunakan untuk
memperoleh bobot.Lalu, residua- nya distandarisasi, sehingga persamaan
menjadi
n
ψ (Yi Xb) / σˆ ) X T 0. Nilai σˆ
i 1
MAR
dengan MAR merupaka Median
0,6745
Absolute Residual.
Menurut Ryan, metode ini merupakan metode analisis yang memiliki sifat:
1. Sama baiknya dengan MKT ketika semua asumsi terpenuhi dan tidak
terdapat titik data
yang berpengaruh.
2. Dapat menghasilkan model regresi yang lebih baik daripada MKT ketika
asumsi tidak dipenuhi dan terdapat titik data yang berpengaruh.
3. Perhitungannya cukup sederhana dan mudah dimengerti, tetapi dilakukan
secara iteratif sampai diperoleh dugaan terbaik yang memiliki standar error
parameter yang paling kecil.
Estimasi M dengan type Welsch adalah penduga parameter menghasilkan
model yang lebih baik dari model hasil Metode Kuadrat Terkecil (MKT) yang
didasarkan atas kriteria R2
Universitas Sumatera Utara
Adapun algoritma penyelesain dari Estimasi M dengan Type Welsch adalah:
1. Menentukan data
2. Mengestimasi parameter model regresi menggunakan metode kuadrat
terkecil sehingga didapatkan yˆ i ,o dan menghitug ε i , 0 y i yˆ i , 0
3.Menentukan σ̂ 0 dan pembobot awal
w i,0
ψ(ε *i,0 )
i
i,0
(ε )
.Dengan ε i*, 0
ε i ,0
.Nilai
σˆ 0
1 n
1[Yi Yˆi ]
MAR
n
σ̂ 0 diperoleh dengan menggunakan rumus σˆ 0
untuk
0,6745
0,6745
masing-masing iterasi t.
4.Berdasarkan tabel diatas diperoleh ψ(ε *i,0 ) (ε *i,0 ) exp( (ε *i,0 / c ) 2 ) .
5.Mencari estimasi pada masing-masing iterasi dengan weighted least square
yaitu (XTWt-1X)-1XTWt-1Y
6.Tahap (3) dan (4) diulang sampai diperoleh estimasi parameter model yang
konvergen, artinya selisih hasil iterasi t dengan t-1 bernilai 0.
7. Perhitungan dilakukan menggunakan komputer
R2 adalah suatu indikator yang menggambarkan berapa banyak variasi yang
dijelaskan dalam model.
Didefinisikan sebagai:
b1 x1 y b2 x 2 y b3 x 3 y
2
R
y
2
Least Trimmed Square adalah salah satu alternatif terhadap penduga least
penduga least square yang bersifat robust adalah pendugaan dengan kriteria
meminimumkan.
Tahapan algoritma Least Trimmed Square adalah
1. Menghitung estimasi parameter b0
2.Menentukan n residual ri 2 ( yˆ i X i bo ) 2 yang bersesuain dengan (bo )
kemudian
menghitung sejumlah h0 (n p 1) / 2 pengamatan dengan nilai e(i2 ) terkecil.
Universitas Sumatera Utara
h0
3. Menghitung
r
2
(i )
i 1
4. Melakukan estimasi parameter bnew dari h0 pengamatan.
5.Menentukan n kuadrat residual ri 2 ( yˆ X i bnew ) 2 yang bersesuain dengan (bnew)
kemudian menghitung sejumlah hnew pengamatan dengan e(i2 ) terkecil.
hnew
6. Menghitung
r
2
(i )
i 1
7.Melakukan C-steps yaitu tahap 4 sampai 6 untuk mendapatkan fungsi objektif
yang kecil dan konvergen.
Universitas Sumatera Utara