6
BAB II LANDASAN TEORI
2.1 Model Persamaan Regresi Linear
Analisis regresi merupakan suatu proses pencarian model matematika terbaik yang cocok dengan data yang menghubungkan variabel dependen juga
biasa disebut respon dengan variabel independen prediktor. Bentuk umum model regresi linear adalah:
y
E y
2.1
Dengan, y = variabel dependen
y E
= ekspektasi dari y. = random error.
Model regresi di atas tidak mempertimbangkan sejumlah variabel independen x yang berkorelasi sangat kuat dengan variabel dependen y,
dengan menggunakan variabel independen maka keakuratan dalam mengestiamsi
y E
dapat diperoleh. Sehingga
y E
dapat diestimasi dengan bentuk persamaan linear, yaitu:
x y
E
1
2.2
Dengan model probabilistik, Persamaan 2.2 di atas ditulis dengan:
7
x
y
1
2.3 Persamaan 2.3 di atas disebut Model Linear Orde-Pertama atau Model
Linear Sederhana, karena hanya terdapat satu variabel independen dengan : y = variabel dependen.
x = variabel independen.
y E
= x
1
= komponen deterministik. = intercept pada sumbu y, titik potong dengan sumbu y.
1
= kemiringan dari garis regresi, yaitu sejumlah kenaikan atau penurunan dari mean y untuk setiap kenaikan atau penurunan 1-unit x.
= komponen random error.
Jika terdapat variabel independen lebih dari satu, maka modelnya disebut Model Regresi Linear Berganda atau Model Regresi Linear Umum dengan
persamaan modelnya sebagai berikut :
k k
x x
x y
.....
2 2
1
2.4 Pada Persamaan-persamaan di atas 2.3 dan 2.4 terdapat komponen
random error . Distribusi dari menentukan seberapa ”bagusnya” model yang
1 2
3 4
1 2
3 4
1
x y
E
1
x y
Gambar 2.1 Model Regresi Linear Sederhana
8 menggambarkan hubungan sebenarnya antara variabel dependen y dan variabel
independen x. Ada empat asumsi yang menyangkut distribusi dari , yaitu [1] :
1.Mean distribusi probabilitas dari adalah 0. Artinya rata-rata error
pada percobaan yang dilakukan secara tak hingga adalah 0 untuk setiap pengambilan variabel independen. Asusmsi ini mengakibatkan nilai mean dari y,
untuk setiap nilai x yang diberikan adalah
x y
E
1
.
2.Variansi distribusi probabilitas dari adalah konstan untuk setiap
pengambilan variabel independen. 3.Distribusi probabilitas dari
berdistribusi normal. 4.Error dari setiap dua observasi adalah independen. Artinya error dari
salah satu nilai y tidak memberikan pengaruh terhadap error dari nilai y yang lain. Dari persamaan-persamaan di atas nilai koefisien yaitu
dan
i
untuk i = 1 sampai dengan k tidak diketahui karena merupakan nilai parameter. Oleh
karena itu, dibutuhkan data sampel untuk mengestimasi koefisien-koefisien tersebut.
Misalkan
k
Y Y
Y ,....,
,
2 1
merupakan variabel random berdistribusi normal dengan mean masing-masing
i
x y
E
, dengan i = 1, 2, ....,k, dan variansi yang tidak diketahui
2
Misalkan akan dicari model regresi linear sederhana. Fungsi likelihood dari variabel random
k
Y Y
Y ,....,
,
2 1
adalah:
k i
i i
k k
i i
i
x y
x y
L
1 2
1 2
2 2
1 2
2 1
2 2
1
2 1
exp 2
1 2
exp 2
1 ,
,
9 Untuk memaksimumkan fungsi
2 1
, ,
L
, atau ekuivalen dengan meminimumkan:
2 1
2 1
2 2
1
2 2
ln 2
, ,
ln
k i
i i
x y
k L
, harus dipilih
dan
1
dengan meminimumkan:
k i
i i
x y
H
1 2
1 1
,
Karena
y E
y x
y
i i
i
1
merupakan jarak vertikal dari titik
i i
y x ,
terhadap garis
y E
y
. Oleh karena itu,
1
,
H
merepresentasikan jumlah kuadrat tersebut. Dengan memilih
dan
1
sedemikian hingga jumlah kuadrat dari jarak tersebut minimum dengan seperti itu artinya garis lurus
y E
y
mem-fitting data. Oleh karena itu, metode ini disebut Metode Least square [1].
Untuk meminimumkan
1
,
H
, harus dicari
,
1
H
dan
,
1 1
H
,
1 1
x y
E
i i
y x ,
y E
y
i
Gambar 2.2 Garis Least Square
10
x y
k x
y x
k y
x y
H
k i
i k
i i
k i
i k
i i
k i
i i
1 1
1 1
1 1
1 1
1
ˆ 1
2 ,
Jadi dari penurunan diatas di dapat x
y
1
ˆ ˆ
, notasi ˆ merupakan
notasi estimator untuk nilai parameter , sedangkan untuk nilai
1
ˆ adalah sebagai berikut:
k i
i k
i i
i k
i i
i k
i i
k i
i k
i i
k i
i i
k i
i k
i i
k i
k i
i i
i k
i i
k i
i k
i k
i i
i i
k i
i i
i i
k i
i i
i
x k
x y
x k
y x
y x
k y
x x
k x
k x
x karena
x x
k x
y k
x y
x k
x k
x k
x k
y x
y x
x x
x y
x y
x y
karena x
x x
y x
y x
x y
H
1 2
2 1
1 1
2 1
2 1
1 1
2 1
2 1
1 1
2 1
1 1
1 1
1 2
1 1
1 1
1 1
1 2
1 1
1 1
1 1
ˆ 2
,
Jadi dari penurunan di atas nilai dari
1
ˆ yang merupakan estimator dari
1
adalah
k i
i k
i i
i
x k
x y
x k
y x
1 2
2 1
1
ˆ
, dengan k merupakan jumlah data sampel.
11
2.2 Outlier Dalam Regresi: Sumber, Jenis dan Deteksi Outlier