Model Persamaan Regresi Linear

6

BAB II LANDASAN TEORI

2.1 Model Persamaan Regresi Linear

Analisis regresi merupakan suatu proses pencarian model matematika terbaik yang cocok dengan data yang menghubungkan variabel dependen juga biasa disebut respon dengan variabel independen prediktor. Bentuk umum model regresi linear adalah:      y E y 2.1 Dengan, y = variabel dependen   y E = ekspektasi dari y.  = random error. Model regresi di atas tidak mempertimbangkan sejumlah variabel independen x yang berkorelasi sangat kuat dengan variabel dependen y, dengan menggunakan variabel independen maka keakuratan dalam mengestiamsi   y E dapat diperoleh. Sehingga   y E dapat diestimasi dengan bentuk persamaan linear, yaitu:   x y E 1     2.2 Dengan model probabilistik, Persamaan 2.2 di atas ditulis dengan: 7       x y 1 2.3 Persamaan 2.3 di atas disebut Model Linear Orde-Pertama atau Model Linear Sederhana, karena hanya terdapat satu variabel independen dengan : y = variabel dependen. x = variabel independen.   y E = x 1    = komponen deterministik.  = intercept pada sumbu y, titik potong dengan sumbu y. 1  = kemiringan dari garis regresi, yaitu sejumlah kenaikan atau penurunan dari mean y untuk setiap kenaikan atau penurunan 1-unit x.  = komponen random error. Jika terdapat variabel independen lebih dari satu, maka modelnya disebut Model Regresi Linear Berganda atau Model Regresi Linear Umum dengan persamaan modelnya sebagai berikut :            k k x x x y ..... 2 2 1 2.4 Pada Persamaan-persamaan di atas 2.3 dan 2.4 terdapat komponen random error  . Distribusi dari menentukan seberapa ”bagusnya” model yang 1 2 3 4 1 2 3 4  1    x y E 1     x y Gambar 2.1 Model Regresi Linear Sederhana 8 menggambarkan hubungan sebenarnya antara variabel dependen y dan variabel independen x. Ada empat asumsi yang menyangkut distribusi dari  , yaitu [1] : 1.Mean distribusi probabilitas dari  adalah 0. Artinya rata-rata error pada percobaan yang dilakukan secara tak hingga adalah 0 untuk setiap pengambilan variabel independen. Asusmsi ini mengakibatkan nilai mean dari y, untuk setiap nilai x yang diberikan adalah   x y E 1     . 2.Variansi distribusi probabilitas dari  adalah konstan untuk setiap pengambilan variabel independen. 3.Distribusi probabilitas dari  berdistribusi normal. 4.Error dari setiap dua observasi adalah independen. Artinya error dari salah satu nilai y tidak memberikan pengaruh terhadap error dari nilai y yang lain. Dari persamaan-persamaan di atas nilai koefisien yaitu  dan i  untuk i = 1 sampai dengan k tidak diketahui karena merupakan nilai parameter. Oleh karena itu, dibutuhkan data sampel untuk mengestimasi koefisien-koefisien tersebut. Misalkan k Y Y Y ,...., , 2 1 merupakan variabel random berdistribusi normal dengan mean masing-masing   i x y E     , dengan i = 1, 2, ....,k, dan variansi yang tidak diketahui 2  Misalkan akan dicari model regresi linear sederhana. Fungsi likelihood dari variabel random k Y Y Y ,...., , 2 1 adalah:                                       k i i i k k i i i x y x y L 1 2 1 2 2 2 1 2 2 1 2 2 1 2 1 exp 2 1 2 exp 2 1 , ,            9 Untuk memaksimumkan fungsi   2 1 , ,    L , atau ekuivalen dengan meminimumkan:       2 1 2 1 2 2 1 2 2 ln 2 , , ln               k i i i x y k L , harus dipilih  dan 1  dengan meminimumkan:          k i i i x y H 1 2 1 1 ,     Karena   y E y x y i i i     1   merupakan jarak vertikal dari titik   i i y x , terhadap garis   y E y  . Oleh karena itu,   1 ,   H merepresentasikan jumlah kuadrat tersebut. Dengan memilih  dan 1  sedemikian hingga jumlah kuadrat dari jarak tersebut minimum dengan seperti itu artinya garis lurus   y E y  mem-fitting data. Oleh karena itu, metode ini disebut Metode Least square [1]. Untuk meminimumkan   1 ,   H , harus dicari   , 1       H dan   , 1 1       H ,   1 1 x y E       i i y x ,   y E y i  Gambar 2.2 Garis Least Square 10       x y k x y x k y x y H k i i k i i k i i k i i k i i i 1 1 1 1 1 1 1 1 1 ˆ 1 2 ,                                  Jadi dari penurunan diatas di dapat x y 1 ˆ ˆ     , notasi ˆ merupakan notasi estimator untuk nilai parameter  , sedangkan untuk nilai 1 ˆ adalah sebagai berikut:                                                                                                           k i i k i i i k i i i k i i k i i k i i k i i i k i i k i i k i k i i i i k i i k i i k i k i i i i k i i i i i k i i i i x k x y x k y x y x k y x x k x k x x karena x x k x y k x y x k x k x k x k y x y x x x x y x y x y karena x x x y x y x x y H 1 2 2 1 1 1 2 1 2 1 1 1 2 1 2 1 1 1 2 1 1 1 1 1 1 2 1 1 1 1 1 1 1 2 1 1 1 1 1 1 ˆ 2 ,                  Jadi dari penurunan di atas nilai dari 1 ˆ yang merupakan estimator dari 1  adalah        k i i k i i i x k x y x k y x 1 2 2 1 1 ˆ  , dengan k merupakan jumlah data sampel. 11

2.2 Outlier Dalam Regresi: Sumber, Jenis dan Deteksi Outlier