regresi linier

BAB 2
LANDASAN TEORI

2.1.

Regresi

2.1.1. Pengertian Persamaan Regresi
Persamaan regresi adalah persamaan matematik yang memungkinkan kita
meramalkan nilai-nilai suatu peubah tak bebas dari nilai-nilai satu atau lebih
peubah bebas (Walpole, 1995, p340 ).

2.1.2. Pengertian Regresi Linier dan Regresi Non Linier
Secara umum, regresi adalah suatu metode untuk meramalkan nilai
harapan yang bersyarat. Regresi dikatakan linear apabila hubungan antara peubah
bebas dan peubah tak bebas adalah linear, sedangkan apabila hubungan antara
peubah bebas dan peubah tak bebas tidak linear, maka regresi dikatakan regresi
non linear. Hubungan antara peubah bebas dan peubah tak bebas dapat dikatakan
linear apabila diagram pencar data dari peubah-peubah tersebut mendekati pola
garis lurus.


2.1.3. Regresi Linier Sederhana
2.1.3.1.Pengertian Regresi Linier Sederhana
Regresi Linear Sederhana adalah suatu persamaan regresi di mana peubah
bebasnya berbentuk skalar.

9
2.1.3.2.Persamaan Regresi Linier Sederhana
Model Regresi Linear Sederhana dapat dinyatakan dalam persamaan :
Yi = β 0 + β 1 X i + ε i
Keterangan
Yi

(2.1)

:

: nilai peubah tak bebas pada percobaan ke-i

β0, β1 : koefisien regresi
Xi


: nilai

peubah bebas pada percobaan ke - i

єi

: error

dengan mean E{єi}=0 dan varians σ2{єi}= σ2

, єi & єj tidak berkorelasi.
i

: 1,…,n

2.1.3.3.Pendugaan Koefisien Regresi
Metode kuadrat terkecil adalah suatu metode untuk menghitung koefisien
regresi sampel (b0 & b1) sebagai penduga koefisien regresi populasi (β0 & β1),
sedemikian rupa sehingga jumlah kesalahan kuadrat memiliki nilai terkecil.

Dengan bahasa matematik, dapat dinyatakan sebagai berikut :
Model sebenarnya

:

Yi = β0 + β1Xi + εi

Model perkiraan

:

Ŷi = b0 + b1Xi

Kesalahan error i

:

ei = Yi – (b0 + b1Xi)

Jumlah kesalahan kuadrat :


∑ei2 = ∑ [Yi – ( b0+ b1Xi)] 2

Jadi metode kuadrat terkecil adalah metode menghitung b0 dan b1 sedemikian
rupa sehingga ∑ei2 minimum. Caranya adalah dengan membuat turunan parsial

10
∑ei2 mula-mula terhadap b0 kemudian terhadap b1 dan menyamakannya dengan
nol, sehingga kita dapat memperoleh rumus :
b0 = y − b1 x
b1 =

(2.2.)

n∑ XiYi − ∑ Xi ∑ Yi
n∑ Xi 2 − (∑ Xi ) 2

(2.3)

2.1.4. Regresi Linier Berganda

2.1.4.1.Pengertian Regresi Linier Berganda
Regresi Linear Berganda adalah regresi yang mempunyai hubungan antara
satu peubah tidak bebas Y dengan beberapa peubah lain yang bebas X1, X2,... ,Xk.

2.1.4.2.Persamaan Regresi Linier Berganda
Untuk meramalkan Y, apabila semua nilai peubah bebas diketahui,
dipergunakan model persamaan regresi linear berganda. Hubungan Y dan X1, X2,...
,Xk

yang sebenarnya adalah sebagai berikut :
Yi = β 0 + β1 Xi1 + β 2 Xi2 + ... + β k Xik + ε i

(2.4)

Keterangan :
β0, β1, β2, βk

: parameter / koefisien yang akan ditaksir

εi


: nilai peubah gangguan yang berkaitan dengan pengamatan ke-i

i

: 1, 2, 3, ..., n

11
Apabila b0, b1, b2, .... bk adalah penduga atas β0, β1, β2, .... βk maka persamaan
penaksir yang sebenarnya adalah :
Yˆi = b0 + b1 Xi1 + b2 Xi2 + ... + bk Xik + ei

(2.5)

Apabila dinyatakan dalam bentuk persamaan matriks, sebagai berikut :

Y = Xβ + ε

(2.6)


Keterangan :
Y, β, ε

: vector

X

: matriks x

2.1.5. Pendugaan Koefisien Regresi Berganda
Koefisien β harus diestimasi berdasarkan data hasil penelitian sampel
acak. Prosedur estimasi tergantung mengenai variabel X dan kesalahan
pengganggu µ. Beberapa asumsi yang penting adalah sebagai berikut :
1.

Nilai harapan setiap kesalahan pengganggu sama dengan nol E(µi) = 0
untuk semua i.

2.


Kesalahan pengganggu yang satu tidak berkorelasi terhadap kesalahan
pengganggu lainnya E(µiµj) = 0 untuk i ≠ j, akan tetapi mempunyai
varians yang sama E(µi2) = σ2 untuk semua i.

3.

X1, X2,... ,Xk merupakan bilangan riil, tanpa mengandung kesalahan.

4.

Matriks X mempunyai rank k < n. Banyaknya observasi n harus lebih
banyak dari banyaknya peubah, atau lebih banyak dari koefisien regresi
parsial yang akan diestimasi.

12
Apabila asumsi di atas dapat dipenuhi, maka penggunaan metode kuadrat
terkecil akan menghasilkan Best Linear Unbiased Estimator terhadap koefisien β.
Dengan menggunakan metode kuadrat terkecil maka b0 dan b1 merupakan
penduga tidak bias dan mempunyai varians minimum diantara semua penduga
linear tak bias. Berikut adalah rumusan penduga koefisien b :

Misalkan b sebagai penduga β :
Y = Xb + e
e = Y - Xb
ei = Yi - b1Xi1 - b2Xi2 - ... – bkXik
Maka jumlah pangkat dua simpangan yang harus diminimumkan :
∑ ei2 = ∑ ( Yi - b1Xi1 - b2Xi2 - ... - bkXik)2
Estimasi vektor β dengan menggunakan metode kuadrat terkecil, ialah
vektor b sedemikian rupa sehingga jumlah kuadrat kesalahan pengganggu :
e T e = ∑ ei 2 = min

(2.7)

Caranya ialah dengan menurunkan penurunan parsial ∑ ei2 terhadap setiap
komponen vektor b dan menyamakannya dengan 0.
δ∑ei2/ δb1 = 2 ∑ ( Yi - - b1Xi1 - b2Xi2 - ... – bkXik ) (-X1i) = 0
δ∑ei2/ δb2 = 2 ∑ ( Yi - - b1Xi1 - b2Xi2 - ... – bkXik ) (-X2i) = 0
.

.


.

.

δ∑ei2/ δbk = 2 ∑ ( Yi - - b1Xi1 - b2Xi2 - ... – bkXik ) (-Xki) = 0

(2.8)

13
Persamaan tersebut dapat disederhanakan menjadi :
b1∑Xi12

+ b2∑Xi1Xi2 + ... + bk∑Xi1Xik = ∑Xi1Yi

b2 ∑Xi2Xi1 + b2∑Xi12

.bk

+ … + bk∑Xi2Xik = ∑Xi2Yi


.

.

.

.

∑XikXi1 + b2∑XikXi2 + ... + bk∑Xik 2

= ∑XikYi
(2.9)

Apabila dinyatakan di dalam bentuk matriks, persamaan normal di atas
akan menjadi :

X T Xb = X T Y

(2.10)

Dengan demikian b sebagai penduga β dapat diperoleh melalui rumus :
b = ( X T X ) −1 X T Y

(2.11)

2.1.6. Koefisien Korelasi
Koefisien

korelasi

merupakan

suatu

ukuran

kuantitatif

yang

menggambarkan kekuatan hubungan linear di antara 2 variabel. Koefisien korelasi
(r) mempunyai nilai di antara –1.0 dan +1.0. Suatu korelasi yang mempunyai nilai
+1.0 menunjukkan hubungan linear yang sempurna. Dan apabila nilai korelasi
adalah 0 berarti kedua peubah tidak mempunyai hubungan linear.

14
Berikut adalah rumus untuk menghitung korelasi antara peubah bebas dan
peubah tak bebas :

r=

∑ ( x − x)( y − y)
∑ ( x − x) ∑ ( y − y )
2

(2.12)

2

Sedangkan untuk menghitung korelasi di antara dua peubah bebas
menggunakan rumus :
n

∑ (x

r=

1i

i =1

n

∑ (x
i =1

1i

− x 1 )( x 2i − x 2 )

− x1 )

2

n

2

∑ (x
i =1

2i

− x2 )

(2.13)

2.1.7. Koefisien Determinasi
Koefisien determinasi adalah ukuran variasi total pada peubah tak bebas
yang dapat dijelaskan oleh hubungannya dengan peubah bebas. Koefisien
determinasi juga disebut sebagai R2. Nilai dari R2 antara 0 dan 1.0. Apabila
terdapat suatu hubungan linear yang sempurna di antara dua peubah maka
koefisien determinasi akan bernilai 1.0 ( di mana garis regresi kuadrat terkecil
akan melalui setiap titik pada scatter plot ). R2 sering digunakan sebagai ukuran
untuk mengindikasikan seberapa baik garis regresi linear terhadap data. Semakin
baik maka R2 akan mendekati nilai +1.0 dan apabila terdapat hubungan linear
yang lemah maka R2 akan mendekati 0.

15
Untuk menghitung koefisien determinasi digunakan rumus sebagai
berikut:
R2 =

SSR
TSS

(2.14)

SSE ( Sum of Squares Error ) menunjukkan jumlah total kuadrat peubah
tak bebas yang tidak dijelaskan oleh garis regresi kuadrat terkecil. Sedangkan
SSR ( Sum of Squares Regression ) merupakan jumlah total kuadrat yang dapat
dijelaskan oleh garis regresi. Dan TSS ( Total Sum of Squares ) merupakan
jumlah dari SSE dan SSR.
SSR = ∑ ( yˆ − y ) 2

(2.15)

TSS = ∑ ( y − y ) 2

(2.16)

SSE = ∑ ( y − yˆ ) 2

(2.17)

TSS = SSE + SSR

(2.18)

Setelah menghitung koefisien determinasi, maka kita akan dapat
mengetahui seberapa besar variasi peubah tak bebas yang dapat dijelaskan oleh
model regresi.

2.1.8. Masalah Regresi Linier Berganda
Di dalam regresi linier berganda dapat terjadi beberapa keadaan yang
dapat menyebabkan estimasi koefisien regresi dengan menggunakan metode
kuadrat terkecil tidak lagi menjadi penduga koefisien tak bias terbaik. Beberapa

16
masalah / kondisi yang dapat terjadi pada regresi linier berganda adalah sebagai
berikut :

2.1.8.1.Otokorelasi
Di dalam suatu model regresi, dianggap bahwa kesalahan pengganggu εi
,di mana i = 1,2,3,…,n merupakan variabel acak yang bebas. Dengan kata lain
bahwa kesalahan observasi yang berikutnya diperoleh secara bebas terhadap
kesalahan sebelumnya. Artinya E(εi,εi+r ) = 0, untuk semua i dan semua r ≠ 0.
Apabila asumsi tersebut tidak berlaku, maka akan terdapat banyak
kesukaran di dalam analisis ekonomi. Jika terjadi suatu otokorelasi, maka apabila
metode kuadrat terkecil diterapkan untuk memperkirakan parameter / koefisien
regresi, maka penduga penduga yang dihasilkan bukan lagi penduga tak bias yang
terbaik. Selain itu, apabila terjadi otokorelasi di antara kesalahan pengganggu
maka pengujian nyata berdasarkan statistik uji t dan F sebetulnya tidak berlaku
lagi.
Solusi untuk masalah otokorelasi adalah data asli harus ditransformasikan
terlebih dahulu untuk menghilangkan otokorelasi di antara kesalahan pengganggu
tersebut. Untuk menguji ada tidaknya otokorelasi dapat menggunakan Statistik d
Durbin-Watson (The Durbin-Watson d Statistics).
Statistik d Durbin-Watson adalah sebagai berikut :
n

d=

∑ (e
i =2

i

− ei −1 ) 2

n

∑e
i =2

2
i

(2.19)

17
Keterangan :
d

: statistik d Durbin dan Watson

ei

: residu ( kesalahan penggangu)

Durbin dan Watson

sudah membuat tabel yang disebut Statistik d Durbin-

Watson pada tingkat nyata 5% dan 1%. Di dalam tabel, dimuat nilai batas atas
(du) dan nilai batas bawah (d1) untuk berbagai nilai n dan k (banyaknya variable
bebas). Statistik d Durbin-Watson tersebut digunakan untuk menguji hipotesis :
Ho

: tak ada korelasi serial (otokorelasi) yang positif

H1

: ada korelasi serial ( otokorelasi) yang positif

2.1.8.2.Heterokedastisitas
Apabila matriks ragam (variance) kesalahan adalah sebagai berikut :

(2.20)

Dan apabila beberapa elemen pada diagonal utama tidak sama dengan satu
(Vii≠1), maka kesalahan pengganggu tersebut disebut heteroskedastis. Dengan
kata lain kesalahan pengganggu merupakan variabel bebas, tetapi kesalahan
pengganggu tersebut mempunyai varians yang berbeda untuk setiap nilai X yang
berbeda, di mana X merupakan variabel bebas.
Cara untuk mengatasi masalah heterokedastisitas adalah mengubah matrik
kovarian menjadi matrik yang memenuhi homokedastisitas Untuk mendapatkan

18
penduga b dengan metode kuadrat terkecil, mula-mula kita cari matrik T
sedemikian rupa sehingga :
E (Tεε T T T ) = σ 2 In
(2.21)
Matrik T adalah sebagai berikut :

T=

1/x1

0



0

0

1/x2



0

0

0



1/xn

Jika Y = XB + ε kalikan dengan T, maka diperoleh TY =TXB + T ε. Kemudian
dapat kita peroleh rumus b sebagai penduga B dengan metode kuadrat terkecil
adalah sebagai berikut :

b* = ( X T T T TX ) −1 X T T T TY

(2.22)

2.1.8.3.Multikolinieritas
Multikolinieritas adalah masalah yang timbul pada regresi linier apabila
terdapat suatu hubungan atau ketergantungan linier di antara beberapa
semua

atau

dari peubah-peubah bebas. Jika peubah-peubah bebas tersebut saling

berkorelasi, maka akan sangat sulit untuk memisahkan pengaruh mereka masingmasing terhadap peubah tak bebas dan untuk mendapatkan penaksir yang baik
bagi koefisien-koefisien regresi. Masalah multikolinieritas sering terjadi pada
bidang economy, agriculture, chemometrics, sociology.

19
Masalah multikolinieritas seperti ini mungkin juga terdapat dalam analisis
regresi sederhana. Masalah kolinieritas

yang sempurna pada regresi linear

sederhana terjadi jika nilai Xi yang diamati itu sama dengan X rata-rata.
Apabila kita mempunyai persamaan hubungan linear sebagai berikut :
Yi = β0 + β1Xi 1 + β2Xi 2 + εi
Secara ekstrim, ada kemungkinan terjadi

2 peubah bebas atau lebih yang

mempunyai hubungan yang sangat kuat sehingga pengaruh masing-masing
peubah tersebut terhadap Y sukar untuk dibedakan.
Dari persamaan diatas peubah X1 dan X2 mempunyai hubungan
sedemikian rupa sehingga X2i = kX1i, dimana k adalah bilangan konstan. Untuk
memperkirakan β0, β1, β2, kita harus menggunakan data hasil observasi sebanyak
n, untuk variabel X1 dan X2 sebagai berikut :
X1
X2
Y

X11
X21
Y1

X12
X22
Y2





X1n
X2n
Yn

Dalam hal ini, metode kuadrat terkecil tidak dapat menghasilkan penduga
b0, b1, b2,…, bk dengan variansi kecil, karena r(X’X)= 2 0, maka (VIF)k 0, koefisien regresi ridge
bersifat bias tetapi cenderung lebih stabil.

2.3.2. Keakuratan Ridge Regression

Untuk mengukur keakuratan ridge regression dapat diketahui dari ratarata kuadrat residualnya (mean squared error). Taksiran ridge regression
cenderung mempunyai rata-rata kuadrat residual yang lebih kecil daripada
taksiran kuadrat terkecil.
Dua fungsi yang umum diaplikasikan

untuk mengukur kedekatan

penduga b dengan parameter β yang tidak diketahui didefinisikan sebagai berikut:
1.

mean squared estimation error
p

M 1(b ) = E (b − β ) T (b − β ) = ∑ E (bi −β i ) 2
i =1

(2.37)

27
2.

mean squared prediction error
p

M 2 (b) = E (b − β ) X X (b − β ) = ∑ λi E (ci − α i ) 2
T

T

i =1

(2.38)

Di mana :

λ1 ≥ λ2 ≥ ... ≥ λ p = eig ( X T X )
(2.39)
c = QT b

(2.40)

α = QT β

(2.41)

Q T X T XQ = diag (λ1 , λ 2 ., , ,.λ p )

(2.42)

Telah dibuktikan oleh Hoerl and Kennard (1970a) bahwa:
p

f M 1 (k ) = M 1 ( β * (k )) = ∑ (λiσ 2 + k 2α i ) /(λi + k ) 2
2

i =1

(2.43)

p

f M 2 (k ) = M 2 ( β * (k )) = ∑ λi (λiσ 2 + k 2α i ) /(λi + k ) 2
2

i =1

(2.44)

di mana
2

σ 2 = y − X β /(n − p )
Dengan mengganti αi dan σ 2 dengan α̂i dan σ̂ 2

(2.45)
maka diperoleh

persamaan baru yaitu :
p

2
fˆM 1 (k ) = ∑ (λiσˆ 2 + k 2αˆ i ) /(λi + k ) 2
i =1

(2.46)

28
p

2
fˆM 2 (k ) = ∑ λi (λiσˆ 2 + k 2αˆ i ) /(λi + k ) 2
i =1

(2.47)

di mana :
2

σˆ 2 = y − X βˆ /(n − p )
(2.48)

αˆ = Q T βˆ

(2.49)

2.3.3. Ridge Trace

Cara yang biasa dilakukan untuk menentukan konstanta k adalah
berdasarkan ridge trace. Ridge trace adalah plot dari p nilai dugaan koefisien
regresi yang dibakukan bkR dan nilai k yang berbeda-beda antara 0 dan 1. Pilih
nilai k terkecil dan koefisien regresi bkR menjadi stabil pertama kali pada ridge

trace plot. Berikut adalah contoh Ridge Trace :

Gambar 2.1. Contoh Ridge Trace

29
2.4.

Metode Newton Rhapson

Untuk menentukan nilai parameter ridge regression k yang optimum dapat
dilakukan dengan cara meminimumkan fungsi mean squared estimation error
(2.51) dan mean squared prediction error (2.52). Untuk meminimumkan fungsi
tersebut dapat dilakukan dengan algoritma yang berdasarkan metode NewtonRhapson. Metode Newton-Rhapson adalah suatu metode yang terkenal dan sangat
handal untuk menemukan akar dari persamaan f ( x) = 0 . Metode Newton dapat
diturunkan dari Taylor’s series :

1
f ( x) = f ( x1 ) + ( x − x1 ) f ' ( x1 ) + ( x − x1 ) 2 f ' ' ( x1 ) + ...
2!

(2.50)

Metode Newton-Raphson adalah metode yang berdasarkan ide bahwa f(x)
pada x=b dapat dihitung apabila nilai dari f(a), f’(a), dan f’’(a) diketahui. Apabila
x=x0 maka kita dapat menghitung x=x1 :

f(x1) = f(x0) + f'(x0)(x1- x0)
Jika x1=0 maka

0= f(x0) + f '(x0)(x1- x0)
x1= x0-(f(x0)/f’(x0))
Atau secara umum persamaan Newton Rhapson adalah :

x n +1 = x n − ( f ( x n ) / f ' ( x n ))

(2.51)

30
Iterasi berulang sehingga
abs(( x n +1 − x n ) / x n ) < e

(2.52)

Di mana e adalah suatu angka yang bernilai kecil misalnya 0.0001

2.5.

R Language

R

Language

merupakan

implementasi

dari

S

Language

yang

dikembangkan oleh Bell Laboratories oleh Rick Becker, John Chambers dan
Allan Wilks. R Language adalah suatu paket software yang mempunyai fasilitas
untuk manipulasi data, kalkulasi dan tampilan grafik. Paket software tersebut
sangat cocok digunakan pada lingkungan windowing systems seperti Unix,
Macintosh, dan lain-lain. R Language telah banyak dikembangkan untuk analisis
data interaktif ke dalam paket-paket yang dapat diperoleh secara cuma-cuma.
Bahasa pemrograman ini merupakan high level language sehingga cukup mudah
untuk dipahami dan dipelajari.

2.6.

Penelitian Relevan

Perancangan Program Aplikasi Peramalan Biaya Pemasaran dengan
Model Regresi Ridge (Studi Kasus: PD. Daichi Mas) merupakan penelitian yang
telah dilakukan oleh Chandra Suyanto, mahasiswa Universitas Bina Nusantara
(2005). Penelitian ini dilakukan untuk memprediksi biaya pemasaran sebelum
dilakukan proses pemasaran berdasarkan volume penjualan dan biaya ekspedisi
dan pembungkusan.

31