2.2.Koefisien Determinasi Berganda
Menyatakan keeratan hubungan antara variabel terkat dan variabel bebas
, , ⋯ , pada regresi linear berganda akan dinyatakan dengan
koefisien determinasi berganda. Besarnya koefisien determinasi berganda dari persamaan regresi linear berganda yaitu:
= 1 − ∑
∑ =
∑ − ∑
∑ dimana:
∑ = ∑ − −
− ⋯ − = ∑
− −
− ⋯ − karena
= − −
− ⋯ − = ∑
− ∑ − ∑
−⋯ − ∑ = ∑
; dimana ∑ =
∑ = ⋯ = ∑
= 0 = ∑
− −
− ⋯ − = ∑ − ∑
− ∑ − ⋯ − ∑
=
∑ A
B C
D ∑A
B C
DE
F
∑G
FB
A
B
DE
C
∑G
CB
A
B
D⋯DE
B
∑ G
HB
A
B
∑A
B C
=
E
F
∑G
FB
A
B
IE
C
∑ G
CB
A
B
I⋯∓∑ G
HB
A
B
∑ A
B C
dimana nilai berada dalam interval
0 ≤ ≤ 1.
Adapun semakin besar nilai artinya semakin baik suatu garis
regresi linear digunakan sebagai suatu pendekatan. Dan apabila nilai sama
dengan 1 satu berarti pendekatan tersebut semakin baik.
2.3. Residual
Residual atau sisaan dalam regresi linear sederhana merupakan selisih dari nilai prediksi dengan nilai yang sebenarnya atau
= L − LM . Namun penggunaan jarak
= L − LM tidaklah memuskan. Dengan meminimumkan diperoleh hasil yang umum seperti berikut :
∑ = ∑
L − LM
N N
2.9
Universitas Sumatera Utara
Jika nilai pengamatan terletak dalam garis regresi maka nilai residualnya sama dengan nol. Jadi, jika total jarak atau nilai mutlak dari
residual sama dengan nol ∑ | | = 0
N
artinya semua nilai pengamatan berada pada garis regresi. Semakin besar nilai residualnya maka garis regresi
semakin kurang tepat digunakan untuk memprediksi. Yang diharapkan adalah total residualnya kecil sehingga garis regresi cukup baik untuk digunakan.
2.4. Metode Ordinary Least Square OLS
Metode Ordinary Least Square OLS merupakan suatu metode untuk mendapatkan garis regresi yang baik yaitu sedekat mungkin dengan datanya
sehingga menghasilkan prediksi yang baik Widarjono, 2005.
Metode OLS harus memenuhi asumsi-asumsi yang ada dalam proses pengestimasian parameter sehingga hasil estimasinya memenuhi sifat Best
Linear Unbiased Estimator BLUE. Pada dasarnya metode OLS meminimumkan jumlah kuadrat error.
P = P
P P
⋮ P
⇒ = P + ⇒ = − P 2.10
Dengan P adalah suatu vektor kolom -unsur dari estimasi OLS
parameter regresi dan adalah suatu vektor kolom + 1 dari residual.
Untuk mengestimasi parameter model regresi linear berganda digunakan metode OLS. Prosedur metode OLS dilakukan dengan memilih
nilai parameter yang tidak diketahui sehingga jumlah error diperoleh ∑
sekecil mungkin, sehingga dapat dinyatakan dengan:
⋮ =
⋮ −
11 1
⋮ 1
⋮ ⋮
⋮ ⋯
⋯ ⋱
⋯ ⋮
⋮
Universitas Sumatera Utara
= − − −
− ⋯− ∑
N
= ∑ − −
− − ⋯ −
N
2.11
Kemudian, untuk menentukan , , , ⋯ ,
dengan meminimumkan jumlah kuadrat residualnya
∑
N
secara parsial terhadap P , P , P , ⋯, P
dan samakan dengan 0 maka dapat dituliskan: R ∑
R P = 2 S8 − P − P
− P − ⋯ − P
: −1 = 0
N
R ∑ R P
= 2 S8 − P − P − P
− ⋯− P : −
= 0
N
R ∑ R P
= 2 S8 − P − P − P
− ⋯− P : −
= 0
N
⋮ R ∑
R P = 2 S8 − P − P
− P − ⋯ − P
: − = 0
N
Jika persamaannya disederhanakan dan disusun maka akan menjadi: P + P ∑
+ P ∑
+ ⋯ + P ∑ =
∑ P ∑
+ P ∑ + P ∑
+ ⋯ + P ∑ =
∑ P ∑
+ P ∑ + P ∑
+ ⋯ + P ∑ =
∑ 2.12
⋮ P ∑
+ P ∑ + P ∑
+ ⋯ + P ∑ =
∑
dimana persamaan 2.12 disebut sebagai persamaan normal Dengan menjumlahkan persamaan
= P + P + P
+ ⋯ + P
untuk seluruh pengamatan memberikan persamaan pertama dalam
persamaan 2.12 kemudian mengalikannya dengan pada kedua sisinya dan
menjumlahkan untuk seluruh maka dihasilkan persamaan kedua. Begitu
juga persamaan ketiga dalam persamaan 2.12 mengalikan kedua sisinya dengan
dan menjumlahkan untuk seluruh , dan seterusnya.
Universitas Sumatera Utara
Dinyatakan dalam bentuk matriks, persamaan normal akan menjadi: ∑
∑ ⋮
∑ ∑
∑ ∑
⋮ ∑
∑ ∑
∑ ⋮
∑ ⋯
⋯ ⋯
⋮ ⋯
∑ ∑
∑ ⋮
∑ P
P P
⋮ P
= 1
1 ⋯ ⋯
⋮ ⋮
⋯ ⋮
⋯ 1
⋮ ⋮
T
P =
T
2.13
Persamaan 2.13 diperoleh dari menurunkan persamaan mariks terhadap P, sehingga diperoleh:
U V
W
V UEX
= −2
T
+ 2
T
P , kemudian samakan hasil dengan 0, sehingga diperoleh:
−2
T
+ 2
T
P = 0 2
T
P = 2
T T
P =
T
; kali dengan
T D
sehingga diperoleh
T D
T
P =
T D
T
P =
T D
T
P =
T D
T
2.14
Dengan
T D
= 4 ∑
⋯ ∑
∑ ⋯
⋮ ∑
⋮ ∑
⋯ ⋯
∑ ∑
⋮ ∑
5
Untuk menunjukkan bahwa ∑
N
minimum, maka hasil turunan pertama dari jumlah kuadrat residualnya harus diturunkan sekali lagi sehingga
menghasilkan turunan kedua, dan nilainya harus lebih besar dari nol. Maka dapat dituliskan:
R ∑ R P
= R
R P Y
R8
T
− 2 P
T T
+ P
T T
P: R P
Z =
R R P
8−2
T
+ 2
T
P: = 2
T
Universitas Sumatera Utara
Dipastikan bahwa turunan kedua dari ∑
N
terhadap P haruslah bernilai positif. Sehingga nilai
∑
N
akan minimum apabila nilai 2
T
lebih besar dari nol. Karena matriks
T
adalah turunan positif dengan semua unsur diagonalnya berbentuk kuadrat, maka turunan kedua dari
∑
N
terhadap P bernilai positif yang artinya P
=
T D
T
minimum.
2.5.Pencilan Outliers
Pencilan adalah suatu data yang menyimpang dari sekumpulan data yang lain. Pencilan diartikan pula sebagai pengamatan yang tidak mengikuti sebagian
besar pola dan terletak jauh dari pusat data. Ferguson, 1961
Pengamatan yang dikategorikan sebagai pencilan mempunyai nilai residual yang relatif besar untuk ukuran residual pada ketepatan pengamatan.
Diasumsikan bahwa hubungan antara dua variabel + dan L diperkirakan
dengan garis lurus. Berdasarkan model regresi linear berganda pada persamaan 2.1 dengan
dan , , ⋯ , adalah parameter regresi untuk diestimasi. Nilai kesalahan
yang tidak diperhatikan dan diasumsikan berdistribusi normal.
2.5.1. Jenis Pencilan
Model regresi menggambarkan hubungan dari beberapa variabel bebas , , ⋯ ,
dengan variabel terikat , , ⋯ ,
. Model regresi diperoleh dengan menggunakan metode estimasi ordinary least square
OLS. Metode OLS didasarkan pada asumsi bahwa terjadinya kesalahan pada model yang dihasilkan yang seharusnya berdistribusi normal. Karena
dengan residual berdistribusi normal metode OLS memberikan estimasi parameter yang optimal bagi model regresi.
Metode OLS harus memenuhi asumsi dari Best Linear Unbiased Estimator BLUE dalam proses estimasinya. Jika data tidak memenuhi
salah satu asumsi disebabkan adanya pencilan, maka metode OLS yang
Universitas Sumatera Utara
diperoleh menjadi tidak efisien. Keberadaan pencilan pada data mungkin terdapat pada variabel bebasnya
ataupun variabel terikatnya .
Pencilan pada arah- L akan memberikan nilai residual yang sangat
besar positif atau negatif. Hal ini disebabkan karena data pencilan mempunyai jarak yang sangat besar terhadap garis OLS. Sedangkan data
pencilan pada arah- + memberikan pengaruh yang sangat besar pada
estimator metode OLS karena pencilan pada arah- + disebut sebagai titik
leverage.
Secara umum, suatu pengamatan + ,L dikatakan suatu titik
leverage ketika + terletak jauh dari sebagian besar data pengamatan
dalam sampel. Sebagai catatan, suatu titik leverage tidak memasukkan nilai
L ke dalam perhitungan, jadi titik + , L tidak harus menjadi pencilan pada regresi. Ketika
+ , L dekat terhadap garis regresi yang ditentukan dengan sebagian besar data, maka hal tersebut dapat
diasumsikan sebagai titik leverage yang baik. Oleh karena itu, untuk menyimpulkan bahwa
+ , L adalah suatu titik leverage hanya merujuk pada kepotensialnya besar mempengaruhi koefisien-koefisien regresi
karena pencilannya hanya + . Titik + ,L tidak selalu dilihat sebagai
penyebab pengaruh yang besar terhadap koefisien-koefisien regresi, karena bisa saja titik
+ , L tepat pada garis yang ditentukan kecendrungannya dengan sejumlah besar himpunan data lainnya.
Regresi linear berganda + , + , ⋯ , + terletak pada suatu ruang
berdimensi ,. Suatu titik leverage tetap didefinisikan sebagai suatu titik
8+ , ⋯ , +
[
, L : dimana 8+ ,⋯ , +
[
: merupakan titik-titik yang terpisah dari himpunan data. Suatu titik leverage yang berpotensial berpengaruh
besar pada koefisien regresi OLS, bergantung pada nilai aktual dari L ,
akan tetapi dalam hal ini akan sulit mengidentifikasi titik-titik leverage karena berdimensi tinggi.
Universitas Sumatera Utara
2.5.2. Deteksi Pencilan
Langkah awal yang harus dilakukan dalam mendeteksi pencilan yaitu dengan melihat kemungkinan bahwa pencilan merupakan data yang
berpengaruh terkontaminasi. Data pencilan dapat dikenali dengan memeriksa data mentahnya raw secara visual atau dari diagram pencar
pada variabel bebas Jacob, 2003: 394. Jika terdapat lebih dari dua variabel bebas, beberapa pencilan akan sangat sulit untuk dideteksi dengan
pemeriksaan visual. Oleh karena itu, dibutuhkan bantuan lain pada pemeriksaan visual yang dapat membantu dalam pendeteksian pencilan.
Dalam statistik, data pencilan harus dilihat terhadap posisi dan sebaran data yang lainnya sehingga akan dievaluasi apakah data pencilan
tersebut perlu dihapus atau tidak. Ada berbagai macam metode yang dapat digunakan untuk mendeteksi adanya data pencilan yang berpengaruh
dalam koefisien regresi diantaranya adalah metode grafis, boxplot, scatter plot, leverage values, discrepancy, cook’s distance, DfBETAs, Goodness
of FIT,dan metode DfFITS. Namun pada skripsi ini pendeteksian pencilan yang akan dibahas menggunakan scatter plot, metode leverage values,
discrepancy, dan metode DfFITS .
2.5.2.1. Leverage Values
Pendeteksian dengan
menggunakan leverage
values hanya
menggambarkan pengamatan yang terjadi pada variabel bebas. Leverage values menginformasikan seberapa jauh pengamatan tersebut dari nilai
mean himpunan data variabel bebas. Jika hanya terdapat satu variabel bebas, leverage dapat dituliskan seperti:
\ 7 ]_ = ℎ = +
G
B
D`
a C
∑b
C
2.15 dengan
ℎ adalah leverage values pengamatan ke- , banyaknya data, adalah nilai untuk pengamatan ke- ,
c
b
adalah mean dari , dan ∑ +
merupakan jumlah kuadrat pengamatan dari simpangan
dari
Universitas Sumatera Utara
meannya. Jika pengamatan ke- bernilai c
b
, maka bentuk kedua dari persamaan 2.15 akan 0 dan
ℎ akan memiliki nilai kemungkinan yang minimum
. Misalkan pengamatan ke- nilai pada jauh dari c
b
, maka nilai leverage akan naik. Nilai maksimum dari
ℎ adalah 1 nilai mean dari leverage untuk
-pengamatan dalam suatu sampel adalah c
d
BB
=
I
, dengan
merupakan jumlah variabel bebas.
Penjabaran perhitungan leverage yang dijelaskan merupakan hitungan untuk pengamatan satu variabel bebas, dapat digeneralisasi untuk
pengamatan dengan variabel bebas lebih dari satu. Untuk pengamatan dengan banyak variabel bebas, hal yang menarik adalah seberapa jauh
nilai-nilai untuk setiap variabel untuk pengamatan ke- , , , ⋯,
, dari centroid variabel bebas. Centroid merupakan mean dari data,
c , c , ⋯ , c . Perhitungan nilai ℎ untuk pengamatan ini dengan mengguanakan persamaan:
e =
D
2.16
dengan e merupakan matriks + dan merupakan matriks + +
1 . Dimana merupakan banyaknya data, dan merupakan jumlah koefisien
variabel bebas ditambah 1 sebagai konstanta . Diagonal
dari e berisi nilai leverage. Jadi, leverage untuk pengamatan ke- , ℎ
merupakan nilai dari baris ke- dan kolom ke- dari e.
Penentuan nilai yang memiliki leverage yang besar didasarkan pada nilai cutoff. Nilai
ℎ yang melebihi nilai cutoff dideteksi sebagai pencilan. Adapun nilai cutoff yang telah ditentukan menurut Jacob Cohen
adalah
I
untuk data yang jumlahnya 15, sedangkan untuk data
yang jumlahnya ≤ 15 digunakan cutoff
I
+ + 1 . Dengan merupakan banyaknya data, dan merupakan jumlah koefisien
variabel bebas ditambah 1 sebagai nilai konstanta .
Universitas Sumatera Utara
2.5.2.2. Discrepancy
Mengidentifikasi pencilan menggunakan discrepancy yang banyak digunakan adalah dengan Externally Studientized Residuals. Externally
studientized residuals dengan memisalkan jika data pencilan sebuah pengamatan dihapuskan dari himpunan data. Misalkan h
nilai yang merupakan prediksi pengamatan ke- , tetapi pengamatan ke- dihapuskan
dari himpunan data. Pencilan berkontribusi secara substansial terhadap estimasi variansi residual sekitar garis regresi dan disimbolkan dengan
c
iVj klmn
. Sedangkan c
iVj klmn
untuk variansi residual dengan pengamatan ke- yang merupakan pencilan dihapuskan dari himpunan
data. Misalkan o sebagai perbedaan antara data asli, , dengan nilai
prediksi untuk pengamatan ke- yang berasal dari himpunan data dengan pengamatan ke-
yang dihapuskan yaitu o = − h . Externally
studientized residuals untuk pengamatan ke- , p dihitung dengan:
p =
k
B
qr
sB
2.17 dimana
o merupakan nilai residual yang dihapuskan: o =
t
B
Dd
BB
2.18 dan nilai standar residual juga dapat dihitung dengan:
k
B
= u
`q
vwxBsyz{ B
Dd
BB
2.19
Jika persamaan 2.18 dan 2.19 dimasukkan kedalam persamaan 2.17 maka akan menjadi:
p =
t
B
u`q
vwxBsyz{ B
Dd
BB
2.20
Penentuan nilai pencilan berdasarkan nilai Externally studientized residuals lebih banyak digunakan karena mengikuti distribusi
p dengan o = − − 1. Penentuan nilai cutoff-nya berdasarkan distribusi p, jika
Universitas Sumatera Utara
nilai p p
|m}Vn
dengan derajat kepercayaan ~ , maka data tersebut
memiliki nilai discrepancy yang besar dan dikategorikan sebagai pencilan.
2.5.2.3. Metode DfFITS
Difference fitted value FITS merupakan metode yang menampilkan nilai perubahan dalam harga yang diprediksi bilamana kasus tertentu
dikeluarkan, yang sudah distandarkan. Perhitungan DfFITS di rumuskan sebagai berikut :
= p •
d
BB
Dd
BB
€
F C
2.21 dimana
p adalah studentized deleted residual untuk pengamatan ke- dan ℎ adalah nilai pengaruh untuk kasus ke- dengan:
p = u
D D •‚ƒ Dd
BB
Dt
B CW
2.22
adalah residual ke- dan JKG adalah jumlah kuadrat galat.
Suatu data yang mempunyai nilai absolute DfFITS lebih besar dari 2u
I
maka didefinisikan sebagai pencilan, dengan banyaknya variabel
bebas dan banyaknya observasi Soemartini: 2007.
2.6. Regresi Robust