1
BAB 1 ANALISIS REGRESI DUA PEUBAH
Istilah Regresi
Istilah regresi diperkenalkan oleh FRANCIS GALTON. Penjelasannya adalah bahwa ada kecenderungan bagi rerata tinggi anak-anak
dengan orang tua yang mempunyai tinggi tertentu untuk bergerak atau mundur
regress kea rah tinggi rerata seluruh populasi. KARL PEARSON mengumpulkan lebih 1000 catatan tinggi anggota kelom
pok keluarga. Ia menemukan bahwa rerata tinggi anak leleki kelompok ayah yang tinggi kurang daripada tinggi ayah mereka dan rerata tinggi anak
lelaki kelompok ayah yang pendek lebih besar dari pada tinggi ayahnya, jadi “mundurnya” “regressing” anak lelaki yang tinggi maupun yang
pendek serupa kea rah rerata tinggi semua lelaki.
Ketergantungan Statistik vs Fungsional
Dalam analisis regresi perhatian diarahkan pada apa yang dikenal dengan ketergantungan antara peubah yang bersifat statistic, bukannya
fungsional bersifat fungsi atau deterministic, seperti pada ilmu fisika klasik.
Dalam hubungan di antara peubah yang bersifat statistic pada dasarnya menghadapi peubah random acak atau stokastik, yaitu peubah yang
mempunyai distribusi probabilistas.
Ketergantungan panen pada suhu, curah hujan, sinar matahari, dan pupuk, misalnya, pada dasarnya bersifat statistic dalam arti bahwa peubah
yang menjelaskan explanotary variables, meskipun jelas penting, tidak akan memungkinkan ahli agronomi untuk untuk meramalkan hasil panen secara
akurat karena kesalahan yang terdapat tersangkut dalam pengukuran peubah- peubah ini dan juga sekelompok factor peubah lain yang secara
bersama-sama memengaruhi hasil panen tadi tetapi mungkin sulit untuk dikenal secara perorangan individual.
2
Regresi VS Korelasi
Analisis korelasi tujuan utamanya adalah untuk mengukur kuat atau
derajat hubungan linier antara dua peubah.
Analisis regresi berusaha untuk menaksir atau meramal nilai rerata sebuah
peubah atas dasar nilai yang tetap peubah-peubah lain ceteris paribus.
Istilah dan Notasi
Dalam berbagai literature istilah peubah tak bebas dependent varia ble
dan peubah yang menjelaskan explanotary variable digambarkan de ngan berbagai cara, sbb. :
Peubah tak bebas Peubah yang menjelaskan
Depandentvariable Explanotory variable
Peubah yang dijelaskan Peubah bebas
Explained variablr Independent variable
Yang diramalkan Peramal
Predictand Predictor
Yang diregresi Yang meregresi
Regressand Regressor
Tanggapan Perangsang atau peubah kendali
3
Contoh Hipotesis
Analisis regresi terutama berkenaan dengan penaksiran danatau peramalan nilai rerata hitung atau nilai rerata pupulasi peubah tak bebas
atas dasar nilai peubah yang menjelaskan yang tetap fixed atau diketahui.
Bayangkanlah Negara hipotesis dengan total penduduk populasi 60 keluarga. Misalnya Anda ingin berminat mempelajari hubungan antara
belanja konsumsi keluarga mingguan Y dan pendapatan keluarga yang dapat dibelanjakan disposable atau setelah dipotong pajak mingguan X.
Asumsikan Anda ingin meramalkan rerata populasi tingkat belanja konsumsi mingguan dengan mengetahui pendapatan mingguan keluarga itu.
Untuk tujuan itu, misalkan Anda membagi 60 keluarga ke dalam 10 kelompok dari keluarga yang pendapatannya kira-kira sama dan memeriksa
belanja konsumsi keluarga yang pendapatannya kira-kira sama dan memeriksa belanja konsumsi keluarga dalam tiap kelompok pendapatan ini.
Tabel berikut berisi hanya tingkat pendapatan yang benar-benar diamati.
Tabel Pendapatan keluarga mingguan X,
Y X
80 100
120 140
160 180
200 220
240 260
belanja konsumsi
keluarga mingguan
Y,
55 65
79 80
102 110
120 135
137 150
60 70
84 93
107 115
136 137
145 152
65 74
90 95
110 120
140 140
155 175
70 80
94 103
116 130
144 152
165 176
75 85
98 108
118 135
145 157
175 180
88 113
125 140
160 189
185 115
162 191
Total 325
462 445
707 678
750 685
1043 966
1211
4
mingguan 80, misalnya ada 5 keluarga yang belanja konsumsi mingguan nya berkisar antara 55 dan 75.
Tabel di atas, memberikan distribusibersyarat conditional distributionY tergantung pada nilai X tertentu.
Tabel di atas menyatakan populasi, sehingga dapat dihitung probabi litas bersyaratconditional probabilities
Y, , probabilitas Y untuk X
tertentu given X, sbb. Untuk X 80, misalnya, ada 5 nilai = 55, 560, 65, 70,
75 . Jadi, dengan = 80, probabilitas untuk
mendapatkan yang manapun dari belanja konsumsi ini adalah
1 5
. Menggunakan lambing,
= 55 = 80 =
1 5
. Probabilitas bersyarat untuk Tabel di atas diberikan :
Tabel Probabilitas bersyarat
� �
X
80 100
120 140
160 180
200 220
240 260
Probabili tas bersya
rat
� 1
5 1
6 1
5 1
7 1
6 1
6 1
5 1
7 1
6 1
7 1
5 1
6 1
5 1
7 1
6 1
6 1
5 1
7 1
6 1
7 1
5 1
6 1
5 1
7 1
6 1
6 1
5 1
7 1
6 1
7 1
5 1
6 1
5 1
7 1
6 1
6 1
5 1
7 1
6 1
7 1
5 1
6 1
5 1
7 1
6 1
6 1
5 1
7 1
6 1
7 1
6 1
7 1
6 1
6 1
7 1
6 1
7 1
7 1
7 1
7 Rerata
bersyarat dari Y
65 77
89 101
113 125
137 149
161 173
Sekarang untuk tiap distribusi probabilitas bersyarat dari Y Anda da pat menghitung rerata hitung atau nilai reratanya, yang dikenal sebagai
rerata bersyarat conditional mean atau harapan bersyarat conditional
5
Harapan bersyarat ini dapat dihitung dengan mengalikan nilai Y yang relevan dalam Tabel pertama dengan probabilitas bersyaratnya pada Tabel kedua dan
menjumlahkan hasil perkalian tadi.
Contoh, rerata hitung bersyarat atau harapan Y untuk X = 80 adalah
1 5
55 + 60 + 65 + 70 + 75 = 65, disajikan padi baris akhir Tabel di atas.
Gambar Distribusi bersyarat belanja konsumsi untuk berbagai tingkat pendapatan
Diagram pencar di atas menunjukkan distribusi bersyarat Y yang ber hubungan dengan berbagai nilai X.
Meskipun ada variasi dalam belanja konsumsi perorangan, Gambar menujuk kan dengan syarat jelas bahwa belanja konsumsi secara rerata meningkat
bersama dsengan peningkatan pendapatan. 80
100 120
140 160
100 150
200
Pendapatan Mingguan, Bel
an ja Kko
n sums
i mi n
g g
u an
,
6
Diagram pencar menunjukkan bahwa rerata bersyarat ini tepat terletak pada garis lurus dengan kemiringan positif. Garis ini dikenal sebagai garis regresi,
atau, lebih umum, kurva regresi. Lebih tepat lagi, garis tadi adalah kurva regresi Y atas X.
Jadi, kurva regresi hanyalah suatu tempat kedudukan rerata bersyarat atau harapan expectation peubah tak bebas untuk nilai tetap fixed peubah
yang menjelaskan.
80 140
220 65
101 149
Rereta yang sesuai
PEndapatan mingguan, B
e lan
ja ko
n su
m si
m in
g g
u an
,
Gambar Garis regresi
7
= PRF
Tiap rerata bersyarat merupakan fungsi dari .
Dengan mengunakan symbol , =
1
dimana menggambarkan sebuah fungsi dari peubah yang menjelaskan
. Persamaan 1 dikenal sebagai fungsi regresi populasi dua-peubah PRF.
Seorang ahli ekonomi mungkin menduga bahwa belanja konsumsi ber hubungan secara liniir dengan pendapatan . Dengan demikian diasumsikan
bahwa PRF merupakan fungsi liniir dari , sebutlah, dari jenis
= +
1
2
dimana
1
parameter yang tak diketahui besarnya tetapi tetap fixed disebut sebagai koefisien regresi ,
1
juga secara berurut-urut dikenal sebagai intercept dan koefisien kemiringan slope coefficient.
Persamaan 2 dikenal sebagai regresi populasi liniir.
Liniiritas Liniiritas dalam Peubah
= +
1 2
bukan fungsi liniir karena peubah X berpangkat 2.
8
Liniiritas dalam Parameter
Fungsi liniir dari parameter dari β , mungkin liniir atau tidak dalam peubah X.
Dalam penafsiran ini, =
+
1 2
adalah fungsi liniir.
= +
1
bukan fungsi liniir non liniir.
Fungsi yang liniir dalam parameter maupun peubah disebut LRM Liniir Regression Model.
Sfesifikasi Stokhastik PRF
Dengan tingkat pendapatan , belanja konsumsi keluarga secara indi
vidu berkelompok di sekitar konsumsi rerata semua keluarga pada pendapatan
, yaitu di sekitar harapan bersyaratnya conditional expectation.
Jadi dapat dinyatakan penyimpangan deviation suatu secara individu
dari nilai yang diharapkannya sbb.: =
− atau
= +
3
9
yang bisa bernilai positif atau negatif. Secara tehnis,
dikenal sebagai gangguan stokhastik stochastic disturbance ,
atau factor kesalahan stokhastik stochastic error term. Sekarang persamaan 3 dapat dituliskan menjadi
= +
1
+ 4
Jadi,belanja konsumsi secara individu untuk X = 80 dapat dinyatakan sebagai :
1
= 55 = +
1
80 +
1
5
= 75 = +
1
80 +
5
5
Sekarang jika persamaan 3 diambil ekspektasinya, diperoleh = +
= +
6
di sini = 0 ,
karena dapat bernilai negatif atau positif, jumlah seluruh sama dengan 0.
1.2
Fungsi Regresi Sampel Sample Regression Function =SRF
Sekarang menaksir PRF atas dasar informasi sampel .
10
masi adalah suatu sampel nilai-nilai Y yang dipilih secara random untuk X yang tetap fixed sbb.:
Tabel Sebuah Sampel Random dari Populasi
Y X
70 80
65 100
90 120
95 140
110 160
115 180
120 200
140 220
155 240
150 260
Apakah dari tabel ini dapat meramal rerata belanja konsumsi ming guan Y dalam populasi keseluruhan sesuai dengan X yang dipilih random ?
Dapatkah PRF ditaksir dari data sampel ? Secara akurat mungkin tidak, karena ada fluktuasi sampling lain sbb.:
Tabel Sampel Random lain dari Populasi
Y X
55 80
88 100
90 120
80 140
114 160
120 180
145 200
135 220
145 240
175 260
11
Diagram pencar kedua tabel di atas dapat dibuat sbb.:
Tak ada satu yang membuat yakin bahwa salah satu dari garis regresi yang ditunjukkan mewakili garis regresi populasi.
Jadi garis regresi sampel ini hanya pendekatan PRF yang sebenarnya.
80
100 120
140 160
180 200
220 260
100 150
200
SRF1 SRF2
Pendapatan mingguan, B
e lan
ja ko n
su m
si m
in g
g u
an ,
Garis regresi didasarkan pada dua sampel berbeda
12
SRF untuk menyatakan garis regresi sampel, sbb.:
= +
1
7
di mana ∧ =
hatatau cap topi =
=
1
=
1
Sebuah penaksir atau statisticsampel, hanya suatu aturan atau formula, atau metode yang mengatakan bagaimana menaksir parameter
populasi dari informasi yang diberikan oleh sampel yang dimiliki. Sebuah nilai angka khusus yang diperoleh oleh penaksir dalam suatu penerap
an disebut taksiran estimate. SRF dapat dinyatakan dalam bentuk stokhastik sbb.:
= +
1
+ 8
di mana factor residualsisi sampel. Dan sebagai taksiran untuk . Jadi tujuan utama analisis regresi adalah untuk menaksir PRF
= +
1
+
atas dasar SRF =
+
1
+ karena analisis lebih sering didasarkan pada suatu sampel dari populasi.
13
SRF :
= +
1
PRF :
= +
1
A
Pendapatan mingguan, Bel
an ja ko
n sums
i mi n
g g
u an
,
Garis regresi sampel dan populasi
14
Dalam SRF, untuk =
, diperoleh = +
9 dan dalam PRF, dapat dinyatakan
= +
10
Soal
1. Banyaknya ahli ekonomi dikelompokkan atas dasar tahun pengalaman
dan umur hanya ahli ekonomi yang bekerja penuh secara profesional
Tahun Pertama
Kelom Pok
umur tahun
2 2-4
5-9 10-14
15-19 20-24
Total
20-24 24
13 1
38 25-29
121 405
184 710
30-34 77
407 825
197 3
1599 35-39
18 125
535 780
194 1
1653 40-44
6 36
161 652
761 235
1851 45-49
1 15
48 183
433 751
1431 50-54
1 5
19 52
119 784
980 55-59
1 2
10 18
27 612
670 60-64
1 3
6 8
382 400
65-69 1
1 2
4 206
214 70-74
1 27
28 Total
250 1099
1787 1890
1550 2998
9574
15
Tabel memberikan frekuensi mutlak bersama joint absolute frequencies peubah umur dan tahun pengalaman. Dengan menggunakan frekuensi relatif
frekuensi mutlak dibagi jumlah total sebagai ukuran probabilitas :
a Dapatkan distribusi probabilitas bersama joint probabilities
distribu tion umur dan tahun pengalaman.
b Dapatkan distribusi probabilitas bersyarat dari umur untuk
berbagai tahun pengalaman. c
Dapatkan distribusi probabilitas bersyarat dari tahun pengalaman untuk berbagai umur.
d Denan menggunakan titik tengah berbagai selang unur dan tahun
pengalaman, dapatkan rerata bersyarat dari distribusi frekuensi yang diperoleh dalam b dan c.
e Jika Anda menghubungkan rerata bersyarat yang ditunjukkan dalam
d, apa yang diperoleh ? f
Apa yang bisa Anda katakana mengenai hubungan antara tahun penga lamn dan umur ?
Petunjuk : Probabilitas Gabungan Joint Probability .
Untuk peubah diskrit : , = =
= = 0
≠ ≠
X mengambil nilai x dan Y mengambil nilai y.
Probabilitas Individual Marginal
16
= , ,
di mana berarti jumlah untuk semua nilai Y.
Harapan Bersyarat
= = =
2. Tentukan apakah model berikut liniir dalam parameter, atau dalam
peubah, atau kedua-duanya. Yang mana dari model-model ini adalah model regresi liniir ?
a =
+
1 1
+ b
= +
1 1
+ c
= +
1 1
+ d
= −
1 1
+ e
=
0 1 1
+ f
= +
1 1
+ g
= + 0.75
−
− 1 −2
+
BAB 2 MODEL REGRESI DUA PEUBAH