ANALISIS REGRESI DUA PEUBAH

1

BAB 1 ANALISIS REGRESI DUA PEUBAH

Istilah Regresi Istilah regresi diperkenalkan oleh FRANCIS GALTON. Penjelasannya adalah bahwa ada kecenderungan bagi rerata tinggi anak-anak dengan orang tua yang mempunyai tinggi tertentu untuk bergerak atau mundur regress kea rah tinggi rerata seluruh populasi. KARL PEARSON mengumpulkan lebih 1000 catatan tinggi anggota kelom pok keluarga. Ia menemukan bahwa rerata tinggi anak leleki kelompok ayah yang tinggi kurang daripada tinggi ayah mereka dan rerata tinggi anak lelaki kelompok ayah yang pendek lebih besar dari pada tinggi ayahnya, jadi “mundurnya” “regressing” anak lelaki yang tinggi maupun yang pendek serupa kea rah rerata tinggi semua lelaki. Ketergantungan Statistik vs Fungsional Dalam analisis regresi perhatian diarahkan pada apa yang dikenal dengan ketergantungan antara peubah yang bersifat statistic, bukannya fungsional bersifat fungsi atau deterministic, seperti pada ilmu fisika klasik. Dalam hubungan di antara peubah yang bersifat statistic pada dasarnya menghadapi peubah random acak atau stokastik, yaitu peubah yang mempunyai distribusi probabilistas. Ketergantungan panen pada suhu, curah hujan, sinar matahari, dan pupuk, misalnya, pada dasarnya bersifat statistic dalam arti bahwa peubah yang menjelaskan explanotary variables, meskipun jelas penting, tidak akan memungkinkan ahli agronomi untuk untuk meramalkan hasil panen secara akurat karena kesalahan yang terdapat tersangkut dalam pengukuran peubah- peubah ini dan juga sekelompok factor peubah lain yang secara bersama-sama memengaruhi hasil panen tadi tetapi mungkin sulit untuk dikenal secara perorangan individual. 2 Regresi VS Korelasi Analisis korelasi tujuan utamanya adalah untuk mengukur kuat atau derajat hubungan linier antara dua peubah. Analisis regresi berusaha untuk menaksir atau meramal nilai rerata sebuah peubah atas dasar nilai yang tetap peubah-peubah lain ceteris paribus. Istilah dan Notasi Dalam berbagai literature istilah peubah tak bebas dependent varia ble dan peubah yang menjelaskan explanotary variable digambarkan de ngan berbagai cara, sbb. : Peubah tak bebas Peubah yang menjelaskan Depandentvariable Explanotory variable   Peubah yang dijelaskan Peubah bebas Explained variablr Independent variable   Yang diramalkan Peramal Predictand Predictor   Yang diregresi Yang meregresi Regressand Regressor   Tanggapan Perangsang atau peubah kendali 3 Contoh Hipotesis Analisis regresi terutama berkenaan dengan penaksiran danatau peramalan nilai rerata hitung atau nilai rerata pupulasi peubah tak bebas atas dasar nilai peubah yang menjelaskan yang tetap fixed atau diketahui. Bayangkanlah Negara hipotesis dengan total penduduk populasi 60 keluarga. Misalnya Anda ingin berminat mempelajari hubungan antara belanja konsumsi keluarga mingguan Y dan pendapatan keluarga yang dapat dibelanjakan disposable atau setelah dipotong pajak mingguan X. Asumsikan Anda ingin meramalkan rerata populasi tingkat belanja konsumsi mingguan dengan mengetahui pendapatan mingguan keluarga itu. Untuk tujuan itu, misalkan Anda membagi 60 keluarga ke dalam 10 kelompok dari keluarga yang pendapatannya kira-kira sama dan memeriksa belanja konsumsi keluarga yang pendapatannya kira-kira sama dan memeriksa belanja konsumsi keluarga dalam tiap kelompok pendapatan ini. Tabel berikut berisi hanya tingkat pendapatan yang benar-benar diamati. Tabel Pendapatan keluarga mingguan X, Y  X 80 100 120 140 160 180 200 220 240 260 belanja konsumsi keluarga mingguan Y, 55 65 79 80 102 110 120 135 137 150 60 70 84 93 107 115 136 137 145 152 65 74 90 95 110 120 140 140 155 175 70 80 94 103 116 130 144 152 165 176 75 85 98 108 118 135 145 157 175 180 88 113 125 140 160 189 185 115 162 191 Total 325 462 445 707 678 750 685 1043 966 1211 4 mingguan 80, misalnya ada 5 keluarga yang belanja konsumsi mingguan nya berkisar antara 55 dan 75. Tabel di atas, memberikan distribusibersyarat conditional distributionY tergantung pada nilai X tertentu. Tabel di atas menyatakan populasi, sehingga dapat dihitung probabi litas bersyaratconditional probabilities Y, , probabilitas Y untuk X tertentu given X, sbb. Untuk X 80, misalnya, ada 5 nilai = 55, 560, 65, 70, 75 . Jadi, dengan = 80, probabilitas untuk mendapatkan yang manapun dari belanja konsumsi ini adalah 1 5 . Menggunakan lambing, = 55 = 80 = 1 5 . Probabilitas bersyarat untuk Tabel di atas diberikan : Tabel Probabilitas bersyarat � � X  80 100 120 140 160 180 200 220 240 260 Probabili tas bersya rat � 1 5 1 6 1 5 1 7 1 6 1 6 1 5 1 7 1 6 1 7 1 5 1 6 1 5 1 7 1 6 1 6 1 5 1 7 1 6 1 7 1 5 1 6 1 5 1 7 1 6 1 6 1 5 1 7 1 6 1 7 1 5 1 6 1 5 1 7 1 6 1 6 1 5 1 7 1 6 1 7 1 5 1 6 1 5 1 7 1 6 1 6 1 5 1 7 1 6 1 7 1 6 1 7 1 6 1 6 1 7 1 6 1 7 1 7 1 7 1 7 Rerata bersyarat dari Y 65 77 89 101 113 125 137 149 161 173 Sekarang untuk tiap distribusi probabilitas bersyarat dari Y Anda da pat menghitung rerata hitung atau nilai reratanya, yang dikenal sebagai rerata bersyarat conditional mean atau harapan bersyarat conditional 5 Harapan bersyarat ini dapat dihitung dengan mengalikan nilai Y yang relevan dalam Tabel pertama dengan probabilitas bersyaratnya pada Tabel kedua dan menjumlahkan hasil perkalian tadi. Contoh, rerata hitung bersyarat atau harapan Y untuk X = 80 adalah 1 5 55 + 60 + 65 + 70 + 75 = 65, disajikan padi baris akhir Tabel di atas. Gambar Distribusi bersyarat belanja konsumsi untuk berbagai tingkat pendapatan Diagram pencar di atas menunjukkan distribusi bersyarat Y yang ber hubungan dengan berbagai nilai X. Meskipun ada variasi dalam belanja konsumsi perorangan, Gambar menujuk kan dengan syarat jelas bahwa belanja konsumsi secara rerata meningkat bersama dsengan peningkatan pendapatan. 80 100 120 140 160 100 150 200 Pendapatan Mingguan, Bel an ja Kko n sums i mi n g g u an , 6 Diagram pencar menunjukkan bahwa rerata bersyarat ini tepat terletak pada garis lurus dengan kemiringan positif. Garis ini dikenal sebagai garis regresi, atau, lebih umum, kurva regresi. Lebih tepat lagi, garis tadi adalah kurva regresi Y atas X. Jadi, kurva regresi hanyalah suatu tempat kedudukan rerata bersyarat atau harapan expectation peubah tak bebas untuk nilai tetap fixed peubah yang menjelaskan. 80 140 220 65 101 149 Rereta yang sesuai PEndapatan mingguan, B e lan ja ko n su m si m in g g u an , Gambar Garis regresi 7 = PRF Tiap rerata bersyarat merupakan fungsi dari . Dengan mengunakan symbol , = 1 dimana menggambarkan sebuah fungsi dari peubah yang menjelaskan . Persamaan 1 dikenal sebagai fungsi regresi populasi dua-peubah PRF. Seorang ahli ekonomi mungkin menduga bahwa belanja konsumsi ber hubungan secara liniir dengan pendapatan . Dengan demikian diasumsikan bahwa PRF merupakan fungsi liniir dari , sebutlah, dari jenis = + 1 2 dimana 1 parameter yang tak diketahui besarnya tetapi tetap fixed disebut sebagai koefisien regresi , 1 juga secara berurut-urut dikenal sebagai intercept dan koefisien kemiringan slope coefficient. Persamaan 2 dikenal sebagai regresi populasi liniir. Liniiritas Liniiritas dalam Peubah = + 1 2 bukan fungsi liniir karena peubah X berpangkat 2. 8 Liniiritas dalam Parameter Fungsi liniir dari parameter dari β , mungkin liniir atau tidak dalam peubah X. Dalam penafsiran ini, = + 1 2 adalah fungsi liniir. = + 1 bukan fungsi liniir non liniir. Fungsi yang liniir dalam parameter maupun peubah disebut LRM Liniir Regression Model. Sfesifikasi Stokhastik PRF Dengan tingkat pendapatan , belanja konsumsi keluarga secara indi vidu berkelompok di sekitar konsumsi rerata semua keluarga pada pendapatan , yaitu di sekitar harapan bersyaratnya conditional expectation. Jadi dapat dinyatakan penyimpangan deviation suatu secara individu dari nilai yang diharapkannya sbb.: = − atau = + 3 9 yang bisa bernilai positif atau negatif. Secara tehnis, dikenal sebagai gangguan stokhastik stochastic disturbance , atau factor kesalahan stokhastik stochastic error term. Sekarang persamaan 3 dapat dituliskan menjadi = + 1 + 4 Jadi,belanja konsumsi secara individu untuk X = 80 dapat dinyatakan sebagai : 1 = 55 = + 1 80 + 1 5 = 75 = + 1 80 + 5 5 Sekarang jika persamaan 3 diambil ekspektasinya, diperoleh = + = + 6 di sini = 0 , karena dapat bernilai negatif atau positif, jumlah seluruh sama dengan 0. 1.2 Fungsi Regresi Sampel Sample Regression Function =SRF Sekarang menaksir PRF atas dasar informasi sampel . 10 masi adalah suatu sampel nilai-nilai Y yang dipilih secara random untuk X yang tetap fixed sbb.: Tabel Sebuah Sampel Random dari Populasi Y X 70 80 65 100 90 120 95 140 110 160 115 180 120 200 140 220 155 240 150 260 Apakah dari tabel ini dapat meramal rerata belanja konsumsi ming guan Y dalam populasi keseluruhan sesuai dengan X yang dipilih random ? Dapatkah PRF ditaksir dari data sampel ? Secara akurat mungkin tidak, karena ada fluktuasi sampling lain sbb.: Tabel Sampel Random lain dari Populasi Y X 55 80 88 100 90 120 80 140 114 160 120 180 145 200 135 220 145 240 175 260 11 Diagram pencar kedua tabel di atas dapat dibuat sbb.: Tak ada satu yang membuat yakin bahwa salah satu dari garis regresi yang ditunjukkan mewakili garis regresi populasi. Jadi garis regresi sampel ini hanya pendekatan PRF yang sebenarnya. 80 100 120 140 160 180 200 220 260 100 150 200 SRF1 SRF2 Pendapatan mingguan, B e lan ja ko n su m si m in g g u an , Garis regresi didasarkan pada dua sampel berbeda 12 SRF untuk menyatakan garis regresi sampel, sbb.: = + 1 7 di mana ∧ = hatatau cap topi = = 1 = 1 Sebuah penaksir atau statisticsampel, hanya suatu aturan atau formula, atau metode yang mengatakan bagaimana menaksir parameter populasi dari informasi yang diberikan oleh sampel yang dimiliki. Sebuah nilai angka khusus yang diperoleh oleh penaksir dalam suatu penerap an disebut taksiran estimate. SRF dapat dinyatakan dalam bentuk stokhastik sbb.: = + 1 + 8 di mana factor residualsisi sampel. Dan sebagai taksiran untuk . Jadi tujuan utama analisis regresi adalah untuk menaksir PRF = + 1 + atas dasar SRF = + 1 + karena analisis lebih sering didasarkan pada suatu sampel dari populasi. 13 SRF : = + 1 PRF : = + 1 A Pendapatan mingguan, Bel an ja ko n sums i mi n g g u an , Garis regresi sampel dan populasi 14 Dalam SRF, untuk = , diperoleh = + 9 dan dalam PRF, dapat dinyatakan = + 10 Soal

1. Banyaknya ahli ekonomi dikelompokkan atas dasar tahun pengalaman

dan umur hanya ahli ekonomi yang bekerja penuh secara profesional Tahun Pertama Kelom Pok umur tahun 2 2-4 5-9 10-14 15-19 20-24 Total 20-24 24 13 1 38 25-29 121 405 184 710 30-34 77 407 825 197 3 1599 35-39 18 125 535 780 194 1 1653 40-44 6 36 161 652 761 235 1851 45-49 1 15 48 183 433 751 1431 50-54 1 5 19 52 119 784 980 55-59 1 2 10 18 27 612 670 60-64 1 3 6 8 382 400 65-69 1 1 2 4 206 214 70-74 1 27 28 Total 250 1099 1787 1890 1550 2998 9574 15 Tabel memberikan frekuensi mutlak bersama joint absolute frequencies peubah umur dan tahun pengalaman. Dengan menggunakan frekuensi relatif frekuensi mutlak dibagi jumlah total sebagai ukuran probabilitas : a Dapatkan distribusi probabilitas bersama joint probabilities distribu tion umur dan tahun pengalaman. b Dapatkan distribusi probabilitas bersyarat dari umur untuk berbagai tahun pengalaman. c Dapatkan distribusi probabilitas bersyarat dari tahun pengalaman untuk berbagai umur. d Denan menggunakan titik tengah berbagai selang unur dan tahun pengalaman, dapatkan rerata bersyarat dari distribusi frekuensi yang diperoleh dalam b dan c. e Jika Anda menghubungkan rerata bersyarat yang ditunjukkan dalam d, apa yang diperoleh ? f Apa yang bisa Anda katakana mengenai hubungan antara tahun penga lamn dan umur ? Petunjuk : Probabilitas Gabungan Joint Probability . Untuk peubah diskrit : , = = = = 0 ≠ ≠ X mengambil nilai x dan Y mengambil nilai y. Probabilitas Individual Marginal 16 = , , di mana berarti jumlah untuk semua nilai Y. Harapan Bersyarat = = =

2. Tentukan apakah model berikut liniir dalam parameter, atau dalam

peubah, atau kedua-duanya. Yang mana dari model-model ini adalah model regresi liniir ? a = + 1 1 + b = + 1 1 + c = + 1 1 + d = − 1 1 + e = 0 1 1 + f = + 1 1 + g = + 0.75 − − 1 −2 +

BAB 2 MODEL REGRESI DUA PEUBAH