Analisis Regresi Data Panel Stata

Analisis Regresi Data Panel (Stata)
Data panel merupakan gabungan data cross section dan time series. Dengan kata lain, data
panel merupakan data dari beberapa individu sama yang diamati dalam kurun waktu tertentu.
Jika kita memiliki T periode waktu (t = 1,2,...,T) dan N jumlah individu (i = 1,2,...,N), maka
dengan data panel kita akan memiliki total unit observasi sebanyak NT. Jika jumlah unit
waktu sama untuk setiap individu, maka data disebut balanced panel. Jika sebaliknya, yakni
jumlah unit waktu berbeda untuk setiap individu, maka disebut unbalanced panel.
Pembahasan lebih lengkap tentang data panel secara teoritis, bisa dilihat di sini.
Contoh kasus:
Seorang peneliti manajemen melakukan penelitian tentang pengaruh faktor non finansial
(persentase kepemilikan, komisaris independen, dan rasio auditor) terhadap nilai perusahaan.
Peneliti ini mengumpulkan data dari 5 perusahaan dengan menggunakan laporan keuangan
dari tahun 2008-2012. Berikut adalah data yang terkumpul:
No

Tahun

1
1
1
1

1
2
2
2
2
2
3
3
3
3
3
4
4
4
4
4
5
5
5
5

5

2008
2009
2010
2011
2012
2008
2009
2010
2011
2012
2008
2009
2010
2011
2012
2008
2009
2010

2011
2012
2008
2009
2010
2011
2012

K_AU
UK
4
4
4
4
4
3
3
4
4
3

5
5
5
5
5
3
3
3
3
3
10
10
11
11
11

K_IND
0.50
0.50
0.50

0.50
0.50
0.33
0.33
0.25
0.25
0.33
0.40
0.40
0.40
0.40
0.40
0.33
0.33
0.33
0.33
0.33
0.50
0.50
0.45

0.45
0.36

D
0.75
0.75
1.00
0.75
0.75
1.00
1.00
1.00
1.00
1.00
0.40
0.60
0.60
0.60
0.60
1.00

1.00
1.00
1.00
1.00
0.40
0.40
0.36
0.36
0.33

NP
0.99
1.97
3.65
4.41
6.86
0.61
0.79
0.96
1.33

1.37
0.14
0.30
0.98
1.91
1.29
0.29
0.38
0.71
1.10
1.26
0.59
1.62
2.02
2.03
1.78

Bagaimana menggunakan software Stata untuk menganalisis data panel di atas? Begini
caranya:
1. Entri data tersebut di Stata sesuai format di atas dan langsung beri nama yang sesuai untuk

setiap variabel
2. kemudian set data ini sebagai data panel dengan cara ketik sintaks berikut:
xtset no tahun
format umum sintaks ini adalah : xtset nama_individu waktu
3. Untuk menghasilkan statistik deskriptif data ini, bisa dilakukan dengan mengetik sintaks
berikut:
xtsum np uk k_ind k_aud
Maka akan keluar output sebagai berikut:

4. Dalam data panel terdapat 3 model, berikut adalah cara me-running ketiga model tersebut
serta menyimpan errornya untuk digunakan pengujian.
A. Common Effect
Format umum sintaks yang digunakan adalah:
regress vardependen varindep1 varindep2 varindep3…..
Sehingga sintaks untuk data ini adalah:
regress np uk k_ind k_aud
Akan keluar output sebagai berikut:

Selanjutnya, kita akan simpan residual dari persamaan ini agar nanti bisa digunakan untuk
pengujian asumsi klasik

Sintaks umum untuk menyimpan residual dari model common effect adalah:
predict nama_residual, r
Misalnya kita akan member nama residual model kita tadi sebagai resid, maka sintaksnya:
predict resid, r
B. Fixed Effect
Format umum sintaks yang digunakan adalah:
xtreg vardependen varindep1 varindep2 varindep3, fe
Sehingga sintaks untuk data ini adalah:
xtreg np uk k_ind k_aud, fe
Akan keluar output sebagai berikut:

Selanjutnya, kita akan simpan residual dari persamaan ini agar nanti bisa digunakan untuk
pengujian hausman test

Sintaks umum untuk menyimpan residual dari model fixed effect adalah:
estimates store nama_residual
Misalnya kita akan member nama residual model kita tadi sebagai fixed, maka sintaksnya:
estimates store fixed
B. Random Effect
Format umum sintaks yang digunakan adalah:

xtreg vardependen varindep1 varindep2 varindep3, re
Sehingga sintaks untuk data ini adalah:
xtreg np uk k_ind k_aud, re
Akan keluar output sebagai berikut:

Selanjutnya, kita akan simpan residual dari persamaan ini agar nanti bisa digunakan untuk
pengujian hausman test
Sintaks umum untuk menyimpan residual dari model random effect adalah:
estimates store nama_residual
Misalnya kita akan member nama residual model kita tadi sebagai random, maka sintaksnya:
estimates store random
5. Pemilihan Model
Untuk memilih model terbaik dari ketiga model tersebut, maka terdapat beberapa uji.
A. Chow Test
Chow Test digunakan untuk membandingkan antara model common effect dan fixed effect.
Nilai yang digunakan adalah nilai rho pada model fixed effect. Jika nilai rho > 0.5 maka
model fixed effect lebih baik daripada model common effect, jika yang terjadi sebaliknya,
maka model common effect lebih baik daripada model fixed effect

Dari hasil tersebut, untuk data ini, model fixed effect lebih baik daripada model common
effect.
B. LM Test
LM Test digunakan untuk membandingkan antara model common effect dan random effect.
Sintaks yang dipergunakan adalah:
xttest0
Maka akan keluar output sebagai berikut:

Untuk memutuskan mana model yang lebih baik, bisa dilihat dari nilai prob> chi2. Jika nilai
prob>chi2 lebih kecil dari tingkat signifikansi, maka model random effect lebih baik. Jika
sebaliknya, maka common effect lebih baik.
C. Hausman Test
Hausman Test digunakan untuk membandingkan antara model random effect dan fixed effect.
Sintaks umum yang dipergunakan adalah:
hausman nama_residual_fixed nama_residual_random
sehingga sintaks untuk data kita adalah:
hausman fixed random

Maka akan keluar output sebagai berikut:

Untuk memutuskan mana model yang lebih baik, bisa dilihat dari nilai prob> chi2. Jika nilai
prob>chi2 lebih kecil dari tingkat signifikansi, maka model fixed effect lebih baik. Jika
sebaliknya, maka random effect lebih baik.
6. Pengujian Asumsi Klasik
Pengujian asumsi klasik biasanya dilakukan setelah running common effect. Hal ini
dilakukan untuk menghindari adanya kesalahan penggunaan residual. Berikut adalah
langkah-langkah pengujian asumsi klasik:
A. Non Multikolinieritas
Sintaksny sangat sederhana, ketik saja:
vif
Maka akan keluar output sebagai berikut:

Apabila tidak terdapat nilai VIF yang lebih besar dari 10, maka dapat dikatakan bahwa model
memenuhi asumsi non multikolinieritas.
B. Homoskedastisitas
Pengujian asumsi ini dapat dilakukan dengan menggunakan sintaks:
hettest
Sehingga akan keluar output seperti ini:

Jika nilai prob>chi2 lebih kecil dari tingkat signifikansi, maka mengindikasikan terjadinya
heteroskedastisitas atau pelanggaran asumsi homoskedastisitas.
C. Non Autokorelasi
Format umum sintaks yang digunakan adalah:
xtserial vardependen varindep1 varindep2 varindep3
Sehingga sintaks untuk data ini adalah:
xtserial np uk k_ind k_aud
Maka akan keluar output sebagai berikut:

Jika nilai prob>chi2 lebih kecil dari tingkat signifikansi, maka mengindikasikan terjadinya
autokorelasi atau pelanggaran asumsi non autokorelasi.
D. Normalitas
Format umum sintaks yang digunakan adalah:
summarize nama_residual
ksmirnov nama_residual = normal(( nama_residual-r(mean))/r(sd))
Sehingga sintaks untuk data ini adalah:
summarize resid
ksmirnov resid = normal(( resid-r(mean))/r(sd))

Maka

akan

keluar

output

sebagai

berikut:

Model memenuhi asumsi kenormalan apabila nilai combined K-S lebih besar dari nilai
signifikansi (α).
OLS (Ordinary Least Square)
Pengertian OLS (Ordinary Least Square) adalah suatu metode ekonometrik dimana terdapat
variable independen yang merupakan variable penjelas dan variable dependen yaitu variable
yang dijelaskan dalam suatu persamaan linier. Dalam OLS hanya terdapat satu variable
dependen, sedangkan untuk variable independen jumlahnya bisa lebih dari satu. Jika variable
bebas yang digunakan hanya satu disebut dengan regresi linier sederhana, sedangkan jika
variable bebas yang digunakan lebih dari satu disebut sebagai regresi linier majemuk. OLS
merupakan metode regresi yang meminimalkan jumlah kesalahan (error) kuadrat. Model
regresi linier yang dipakai dengan metode OLS tersebut, harus memenuhi asumsi BLUE
(Best Linear Unbiased Estimator) dalam melakukan pendugaan interval dan pengujian
parameter regresi populasi. Asumsi-asumsi BLUE antara lain:


Model regresi linier pada parameter-parameternya.



Variable bebas bukan stokastik (memiliki nilai yang tetap untuk sampel yang
berulang) dan tidak ada hubungan linier yang persis antara dua atau lebih peubahpeubah bebas (no-multicolinearity).



Error term mempunyai nilai harapan nol, E(εi) = 0



Error

term

atau

mempunyai

(homoskedasticity), E(ε2) = σ2

varians

konstan

untuk

semua

observasi



Error term pada suatu observasi tidak berhubungan dengan error term pada observasi
lain.(no-autocorrelation)



Error term berdistribusi normal

Multikolinearitas
Multikolinearitas adalah kondisi terdapatnya hubungan linier atau korelasi yang tinggi antara
masing-masing variabel independen dalam model regresi. Multikolinearitas biasanya terjadi
ketika sebagian besar variabel yang digunakan saling terkait dalam suatu model regresi. Oleh
karena itu masalah multikolinearitas tidak terjadi pada regresi linier sederhana yang hanya
melibatkan satu variabel independen.
Indikasi terdapat masalah multikolinearitas dapat kita lihat dari kasus-kasus sebagai berikut:
1. Nilai R2 yang tinggi (signifikan), namun nilai standar error dan tingkat signifikansi masingmasing variabel sangat rendah.
2. Perubahan kecil sekalipun pada data akan menyebabkan perubahan signifikan pada
variabel yang diamati.
3. Nilai koefisien variabel tidak sesuai dengan hipotesis, misalnya variabel yang seharusnya
memiliki pengaruh positif (nilai koefisien positif), ditunjukkan dengan nilai negatif.
Memang belum ada kriteria yang jelas dalam mendeteksi masalah multikolinearitas dalam
model regresi linier. Selain itu hubungan korelasi yang tinggi belum tentu berimplikasi
terhadap masalah multikolinearitas. Tetapi kita dapat melihat indikasi multikolinearitas
dengan tolerance value (TOL), eigen value, dan yang paling umum digunakan adalah varians
inflation factor (VIF).
Hingga saat ini tidak ada kriteria formal untuk menentukan batas terendah dari nilai toleransi
atau VIF. Beberapa ahli berpendapat bahwa nilai toleransi kurang dari 1 atau VIF lebih besar
dari 10 menunjukkan multikolinearitas signifikan, sementara itu para ahli lainnya
menegaskan bahwa besarnya R2 model dianggap mengindikasikan adanya multikolinearitas.
Klein (1962) menunjukkan bahwa, jika VIF lebih besar dari 1/(1 – R 2) atau nilai toleransi
kurang dari (1 – R2), maka multikolinearitas dapat dianggap signifikan secara statistik.
Heteroskedastisitas
Uji heteroskedastisitas digunakan untuk mengetahui ada atau tidaknya penyimpangan asumsi
klasik heteroskedastisitas yaitu adanya ketidaksamaan varian dari residual untuk semua
pengamatan pada model regresi.

Heteroskedastisitas merupakan salah satu faktor yang menyebabkan model regresi linier
sederhana tidak efisien dan akurat, juga mengakibatkan penggunaan metode kemungkinan
maksimum dalam mengestimasi parameter (koefisien) regresi akan terganggu.
Gasperz, Vincent (1991) mengatakan bahwa heteroskedastisitas dapat mengakibatkan
pendugaan parameternya tidak efisien sehingga tidak mempunyai ragam minimum. Karena
pendugaan parameter dianggap efisien karena memiliki ragam yang minimum, sehingga
ragam bersifat konstan atau disebut juga bahwa asumsi homoskedastisitas terpenuhi. Salah
satu

usaha

untuk

mengatasi

heteroskedastisitas

ini

dapat

dilakukan

dengan

mentransformasikan variabel – variabelnya, baik variabel bebas, variabel tidak bebas maupun
keduanya agar asumsi homoskedastisitas terpenuhi.
Dampak yang akan terjadi apabila terdapat keadaan heterokedastisitas adalah sulit mengukur
standart deviasi yang sebenarnya, dapat menghasilkan standart deviasi yang terlalu lebar
maupun terlalu sempit. Jika tingkat error dari varians terus bertambah, maka tingkat
kepercayaan akan semakin sempit. Prasyarat yang harus terpenuhi dalam model regresi
adalah tidak adanya gejala heteroskedastisitas.
Autokorelasi
Uji autokorelasi digunakan untuk mengetahui ada atau tidaknya penyimpangan asumsi klasik
autokorelasi yaitu korelasi yang terjadi antara residual pada satu pengamatan dengan
pengamatan lain pada model regresi. Prasyarat yang harus terpenuhi adalah tidak adanya
autokorelasi dalam model regresi.
Normalitas
Uji distribusi normal adalah uji untuk mengukur apakah data yang didapatkan memiliki
distribusi normal sehingga dapat dipakai dalam statistik parametrik (statistik inferensial).
Dengan kata lain, uji normalitas adalah uji untuk mengetahui apakah data empirik yang
didapatkan dari lapangan itu sesuai dengan distribusi teoritik tertentu. Dalam kasus ini,
distribusi normal. Dengan kata lain, apakah data yang diperoleh berasal dari populasi yang
berdistribusi normal.
Tes-tes parametrik untuk uji normalitas dibangun dari distribusi normal. Jika kita lihat suatu
tabel, misalnya tabel t-tes, pembuatannya mengacu pada tebel normalitas. Kita bisa berasumsi
bahwa sampel kita bener-bener mewakili populasi sehingga hasil penelitian kita bisa
digeneralisasikan pada populasi. Dalam pandangan statistic, sifat dan karakteristik populasi
adalah terdistribusi secara normal.
Fixed Effect Method dan Random Effect Method

Perbedaan utama antara FEM dan REM terletak pada perlakuan terhadap intercept. Pada
FEM setiap unit cross-section memiliki nilai intercept tersendiri yang fixed. Sedangkan pada
REM intercept a merepresentasikan nilai rata-rata dari seluruh cross-sectional intercept dan
error components (ui) merepresentasikan deviasi acak intercept individu dari nilai intercept
rata-rata.