PROS Timbang Sirait Kesalahan Spesifikasi Model fulltext
Prosiding Seminar Nasional Sains dan Pendidikan Sains IX, Fakultas Sains dan Matematika, UKSW
Salatiga, 21 Juni 2014, Vol 5, No.1, ISSN :2087-0922
OVERDISPERSI KARENA KESALAHAN SPESIFIKASI MODEL DAN
CARA MENGATASINYA
Timbang Sirait
Departemen Statistika FMIPA-IPB
Email: timbang_sirait@yahoo.com
ABSTRAK
Ada beberapa penyebab terjadinya overdispersi, salah satunya adalah karena kesalahan spesifikasi model.
Kesalahan spesifikasi model dapat terjadi apabila peubah penjelas yang seharusnya ada di dalam model tidak
dimasukkan di dalam model. Disamping itu, dapat juga terjadi dikarenakan kesalahan dalam menentukan fungsi
hubung. Penelitian ini difokuskan pada kesalahan karena peubah penjelas tidak dimasukkan di dalam model.
Adanya overdispersi dapat mengakibatkan kesimpulan yang diambil menjadi tidak benar, karena nilai ragam yang
lebih besar dari yang seharusnya. Model regresi yang digunakan untuk menjelaskan hubungan antara peubah
penjelas dan peubah respon yang memiliki sebaran Poisson adalah model regresi Poisson. Dengan demikian data
yang digunakan pada penelitian ini adalah data cacah. Penelitian ini bertujuan untuk mengetahui overdispersi yang
disebabkan oleh kesalahan spesifikasi model serta cara mengatasinya menggunakan regresi Binomial Negatif. Ada
empat peubah yang digunakan yaitu satu peubah respon dan tiga peubah penjelas. Pemodelan pertama
menggunakan satu peubah respon dan tiga peubah penjelas (Model I). Pemodelan kedua menggunakan satu
peubah respon dan dua peubah penjelas, yang mana satu peubah penjelas diabaikan (Model II). Hasil penelitian
menunjukkan bahwa rasio devians dari Model I selalu lebih kecil dari Model II. Hasil ini menunjukkan bahwa
dengan tidak dimasukkannya peubah penjelas yang seharusnya ada di dalam model menyebabkan rasio devians
pada Model II menjadi bertambah. Ini membuktikan bahwa kesalahan spesifikasi model menyebabkan
overdispersi. Penambahan sampel tidak menyelesaikan permasalahan overdispersi yang disebabkan oleh kesalahan
spesifikasi model pada data cacah. Apalagi, pengaruh dari peubah penjelas yang diabaikan cukup besar. Namun,
permasalahan overdispersi ini dapat diatasi menggunakan model regresi Binomial Negatif.
Kata-kata kunci: data cacah, devians, model regresi Binomial Negatif, model regresi Poisson, overdispersi.
PENDAHULUAN
Analisis regresi merupakan teknik statistika
yang banyak digunakan untuk menyelidiki
hubungan antara peubah respon dengan satu atau
lebih peubah penjelas. Apabila peubah responnya
menyebar Poisson, maka model regresi yang
digunakan adalah model regresi Poisson. Jenis
data yang digunakan dalam analisis regresi
Poisson adalah data cacah (count data).
Model regresi Poisson memiliki asumsi
bahwa nilai tengah dan ragam bernilai sama atau
dikatakan equidispersi [1]. Apabila nilai tengah
dan ragam tidak sama maka telah terjadi
permasalahan overdispersi/ underdispersi. Jika
nilai ragam lebih besar dari nilai tengah maka
terjadi overdispersi, dan sebaliknya terjadi
underdispersi.
Permasalahan
overdispersi/
underdispersi dapat menimbulkan kesalahan
dalam menarik kesimpulan. Apabila terjadi
overdispersi maka keputusannya akan selalu
menolak hipotesis, sedangkan jika terjadi
underdispersi maka keputusannya akan selalu
gagal untuk menolak hipotesis [2].
[3-10] menjelaskan bahwa overdispersi/
underdispersi pada data cacah dapat diatasi
menggunakan regresi Poisson terampat, regresi
Binomial Negatif, atau Zero-Inflated Binomial
Negative (ZINP).
[11] menyatakan bahwa overdispersi dapat
disebabkan oleh (1) kesalahan spesifikasi model
(misalnya mengabaikan peubah penjelas, yang
mana peubah tersebut tidak dimasukkan di dalam
model atau kesalahan dalam menentukan fungsi
hubung (link function)), atau struktur yang lebih
kompleks; (2) antar peubah respon saling
berkorelasi atau peubah respon tidak saling bebas
(independen).
Terjadinya
overdispersi
menyebabkan varians peubah respon lebih besar
dari varian yang seharusnya. Satu pendekatan
dalam mengatasinya yaitu memasukkan parameter
dispersi a ke dalam model. [8] juga
mengungkapkan bahwa penambahan peubah
penjelas pada model dapat menurunkan nilai
devians (deviance), yang menjadi alat ukur dalam
menentukan terjadi tidaknya overdispersi.
Penelitian ini bertujuan untuk mengetahui
overdispersi yang disebabkan oleh kesalahan
spesifikasi model serta cara mengatasinya
menggunakan regresi Binomial Negatif dengan
data bangkitan dari sebaran Poisson.
BAHAN DAN METODE
Bahan
695
Prosiding Seminar Nasional Sains dan Pendidikan Sains IX, Fakultas Sains dan Matematika, UKSW
Salatiga, 21 Juni 2014, Vol 5, No.1, ISSN :2087-0922
Bahan dalam melakukan pembentukan model
dilakukan dengan 4 langkah berikut:
(1). Misalkan terdapat peubah respon Yi dan
tiga peubah penjelas X i1 , X i 2 , X i 3 yang
ditetapkan sebelumnya. Terdapat hubungan antara
Yi dan X i1 , X i 2 , X i 3 dengan nilai tengah
i exp 0 1 xi1 2 xi 2 3 xi 3
(1)
exp xTi β
i 1, , n.
peubah penjelas X i 3 diabaikan atau tidak
dimasukkan di dalam model (disebut Model II),
maka berdasarkan hubungan ini diperoleh
persamaan
log yi 0 1 xi1 2 xi 2
(3)
xTi β
i 1, , n.
dimana
β 0 1 2
T
xi 1 xi1
dimana
β 0
1 2
xi 1 xi1
xi 2
3
Geometrik 12
xi 3
T
j 1,2,3.
untuk
Pembangkitan data terhadap X ij hanya dilakukan
sekali saja, dan nilainya digunakan untuk
pembangkitan data Yi dari sebaran Poisson i
yang diulang sebanyak 10 kali. Model yang
diusulkan ini diasumsikan tanpa overdispersi
dengan data yang dibangkitkan sebanyak n 100
dan n 10.000.
(2). Setelah data bangkitan Yi diperoleh,
dilakukan pemodelan menggunakan model regresi
Poisson antara peubah respon Yi dengan peubah
penjelas X i1 , X i 2 , dan X i 3 (disebut Model I).
Berdasarkan hubungan ini didapatkan persamaan
log yi 0 1 xi1 2 xi 2 3 xi 3
(2)
xTi β
i 1, , n.
dimana
β 0 1 2 3
T
xi 1 xi1
xi 2
T
0 , 1 , 2
T
Selanjutnya mengambil dua buah nilai 0
yaitu 0 dan 1, 1 2, 2 1,5, tiga buah nilai 3
yaitu 0,75, 0,5, dan 0,25 serta mengambil nilai
X ij
melalui
pembangkitan
data
X ij
xi 2
xi 3
T
0 , 1 , 2 , 3 diduga menggunakan penduga
kemungkinan maksimum (PKM) yang diperoleh
dengan prosedur iterative weighted least square
(IWLS), dan masing-masing penduganya adalah
b0 , b1 , b2 , b3 .
(3).
Kemudian
dilakukan
pemodelan
menggunakan model regresi Poisson antara
peubah respon Yi dengan dua peubah penjelas
(peubah penjelas yang dipilih dilihat dari tingkat
kesignifikansiannya). Dalam artian, peubah
penjelas dengan tingkat signifikansi yang paling
tinggi dikeluarkan dari dalam model. Misalkan
diduga menggunakan PKM yang
diperoleh dengan prosedur IWLS, dan masingmasing penduganya adalah b0 , b1 , b2 .
(4).
Kemudian
dilakukan
pemodelan
menggunakan model regresi Binomial Negatif
antara peubah respon Yi dan peubah penjelas X i1
dan X i 2 (disebut Model III). Bentuk persamaan
dan teknik pendugaan parameternya sama seperti
pada persamaan (3).
Model Linear Terampat
Model linear terampat (generalized linear
model) atau yang disingkat dengan MLT
merupakan perluasan model linear, yang mana
sebaran peluangnya tidak diharuskan mengikuti
sebaran normal, akan tetapi sebaran peluang
tersebut termasuk dalam keluarga eksponensial,
seperti Binomial, Poisson, Multinomial, Gamma,
dan lain sebagainya [2].
Ada tiga komponen utama dalam MLT [1-2]:
1. Komponen acak
2. Komponen sistematik
3. Fungsi hubung
Dalam regresi Poisson, Y merupakan komponen
acak yang mana sebarannya termasuk dalam
keluarga
eksponensial.
Dalam
hal
ini
Yi , i 1, , n
saling
bebas.
Komponen
sistematiknya adalah η Xβ, dimana η adalah
n 1 , X adalah matriks
rancangan berukuran n p dan β adalah vektor
parameter berukuran p 1 atau dapat ditulis
vektor berukuran
dalam bentuk kombinasi linear
p
i
x
j 0
j ij
, i 1,
,n
(4)
dimana xi 0 1 dan fungsi hubung g i i
dengan i E Yi serta fungsi g memiliki
invers (invertible).
696
Prosiding Seminar Nasional Sains dan Pendidikan Sains IX, Fakultas Sains dan Matematika, UKSW
Salatiga, 21 Juni 2014, Vol 5, No.1, ISSN :2087-0922
Model Regresi Poisson
Misalkan terdapat sampel acak n pasang
pengamatan yi , xi , i 1, , n, dimana yi
menyatakan nilai dari kejadian variabel hasil
tercacah yang terjadi pada suatu waktu atau
periode dengan nilai tengah sama dengan
parameter i dan xi adalah nilai dari peubah
penjelas
pada
subyek
ke-i.
Dengan
mengasumsikan bahwa Yi , i 1, , n bersebaran
Model Regresi Binomial Negatif
Peubah acak Y dikatakan data cacah
bersebaran Binomial Negatif (Negative Binomial
distribution) dengan parameter i dan a 0
jika fungsi kepekatan peluangnya sebagai berikut
1
yi
1
a
fi yi , i , a
1 ai a (8)
1
yi !
a
Poisson maka fungsi kepekatan peluang Yi adalah
ei iyi
, yi 0,1,2,
(5)
P Yi yi
yi !
dengan nilai tengah dan ragam sama, yaitu
i var Yi
dan model regresinya adalah
p
yi exp j xij
(6)
j 0
Overdispersi pada model regresi Poisson (data
cacah) terjadi ketika var Yi i . Namun,
persoalan ini dapat diatasi dengan sebaran
Binomial Negatif yang menyediakan model
alternatif dengan var Yi a i , dimana a 1
adalah paramater dispersi yang nilainya dapat
diestimasi [11], [8].
Uji Parameter Dispersi
Pengujian
ada
tidaknya
overdispersi
dilakukan dengan hipotesis berikut ini:
H0 : a 0 (tidak ada overdispersi)
H1 : a 0 (ada overdispersi)
Pengujian ini dilakukan dengan menggunakan
statistik uji devians, yang dinotasikan dengan D.
Devians yang juga disebut statistik log
likelihood (rasio) dirumuskan dengan
D 2 l bmax ; y l b; y
(7)
dimana D bersebaran chi-square dengan derajat
bebas n p atau ditulis 2n p . Jika D 2n p
maka keputusannya adalah menolak H 0 , yang
berarti terjadi overdispersi. Selanjutnya, Jika
model regresi Poisson yang digunakan terhadap
data layak, maka nilai devians akan mendekati
nilai derajat bebasnya. Hal ini dapat dijelaskan
karena nilai harapan dari sebaran 2 sama dengan
derajat bebasnya. Jika nilai devians jauh lebih
besar dari derajat bebasnya atau rasionya jauh
lebih besar dari satu maka asumsi dari sebaran
Poisson tidak terpenuhi dan data menunjukkan
overdispersi [11].
1
1
ai
yi
, yi 0,1, 2,
i 1,
, n.
Dengan nilai tengah i exp xi β dan ragam
i 1 ai . a adalah parameter dispersi dan
merupakan konstanta [2] dalam [5].
Model regresinya adalah
p
yi exp j xij
j 0
(9)
Pendugaan Kemungkinan Maksimum
Pendugaan parameter pada persamaan (2) dan
(3) sebagai berikut [11]
XT WXb( m) XT Wz
(10)
dimana W adalah matriks diagonal berukuran
n n dengan elemen-elemen diagonal
2
1 i
,
var Yi i
z memiliki elemen-elemen
p
zi xij b(j m 1) yi i i
j 1
i
wii
,
( m)
adalah vektor estimasi dari parameter
b
0 , 1 , 2 , 3 pada persamaan (2) dan dari
parameter 0 , 1 , 2 pada persamaan (3) pada
iterasi ke-m dengan bentuk fungsi
1
b( m) b( m1) ( m1) U( m1) .
1
( m 1) adalah invers dari matriks informasi
dengan elemen-elemen jk , dimana
2
xij xik i
i 1 var Yi i
dan U( m1) adalah vektor skor dengan elemen skor
U j , dimana
697
n
jk
n y
i
U j i
xij i
i 1
var Yi i
.
Prosiding Seminar Nasional Sains dan Pendidikan Sains IX, Fakultas Sains dan Matematika, UKSW
Salatiga, 21 Juni 2014, Vol 5, No.1, ISSN :2087-0922
2 log l i , a, yi
Persamaan (3) akan menghasilkan model yang
overdispersi, karena telah terjadi kesalahan
spesifikasi model yaitu peubah penjelas xi 3 tidak
dimasukkan di dalam model.
Fungsi kemungkinan maksimum dari sebaran
Binomial Negatif [5] adalah
a 2
i 1
1
yi a
1 a a1
i
1
i 1
!
y
i a
n
yi
1
1
log 1 ai yi log 1
a
ai
karena
1
yi yi
yi
1
a
yi k a yi ayi ak 1
a
1
k 1
k 1
a
maka
yi
n
log l i , a, yi log yi ! log ayi ak 1
i 1
k 1
1
yi log 1 ai yi log i
a
derivatif orde pertama
log l i , a, yi log l i , a, yi
n
y i
i
xi
i 1 1 a i
a
n yi
log 1 ai
yi k
a2
i 1 k 1 ayi ak 1
1
yi i
a
1 ai
derivatif orde kedua
2 log l i , a, yi
T
n 1 ay
i i
2
i 1
1 ai
a
3
2i
a 1 ai
2
n
y i i
x
i
2 i
i 1 1 a i
1
yi a
n
log l i , a, yi log yi ! log
1
i 1
a
log l i , a, yi
2log 1 ai
1 2
yi i
a
2
1 ai
2 log l i , a, yi 2 log i , a, yi
a
a
n
l i , a, yi f i yi , i , a
1
1
ai
yi y k 2
i
2
i 1 k 1 ayi ak 1
n
T
xi xi
Matriks informasi harapan ,a dapat dipartisi
menjadi
, a a , a
, a
a , a aa , a
dimana elemen-elemen dari matriks yang dipartisi
tersebut adalah sebagai berikut
2 log l i , a, yi
E
adalah matriks
T
simetrik berukuran p p.
2 log l i , a, yi
a Ta E
adalah vektor
a
berukuran p 1.
2 log l i , a, yi
aa E
a 2
skalar atau konstanta.
adalah
sebuah
HASIL DAN DISKUSI
Data bangkitan ini menggunakan software R
versi 3.0.2. Model I pada masing-masing n 100
dan n 10000 untuk pilihan β yang ditetapkan
memberikan tingkat signifikansi yang sama
sebesar 0,001 untuk ketiga peubah penjelas.
Dengan demikian untuk melakukan Model II,
penelitian ini menggunakan peubah penjelas X i1
dan X i 2 (peubah penjelas X i 3 diabaikan), seperti
pada persamaan (3).
Hasil simulasi untuk n 100 dengan rasio
devians terhadap derajat bebas disajikan pada
tabel 1 sampai dengan tabel 6.
Tabel 1. Rasio devians terhadap derajat bebas*
Ulangan
698
Devians : Derajat bebas
Prosiding Seminar Nasional Sains dan Pendidikan Sains IX, Fakultas Sains dan Matematika, UKSW
Salatiga, 21 Juni 2014, Vol 5, No.1, ISSN :2087-0922
Model I
1,22
0,85
1,11
0,76
1,05
0,78
1,02
0,94
0,98
0,98
1
2
3
4
5
6
7
8
9
10
* β 1
Model II
5.354
5.387
5.373
5.379
5.378
5.392
5.407
5.380
5.392
5.392
tetapi, dengan mengurangi besarnya pengaruh X i 3
pada model telah menurunkan besarnya rasio
devians terhadap derajat bebas, yang dapat
diketahui dari nilai rasio Model II pada tabel 1,
tabel 2, dan tabel 3. Permasalahan overdispersi
yang terjadi pada Model II dapat diatasi
menggunakan regresi Binomial Negatif, seperti
pada Model III. Nilai rasio devians terhadap
derajat bebas jauh berkurang dari Model II ke
Model III, yang mana nilainya sudah mendekati
nilai 1.
Model III
1,20
1,19
1,20
1,19
1,18
1,19
1,19
1,21
1,19
1,20
2 1,5 0,75
T
Tabel 4. Rasio devians terhadap derajat bebas*
Tabel 2. Rasio devians terhadap derajat bebas*
Ulangan
1
2
3
4
5
6
7
8
9
10
* β 1
Ulangan
Devians : Derajat bebas
Model I
Model II Model III
1,18
1.366
1,09
1,13
1.363
1,11
1,00
1.385
1,11
0,94
1.372
1,15
1,08
1.374
1,13
0,99
1.363
1,11
0,88
1.375
1,13
0,94
1.364
1,11
0,91
1.372
1,12
0,93
1.363
1,14
1
2
3
4
5
6
7
8
9
10
* β 0
2 1,5 0,5
Ulangan
* β 1
2 1,5 0,75
T
T
Tabel 5. Rasio devians terhadap derajat bebas*
Tabel 3. Rasio devians terhadap derajat bebas*
1
2
3
4
5
6
7
8
9
10
Devians : Derajat bebas
Model I
Model II Model III
1,01
1.994
1,19
1,02
1.979
1,20
1,38
1.998
1,19
0,95
1.982
1,21
1,03
1.981
1,19
1,13
1.994
1,20
1,11
1.962
1,18
0,84
1.984
1,19
1,15
1.975
1,19
0,89
1.985
1,20
Ulangan
Devians : Derajat bebas
Model I
Model II Model III
1,08
209
1,17
0,87
207
1,01
1,05
202
1,05
0,97
208
1,14
1,36
212
1,17
0,98
207
1,13
0,91
199
1,04
0,80
204
1,16
1,14
210
1,11
1,35
203
1,23
1
2
3
4
5
6
7
8
9
10
* β 0
2 1,5 0, 25
Devians : Derajat bebas
Model I
Model II Model III
0,86
508
1,14
0,97
501
1,15
0,98
498
1,15
1,11
507
1,12
1,14
505
1,16
0,93
502
1,15
0,76
502
1,14
0,97
505
1,14
1,13
505
1,17
1,09
512
1,15
2 1,5 0,5
T
T
Hasil simulasi yang disajikan pada tabel 1,
tabel 2, dan tabel 3 menunjukkan bahwa dengan
menghilangkan peubah penjelas X i 3 dari dalam
model telah meningkatkan nilai rasio devians
terhadap derajat bebas, tanpa memandang
besarnya pengaruh X i 3 pada model, yang dapat
dilihat dari nilai rasio pada Model I dan Model II.
Dalam hal ini, telah terjadi overdispersi. Akan
Hal yang sama juga berlaku apabila dalam
pembentukan model mengambil nilai 0 0.
Namun, dengan mengambil 0 0, nilai rasio
devians terhadap derajat bebas pada Model II
menjadi berkurang jika dibandingkan pada model
awal yang mana 0 1. Akan tetapi,
penyelesaian overdispersi menggunakan Model III
baik pada model dengan 0 0 dan 0 1 tidak
begitu jauh berbeda, yang terlihat dari nilai rasio
699
Prosiding Seminar Nasional Sains dan Pendidikan Sains IX, Fakultas Sains dan Matematika, UKSW
Salatiga, 21 Juni 2014, Vol 5, No.1, ISSN :2087-0922
devians terhadap derajat bebas besarannya tidak
begitu jauh berbeda, seperti disajikan pada tabel 4,
tabel 5, dan tabel 6.
5
6
7
8
9
10
Tabel 6. Rasio devians terhadap derajat bebas*
Ulangan
1
2
3
4
5
6
7
8
9
10
* β 0
Devians : Derajat bebas
Model I
Model II Model III
1,11
80
1,08
0,98
81
1,14
0,90
74
1,07
1,40
78
1,19
1,46
78
1,20
1,20
77
1,21
1,15
79
1,23
1,05
76
1,11
0,91
79
1,10
0,93
77
1,16
* β 1
Selanjutnya, hasil simulasi untuk n 10000
dengan rasio devians terhadap derajat bebas
disajikan pada tabel 7 sampai dengan tabel 12.
Tabel 7. Rasio devians terhadap derajat bebas*
* β 1
* β 1
2 1,5 0, 25
T
Tabel 10. Rasio devians terhadap derajat bebas*
Ulangan
T
1
2
3
4
5
6
7
8
9
10
Pada kasus sampelnya ditambah atau
diperbesar, persoalan overdispersi tetap tidak
dapat diselesaikan. Akan tetapi, nilai rasio devians
terhadap derajat bebas pada model II untuk setiap
ulangan nilainya cenderung tidak jauh berbeda
atau hasilnya cenderung konvergen, seperti
disajikan pada tabel 7 sampai dengan tabel 12.
Tabel 8. Rasio devians terhadap derajat bebas*
1
2
3
4
Devians : Derajat bebas
Model I
Model II Model III
1,02
225.810
1,02
1,03
225.810
1,03
1,05
225.810
1,03
1,01
225.910
1,02
1,04
225.810
1,04
1,02
225.810
1,03
1,03
225.910
1,04
1,02
225.810
1,03
1,00
225.910
1,02
1,02
225.810
1,03
Selain
itu,
penyelesaian
overdispersi
menggunakan Model III cenderung menghasilkan
nilai rasio devians terhadap derajat bebas yang
lebih kecil dan cenderung konvergen. Namun,
tidak berlaku sebaliknya untuk pengaruh yang
besar pada peubah penjelas yang diabaikan. Nilai
rasionya justru semakin bertambah baik dengan
mengambil 0 0 dan 0 1, yang dapat dilihat
pada tabel 7 dan tabel 10 jika dibandingkan pada
tabel 1 dan tabel 4.
Devians : Derajat bebas
Model I
Model II Model III
1,02
1.413.087
1,28
1,04
1.413.087
1,28
1,02
1.413.087
1,28
1,01
1.413.087
1,28
1,01
1.413.087
1,28
1,02
1.413.087
1,28
1,02
1.413.087
1,28
1,05
1.413.087
1,28
1,04
1.413.087
1,28
1,02
1.413.087
1,28
Devians : Derajat bebas
Model I
Model II Model III
1,02
553.883
1,11
0,98
553.883
1,10
1,02
553.883
1,11
1,01
553.883
1,11
T
1
2
3
4
5
6
7
8
9
10
2 1,5 0,75
Ulangan
1,11
1,11
1,10
1,10
1,11
1,11
2 1,5 0,5
Ulangan
T
1
2
3
4
5
6
7
8
9
10
553.883
553.883
553.883
553.883
553.883
553.883
Tabel 9. Rasio devians terhadap derajat bebas*
2 1,5 0, 25
Ulangan
1,02
1,02
1,03
1,00
1,02
1,02
* β 0
700
Devians : Derajat bebas
Model I
Model II Model III
1,04
1,163,024
1,25
1,02
1,163,024
1,25
1,05
1,163,024
1,25
1,01
1,163,024
1,25
1,04
1,163,024
1,25
1,05
1,163,024
1,25
1,04
1,163,024
1,25
1,04
1,163,024
1,25
1,01
1,163,024
1,25
1,06
1,163,024
1,25
2 1,5 0,75
T
Prosiding Seminar Nasional Sains dan Pendidikan Sains IX, Fakultas Sains dan Matematika, UKSW
Salatiga, 21 Juni 2014, Vol 5, No.1, ISSN :2087-0922
Tabel 11. Rasio devians terhadap derajat bebas*
Ulangan
1
2
3
4
5
6
7
8
9
10
* β 0
Devians : Derajat bebas
Model I
Model II Model III
1,03
892.753
1,11
1,05
892.753
1,11
1,06
892.753
1,11
1,03
892.753
1,11
1,05
892.753
1,11
1,04
892.753
1,11
1,03
892.753
1,11
1,03
892.753
1,11
1,03
892.753
1,11
1,03
892.753
1,11
2 1,5 0,5
T
Tabel 12. Rasio devians terhadap derajat bebas*
Ulangan
1
2
3
4
5
6
7
8
9
10
* β 0
Devians : Derajat bebas
Model I
Model II Model III
1,03
188.239
1,06
1,03
188.239
1,04
1,04
188.239
1,05
1,06
188.239
1,06
1,06
188.239
1,06
1,05
188.239
1,04
1,06
188.239
1,06
1,09
188.239
1,06
1,06
188.239
1,06
1,04
188.239
1,05
2 1,5 0, 25
T
Artinya, walaupun sampelnya ditambah, jika
terjadi kesalahan spesifikasi maka overdispersi
tetap terjadi. Hasil ini melalui Model III juga
menunjukkan bahwa permasalahan overdispersi
dapat diatasi dengan model regresi Binomial
Negatif.
KESIMPULAN
Kesalahan spesifikasi model pada data cacah
dapat menyebabkan terjadinya overdispersi.
Penambahan sampel tidak menyelesaikan
permasalahan overdispersi yang disebabkan oleh
kesalahan spesifikasi model pada data cacah.
Apalagi, pengaruh dari peubah penjelas yang
diabaikan cukup besar. Namun, permasalahan
overdispersi ini dapat diatasi menggunakan model
regresi Binomial Negatif.
Kesalahan spesifikasi pada penelitian ini
dibatasi pada peubah penjelas yang tidak
dimasukkan di dalam model. Pada penelitian
berikutnya dapat ditambahkan dengan fungsi
hubung yang tidak sesuai.
DAFTAR PUSTAKA
[1] Agresti, A.,An Introduction to Categorical
Data Analysis, 2nd Ed. John Wiley and Sons,
Hoboken, New Jesey, 2007.
[2] McCullagh,
P.
and
Nelder
FRS,
J.A.,GeneralizedLinear Models, 2nd Ed. New
York, 1989.
[3] S.A. Sarpong and A.K. Brobbey, “Poisson
Regression Modeling For Incidence of Maternal
Deaths In Ghana,”Mathematical Theory and
Modeling,ISSN 2224-5804 (Paper) ISSN 22250522 (online), vol.3, no.2, 2013.
[4] I.P.Y.E.Putra,
I.P.E.N.Kencana,
dan
I.G.A.M.Srinadi, “Penerapan Regresi Generalized
Poisson untuk Mengatasi Fenomena Overdispersi
pada
Kasus
Regresi
Poisson,”E-Jurnal
Matematika, vol.2, no.2, hal. 49-53, 2013.
[5] D.T. Molla and B. Muniswamy, “Power of
Tests for Overdispersion Parameter in Negative
Binomial Regression Model,”IOSR Journal of
Mathematics, vol. 1, Issue 4, pp. 29-36, 2012.
[6] K.A.
Yulianingsih,K.G.Sukarsa,
dan
L.P.Suciptawati, “Penerapan Regresi Poisson
untuk
mengetahui
Faktor-Faktor
yang
Memengaruhi Jumlah Siswa SMA/SMK yang
Tidak Lulus UN di Bali,”e-Jurnal Matematika,
vol.1, no.1, hal. 59-63, 2012.
[7] B. Ariawan, Suparti, dan Sudarno,
“Pemodelan Regresi Zero-Inflated Negative
Binomial (ZINB) untuk Data Respon Diskrit
dengan Excess Zero,”Jurnal Gaussian, vol. 1, no.
1, hal. 55-64, 2012.
[8] S. Coxe, S.G. West, and L.S. Aiken, “The
Analysis of Count Data: A Gentle Introduction to
Poisson Regression and Its Alternatives,”Journal
of Personality Assessment, 91(2), pp. 121-136,
2009.
[9] N. Ismail and A.A. Jemain, “Handling
Overdispersion with Negative Binomial and
Generalized
Poisson
Regression
Models,”Casualty Actuarial Society Forum,
Winter. 2007.
[10] D.W. Osgood,“Poisson-Based Regression
Analysis of Aggregate Crime Rates,”Journal of
Quantitative Criminology,vol. 16, no. 1,pp. 21-43,
2000.
[11] Dobson, A.J.,An Introduction to Generalized
Linear Models, 2nd Ed.Chapman & Hall/CRC,
USA, 2002.
701
Salatiga, 21 Juni 2014, Vol 5, No.1, ISSN :2087-0922
OVERDISPERSI KARENA KESALAHAN SPESIFIKASI MODEL DAN
CARA MENGATASINYA
Timbang Sirait
Departemen Statistika FMIPA-IPB
Email: timbang_sirait@yahoo.com
ABSTRAK
Ada beberapa penyebab terjadinya overdispersi, salah satunya adalah karena kesalahan spesifikasi model.
Kesalahan spesifikasi model dapat terjadi apabila peubah penjelas yang seharusnya ada di dalam model tidak
dimasukkan di dalam model. Disamping itu, dapat juga terjadi dikarenakan kesalahan dalam menentukan fungsi
hubung. Penelitian ini difokuskan pada kesalahan karena peubah penjelas tidak dimasukkan di dalam model.
Adanya overdispersi dapat mengakibatkan kesimpulan yang diambil menjadi tidak benar, karena nilai ragam yang
lebih besar dari yang seharusnya. Model regresi yang digunakan untuk menjelaskan hubungan antara peubah
penjelas dan peubah respon yang memiliki sebaran Poisson adalah model regresi Poisson. Dengan demikian data
yang digunakan pada penelitian ini adalah data cacah. Penelitian ini bertujuan untuk mengetahui overdispersi yang
disebabkan oleh kesalahan spesifikasi model serta cara mengatasinya menggunakan regresi Binomial Negatif. Ada
empat peubah yang digunakan yaitu satu peubah respon dan tiga peubah penjelas. Pemodelan pertama
menggunakan satu peubah respon dan tiga peubah penjelas (Model I). Pemodelan kedua menggunakan satu
peubah respon dan dua peubah penjelas, yang mana satu peubah penjelas diabaikan (Model II). Hasil penelitian
menunjukkan bahwa rasio devians dari Model I selalu lebih kecil dari Model II. Hasil ini menunjukkan bahwa
dengan tidak dimasukkannya peubah penjelas yang seharusnya ada di dalam model menyebabkan rasio devians
pada Model II menjadi bertambah. Ini membuktikan bahwa kesalahan spesifikasi model menyebabkan
overdispersi. Penambahan sampel tidak menyelesaikan permasalahan overdispersi yang disebabkan oleh kesalahan
spesifikasi model pada data cacah. Apalagi, pengaruh dari peubah penjelas yang diabaikan cukup besar. Namun,
permasalahan overdispersi ini dapat diatasi menggunakan model regresi Binomial Negatif.
Kata-kata kunci: data cacah, devians, model regresi Binomial Negatif, model regresi Poisson, overdispersi.
PENDAHULUAN
Analisis regresi merupakan teknik statistika
yang banyak digunakan untuk menyelidiki
hubungan antara peubah respon dengan satu atau
lebih peubah penjelas. Apabila peubah responnya
menyebar Poisson, maka model regresi yang
digunakan adalah model regresi Poisson. Jenis
data yang digunakan dalam analisis regresi
Poisson adalah data cacah (count data).
Model regresi Poisson memiliki asumsi
bahwa nilai tengah dan ragam bernilai sama atau
dikatakan equidispersi [1]. Apabila nilai tengah
dan ragam tidak sama maka telah terjadi
permasalahan overdispersi/ underdispersi. Jika
nilai ragam lebih besar dari nilai tengah maka
terjadi overdispersi, dan sebaliknya terjadi
underdispersi.
Permasalahan
overdispersi/
underdispersi dapat menimbulkan kesalahan
dalam menarik kesimpulan. Apabila terjadi
overdispersi maka keputusannya akan selalu
menolak hipotesis, sedangkan jika terjadi
underdispersi maka keputusannya akan selalu
gagal untuk menolak hipotesis [2].
[3-10] menjelaskan bahwa overdispersi/
underdispersi pada data cacah dapat diatasi
menggunakan regresi Poisson terampat, regresi
Binomial Negatif, atau Zero-Inflated Binomial
Negative (ZINP).
[11] menyatakan bahwa overdispersi dapat
disebabkan oleh (1) kesalahan spesifikasi model
(misalnya mengabaikan peubah penjelas, yang
mana peubah tersebut tidak dimasukkan di dalam
model atau kesalahan dalam menentukan fungsi
hubung (link function)), atau struktur yang lebih
kompleks; (2) antar peubah respon saling
berkorelasi atau peubah respon tidak saling bebas
(independen).
Terjadinya
overdispersi
menyebabkan varians peubah respon lebih besar
dari varian yang seharusnya. Satu pendekatan
dalam mengatasinya yaitu memasukkan parameter
dispersi a ke dalam model. [8] juga
mengungkapkan bahwa penambahan peubah
penjelas pada model dapat menurunkan nilai
devians (deviance), yang menjadi alat ukur dalam
menentukan terjadi tidaknya overdispersi.
Penelitian ini bertujuan untuk mengetahui
overdispersi yang disebabkan oleh kesalahan
spesifikasi model serta cara mengatasinya
menggunakan regresi Binomial Negatif dengan
data bangkitan dari sebaran Poisson.
BAHAN DAN METODE
Bahan
695
Prosiding Seminar Nasional Sains dan Pendidikan Sains IX, Fakultas Sains dan Matematika, UKSW
Salatiga, 21 Juni 2014, Vol 5, No.1, ISSN :2087-0922
Bahan dalam melakukan pembentukan model
dilakukan dengan 4 langkah berikut:
(1). Misalkan terdapat peubah respon Yi dan
tiga peubah penjelas X i1 , X i 2 , X i 3 yang
ditetapkan sebelumnya. Terdapat hubungan antara
Yi dan X i1 , X i 2 , X i 3 dengan nilai tengah
i exp 0 1 xi1 2 xi 2 3 xi 3
(1)
exp xTi β
i 1, , n.
peubah penjelas X i 3 diabaikan atau tidak
dimasukkan di dalam model (disebut Model II),
maka berdasarkan hubungan ini diperoleh
persamaan
log yi 0 1 xi1 2 xi 2
(3)
xTi β
i 1, , n.
dimana
β 0 1 2
T
xi 1 xi1
dimana
β 0
1 2
xi 1 xi1
xi 2
3
Geometrik 12
xi 3
T
j 1,2,3.
untuk
Pembangkitan data terhadap X ij hanya dilakukan
sekali saja, dan nilainya digunakan untuk
pembangkitan data Yi dari sebaran Poisson i
yang diulang sebanyak 10 kali. Model yang
diusulkan ini diasumsikan tanpa overdispersi
dengan data yang dibangkitkan sebanyak n 100
dan n 10.000.
(2). Setelah data bangkitan Yi diperoleh,
dilakukan pemodelan menggunakan model regresi
Poisson antara peubah respon Yi dengan peubah
penjelas X i1 , X i 2 , dan X i 3 (disebut Model I).
Berdasarkan hubungan ini didapatkan persamaan
log yi 0 1 xi1 2 xi 2 3 xi 3
(2)
xTi β
i 1, , n.
dimana
β 0 1 2 3
T
xi 1 xi1
xi 2
T
0 , 1 , 2
T
Selanjutnya mengambil dua buah nilai 0
yaitu 0 dan 1, 1 2, 2 1,5, tiga buah nilai 3
yaitu 0,75, 0,5, dan 0,25 serta mengambil nilai
X ij
melalui
pembangkitan
data
X ij
xi 2
xi 3
T
0 , 1 , 2 , 3 diduga menggunakan penduga
kemungkinan maksimum (PKM) yang diperoleh
dengan prosedur iterative weighted least square
(IWLS), dan masing-masing penduganya adalah
b0 , b1 , b2 , b3 .
(3).
Kemudian
dilakukan
pemodelan
menggunakan model regresi Poisson antara
peubah respon Yi dengan dua peubah penjelas
(peubah penjelas yang dipilih dilihat dari tingkat
kesignifikansiannya). Dalam artian, peubah
penjelas dengan tingkat signifikansi yang paling
tinggi dikeluarkan dari dalam model. Misalkan
diduga menggunakan PKM yang
diperoleh dengan prosedur IWLS, dan masingmasing penduganya adalah b0 , b1 , b2 .
(4).
Kemudian
dilakukan
pemodelan
menggunakan model regresi Binomial Negatif
antara peubah respon Yi dan peubah penjelas X i1
dan X i 2 (disebut Model III). Bentuk persamaan
dan teknik pendugaan parameternya sama seperti
pada persamaan (3).
Model Linear Terampat
Model linear terampat (generalized linear
model) atau yang disingkat dengan MLT
merupakan perluasan model linear, yang mana
sebaran peluangnya tidak diharuskan mengikuti
sebaran normal, akan tetapi sebaran peluang
tersebut termasuk dalam keluarga eksponensial,
seperti Binomial, Poisson, Multinomial, Gamma,
dan lain sebagainya [2].
Ada tiga komponen utama dalam MLT [1-2]:
1. Komponen acak
2. Komponen sistematik
3. Fungsi hubung
Dalam regresi Poisson, Y merupakan komponen
acak yang mana sebarannya termasuk dalam
keluarga
eksponensial.
Dalam
hal
ini
Yi , i 1, , n
saling
bebas.
Komponen
sistematiknya adalah η Xβ, dimana η adalah
n 1 , X adalah matriks
rancangan berukuran n p dan β adalah vektor
parameter berukuran p 1 atau dapat ditulis
vektor berukuran
dalam bentuk kombinasi linear
p
i
x
j 0
j ij
, i 1,
,n
(4)
dimana xi 0 1 dan fungsi hubung g i i
dengan i E Yi serta fungsi g memiliki
invers (invertible).
696
Prosiding Seminar Nasional Sains dan Pendidikan Sains IX, Fakultas Sains dan Matematika, UKSW
Salatiga, 21 Juni 2014, Vol 5, No.1, ISSN :2087-0922
Model Regresi Poisson
Misalkan terdapat sampel acak n pasang
pengamatan yi , xi , i 1, , n, dimana yi
menyatakan nilai dari kejadian variabel hasil
tercacah yang terjadi pada suatu waktu atau
periode dengan nilai tengah sama dengan
parameter i dan xi adalah nilai dari peubah
penjelas
pada
subyek
ke-i.
Dengan
mengasumsikan bahwa Yi , i 1, , n bersebaran
Model Regresi Binomial Negatif
Peubah acak Y dikatakan data cacah
bersebaran Binomial Negatif (Negative Binomial
distribution) dengan parameter i dan a 0
jika fungsi kepekatan peluangnya sebagai berikut
1
yi
1
a
fi yi , i , a
1 ai a (8)
1
yi !
a
Poisson maka fungsi kepekatan peluang Yi adalah
ei iyi
, yi 0,1,2,
(5)
P Yi yi
yi !
dengan nilai tengah dan ragam sama, yaitu
i var Yi
dan model regresinya adalah
p
yi exp j xij
(6)
j 0
Overdispersi pada model regresi Poisson (data
cacah) terjadi ketika var Yi i . Namun,
persoalan ini dapat diatasi dengan sebaran
Binomial Negatif yang menyediakan model
alternatif dengan var Yi a i , dimana a 1
adalah paramater dispersi yang nilainya dapat
diestimasi [11], [8].
Uji Parameter Dispersi
Pengujian
ada
tidaknya
overdispersi
dilakukan dengan hipotesis berikut ini:
H0 : a 0 (tidak ada overdispersi)
H1 : a 0 (ada overdispersi)
Pengujian ini dilakukan dengan menggunakan
statistik uji devians, yang dinotasikan dengan D.
Devians yang juga disebut statistik log
likelihood (rasio) dirumuskan dengan
D 2 l bmax ; y l b; y
(7)
dimana D bersebaran chi-square dengan derajat
bebas n p atau ditulis 2n p . Jika D 2n p
maka keputusannya adalah menolak H 0 , yang
berarti terjadi overdispersi. Selanjutnya, Jika
model regresi Poisson yang digunakan terhadap
data layak, maka nilai devians akan mendekati
nilai derajat bebasnya. Hal ini dapat dijelaskan
karena nilai harapan dari sebaran 2 sama dengan
derajat bebasnya. Jika nilai devians jauh lebih
besar dari derajat bebasnya atau rasionya jauh
lebih besar dari satu maka asumsi dari sebaran
Poisson tidak terpenuhi dan data menunjukkan
overdispersi [11].
1
1
ai
yi
, yi 0,1, 2,
i 1,
, n.
Dengan nilai tengah i exp xi β dan ragam
i 1 ai . a adalah parameter dispersi dan
merupakan konstanta [2] dalam [5].
Model regresinya adalah
p
yi exp j xij
j 0
(9)
Pendugaan Kemungkinan Maksimum
Pendugaan parameter pada persamaan (2) dan
(3) sebagai berikut [11]
XT WXb( m) XT Wz
(10)
dimana W adalah matriks diagonal berukuran
n n dengan elemen-elemen diagonal
2
1 i
,
var Yi i
z memiliki elemen-elemen
p
zi xij b(j m 1) yi i i
j 1
i
wii
,
( m)
adalah vektor estimasi dari parameter
b
0 , 1 , 2 , 3 pada persamaan (2) dan dari
parameter 0 , 1 , 2 pada persamaan (3) pada
iterasi ke-m dengan bentuk fungsi
1
b( m) b( m1) ( m1) U( m1) .
1
( m 1) adalah invers dari matriks informasi
dengan elemen-elemen jk , dimana
2
xij xik i
i 1 var Yi i
dan U( m1) adalah vektor skor dengan elemen skor
U j , dimana
697
n
jk
n y
i
U j i
xij i
i 1
var Yi i
.
Prosiding Seminar Nasional Sains dan Pendidikan Sains IX, Fakultas Sains dan Matematika, UKSW
Salatiga, 21 Juni 2014, Vol 5, No.1, ISSN :2087-0922
2 log l i , a, yi
Persamaan (3) akan menghasilkan model yang
overdispersi, karena telah terjadi kesalahan
spesifikasi model yaitu peubah penjelas xi 3 tidak
dimasukkan di dalam model.
Fungsi kemungkinan maksimum dari sebaran
Binomial Negatif [5] adalah
a 2
i 1
1
yi a
1 a a1
i
1
i 1
!
y
i a
n
yi
1
1
log 1 ai yi log 1
a
ai
karena
1
yi yi
yi
1
a
yi k a yi ayi ak 1
a
1
k 1
k 1
a
maka
yi
n
log l i , a, yi log yi ! log ayi ak 1
i 1
k 1
1
yi log 1 ai yi log i
a
derivatif orde pertama
log l i , a, yi log l i , a, yi
n
y i
i
xi
i 1 1 a i
a
n yi
log 1 ai
yi k
a2
i 1 k 1 ayi ak 1
1
yi i
a
1 ai
derivatif orde kedua
2 log l i , a, yi
T
n 1 ay
i i
2
i 1
1 ai
a
3
2i
a 1 ai
2
n
y i i
x
i
2 i
i 1 1 a i
1
yi a
n
log l i , a, yi log yi ! log
1
i 1
a
log l i , a, yi
2log 1 ai
1 2
yi i
a
2
1 ai
2 log l i , a, yi 2 log i , a, yi
a
a
n
l i , a, yi f i yi , i , a
1
1
ai
yi y k 2
i
2
i 1 k 1 ayi ak 1
n
T
xi xi
Matriks informasi harapan ,a dapat dipartisi
menjadi
, a a , a
, a
a , a aa , a
dimana elemen-elemen dari matriks yang dipartisi
tersebut adalah sebagai berikut
2 log l i , a, yi
E
adalah matriks
T
simetrik berukuran p p.
2 log l i , a, yi
a Ta E
adalah vektor
a
berukuran p 1.
2 log l i , a, yi
aa E
a 2
skalar atau konstanta.
adalah
sebuah
HASIL DAN DISKUSI
Data bangkitan ini menggunakan software R
versi 3.0.2. Model I pada masing-masing n 100
dan n 10000 untuk pilihan β yang ditetapkan
memberikan tingkat signifikansi yang sama
sebesar 0,001 untuk ketiga peubah penjelas.
Dengan demikian untuk melakukan Model II,
penelitian ini menggunakan peubah penjelas X i1
dan X i 2 (peubah penjelas X i 3 diabaikan), seperti
pada persamaan (3).
Hasil simulasi untuk n 100 dengan rasio
devians terhadap derajat bebas disajikan pada
tabel 1 sampai dengan tabel 6.
Tabel 1. Rasio devians terhadap derajat bebas*
Ulangan
698
Devians : Derajat bebas
Prosiding Seminar Nasional Sains dan Pendidikan Sains IX, Fakultas Sains dan Matematika, UKSW
Salatiga, 21 Juni 2014, Vol 5, No.1, ISSN :2087-0922
Model I
1,22
0,85
1,11
0,76
1,05
0,78
1,02
0,94
0,98
0,98
1
2
3
4
5
6
7
8
9
10
* β 1
Model II
5.354
5.387
5.373
5.379
5.378
5.392
5.407
5.380
5.392
5.392
tetapi, dengan mengurangi besarnya pengaruh X i 3
pada model telah menurunkan besarnya rasio
devians terhadap derajat bebas, yang dapat
diketahui dari nilai rasio Model II pada tabel 1,
tabel 2, dan tabel 3. Permasalahan overdispersi
yang terjadi pada Model II dapat diatasi
menggunakan regresi Binomial Negatif, seperti
pada Model III. Nilai rasio devians terhadap
derajat bebas jauh berkurang dari Model II ke
Model III, yang mana nilainya sudah mendekati
nilai 1.
Model III
1,20
1,19
1,20
1,19
1,18
1,19
1,19
1,21
1,19
1,20
2 1,5 0,75
T
Tabel 4. Rasio devians terhadap derajat bebas*
Tabel 2. Rasio devians terhadap derajat bebas*
Ulangan
1
2
3
4
5
6
7
8
9
10
* β 1
Ulangan
Devians : Derajat bebas
Model I
Model II Model III
1,18
1.366
1,09
1,13
1.363
1,11
1,00
1.385
1,11
0,94
1.372
1,15
1,08
1.374
1,13
0,99
1.363
1,11
0,88
1.375
1,13
0,94
1.364
1,11
0,91
1.372
1,12
0,93
1.363
1,14
1
2
3
4
5
6
7
8
9
10
* β 0
2 1,5 0,5
Ulangan
* β 1
2 1,5 0,75
T
T
Tabel 5. Rasio devians terhadap derajat bebas*
Tabel 3. Rasio devians terhadap derajat bebas*
1
2
3
4
5
6
7
8
9
10
Devians : Derajat bebas
Model I
Model II Model III
1,01
1.994
1,19
1,02
1.979
1,20
1,38
1.998
1,19
0,95
1.982
1,21
1,03
1.981
1,19
1,13
1.994
1,20
1,11
1.962
1,18
0,84
1.984
1,19
1,15
1.975
1,19
0,89
1.985
1,20
Ulangan
Devians : Derajat bebas
Model I
Model II Model III
1,08
209
1,17
0,87
207
1,01
1,05
202
1,05
0,97
208
1,14
1,36
212
1,17
0,98
207
1,13
0,91
199
1,04
0,80
204
1,16
1,14
210
1,11
1,35
203
1,23
1
2
3
4
5
6
7
8
9
10
* β 0
2 1,5 0, 25
Devians : Derajat bebas
Model I
Model II Model III
0,86
508
1,14
0,97
501
1,15
0,98
498
1,15
1,11
507
1,12
1,14
505
1,16
0,93
502
1,15
0,76
502
1,14
0,97
505
1,14
1,13
505
1,17
1,09
512
1,15
2 1,5 0,5
T
T
Hasil simulasi yang disajikan pada tabel 1,
tabel 2, dan tabel 3 menunjukkan bahwa dengan
menghilangkan peubah penjelas X i 3 dari dalam
model telah meningkatkan nilai rasio devians
terhadap derajat bebas, tanpa memandang
besarnya pengaruh X i 3 pada model, yang dapat
dilihat dari nilai rasio pada Model I dan Model II.
Dalam hal ini, telah terjadi overdispersi. Akan
Hal yang sama juga berlaku apabila dalam
pembentukan model mengambil nilai 0 0.
Namun, dengan mengambil 0 0, nilai rasio
devians terhadap derajat bebas pada Model II
menjadi berkurang jika dibandingkan pada model
awal yang mana 0 1. Akan tetapi,
penyelesaian overdispersi menggunakan Model III
baik pada model dengan 0 0 dan 0 1 tidak
begitu jauh berbeda, yang terlihat dari nilai rasio
699
Prosiding Seminar Nasional Sains dan Pendidikan Sains IX, Fakultas Sains dan Matematika, UKSW
Salatiga, 21 Juni 2014, Vol 5, No.1, ISSN :2087-0922
devians terhadap derajat bebas besarannya tidak
begitu jauh berbeda, seperti disajikan pada tabel 4,
tabel 5, dan tabel 6.
5
6
7
8
9
10
Tabel 6. Rasio devians terhadap derajat bebas*
Ulangan
1
2
3
4
5
6
7
8
9
10
* β 0
Devians : Derajat bebas
Model I
Model II Model III
1,11
80
1,08
0,98
81
1,14
0,90
74
1,07
1,40
78
1,19
1,46
78
1,20
1,20
77
1,21
1,15
79
1,23
1,05
76
1,11
0,91
79
1,10
0,93
77
1,16
* β 1
Selanjutnya, hasil simulasi untuk n 10000
dengan rasio devians terhadap derajat bebas
disajikan pada tabel 7 sampai dengan tabel 12.
Tabel 7. Rasio devians terhadap derajat bebas*
* β 1
* β 1
2 1,5 0, 25
T
Tabel 10. Rasio devians terhadap derajat bebas*
Ulangan
T
1
2
3
4
5
6
7
8
9
10
Pada kasus sampelnya ditambah atau
diperbesar, persoalan overdispersi tetap tidak
dapat diselesaikan. Akan tetapi, nilai rasio devians
terhadap derajat bebas pada model II untuk setiap
ulangan nilainya cenderung tidak jauh berbeda
atau hasilnya cenderung konvergen, seperti
disajikan pada tabel 7 sampai dengan tabel 12.
Tabel 8. Rasio devians terhadap derajat bebas*
1
2
3
4
Devians : Derajat bebas
Model I
Model II Model III
1,02
225.810
1,02
1,03
225.810
1,03
1,05
225.810
1,03
1,01
225.910
1,02
1,04
225.810
1,04
1,02
225.810
1,03
1,03
225.910
1,04
1,02
225.810
1,03
1,00
225.910
1,02
1,02
225.810
1,03
Selain
itu,
penyelesaian
overdispersi
menggunakan Model III cenderung menghasilkan
nilai rasio devians terhadap derajat bebas yang
lebih kecil dan cenderung konvergen. Namun,
tidak berlaku sebaliknya untuk pengaruh yang
besar pada peubah penjelas yang diabaikan. Nilai
rasionya justru semakin bertambah baik dengan
mengambil 0 0 dan 0 1, yang dapat dilihat
pada tabel 7 dan tabel 10 jika dibandingkan pada
tabel 1 dan tabel 4.
Devians : Derajat bebas
Model I
Model II Model III
1,02
1.413.087
1,28
1,04
1.413.087
1,28
1,02
1.413.087
1,28
1,01
1.413.087
1,28
1,01
1.413.087
1,28
1,02
1.413.087
1,28
1,02
1.413.087
1,28
1,05
1.413.087
1,28
1,04
1.413.087
1,28
1,02
1.413.087
1,28
Devians : Derajat bebas
Model I
Model II Model III
1,02
553.883
1,11
0,98
553.883
1,10
1,02
553.883
1,11
1,01
553.883
1,11
T
1
2
3
4
5
6
7
8
9
10
2 1,5 0,75
Ulangan
1,11
1,11
1,10
1,10
1,11
1,11
2 1,5 0,5
Ulangan
T
1
2
3
4
5
6
7
8
9
10
553.883
553.883
553.883
553.883
553.883
553.883
Tabel 9. Rasio devians terhadap derajat bebas*
2 1,5 0, 25
Ulangan
1,02
1,02
1,03
1,00
1,02
1,02
* β 0
700
Devians : Derajat bebas
Model I
Model II Model III
1,04
1,163,024
1,25
1,02
1,163,024
1,25
1,05
1,163,024
1,25
1,01
1,163,024
1,25
1,04
1,163,024
1,25
1,05
1,163,024
1,25
1,04
1,163,024
1,25
1,04
1,163,024
1,25
1,01
1,163,024
1,25
1,06
1,163,024
1,25
2 1,5 0,75
T
Prosiding Seminar Nasional Sains dan Pendidikan Sains IX, Fakultas Sains dan Matematika, UKSW
Salatiga, 21 Juni 2014, Vol 5, No.1, ISSN :2087-0922
Tabel 11. Rasio devians terhadap derajat bebas*
Ulangan
1
2
3
4
5
6
7
8
9
10
* β 0
Devians : Derajat bebas
Model I
Model II Model III
1,03
892.753
1,11
1,05
892.753
1,11
1,06
892.753
1,11
1,03
892.753
1,11
1,05
892.753
1,11
1,04
892.753
1,11
1,03
892.753
1,11
1,03
892.753
1,11
1,03
892.753
1,11
1,03
892.753
1,11
2 1,5 0,5
T
Tabel 12. Rasio devians terhadap derajat bebas*
Ulangan
1
2
3
4
5
6
7
8
9
10
* β 0
Devians : Derajat bebas
Model I
Model II Model III
1,03
188.239
1,06
1,03
188.239
1,04
1,04
188.239
1,05
1,06
188.239
1,06
1,06
188.239
1,06
1,05
188.239
1,04
1,06
188.239
1,06
1,09
188.239
1,06
1,06
188.239
1,06
1,04
188.239
1,05
2 1,5 0, 25
T
Artinya, walaupun sampelnya ditambah, jika
terjadi kesalahan spesifikasi maka overdispersi
tetap terjadi. Hasil ini melalui Model III juga
menunjukkan bahwa permasalahan overdispersi
dapat diatasi dengan model regresi Binomial
Negatif.
KESIMPULAN
Kesalahan spesifikasi model pada data cacah
dapat menyebabkan terjadinya overdispersi.
Penambahan sampel tidak menyelesaikan
permasalahan overdispersi yang disebabkan oleh
kesalahan spesifikasi model pada data cacah.
Apalagi, pengaruh dari peubah penjelas yang
diabaikan cukup besar. Namun, permasalahan
overdispersi ini dapat diatasi menggunakan model
regresi Binomial Negatif.
Kesalahan spesifikasi pada penelitian ini
dibatasi pada peubah penjelas yang tidak
dimasukkan di dalam model. Pada penelitian
berikutnya dapat ditambahkan dengan fungsi
hubung yang tidak sesuai.
DAFTAR PUSTAKA
[1] Agresti, A.,An Introduction to Categorical
Data Analysis, 2nd Ed. John Wiley and Sons,
Hoboken, New Jesey, 2007.
[2] McCullagh,
P.
and
Nelder
FRS,
J.A.,GeneralizedLinear Models, 2nd Ed. New
York, 1989.
[3] S.A. Sarpong and A.K. Brobbey, “Poisson
Regression Modeling For Incidence of Maternal
Deaths In Ghana,”Mathematical Theory and
Modeling,ISSN 2224-5804 (Paper) ISSN 22250522 (online), vol.3, no.2, 2013.
[4] I.P.Y.E.Putra,
I.P.E.N.Kencana,
dan
I.G.A.M.Srinadi, “Penerapan Regresi Generalized
Poisson untuk Mengatasi Fenomena Overdispersi
pada
Kasus
Regresi
Poisson,”E-Jurnal
Matematika, vol.2, no.2, hal. 49-53, 2013.
[5] D.T. Molla and B. Muniswamy, “Power of
Tests for Overdispersion Parameter in Negative
Binomial Regression Model,”IOSR Journal of
Mathematics, vol. 1, Issue 4, pp. 29-36, 2012.
[6] K.A.
Yulianingsih,K.G.Sukarsa,
dan
L.P.Suciptawati, “Penerapan Regresi Poisson
untuk
mengetahui
Faktor-Faktor
yang
Memengaruhi Jumlah Siswa SMA/SMK yang
Tidak Lulus UN di Bali,”e-Jurnal Matematika,
vol.1, no.1, hal. 59-63, 2012.
[7] B. Ariawan, Suparti, dan Sudarno,
“Pemodelan Regresi Zero-Inflated Negative
Binomial (ZINB) untuk Data Respon Diskrit
dengan Excess Zero,”Jurnal Gaussian, vol. 1, no.
1, hal. 55-64, 2012.
[8] S. Coxe, S.G. West, and L.S. Aiken, “The
Analysis of Count Data: A Gentle Introduction to
Poisson Regression and Its Alternatives,”Journal
of Personality Assessment, 91(2), pp. 121-136,
2009.
[9] N. Ismail and A.A. Jemain, “Handling
Overdispersion with Negative Binomial and
Generalized
Poisson
Regression
Models,”Casualty Actuarial Society Forum,
Winter. 2007.
[10] D.W. Osgood,“Poisson-Based Regression
Analysis of Aggregate Crime Rates,”Journal of
Quantitative Criminology,vol. 16, no. 1,pp. 21-43,
2000.
[11] Dobson, A.J.,An Introduction to Generalized
Linear Models, 2nd Ed.Chapman & Hall/CRC,
USA, 2002.
701