Kajian Overdispersi pada Regresi Poisson dan Zero-Inflated Poisson untuk Beberapa Karakteristik Data

KAJIAN OVERDISPERSI PADA REGRESI POISSON
DAN ZERO-INFLATED POISSON UNTUK BEBERAPA
KARAKTERISTIK DATA

LILI PUSPITA RAHAYU

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul Kajian Overdispersi pada
Regresi Poisson dan Zero-Inflated Poisson untuk Beberapa Karakteristik Data
adalah benar karya saya dengan arahan dari komisi pembimbing dan belum
diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, Juli 2014
Lili Puspita Rahayu
NIM G151110141

RINGKASAN
LILI PUSPITA RAHAYU. Kajian Overdispersi pada Regresi Poisson dan
Zero-Inflated Poisson untuk Beberapa Karakteristik Data. Dibimbing oleh
KUSMAN SADIK dan INDAHWATI.
Analisis regresi poisson menunjukkan hubungan antara peubah penjelas (X)
dengan peubah respon (Y) yang menyebar Poisson. Regresi Poisson memiliki
asumsi equidispersi, yaitu kondisi dimana nilai rataan dan ragam pada peubah Y
bernilai sama. Penyimpangan asumsi yang sering terjadi pada regresi Poisson
yaitu overdispersi. Kondisi overdispersi yaitu nilai ragam lebih besar dari pada
nilai rataan pada peubah Y. Penyebab dari overdispersi yang sering terjadi dalam
regresi Poisson adalah peluang nilai nol yang berlebih pada peubah Y. Salah satu
akibatnya adalah simpangan baku dari penduga parameter menjadi berbias ke
bawah dan signifikansi dari peubah penjelas menjadi berbias ke atas, sehingga
menghasilkan kesimpulan yang tidak valid (Ismail dan Jemain 2007). Ridout et al.
(1998) menyatakan bahwa penanganan model yang dapat digunakan untuk

mengatasi masalah overdispersi pada regresi Poisson adalah Regresi ZIP. Lambert
(1992) mengemukakan keunggulan dari regresi ZIP adalah sangat mudah
diterapkan pada beberapa bidang dan mudah diinterpretasi penduga parameternya.
Penelitian yang telah dilakukan sebelumnya dimulai dengan
mengembangkan model regresi ZIP sebagai solusi penanganan overdispersi dari
model regresi Poisson di bidang industri pada bagian pengendalian mutu oleh
Lambert (1992). Kemudian, Numna (2009) mengembangkan uji Wald untuk
membandingkan model regresi Poisson dan ZIP. Pengembangan uji Wald
dilakukan secara simulasi dengan penentuan peluang nol pada peubah Y yang
ditetapkan berdasarkan nilai parameter dari sebaran Poisson. Perkembangan
penelitian yang telah dilakukan sebelumnya membuat peneliti mengembangkan
kajian overdispersi pada beberapa karakteristik data untuk regresi Poisson dan ZIP.
Kajian overdispersi pada regresi Poisson dan ZIP dilakukan dengan data simulasi
dan data terapan. Penelitian ini bertujuan membandingkan regresi Poisson dan ZIP
berdasarkan pengujian overdispersi dan evaluasi pendugaan parameter terhadap
nilai parameter dari sebaran Poisson, peluang nol, serta ukuran contoh dari data
simulasi. Selanjutnya, regresi Poisson dan ZIP diterapkan untuk mengkaji
overdispersi pada data terapan.
Data simulasi dibangkitkan berdasarkan karakteristik data berupa lambda (λ)
yang dimulai dari λ=0.6, 0.8, 1, 6, 8, 10, dan 20, peluang munculnya nilai nol (p)

yaitu p=0.1, 0.3, 0.5, dan 0.7, serta ukuran contoh (n) yaitu n=100, 300, 500. Data
yang dibangkitkan berguna untuk mendapatkan penduga koefisien parameter
regresi Poisson dan ZIP dengan banyanya ulangan (r) sebanyak 500 kali.
Koefisien parameter regresi yang telah ditentukan yaitu 0=3, dan 1=0.01.
Peubah X yang dibangkitkan merupakan peubah acak yang menyebar normal
( ,1). Peubah X diasumsikan sebagai peubah tetap. Membangkitkan peubah X dan
Y pada kajian simulasi dilakukan dengan dua tahap.
Data terapan yang digunakan merupakan data tentang faktor-faktor yang
mempengaruhi mahasiswa pascasarjana IPB berhenti studi. Peubah yang
digunakan adalah peubah X1, X2, X3, X4, X5, X6, X7, X8 dengan Y pada ukuran
contoh yang digunakan n=249, dan data sekunder yang digunakan dari tahun

2007–2010. Peubah Y pada data terapan menunjukkan jumlah kejadian
mahasiswa pascasarjana IPB yang berhenti studi pada masing-masing program
studi dari tahun 2007–2010. Data pada peubah X1, X2, X3, X4, X5, X6, X7, X8
berupa persentase dan rata-rata pada masing-masing program studi.
Kajian overdispersi terhadap data simulasi dari kombinasi λ, n, p yang
dicobakan menunjukkan bahwa semakin besar λ, n, dan p maka uji skor
menghasilkan peluang nol berlebih yang semakin besar dan uji khi-kuadrat
menghasilkan persentase sebaran Poisson yang semakin kecil. Hasil perbandingan

menunjukan bahwa regresi ZIP lebih baik dibandingkan regresi Poisson
berdasarkan rasio dispersi dan persentase overdispersi, nilai ARB, dan RRMSE
terhadap dan , serta rataan SAPR terhadap penduga y seiring semakin besar λ,
n, dan p yang dicobakan. Kajian overdispersi terhadap data terapan menyatakan
bahwa karakteristik data ̂ =0.3, n=249, dan p=0.8 dengan menggunakan regresi
ZIP lebih baik dari pada regresi Poisson. Faktor yang mempengaruhi mahasiswa
pascasarjana IPB berhenti studi adalah status perguruan tinggi negeri asal,
sedangkan faktor yang mempengaruhi mahasiswa pascasarjana IPB tidak berhenti
studi adalah mahasiswa penerima beasiswa.
Kata kunci : karakteristik data, overdispersi, regresi Poisson, regresi ZIP

SUMMARY
LILI PUSPITA RAHAYU. Overdispersion Study of Poisson and ZeroInflated Poisson Regression for Some Charactersitics of The Data. Supervised by
KUSMAN SADIK and INDAHWATI.
Poisson regression analysis show a relationship between explanatory
variables (X) with response variable (Y) that spread Poisson. Poisson regression
has equidispersion assumptions, a condition in which mean and variance of
response variable has equal value. Deviation of assumptions that often occurs in
the Poisson regression is overdispersion. Overdispersion is variance greater than
mean of variable Y. Cause of overdispersion that often occur in Poisson

regression is excess zero probability value on variable Y. One result was the
standard deviation of parameter estimates to be underestimate and the significance
of variables X to be overstate, resulting invalid conclusions (Ismail and Jemain
2007). Ridout et al. (1998) stated that solving model that be used to overcome of
overdispersion on Poisson regression is ZIP regression. Lambert (1992) suggested
superiority of ZIP regression were very easy to implemented in some areas and
ZIP regression models easier to interprets parameter estimates.
Research had been done previously started by developing a ZIP regression
model as solving overdispersion solution of Poisson regression model in quality
control of industry by Lambert (1992). Numna (2009) developed a Wald test for
comparison of Poisson and ZIP regression models which conducted on
simulations by determining the zero probability on variable Y based on the value
of parameter Poisson distribution. The development of research previously made
researchers develop overdispersion study on some characteristics of the data for
Poisson and ZIP regression. Overdispersion study on Poisson and ZIP regression
conducted by simulated data and applied data. This study aimed to compare
Poisson and ZIP regression based on testing of overdispersion and evaluation
parameter estimation of the value of parameter Poisson distribution, zero
probability, and sample size of simulated data. Furthermore, the Poisson and ZIP
regression apllied to study of overdispersion on applied data.

Simulated data were generated based on the characteristics of the data are
lambda (λ) starting from λ=0.6, 0.8, 1, 6, 8, 10, and 20, the zero probability (p)
are p=0.1, 0.3, 0.5, and 0.7, and sample size (n) are n=100, 300, 500. The data
were generated useful to obtain coefficients of parameter estimation of Poisson
and ZIP regression with replication (r) 500 times. The coefficient of the regression
parameters have determined were 0=3, and 1=0.01. Variable X which is a
random variable spread normal ( ,1). Variable X is assumed as a fixed variable.
Generating variables X and Y on simulation study carried out in two stages.
Applied data which used is the data about factors that affect IPB
postgraduate students stopped study. The variables were X1, X2, X3, X4, X5, X6,
X7, X8 and Y in the sample size n=249 from 2007-2010. Thus, the variable Y in
applied data showed the number of events that IPB postgraduate students stopped
study in each majors 2007-2010. Data on variables X1, X2, X3, X4, X5, X6, X7, X8
are the percentage and average on each majors.
Overdispersion study on simulated data from a combination of λ, n, p is
tested indicates that the larger λ, n, and p then the score test resulting excess zero

probability are greater and the chi-squared test produces Poisson distribution
percentage is getting smaller. The comparison shows that the ZIP regression is
better than Poisson regression based dispersion ratio and percentage of

overdispersion, ARB and RRMSE values of
and , and the average of SAPR
to estimation y with the greater λ, n, and p are tested. Overdispersion study of
applied data shows that characteristics of data ̂ = 0.3, n=249, and p=0.8 using
ZIP regression would be better than Poisson regression. The factor that affect IPB
postgraduate students stopped study were the percentage of college country status
of origin, while the factor that affect IPB postgraduate students did not stop study
were percentage of scholarship recipients students.
Keywords: characteristics of the data, overdispersion, Poisson regression, zeroinflated Poisson regression

© Hak Cipta Milik IPB, Tahun 2014
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB


KAJIAN OVERDISPERSI PADA REGRESI POISSON
DAN ZERO-INFLATED POISSON UNTUK BEBERAPA
KARAKTERISTIK DATA

LILI PUSPITA RAHAYU

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
pada
Program Studi Statistika

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014

Penguji pada Ujian Tesis: Dr. Ir. Budi Susetyo, MS

Judul Tesis :

Nama
NIM

Kajian Overdispersi pada Regresi Poisson dan Zero-Inflated
Poisson untuk Beberapa Karakteristik Data
: Lili Puspita Rahayu
: G151110141

Disetujui oleh
Komisi Pembimbing

Dr. Ir. Kusman Sadik, M.Si
Ketua

Dr. Ir. Indahwati, M.Si
Anggota

Diketahui oleh

Ketua Program Studi

Statistika

Dekan Sekolah Pascasarjana

Dr. Ir. Anik Djuraidah, MS

Dr. Ir. Dahrul Syah, M.Sc.Agr

Tanggal Ujian: 11 Juni 2014

Tanggal Lulus:

PRAKATA
Puji dan syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan
hidayah-Nya, sehingga penulis dapat menyelesaikan tesis yang berjudul “Kajian
Overdispersi pada Regresi Poisson dan Zero-Inflated Poisson untuk Beberapa
Karakteristik Data”. Keberhasilan penulisan tesis ini tidak lepas dari bantuan,
bimbingan, dan petunjuk dari berbagai pihak.
Terima kasih penulis sampaikan kepada Bapak Dr. Ir. Kusman Sadik, M.Si
selaku pembimbing I, Ibu Dr. Ir. Indahwati, M.Si selaku pembimbing II, Ibu Dr.

Ir. Anik Djuraidah, MS selaku ketua Program Studi Statistika, dan Bapak Dr. Ir.
Budi Susetyo, MS selaku penguji tesis, terima kasih atas bimbingan, arahan,
saran, dan waktunya. Disamping itu penulis juga mengucapkan terima kasih
kepada seluruh staf Program Studi Statistika.
Ungkapkan terima kasih terkhusus penulis sampaikan kepada Bapak
(Suyono, S.Pd), ibu (Emiyati, S.Pd), dan adik (Ardian Cahyadi, S.Pd dan Aji
Satria) serta seluruh keluarga atas do’a, dukungan dan kasih sayangnya. Terima
kasih pula kepada teman-teman Statistika (S1, S2 dan S3), Statistika Terapan
(S2), dan sahabat atas bantuan serta kebersamaannya. Semoga karya ilmiah ini
dapat menambah wawasan dan bermanfaat.
Bogor,

Juli 2014

Lili Puspita Rahayu

DAFTAR ISI
DAFTAR TABEL
DAFTAR GAMBAR
DAFTAR LAMPIRAN
PENDAHULUAN
Latar Belakang
Tujuan Penelitian
Manfaat Penelitian
Ruang Lingkup Penelitian
TINJAUAN PUSTAKA
Regresi Poisson
Regresi ZIP
Identifikasi terhadap Peluang Nol Berlebih pada Peubah Respon
Uji Wald pada Regresi Poisson dan ZIP
Uji Pearson Khi-Kuadrat pada Regresi Poisson dan ZIP
Evaluasi Penduga Parameter Regresi Poisson dan ZIP
METODE
Data
Metode Analisis
HASIL DAN PEMBAHASAN
Kajian Simulasi
Kajian Terapan
KESIMPULAN DAN SARAN
DAFTAR PUSTAKA
LAMPIRAN
RIWAYAT HIDUP

vi
vi
vi
1
1
2
2
2
3
3
4
6
7
8
9
10
10
11
12
13
24
30
31
32
49

DAFTAR TABEL
1
2
3
4
5
6
7
8
9
10
11
12
13

Peubah-peubah dalam data terapan
Persentase uji skor terhadap kombinasi λ, n, p
Persentase uji khi-kuadrat terhadap kombinasi λ, n, p
Rasio dispersi terhadap regresi Poisson dan ZIP
Persentase overdispersi pada regresi Poisson dan ZIP
Nilai ARB (%) terhadap pada regresi Poisson dan ZIP
Nilai ARB (%) terhadap pada regresi Poisson dan ZIP
Nilai RRMSE (%) terhadap pada regresi Poisson dan ZIP
Nilai RRMSE (%) terhadap pada regresi Poisson dan ZIP
Nilai SAPR terhadap penduga y pada regresi Poisson dan ZIP
Persentase mahasiswa pascasarjana IPB yang berhenti studi
Pendugaan model regresi Poisson
Model data diskret untuk λ dan model zero-inflation untuk p
pada regresi ZIP

11
15
16
17
18
19
20
21
22
23
24
26
27

DAFTAR GAMBAR
Histogram terhadap peubah Y pada =1, n=300 dengan (a) p=0.1,
(b) p=0.3, (c) p=0.5, (d) p=0.7
2 Histogram terhadap peubah Y pada =10, n=300 dengan (a) p=0.1,
(b) p=0.3, (c) p=0.5, (d) p=0.7
3 Histogram pada peubah Y
4 Plot Pearson residual terhadap regresi Poisson dan ZIP

1

13
14
25
29

DAFTAR LAMPIRAN
1 Kondisi simulasi terhadap kombinasi λ, n, p
2 Tabulasi data terapan
3 Daftar nama program studi pascasarjana S2 IPB beserta sub rumpun ilmu
4 Diagram alur penelitian pada kajian simulasi
5 Diagram alur penelitian pada kajian terapan
6 Sintaks pemograman untuk kajian simulasi pada regresi Poisson dan ZIP
7 Sintaks pemograman untuk kajian terapan pada regresi Poisson dan ZIP
8 Grafik hubugan peubah Y dengan X pada kombinasi λ, n, dan p
9 Grafik Pearson residual terhadap regresi Poisson dan ZIP pada kombinasi
λ, n, dan p

32
33
34
36
37
38
41
44
46

PENDAHULUAN
Latar Belakang
Sebaran Poisson merupakan salah satu dari beberapa sebaran diskret yang
menyatakan jumlah kejadian yang terjadi selama suatu selang waktu atau daerah
tertentu (Cameron dan Trivedi 1998). Data yang diperoleh berupa cacahan dengan
bilangan bulat tak negatif. Salah satu bentuk analisis yang digunakan untuk
memodelkan data cacah adalah regresi Poisson. Analisis regresi Poisson
menunjukkan hubungan antara peubah penjelas dengan peubah respon yang
menyebar Poisson. Karakteristik dari sebaran Poisson yaitu nilai rataan dan
ragamnya bernilai sama atau equdispersi. Karakteristik tersebut jarang terjadi
pada data terapan, dengan kata lain sering terjadi penyimpangan berupa
overdispersi atau underdispersi. Overdispersi yaitu nilai ragam lebih besar dari
pada nilai rataan, sedangkan underdispersi yaitu nilai ragam lebih kecil dari nilai
rataan pada peubah respon. Penerapan regresi Poisson pada kejadian underdispersi
jarang terjadi, hal ini dikarenakan pada data terapan sering terdapat keragaman
yang besar dari peubah respon (Jansakul dan Hinde 2002).
Masalah yang sering dihadapi dalam regresi Poisson adalah overdispersi.
Kondisi ini disebabkan peubah penjelas yang tidak dapat dijelaskan dalam model,
sehingga masih dimungkinkan adanya keragaman tinggi dari peubah respon yang
disebabkan oleh peubah lain. Penyebab dari overdispersi yang sering terjadi dalam
regresi Poisson adalah peluang nol yang berlebih pada peubah respon. Salah satu
akibatnya adalah simpangan baku dari penduga parameter menjadi berbias ke
bawah dan signifikansi dari peubah penjelas menjadi berbias ke atas, sehingga
menghasilkan kesimpulan yang tidak valid (Ismail dan Jemain 2007).
Ridout et al. (1998) menyatakan bahwa penanganan model yang dapat
digunakan untuk mengatasi masalah overdispersi akibat peluang nol yang berlebih
pada peubah respon dalam regresi Poisson antara lain model regresi hurdle
Poisson dan zero-inflated Poisson (ZIP). Lambert (1992) mengemukakan
keunggulan dari regresi ZIP adalah sangat mudah diterapkan pada beberapa
bidang seperti pertanian, peternakan, biostatistika, dan industri. Selain itu, model
regresi ZIP mudah diinterpretasi penduga parameternya, dan dapat menjelaskan
alasan terjadinya overdispersi pada peubah respon, sehingga pada penelitian ini
akan dikaji mengenai regresi ZIP.
Penelitian yang telah dilakukan sebelumnya dimulai dengan
mengembangkan model regresi ZIP sebagai solusi penanganan overdispersi dari
model regresi Poisson di bidang industri pada bagian pengendalian mutu oleh
Lambert (1992). Kemudian, Ridout et al. (1998) menerapkan model regresi ZIP di
bidang pertanian. Xie et al. (2001) mengembangkan model regresi ZIP pada
pengendalian proses secara statistika. Pengembangan regresi ZIP dari Xie et al.
(2001) dengan menggunakan kuasa uji pada simulasi terhadap kombinasi peluang
nol, nilai parameter dari sebaran Poisson dan ukuran contoh. Naya et al. (2008)
melakukan perbandingan regresi Poisson dan ZIP berdasarkan empat kondisi
simulasi terhadap bentuk model regresi tanpa dan ada pengaruh sisaan di bidang
peternakan. Numna (2009) mengembangkan uji Wald untuk membandingkan
model regresi Poisson dan ZIP. Pengembangan uji Wald dilakukan secara

2
simulasi dengan penentuan peluang nilai nol pada peubah respon yang ditetapkan
berdasarkan nilai parameter dari sebaran Poisson.
Penelitian ini akan dikembangkan kajian overdispersi pada beberapa
karakteristik data untuk regresi Poisson dan ZIP. Overdispersi dikaji berdasarkan
eksplorasi dan pengujian terhadap peubah respon, serta perbandingan model
regresi Poisson dan ZIP. Kajian overdispersi pada regresi Poisson dan ZIP
dilakukan dengan data simulasi dan data terapan. Data simulasi berupa kombinasi
dari nilai parameter sebaran Poisson, peluang nol, dan ukuran contoh pada peubah
respon. Selanjutnya, data terapan yang digunakan adalah data mahasiswa
pascasarjana Institut Pertanian Bogor (IPB) yang berhenti studi dari tahun 20072010.

Tujuan Penelitian
Tujuan penelitian ini adalah
1. Memeriksa kondisi overdispersi dan sebaran Poisson dengan eksplorasi dan
pengujian terhadap nilai parameter dari sebaran Poisson, peluang munculnya
nilai nol, serta ukuran contoh pada peubah respon dari data simulasi dan data
terapan.
2. Membandingkan model regresi Poisson dan Zero Inflated Poisson berdasarkan
pengujian overdispersi dan evaluasi pendugaan parameter terhadap nilai
parameter dari sebaran Poisson, peluang nol, serta ukuran contoh pada data
simulasi.
3. Menerapkan dan membandingkan regresi Poisson dan ZIP pada data terapan
berdasarkan eksplorasi dan pengujian terhadap peubah respon, pengujian
overdispersi, serta evaluasi pendugaan parameter.

Manfaat Penelitian
Penelitian ini bermanfaat dalam
1. Kajian simulasi untuk membuktikan regresi ZIP sebagai solusi atas terjadinya
overdispersi pada regresi Poisson berdasarkan kombinasi nilai parameter dari
sebaran Poisson, peluang munculnya nilai nol, dan ukuran contoh.
2. Kajian terapan untuk menerapkan regresi Poisson dan ZIP pada data terapan.

Ruang Lingkup Penelitian
Penelitian ini dibatasi untuk karakteristik data dengan mengganggap setiap
amatan memiliki peluang nol dan parameter dari sebaran Poisson yang sama, baik
pada simulasi maupun data terapan.

3

TINJAUAN PUSTAKA
Regresi Poisson
Cameron dan Trivedi (1998) menyatakan bahwa model regresi Poisson
digunakan sebagai pendekatan untuk analisis data cacah dan tergantung pada
asumsi munculnya data cacah tersebut. Ada dua keadaan formulasi yang sering
terjadi pada asumsi munculnya data cacah. Formulasi pertama, yaitu data cacah
berasal dari pengamatan langsung dari sebuah proses titik. Formulasi kedua, yaitu
data cacah berasal dari diskretisasi atau ordinalisasi pada data laten kontinu.
Formulasi lainnya, yaitu data cacah berasal dari kejadian yang jarang terjadi atau
pendekatan sebaran binomial terhadap Poisson.
Model regresi Poisson merupakan model regresi nonlinier yang berasal dari
sebaran Poisson. Misalkan nilai yi dengan i=1,2,.., n, melambangkan jumlah
kejadian yang terjadi dalam satu periode dengan nilai parameter dari sebaran
Poisson λ. Penelitian ini menganggap bahwa setiap amatan memiliki parameter
dari sebaran Poisson yang sama di regresi Poisson. Peubah y merupakan peubah
acak yang menyebar Poisson dengan fungsi massa peluang sebagai berikut

dengan asumsi pada regresi Poisson yaitu

Metode untuk menduga koefisien parameter regresi Poisson yaitu metode
kemungkinan maksimum. Fungsi log kemungkinan yang dinotasikan dengan
pada persamaan 2.1 digunakan untuk mempermudah perhitungan dalam
menduga koefisien parameter regresi Poisson. Memaksimumkan fungsi log
kemungkinan akan memberikan hasil yang sama dengan memaksimumkan fungsi
kemungkinannya.


(2.1)

Model pada persamaan 2.2 merupakan model regresi Poisson dengan fungsi
penghubung untuk sebaran Poisson adalah log. ̂ adalah penduga respon dari
model regresi Poisson dengan ukuran n x 1, adalah koefisien penduga parameter
regresi Poisson dengan ukuran vektor (j + 1) x 1, dan X adalah peubah penjelas
dengan ukuran matriks n x (j + 1), dengan j adalah banyaknya parameter yang
diduga.
(̂)
̂

(2.2)

4
Metode iterasi yang digunakan untuk menduga koefisien parameter regresi
Poisson adalah iterative reweighted least square (IRWLS) dengan persamaan
sebagai berikut:
(2.3)

Persamaan pada 2.3 menjelaskan bahwa
adalah matriks pembobot dengan
ukuran n x n dan adalah vektor peubah respon dengan ukuran n x 1.
Karakteristik dari sebaran Poisson yaitu nilai rataan dan ragam pada
peubah Y bernilai sama. Namun, kondisi yang sering terjadi adalah nilai ragam
lebih besar dari rataan atau overdispersi. Hardin dan Hilbe (2007) menyatakan
bahwa overdispersi terjadi karena adanya sumber keragaman yang tidak teramati
pada data atau adanya pengaruh peubah lain yang mengakibatkan peluang suatu
kejadian bergantung pada kejadian sebelumnya. Selain itu, overdispersi dapat juga
terjadi karena adanya pencilan pada data dan kesalahan spesifikasi fungsi
penghubung. Penyebab lain dari overdispersi yang sering terjadi dalam regresi
Poisson adalah peluang nilai nol yang berlebih pada peubah respon.
Apabila regresi Poisson digunakan untuk kondisi overdispersi, maka
terjadi keragaman data yang terdapat pada peubah respon (Y). Keragaman data
ditunjukan dengan adanya rasio dispersi (τ), yaitu

Dispersi adalah ukuran penyebaran suatu kelompok data terhadap nilai tengah
data. Nilai dispersi kecil menunjukkan ragam yang homogen pada data,
sedangkan nilai dispersi besar menunjukkan keheterogenan pada data.
Overdispersi diidentifikasi dengan rasio τ bernilai lebih dari satu dan bersifat
konstan. Penanganan model yang digunakan untuk mengatasi masalah
overdispersi akibat peluang nilai nol yang berlebih pada peubah respon salah
satunya adalah regresi ZIP.

Regresi ZIP
Jansakul dan Hinde (2002) menyatakan bahwa jika Y adalah peubah acak
bebas yang memiliki sebaran ZIP, kemudian nilai nol diasumsikan muncul dari
dua tahap yang bersamaan. Tahap pertama terjadi pada peluang yang hanya
menghasilkan amatan bernilai nol dilambangkan dengan Tahap kedua terjadi
pada peluang yang menghasilkan data cacah menyebar Poisson dengan parameter
dilambangkan
. Pada umumnya, nilai nol dari tahap pertama disebut
structural zeros, dan nilai nol dari tahap kedua disebut sampling zeros. Penelitian
ini mengganggap setiap amatan memiliki peluang nol dan parameter dari sebaran
Poisson yang sama di regresi ZIP. Proses dua tahap tersebut memberikan sebaran
campuran yang sederhana dengan fungsi masa peluang sebagai berikut

{

(2.4)

5
dengan

. Perhitungan sederhana menunjukkan bahwa

dan
(2.5)

Persamaan 2.4 mengindikasikan bahwa sebaran marginal dari Y mengalami
overdispersi jika
. Overdispersi akan mereduksi menjadi model regresi
Poisson ketika
. Nilai
menjelaskan bahwa terdapat peningkatan nilai
nol pada peubah respon. Regresi ZIP mampu mengatasi overdispersi, hal ini
karena nilai rataan dan ragam pada sebaran ZIP tidak bernilai sama. Nilai ragam
peubah respon pada sebaran ZIP lebih besar dibandingkan nilai rataan. Kondisi ini
terlihat pada persamaan 2.5.
Metode untuk menduga koefisien parameter regresi ZIP yaitu metode
kemungkinan maksimum. Fungsi log kemungkinan terhadap pengamatan pada
model regresi ZIP digunakan untuk mempermudah perhitungan dalam
mendapatkan penduga koefisien parameter.
∑{

[

}

]

(2.6)

Persamaan 2.6 menjelaskan bahwa
merupakan fungsi indikator untuk kejadian
tertentu, misalkan
bernilai 1 jika kejadian benar dan bernilai 0 untuk
lainnya. Model dari regresi ZIP dibagi menjadi dua komponen model yaitu model
data diskret untuk λ dan model zero-inflation untuk p.
(̂)

Peubah penjelas yang digunakan dalam model ln dapat bernilai sama atau berbeda
dengan peubah penjelas yang digunakan dalam model logit. Jika peubah penjelas
yang digunakan dalam model ln dan model logit bernilai sama, maka model
regresi ZIP menjadi
(̂)

(

)

dengan X dan adalah matriks peubah penjelas yang masing-masing berukuran
n x (q + 1) dan n x (r + 1).Penduga parameter dan adalah vektor dari koefisien
penduga parameter regresi ZIP yang masing-masing berukuran (q + 1) x 1 dan
(r + 1) x 1, dengan q dan r adalah banyakanya parameter yang diduga pada regresi
ZIP pada model data diskret dan zero-inflation. Pendugaan kemungkinan
maksimum untuk dan diperoleh dengan menggunakan algoritma Expectation
Maximization (EM) yang memberikan cara sederhana, sehingga dapat diterapkan
pada perangkat lunak yang standar untuk mencocokan model linier terampat.
Proses untuk menemukan solusi dari turunan fungsi log kemungkinan pada regresi

6
Poisson dan ZIP tidak dapat dilakukan secara langsung. Fungsi tidak linier dalam
parameter yang ingin diduga, sehingga dibutuhkn metode numerik NewtonRaphson untuk menyelesaikannya.
Kajian overdispersi pada regresi Poisson dan ZIP dilakukan dengan
beberapa tahap pengujian. Tahap pertama yaitu mengidentifikasi peluang nol pada
peubah Y dengan uji skor dan uji khi-kuadrat untuk sebaran Poisson dan ZIP.
Tahap kedua yaitu melakukan analisis regresi Poisson dan ZIP dengan uji Wald.
Tahap ketiga yaitu melakukan kebaikan model regresi Poisson dan ZIP dengan
rasio dispersi dan uji khi-kuadrat. Tahap keempat atau tahap terakhir yaitu
melakukan evaluasi terhadap penduga parameter dari model regresi Poisson dan
ZIP, serta penduga y berdasarkan bias, ragam, dan residual.

Identifikasi terhadap Peluang Nilai Nol pada Peubah Respon
Cameron dan Trivedi (1998) menyatakan bahwa masalah utama dari
overdispersi terdapat pada model dengan peubah respon diskret. Penyebab dari
overdispersi yang sering terjadi adalah peluang nilai nol yang berlebih pada
peubah respon. Kajian overdispersi ini membutuhkan identifikasi dengan
melakukan uji skor dan uji khi-kuadrat terhadap peluang muncunya nilai nol pada
peubah respon.
Uji skor
Xie et al. (2001) serta Jansakul dan Hinde (2002) menjelaskan uji skor
bertujuan untuk mengetahui berlebih atau tidaknya peluang nol pada peubah
respon. Uji skor digunakan dalam mengkaji model regresi ZIP sebagai solusi
penanganan overdispersi dari model regresi Poisson. Hipotesis yang akan diuji
adalah
H0 μ ω = 0 dan H1μ ω > 0

(2.7)

dengan ω adalah peluang nol pada peubah respon. Hipotesis nol pada persamaan
2.7 menjelaskan bahwa peluang nol pada peubah respon tidak berlebih sehingga
tidak mengakibatkan adanya overdispersi, ataupun sebaliknya untuk interpretasi
pada H1. Statistik uji skor didapatkan dengan aljabar matematika berdasarkan
penurunan fungsi log kemungkinan model regresi ZIP pada persamaan 2.6,
sehingga didapatkan rumus sebagai berikut
(2.8)
̅

̂ dengan
dengan n0 adalah banyaknya nilai nol, n adalah ukuran data,
̂ merupakan penduga parameter Poisson di bawah kondisi H0 atau ̅, dan ̅
adalah nilai rataan dari peubah respon. Di bawah kondisi H0 benar, statistik uji
pada persamaan 2.8 akan mendekati sebaran khi-kuadrat (
dengan derajat
bebas 1, sehingga keputusannya adalah menolak H0 pada taraf nyata (α), jika
. Penolakan H0 pada α berarti bahwa peluang nol berlebih pada peubah
respon, sehingga terjadi overdispersi.

7
Uji khi-kuadrat
Ricci (2005) menyatakan bahwa uji khi-kuadrat digunakan untuk menguji
kecocokan sekumpulan data terhadap peluang sebaran tertentu. Uji khi-kuadrat
digunakan untuk menguji kecocokan sekumpulan data terhadap peluang sebaran
Poisson dan ZIP. Pada uji khi-kuadrat frekukensi aktual dalam kategori
dibandingkan dengan frekuensi yang secara teoritis diharapkan terjadi, jika data
mengikuti peluang sebaran Poisson dan ZIP. Hipotesis dari uji khi-kuadrat yaitu
H0 :

dan H1:

=



(2.9)

dengan
adalah peluang amatan untuk setiap kategori ke-l dan
adalah
peluang sebaran Poisson. Hipotesis nol pada persamaan 2.9 menjelaskan bahwa
terdapat kecocokan antara peluang amatan dengan peluang sebaran Poisson,
ataupun sebaliknya untuk interpretasi pada H1. Kemudian, statistik uji khi-kuadrat
merupakan selisih antara frekuensi yang diamati dengan frekuensi teoritis
terhadap frekuensi teoritis dari peluang sebaran Poisson dan ZIP.


(2.10)

dengan adalah fungsi massa peluang dari sebaran Poisson dan ZIP, adalah
frekuensi yang diamati untuk setiap kategori ke-l, n adalah ukuran contoh, dan m
adalah jumlah kategori. Di bawah kondisi H0 benar, statistik uji
pada
persamaan 2.10 akan mendekati sebaran
dengan derajat bebas (m-p), dan p
adalah jumlah parameter diduga oleh data contoh atau ̂ = ̅ sehingga penduga
parameternya berjumlah 1. Dengan demikian keputusannya adalah menolak H0
pada α, jika
. Penolakan H0 pada α berarti bahwa tidak terdapat
kecocokan antara peluang amatan dengan peluang sebaran Poisson atau peubah
respon tidak menyebar Poisson atau tidak menyebar ZIP.

Uji Wald pada Regresi Poisson dan ZIP
Agresti A (2007) menyatakan bahwa uji Wald digunakan untuk mengetahui
peubah penjelas yang berpengaruh terhadap peubah respon. Uji Wald diterapkan
pada model regresi Poisson dan ZIP. Hipotesis untuk menguji signifikansi dari
koefisien parameter regresi Poisson dan ZIP, misalkan  , pada persamaan 2.11
adalah
H0 : 

dan H1: 

Selang kepercayaan pada uji Wald untuk  yaitu ̂ ± 1.96
statistik uji yang digunakan pada persamaan 2.12 adalah

̂
̂

(2.11)

̂ , dengan
(2.12)

8
Statistik uji Wald pada persamaan 2.12 mendekati sebaran normal baku ketika

. Keadaan ini setara dengan yang mendekati sebaran khi-kuadrat dengan
derajat bebas 1, sehingga statistik uji Wald yang digunakan terdapat pada
persamaan 2.13, yaitu

̂
̂

(2.13)

dengan ̂ adalah koefisien penduga parameter  dan
̂ adalah penduga galat
baku dari penduga koefisien parameter  yang diperoleh dari matriks penduga
ragam peragam ̂ .
Statistik uji
pada persamaan 2.13 akan mendekati sebaran
dengan
derajat bebas 1 di bawah kondisi H0 benar, sehingga keputusannya adalah
. Penolakan H0 pada α berarti bahwa peubah
menolak H0 pada α, jika
penjelas ke-i, untuk suatu i tertentu (i=1,2,…,k), memiliki pengaruh yang
signifikan terhadap peubah respon.

Uji Pearson Khi-Kuadrat pada Regresi Poisson dan ZIP
Cameron dan Trivedi (1998) menyatakan bahwa uji Pearson khi-kuadrat
sering digunakan dalam mengukur kebaikan model regresi Poisson dan ZIP.
Pengujian ini dilakukan dengan hipotesis pada persamaan 2.14 yaitu jika rasio τ
menghasilkan nilai lebih dari satu, maka model tersebut mengalami overdispersi
pada hipotesis alternatif (H1). Hipotesis pada uji Pearson khi-kuadrat adalah
H0 μ τ = 1 dan H1μ τ > 1

(2.14)

nilai statistik uji Pearson khi-kuadrat dapat didefinisikan pada persamaan 2.15
yaitu


(2.15)

dengan rasio dispersi
(2.16)

dengan
adalah nilai aktual pada amatan ke-i dari peubah respon,
dan
Var(Y) adalah nilai dugaan rataan dan ragam dari regresi Poisson dan ZIP. n
adalah banyaknya amatan pada peubah respon, dan k adalah banyaknya parameter
regresi Poisson dan ZIP. Di bawah kondisi H0 benar, statistik uji
pada
persamaan 2.15 akan mendekati sebaran
dengan derajat bebas (n-k), sehingga
keputusannya adalah menolak H0 pada α, jika
. Pengidentifikasian
adanya keragaman data pada peubah respon (Y) terhadap regresi Poisson dan ZIP
dengan menggunakan kriteria rasio τ yang ditunjukan pada persamaan 2.16. Rasio

9
τ didapat dari nilai statisik uji Pearson khi-kuadrat pada persamaan 2.15 terhadap
derajat bebas dari regresi Poisson dan ZIP.

Evaluasi Penduga Parameter Regresi Poisson dan ZIP
Akurasi nilai penduga parameter pada model regresi Poisson dan ZIP dapat
dilihat dari absolute relative bias (ARB), relative root mean square error
(RRMSE). Cameron dan Trivedi (1998) menyataka bahwa akurasi penduga y pada
model regresi Poisson dan ZIP dapat dilihat dari Pearson residual (PR), dan sum
of absolute Pearson residual (SAPR). Persamaan dari ARB, RRMSE, dan SAPR
didefinisikan berturut-turut pada persamaan 2.17, 2.18, dan 2.19 adalah
00

∑|
=1

̂

√∑

sehingga



| 100
̂

(2.17)

100
(2.18)
̂



00

∑|
=1

|

(2.19)

dengan r adalah jumlah ulangan simulasi, ̂ adalah penduga parameter ke-i dari
regresi Poisson dan ZIP, serta  merupakan parameter yang sebenarnya.
Kemudian,
adalah peubah respon pada ulangan ke-i dan amatan ke-j, dan ̂
adalah penduga y dari model regresi Poisson dan ZIP pada ulangan ke-i dan
amatan ke-j, serta var(Y) adalah penduga ragam dari regresi Poisson dan ZIP.
Semakin kecil nilai ARB, RRMSE, dan SAPR maka model regresi tersebut dapat
dikatakan semakin baik.

10

METODE
Data
Data simulasi
Data yang digunakan dalam penelitian ini adalah data simulasi. Data
simulasi dibangkitkan berdasarkan karakteristik data. Karakteristik data berupa
lambda (λ), yaitu λ=0.6, 0.8, 1, 6, 8, 10, dan 20 dan peluang munculnya nilai nol
(p), yaitu p=0.1, 0.3, 0.5, dan 0.7, serta ukuran contoh (n), yaitu n=100, 300, 500.
Data simulasi berguna untuk mendapatkan penduga koefisien parameter regresi
Poisson dan ZIP. Koefisien parameter regresi yang telah ditentukan yaitu 0=3
dan 1=0.01. Peubah yang ditentukan untuk membuat model regresi Poisson dan
ZIP yaitu peubah penjelas (X) dan peubah respon (Y).
Peubah X merupakan peubah acak yang menyebar normal ( ,1). Peubah X
diasumsikan sebagai peubah tetap. Peubah X dan Y pada kajian simulasi
dibangkitkan dengan tahap-tahap sebagai berikut:
1. Membangkitkan peubah Y yang menyebar Poisson (λ), sebanyak n dengan
peluang nol p.
2. Membangkitkan peubah X dengan looping pertama, yaitu:
(i) Memisahkan peubah Y yaitu peubah Y yang bernilai nol dan tidak nol.
(ii) Melakukan transformasi pada peubah X dengan rumus: xi= (ln (yi) - 0)/1,
dengan yi dari peubah Y tidak nol.
(iii) Memberi nama hasil transformasi peubah X untuk peubah Y yang tidak
nol sebagai X tidak nol.
3. Membangkitkan peubah X pada peubah Y yang bernilai nol dan tidak nol
dengan looping kedua, yaitu:
(i) Jika peubah Y bernilai nol, maka xi didapatkan dengan cara melakukan
penarikan contoh dengan pengembalian pada peubah X tidak nol.
(ii) Jika peubah Y bernilai tidak nol, maka xi dibangkitkan dari sebaran
Normal dengan nilai tengah hasil transformasi yang diperoleh dari poin
2(ii) dan ragam sebesar 1 sebanyak n=1.
Data simulasi pada peubah X dan Y dibangkitkan dengan perangkat lunak
program R ver.2.15.2 dan akan diulang sebanyak r=500 kali. Secara garis besar
terdapat 84 kondisi simulasi yang digunakan dalam penelitian ini terangkum pada
Lampiran 1.
Data terapan
Data terapan digunakan dengan tujuan kajian simulasi yang telah
dilakukan dapat diterapkan pada berbagai bidang untuk mengetahui ada atau
tidaknya masalah overdispersi dalam data cacah terutama data yang menyebar
Poisson. Data terapan yang digunakan merupakan data tentang faktor-faktor yang
mempengaruhi mahasiswa pascasarjana IPB strata 2 (S2) berhenti studi. Peubah
yang digunakan adalah peubah X1, X2, X3, X4, X5, X6, X7, X8 dan Y yang
ditunjukan pada Tabel 1 beserta satuannya. Ukuran contoh yang digunakan n=249,
dan data sekunder yang digunakan dari tahun 2007–2010. Peubah Y pada data
terapan menunjukkan jumlah kejadian mahasiswa pascasarjana IPB yang berhenti

11
studi pada masing-masing program studi dari tahun 2007–2010. Tabulasi data
terapan yang digunakan dalam penelitian ini terangkum pada Lampiran 2 dan 3.

Peubah
Y
X1

Tabel 1 Peubah-peubah dalam data terapan
Definisi
Jumlah kejadian mahasiswa pascasarjana IPB yang berhenti studi
pada masing-masing program studi.

X6

Persentase mahasiswa yang berasal dari perguruan tinggi negeri
(PTN) pada masing masing program studi.
Rata-rata IPK mahasiswa pascasarjana ketika lulus strata 1 (S1) pada
masing-masing program studi.
Persentase mahasiswa memiliki linieritas sub rumpun terhadap
program studi S1 dan S2 yang sedang ditempuhya pada masingmasing program studi.
Persentase mahasiswa sudah menikah pada masing-masing program
studi.
Persentase mahasiswa penerima beasiswa pada masing-masing
program studi.
Persentase mahasiswa laki-laki pada masing-masing program studi.

X7

Rata-rata usia mahasiswa pada masing-masing program studi.

X8

Persentase mahasiswa yang bekerja pada masing-masing program
studi.

X2
X3
X4
X5

Metode Analisis
Metode simulasi
Metode penelitian pada kajian simulasi di setiap kombinasi λ, n dan p yang
dicobakan akan dilakukan sesuai dengan langkah-langkah sebagai berikut dan
secara garis besar diringkas pada Lampiran 4:
1. Membangkitkan peubah Y berdasarkan nilai λ, n, p, kemudian
membangkitkan peubah X.
2. Melakukan eksplorasi pada peubah Y dengan membuat histogram untuk
mengetahui indikasi dari kondisi sebaran Poisson.
3. Melakukan pengujian skor pada peubah Y untuk mengetahui peluang nol
berlebih atau tidak.
4. Melakukan pengujian khi-kuadrat pada peubah Y untuk mengidentifikasi
peubah Y menyebar Poisson atau ZIP.
5. Melakukan pengujian Pearson khi-kuadrat terhadap regresi Poisson dan ZIP
untuk mengetahui kondisi overdispersi.
6. Melakukan analisis regresi Poisson dan ZIP untuk mendapatkan penduga
koefisien parameter regresi.
7. Menghitung nilai ARB dan RRMSE pada setiap penduga parameter regresi
Poisson dan ZIP.
8. Menghitung nilai PR pada setiap amatan terhadap penduga y pada regresi
Poisson dan ZIP.

12
9. Mengulangi langkah (1) sampai (8) sebanyak 500 kali.
10. Menghitung nilai SAPR di setiap ulangan.
11. Menghitung rata-rata dari 500 nilai ARB dan RRMSE terhadap masingmasing nilai penduga parameter regresi Poisson dan ZIP.
12. Menghitung rata-rata dari 500 nilai SAPR terhadap penduga y pada model
regresi Poisson dan ZIP.
Metode terapan
Metode penelitian pada kajian terapan akan dilakukan sesuai dengan
langkah-langkah sebagai berikut dan secara garis besar diringkas pada
Lampiran 5:
1. Menghitung jumlah mahasiswa pascasarjana IPB yang berhenti studi pada
setiap tahun (Y).
2. Mengidentifikasi karakteristik data pada peubah Y dengan menghitung nilai ̂ ,
p, dan n.
3. Melakukan eksplorasi pada peubah Y dengan membuat histogram untuk
mengetahui indikasi dari kondisi sebaran Poisson.
4. Melakukan pengujian skor pada peubah Y untuk mengetahui peluang nol
berlebih atau tidak.
5. Melakukan pengujian khi-kuadrat pada peubah Y untuk mengidentifikasi
peubah Y menyebar Poisson atau ZIP.
6. Melakukan analisis regresi Poisson dan menguji penduga koefisien parameter
regresi dengan uji Wald.
7. Melakukan uji Pearson khi-kuadrat pada regresi Poisson untuk mengetahui
terjadi overdispersi atau tidak.
8. Melakukan analisis regresi ZIP dan menguji penduga koefisien parameter
regresi dengan uji Wald.
9. Melakukan uji Pearson khi-kuadrat pada regresi ZIP untuk mengetahui terjadi
overdispersi atau tidak.
10. Menghitung nilai PR dan SAPR terhadap penduga y pada model regresi
Poisson dan ZIP.
11. Membandingkan regresi Poisson dan ZIP berdasarkan hasil eksplorasi dan
pengujian terhadap peubah Y, pengujian overdispersi, dan evaluasi model
terhadap penduga y.
Secara garis besar, proses dari metodelogi penelitian ini dengan menggunakan
syntax pemograman untuk kajian simulasi dan terapan terdapat pada Lampiran 6
dan 7.

13

HASIL DAN PEMBAHASAN
Kajian overdispersi pada regresi Poisson dan ZIP ini ditinjau dari kajian
simulasi dan kajian terapan. Kajian simulasi terdiri dari 84 kasus simulasi yang
merupakan karakteristik data dari kombinasi λ, n, dan p. Simulasi dilakukan untuk
mengevaluasi hasil pendugaan parameter dari regresi Poisson dan ZIP dengan
menggunakan persentase ARB, RRMSE dan rataan SAPR. Nilai tersebut
diperoleh dari hasil simulasi yang diulang sebanyak 500 kali. Hasil evaluasi dari
data simulasi diperjelas dengan hasil eksplorasi dan pengujian terhadap peubah Y.
Analisis regresi Poisson dan ZIP akan digunakan di data terapan yang memiliki p
berlebih pada peubah Y.

Kajian Simulasi

y
(a) p=0.1

y
(b) p=0.3

Frekuensi

Frekuensi

Frekuensi

Frekuensi

Eksplorasi pada peubah Y
Karakteristik data simulasi terhadap λ, n, dan p yang dicobakan
menunjukkan bahwa munculnya nilai p berpengaruh terhadap λ. Nilai λ yang kecil
menghasilkan nilai p yang melebihi penentuan p yang dicobakan. Ketika λ
bernilai 0.6 dengan p yang dicobakan 0.3, maka peubah Y menghasilkan kisaran p
dari 0.3 sampai 0.5. Hasil ini karena nilai λ yang kecil masih memiliki p yang
relatif besar dari sebaran Poisson. Nilai λ yang dicobakan untuk 0.6, 0.8, 1, 6, dan
8 masih memiliki peluang nol dari sebaran Poisson, sedangkan untuk nilai λ lain
yang dicobakan yaitu 10 dan 20 sudah tidak memiliki peluang nol dari sebaran
Poisson. Karakteristik data menunjukkan bahwa semakin besar nilai λ, maka
semakin kecil nilai p pada peubah Y di setiap n. Kondisi ini sesuai dengan fungsi
massa peluang dari sebaran Poisson.

y

y

(c) p=0.5

(d) p=0.7

Gambar 1 Histogram terhadap peubah Y pada =1, n=300 dengan (a) p=0.1,
(b) p=0.3, (c) p=0.5, (d) p=0.7

14

y
(a) p=0.1

Frekuensi

Frekuensi

Frekuensi

Frekuensi

Eksplorasi terhadap peubah Y ditunjukan dengan histogram yang bertujuan
mengetahui kondisi sebaran Poisson dan ZIP pada peubah Y. Nilai n yang
ditentukan yaitu 300 contoh, karena nilai tersebut sebagian besar digunakan dalam
data terapan pada analisis regresi Poisson dan ZIP. Nilai λ yang ditampilkan
adalah λ=1 dan 10, yang mewakili nilai λ bernilai kecil dan besar. Histogram pada
Gambar 1(a), 1(b), 1(c), dan 1(d) menunjukkan bahwa ketika peubah Y memiliki
nilai λ=1 dengan p=0.1, 0.3, 0.5, dan 0.7, maka indikasi masih menyebar Poisson.
Histogram pada λ=1 menunjukkan bahwa rataan peubah Y berada di sekitar nilai
1. Peubah Y memiliki p=0.1, maka rataan mengalami perubahan menjadi nilai λ
kurang dari 1. Kenaikan nilai p dari 0.1 sampai 0.7, mengalami perubahan nilai λ
yang signifikan artinya semakin besar nilai p, maka nilai λ menuju nol. Nilai λ=1
dan p=0.7 pada peubah Y mengindikasikan peluang nol berlebih. Kondisi ini
sesuai dengan peningkatan frekuensi nilai nol di setiap p yang dicobakan.

y
(b) p=0.3

y
(c) p=0.5

y
(d) p=0.7

Gambar 2 Histogram terhadap peubah Y pada =10, n=300 dengan (a). p=0.1,
(b). p=0.3, (c). p=0.5, (d). p=0.7
Histogram pada Gambar 2(a), 2(b), 2(c), dan 2(d) menunjukkan bahwa
peubah Y memiliki λ=10 di setiap p yang dicobakan, maka indikasi menyebar ZIP.
Histogram pada λ=10 menunjukkan bahwa rataan peubah Y berada di sekitar
nilai 10. Peubah Y memiliki banyak nilai nol yang berlebih pada λ=10 dengan
p=0.7, sehingga bentuk sebaran data yang terjadi yaitu nilai nol terpisah dengan
nilai lainnya yang berada di sekitar nilai 10. Kondisi perubahan di setiap p yang
dicobakan pada λ=10 menunjukkan hasil yang sama dengan λ=1. Hasil indikasi
histogram pada Gambar 1 dan 2 akan diuji dengan uji skor dan khi-kuadrat, yang
menunjukkan bahwa kondisi dari penyebab overdispersi dan sebaran Poisson pada
peubah Y.

15
Pengujian terhadap peubah Y
Eksplorasi peubah Y terhadap λ, n, p yang dicobakan menunjukkan adanya
indikasi peluang nol berlebih, sehingga diperlukan pengujian terhadap peubah Y.
Pengujian tersebut berupa uji skor dan uji khi-kuadrat yang dapat
menggeneralisasi kesimpulan secara umum terhadap hasil eksplorasi terhadap
peubah Y. Kondisi berlebihnya peluang nol pada peubah Y mengakibatkan
terjadinya overdispersi. Flynn dan Francis (2009) menyatakan bahwa ketika hasil
uji skor menghasilkan nilai nol yang berlebih pada suatu peubah, maka
kemungkinan peubah tersebut tidak menyebar Poisson melainkan memiliki
sebaran ZIP.
Hasil uji skor dengan α sebesar 0.05 pada hasil bangkitan peubah Y
terhadap kombinasi dari λ, n, p ditunjukan pada Tabel 2. Uji skor menunjukkan
bahwa semakin besar λ, n, dan p yang dicobakan, maka akan semakin besar
persentase nol berlebih pada peubah Y.
Tabel 2 Persentase uji skor terhadap kombinasi λ, n, p
λ
0.6
0.8
1
6
8
10
20

p=0.1
6.5
9.0
10.0
100.0
100.0
100.0
100.0

p=0.3
23.4
39.2
55.0
100.0
100.0
100.0
100.0

p=0.5
45.6
66.8
86.2
100.0
100.0
100.0
100.0

p=0.7
88.9
88.9
92.8
100.0
100.0
100.0
100.0

300

0.6
0.8
1
6
8
10
20

13.2
18.2
24.4
100.0
100.0
100.0
100.0

55.0
82.6
96.4
100.0
100.0
100.0
100.0

89
98.8
100.0
100.0
100.0
100.0
100.0

96.2
99.8
100.0
100.0
100.0
100.0
100.0

500

0.6
0.8
1
6
8
10
20

17.6
25.0
39.0
100.0
100.0
100.0
100.0

77.0
96.2
100
100.0
100.0
100.0
100.0

98.0
100
100
100.0
100.0
100.0
100.0

99.6
100.0
100.0
100.0
100.0
100.0
100.0

n

100

Selanjutnya, hasil uji khi-kuadrat dengan α sebesar 0.05 untuk sebaran Poisson
dan ZIP terhadap kombinasi dari λ, n, p ditunjukan pada Tabel 3. Uji khi-kuadrat
untuk sebaran Poisson menunjukkan bahwa semakin besar λ, n, dan p yang
dicobakan, maka akan semakin kecil persentase sebaran Poisson pada peubah Y.
Hasil dari uji skor dan khi-kuadrat untuk sebaran Poisson berbanding terbalik
dengan semakin besarnya λ, n, dan p yang dicobakan. Uji khi-kuadrat untuk
sebaran ZIP menunjukkan bahwa regresi ZIP mampu mengatasi overdispersi yang
disebabkan p berlebih pada peubah Y. Kondisi ini ditunjukkan dengan semakin

16
besar nilai λ, maka persentase sebaran Poisson mencapai 0 % sedangkan
persentase sebaran ZIP mencapai kisaran 60 % sampai 80 %.
Kejadian overdispersi yang disebabkan peluang nol berlebih pada peubah
Y, maka sangat berpengaruh terhadap nilai λ yang berlaku di setiap n. Hasil
eksplorasi pada peubah Y memberikan indikasi yang sesuai dengan hasil uji skor
dan uji khi-kuadrat untuk sebaran Poisson dan ZIP. Nilai λ=0.6 yang
menghasilkan persentase nol berlebih yang paling kecil dan sebagian besar
menyebar Poisson. Nilai λ yang dimulai dari 6 sampai λ=20 di setiap p dan n yang
dicobakan menunjukkan bahwa peluang nol berlebih mencapai 100 % dan peubah
Y tidak menyebar Poisson, melainkan menyebar ZIP.
Tabel 3 Persentase uji khi-kuadrat terhadap kombinasi λ, n, p
p=0.1
n

100

300

500

λ

Poisson

p=0.3
ZIP

Poisson

p=0.5
ZIP

Poisson

p=0.7
ZIP

Poisson

ZIP

0.6

91.0

83.6

75.0

85.4

54.8

85.2

33.4

80.6

0.8

89.2

80.2

62.6

82.0

32.0

81.6

18.0

85.4

1

88.2

82.2

51.0

86.0

14.2

85.0

7.8

82.8

6

0.0

84.4

0.0

83.4

0.0

82.8

0.0

82.0

8

0.0

81.6

0.0

79.6

0.0

80.4

0.0

76.8

10

0.0

79.4

0.0

78.6

0.0

78.2

0.0

75.0

20

0.0

72.6

0.0

71.2

0.0

71.6

0.0

66.8

0.6

82.8

81.6

51.4

82.8

13.2

86.2

4.0

86.6

0.8

82.4

85.4

25.2

86.6

1.8

86.8

0.2

83.2

1

75.0

85.4

8.2

82.6

0.2

82.6

0.0

85.8

6

0.0

85.8

0.0

84.6

0.0

86.4

0.0

84.4

8

0.0

84.0

0.0

83.4

0.0

84.6

0.0

81.6

10

0.0

82.6

0.0

83.0

0.0

80.6

0.0

79.4

20

0.0

77.8

0.0

76.8

0.0

76.0

0.0

72.6

0.6

81.6

87.8

28.8

86.0

1.8

83.8

0.2

86.2

0.8

76.2

81.8

7.6

85.8

0.2

86.2

0.0

87.0

1

67.4

87.0

0.2

86.4

0.0

84.6

0.0

83.2

6

0.0

86.0

0.0

86.6

0.0

85.8

0.0

86.4

8

0.0

84.6

0.0

82.6

0.0

83.4

0.0

84.6

10

0.0

81.8

0.0

82.4

0.0

81.4

0.0

80.6

20

0.0

77.4

0.0

75.6

0.0

77.0

0.0

76.0

Pengujian overdispersi pada regresi Poisson dan ZIP
Eksplorasi dan pengujian terhadap peubah Y menunjukkan bahwa adanya
indikasi peluang nol berlebih, sehingga dilakukan uji skor dan uji khi-kuadrat
untuk sebaran Poisson dan ZIP. Hasil simulasi terhadap kombinasi λ dan p
disetiap n yang dicobakan menunjukkan bahwa ketika peubah Y memiliki λ dan p
yang semakin besar, maka terjadi overdispersi. Pengujian pada peubah Y

17
menyatakan bahwa kondisi overdispersi berpengaruh terhadap perubahan sebaran
Poisson menjadi sebaran ZIP. Uji khi-kuadrat untuk sebaran ZIP menunjukan
bahwa regresi ZIP mampu mengatasi overdispersi yang disebabkan nilai nol
berlebih pada peubah Y. Selanjutnya, regresi Poisson dan ZIP diukur kebaikan
modelnya berdasarkan pengujian overdispersi di setiap kombinasi λ, n, dan p yang
dicobakan
Kondisi overdipersi pada setiap kombinasi λ, n, dan p yang dicobakan di
regresi Poisson dan ZIP dapat ditelusuri dari rasio τ dan uji Pearson khi-kuadrat
pada taraf nyata 5%. Rasio τ menunjukkan nilai dari hasil statistik uji Pearson khikuadrat terhadap derajat bebas (n-k). Nilai dari derajat bebas regresi Poisson dan
ZIP berbeda, karena pada regresi Poisson menggunakan k=2, yaitu penduga
parameter b0 dan b1. Regresi ZIP menggunakan k=4 berdasarkan model diskret
untuk λ dan model zero-inflation untuk p yaitu g0 dan g1, serta l0 dan l1.
Tabel 4 Rasio dispersi terhadap regresi Poisson dan ZIP
p=0.1
n

λ

Poisson

*

ZIP

Poisson
*

ZIP

Poisson

ZIP

0.808

1.188

*

0.863

0.770

1.247*

0.838

0.741

1.286

*

0.819

4.291

*

0.829

*

0.871

0.803

0.657

0.926

0.737

1.049

0.749

0.595

0.911

0.686

1.069*

0.650

1.097

*

3.069

*
*

0.818

5.695

0.855

7.138*

0.901

*

0.969

6

0.697
0.628

0.547

0.897

0.383

1.847

*
*

0.717

4.076

0.764

5.102*
*

0.943

0.656

0.769

8

0.815

0.443

2.447

10

1.022*

0.500

3.076*

20

*

0.675

*

0.885

0.6

0.796

0.645

0