Karima Puspita Sari M0112047

ESTIMASI PARAMETER MODEL REGRESI ZERO-INFLATED
POISSON (ZIP) MENGGUNAKAN METODE BAYESIAN
Karima Puspita Sari, Respatiwulan, dan Bowo Winarno
Program Studi Matematika FMIPA UNS

Abstrak. Model regresi zero-inflated Poisson(ZIP ) adalah suatu model regresi dimana variabel dependen berdistribusi Poisson dan memiliki banyak nilai nol. Regresi
ini terbangun oleh regresi Poisson dan regresi logistik. Estimasi parameter model
regresi ZIP dapat menggunakan metode Bayesian. Dalam metode Bayesian terdapat
dua distribusi yaitu distribusi prior dan distribusi posterior. Jika distribusi posterior
parameter sangat rumit dan tidak dapat dikerjakan secara langsung, maka dilakukan
pembangkitan sampel yang mendekati distribusi posterior parameter dengan metode
Markov chain Monte Carlo (MCMC ). Tujuan penelitian ini adalah untuk mengestimasi parameter model regresi ZIP menggunakan metode Bayesian dan menerapkannya
pada data jumlah kematian difteri di Indonesia tahun 2014 yang dipengaruhi oleh
banyaknya pemberian vaksin, jumlah rumah sakit, dan jumlah kasus difteri. Estimasi parameter dilakukan dengan menentukan distribusi prior dan posterior, kemudian
melakukan simulasi dengan menetapkan nilai awal parameter. Hasil estimasi parameternya adalah α
ˆ = 0.06335 dan βˆ = 0.1372. Pada contoh penerapan, estimasi
parameternya diperoleh α
b = (0.3003, 0.01, 0.0056, 0.0064) dan βb = (−0.1386, 0.101).
Hasil estimasi parameter α menjelaskan bahwa besarnya peluang penderita difteri
yang tidak meninggal dipengaruhi oleh vaksin, jumlah rumah sakit, dan jumlah penderita difteri berturut-turut sebesar 1%, 0.56%, dan 0.64%. Hasil estimasi parameter
β menjelaskan bahwa banyaknya kasus difteri yang meninggal dipengaruhi oleh vaksin

dan jumlah penderita difteri sebesar 13.86% dan 10.1%.
Kata kunci: overdispersi, zero-inflated Poisson (ZIP), metode Bayesian, Gibbs sampling.

1. PENDAHULUAN
Model regresi digunakan untuk menduga pola hubungan antara dua variabel. Variabel dibedakan menjadi dua, yaitu variabel dependen atau disebut juga
variabel respon dan variabel independen atau disebut juga variabel prediktor
(Nawari [8]).
Variabel dependen dapat bernilai kontinu atau diskrit. Model regresi Poisson merupakan model regresi yang digunakan untuk menduga pola hubungan
variabel dependen berdistribusi Poisson dan benilai diskrit dengan variabel independen bernilai diskrit atau kontinu. Tidak semua variabel dependen bernilai
diskrit cocok menggunakan model Poisson karena model Poisson mensyaratkan
nilai rata-rata (mean) sama dengan nilai variansi. Jika nilai mean sama dengan
nilai variansi, maka hal ini disebut equidispersi (Kusuma dkk. [6]).
Dalam aplikasinya seringkali equidispersi tidak dapat dipenuhi. Ismail dan
Jemain [4] menyatakan bahwa variansi data lebih kecil dari rata-ratanya disebut
dengan underdispersi dan variansi data lebih besar dari rata-ratanya disebut dengan overdispersi. Salah satu penyebab terjadinya overdispersi adalah banyak
nilai nol (excess zero) yang ada pada variabel dependen. Munculnya banyak
1

Estimasi Parameter . . .


K. P. Sari, Respatiwulan, B. Winarno

nilai nol pada variabel dependen dapat diatasi menggunakan model regresi zeroinflated Poisson (ZIP ). Menurut Famoye dan Singh [2] proporsi data yang bernilai
nol sekitar 63.7%.
Estimasi parameter model regresi ZIP dapat menggunakan metode maximum likelihood estimation (MLE ) atau metode Bayesian. Liu dan Powers [7]
dalam penelitiannya membandingkan metode MLE dan Bayesian untuk estimasi
parameter model regresi ZIP dan diperoleh hasil yaitu metode Bayesian lebih baik daripada MLE yang ditandai dengan nilai eror dari metode Bayesian lebih kecil
dibandingkan dengan nilai eror pada metode MLE. Pada metode Bayesian terdapat dua distribusi yaitu distribusi prior dan distribusi posterior. Jika distribusi
posterior parameter sangat rumit dan tidak dapat dikerjakan secara langsung,
maka dilakukan pembangkitan sampel yang mendekati distribusi posterior parameter dengan metode Markov chain Monte Carlo (MCMC ). Liu dan Powers
[7] menggunakan metode MCMC untuk menentukan distribusi posterior dengan
algoritme Gibbs sampling. Tujuan penelitian ini adalah untuk mengestimasi parameter model regresi ZIP menggunakan metode Bayesian dan menerapkannya
pada data jumlah kematian difteri di Indonesia tahun 2014 yang dipengaruhi oleh
vaksin, jumlah rumah sakit, dan jumlah kasus difteri.
2. MODEL REGRESI ZIP

Model regresi ini terbangun oleh regresi Poisson dan regresi logistik. Jika variabel dependen Y mengikuti model ZIP, maka fungsi kepadatan probabilitasnya
dituliskan sebagai

(

)
X 2j β
eX 1j α
eX 1j α
+ 1−
e−e
P (Yi = 0) =
X
α
X
α
1j
1j
1+e
1+e
)
(
(
e−e X 2j β) (eX 2j β )yj
eX 1j α

, y = 1, 2, 3, . . . . (2.1)
P (Yi = y) =
1−
1 + eX 1j α
yj !

Hubungan antara variabel dependen Y dan variabel independen X dapat dimodelkan menggunakan model linier tergeneralisasi sehingga dapat dibentuk model
regresi ZIP yang terbangun oleh model regresi Poisson dan transformasi regresi
logistik, yaitu
p
logit[ (1−p)
] = X1 α = α0 + α1 X11 + α2 X12 + . . . + αm X1m

log(λ) = X2 β = β0 + β1 X21 + β2 X22 + . . . + βl X2l ,

(2.2)

dengan X1 = (1, X11 , X12 , . . . , X1m ) adalah matriks variabel independen dari regresi logistik dan X2 = (1, X21 , X22 , . . . , X2l ) adalah matriks variabel independen
dari regresi Poisson, α = (α0 , α1 , . . . , αm )T dan β = (β0 , β1 , . . . , βl )T merupakan
vektor dari koefisien regresi logistik dan regresi Poisson (Liu dan Powers [7]).

2

2016

Estimasi Parameter . . .

K. P. Sari, Respatiwulan, B. Winarno

3. METODE BAYESIAN
Metode Bayesian merupakan metode estimasi yang berbasis pada aturan
Bayes yang menggabungkan informasi dari data observasi baru dan informasi
yang telah diperoleh sebelumnya. Pada estimasi parameter menggunakan metode
Bayesian terdapat dua distribusi yaitu distribusi prior dan distribusi posterior.
Menurut Soejoeti dan Soebanar [10], distribusi prior merupakan distribusi awal
parameter sebelum dilakukan analisis data. Distribusi prior dinotasikan sebagai
f (θ). Soejoeti dan Soebanar [10] juga mendefinisikan distribusi posterior sebagai
fungsi densitas bersyarat θ jika nilai observasi x diketahui dan dituliskan sebagai
f (θ|x) =

f (θ, x)

.
f (x)

Fungsi kepadatan bersama dan marginal yang diperlukan dapat ditulis dalam bentuk distribusi fungsi likelihood dan prior f (θ, x) = f (x|θ)f (θ) dengan
f (x|θ) merupakan fungsi likelihood dan f (θ) merupakan distribusi prior. Metode
Bayesian didasarkan pada distribusi posterior, yang dituliskan sebagai
f (θ|x) =

f (x|θ)f (θ)
.
f (x)

Menurut Ntzoufras [9], teorema Bayes lebih dikenal dengan
f (θ|x) ∝ f (x|θ)f (θ).
4. MARKOV CHAIN MONTE CARLO (MCMC )
MCMC merupakan metode pendekatan untuk inferensi Bayesian. Menurut Walsh [11], MCMC digunakan untuk mendapatkan nilai estimasi parameter
dengan mensimulasikan pengambilan sampel secara langsung dari distribusi posterior. Konsep utama dalam MCMC adalah membuat sampel pendekatan dari distribusi posterior parameter dengan membangkitkan sebuah rantai Markov
yang memiliki distribusi limit mendekati distribusi posterior parameter. Pada
MCMC terdapat algoritme Gibbs sampling. Algoritme ini digunakan apabila
terdapat lebih dari satu parameter yang tidak diketahui.

Menurut Casella dan George [1], Gibbs sampling merupakan teknik pembangkitan variabel random dari distribusi marginal tanpa memerlukan distribusi
densitas. Algoritme ini menggunakan sampel sebelumnya untuk membangkitkan
nilai sampel berikutnya secara random sehingga didapatkan suatu rantai Markov.

3

2016

Estimasi Parameter . . .

K. P. Sari, Respatiwulan, B. Winarno

5. HASIL DAN PEMBAHASAN
5.1. Estimasi Parameter Model.
Model regresi ZIP memiliki parameter yang belum diketahui nilainya dan
perlu diestimasi, yaitu α dan β. Berdasarkan fungsi kepadatan ZIP pada persamaan (2.1) dapat dibentuk fungsi likelihood yang merupakan distribusi bersama
untuk n observasi, yaitu
(
)
]

k [

eX 1j α
eX 1j α
−eX 2j β
+ 1−
e
f (Y |α, β) =
X 1j α
X 1j α
1
+
e
1
+
e
j=1
[(
) −eX 2j β X 2j β yj ]
n


eX 1j α
e
(e
)
×
1−
,
X
α
1j
1
+
e
y
j!
j=k+1

(5.1)


dengan k adalah banyaknya observasi yang menghasilkan nilai variabel dependen
y = 0 dan yk+1 , . . . , yn adalah observasi yang tidak bernilai nol. Fungsi likelihood
pada persamaan (5.1) digunakan untuk menentukan distribusi posterior parameter. Estimasi parameter model menggunakan metode Bayes terdapat dua distribusi yaitu prior dan posterior. Berikut adalah penjelasan dari masing-masing
distribusi prior dan posterior model ZIP.
5.1.1. Distribusi Prior Model ZIP.

Pemilihan distribusi prior dalam metode Bayesian sangat penting untuk menentukan distribusi posterior karena pemilihan distribusi prior yang tepat akan
mempermudah estimasi. Penambahan variabel independen dalam regresi ZIP
tanpa informasi prior dapat menggunakan prior non informatif. Untuk model
zero-inflated, distribusi prior normal dapat digunakan untuk parameter β dan
distribusi prior beta dapat digunakan untuk parameter α. Jika tidak ada informasi yang tersedia, maka distribusi prior uniform yang didefinisikan pada interval
(0, 1) dapat digunakan (Ntzoufras [9]). Distribusi prior untuk model ZIP dapat
dituliskan sebagai
f (α, β|a, b, µ, σ 2 ) =

l





1
√ 1 e
b − a j=0
2πσβj

−(βj −µβ )2
j
2σ 2
βj



,

(5.2)

dengan (a, b) adalah parameter distribusi uniform dan (µ, σ 2 ) parameter distribusi
normal.

4

2016

Estimasi Parameter . . .

K. P. Sari, Respatiwulan, B. Winarno

5.1.2. Distribusi Posterior Model ZIP.

Distribusi posterior parameter dapat diperoleh dengan mengalikan persamaan (5.1) dengan persamaan (5.2). Berikut merupakan distribusi posterior parameter model ZIP.
f (α, β|Y ) ∝ f (Y |α, β)f (α, β)
(
)
]
k [

eX 1j α
eX 1j α
−eX 2j β
+ 1−
e

1 + eX 1j α
1 + eX 1j α
j=1
[(
) −eX 2j β X 2j β yj ]
n

eX 1j α
e
(e
)
×
1−
1 + eX 1j α
yj !
j=k+1


−(βj −µβ )2
j
l

2
1
 √ 1 e 2σβj  .
×
b − a j=0
2πσβj

(5.3)

Distribusi posterior pada persamaan (5.3) digunakan untuk menentukan nilai
estimasi parameter.
5.2. Algoritme Gibbs sampling .
Menurut Casella dan George [1] Gibbs sampling merupakan teknik pembangkitan variabel random yang menggunakan sampel sebelumnya untuk membangkitkan nilai sampel berikutnya secara random sehingga akan didapatkan suatu
rantai Markov. Berikut diberikan langkah-langkah algoritme Gibbs sampling.
(1) Menentukan parameter dan distribusi bersyaratnya.
(2) Melakukan simulasi dengan pembangkitan data menggunakan algoritme
Gibbs sampling dengan langkah berikut.
(a) Menetapkan nilai awal masing-masing parameter.
(b) Menentukan ukuran iterasi N .
(c) Melakukan simulasi untuk i = 1, 2, 3, . . . , N .
(d) Memperbarui nilai-nilai parameter dari nilai-nilai hasil simulasi.
(3) Melakukan estimasi parameter model regresi ZIP.
Berdasarkan langkah-langkah tersebut, dilakukan pembangkitan data berdistribusi Poisson dengan n = 100. Nilai awal parameter α dan β yang dipergunakan dapat dilihat pada Tabel 1.
Berdasarkan Tabel 1 dapat ditunjukkan nilai-nilai estimasi untuk beberapa
nilai awal α dan β.

5

2016

Estimasi Parameter . . .

K. P. Sari, Respatiwulan, B. Winarno

Tabel 1. Nilai estimasi parameter model regresi ZIP dengan simulasi berdasarkan
algoritme Gibbs sampling

Nilai awal parameter
α=0
β = 0.2
α=0
β = 0.8
α = 0.2
β = 0.2
α = 0.2
β = 0.8
α = 0.8
β = 0.2
α = 0.8
β = 0.8

Nilai estimasi
0.0632
0.1372
0.0632
0.1372
0.06335
0.1372
0.06337
0.1372
0.06389
0.1372
0.06398
0.1372

Std dev
0.05755
0.01936
0.05755
0.01936
0.05667
0.1938
0.05756
0.01935
0.05919
0.01937
0.05987
0.01937

5.3. Contoh Penerapan.
Data diambil dari Profil Kesehatan Indonesia Tahun 2014 [5] tentang jumlah
kematian difteri tahun 2014. Penyakit difteri disebabkan oleh bakteri Corynebacterium diphtheriae yang menyerang sistem pernapasan bagian atas. Jumlah
kasus meninggal sebanyak 16 kasus.
Pada contoh penerapan ini ditentukan hubungan antara jumlah kematian
difteri (Y ) yang dipengaruhi oleh banyaknya pemberian vaksin, jumlah rumah
sakit, dan jumlah kasus difteri. Data jumlah kematian difteri menunjukkan banyak nilai nol yaitu 69.7%. Estimasi parameter model dilakukan dengan bantuan
software WinBUGS. Nilai awal parameter α untuk distribusi uniform (0, 1) yaitu
0.02 dan parameter β untuk distribusi normal (0, 1000) yaitu 0.001. Estimasi
dilakukan dengan membangkitkan suatu rantai Markov dan dilakukan percobaan
beberapa iterasi sampai mencapai konvergen.
Hasil estimasi parameter model menggunakan software WinBUGS dapat
dilihat dalam Tabel 2.
Hasil estimasi parameter pada Tabel 2 merupakan hasil dari pembangkitan
rantai Markov dengan 4170 iterasi. Model regresi ZIP dapat dituliskan sebagai
logit(

p
) = 0.2779 + 0.0051X11 + 0.0049X12 + 0.0031X13
1−p
log(λ) = −0.078 − 0.133X21 − 0.01773X22 + 0.1X23 ,

dengan X11 , X21 adalah banyaknya pemberian vaksin, X12 , X22 adalah jumlah
rumah sakit, dan X13 , X23 adalah jumlah penderita difteri.
6

2016

Estimasi Parameter . . .

K. P. Sari, Respatiwulan, B. Winarno

Tabel 2. Nilai estimasi parameter menggunakan metode Bayesian untuk α dan β

Estimasi
αˆ1
αˆ2
αˆ3
αˆ4
βˆ1
βˆ2
βˆ3
βˆ4

Nilai
0.2779
0.0051
0.0049
0.0031
−0.0780
−0.1330
−0.0177
0.1000

2.5 Persentil
0.0076
0.0182
0.0180
0.0125
−1.5460
−0.1556
−0.0569
0.1080

97.5 Persentil Hasil uji parameter
0.9121
Signifikan
0.0560
Signifikan
0.0371
Signifikan
0.0369
Signifikan
1.1170
Tidak signifikan
−0.1123
Signifikan
0.0179
Tidak signifikan
0.0896
Signifikan

Setelah mendapatkan model regresi, selanjutnya dilakukan pengujian parameter untuk mengetahui pengaruh variabel independen terhadap variabel dependen. Pengujian hipotesis terhadap parameter dilakukan dengan pendekatan credible interval. Parameter model yang telah dihasilkan diuji menggunakan credible
interval pada tingkat kepercayaan 95% yang ditandai dengan persentil 2, 5% dan
97, 5%. Parameter dikatakan signifikan jika selang interval pada tingkat kepercayaan 95% parameter tidak memuat nilai nol. Parameter yang signifikan menunjukkan variabel independen berpengaruh terhadap variabel dependen (Hestiana
[3]). Berdasarkan Tabel 2 parameter yang signifikan yaitu αˆ1 , αˆ2 , αˆ3 , αˆ4 , βˆ2 , βˆ4
sehingga dilakukan estimasi ulang dan diperoleh hasil sebagai berikut.

logit(

p
) = 0.3003 + 0.01X11 + 0.0056X12 + 0.0064X13
1−p
log(λ) = −0.1386X21 + 0.101X23 .

(5.4)
(5.5)

Persamaan (5.4) menjelaskan bahwa peluang terjadinya penderita difteri
yang tidak meninggal dipengaruhi oleh banyaknya pemberian vaksin, jumlah rumah sakit, dan jumlah penderita difteri. Setiap bertambahnya pemberian vaksin
meningkatkan peluang penderita difteri yang tidak meninggal sebesar 1%, setiap
pertambahan 1 unit rumah sakit meningkatkan peluang penderita difteri yang
tidak meninggal sebesar 0.56%, dan setiap pertambahan jumlah kasus difteri meningkatkan peluang penderita difteri yang tidak meninggal sebesar 0.64%.
Persamaan (5.5) menjelaskan bahwa banyaknya kasus difteri yang meninggal dipengaruhi oleh banyaknya pemberian vaksin dan jumlah penderita difteri.
Setiap bertambahnya pemberian vaksin maka terjadinya kasus difteri yang meninggal menurun sebesar 13.86% dan setiap kenaikan jumlah kasus difteri maka
terjadinya kasus difteri yang meninggal meningkat sebesar 10.1%.
7

2016

Estimasi Parameter . . .

K. P. Sari, Respatiwulan, B. Winarno

6. KESIMPULAN
Berdasarkan hasil dan pembahasan, hasil estimasi parameter model regresi
ZIP diperoleh setelah dilakukan simulasi dan diterapkan pada contoh kasus. Distribusi prior untuk parameter α yaitu distribusi uniform (a, b) dan untuk parameter β yaitu distribusi normal (µ, σ 2 ), sehingga distribusi prior model regresi ZIP
dapat dilihat pada persamaan (5.2). Distribusi posterior model regresi ZIP dapat
dilihat pada persamaan (5.3). Untuk mendekati distribusi posterior parameter
model regresi ZIP digunakan algoritme Gibbs sampling dengan ditentukan nilai
awal parameter α yaitu 0, 02 dan β yaitu 0, 001. Hasil estimasi parameter model
regresi ZIP adalah α
b = (0.3003, 0.01, 0.0056, 0.0064) dan βb = (−0.1386, 0.101).
DAFTAR PUSTAKA

[1] Casella, G. and E. I. George, Explaining the Gibbs Sampler, The American Statistisian 46
(1992), no. 3, pp 167-174.
[2] Famoye, F. and K. P. Singh, Zero-Inflated Generalized Poisson Regression Model with an
Application to Domestic Violence Data, Journal of Data Science 4 (2006), pp 117-130.
[3] Hestiana, F., Mixture Count Regression dengan Pendekatan Bayesian, Jurnal Aplikasi
Statistik & Komputasi Statistik 1 (2004), pp 56-73.
[4] Ismail, N. dan A. A. Jemain, Generalized Poisson Regression :An Alternative for Risk
Classification, Jurnal Teknologi Universiti Teknologi Malaysia 43 (2005), pp 39-54.
[5] Kementerian Kesehatan Republik Indonesia, Profil Kesehatan Indonesia Tahun 2014, Kementerian Kesehatan RI, Jakarta, 2015.
[6] Kusuma, W, D. Komalasari, dan M. Hadijati, Model Regresi Zero Inflated Poisson, Jurnal
Matematika 3 (2013), no. 2, pp 71-85.
[7] Liu, H. and D. A. Powers, Bayesian Inference for Zero-Inflated Poisson Regression Models,
Journal of Statistics: Advances in Theory and Applications 7 (2012), no. 2, pp 155-188.
[8] Nawari, Analisis Regresi dengan MS Excel 2007 dan SPSS 17, PT Elex Media Komputindo,
Jakarta, 2010.
[9] Ntzoufras, I., Bayesian Modeling Using WinBUGS, John Wiley, Greece, 2009.
[10] Soejoeti, Z. dan Soebanar, Inferensi Bayesian, Karunika Universitas Terbuka, Jakarta,
1988.
[11] Walsh, B., Markov Chain Monte Carlo and Gibbs Sampling, Lecture Notes for EEB 581,
2004.

8

2016