Analisis Hurdle Poisson Untuk Pemodelan Data Count (Studi Kasus : Konsumsi Rokok Kalimantan Tengah Tahun 2012).

(1)

1 ANALISIS HURDLE POISSON

UNTUK PEMODELAN DATA COUNT

(Studi Kasus : Konsumsi Rokok Kalimantan Tengah Tahun 2012)

Afi Nurani1, Sutawanir Darwis2, Sudartianto3

1

Mahasiswa Program Magister Statistika Terapan, Universitas Padjadjaran, Bandung

2&3

Pengajar Jurusan Statistika, Universitas Padjadjaran, Bandung 1

phiex07@gmail.com, 2std.darwis@gmail.com, 3sudartianto354@yahoo.com

Abstrak

Indonesia menjadi negara ketiga dengan jumlah perokok tertinggi di dunia setelah Cina dan India. Kebiasaan merokok pada masyarakat Indonesia secara umum merupakan masalah kesehatan karena konsumsi tembakau yang masih cenderung tinggi. Jumlah batang rokok sekitar 10 batang per hari merupakan angka rata-rata yang cukup tinggi untuk memberikan dampak negatif terhadap kesehatan dan ekonomi (Buku Fakta Tentang Tembakau, 2012). Konsumsi rokok dalam batang per hari merupakan salah satu kasus data cacahan (count) dengan banyak nilai 0 (excess zero). Model Hurdle Poisson merupakan salah satu metode yang dapat digunakan untuk memodelkan data cacahan dengan excess zero. Model Hurdle Poisson merupakan model dengan menggunakan dua bagian pendekatan (two part model) yaitu model logit untuk observasi bernilai 0 dan Truncated Poisson untuk observasi bernilai positif. Hasil pemodelan dengan Hurdle Poisson memberikan perbaikan terhadap model Regresi Poisson. Faktor-faktor yang berpengaruh terhadap keputusan individu mengkonsumsi rokok pada bagian logit adalah pendidikan, jenis kelamin, status perkawinan, pekerjaan, umur, dan pendapatan perkapita sebulan, sedangkan pada bagian Truncated Poisson variabel prediktor yang berpengaruh adalah pendidikan, jenis kelamin, status perkawinan, umur, dan pendapatan perkapita sebulan.

Kata kunci: Data Cacahan, Excess Zero, Regresi Poisson, Hurdle Poisson, Logit, Truncated Poisson, Konsumsi Rokok

1. Pendahuluan

Indonesia merupakan negara keempat dengan konsumsi rokok terbesar di dunia setelah China, USA, dan Rusia. Jumlah batang rokok yang dikonsumsi di Indonesia cenderung meningkat dari 182 milyar batang pada tahun 2001 menjadi 260,8 milyar batang pada tahun 2009. Angka prevalensi rokok pada tahun 2010 pun cukup tinggi yaitu 34,7 persen (Buku Fakta Tentang Tembakau, 2012). Saat ini, Indonesia menjadi negara ketiga dengan jumlah perokok tertinggi di dunia setelah Cina dan India .

Kebiasaan merokok pada masyarakat Indonesia secara umum merupakan masalah kesehatan karena konsumsi tembakau yang masih cenderung tinggi. Jumlah batang rokok


(2)

2 sekitar 10 batang per hari merupakan angka rata-rata yang cukup tinggi untuk memberikan dampak negatif terhadap kesehatan dan ekonomi (Buku Fakta Tentang Tembakau, 2012). Menurut WHO, konsumsi rokok membunuh satu orang setiap 10 detik.

Dampak negatif segi kesehatan adalah timbulnya penyakit yang diakibatkan mengkonsumsi rokok. Sedangkan segi ekonomi adalah besarnya pengeluaran untuk konsumsi rokok dan besarnya biaya untuk berobat penyakit akibat rokok serta hilangnya waktu dan berkurangnya produktifitas kerja. Kebiasaan merokok tidak hanya berdampak pada perokok itu sendiri akan tetapi juga bagi perokok pasif, terutama pada kelompok rentan seperti usia balita, anak sekolah, dan populasi perempuan meskipun ada sebagian dari perempuan juga merokok.

Konsumsi rokok dalam batang per hari merupakan salah satu kasus data cacahan dengan banyak nilai 0 (excess zero). Banyaknya nilai 0 ini dimungkinkan terjadi karena individu tidak mengkonsumsi atau hanya kadang-kadang mengkonsumsi (potensial mengkonsumsi). Pengamatan pada variabel respon berbentuk diskrit tetapi bukan biner dapat dikatakan sebagai data cacahan yang menyangkut banyaknya kejadian dalam distribusi Poisson. Distribusi Poisson memiliki asumsi kesetaraan rata-rata dengan varians yang disebut dengan equidispersion. Salah satu metode yang dapat digunakan dalam menganalisa data cacahan adalah metode regresi Poisson (Agresti, 2002). Namun metode regresi Poisson akan menjadi tidak sesuai jika banyak data bernilai nol yang mengakibatkan terjadinya overdispersi (Ridout, Demetrio, dan Hindie, 1998).

Beberapa metode yang bisa digunakan untuk memodelkan variabel respon dengan excess zero diantaranya Zero Inflated Poisson dan Hurdle Poisson. Pemodelan dengan Zero Inflated Poisson merupakan model mixture dengan memodelkan observasi bernilai 0 dengan proses biner dan model independen Poisson untuk observasi bernilai positif. Model Hurdle Poisson diasumsikan sebagai dua proses independen fungsi dari variabel respon yaitu model biner untuk observasi bernilai nol dan Truncated Poisson untuk observasi bernilai positif. Kedua model ini sama-sama menggunakan metode maksimum likelihood untuk mendapatkan estimasi parameter yang digunakan.

Model Hurdle Poisson merupakan model yang bisa dimaksimumkan secara terpisah sehingga lebih mudah dalam penggunaaan dan interpretasinya (Cantoni dan Zedini, 2010). Model Hurdle Poisson adalah model untuk data cacahan (count) dengan menggunakan dua bagian pendekatan (two part model). Bagian pertama adalah model untuk data biner bernilai nol atau positif. Data bernilai positif lebih dari nol adalah bagian kedua dengan Truncated model (Kassahun, 2014). Metode Hurdle ini bisa menyajikan pemodelan untuk menentukan keputusan partisipasi (partitipation decision) dan keputusan level konsumsi (level consumption decision) dalam dua proses stokastik yang terpisah.

2. Tinjauan Pustaka

2.1.Regresi Poisson

Model Regresi Poisson dengan fungsi hubung (link function) untuk fitting model (Agresti, 2002):

log � =� = (2.1) Sehingga biasa disebut model Loglinear dengan bentuk persamaan sebagai berikut:


(3)

3 Model regresi Poisson memiliki nilai rata-rata dan varians sama, begitu juga dengan dengan nilai � = = �.

2.2.Hurdle Poisson

Misalkan adalah variabel respon dengan data cacahan untuk i=1,2,...,n. � dan � adalah vektor kovariat dari variabel prediktor. adalah parameter koefisien regresi dari model logit dan adalah parameter koefisien regresi dari model Truncated Poisson. Fungsi hubung untuk pemodelan variabel respon bernilai 0 menggunakan fungsi hubung untuk binomial yaitu logit link:

logit � 1−� =

(2.3) Fungsi hubung untuk pemodelan variabel respon bernilai positif menggunakan fungsi hubung log :

log � = ′ (2.4) Model peluang Hurdle Poisson yang terbentuk dari kombinasi logit untuk observasi bernilai 0 dan Truncated Poisson untuk observasi bernilai positif adalah (Cantoni dan Zedini, 2010):

� = =

1

1+exp⁡( ′ ) , = 0 exp ′

1+exp ′

[exp ( ′ )]

exp (exp⁡ ′ ) −1 ! , > 0

(2.5)

Metode penaksiran yang digunakan dalam metode Hurdle Poisson ini adalah maximum likelihood estimation (MLE) dengan menggunakan algoritma Fisher Scoring. Fungsi likelihood dari model Hurdle Poisson diatas adalah :

� , = 1

1+exp ′ 0

exp ′ 1+exp ′

[exp ( ′ )] exp (exp⁡ ′ ) −1 !

>0 (2.6)

2.3.Uji Kelayakan Model

Pengujian kelayakan model dapat dilakukan dengan menggunakan uji Likelihood Ratio (LR) Test (Long dan Freese, 2001). Hipotesis yang akan diuji adalah sebagai berikut:

H0 : 0 = 1 = 2 =⋯ = = ⋯= 0 ( p adalah banyaknya variabel prediktor) H1 : Paling sedikit ada satu ≠0 (j = 1,2,..,p)

Likelihood Ratio (LR) Test dapat dituliskan dalam bentuk: 2 = 2 ln�(Ω0)

�(Ω) (2.7)

dimana merupakan himpunan parameter di bawah populasi (model penuh) dan Ω0 model

parameter dibawah H0 (himpunan parameter jika H0 benar). Kriteria pengujian adalah tolak

H0 jika 2 �2, dengan  adalah tingkat signifikansi dan db adalah derajat bebas dengan nilai sama dengan perbedaan dimensi parameter Ω0 danΩ.


(4)

4 Pemilihan model terbaik dapat menggunakan Statistik Vuong dengan membandingkan model Hurdle Poisson dengan Poisson. Hipotesis yang digunakan sebagai berikut:

H0 : = 0 (tidak ada perbaikan yang diberikan Hurdle Poisson terhadap Poisson)

H1 : > 0 (ada perbaikan yang diberikan Hurdle Poisson terhadap Poisson)

Statistik Voung dapat dirumuskan sebagai berikut (Vuong, 1989):

= � , (2.8) dengan :

= 1

� �

� �

� �

� =1

dan = 1

� �

� �

� � −

2 �

=1

.

Dimana � dan � adalah prediksi peluang dari pada nilai untuk masing-masing model Hurdle Poisson dan Poisson. Kriteria pengujian untuk statistik Vuong mengikuti distribusi normal standar (untuk sampel besar), yaitu tolak H0 jika ,

dimana merupakan titik kritis dengan tingkat siginifikansi .

2.4.Uji Parameter Model

Pengujian parameter parsial untuk masing-masing bagian logit dan Truncated Poisson digunakan untuk menguji masing-masing parameter dengan hipotesis sebagai berikut:

1. Hipotesis untuk bagian logit H0 : = 0

H1 : ≠0 = 1,2, . . ,

p adalah banyaknya variabel prediktor. 2. Hipotesis untuk bagian Truncated Poisson

H0 : = 0

H1 : ≠0 = 1,2, . . ,

p adalah banyaknya variabel prediktor.

Statistik uji yang digunakan adalah statistik uji Wald (Agresti, 2002) : 1. Untuk bagian logit

=

�( ) (2.9) 2. Untuk bagian Truncated Poisson

=


(5)

5 Kriteria pengujian tolak H0 jika > 2 atau p-value < , dengan adalah tingkat

signifikansi dan SE adalah standard error. Sampel besar mengikuti sebaran normal, maka kriteria pengujian dibandingkan dengan tabel normal Z.

2.5.Telaah Kritis

Model Hurdle pertama kali diperkenalkan oleh Mullahy tahun 1986 (Winklemann, 2008). Beberapa penelitian menggunakan model Hurdle Poisson diantaranya Zorn (1996) mengevaluasi spesifikasi Zero Inflated dan Hurdle Poisson, Greene (2005) membandingkan Zero Inflated dan Hurdle model sebagai two part model, Safari, Adnan, dan Greene (2012) melakukan estimasi parameter mengenai model Hurdle Poisson dengan censored data. Model Hurdle Poisson diaplikasikan pada penelitian frekuensi migrasi oleh Bohara dan Krieg (1996), Shonkwiller dan Shaw (1996) membahas tentang analisis permintaan rekreasi disuatu tempat, Reum dan Haris (2006) menggunakan metode Hurdle Poisson untuk meneliti banyak daerah yang tidak memiliki industri manufaktur.

Hasil penelitian Khanal, Adhikari, dan Kharki, 2013 menyebutkan bahwa laki-laki di Nepal yang tidak bersekolah, berusia 36-49 tahun, sudah menikah, dengan pekerjaan manual lebih senang untuk mengkonsumsi tembakau. Laki-laki yang menonton televisi paling sedikit satu kali dalam seminggu kurang senang mengkonsumsi tembakau. Hasil studi Harahap, 2003 menyebutkan bahwa faktor yang mempengaruhi besarnya jumlah konsumsi rokok berbeda dengan faktor-faktor yang mempengaruhi partisipasi merokok. Dua variabel ekonomi, harga rokok dan pendapatan memiliki hubungan yang signifikan dengan besamya jumlah konsumsi rokok, dimana harga rokok berpengaruh negatif dan pendapatan berpengaruh positif. Variabel-variabel sosiodemografi sebagai proksi selera yang secara signifikan memiliki hubungan dengan jumlah konsumsi rokok adalah umur, pendidikan, jenis kelamin dan status perkawinan. Wilayah dan daerah tempat tinggal juga memiliki hubungan yang signifikan dengan besamya jurnlah konsumsi rokok.

3. Metodologi

3.1.Variabel yang digunakan

Data yang digunakan dalam penelitian ini adalah data hasil Survei Sosial Ekonomi Nasional Modul Sosial Budaya dan Pendidikan Tahun 2012 di Provinsi Kalimantan Tengah. Variabel yang digunakan dalam penelitian ini adalah:

Variabel Keterangan Kategori

Respon Y Konsumsi rokok dalam batang per hari -

Prediktor

X1 Pendidikan tertinggi yang ditamatkan 1 SLTP Kebawah 0 SLTA Keatas

X2 Jenis Kelamin 1 Laki-laki

0 Perempuan X3 Klasifikasi Wilayah 1 Perdesaan

0 Perkotaan

X4 Status Perkawinan 1 Kawin atau Pernah Kawin 0 Belum Kawin

X5 Pekerjaan 1 Informal

0 Lainnya

X6 Umur -


(6)

6

3.2.Langkah-langkah Penelitian

Langkah-langkah yang dilakukan dalam penelitian : 1. Melakukan analisis deskriptif variabel penelitian.

2. Melakukan analisis dan penaksiran parameter dengan Regresi Poisson. 3. Melakukan analisis hurdle poisson sebagai berikut:

a. Penaksiran Parameter menggunakan metode Fisher Scoring dengan menggunakan derivatif pertama dari fungsi log likelihood untuk matriks vektor skor (V) dan matriks informasi yang merupakan nilai harapan dari matriks hessian (H) dengan tahapan sebagai berikut (Hajarisman, 2013):

i. Menentukan nilai taksiran awal dari parameter � (0) = (0), (0) .

ii. Menghitung matriks vektor skor (V) yang merupakan derivatif pertama dari fungsi log likelihood dari parameter  dan .

iii. Menghitung matriks informasi (I) yang merupakan nilai harapan dari matriks hessian (H). Matriks (H) merupakan derivatif kedua dari fungsi log likelihood. iv. Memasukkan nilai � (0) ke dalam elemen-elemen vektor V dan matrik I sehingga

diperoleh vektor �(0)dan matrik �(0).

v. Menghitung nilai invers matriks �(0) atau �0 −1dengan persamaan iterasi

�( +1) = + [ ]−1( ).

vi. Iterasi dilakukan mulai dari t=0 dan selesai jika selisih iterasi sudah sangat kecil, dengan kriteria �( +1)− �( ) < , dimana nilai c = 0,0001.

b. Melakukan pengujian kelayakan model. c. Melakukan pengujian parameter.

4. Hasil dan Pembahasan

Sampel yang digunakan dalam penelitian ini sebanyak 4.309 individu dibatasi untuk individu remaja dan dewasa berusia 15 tahun keatas hasil Survei Sosial Ekonomi Nasional (Susenas) MSBP triwulan III tahun 2012.

Berdasarkan tabel 4.1 yang menyajikan statistik deskriptif dari variabel-variabel yang digunakan dalam penelitian ini ditunjukkan bahwa variabel prediktor Pendidikan (X1), Jenis

Kelamin (X2), Wilayah (X3), Status Perkawinan (X4), dan Pekerjaan (X5) merupakan data

biner/kategorik sehingga statistik deskriptifnya disajikan dalam data proporsi. Tabel 4.1 Statistik Deskriptif Variabel-variabel dalam Penelitian

Variabel Observasi Mean Standard Error Minimum Maksimum

Y 4.309 3,86 7,53 0 70

X1 4.309 0,72 0,45 0 1

X2 4.309 0,51 0,50 0 1

X3 4.309 0,66 0,47 0 1

X4 4.309 0,80 0,40 0 1

X5 4.309 0,43 0,50 0 1

X6 4.309 37,43 15,15 15 98


(7)

7 Jumlah rokok yang dikonsumsi oleh individu paling banyak adalah 70 batang per hari. Proporsi individu dengan pendidikan SLTP kebawah adalah 0,72, proporsi individu laki-laki sebesar 0,51dan proporsi individu perempuan sebesar 0,49. Proporsi individu yang tinggal di perdesaan adalah 0,66 dan sisanya sebanyak 0,34 tinggal di perkotaan. Proporsi individu yang sudah dan pernah kawin adalah 0,80. Proporsi individu yang bekerja di sektor informal sebesar 0,43. Rata-rata umur individu yang masuk dalam sampel adalah 37,43 tahun dan rata-rata pendapatan individu perkapita sebulan yang masuk dalam sampel adalah 779.072 rupiah. Hasil pemodelan dengan Regresi Poisson menunjukkan bahwa seluruh variabel prediktor secara signifikan berpengaruh terhadap konsumsi rokok dengan tingkat signifikansi 5% yaitu Pendidikan (X1), Jenis Kelamin (X2), Klasifikasi Wilayah (X3), Status Perkawinan (X4), Pekerjaan (X5), Umur (X6), dan Pendapatan per kapita (X7). Bentuk persamaan regresi Poisson sebagai berikut :

� = exp −2,228 + 0,234 1+ 3,501 2+ 0,117 3+ 0,759 4+ 0,12 5−0,009 6+ 0,000 7 (4.1) Tabel 4.2 Hasil Estimasi Parameter Model Regresi Poisson

Koefisien Estimasi Standar error Nilai Z p-Value Sig ()

0 -2,228 0,544 -40,98 < 0,0001 5%

1 0,234 0,019 12,11 < 0,0001 5%

2 3,501 0,046 76,28 < 0,0001 5%

3 0,117 0,018 6,36 < 0,0001 5%

4 0,759 0,026 29,51 < 0,0001 5%

5 0,120 0,017 7,20 < 0,0001 5%

6 -0,009 0,001 -14,49 < 0,0001 5%

7 1,944.10 -7

1,104.10-8 17,61 < 0,0001 5%

Pengujian kelayakan model untuk model Hurdle Poisson dengan menggunakan uji serentak likelihood ratio test menunjukkan nilai G2 sebesar 1.861,3. Nilai G2 ini lebih besar jika dibandingkan dengan �(0,05;16)2 = 26,296 sehingga Ho ditolak, yang berarti paling sedikit satu variabel prediktor yang mempengaruhi konsumsi rokok individu. Nilai statistik Vuong digunakan untuk membandingkan Hurdle Poisson dengan Regresi Poisson menunjukkan nilai 30,583. Nilai ini lebih besar jika dibandingkan dengan Z(0,05)=1,645

sehingga Ho ditolak, yang berarti bahwa ada perbaikan model Hurdle Poisson terhadap model Regresi Poisson.

Tabel 4.3 Hasil Estimasi Parameter Model Hurdle Poisson Bagian Logit

Koefisien Estimasi Standar Error Nilai Z p-Value Sig (a)

0 -5,083 0,227 -22,42 <0,0001 5%

1 0,274 0,102 2,68 0,0073 5%

2 4,154 0,167 24,94 <0,0001 5%

3 0,173 0,097 1,77 0,0764 10%

4 1,285 0,130 9,89 <0,0001 5%

5 0,256 0,090 2,84 0,0045 5%

6 -0,016 0,004 -4,46 <0,0001 5%


(8)

8 Pemodelan dengan menggunakan Hurdle Poisson menunjukkan bahwa variabel prediktor yang signifikan mempengaruhi konsumsi rokok untuk bagian logit dengan tingkat signifikansi 5% yaitu Pendidikan (X1), Jenis Kelamin (X2), Status Perkawinan (X4), Pekerjaan (X5), Umur (X6), dan Pendapatan per kapita (X7). Variabel klasifikasi wilayah (X3) siginifikan pada =10%. Model persamaan bagian logit ini dapat dikatakan sebagai persamaan keputusan partisipasi konsumsi rokok atau kecenderungan seseorang untuk merokok atau tidak dengan bentuk sebagai berikut:

1−� =−5,083−0,274 1+ 4,154 2+ 1,285 4+ 0,256 5−0,016 6+ 0,000 7 (4.2)

Interpretasi pengaruh variabel-variabel prediktor pada model bagian logit adalah sebagai berikut:

1. Kecenderungan individu berpendidikan SLTP kebawah untuk merokok adalah exp(0,274)=1,315 kali dibandingkan individu berpendidikan SLTA keatas.

2. Kecenderungan individu laki-laki untuk merokok adalah exp(4,154)=63,68 kali dibanding perempuan.

3. Kecenderungan individu berstatus kawin atau pernah kawin untuk merokok adalah exp(1,285)=3,615 kali dibanding yang belum kawin.

4. Kecenderungan individu yang bekerja di sektor informal untuk merokok adalah exp(0,256)=1,291 kali dibandingkan sektor lainnya atau tidak bekerja.

5. Kecenderungan individu berumur 15 tahun (remaja) untuk merokok adalah exp(-0,016*15)=0,791 kali dibandingkan individu berumur 30 tahun (dewasa).

6. Kecenderungan individu berpendapatan 277.000 rupiah untuk merokok adalah exp(0,000)=1 kali dibandingkan individu berpendapatan 277.407 rupiah, yang berarti bahwa penduduk dengan pendapatan berapapun memiliki kecenderungan yang sama dalam merokok dengan nilai koefisien parameter sebesar 0,000. Nilai 277.407 merupakan garis kemiskinan Kalimantan Tengah pada September 2012.

Tabel 4.4 Hasil Estimasi Parameter Model Hurdle Poisson Bagian Truncated Poisson

Koefisien Estimasi Standar Error Nilai Z p-Value Sig ()

0 2,299 0,057 40,63 <0,0001 5%

1 0,107 0,019 5,60 <0,0001 5%

2 0,182 0,046 3,97 0,0001 5%

3 0,028 0,018 1,55 0,1216 -

4 0,059 0,025 2,39 0,0170 5%

5 0,012 0,016 0,73 0,4642 -

6 -0,002 0,001 -3,13 0,0017 5%

7 1,366.10-7 1,280.10-8 10,68 <0,0001 5%

Pemodelan Hurdle Poisson bagian Truncated Poisson menunjukkan bahwa variabel prediktor yang signifikan mempengaruhi konsumsi rokok dengan tingkat signifikansi 5% yaitu Pendidikan (X1), Jenis Kelamin (X2), Status Perkawinan (X4), Umur (X6), dan


(9)

9 Pendapatan per kapita (X7). Bentuk persamaan bagian Truncated Poisson adalah sebagai berikut:

� = exp⁡(2,299 + 0,107 1+ 0,182 2 + 0,059 4−0,002 6+ 0,000 7) (4.3) Pengaruh dari variabel-variabel prediktor yang signifikan pada bagian Truncated Poisson dapat diinterpretasikan sebagai berikut:

1. Setiap penambahan satu individu dengan tingkat pendidikan SLTP kebawah (X1=1) akan meningkatkan rata-rata konsumsi rokok sebesar exp(0,107)=1-2 batang/hari, jika variabel lain dalam keadaan konstan.

2. Setiap penambahan satu individu laki-laki (X2=1) akan meningkatkan rata-rata konsumsi rokok sebesar exp(0,182)=1-2 batang/hari, jika variabel lain dalam keadaan konstan. 3. Setiap penambahan satu individu berstatus kawin atau pernah kawin (X4=1) akan

meningkatkan rata-rata konsumsi rokok sebesar exp(0,059)=1-2 batang/hari, jika variabel lain dalam keadaan konstan.

4. Setiap penambahan satu tahun umur individu (X6=1) akan meningkatkan rata-rata konsumsi rokok sebesar exp(-0,002)=1 batang/hari, jika variabel lain dalam keadaan konstan.

5. Setiap penambahan satu rupiah pendapatan perkapita individu (X7=1) akan meningkatkan rata-rata konsumsi rokok sebesar exp(0,000)=1 batang/hari, jika variabel lain dalam keadaan konstan.

5. Kesimpulan

Hasil pengujian dengan statistik Vuong menunjukkan bahwa model Hurdle Poisson memberikan perbaikan terhadap model regresi Poisson. Model Hurdle Poisson merupakan salah satu alternatif yang dapat digunakan untuk memodelkan data cacahan (count) dengan excess zero pada data konsumsi rokok dalam batang/hari. Hasil pengujian kelayakan model menyatakan model sudah fit dengan variabel yang berpengaruh secara signifikan terhadap konsumsi rokok adalah variabel pendidikan, jenis kelamin, status perkawinan, pekerjaan, umur, dan pendapatan perkapita sebulan yang ditunjukkan pada bagian model logit dan pendidikan, jenis kelamin, status perkawinan, umur, dan pendapatan perkapita sebulan pada bagian model Truncated Poisson. Penelitian ini belum memperhatikan adanya pencilan (outlier) dalam pemodelan. Perlu dilakukan pemodelan Hurdle Poisson yang mempertimbangkan adanya pencilan dengan metode robust.

6. Daftar Pustaka

Agresti, A. 2002. Categorical Data Analysis, Second Edition. New Jersey: John Willey & Sons.

Badan Pusat Statistik. 2012. Susenas Modul Sosial Budaya Pendidikan. Jakarta: BPS.

Badan Pusat Statistik. 2013. Profil Kemiskinan Provinsi Kalimantan Tengah September 2012. Berita Resmi Statistik Kalimantan Tengah. No.07/01/62/Th.VII.

Bohara, A.K. dan Krieg, R.G. 1996. A Poisson Hurdle Model of Migration Frequency. Journal of Regional Analysis and Policy:37-45.

Cantoni, E. dan Zedini, A. 2010. A Robust Version of the Hurdle Model. Journal of Statistical Planning and Inference. Vol.141(3):1214-1223.


(10)

10 Greene, W. 2005. Functional Form and Heterogenity in Model for Count Data. Foundation

and Trends in Economic. Vol.1, No.2:113-218.

Hajarisman, N. 2013. Fitting Generalized Linear Model. Lecture 13; Stat 544.

Harahap, A.M. 2003. Faktor-faktor yang Mempengaruhi Besarnya Konsumsi Rokok Individu: Model Sampel Selection. Thesis Program Magister Ekonomi, Universitas Indonesia, Jakarta.

Kassahun, W., Neyens, T., Molenberghs, G., Faes, C., dan Verbeke, G. 2014. Marginalized Multilevel Hurdle and Zero Inflated Models for Overdispersed and Correlated Count Data with Excess Zeros. Statistics in Medicine, revised, and resubmitted, Diepenbeek. Kemenkes. 2013. Laporan Riset Kesehatan Dasar 2013. BPPK Kemenkes RI, Jakarta.

Khanal, V., Adhikari, M. dan Karki, S. 2013. Social Determinant of Tobacco Consumption Among Nepalese Men: Findings From Nepal Demographic and Health Survey 2011. Harm Reduction Journal, 10:40.

Long, J.C. dan Freese, J. 2001. Regression Model for Categorical Dependent Variables Using Stata. Stata Corporation;Texas.

Miranda, A. 2010. A Double Hurdle Count Model for Completed Fertility Data From the Developing World. Department of Quantitative Social Science Working Paper No. 101-01, London.

Parwoto. 2012. Regresi Multilevel Zero Inflated Poisson untuk Pemodelan Data Respon Count (Studi Kasus Kejadian Kematian Bayi di Jawa Barat). Thesis Program Magister Statistika Terapan, Universitas Padjajaran, Bandung.

Reum, A.D. dan Harris, T. R. 2006. Exploring Firm Location Beyond Simple Growth Models: A Double Hurdle Application. Journal of Regional Analysis & Policy. JRAP 36(1):45-67.

Ridout, M., Demetrio, C. G. B. dan Hinde, J. 1998. Models for Count Data with Many Zero. International Biometric Conference, Cape Town.

Saffari, S. E., Adnan, R. dan Greene, W. 2012. Parameter Estimation On Hurdle Poisson Regression Model With Censored Data. Jurnal Teknologi, 57 (Science & Engineering). March:189-198.

Shonkwiller, J. S. dan Shaw, W. D. 1996. Hurdle Count Data Models in Recreation Demand Analysis. Journal of Agricultural and Resource Economics. 21(2):210-219.

Vuong, Q.H. 1989. Likelihood Ratio Test and Non-Nested Hypotheses. Econometrica. Volume 57 ; 307-333.

Winklemann, R dan Zimmermann, K. F. 1995. Recent Developments in Count Data Modelling:Theory and Applications. Journal of Economics Survey 9:1-24.

Winklemann, R. 2008. Econometric Analysis of Count Data, Fifth Edition. Berlin Heidelberg: Springer.

Zorn, Christopher J.W. 1996. Evaluating Zero Inflated and Hurdle Poisson Specifications. Midwest Political Science Assosiation. Ohio State University.


(1)

5 Kriteria pengujian tolak H0 jika > 2 atau p-value < , dengan adalah tingkat signifikansi dan SE adalah standard error. Sampel besar mengikuti sebaran normal, maka kriteria pengujian dibandingkan dengan tabel normal Z.

2.5.Telaah Kritis

Model Hurdle pertama kali diperkenalkan oleh Mullahy tahun 1986 (Winklemann, 2008). Beberapa penelitian menggunakan model Hurdle Poisson diantaranya Zorn (1996) mengevaluasi spesifikasi Zero Inflated dan Hurdle Poisson, Greene (2005) membandingkan

Zero Inflated dan Hurdle model sebagai two part model, Safari, Adnan, dan Greene (2012) melakukan estimasi parameter mengenai model Hurdle Poisson dengan censored data. Model

Hurdle Poisson diaplikasikan pada penelitian frekuensi migrasi oleh Bohara dan Krieg (1996), Shonkwiller dan Shaw (1996) membahas tentang analisis permintaan rekreasi disuatu tempat, Reum dan Haris (2006) menggunakan metode Hurdle Poisson untuk meneliti banyak daerah yang tidak memiliki industri manufaktur.

Hasil penelitian Khanal, Adhikari, dan Kharki, 2013 menyebutkan bahwa laki-laki di Nepal yang tidak bersekolah, berusia 36-49 tahun, sudah menikah, dengan pekerjaan manual lebih senang untuk mengkonsumsi tembakau. Laki-laki yang menonton televisi paling sedikit satu kali dalam seminggu kurang senang mengkonsumsi tembakau. Hasil studi Harahap, 2003 menyebutkan bahwa faktor yang mempengaruhi besarnya jumlah konsumsi rokok berbeda dengan faktor-faktor yang mempengaruhi partisipasi merokok. Dua variabel ekonomi, harga rokok dan pendapatan memiliki hubungan yang signifikan dengan besamya jumlah konsumsi rokok, dimana harga rokok berpengaruh negatif dan pendapatan berpengaruh positif. Variabel-variabel sosiodemografi sebagai proksi selera yang secara signifikan memiliki hubungan dengan jumlah konsumsi rokok adalah umur, pendidikan, jenis kelamin dan status perkawinan. Wilayah dan daerah tempat tinggal juga memiliki hubungan yang signifikan dengan besamya jurnlah konsumsi rokok.

3. Metodologi

3.1.Variabel yang digunakan

Data yang digunakan dalam penelitian ini adalah data hasil Survei Sosial Ekonomi Nasional Modul Sosial Budaya dan Pendidikan Tahun 2012 di Provinsi Kalimantan Tengah. Variabel yang digunakan dalam penelitian ini adalah:

Variabel Keterangan Kategori

Respon Y Konsumsi rokok dalam batang per hari -

Prediktor

X1 Pendidikan tertinggi yang ditamatkan 1 SLTP Kebawah 0 SLTA Keatas X2 Jenis Kelamin 1 Laki-laki

0 Perempuan X3 Klasifikasi Wilayah 1 Perdesaan

0 Perkotaan

X4 Status Perkawinan 1 Kawin atau Pernah Kawin 0 Belum Kawin

X5 Pekerjaan 1 Informal

0 Lainnya

X6 Umur -


(2)

6 3.2.Langkah-langkah Penelitian

Langkah-langkah yang dilakukan dalam penelitian : 1. Melakukan analisis deskriptif variabel penelitian.

2. Melakukan analisis dan penaksiran parameter dengan Regresi Poisson. 3. Melakukan analisis hurdle poisson sebagai berikut:

a. Penaksiran Parameter menggunakan metode Fisher Scoring dengan menggunakan derivatif pertama dari fungsi log likelihood untuk matriks vektor skor (V) dan matriks informasi yang merupakan nilai harapan dari matriks hessian (H) dengan tahapan sebagai berikut (Hajarisman, 2013):

i. Menentukan nilai taksiran awal dari parameter � (0) = (0), (0) .

ii. Menghitung matriks vektor skor (V) yang merupakan derivatif pertama dari fungsi log likelihood dari parameter  dan .

iii. Menghitung matriks informasi (I) yang merupakan nilai harapan dari matriks

hessian (H). Matriks (H) merupakan derivatif kedua dari fungsi log likelihood. iv. Memasukkan nilai � (0) ke dalam elemen-elemen vektor V dan matrik I sehingga

diperoleh vektor �(0)dan matrik �(0).

v. Menghitung nilai invers matriks �(0) atau �0 −1dengan persamaan iterasi �( +1) = + [ ]−1( ).

vi. Iterasi dilakukan mulai dari t=0 dan selesai jika selisih iterasi sudah sangat kecil, dengan kriteria �( +1)− �( ) < , dimana nilai c = 0,0001.

b. Melakukan pengujian kelayakan model. c. Melakukan pengujian parameter. 4. Hasil dan Pembahasan

Sampel yang digunakan dalam penelitian ini sebanyak 4.309 individu dibatasi untuk individu remaja dan dewasa berusia 15 tahun keatas hasil Survei Sosial Ekonomi Nasional (Susenas) MSBP triwulan III tahun 2012.

Berdasarkan tabel 4.1 yang menyajikan statistik deskriptif dari variabel-variabel yang digunakan dalam penelitian ini ditunjukkan bahwa variabel prediktor Pendidikan (X1), Jenis Kelamin (X2), Wilayah (X3), Status Perkawinan (X4), dan Pekerjaan (X5) merupakan data biner/kategorik sehingga statistik deskriptifnya disajikan dalam data proporsi.

Tabel 4.1 Statistik Deskriptif Variabel-variabel dalam Penelitian

Variabel Observasi Mean Standard Error Minimum Maksimum

Y 4.309 3,86 7,53 0 70

X1 4.309 0,72 0,45 0 1

X2 4.309 0,51 0,50 0 1

X3 4.309 0,66 0,47 0 1

X4 4.309 0,80 0,40 0 1

X5 4.309 0,43 0,50 0 1

X6 4.309 37,43 15,15 15 98


(3)

7 Jumlah rokok yang dikonsumsi oleh individu paling banyak adalah 70 batang per hari. Proporsi individu dengan pendidikan SLTP kebawah adalah 0,72, proporsi individu laki-laki sebesar 0,51dan proporsi individu perempuan sebesar 0,49. Proporsi individu yang tinggal di perdesaan adalah 0,66 dan sisanya sebanyak 0,34 tinggal di perkotaan. Proporsi individu yang sudah dan pernah kawin adalah 0,80. Proporsi individu yang bekerja di sektor informal sebesar 0,43. Rata-rata umur individu yang masuk dalam sampel adalah 37,43 tahun dan rata-rata pendapatan individu perkapita sebulan yang masuk dalam sampel adalah 779.072 rupiah. Hasil pemodelan dengan Regresi Poisson menunjukkan bahwa seluruh variabel prediktor secara signifikan berpengaruh terhadap konsumsi rokok dengan tingkat signifikansi 5% yaitu Pendidikan (X1), Jenis Kelamin (X2), Klasifikasi Wilayah (X3), Status Perkawinan (X4), Pekerjaan (X5), Umur (X6), dan Pendapatan per kapita (X7). Bentuk persamaan regresi Poisson sebagai berikut :

� = exp −2,228 + 0,234 1+ 3,501 2+ 0,117 3+ 0,759 4+ 0,12 5−0,009 6+ 0,000 7 (4.1)

Tabel 4.2 Hasil Estimasi Parameter Model Regresi Poisson

Koefisien Estimasi Standar error Nilai Z p-Value Sig ()

0 -2,228 0,544 -40,98 < 0,0001 5%

1 0,234 0,019 12,11 < 0,0001 5%

2 3,501 0,046 76,28 < 0,0001 5%

3 0,117 0,018 6,36 < 0,0001 5%

4 0,759 0,026 29,51 < 0,0001 5%

5 0,120 0,017 7,20 < 0,0001 5%

6 -0,009 0,001 -14,49 < 0,0001 5%

7 1,944.10 -7

1,104.10-8 17,61 < 0,0001 5%

Pengujian kelayakan model untuk model Hurdle Poisson dengan menggunakan uji serentak likelihood ratio test menunjukkan nilai G2 sebesar 1.861,3. Nilai G2 ini lebih besar jika dibandingkan dengan �(0,05;16)2 = 26,296 sehingga Ho ditolak, yang berarti paling sedikit satu variabel prediktor yang mempengaruhi konsumsi rokok individu. Nilai statistik

Vuong digunakan untuk membandingkan Hurdle Poisson dengan Regresi Poisson

menunjukkan nilai 30,583. Nilai ini lebih besar jika dibandingkan dengan Z(0,05)=1,645 sehingga Ho ditolak, yang berarti bahwa ada perbaikan model Hurdle Poisson terhadap model Regresi Poisson.

Tabel 4.3 Hasil Estimasi Parameter Model Hurdle Poisson Bagian Logit Koefisien Estimasi Standar Error Nilai Z p-Value Sig (a)

0 -5,083 0,227 -22,42 <0,0001 5%

1 0,274 0,102 2,68 0,0073 5%

2 4,154 0,167 24,94 <0,0001 5%

3 0,173 0,097 1,77 0,0764 10%

4 1,285 0,130 9,89 <0,0001 5%

5 0,256 0,090 2,84 0,0045 5%

6 -0,016 0,004 -4,46 <0,0001 5%


(4)

8 Pemodelan dengan menggunakan Hurdle Poisson menunjukkan bahwa variabel prediktor yang signifikan mempengaruhi konsumsi rokok untuk bagian logit dengan tingkat signifikansi 5% yaitu Pendidikan (X1), Jenis Kelamin (X2), Status Perkawinan (X4), Pekerjaan (X5), Umur (X6), dan Pendapatan per kapita (X7). Variabel klasifikasi wilayah (X3) siginifikan pada =10%. Model persamaan bagian logit ini dapat dikatakan sebagai persamaan keputusan partisipasi konsumsi rokok atau kecenderungan seseorang untuk merokok atau tidak dengan bentuk sebagai berikut:

1−� =−5,083−0,274 1+ 4,154 2+ 1,285 4+ 0,256 5−0,016 6+ 0,000 7 (4.2) Interpretasi pengaruh variabel-variabel prediktor pada model bagian logit adalah sebagai berikut:

1. Kecenderungan individu berpendidikan SLTP kebawah untuk merokok adalah exp(0,274)=1,315 kali dibandingkan individu berpendidikan SLTA keatas.

2. Kecenderungan individu laki-laki untuk merokok adalah exp(4,154)=63,68 kali dibanding perempuan.

3. Kecenderungan individu berstatus kawin atau pernah kawin untuk merokok adalah exp(1,285)=3,615 kali dibanding yang belum kawin.

4. Kecenderungan individu yang bekerja di sektor informal untuk merokok adalah exp(0,256)=1,291 kali dibandingkan sektor lainnya atau tidak bekerja.

5. Kecenderungan individu berumur 15 tahun (remaja) untuk merokok adalah exp(-0,016*15)=0,791 kali dibandingkan individu berumur 30 tahun (dewasa).

6. Kecenderungan individu berpendapatan 277.000 rupiah untuk merokok adalah exp(0,000)=1 kali dibandingkan individu berpendapatan 277.407 rupiah, yang berarti bahwa penduduk dengan pendapatan berapapun memiliki kecenderungan yang sama dalam merokok dengan nilai koefisien parameter sebesar 0,000. Nilai 277.407 merupakan garis kemiskinan Kalimantan Tengah pada September 2012.

Tabel 4.4 Hasil Estimasi Parameter Model Hurdle Poisson Bagian Truncated Poisson

Koefisien Estimasi Standar Error Nilai Z p-Value Sig ()

0 2,299 0,057 40,63 <0,0001 5%

1 0,107 0,019 5,60 <0,0001 5%

2 0,182 0,046 3,97 0,0001 5%

3 0,028 0,018 1,55 0,1216 -

4 0,059 0,025 2,39 0,0170 5%

5 0,012 0,016 0,73 0,4642 -

6 -0,002 0,001 -3,13 0,0017 5%

7 1,366.10-7 1,280.10-8 10,68 <0,0001 5%

Pemodelan Hurdle Poisson bagian Truncated Poisson menunjukkan bahwa variabel prediktor yang signifikan mempengaruhi konsumsi rokok dengan tingkat signifikansi 5% yaitu Pendidikan (X1), Jenis Kelamin (X2), Status Perkawinan (X4), Umur (X6), dan


(5)

9 Pendapatan per kapita (X7). Bentuk persamaan bagian Truncated Poisson adalah sebagai berikut:

� = exp⁡(2,299 + 0,107 1+ 0,182 2 + 0,059 4−0,002 6+ 0,000 7) (4.3)

Pengaruh dari variabel-variabel prediktor yang signifikan pada bagian Truncated Poisson dapat diinterpretasikan sebagai berikut:

1. Setiap penambahan satu individu dengan tingkat pendidikan SLTP kebawah (X1=1) akan meningkatkan rata-rata konsumsi rokok sebesar exp(0,107)=1-2 batang/hari, jika variabel lain dalam keadaan konstan.

2. Setiap penambahan satu individu laki-laki (X2=1) akan meningkatkan rata-rata konsumsi rokok sebesar exp(0,182)=1-2 batang/hari, jika variabel lain dalam keadaan konstan. 3. Setiap penambahan satu individu berstatus kawin atau pernah kawin (X4=1) akan

meningkatkan rata-rata konsumsi rokok sebesar exp(0,059)=1-2 batang/hari, jika variabel lain dalam keadaan konstan.

4. Setiap penambahan satu tahun umur individu (X6=1) akan meningkatkan rata-rata konsumsi rokok sebesar exp(-0,002)=1 batang/hari, jika variabel lain dalam keadaan konstan.

5. Setiap penambahan satu rupiah pendapatan perkapita individu (X7=1) akan meningkatkan rata-rata konsumsi rokok sebesar exp(0,000)=1 batang/hari, jika variabel lain dalam keadaan konstan.

5. Kesimpulan

Hasil pengujian dengan statistik Vuong menunjukkan bahwa model Hurdle Poisson

memberikan perbaikan terhadap model regresi Poisson. Model Hurdle Poisson merupakan salah satu alternatif yang dapat digunakan untuk memodelkan data cacahan (count) dengan

excess zero pada data konsumsi rokok dalam batang/hari. Hasil pengujian kelayakan model menyatakan model sudah fit dengan variabel yang berpengaruh secara signifikan terhadap konsumsi rokok adalah variabel pendidikan, jenis kelamin, status perkawinan, pekerjaan, umur, dan pendapatan perkapita sebulan yang ditunjukkan pada bagian model logit dan pendidikan, jenis kelamin, status perkawinan, umur, dan pendapatan perkapita sebulan pada bagian model Truncated Poisson. Penelitian ini belum memperhatikan adanya pencilan (outlier) dalam pemodelan. Perlu dilakukan pemodelan Hurdle Poisson yang mempertimbangkan adanya pencilan dengan metode robust.

6. Daftar Pustaka

Agresti, A. 2002. Categorical Data Analysis, Second Edition. New Jersey: John Willey & Sons.

Badan Pusat Statistik. 2012. Susenas Modul Sosial Budaya Pendidikan. Jakarta: BPS.

Badan Pusat Statistik. 2013. Profil Kemiskinan Provinsi Kalimantan Tengah September 2012.

Berita Resmi Statistik Kalimantan Tengah. No.07/01/62/Th.VII.

Bohara, A.K. dan Krieg, R.G. 1996. A Poisson Hurdle Model of Migration Frequency.

Journal of Regional Analysis and Policy:37-45.

Cantoni, E. dan Zedini, A. 2010. A Robust Version of the Hurdle Model. Journal of Statistical Planning and Inference. Vol.141(3):1214-1223.


(6)

10 Greene, W. 2005. Functional Form and Heterogenity in Model for Count Data. Foundation

and Trends in Economic. Vol.1, No.2:113-218.

Hajarisman, N. 2013. Fitting Generalized Linear Model. Lecture 13; Stat 544.

Harahap, A.M. 2003. Faktor-faktor yang Mempengaruhi Besarnya Konsumsi Rokok Individu: Model Sampel Selection. Thesis Program Magister Ekonomi, Universitas Indonesia, Jakarta.

Kassahun, W., Neyens, T., Molenberghs, G., Faes, C., dan Verbeke, G. 2014. Marginalized Multilevel Hurdle and Zero Inflated Models for Overdispersed and Correlated Count Data with Excess Zeros. Statistics in Medicine, revised, and resubmitted, Diepenbeek. Kemenkes. 2013. Laporan Riset Kesehatan Dasar 2013. BPPK Kemenkes RI, Jakarta.

Khanal, V., Adhikari, M. dan Karki, S. 2013. Social Determinant of Tobacco Consumption Among Nepalese Men: Findings From Nepal Demographic and Health Survey 2011.

Harm Reduction Journal, 10:40.

Long, J.C. dan Freese, J. 2001. Regression Model for Categorical Dependent Variables Using Stata. Stata Corporation;Texas.

Miranda, A. 2010. A Double Hurdle Count Model for Completed Fertility Data From the Developing World. Department of Quantitative Social Science Working Paper No. 101-01, London.

Parwoto. 2012. Regresi Multilevel Zero Inflated Poisson untuk Pemodelan Data Respon Count (Studi Kasus Kejadian Kematian Bayi di Jawa Barat). Thesis Program Magister Statistika Terapan, Universitas Padjajaran, Bandung.

Reum, A.D. dan Harris, T. R. 2006. Exploring Firm Location Beyond Simple Growth Models: A Double Hurdle Application. Journal of Regional Analysis & Policy. JRAP 36(1):45-67.

Ridout, M., Demetrio, C. G. B. dan Hinde, J. 1998. Models for Count Data with Many Zero.

International Biometric Conference, Cape Town.

Saffari, S. E., Adnan, R. dan Greene, W. 2012. Parameter Estimation On Hurdle Poisson Regression Model With Censored Data. Jurnal Teknologi, 57 (Science & Engineering). March:189-198.

Shonkwiller, J. S. dan Shaw, W. D. 1996. Hurdle Count Data Models in Recreation Demand Analysis. Journal of Agricultural and Resource Economics. 21(2):210-219.

Vuong, Q.H. 1989. Likelihood Ratio Test and Non-Nested Hypotheses. Econometrica. Volume 57 ; 307-333.

Winklemann, R dan Zimmermann, K. F. 1995. Recent Developments in Count Data Modelling:Theory and Applications. Journal of Economics Survey 9:1-24.

Winklemann, R. 2008. Econometric Analysis of Count Data, Fifth Edition. Berlin Heidelberg: Springer.

Zorn, Christopher J.W. 1996. Evaluating Zero Inflated and Hurdle Poisson Specifications.