Kajian Pendugaan Area Kecil Untuk Menduga Jumlah Kematian Bayi Di Jawa Barat
KAJIAN PENDUGAAN AREA KECIL UNTUK MENDUGA
JUMLAH KEMATIAN BAYI DI JAWA BARAT
ARIE ANGGREYANI
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa tesis berjudul Kajian Pendugaan Area
Kecil untuk Menduga Jumlah Kematian Bayi di Jawa Barat adalah benar karya
saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk
apapun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau
dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor,
Februari 2016
Arie Anggreyani
NIM G151130371
RINGKASAN
ARIE ANGGREYANI. Kajian Pendugaan Area Kecil untuk Menduga Jumlah
Kematian Bayi di Jawa Barat. Dibimbing oleh INDAHWATI dan ANANG
KURNIA.
Survei Demografi dan Kesehatan Indonesia (SDKI) menyediakan sebagian
besar informasi kesehatan di Indonesia. SDKI dilaksanakan setiap lima tahun
sekali sejak tahun 1994. Pendugaan berdasarkan data SDKI hanya dilakukan
untuk skala nasional atau provinsi sedangkan untuk level kabupaten, kecamatan
dan kelurahan/desa masih kurang memadai. Metode pendugaan yang biasa
digunakan adalah metode pendugaan langsung. Namun, pendugaan ini
menghasilkan galat baku penduga besar. Hal ini disebabkan karena teknik
pengambilan contoh yang kompleks dan ukuran contoh yang relatif kecil. Metode
yang digunakan untuk mengatasi ketidakstabilan pendugaan langsung adalah
pendugaan tidak langsung. Beberapa pendugaan tidak langsung adalah pendugaan
tidak langsung berdasarkan model campuran dan pendugaan komposit. Pendugaan
dengan model campuran adalah memodelkan dengan mengabungkan pengaruh
dan pengaruh tetap sedangkan pendugaan komposit adalah pendugaan yang
dilakukan dengan memboboti penduga berdasarkan desain dan model.
Peubah jumlah kejadian yang memiliki peluang yang sangat kecil biasanya
diasumsikan memiliki sebaran Poisson. Sebaran Poisson memiliki asumsi
equidispersi yaitu nilai harapan sama dengan ragam. Berdasarkan kondisi data,
jika ragam amatan lebih besar daripada ragam sebarannya mengindikasikan
adanya overdispersi dan sebaliknya disebut underdispersi. Beberapa metode untuk
menangani overdispersi adalah dengan sebaran binomial negatif, pendekatan
quasi-likelihood dan sebaran Tweedie.
Pada SDKI, terdapat beberapa area yang tidak tersurvei atau disebut
nircontoh. Padahal, area nircontoh sangat penting untuk diduga. Sehingga
diperlukan pendekatan untuk menduga area yang tidak tersurvei. Salah satu
pendekatan yang digunakan adalah mengasumsikan bahwa suatu area memiliki
pola kedekatan hubungan dengan area lain. Pendekatan yang digunakan untuk
menganalisis pola hubungan antar area tersebut adalah dengan teknik
pengerombolan (clustering).
Pada penelitian ini dilakukan pendugaan jumlah kematian bayi untuk
kabupaten/kota di Provinsi Jawa Barat dengan membandingkan pendugaan
langsung dan tidak langsung menggunakan data SDKI Provinsi Jawa Barat.
Provinsi Jawa Barat terdiri dari 26 kabupaten/kota, dan diantaranya ada dua area
yang tidak tersurvei yaitu Kota Banjar dan Kota Sukabumi. Hasil analisis pada
kasus kematian bayi di Provinsi Jawa Barat diketahui terdapat masalah
underdispersi pada model linier campuran Poisson. Berdasarkan plot sisaan dan
rasio generalized chi-square dengan derajat bebasnya diketahui model linier
campuran pendekatan quasi-likelihood dan sebaran Tweedie dapat mengatasi
masalah dispersi. Pendugaan model terbaik adalah model linier campuran
pendekatan quasi-likelihood pada pendugaan komposit dilihat dari nilai MAPE,
MSD dan MAD yang paling kecil.
Kata kunci: GLMM, Kematian Bayi , Quasi-likelihood, SAE, Tweedie.
SUMMARY
ARIE ANGGREYANI. The Study of Small Area Estimation for Estimating the
Number of Infant Mortality in West Java, Indonesia. Supervised by INDAHWATI
and ANANG KURNIA.
The Indonesian Demographic and Health Survey (IDHS) provides data
related to the health subject. IDHS conducts every five years since 1994. The
estimation of IDHS data only performs for a national or a provincial scale but not
for a district, a sub-district and a village level. Estimation method for a district,
subdistrict or village is usually done with the direct estimation. However, the
drawback of the direct estimation is standard error estimation will be large. The
reason is because the sampling technique is quite complex and the sample size is
relatively small. A method to overcome the drawbacks of the direct estimation is a
indirect estimation based prediction models of small area estimation (SAE). The
two methods in indirect estimation are mixed model and composites estimation.
The mixed model is model that contain both fixed and random effects while the
composite estimation is an estimation in which combination design based and
model based.
The number of occurences variable which has small probability is assumed
to have a Poisson distribution. In the Poisson distribution, the expected of mean is
equal to variance, namely is called equidispersion. In case, the variance of data is
greater than the theoretical variance of Poisson distribution is overdispersion,
otherwise it is called underdispersion. Some methods to deal with overdispersion
are negative binomial distribution, quasi-likelihood approach and Tweedie
distribution.
In IDHS, there are some area not as samples and they are needed to estimate.
Those areas are assumed having a close relationship with other areas based on
certain variables. One approach to cluster the areas based on the pattern of the
relationship is a cluster analysis.
The goal of this study is comparing the direct and indirect estimation of the
number of infant deaths for the districts/cities in West Java province. In total,
there are 26 districts/cities; 24 districs/cities were surveyed and 2 cities were not
surveyed. The two cities were Banjar city and Sukabumi city. The analysis of
cases of infant mortality in West Java Province was known having problems of
underdispersion on Poisson linear mixed model. Based on the residual plot and
generalized chi-square, quasi-likelihood approach and Tweedie distribution can
overcome the problem of dispersion. The best estimation method is based on
quasi-likelihood approach. It can be seen from the smallest value of MAPE, MAD,
and MAD.
Keywords: GLMM, Infant Mortality, Quasi-likelihood, SAE, Tweedie.
© Hak Cipta Milik IPB, Tahun 2016
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apapun tanpa izin IPB
KAJIAN PENDUGAAN AREA KECIL UNTUK MENDUGA
JUMLAH KEMATIAN BAYI DI JAWA BARAT
ARIE ANGGREYANI
Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
pada
Program Studi Statistika
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016
Penguji Luar Komisi pada Ujian Tesis: Dr Kusman Sadik, SSi, MSi
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala
atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan.
Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Maret
2015 ini ialah pendugaan area kecil, dengan judul Kajian Pendugaan Area
Kecil untuk Menduga Jumlah Kematian Bayi di Jawa Barat.
Terima kasih penulis ucapkan kepada semua pihak yang telah turut
berperan serta dalam penyusunan karya ilmiah ini, terutama kepada :
1. Ibu Dr Ir Indahwati, MSi dan Bapak Dr Anang Kurnia, SSi, MSi selaku
pembimbing yang telah banyak memberi saran,
2. Bapak Dr. Kusman Sadik, SSi, MSi sebagai dosen penguji pada ujian
sidang tesis,
3. Penghargaan penulis sampaikan kepada seluruh staf dan jajaran
Pemerintah Kota Pagar Alam atas beasiswa yang telah diberikan,
4. Tim Hibah Penelitian Unggulan Sesuai Mandat dan Tim Bimbingan
Small Area Estimation (SAE) atas bantuan biaya penelitian dan segala
kerjasamanya.
5. Keluarga Besar Program Studi Statistika Sekolah Pascasarjana IPB
yang telah banyak membantu baik secara moril maupun nonmoril,
6. Badan Pusat Statistik (BPS) atas segala informasi yang telah diberikan,
7. Ungkapan terima kasih juga disampaikan kepada mama, papa, serta
seluruh keluarga, atas segala doa dan kasih sayangnya.
8. Serta berbagai pihak lain yang tidak dapat penulis sebutkan seluruhnya
satu persatu.
Semoga semua bantuan yang diberikan kepada penulis mendapatkan
balasan dari Allah SWT. Penulis juga menyadari bahwa tesis ini masih jauh
dari kesempurnaan. Namun demikian, penulis berharap semoga karya ilmiah
ini dapat bermanfaat bagi semua pihak yang membutuhkan. Aamiin.
Bogor,
Februari 2016
Arie Anggreyani
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
1 PENDAHULUAN
Latar Belakang
Tujuan Penelitian
1
1
2
2 TINJAUAN PUSTAKA
Pendugaan Langsung (Direct Estimation)
Pendugaan Tidak Langsung (Indirect Estimation)
Dispersi
Quasi-Likelihood
Sebaran Tweedie
Generalized Linear Mixed Model (GLMM)
Empirical Best Prediction (EBP)
3
3
4
5
5
6
7
9
3 METODE
Data
Prosedur Analisis Data
10
10
10
4 HASIL DAN PEMBAHASAN
Penduga Langsung
Uji Korelasi antar Peubah Penyerta
Mendeteksi Masalah Dispersi
Penduga Tidak Langsung
Ukuran Kebaikan Model
Pendugaan Nircontoh
13
13
14
14
16
18
19
5 SIMPULAN DAN SARAN
Simpulan
Saran
21
21
21
DAFTAR PUSTAKA
22
LAMPIRAN
23
RIWAYAT HIDUP
28
DAFTAR TABEL
1
2
3
4
5
Peubah respon dan peubah penjelas
Penduga langsung jumlah kematian bayi di Provinsi Jawa Barat
Hasil uji korelasi antar peubah penyerta
Ukuran kesesuaian pendugaan tidak langsung
Ukuran kebaikan dari pendugaan titik berdasarkan dugaan
langsung, dugaan berdasarkan model campuran, model komposit
dengan modifikasi, dan model komposit dengan modifikasi
6 Penggerombolan kabupaten/kota di Provinsi Jawa Barat
7 Prediksi tingkat kematian bayi per 1000 jiwa untuk area contoh
dan nircontoh
10
13
14
16
19
19
20
DAFTAR GAMBAR
1 Plot sisaan terhadap nilai prediksi (a) model-1, (b) model-2, (c)
model-3, dan (d) model-4
2 Hasil prediksi terhadap nilai respon aktual dengan nilai dugaan
tidak langsung model-1, model-2, model-3, dan model-4
3 Hasil prediksi komposit tanpa modifikasi model-1, model-2,
model-3, dan model-4
4 Hasil prediksi komposit dengan modifikasi model-1, model-2,
model-3, dan model-4
15
16
17
18
DAFTAR LAMPIRAN
1 Nilai komponen utama
2 Nilai dugaan langsung, dugaan berdasarkan model campuran, dan
dugaan komposit dengan modifikasi
3 Dendogram analisis gerombol kota dan kabupaten di Provinsi
Jawa Barat
25
26
27
1
1 PENDAHULUAN
Latar Belakang
Informasi kesehatan merupakan salah satu indikator untuk mengukur
tingkat pembangunan dan kualitas hidup di suatu wilayah atau negara. Survei
Demografi dan Kesehatan Indonesia (SDKI) menyediakan sebagian besar
informasi kesehatan. SDKI dilakukan setiap lima tahun sekali sejak tahun 1994.
Berdasarkan data SDKI, pendugaan yang dilakukan masih berskala nasional atau
provinsi namun dengan adanya sistem desentralisasi diperlukan prediksi untuk
area yang lebih kecil seperti level kabupaten, kecamatan maupun kelurahan/desa.
Pendugaan untuk level kabupaten, kecamatan maupun kelurahan/desa terkadang
masih sulit dilakukan karena memiliki ukuran contoh yang relatif kecil atau
terdapat area yang tidak tersurvei. Sadik (2009) dan Kurnia (2009) telah
mengaplikasikan suatu metode pendugaan untuk mengatasi hal tersebut yang
dikenal dengan metode pendugaan area kecil (small area estimation, SAE).
SDKI didesain berdasarkan teknik penarikan contoh yang kompleks.
Pendugaan yang biasa digunakan adalah model desain penarikan contoh (designbased) disebut juga pendugaan langsung (direct estimation). Namun, metode
pendugaan langsung memiliki galat baku penduganya besar dan tidak dapat
dilakukan jika nilai responnya bernilai nol. Untuk menangani masalah tersebut,
Rao (2003) telah banyak mengembangkan penelitian pendugaan area kecil
dengan meminjam kekuatan pada daerah sekitar untuk menghasilkan presisi
yang lebih baik. Peminjaman kekuatan dalam pendugaan area kecil dapat
diperoleh dari area yang berdekatan menurut ruang, waktu atau melalui
informasi tambahan yang diperkirakan berkorelasi dengan peubah yang diamati
(Hajarisman 2013). Pendugaan tersebut biasa disebut pendugaan tidak langsung
(indirect estimation). Sadik (2009) menjelaskan bahwa dalam pendugaan tidak
langsung mengasumsikan bahwa keragaman didalam area kecil peubah respon
dapat diterangkan oleh hubungan keragaman yang bersesuaian pada informasi
penyerta (auxiliary) yang berupa pengaruh tetap, sedangkan keragaman specifik
area kecil diasumsikan dapat diterangkan oleh informasi tambahan yang berupa
pengaruh acak area.
Peubah jumlah kejadian dengan peluang kejadian sangat kecil biasanya
diasumsikan menyebar Poisson. Sebaran Poisson memiliki asumsi equidispersi
yaitu nilai harapan sama dengan ragam. Jika ragam lebih besar dari rata-rata
mengindikasikan adanya overdispersi dan sebaliknya disebut underdispersi.
Overdispersi/underdispersi disebabkan oleh beberapa kemungkinan seperti
adanya pencilan, korelasi antar amatan dalam peubah respon, dan kesalahan
pendefinisian sebaran. Cameron & Trivadi (1998) dan Stroup (2013) menyatakan
jika overdispersi terjadi menyebabkan nilai dugaan galat baku yang lebih kecil
(underestimate) dan meningkatnya kesalahan jenis I. Beberapa metode untuk
menangani overdispersi adalah dengan model binomial negatif, pendekatan
quasi-likelihood dan sebaran Tweedie. Sebaran binomial negatif memuat suatu
parameter dispersi sehingga memiliki nilai ragam lebih besar dari sebaran
Poisson (Hadi & Notodiputro 2009). Weddenburn (1974) memperkenalkan
fungsi quasi-likelihood yang tidak menyatakan struktur peluang tertentu tetapi
2
hanya mengenai fungsi ragam. Dunn & Smith (2005) menjelaskan sebaran
Tweedie adalah sebaran keluarga dua parameter dari keluarga eksponensial linier
dengan penambahan parameter dispersi.
Pendugaan tidak langsung berbasis model adalah mengabungkan
Pendugaan tidak langsung menghasilkan nilai yang tertuju pada garis dugaannya
sehingga memungkinkan terjadi bias yang cukup besar. Pendekatan lain yang
digunakan dalam pendugaan area kecil adalah pendugaan komposit. Pendugaan
komposit adalah pendugaan yang dilakukan dengan memboboti penduga
langsung berbasis desain dan pendugaan tidak langsung berbasis model.
Pendugaan ini digunakan untuk menyeimbangkan bias dari penduga tak
langsung dengan ketidakstabilan dari penduga langsung yaitu dengan
memberikan rata-rata terboboti untuk kedua penduga tersebut. Bobot yang
digunakan adalah rasio ragam pengaruh acak terhadap total ragam pengaruh
acak dan ragam penarikan contoh. Namun, penduga komposit menghasilkan
nilai yang sama dengan penduga langsung jika ragam penarikan contoh per area
mendekati nol.
Desain dan ukuran contoh yang kecil pada SDKI menyebabkan
munculnya juga masalah lain yaitu ketika dilakukan pendugaan untuk area yang
tidak tersurvei (nircontoh). Salah satu pendekatan yang digunakan oleh Anisa
(2014) untuk menduga area nircontoh adalah dengan mengasumsikan bahwa
suatu area memiliki pola kedekatan hubungan dengan area lain. Pendekatan
yang digunakan untuk menganalisis pola hubungan antar area tersebut dengan
teknik pengerombolan (clustering).
Beberapa penelitian pendugaan jumlah kematian bayi dengan pendekatan
area kecil telah banyak dilakukan, seperti Yadav & Ladusingh (2013) di India
menduga angka kematian bayi dengan model sintetis, sedangkan Hajarisman
(2013) menghitung angka kematian bayi dengan pemodelan area kecil melalui
pendekatan model regresi Poisson Bayes berhirarki dua level. Pada penelitian ini
dilakukan pendugaan jumlah kematian bayi untuk kabupaten/kota di Provinsi
Jawa Barat dengan membandingkan pendugaan langsung, tidak langsung dan
komposit menggunakan data SDKI Provinsi Jawa Barat.
Tujuan Penelitian
Tujuan yang ingin dicapai pada penelitian ini adalah:
1. Membangun model pendugaan area kecil terbaik untuk menduga jumlah
kematian bayi tingkat kabupaten/kota di Provinsi Jawa Barat,
2. Membandingkan metode terbaik dalam mengatasi masalah dispersi dalam
pemodelan, dan
3. Menduga jumlah kematian bayi untuk area yang tidak tersurvei (nircontoh).
3
2 TINJAUAN PUSTAKA
Pendugaan Langsung (Direct Estimation)
Pendekatan klasik untuk menduga parameter suatu area didasarkan pada
desain penarikan contoh (design-based). Pendugaan tersebut disebut pendugaan
langsung (direct estimation). Metode pendugaan langsung menimbulkan dua
permasalahan penting. Pertama, penduga yang dihasilkan merupakan penduga tak
bias tetapi memiliki galat baku yang besar karena diperoleh dari ukuran contoh
yang kecil. Kedua, apabila pada suatu area kecil ke-i tidak terwakili di dalam
survei, maka tidak memungkinkan dilakukan pendugaan secara langsung (Kurnia
2009).
Penelitian ini menduga jumlah kematian bayi pada tingkat
Kabupaten/Kota di Jawa Barat menggunakan data SDKI 2012. Berdasarkan BPS
(2012), metode penarikan contoh yang digunakan pada SDKI 2012 dengan
metode penarikan contoh tiga tahap. Tahap 1, memilih sejumlah primary
sampling unit (PSU) dari kerangka contoh PSU secara probability proportional to
size (PPS). Tahap 2, memilih blok sensus secara secara PPS. Dan tahap 3,
memilih jumlah rumah tangga di setiap blok sensus secara sistematik. Teknik
penarikan contoh survei tersebut sangat kompleks sehingga pendugaan total dan
ragam menjadi sulit.
Metode pendugaan yang digunakan pada penelitian ini adalah metode
linierisasi Taylor (Lee & Forthofer 2006). Linierisasi Taylor didesain untuk
memperoleh hampiran nilai dan fungsi yang sulit dihitung. Bentuk dari deret
Taylor adalah sebagai berikut:
′ �
′′
−
= [�
+
− [�
] +
] = { ′ [�
]} �
−
+
] + ′[�
]
+
′′′
−
+⋯
!
!
Linierisasi Taylor banyak digunakan untuk memperoleh hampiran
beberapa fungsi nonlinier dan ragam dari fungsi tersebut. Dalam aplikasi
statistika, pendugaan dengan metode linierisasi Taylor dievaluasi dari nilai rataan
atau nilai harapan.
=
]
′′[�
!
−[�
] = �[
]−� [
Berdasarkan definisi ragam �[
digabungkan dengan persamaan (1), maka dapat diperoleh:
�[
+⋯
]
+⋯
(1)
] , dan apabila
Dalam kasus fungsi dua peubah, nilai ragam linierisasi Taylor adalah
�[
,
�
]≅
�
�
�
� �
,
(2)
Berdasarkan persamaan (2), Jika terdapat ni peubah acak, maka pendekatan ragam
dari � =
, ,…,
maka,
�[�] ≅ ∑ ∑
�
�
(
�
�
)� �
,
(3)
4
Jika persamaan (3) diaplikasikan dengan bobot penduga maka dihasilkan penduga
metode Taylor sebagai berikut:
̂� = ∑
� =�
=
, = , ,…,
Pendugaan ragam bagi penduga total area ke-i didefinisikan sebagai berikut:
Pada penelitian ini,
rumah tangga ke-j dan
�[� ] ≅ � [∑
∑
]
adalah total bobot wanita usia subur pada area ke – i
= jumlah kematian bayi area ke – i rumah tangga ke – j.
Pendugaan Tidak Langsung (Indirect Estimation)
Kurnia (2009) dan Sadik (2009) menjelaskan ukuran contoh pada area
terkadang berukuran kecil sehingga pendugaan langsung menghasilkan galat baku
yang besar. Rao (2003) telah banyak mengembangkan suatu metode pendugaan
tidak langsung (indirect estimation). Pendugaan tidak langsung digunakan untuk
meningkatkan keefektifan ukuran contoh dan menurunkan keragaman sehingga
lebih akurat. Penduga tak langsung “meminjam informasi” dengan menggunakan
nilai peubah dari contoh pada area lain yang diamati. Sadik (2009) menjelaskan
salah satu model yang digunakan dalam pendugaan tidak langsung
mengasumsikan bahwa keragaman didalam area kecil peubah respon dapat
diterangkan oleh hubungan keragaman yang bersesuaian pada informasi penyerta
(auxiliary) yang berupa pengaruh tetap, sedangkan keragaman specifik area kecil
diasumsikan dapat diterangkan oleh informasi tambahan yang berupa pengaruh
acak area. Model pendugaan area kecil terdiri dari model level area (Tipe-A) dan
model level unit (Tipe-B).
a. Model level area (Tipe-A)
Model level area digunakan ketika informasi peubah penyerta pada level satuan
tidak diketahui sehingga diasumsikan � = �̅ atau � = ∑ � untuk g(.)
tertentu berhubungan dengan peubah penyerta pada area, yaitu ′ =
, … , � ′, dengan model liniernya : � = ′ + � , i = 1, …, m, dengan
� ~� , �� merupakan peubah acak pada area ke-i. Penduga langsung �̅̂
diasumsikan diketahui untuk menarik kesimpulan tentang nilai tengah area
kecil �̅ , yaitu : �̂ = �̅ = � + , i = 1, …, m, dengan adalah galat
penarikan contoh yang menyebar normal ~� , � dan �� diketahui. Kedua
model tersebut digabungkan sehingga diperoleh model deterministik pada �
sebagai berikut:
�̂ =
�̅ =
′
+ � +
, i = 1, …, m.
Pada pendugaan area kecil terdapat unit yang terambil (contoh) dan unit yang
tidak terambil (nircontoh), sehingga model dapat diuraikan menjadi:
y
e
X
�
= [y ∗ ] = [ ∗ ] + � [ ∗ ] + [e∗ ]
X
5
b. Model level unit (Tipe-B)
Model level unit digunakan jika data peubah penyerta untuk setiap unit
diketahu ′ =
, … , � ′. Peubah yang diamati
berhubungan dengan
peubah penyerta
melalui model regresi galat tersarang sebagai berikut:
′
+ � + , i = 1, …, m, j=1, …, Ni
= �̅ =
Dispersi
Dispersi adalah ukuran penyebaran suatu kelompok data terhadap nilai
tengah datanya. Sebaran Poisson memiliki asumsi nilai rataan sama dengan nilai
ragam yang disebut equdispersi. Namun, kondisi yang sering terjadi adalah nilai
ragam lebih besar dari rataan disebut overdispersi atau sebaliknya yang disebut
underdispersi. Berdasarkan data, overdispersi dikatakan terjadi ketika ragam
amatan lebih besar dari ragam secara teori dalam asumsi sebaran Poisson (Stroup
2013). Ketidak terpenuhinya asumsi Poisson memiliki kemiripan konsekuensi
dengan ketidak terpenuhinya asumsi homoskedastisitas pada model linier
regresi. Cameron & Trivadi (1998) dan Stroup (2013) menyatakan jika
overdispersi terjadi menyebabkan nilai dugaan galat baku yang lebih kecil
(underestimate) dan meningkatkan kesalahan jenis I, sehingga memberikan
kesimpulan yang keliru.
Beberapa penyebab yang menimbulkan overdispersi adalah ekstra
keragaman di dalam peubah acak yang melebihi ragam peubah acak Poisson dan
adanya pencilan pada data. Pada model campuran linier terampat, suatu kejadian
Y yang mengikuti Poisson tetapi vektor acak v mengikuti suatu sebaran tertentu
maka sebaran marginalnya menunjukkan perilaku overdispersi. Hinde & Demetrio
(1998) menjelaskan penyebab lain terjadinya overdispersi adalah adamya
keheterogenan antara amatan, korelasi antara respon amatan, dan teknik penarikan
contohnya dengan gerombol.
Ada beberapa cara yang dapat digunakan untuk mendeteksi overdispersi
yaitu nilai devians (deviance) dibagi dengan derajat bebasnya. Jika diperoleh nilai
lebih besar dari 1 maka menandakan adanya overdispersi, sedangkan jika nilai
lebih kecil dari 1 maka menandakan adanya underdispersi. Stroup (2013)
menjelaskan cara untuk mendeteksi overdispersi/underdispersi dapat dilihat plot
sisaan baku, pearson dan studentized terhadap dugaan prediksi rata-rata.
Kesimpulannya, dua diagnostik overdispersi yang dapat digunakan adalah plot
sisaan dan nilai rasio khi-kuadrat dengan derajat bebas. McCullagh & Nelder
(1989) dan Ver Hoef & Boveng (2007) menjelaskan cara yang umum digunakan
untuk menangani overdispersi sebaran Poisson menggunakan pendekatan quasilikelihood atau model binomial negatif.
Quasi-Likelihood
Sebaran data terkadang tidak jelas menyebabkan masalah pemodelan
sehingga fungsi likelihood tidak selalu bisa diperoleh. Pendekatan yang dapat
digunakan untuk mengatasi ketidakjelasan sebaran adalah melalui pendekatan
quasi-likelihood. Quasi-likelihood merupakan suatu framework dalam pemodelan
statistika yang didasari oleh pendekatan terhadap model fungsi likelihood. Model
dasar quasi-likelihood pertama kali dikembangkan oleh Wedderburn (1974).
6
Pendekatan quasi-likelihood mempunyai sifat-sifat yang penting
(Hajarisman 2010) yaitu
1. Berbeda dengan pendekatan fungsi likelihood biasa, dalam fungsi quasilikelihood tidak menentukan struktur peluang tertentu, tetapi hanya
memerlukan asumsi mengenai dua buah momen pertama. Hal ini dapat
disimpulkan bahwa fungsi quasi-likelihood mempunyai fleksibiltas tinggi.
2. Pemodelan terbatas, sehingga berbagai kemungkinan kesimpulan juga terbatas.
Pengujian dan selang kepercayaan mengandalkan pendugaan asimtotik.
McCullagh dan Nelder (1989) serta Pawitan (2001) menjelaskan mengenai
konsep quasi-likelihood, dengan fungsinya sebagai berikut:
∑
=
�
� �
−
� −�
=
dan �[� ] = �� � dengan � adalah parameter
dengan asumsi �[� ] = �
dispersi. Jika � > menunjukkan overdispersi pada model poisson. Quasilikelihood dianggap mampu mengatasi masalah overdispersi maupun
underdispersi, jika fungsi ragam yang diperoleh mampu mengambarkan ragam
datanya.
Sebaran Tweedie
Model eksponensial dispersi (exponential dispersion model, EDM) adalah
sebaran keluarga dua parameter dari keluarga eksponensial linier dengan
penambahan parameter dispersi (Jorgensen 1992; Dunn & Smyth 2005; Zhang
2013), dengan fungsi peluang sebagai berikut:
�−� �
|�, � =
)
, � exp (
�
dengan
dan � adalah fungsi yang diketahui, � adalah parameter natural,
dan � adalah parameter dispersi. Jika y mengikuti sebaran EDM maka �
=
� = �′ � , dan � �
= ��′′ � (McCullagh & Nelder 1989). Jika dilakukan
pemetaan dari � ke � satu ke satu, �′′ � dapat direpresentasikan sebagai fungsi
dari � menunjukkan � � . � � biasanya disebut sebagai fungsi ragam.
Beberapa EDM dapat dikarakteristikkan oleh fungsi ragam yang
mengambarkan hubungan rataan dan ragam dari sebaran ketika dispersi dianggap
konstan. Bentuk khusus dari EDM dengan kekuatan hubungan rataan dan ragam
�
= � � ) dengan nilai p indeks kekuatan fungsi ragam disebut dengan model
Tweedie. Model Tweedie memuat beberapa sebaran yang penting seperti normal
(p=0), Poisson (p=1), gamma (p=2), dan inverse Gaussian (p=3). Penelitian ini
menggunakan model eksponensial dispersi dengan nilai indeks kekuatan p berada
pada selang 1 sampai 2 �
= � � , 1
JUMLAH KEMATIAN BAYI DI JAWA BARAT
ARIE ANGGREYANI
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa tesis berjudul Kajian Pendugaan Area
Kecil untuk Menduga Jumlah Kematian Bayi di Jawa Barat adalah benar karya
saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk
apapun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau
dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor,
Februari 2016
Arie Anggreyani
NIM G151130371
RINGKASAN
ARIE ANGGREYANI. Kajian Pendugaan Area Kecil untuk Menduga Jumlah
Kematian Bayi di Jawa Barat. Dibimbing oleh INDAHWATI dan ANANG
KURNIA.
Survei Demografi dan Kesehatan Indonesia (SDKI) menyediakan sebagian
besar informasi kesehatan di Indonesia. SDKI dilaksanakan setiap lima tahun
sekali sejak tahun 1994. Pendugaan berdasarkan data SDKI hanya dilakukan
untuk skala nasional atau provinsi sedangkan untuk level kabupaten, kecamatan
dan kelurahan/desa masih kurang memadai. Metode pendugaan yang biasa
digunakan adalah metode pendugaan langsung. Namun, pendugaan ini
menghasilkan galat baku penduga besar. Hal ini disebabkan karena teknik
pengambilan contoh yang kompleks dan ukuran contoh yang relatif kecil. Metode
yang digunakan untuk mengatasi ketidakstabilan pendugaan langsung adalah
pendugaan tidak langsung. Beberapa pendugaan tidak langsung adalah pendugaan
tidak langsung berdasarkan model campuran dan pendugaan komposit. Pendugaan
dengan model campuran adalah memodelkan dengan mengabungkan pengaruh
dan pengaruh tetap sedangkan pendugaan komposit adalah pendugaan yang
dilakukan dengan memboboti penduga berdasarkan desain dan model.
Peubah jumlah kejadian yang memiliki peluang yang sangat kecil biasanya
diasumsikan memiliki sebaran Poisson. Sebaran Poisson memiliki asumsi
equidispersi yaitu nilai harapan sama dengan ragam. Berdasarkan kondisi data,
jika ragam amatan lebih besar daripada ragam sebarannya mengindikasikan
adanya overdispersi dan sebaliknya disebut underdispersi. Beberapa metode untuk
menangani overdispersi adalah dengan sebaran binomial negatif, pendekatan
quasi-likelihood dan sebaran Tweedie.
Pada SDKI, terdapat beberapa area yang tidak tersurvei atau disebut
nircontoh. Padahal, area nircontoh sangat penting untuk diduga. Sehingga
diperlukan pendekatan untuk menduga area yang tidak tersurvei. Salah satu
pendekatan yang digunakan adalah mengasumsikan bahwa suatu area memiliki
pola kedekatan hubungan dengan area lain. Pendekatan yang digunakan untuk
menganalisis pola hubungan antar area tersebut adalah dengan teknik
pengerombolan (clustering).
Pada penelitian ini dilakukan pendugaan jumlah kematian bayi untuk
kabupaten/kota di Provinsi Jawa Barat dengan membandingkan pendugaan
langsung dan tidak langsung menggunakan data SDKI Provinsi Jawa Barat.
Provinsi Jawa Barat terdiri dari 26 kabupaten/kota, dan diantaranya ada dua area
yang tidak tersurvei yaitu Kota Banjar dan Kota Sukabumi. Hasil analisis pada
kasus kematian bayi di Provinsi Jawa Barat diketahui terdapat masalah
underdispersi pada model linier campuran Poisson. Berdasarkan plot sisaan dan
rasio generalized chi-square dengan derajat bebasnya diketahui model linier
campuran pendekatan quasi-likelihood dan sebaran Tweedie dapat mengatasi
masalah dispersi. Pendugaan model terbaik adalah model linier campuran
pendekatan quasi-likelihood pada pendugaan komposit dilihat dari nilai MAPE,
MSD dan MAD yang paling kecil.
Kata kunci: GLMM, Kematian Bayi , Quasi-likelihood, SAE, Tweedie.
SUMMARY
ARIE ANGGREYANI. The Study of Small Area Estimation for Estimating the
Number of Infant Mortality in West Java, Indonesia. Supervised by INDAHWATI
and ANANG KURNIA.
The Indonesian Demographic and Health Survey (IDHS) provides data
related to the health subject. IDHS conducts every five years since 1994. The
estimation of IDHS data only performs for a national or a provincial scale but not
for a district, a sub-district and a village level. Estimation method for a district,
subdistrict or village is usually done with the direct estimation. However, the
drawback of the direct estimation is standard error estimation will be large. The
reason is because the sampling technique is quite complex and the sample size is
relatively small. A method to overcome the drawbacks of the direct estimation is a
indirect estimation based prediction models of small area estimation (SAE). The
two methods in indirect estimation are mixed model and composites estimation.
The mixed model is model that contain both fixed and random effects while the
composite estimation is an estimation in which combination design based and
model based.
The number of occurences variable which has small probability is assumed
to have a Poisson distribution. In the Poisson distribution, the expected of mean is
equal to variance, namely is called equidispersion. In case, the variance of data is
greater than the theoretical variance of Poisson distribution is overdispersion,
otherwise it is called underdispersion. Some methods to deal with overdispersion
are negative binomial distribution, quasi-likelihood approach and Tweedie
distribution.
In IDHS, there are some area not as samples and they are needed to estimate.
Those areas are assumed having a close relationship with other areas based on
certain variables. One approach to cluster the areas based on the pattern of the
relationship is a cluster analysis.
The goal of this study is comparing the direct and indirect estimation of the
number of infant deaths for the districts/cities in West Java province. In total,
there are 26 districts/cities; 24 districs/cities were surveyed and 2 cities were not
surveyed. The two cities were Banjar city and Sukabumi city. The analysis of
cases of infant mortality in West Java Province was known having problems of
underdispersion on Poisson linear mixed model. Based on the residual plot and
generalized chi-square, quasi-likelihood approach and Tweedie distribution can
overcome the problem of dispersion. The best estimation method is based on
quasi-likelihood approach. It can be seen from the smallest value of MAPE, MAD,
and MAD.
Keywords: GLMM, Infant Mortality, Quasi-likelihood, SAE, Tweedie.
© Hak Cipta Milik IPB, Tahun 2016
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apapun tanpa izin IPB
KAJIAN PENDUGAAN AREA KECIL UNTUK MENDUGA
JUMLAH KEMATIAN BAYI DI JAWA BARAT
ARIE ANGGREYANI
Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
pada
Program Studi Statistika
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016
Penguji Luar Komisi pada Ujian Tesis: Dr Kusman Sadik, SSi, MSi
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala
atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan.
Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Maret
2015 ini ialah pendugaan area kecil, dengan judul Kajian Pendugaan Area
Kecil untuk Menduga Jumlah Kematian Bayi di Jawa Barat.
Terima kasih penulis ucapkan kepada semua pihak yang telah turut
berperan serta dalam penyusunan karya ilmiah ini, terutama kepada :
1. Ibu Dr Ir Indahwati, MSi dan Bapak Dr Anang Kurnia, SSi, MSi selaku
pembimbing yang telah banyak memberi saran,
2. Bapak Dr. Kusman Sadik, SSi, MSi sebagai dosen penguji pada ujian
sidang tesis,
3. Penghargaan penulis sampaikan kepada seluruh staf dan jajaran
Pemerintah Kota Pagar Alam atas beasiswa yang telah diberikan,
4. Tim Hibah Penelitian Unggulan Sesuai Mandat dan Tim Bimbingan
Small Area Estimation (SAE) atas bantuan biaya penelitian dan segala
kerjasamanya.
5. Keluarga Besar Program Studi Statistika Sekolah Pascasarjana IPB
yang telah banyak membantu baik secara moril maupun nonmoril,
6. Badan Pusat Statistik (BPS) atas segala informasi yang telah diberikan,
7. Ungkapan terima kasih juga disampaikan kepada mama, papa, serta
seluruh keluarga, atas segala doa dan kasih sayangnya.
8. Serta berbagai pihak lain yang tidak dapat penulis sebutkan seluruhnya
satu persatu.
Semoga semua bantuan yang diberikan kepada penulis mendapatkan
balasan dari Allah SWT. Penulis juga menyadari bahwa tesis ini masih jauh
dari kesempurnaan. Namun demikian, penulis berharap semoga karya ilmiah
ini dapat bermanfaat bagi semua pihak yang membutuhkan. Aamiin.
Bogor,
Februari 2016
Arie Anggreyani
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
1 PENDAHULUAN
Latar Belakang
Tujuan Penelitian
1
1
2
2 TINJAUAN PUSTAKA
Pendugaan Langsung (Direct Estimation)
Pendugaan Tidak Langsung (Indirect Estimation)
Dispersi
Quasi-Likelihood
Sebaran Tweedie
Generalized Linear Mixed Model (GLMM)
Empirical Best Prediction (EBP)
3
3
4
5
5
6
7
9
3 METODE
Data
Prosedur Analisis Data
10
10
10
4 HASIL DAN PEMBAHASAN
Penduga Langsung
Uji Korelasi antar Peubah Penyerta
Mendeteksi Masalah Dispersi
Penduga Tidak Langsung
Ukuran Kebaikan Model
Pendugaan Nircontoh
13
13
14
14
16
18
19
5 SIMPULAN DAN SARAN
Simpulan
Saran
21
21
21
DAFTAR PUSTAKA
22
LAMPIRAN
23
RIWAYAT HIDUP
28
DAFTAR TABEL
1
2
3
4
5
Peubah respon dan peubah penjelas
Penduga langsung jumlah kematian bayi di Provinsi Jawa Barat
Hasil uji korelasi antar peubah penyerta
Ukuran kesesuaian pendugaan tidak langsung
Ukuran kebaikan dari pendugaan titik berdasarkan dugaan
langsung, dugaan berdasarkan model campuran, model komposit
dengan modifikasi, dan model komposit dengan modifikasi
6 Penggerombolan kabupaten/kota di Provinsi Jawa Barat
7 Prediksi tingkat kematian bayi per 1000 jiwa untuk area contoh
dan nircontoh
10
13
14
16
19
19
20
DAFTAR GAMBAR
1 Plot sisaan terhadap nilai prediksi (a) model-1, (b) model-2, (c)
model-3, dan (d) model-4
2 Hasil prediksi terhadap nilai respon aktual dengan nilai dugaan
tidak langsung model-1, model-2, model-3, dan model-4
3 Hasil prediksi komposit tanpa modifikasi model-1, model-2,
model-3, dan model-4
4 Hasil prediksi komposit dengan modifikasi model-1, model-2,
model-3, dan model-4
15
16
17
18
DAFTAR LAMPIRAN
1 Nilai komponen utama
2 Nilai dugaan langsung, dugaan berdasarkan model campuran, dan
dugaan komposit dengan modifikasi
3 Dendogram analisis gerombol kota dan kabupaten di Provinsi
Jawa Barat
25
26
27
1
1 PENDAHULUAN
Latar Belakang
Informasi kesehatan merupakan salah satu indikator untuk mengukur
tingkat pembangunan dan kualitas hidup di suatu wilayah atau negara. Survei
Demografi dan Kesehatan Indonesia (SDKI) menyediakan sebagian besar
informasi kesehatan. SDKI dilakukan setiap lima tahun sekali sejak tahun 1994.
Berdasarkan data SDKI, pendugaan yang dilakukan masih berskala nasional atau
provinsi namun dengan adanya sistem desentralisasi diperlukan prediksi untuk
area yang lebih kecil seperti level kabupaten, kecamatan maupun kelurahan/desa.
Pendugaan untuk level kabupaten, kecamatan maupun kelurahan/desa terkadang
masih sulit dilakukan karena memiliki ukuran contoh yang relatif kecil atau
terdapat area yang tidak tersurvei. Sadik (2009) dan Kurnia (2009) telah
mengaplikasikan suatu metode pendugaan untuk mengatasi hal tersebut yang
dikenal dengan metode pendugaan area kecil (small area estimation, SAE).
SDKI didesain berdasarkan teknik penarikan contoh yang kompleks.
Pendugaan yang biasa digunakan adalah model desain penarikan contoh (designbased) disebut juga pendugaan langsung (direct estimation). Namun, metode
pendugaan langsung memiliki galat baku penduganya besar dan tidak dapat
dilakukan jika nilai responnya bernilai nol. Untuk menangani masalah tersebut,
Rao (2003) telah banyak mengembangkan penelitian pendugaan area kecil
dengan meminjam kekuatan pada daerah sekitar untuk menghasilkan presisi
yang lebih baik. Peminjaman kekuatan dalam pendugaan area kecil dapat
diperoleh dari area yang berdekatan menurut ruang, waktu atau melalui
informasi tambahan yang diperkirakan berkorelasi dengan peubah yang diamati
(Hajarisman 2013). Pendugaan tersebut biasa disebut pendugaan tidak langsung
(indirect estimation). Sadik (2009) menjelaskan bahwa dalam pendugaan tidak
langsung mengasumsikan bahwa keragaman didalam area kecil peubah respon
dapat diterangkan oleh hubungan keragaman yang bersesuaian pada informasi
penyerta (auxiliary) yang berupa pengaruh tetap, sedangkan keragaman specifik
area kecil diasumsikan dapat diterangkan oleh informasi tambahan yang berupa
pengaruh acak area.
Peubah jumlah kejadian dengan peluang kejadian sangat kecil biasanya
diasumsikan menyebar Poisson. Sebaran Poisson memiliki asumsi equidispersi
yaitu nilai harapan sama dengan ragam. Jika ragam lebih besar dari rata-rata
mengindikasikan adanya overdispersi dan sebaliknya disebut underdispersi.
Overdispersi/underdispersi disebabkan oleh beberapa kemungkinan seperti
adanya pencilan, korelasi antar amatan dalam peubah respon, dan kesalahan
pendefinisian sebaran. Cameron & Trivadi (1998) dan Stroup (2013) menyatakan
jika overdispersi terjadi menyebabkan nilai dugaan galat baku yang lebih kecil
(underestimate) dan meningkatnya kesalahan jenis I. Beberapa metode untuk
menangani overdispersi adalah dengan model binomial negatif, pendekatan
quasi-likelihood dan sebaran Tweedie. Sebaran binomial negatif memuat suatu
parameter dispersi sehingga memiliki nilai ragam lebih besar dari sebaran
Poisson (Hadi & Notodiputro 2009). Weddenburn (1974) memperkenalkan
fungsi quasi-likelihood yang tidak menyatakan struktur peluang tertentu tetapi
2
hanya mengenai fungsi ragam. Dunn & Smith (2005) menjelaskan sebaran
Tweedie adalah sebaran keluarga dua parameter dari keluarga eksponensial linier
dengan penambahan parameter dispersi.
Pendugaan tidak langsung berbasis model adalah mengabungkan
Pendugaan tidak langsung menghasilkan nilai yang tertuju pada garis dugaannya
sehingga memungkinkan terjadi bias yang cukup besar. Pendekatan lain yang
digunakan dalam pendugaan area kecil adalah pendugaan komposit. Pendugaan
komposit adalah pendugaan yang dilakukan dengan memboboti penduga
langsung berbasis desain dan pendugaan tidak langsung berbasis model.
Pendugaan ini digunakan untuk menyeimbangkan bias dari penduga tak
langsung dengan ketidakstabilan dari penduga langsung yaitu dengan
memberikan rata-rata terboboti untuk kedua penduga tersebut. Bobot yang
digunakan adalah rasio ragam pengaruh acak terhadap total ragam pengaruh
acak dan ragam penarikan contoh. Namun, penduga komposit menghasilkan
nilai yang sama dengan penduga langsung jika ragam penarikan contoh per area
mendekati nol.
Desain dan ukuran contoh yang kecil pada SDKI menyebabkan
munculnya juga masalah lain yaitu ketika dilakukan pendugaan untuk area yang
tidak tersurvei (nircontoh). Salah satu pendekatan yang digunakan oleh Anisa
(2014) untuk menduga area nircontoh adalah dengan mengasumsikan bahwa
suatu area memiliki pola kedekatan hubungan dengan area lain. Pendekatan
yang digunakan untuk menganalisis pola hubungan antar area tersebut dengan
teknik pengerombolan (clustering).
Beberapa penelitian pendugaan jumlah kematian bayi dengan pendekatan
area kecil telah banyak dilakukan, seperti Yadav & Ladusingh (2013) di India
menduga angka kematian bayi dengan model sintetis, sedangkan Hajarisman
(2013) menghitung angka kematian bayi dengan pemodelan area kecil melalui
pendekatan model regresi Poisson Bayes berhirarki dua level. Pada penelitian ini
dilakukan pendugaan jumlah kematian bayi untuk kabupaten/kota di Provinsi
Jawa Barat dengan membandingkan pendugaan langsung, tidak langsung dan
komposit menggunakan data SDKI Provinsi Jawa Barat.
Tujuan Penelitian
Tujuan yang ingin dicapai pada penelitian ini adalah:
1. Membangun model pendugaan area kecil terbaik untuk menduga jumlah
kematian bayi tingkat kabupaten/kota di Provinsi Jawa Barat,
2. Membandingkan metode terbaik dalam mengatasi masalah dispersi dalam
pemodelan, dan
3. Menduga jumlah kematian bayi untuk area yang tidak tersurvei (nircontoh).
3
2 TINJAUAN PUSTAKA
Pendugaan Langsung (Direct Estimation)
Pendekatan klasik untuk menduga parameter suatu area didasarkan pada
desain penarikan contoh (design-based). Pendugaan tersebut disebut pendugaan
langsung (direct estimation). Metode pendugaan langsung menimbulkan dua
permasalahan penting. Pertama, penduga yang dihasilkan merupakan penduga tak
bias tetapi memiliki galat baku yang besar karena diperoleh dari ukuran contoh
yang kecil. Kedua, apabila pada suatu area kecil ke-i tidak terwakili di dalam
survei, maka tidak memungkinkan dilakukan pendugaan secara langsung (Kurnia
2009).
Penelitian ini menduga jumlah kematian bayi pada tingkat
Kabupaten/Kota di Jawa Barat menggunakan data SDKI 2012. Berdasarkan BPS
(2012), metode penarikan contoh yang digunakan pada SDKI 2012 dengan
metode penarikan contoh tiga tahap. Tahap 1, memilih sejumlah primary
sampling unit (PSU) dari kerangka contoh PSU secara probability proportional to
size (PPS). Tahap 2, memilih blok sensus secara secara PPS. Dan tahap 3,
memilih jumlah rumah tangga di setiap blok sensus secara sistematik. Teknik
penarikan contoh survei tersebut sangat kompleks sehingga pendugaan total dan
ragam menjadi sulit.
Metode pendugaan yang digunakan pada penelitian ini adalah metode
linierisasi Taylor (Lee & Forthofer 2006). Linierisasi Taylor didesain untuk
memperoleh hampiran nilai dan fungsi yang sulit dihitung. Bentuk dari deret
Taylor adalah sebagai berikut:
′ �
′′
−
= [�
+
− [�
] +
] = { ′ [�
]} �
−
+
] + ′[�
]
+
′′′
−
+⋯
!
!
Linierisasi Taylor banyak digunakan untuk memperoleh hampiran
beberapa fungsi nonlinier dan ragam dari fungsi tersebut. Dalam aplikasi
statistika, pendugaan dengan metode linierisasi Taylor dievaluasi dari nilai rataan
atau nilai harapan.
=
]
′′[�
!
−[�
] = �[
]−� [
Berdasarkan definisi ragam �[
digabungkan dengan persamaan (1), maka dapat diperoleh:
�[
+⋯
]
+⋯
(1)
] , dan apabila
Dalam kasus fungsi dua peubah, nilai ragam linierisasi Taylor adalah
�[
,
�
]≅
�
�
�
� �
,
(2)
Berdasarkan persamaan (2), Jika terdapat ni peubah acak, maka pendekatan ragam
dari � =
, ,…,
maka,
�[�] ≅ ∑ ∑
�
�
(
�
�
)� �
,
(3)
4
Jika persamaan (3) diaplikasikan dengan bobot penduga maka dihasilkan penduga
metode Taylor sebagai berikut:
̂� = ∑
� =�
=
, = , ,…,
Pendugaan ragam bagi penduga total area ke-i didefinisikan sebagai berikut:
Pada penelitian ini,
rumah tangga ke-j dan
�[� ] ≅ � [∑
∑
]
adalah total bobot wanita usia subur pada area ke – i
= jumlah kematian bayi area ke – i rumah tangga ke – j.
Pendugaan Tidak Langsung (Indirect Estimation)
Kurnia (2009) dan Sadik (2009) menjelaskan ukuran contoh pada area
terkadang berukuran kecil sehingga pendugaan langsung menghasilkan galat baku
yang besar. Rao (2003) telah banyak mengembangkan suatu metode pendugaan
tidak langsung (indirect estimation). Pendugaan tidak langsung digunakan untuk
meningkatkan keefektifan ukuran contoh dan menurunkan keragaman sehingga
lebih akurat. Penduga tak langsung “meminjam informasi” dengan menggunakan
nilai peubah dari contoh pada area lain yang diamati. Sadik (2009) menjelaskan
salah satu model yang digunakan dalam pendugaan tidak langsung
mengasumsikan bahwa keragaman didalam area kecil peubah respon dapat
diterangkan oleh hubungan keragaman yang bersesuaian pada informasi penyerta
(auxiliary) yang berupa pengaruh tetap, sedangkan keragaman specifik area kecil
diasumsikan dapat diterangkan oleh informasi tambahan yang berupa pengaruh
acak area. Model pendugaan area kecil terdiri dari model level area (Tipe-A) dan
model level unit (Tipe-B).
a. Model level area (Tipe-A)
Model level area digunakan ketika informasi peubah penyerta pada level satuan
tidak diketahui sehingga diasumsikan � = �̅ atau � = ∑ � untuk g(.)
tertentu berhubungan dengan peubah penyerta pada area, yaitu ′ =
, … , � ′, dengan model liniernya : � = ′ + � , i = 1, …, m, dengan
� ~� , �� merupakan peubah acak pada area ke-i. Penduga langsung �̅̂
diasumsikan diketahui untuk menarik kesimpulan tentang nilai tengah area
kecil �̅ , yaitu : �̂ = �̅ = � + , i = 1, …, m, dengan adalah galat
penarikan contoh yang menyebar normal ~� , � dan �� diketahui. Kedua
model tersebut digabungkan sehingga diperoleh model deterministik pada �
sebagai berikut:
�̂ =
�̅ =
′
+ � +
, i = 1, …, m.
Pada pendugaan area kecil terdapat unit yang terambil (contoh) dan unit yang
tidak terambil (nircontoh), sehingga model dapat diuraikan menjadi:
y
e
X
�
= [y ∗ ] = [ ∗ ] + � [ ∗ ] + [e∗ ]
X
5
b. Model level unit (Tipe-B)
Model level unit digunakan jika data peubah penyerta untuk setiap unit
diketahu ′ =
, … , � ′. Peubah yang diamati
berhubungan dengan
peubah penyerta
melalui model regresi galat tersarang sebagai berikut:
′
+ � + , i = 1, …, m, j=1, …, Ni
= �̅ =
Dispersi
Dispersi adalah ukuran penyebaran suatu kelompok data terhadap nilai
tengah datanya. Sebaran Poisson memiliki asumsi nilai rataan sama dengan nilai
ragam yang disebut equdispersi. Namun, kondisi yang sering terjadi adalah nilai
ragam lebih besar dari rataan disebut overdispersi atau sebaliknya yang disebut
underdispersi. Berdasarkan data, overdispersi dikatakan terjadi ketika ragam
amatan lebih besar dari ragam secara teori dalam asumsi sebaran Poisson (Stroup
2013). Ketidak terpenuhinya asumsi Poisson memiliki kemiripan konsekuensi
dengan ketidak terpenuhinya asumsi homoskedastisitas pada model linier
regresi. Cameron & Trivadi (1998) dan Stroup (2013) menyatakan jika
overdispersi terjadi menyebabkan nilai dugaan galat baku yang lebih kecil
(underestimate) dan meningkatkan kesalahan jenis I, sehingga memberikan
kesimpulan yang keliru.
Beberapa penyebab yang menimbulkan overdispersi adalah ekstra
keragaman di dalam peubah acak yang melebihi ragam peubah acak Poisson dan
adanya pencilan pada data. Pada model campuran linier terampat, suatu kejadian
Y yang mengikuti Poisson tetapi vektor acak v mengikuti suatu sebaran tertentu
maka sebaran marginalnya menunjukkan perilaku overdispersi. Hinde & Demetrio
(1998) menjelaskan penyebab lain terjadinya overdispersi adalah adamya
keheterogenan antara amatan, korelasi antara respon amatan, dan teknik penarikan
contohnya dengan gerombol.
Ada beberapa cara yang dapat digunakan untuk mendeteksi overdispersi
yaitu nilai devians (deviance) dibagi dengan derajat bebasnya. Jika diperoleh nilai
lebih besar dari 1 maka menandakan adanya overdispersi, sedangkan jika nilai
lebih kecil dari 1 maka menandakan adanya underdispersi. Stroup (2013)
menjelaskan cara untuk mendeteksi overdispersi/underdispersi dapat dilihat plot
sisaan baku, pearson dan studentized terhadap dugaan prediksi rata-rata.
Kesimpulannya, dua diagnostik overdispersi yang dapat digunakan adalah plot
sisaan dan nilai rasio khi-kuadrat dengan derajat bebas. McCullagh & Nelder
(1989) dan Ver Hoef & Boveng (2007) menjelaskan cara yang umum digunakan
untuk menangani overdispersi sebaran Poisson menggunakan pendekatan quasilikelihood atau model binomial negatif.
Quasi-Likelihood
Sebaran data terkadang tidak jelas menyebabkan masalah pemodelan
sehingga fungsi likelihood tidak selalu bisa diperoleh. Pendekatan yang dapat
digunakan untuk mengatasi ketidakjelasan sebaran adalah melalui pendekatan
quasi-likelihood. Quasi-likelihood merupakan suatu framework dalam pemodelan
statistika yang didasari oleh pendekatan terhadap model fungsi likelihood. Model
dasar quasi-likelihood pertama kali dikembangkan oleh Wedderburn (1974).
6
Pendekatan quasi-likelihood mempunyai sifat-sifat yang penting
(Hajarisman 2010) yaitu
1. Berbeda dengan pendekatan fungsi likelihood biasa, dalam fungsi quasilikelihood tidak menentukan struktur peluang tertentu, tetapi hanya
memerlukan asumsi mengenai dua buah momen pertama. Hal ini dapat
disimpulkan bahwa fungsi quasi-likelihood mempunyai fleksibiltas tinggi.
2. Pemodelan terbatas, sehingga berbagai kemungkinan kesimpulan juga terbatas.
Pengujian dan selang kepercayaan mengandalkan pendugaan asimtotik.
McCullagh dan Nelder (1989) serta Pawitan (2001) menjelaskan mengenai
konsep quasi-likelihood, dengan fungsinya sebagai berikut:
∑
=
�
� �
−
� −�
=
dan �[� ] = �� � dengan � adalah parameter
dengan asumsi �[� ] = �
dispersi. Jika � > menunjukkan overdispersi pada model poisson. Quasilikelihood dianggap mampu mengatasi masalah overdispersi maupun
underdispersi, jika fungsi ragam yang diperoleh mampu mengambarkan ragam
datanya.
Sebaran Tweedie
Model eksponensial dispersi (exponential dispersion model, EDM) adalah
sebaran keluarga dua parameter dari keluarga eksponensial linier dengan
penambahan parameter dispersi (Jorgensen 1992; Dunn & Smyth 2005; Zhang
2013), dengan fungsi peluang sebagai berikut:
�−� �
|�, � =
)
, � exp (
�
dengan
dan � adalah fungsi yang diketahui, � adalah parameter natural,
dan � adalah parameter dispersi. Jika y mengikuti sebaran EDM maka �
=
� = �′ � , dan � �
= ��′′ � (McCullagh & Nelder 1989). Jika dilakukan
pemetaan dari � ke � satu ke satu, �′′ � dapat direpresentasikan sebagai fungsi
dari � menunjukkan � � . � � biasanya disebut sebagai fungsi ragam.
Beberapa EDM dapat dikarakteristikkan oleh fungsi ragam yang
mengambarkan hubungan rataan dan ragam dari sebaran ketika dispersi dianggap
konstan. Bentuk khusus dari EDM dengan kekuatan hubungan rataan dan ragam
�
= � � ) dengan nilai p indeks kekuatan fungsi ragam disebut dengan model
Tweedie. Model Tweedie memuat beberapa sebaran yang penting seperti normal
(p=0), Poisson (p=1), gamma (p=2), dan inverse Gaussian (p=3). Penelitian ini
menggunakan model eksponensial dispersi dengan nilai indeks kekuatan p berada
pada selang 1 sampai 2 �
= � � , 1