Study on the Effects of Cluster Information in Prediction of Non-sampled Area (A Case Study of per Capita Expenditures at Subdistrict Level in Regency and Municipality of Bogor).

KAJIAN PENGARUH PENAMBAHAN
INFORMASI GEROMBOL TERHADAP HASIL
PREDIKSI AREA NIRCONTOH
(Studi Kasus Pengeluaran per Kapita Kecamatan di Kota dan
Kabupaten Bogor)

RAHMA ANISA

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul Kajian Pengaruh
Penambahan Informasi Gerombol terhadap Hasil Prediksi Area Nircontoh (Studi
Kasus Pengeluaran per Kapita Kecamatan di Kota dan Kabupaten Bogor) adalah
benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan
dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang
berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari

penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di
bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Maret 2014
Rahma Anisa
NIM G151110011

RINGKASAN
RAHMA ANISA. Kajian Pengaruh Penambahan Informasi Gerombol terhadap
Hasil Prediksi Area Nircontoh (Studi Kasus Pengeluaran per Kapita Kecamatan di
Kota dan Kabupaten Bogor). Dibimbing oleh ANANG KURNIA dan
INDAHWATI.
Metode Prediksi Takbias Linear Terbaik Empirik atau Empirical Best
Linear Unbiased Prediction (EBLUP) telah banyak digunakan untuk memprediksi
parameter pada area dengan ukuran contoh yang kecil atau bahkan area nircontoh
(non-sample area). Permasalahan yang terjadi adalah ketika model ini digunakan
untuk memprediksi parameter area nircontoh. EBLUP baku memprediksi
parameter menggunakan model sintetik yang mengabaikan pengaruh acak area
karena kurangnya informasi pada area nircontoh. Akibatnya, seluruh nilai

penduga parameter yang dihasilkan untuk area nircontoh akan terdistorsi pada
satu garis model sintetik. Salah satu gagasan yang dikembangkan dalam penelitian
ini adalah dengan menganggap bahwa terdapat kemiripan karakteristik antar-area
tertentu. Hubungan antar-area tersebut dapat dianalisis dengan teknik
penggerombolan (clustering). Informasi dari hasil penggerombolan ini
ditambahkan ke dalam model untuk memodifikasi titik potong model prediksi
EBLUP baku atau memodifikasi baik titik potong maupun kemiringan model
EBLUP baku. Modifikasi ini dilakukan dengan menambahkan nilai tengah
penduga pengaruh acak dari area dan peubah penyerta (auxiliary variable) pada
setiap gerombol. Pada penelitian ini, kebaikan model yang diusulkan
dibandingkan dengan model EBLUP baku berdasarkan simulasi. Seluruh model
dievaluasi berdasarkan nilai Bias Relatif atau Relative Bias (RB) dan Akar
Kuadrat Tengah Galat Relatif atau Relative Root Mean Squares Error (RRMSE).
Hasil simulasi menunjukkan bahwa penambahan informasi gerombol dapat
meningkatkan kebaikan model dalam memprediksi parameter pada area nircontoh.
Pendugaan ragam pada model linier campuran EBLUP umumnya
menggunakan pendekatan Kemungkinan Maksimum Terbatas atau Restricted
Maximum Likelihood (REML) yang memerlukan asumsi kenormalan. Pelanggaran
asumsi ini banyak ditemukan pada kasus-kasus terapan. Skenario yang berbeda,
yaitu salah satu atau seluruh komponen acak tidak berasal dari sebaran normal,

ditambahkan kedalam simulasi untuk mengkaji kebaikan model yang diusulkan
pada kondisi tersebut. Hasilnya menunjukkan bahwa pada kondisi tersebut, model
yang diusulkan mampu memprediksi dengan nilai RB dan RRMSE yang lebih
kecil dibandingkan dengan EBLUP baku, terutama pada area nircontoh.
Data SUSENAS 2010 dan PODES 2011 digunakan sebagai studi kasus
untuk memprediksi rata-rata pengeluaran per kapita kecamatan di kota dan
kabupaten Bogor. Penerapan model modifikasi EBLUP menghasilkan nilai
prediksi yang berbeda, namun terlihat adanya kemiripan pola. Penggerombolan
memegang peranan penting dalam menerapkan model yang diusulkan pada studi
kasus. Pola penggerombolan yang cenderung tidak linier terhadap peubah respon
dapat menyebabkan prediksi kecamatan nircontoh yang dihasilkan model yang
diusulkan menjadi tidak lebih baik dibandingkan model EBLUP baku. Namun
demikian, masih terdapat model dengan penambahan informasi gerombol yang

menunjukkan kemampuan yang lebih baik dibandingkan dengan EBLUP baku
dalam memprediksi nilai tengah kecamatan nircontoh.
Kata kunci: Analisis Gerombol, EBLUP, Model Campuran Linier

SUMMARY
RAHMA ANISA. Study on the Effects of Cluster Information in Prediction of

Non-sampled Area (A Case Study of per Capita Expenditures at Subdistrict Level
in Regency and Municipality of Bogor). Supervised by ANANG KURNIA and
INDAHWATI.
Empirical Best Linear Unbiased Predictor (EBLUP) has been widely used to
predict parameters in area with small or even zero sample size, known as nonsampled area. It has been noted that there is a problem when this model will be
used to predict the parameters of non-sampled area. Usually EBLUP is used to
predict the parameters using a synthetic model ignoring the area random effects
due to lack of non-sampled area information. Hence, this prediction will be
distorted based on a single line of the synthetic model. The idea developed in this
thesis is to modify the prediction model by adding cluster information assuming
that there are similiarities among particular areas. These information have been
incorporated into the model to modify the intercept of prediction models as well
as both intercept and slope of the prediction model. In this paper, a simulation is
carried out to study the performance of the proposed models compared with
ordinary EBLUP. All models were evaluated based on the value of Relative Bias
(RB) and Relative Root Mean Squares Error (RRMSE). It was shown, by mean of
simulation, that the addition of cluster information has improved the ability of the
model to predict non-sampled areas.
Restricted Maximum Likelihood (REML), a common method for estimating
variance component in EBLUP models, requires normality assumption. But the

conditions in which the area random effects or sampling error are not normally
distributed may encountered in many applications. Therefore we also used
different scenarios, such as either one of random component was not normally
distributed or both of area random effects and sampling error area were not
normally distributed, to study the performance of the proposed models when the
area random effects or auxiliary variables are not normally distributed. The result
showed that under these conditions, the proposed models has been able to
estimate the parameter with smaller Relative Bias (RB) and Relative Root Mean
Squares Error (RRMSE) than ordinary EBLUP, especially in non-sampled areas.
It was shown that all models could be used to predict average per capita
expenditures per month at subdistrict level in regency and municipality in Bogor.
The analysis was based on SUSENAS 2010 and PODES 2011 data sets. Even
though the resulting predictions of the models were different, similar pattern
among them has been observed. Clustering technique played an important role in
implementing the proposed model in the case study. Clustering pattern which tend
not to be linearly correlated with response variable can lead to the result that
proposed model was not better than standard EBLUP model. However, there were
some proposed models that showed a better accuracy than the standard EBLUP
prediction of non-sampled subdistrict parameter.
Keywords: EBLUP, Clustering, Linear Mixed Models


© Hak Cipta Milik IPB, Tahun 2014
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB

KAJIAN PENGARUH PENAMBAHAN
INFORMASI GEROMBOL TERHADAP HASIL
PREDIKSI AREA NIRCONTOH
(Studi Kasus Pengeluaran per Kapita Kecamatan di Kota dan
Kabupaten Bogor)

RAHMA ANISA

Tesis

sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
pada
Program Studi Statistika

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2014

Penguji pada Ujian Sidang: Prof. Dr. Ir. Khairil Anwar Notodiputro, MS

Judul Tesis : Kajian Pengaruh Penambahan Informasi Gerombol terhadap Hasil
Prediksi Area Nircontoh (Studi Kasus Pengeluaran per Kapita
Kecamatan di Kota dan Kabupaten Bogor)
Nama
: Rahma Anisa
NIM
: G151110011


Disetujui oleh
Komisi Pembimbing

Dr. Anang Kurnia
Ketua

Dr. Ir. Indahwati, MSi
Anggota

Diketahui oleh

Ketua Program Studi
Magister Statistika

Dekan Sekolah Pascasarjana

Dr. Ir. Anik Djuraidah, MS

Dr. Ir. Dahrul Syah, MSc.Agr.


Tanggal Ujian: 21 Januari 2014

Tanggal Lulus:

JuduJ Tesis : Kajian Pengaruh Penambahan Inforrnasi Gerombol terhadap Hasil
Prediksi Area Nircontoh (Studi Kasus Pengeluaran per Kapita
Kecamatan di Kota dan Kabupaten Bogor)
Nama
: Rahma Anisa
NIM
: G151110011

Disetujui oleh
Komisi Pembimbing

Dr. Anan Kurnia
Ketla

Dr. Ir. Indahwati, MSi
Anggota


Diketahui o]eh

Ketua Program Studi
Magister Statistika

Dr.lr. Anik dェオイ。ゥ、セ@

MS

Tanggal Ujian: 21 Januari 2014

Tanggal Lulus:

0 7 APR 20 14

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Sholawat serta

salam semoga selalu tercurah kepada pemimpin umat nabi Muhammad SAW,
beserta keluarga, sahabat, dan umatnya. Karya ilmiah ini “Kajian Pengaruh
Penambahan Informasi Gerombol terhadap Hasil Prediksi Area nircontoh (Studi
Kasus Pengeluaran per Kapita Kecamatan Kota dan Kabupaten Bogor)”.
Terima kasih yang sebesar-besarnya kepada semua pihak yang telah turut
peran serta dalam penyusunan karya ilmiah ini, terutama kepada :
1. Bapak Dr. Anang Kurnia dan Ibu Dr. Ir. Indahwati, MSi selaku dosen
pembimbing,
2. Bapak Prof. Dr. Ir. Khairil Anwar Notodiputro, MS sebagai dosen
penguji pada ujian sidang tesis,
3. Badan Pusat Statistik (BPS), atas segala informasi yang telah diberikan,
4. Keluarga Besar Program Studi Statistika IPB,
5. Ayah, ibu, serta seluruh keluarga dan sahabat, atas segala dukungan, doa
dan kasih sayangnya.
Semoga semua bantuan yang diberikan kepada penulis mendapatkan balasan
dari Allah SWT, dan semoga karya ilmiah ini dapat bermanfaat bagi semua pihak
yang membutuhkan.
Bogor, Maret 2014
Rahma Anisa

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vii

1 PENDAHULUAN
Latar Belakang
Tujuan Penelitian

1
1
2

2 TINJAUAN PUSTAKA
Pendugaan Area Kecil (Small Area Estimation (SAE))
Empirical Best Linear Unbiased Predictor (EBLUP)
Restricted Maximum Likelihood (REML)
Analisis Gerombol (Clustering)

2
2
3
4
4

3 METODE
Pengembangan Model
Kajian Simulasi
Studi Kasus

5
6
7
10

4 HASIL DAN PEMBAHASAN
Kajian Simulasi
Studi Kasus

11
11
15

5 SIMPULAN DAN SARAN
Simpulan
Saran

20
20
20

DAFTAR PUSTAKA

20

LAMPIRAN

23

DAFTAR TABEL
1
2
3
4
5
6
7
8
9
10
11

Titik potong dan kemiringan pada populasi skenario 1
Titik potong dan kemiringan pada populasi skenario 2
Jumlah area contoh dan nircontoh pada gerombol keKuadrat tengah sisaan prediksi area nircontoh
Median dari Relative Bias (RB) pada area contoh (%)
Median dari RRMSE pada area contoh (%)
Median dari Relative Bias (RB) pada area nircontoh (%)
Median dari RRMSE pada area nircontoh (%)
Uji Kenormalan Anderson-Darling
Penggerombolan kecamatan di Kota dan Kabupaten Bogor
Prediksi rata-rata pengeluaran per kapita dan evaluasi pemodelan
pada kecamatan nircontoh

8
8
9
12
13
13
14
14
17
17
19

DAFTAR GAMBAR
1 Garis prediksi area nircontoh skenario 1 untuk hubungan peubah
penyerta terhadap peubah respon yang dihasilkan oleh Model-0,
Model-1, Model-2, Model-3, Model-4, dan Model-5
2 Boxplot nilai RB dari prediksi nilai tengah area nircontoh skenario 2
3 Nilai RRMSE (%) prediksi area nircontoh model modifikasi EBLUP
pada seluruh skenario simulasi
4 Nilai RB (%) prediksi area nircontoh model modifikasi EBLUP pada
seluruh skenario simulasi
5 Kepekatan peluang peubah , yaitu rata-rata pengeluaran per kapita
per bulan dan bentuk tranformasi logaritma peubah Y
6 Plot kuantil-kuantil peubah
7 Hubungan antara peubah penyerta jumlah poliklinik dan jumlah
minimarket terhadap peubah respon

11
14
15
15
16
16
18

DAFTAR LAMPIRAN
1

2

3

4

5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Garis prediksi area nircontoh skenario 2 untuk hubungan peubah
penyerta terhadap peubah respon yang dihasilkan seluruh
model
Garis prediksi area nircontoh skenario 3 untuk hubungan peubah
penyerta terhadap peubah respon yang dihasilkan seluruh
model
Garis prediksi area nircontoh skenario 4 untuk hubungan peubah
penyerta terhadap peubah respon yang dihasilkan seluruh
model
Garis prediksi area nircontoh skenario 5 untuk hubungan peubah
penyerta terhadap peubah respon yang dihasilkan seluruh
model
Relative Bias (RB) prediksi nilai tengah area contoh pada
skenario 1
Relative Root Mean Squares Error (RRMSE) prediksi nilai
tengah area contoh pada skenario 1
Relative Bias (RB) prediksi nilai tengah area contoh pada
skenario 2
Relative Root Mean Squares Error (RRMSE) prediksi nilai
tengah area contoh pada skenario 2
Relative Bias (RB) prediksi nilai tengah area contoh pada
skenario 3
Relative Root Mean Squares Error (RRMSE) prediksi nilai
tengah area contoh pada skenario 3
Relative Bias (RB) prediksi nilai tengah area contoh pada
skenario 4
Relative Root Mean Squares Error (RRMSE) prediksi nilai
tengah area contoh pada skenario 4
Relative Bias (RB) prediksi nilai tengah area contoh pada
skenario 5
Relative Root Mean Squares Error (RRMSE) prediksi nilai
tengah area contoh pada skenario 5
Relative Bias (RB) prediksi nilai tengah area nircontoh pada
skenario 1
Relative Root Mean Squares Error (RRMSE) prediksi nilai
tengah area nircontoh pada skenario 1
Relative Bias (RB) prediksi nilai tengah area nircontoh pada
skenario 2
Relative Root Mean Squares Error (RRMSE) prediksi nilai
tengah area nircontoh pada skenario 2
Relative Bias (RB) prediksi nilai tengah area nircontoh pada
skenario 3
Relative Root Mean Squares Error (RRMSE) prediksi nilai
tengah area nircontoh pada skenario 3

23

24

25

26
27
28
29
30
31
32
33
34
35
36
37
37
38
38
39
39

21
22
23
24
25
26
27
28
29
30
31
32

32

33
34

Relative Bias (RB) prediksi nilai tengah area nircontoh pada
skenario 4
Relative Root Mean Squares Error (RRMSE) prediksi nilai
tengah area nircontoh pada skenario 4
Relative Bias (RB) prediksi nilai tengah area nircontoh pada
skenario 5
Relative Root Mean Squares Error (RRMSE) prediksi nilai
tengah area nircontoh pada skenario 5
Peubah yang terpilih sebagai dasar penggerombolan kecamatan di
Kota dan Kabupaten Bogor
Korelasi antar peubah dasar penggerombolan kecamatan di Kota
dan Kabupaten Bogor
Dendogram analisis gerombol kecamatan di Kota dan Kabupaten
Bogor
Rataan setiap peubah pada masing-masing gerombol
Pemilihan peubah untuk pemodelan dengan seleksi model regresi
stepwise
Prediksi rata-rata pengeluaran per kapita per bulan pada
kecamatan contoh di Kota dan Kabupaten Bogor
Prediksi rata-rata pengeluaran per kapita kecamatan contoh pada
masing-masing gerombol
Root Mean Squares Error (RMSE) dari prediksi rata-rata
pengeluaran per kapita per bulan pada kecamatan contoh di Kota
dan Kabupaten Bogor
Root Mean Squares Error (RMSE) dari prediksi rata-rata
pengeluaran per kapita per bulan pada kecamatan contoh di Kota
dan Kabupaten Bogor ( Lanjutan )
Prediksi rata-rata pengeluaran per kapita pada kecamatan
nircontoh menggunakan seluruh model
Evaluasi pemodelan pada kecamatan nircontoh menggunakan
seluruh model

40
40
41
41
42
43
44
45
46
47
48

49

50
50
50

1

PENDAHULUAN
Latar Belakang

Pengumpulan data banyak dilakukan melalui survei contoh karena dapat
memperkecil biaya dibandingkan apabila melakukan sensus. Pendugaan
parameter berdasarkan informasi yang diperoleh dari suatu survei dapat dilakukan
dengan pendugaan langsung (direct estimation). Pendugaan langsung akan
memberi hasil yang baik ketika ukuran contoh untuk setiap area cukup besar.
Namun, survei untuk memperoleh informasi rinci pada setiap area akan
memerlukan waktu dan biaya yang besar. Ketika terdapat area contoh dengan
ukuran yang sangat kecil atau bahkan nol, maka pendugaan langsung tidak lagi
baik untuk digunakan karena dapat menghasilkan galat baku yang sangat besar
(Rao 2003). Oleh karenanya, telah dikembangkan metode pendugaan tidak
langsung (indirect estimation) yang diperoleh dengan memanfaatkan peubah lain
(auxiliary variable), serta menambahkan pengaruh acak dari area. Pendekatan ini
dikenal sebagai metode Empirical Best Linear Unbiased Prediction (EBLUP).
Permasalahan lain yang muncul adalah ketika melakukan pendugaan
parameter untuk area yang tidak disurvei (nircontoh). Penduga EBLUP baku
untuk area nircontoh menggunakan model sintetik yang bersifat global. Model
sintetik akan mengabaikan pengaruh acak area karena tidak adanya informasi
pengaruh acak pada area nircontoh (Saei dan Chambers 2005). Akibatnya, nilai
prediksi yang dihasilkan untuk semua area nircontoh akan terdistorsi menuju satu
garis model sehingga memungkinkan terjadi bias yang cukup besar.
Salah satu gagasan yang dikembangkan pada penelitian ini adalah dengan
mengasumsikan bahwa suatu area memiliki pola kedekatan hubungan dengan area
lain. Pola kedekatan tersebut dapat dianalisis berdasarkan karakteristik peubah
tertentu untuk setiap area. Informasi dari pola hubungan tersebut akan
ditambahkan ke dalam model sehingga diharapkan mampu memperbaiki
pendugaan pada area nircontoh. Salah satu pendekatan untuk menganalisis pola
hubungan antar-area tersebut adalah dengan teknik penggerombolan (clustering).
Pendekatan lain yang dikembangkan pada penelitian ini adalah dengan
menambahkan nilai tengah penduga pengaruh acak dari area dan peubah penyerta
pada setiap gerombol ke dalam model prediksi. Penambahan pengaruh tetap
gerombol serta pengaruh acak area dan peubah penyerta secara bersamaan pada
model diharapkan mampu menghasilkan penduga yang lebih baik, terutama untuk
area nircontoh.
Penerapan dari metode yang dikembangkan dalam penelitian ini adalah
untuk menduga rata-rata pengeluaran per kapita per bulan pada kecamatan
nircontoh berdasarkan data SUSENAS tahun 2010 dan PODES tahun 2011 yang
diperoleh dari Badan Pusat Statistik (BPS). Data SUSENAS hanya mencakup
sebagian desa/keluharan dan kecamatan pada setiap kota dan kabupaten.
Pembentukan gerombol berdasarkan data PODES, yang mencakup seluruh
desa/kelurahan dan kecamatan, dapat menambah informasi untuk menduga
parameter yang ingin diamati. Hal ini diperlukan terutama pada saat menduga
parameter dari area yang tidak disurvei pada SUSENAS. Pada kasus ini
pendugaan yang dilakukan dibatasi untuk wilayah Kota dan Kabupaten Bogor.

2
Tujuan Penelitian
Tujuan yang ingin dicapai pada penelitian ini adalah:
1. memodifikasi model prediksi EBLUP baku dengan menambahkan informasi
gerombol, dengan pendekatan sebagai pengaruh tetap maupun sebagai
pengaruh acak,
2. mengkaji kebaikan model yang diusulkan dibandingkan dengan model dasar
yaitu EBLUP baku,
3. menerapkan model yang diusulkan untuk menduga rata-rata pengeluaran per
kapita per kapita per bulan pada kecamatan nircontoh di Kota dan Kabupaten
Bogor.

2

TINJAUAN PUSTAKA

Pendugaan Area Kecil (Small Area Estimation (SAE))
Menurut Rao (2003), suatu area dikatakan besar apabila ukuran contoh pada
area tersebut mampu menghasilkan presisi pendugaan yang baik dengan penduga
langsung. Sebaliknya, suatu area dikatakan “kecil” apabila ukuran contoh pada
area tersebut tidak cukup untuk menunjang penduga langsung agar mampu
menghasilkan presisi pendugaan yang baik. Pendekatan lain seringkali diperlukan
untuk mengatasi permasalahan tersebut, salah satunya adalah penduga tak
langsung. Penduga tak langsung “meminjam informasi” dengan menggunakan
nilai peubah dari contoh pada area lain yang terkait dengan area yang diamati.
Model pendugaan area kecil terdiri dari Model Level Area (Tipe-A) dan Model
Level Satuan (Tipe-B).
a. Model Level Area (Tipe-A)
Model ini digunakan ketika informasi peubah penyerta pada level satuan
̅ untuk
tertentu
tidak diketahui dengan mengasumsikan bahwa
berhubungan dengan peubah penyerta pada area, yaitu
,
melalui model linier berikut:
dengan
merupakan pengaruh acak pada area ke-i. Penduga langsung
̂̅ diasumsikan diketahui untuk menarik kesimpulan tentang nilai tengah area
kecil ̅ , yaitu:
̂
̂
̅

dengan menganggap bahwa
adalah galat penarikan contoh yang menyebar
normal
, dan
diketahui.
Model deterministik pada diperoleh dengan menetapkan bahwa
.
Model tersebut mengarah pada model sintetik yang tidak memperhitungkan
keragaman lokal selain dari keragaman yang bersumber pada peubah penyerta .
Model berikut diperoleh dengan menggabungkan kedua model di atas:
̂

3
b. Model Level Satuan (Tipe-B)
Model ini digunakan dengan asumsi bahwa data peubah penyerta untuk
setiap satuan
tersedia. Peubah yang diamati
berhubungan dengan peubah penyerta
melalui model regresi galat tersarang
berikut:
Anggapan yang digunakan pada model ini adalah terdapat satuan yang
disurvei (contoh) dan satuan yang tidak disurvei (nircontoh) sehingga model di
atas dapat diuraikan menjadi:
[

[ ]

]

dan penduga nilai tengah area kecil dapat dituliskan sebagai berikut:
̅
̅
̅
⁄ , serta ̅ dan ̅ berturut-turut adalah nilai tengah untuk
dengan
satuan contoh dan satuan nircontoh. Penduga nilai tengah area dengan ukuran
̅ .
contoh nol dapat dinyatakan sebagai ̅
Empirical Best Linear Unbiased Predictor (EBLUP)
Menurut Das et al. (2004), secara umum, model campuran linear (linear
mixed model) dapat dituliskan dalam bentuk berikut:
(1)
dengan
merupakan vektor berukuran
yang berisi nilai pengamatan
contoh, dan adalah matriks yang nilainya diketahui, serta dan merupakan
pengaruh acak yang bersebaran saling bebas dengan nilai tengah nol dan matriks
ragam koragam masing-masing adalah dan , yang bergantung pada suatu
parameter yang disebut komponen ragam. Model ini menganggap bahwa
berpangkat penuh p
, dengan catatan bahwa ragam dari peubah adalah
.
Salah satu kasus khusus dari model (1) untuk area ke- dan satuan keadalah sebagai berikut:
dengan
dan
, yang bergantung pada suatu
parameter yaitu komponen ragam
.
Menurut Das et al. (2004), penduga EBLUP adalah suatu penduga dua tahap
yang digunakan dalam menduga suatu parameter
yang bergantung pada
yang tidak diketahui. Pendekatan ini dilakukan dengan mengganti parameter
dengan penduganya, yaitu ̂, sehingga pendugaan dilakukan terhadap parameter
̂ . Jika didefinisikan bahwa terdapat pendugaan untuk kombinasi linier dari
dan yaitu:
dengan dan adalah suatu vektor konstanta, maka dapat diperoleh prediktor tak
bias terbaik atau Best Linear Unbiased Predictor (BLUP) bagi adalah:
̃

̃

̃

̃

4
dengan

̃ ̃
adalah penduga kuadrat terkecil terampat (generalized least square), atau penduga
, dengan
takbias terbaik (Best Linear Unbiased Estimator (BLUE)) dari
̃
penduga dari pengaruh acak
adalah ̃ ̃
, dan
. Penduga EBLUP diperoleh dengan mengganti
menjadi
̂ ̂
, sehingga diperoleh ̂
̂
(Rao 2003). Kackar dan Harville
(1981) dalam Das et al. (2004) menyatakan bahwa penduga dua tahap ̃ ̃ ̂
merupakan penduga tak bias bagi , dengan asumsi bahwa dan berdistribusi
simetrik.
Penduga EBLUP pada area contoh ke- dapat dituliskan sebagai:
̅

(∑
̂ )
dengan adalah satuan contoh dan adalah satuan nircontoh, sehingga ̂ yang
merupakan nilai dugaan untuk satuan nircontoh dapat dihitung dengan rumus:
̃
̂
̂
Penduga EBLUP pada area nircontoh ke- adalah sebagai berikut:
̅
(∑
̂ )
dengan ̂

merupakan nilai dugaan yang dihitung dengan rumus berikut:
̃
̂
Restricted Maximum Likelihood (REML)

Terdapat beberapa metode untuk memperoleh penduga komponen ragam.
Salah satu pendekatannya adalah metode kemungkinan maksimum terbatas atau
Restricted Maximum Likelihood (REML) yang memaksimumkan kombinasi linier

dengan
,
dari . Jika didefinisikan bahwa
maka dapat dinyatakan bahwa:
.
Menurut McCullloch dan Searle (2001), fungsi kemungkinan maksimum dari
dapat dituliskan dalam bentuk berikut:
(2)
dengan
(3)
.
Pendekatan REML dilakukan dengan mencari solusi persamaan (2) dan (3)
terhadap
yang ada di dalam . Metode REML memerlukan anggapan
kenormalan karena persamaan tersebut diturunkan dari sebaran normal.

Analisis Gerombol (Clustering)
Analisis gerombol merupakan teknik peubah ganda yang mempunyai tujuan
utama untuk mengelompokkan objek-objek berdasarkan kemiripan karakteristik
yang dimilikinya (Mattjik dan Sumertajaya 2011). Kemiripan karakteristik antar
objek dapat diukur dengan jarak euclid, jarak mahalanobis, dan ukuran jarak

5
lainnya. Jarak euclid banyak digunakan karena perhitungannya yang sederhana,
yaitu:

dengan anggapan bahwa semua peubah diukur dengan skala yang sama. Apabila
terdapat perbedaan skala pengukuran diantara peubah maka harus dilakukan
pembakuan peubah.
Johnson dan Wichern (2007) menjelaskan bahwa terdapat dua pendekatan
dalam metode penggerombolan, yaitu metode berhirarkhi dan metode nirhirakhi.
Metode penggerombolan berhirarkhi dapat dilakukan dengan pendekatan
aglomeratif (penggabungan) maupun divisif (pemisahan). Penggabungan atau
pemisahan antar objek dalam penggerombolan dapat disajikan dalam bentuk
dendogram yang biasanya dijadikan sebagai dasar penentuan banyaknya
gerombol. Metode penggerombolan nirhirarkhi digunakan apabila banyaknya
gerombol yang ingin dibentuk telah ditentukan, yaitu sebanyak k gerombol.
Kendala yang mungkin ditemukan pada proses analisis gerombol di
antaranya adalah pelanggaran asumsi multikolinieritas dan terdapatnya pencilan.
Metode analisis gerombol berhirarkhi k-medoid dapat menjadi salah satu alternatif
untuk mengatasi pencilan. Permasalahan lain yang mungkin ditemukan adalah
apabila penggerombolan dilakukan berdasarkan peubah yang bersifat kategorik,
atau campuran antara peubah kategorik dan numerik. Salah satu pendekatan yang
dapat menangani permasalahan tersebut adalah metode penggerombolan dua
tahap (two step cluster). Selain itu, metode penggerombolan dua tahap juga
mampu menangani penggerombolan pada data yang besar.

3

METODE

Model dasar yang digunakan pada penelitian ini adalah model EBLUP baku,
yang selanjutnya disebut sebagai Model-0. Pemodelan area kecil yang digunakan
pada penelitian ini adalah model level satuan (tipe-B), dengan i dan j masingdan
masing menunjukkan area dan satuan pada area contoh, sedangkan
masing-masing menunjukkan area dan satuan pada area nircontoh.
a) Model untuk populasi:
b) Model prediksi untuk area contoh:
̃
̃
̂
̂
c) Model prediksi untuk area nircontoh:
̃
̃
̂
dengan
menunjukkan nilai respon yang diamati,
menunjukkan peubah
penyerta,
menunjukkan pengaruh acak area, dan
adalah galat penarikan
contoh pada area contoh. Penduga nilai respon yang diamati pada area nircontoh
( ̂ ) diperoleh dengan memanfaatkan informasi peubah penyerta pada area
dan
nircontoh (
) . Model ini menganggap bahwa
. Penelitian dilakukan dengan membangun model baru yang
dikembangkan dari Model-0 tersebut.

6
Pengembangan Model
Pengembangan model dilakukan dengan menambahkan informasi gerombol
ke-k pada Model-0. Penambahan informasi gerombol sebagai bentuk modifikasi
model dasar EBLUP menghasilkan lima model yang diusulkan pada penelitian ini.
Kelima model tersebut memiliki model prediksi yang berbeda-beda, terutama
untuk prediksi pada area nircontoh.
1. Model-1, yaitu modifikasi model EBLUP (Model-0) dengan menambahkan
nilai tengah dari penduga pengaruh acak area masing-masing gerombol pada
model prediksi area nircontoh. Penambahan tersebut dinyatakan sebagai

̂̅
̂ , dengan
merupakan banyaknya area contoh pada
gerombol ke- .
a) Model untuk populasi:

b) Model prediksi untuk area contoh:
̃
̃
̂
c) Model prediksi untuk area nircontoh:
̃
̃
̂

̂

̂̅

2. Model-2, yaitu modifikasi model EBLUP (model-0) dengan menambah
pengaruh tetap gerombol ke-k (model-1). Pengaruh tetap gerombol
dinyatakan sebagai ̂ yang merupakan bentuk penyederhanaan notasi
penduga koefisien peubah dummy untuk gerombol. Sehingga untuk sejumlah
gerombol dapat diuraikan bahwa ̂
̂
̂
, dengan
merupakan peubah dummy untuk gerombol dan ̂
̂
merupakan penduga koefisien bagi peubah dummy.
a) Model untuk populasi:
b) Model prediksi untuk area contoh:
̃
̃
̂
c) Model prediksi untuk area nircontoh:
̃
̃
̂

̂

̂

̂

3. Model-3, yaitu kombinasi dari Model-1 dan Model-2.
a) Model untuk populasi:
b) Model prediksi untuk area contoh:
̃
̃
̂
c) Model prediksi untuk area nircontoh:
̃
̃
̂

̂

̂

̂

̂̅

4. Model-4, yaitu modifikasi Model-1 dengan menambahkan nilai tengah
pengaruh acak peubah penyerta setiap area pada gerombol ke- . Model ini
mengasumsikan sebagai peubah acak, sehingga diperoleh
dan
yang
merupakan pengaruh acak area ke- dan pengaruh acak peubah pada area

7
ke- . Nilai tengah pengaruh acak area area kedinyatakan sebagai berikut:
̂̅
∑ ̂

Nilai tengah pengaruh acak peubah
area kedinyatakan sebagai berikut:
̂̅
∑ ̂

pada gerombol ke-

pada gerombol ke-

a) Model untuk populasi:

b) Model prediksi untuk area contoh:
̃
̂
̂
c) Model prediksi untuk area nircontoh:
̃
̂̅
̂

̃

̃

̂

̂̅

5. Model-5, yaitu modifikasi dari Model-4 dengan menambahkan pengaruh
tetap dari gerombol ke- .
a) Model untuk populasi:
b) Model prediksi untuk area contoh:
̃
̃
̂
̂
̂
̂
c) Model prediksi untuk area nircontoh:
̃
̃
̂
̂̅
̂̅
̂
Model-5 secara diharapkan mampu menghasilkan prediksi dengan akurasi
yang lebih tinggi karena model ini memiliki penambahan komponen yang
paling banyak dibandingkan model-model sebelumnya. Model ini memiliki
tiga komponen tambahan yaitu pengaruh acak area, pengaruh acak peubah
penyerta setiap area, dan pengaruh tetap gerombol sehingga model ini
memiliki titik potong dan kemiringan yang berbeda, mirip seperti Model-4,
namun model ini turut memperhitungkan pengaruh tetap dari setiap gerombol.

Kajian Simulasi
Simulasi dilakukan untuk mengevaluasi kebaikan model yang
dikembangkan. Proses simulasi dilakukan dengan langkah-langkah berikut ini.
1. Membangun populasi yang terdiri dari 40 area, dengan ukuran populasi
masing-masing area berkisar antara 100 hingga 1500 satuan. Populasi
tersebut diasumsikan terdiri dari 5 gerombol. Simulasi ini menggunakan satu
peubah respon dan satu peubah penyerta . Respon yang diamati (
)
merupakan kombinasi linier dari peubah penyerta (
), pengaruh acak area
( ), dan galat penarikan contoh (
), dengan menunjukkan area,
menunjukkan satuan, dan menunjukkan gerombol. Hubungan tersebut dapat
dinyatakan dalam model campuran linier berikut:
(4)

8
Parameter
pada model (4) memiliki nilai yang berbeda untuk setiap
gerombol ke- . Peubah penyerta dibangkitkan dari sebaran normal
, sedangkan komponen acak
dan
berasal dari
sebaran tertentu. Beberapa skenario dibangun untuk mengkaji kebaikan
model yang diusulkan pada berbagai kondisi tertentu.
a) Skenario 1, populasi terdiri dari 5 gerombol yang saling terpisah dengan
nilai
masing-masing gerombol sebagai berikut:
Tabel 1 Titik potong dan kemiringan pada populasi skenario 1
Gerombol
1
2
3
4
5

8
18
28
38
48

2
5
8
11
14

Populasi ini memiliki heterogenitas antar gerombol yang tinggi. Seluruh
komponen acak pada skenario ini berasal dari sebaran normal, yaitu
dan
sehingga model campuran linier yang
dibangun pada skenario ini akan memenuhi asumsi kenormalan. Skenario
ini dibangun untuk mengkaji kemampuan model pada kondisi populasi
yang ideal, yaitu karakteristik antar gerombol mampu dibedakan dengan
baik dan tidak terdapat gangguan terhadap asumsi kenormalan.
b) Skenario 2, populasi terdiri dari 5 gerombol yang tidak terpisah sempurna
dengan nilai
masing-masing gerombol sebagai berikut:
Tabel 2 Titik potong dan kemiringan pada populasi skenario 2
Gerombol
1
2
3
4
5

8.00
8.90
9.90
11.00
12.20

2.00
2.42
3.37
4.11
5.47

Komponen acak pada skenario ini berasal dari sebaran normal, yaitu
dan
. Skenario ini dibangun untuk
mengkaji kemampuan model pada kondisi penggerombolan yang beririsan,
atau heterogenitas antar gerombol yang rendah dan tanpa ada gangguan
terhadap asumsi kenormalan.
c) Skenario 3, populasi terdiri dari 5 gerombol yang terpisah sempurna, yaitu
dengan nilai
yang sama dengan skenario 1. Perbedaannya dengan
skenario 1 adalah salah satu komponen acak yang digunakan pada skenario
ini tidak berasal dari sebaran normal. Pengaruh acak area pada skenario ini
dibangkitkan dari sebaran khi-kuadrat
, sedangkan galat penarikan
contoh tetap berasal dari sebaran normal
. Skenario ini
dibangun untuk mengkaji kemampuan model pada kondisi dengan
pelanggaran asumsi kenormalan pada komponen pengaruh acak area,

9
dengan mengasumsikan karakteristik antar gerombol mampu dibedakan
dengan baik.
d) Skenario 4, populasi terdiri dari 5 gerombol yang terpisah sempurna, yaitu
dengan nilai
yang sama dengan skenario 1. Komponen pengaruh acak
area pada skenario ini berasal dari sebaran normal
, namun
komponen acak galat penarikan contoh pada populasi ini tidak berasal dari
sebaran normal. Galat penarikan contoh berasal dari sebaran khi-kuadrat
. Skenario ini dibangun untuk mengkaji kemampuan model pada
kondisi dengan pelanggaran asumsi kenormalan pada komponen galat
penarikan contoh, dengan mengasumsikan karakteristik antar gerombol
mampu dibedakan dengan baik.
e) Skenario 5, populasi terdiri dari 5 gerombol yang terpisah sempurna, yaitu
dengan nilai
yang sama dengan skenario 1. Seluruh komponen acak
pada skenario ini tidak berasal dari sebaran normal melainkan berasal dari
sebaran khi-kuadrat, yaitu
dan
. Skenario ini dibangun
untuk mengkaji kemampuan model pada kondisi dengan pelanggaran
asumsi kenormalan pada seluruh komponen acak, dengan mengasumsikan
karakteristik antar gerombol mampu dibedakan dengan baik.
Langkah-langkah yang dilakukan untuk membangun populasi pada setiap
skenario adalah sebagai berikut:
(i)
membangkitkan peubah penyerta
sebanyak
satuan, nilai
yang diperoleh pada langkah ini digunakan untuk
seluruh skenario pada proses simulasi,
(ii)
membangkitkan pengaruh acak area
dan galat penarikan contoh
berdasarkan sebaran tertentu sesuai dengan skenario,
(iii) menghitung nilai peubah respon
berdasarkan model (4) dengan
nilai koefisien
yang telah ditentukan untuk masing-masing
gerombol sesuai dengan skenario.
2. Mengambil contoh acak dari populasi yang dibangkitkan pada langkah (1),
yaitu sebanyak
area contoh yang berasal dari kelima gerombol, sehingga
terdapat
area nircontoh (Tabel 3).
Tabel 3 Jumlah area contoh dan nircontoh pada gerombol keGerombol
1
2
3
4
5

Jumlah Area Contoh
4
6
8
4
8

Jumlah Area Nircontoh
1
2
2
2
3

Total Area
5
8
10
6
11

Penarikan contoh acak pada level satuan untuk setiap area contoh dilakukan
secara proporsional dengan ukuran contoh sebesar 3% dari ukuran populasi.
3. Melakukan pemodelan dan menduga nilai tengah area contoh ke-i dan nilai
tengah area nircontoh ke- . Proses ini dilakukan menggunakan model dasar

10
(Model-0) dan kelima model yang diusulkan (Model-1, Model-2, Model-3,
Model-4, dan Model-5).
4. Mengulangi proses pada langkah (2) dan (3) sebanyak B=1000 kali sehingga
dapat dihitung nilai Relative Bias (RB) dan Relative Root Mean Squares
Error (RRMSE) dari hasil pendugaan parameter pada setiap area dengan
rumus sebagai berikut:
̂





√ ∑

)

.

5. Mengevaluasi model berdasarkan nilai RB dan RRMSE.

Studi Kasus
Studi kasus pada penelitian ini menggunakan data SUSENAS tahun 2010
dan PODES tahun 2011 yang dikeluarkan oleh Badan Pusat Statistik (BPS).
Peubah yang diamati pada penelitian ini adalah rata-rata pengeluaran per kapita
per bulan untuk kecamatan di wilayah Kota dan Kabupaten Bogor. Data yang
tersedia pada SUSENAS tidak mendukung pendugaan langsung pada tingkat
kecamatan. Hal ini dikarenakan contoh pada tingkat kecamatan berukuran kecil,
bahkan terdapat kecamatan yang tidak disurvei. Model yang dikembangkan pada
penelitian ini digunakan sebagai alternatif untuk mengatasi permasalahan tersebut.
Pemodelan dilakukan dengan memanfaatkan informasi dari peubah yang dipilih
dari data PODES sebagai peubah penyerta.
Proses analisis data PODES dan SUSENAS adalah sebagai berikut:
1. melakukan eksplorasi data, yaitu dengan memeriksa distribusi data yang akan
digunakan, memeriksa peubah-peubah yang berkorelasi kuat terhadap peubah
respon, serta melakukan pemilihan peubah yang mampu membedakan
karakteristik setiap gerombol,
2. melakukan penggerombolan area berdasarkan peubah-peubah yang dipilih dari
data PODES, dengan asumsi bahwa PODES memuat informasi seluruh
anggota populasi hingga di tingkat desa,
3. mengelompokan area berdasarkan gerombol yang terbentuk,
4. melakukan pemodelan dengan model dasar EBLUP dan kelima model yang
dikembangkan,
5. menduga nilai tengah pengeluaran per kapita per bulan setiap kecamatan,
6. mengevaluasi hasil pendugaan dengan membandingkan nilai root mean
squares error (RMSE) dari penduga parameter setiap area,

dengan
̂

̂

̂

̂

̅̂

(

̅̂

(∑


̂

̂

̂
̂

̅̂

̂

̂

̂

̂

̂

̂

̂
[



{

(̃)

̃ })

])

11

4

HASIL DAN PEMBAHASAN
Kajian Simulasi

Data pada populasi dibagi menjadi dua, yaitu data contoh dan nircontoh.
Data contoh digunakan untuk membangun enam model prediksi, model dasar
(Model-0) dan model yang diusulkan (Model-1 hingga Model-5). Parameter yang
diamati adalah nilai tengah seluruh area kecil dalam populasi, yaitu area contoh
ke- dan area nircontoh ke- . Model EBLUP baku menghasilkan model prediksi
area nircontoh yang bersifat global, sedangkan model yang diusulkan
menghasilkan model prediksi area nircontoh yang bersifat lokal. Suatu model
dikatakan bersifat global apabila model tersebut berlaku untuk seluruh
pengamatan. Model yang bersifat lokal tidak berlaku untuk seluruh pengamatan,
melainkan bersifat unik untuk level tertentu. Model lokal yang diusulkan pada
penelitian ini bersifat unik untuk masing-masing gerombol.
Skenario 1 mengasumsikan bahwa karakteristik antar gerombol mampu
dibedakan dengan baik, sehingga pola hubungan antara peubah penyerta dan
peubah respon memiliki rentang nilai yang berbeda-beda untuk masing-masing
gerombol pada area nircontoh (Gambar 1). Gerombol 1 memiliki rentang nilai
terendah dan gerombol 5 memiliki rentang nilai tertinggi dengan jarak antar
gerombol yang relatif renggang. Pendekatan garis prediksi Model-0 yang bersifat
global tidak mampu menggambarkan keragaman yang dimiliki oleh masingmasing gerombol.

(a)

(b)

(c)

(d)

(e)

(f)

Gambar 1 Garis prediksi area nircontoh skenario 1 untuk hubungan peubah
penyerta terhadap peubah respon yang dihasilkan oleh: (a)
Model-0, (b) Model-1, (c) Model-2, (d) Model-3, (e) Model-4, dan
(f) Model-5. Gerombol 1 (), gerombol 2 (), gerombol 3 (),
gerombol 4 (), dan gerombol 5 ().

12
Model-0 hanya menghasilkan satu garis prediksi area nircontoh (perhatikan
garis berwarna hitam), sedangkan kelima model yang diusulkan menghasilkan
lima garis prediksi area nircontoh, sesuai dengan banyaknya gerombol pada area
tersebut. Model prediksi yang dihasilkan oleh Model-0 mengabaikan pengaruh
acak area sehingga prediksinya diperoleh dari model sintetik yang bersifat global.
Prediksi area nircontoh yang dihasilkan oleh Model-0 akan terdistorsi pada satu
garis prediksi yang bersifat global tersebut (Gambar 1a).
Garis prediksi yang dihasilkan oleh Model-1, Model-2, dan Model-3
memiliki titik potong yang berbeda-beda pada setiap gerombol, namun
kemiringan garis yang dihasilkan tetap sama (Gambar 1b, Gambar 1c, Gambar 1d).
Prediksi area nircontoh dari ketiga model tersebut lebih mampu menghampiri nilai
yang sebenarnya dibandingkan dengan Model-0, dengan asumsi bahwa
penggerombolan yang dilakukan telah mampu membedakan karakteristik antargerombol dengan sangat baik.
Model-4 dan Model-5 merupakan hasil modifikasi titik potong dan
kemiringan dari model EBLUP baku. Kedua model ini mengasumsikan bahwa
peubah penyerta bersifat acak. Garis prediksi area nircontoh yang dihasilkan
kedua model tersebut memiliki titik potong dan kemiringan yang berbeda-beda
pada setiap gerombol (Gambar 1e, Gambar 1f). Kondisi tersebut secara teoritis
memungkinkan agar prediksi yang dihasilkan lebih baik dibandingkan modelmodel sebelumnya. Hal ini berlaku pada data dengan kondisi penggerombolan
yang dicerminkan oleh data simulasi ini.
Lampiran 1 hingga Lampiran 4 menunjukkan garis prediksi area nircontoh
skenario 2 hingga skenario 5. Skenario 2 mencerminkan kodisi karakteristik antar
gerombol yang cukup sulit untuk dibedakan sehingga kondisi data menjadi
beririsan antara suatu gerombol dan gerombol lainnya (Lampiran 1). Model-1
menghasilkan garis prediksi area nircontoh yang berhimpit, terutama untuk
gerombol 1 dan gerombol 2, sementara garis prediksi Model-2 dan Model-3
sedikit lebih renggang. Model-4 menunjukkan garis prediksi yang cenderung lebih
mendekati pengamatan area nircontoh yang sebenarnya, jika dibandingkan dengan
Model-5. Selain itu, kuadrat tengah sisaan prediksi area nircontoh Model-4 lebih
kecil dibandingkan dengan Model-5 (Tabel 4). Hal ini mengindikasikan bahwa
penambahan pengaruh tetap gerombol pada model prediksi area nircontoh dengan
asumsi peubah penyerta bersifat acak dapat dinilai kurang tepat pada kondisi
penggerombolan yang beririsan.
Skenario
1
2
3
4
5

Tabel 4 Kuadrat tengah sisaan prediksi area nircontoh
Model-0 Model-1 Model-2 Model-3 Model-4 Model-5
387.23
60.29
59.70
59.70
27.41
27.21
551.65
54.67
54.27
54.27
37.48
37.52
5595.57
177.91
179.73
179.73
26.46
26.69
5754.56
169.39
167.88
167.88
14.65
14.60
5556.56
154.76
155.67
155.67
2.67
2.67

Skenario 3 hingga skenario 5 mencerminkan data dengan gangguan asumsi
kenormalan pada komponen acak. Skenario 4 mencerminkan kondisi data dengan
galat penarikan contoh yang tidak bersebaran normal. Plot pengamatan area
nircontoh skenario ini menunjukkan pola yang cenderung menjulur ke kanan
(Lampiran 3). Hal ini menunjukkan bahwa pola sebaran komponen acak galat

13
penarikan contoh yang berasal dari sebaran khi-kuadrat mempengaruhi bentuk
sebaran data yang diamati.
Simulasi dengan berbagai skenario secara umum menunjukkan model
prediksi area nircontoh EBLUP baku bersifat global, sementara model yang
diusulkan bersifat lokal. Garis prediksi model yang bersifat lokal lebih mampu
menghampiri pengamatan area nircontoh yang sebenarnya. Hal ini dapat dilihat
berdasarkan plot garis prediksi area nircontoh yang dihasilkan oleh masingmasing model. Selain itu, nilai kuadrat tengah sisaan dari prediksi area nircontoh
yang diperoleh pada model lokal jauh lebih kecil dibandingkan dengan model
EBLUP baku yang bersifat global (Tabel 4). Kuadrat tengah sisaan dari model
dengan modifikasi titik potong dan kemiringan, yaitu Model-4 dan Model-5,
memiliki nilai yang paling kecil dibandingkan model lain. Hal ini menunjukkan
bahwa kedua model tersebut merupakan model lokal yang paling menghampiri
pengamatan area nircontoh yang sebenarnya.
Tabel 5 Median dari Relative Bias (RB) pada area contoh (%)
Skenario Model-0 Model-1 Model-2 Model-3 Model-4 Model-5
1
10.56
10.56
0.57
0.57
10.50
0.94
2
7.27
7.27
1.67
1.67
6.67
1.05
3
10.13
10.13
0.20
0.20
9.96
2.04
4
10.49
10.49
0.59
0.59
10.48
0.35
5
10.11
10.11
0.22
0.22
9.94
0.60
Tabel 6 Median dari RRMSE pada area contoh (%)
Skenario Model-0 Model-1 Model-2 Model-3 Model-4 Model-5
1
34.32
34.32
1.14
1.14
34.54
11.13
2
25.34
25.34
2.77
2.77
25.53
7.73
3
33.74
33.74
0.66
0.66
33.85
14.40
4
34.18
34.18
1.09
1.09
34.40
6.62
5
33.59
33.59
0.67
0.67
33.69
7.87
Model prediksi EBLUP baku (Model-0) pada area contoh bersifat lokal.
Model tersebut dipengaruhi oleh pengaruh acak area sehingga secara teoritis
model ini sudah memiliki kemampuan prediksi yang cukup baik pada area contoh.
Prediksi yang dihasilkan oleh Model-0 akan memiliki keragaman yang berbeda di
setiap area contoh sehingga hasil yang diperoleh akan mendekati nilai sebenarnya.
Namun demikian, hasil simulasi pada skenario 1 hingga skenario 4
memperlihatkan bahwa Model-0 bukan model terbaik pada prediksi area contoh.
Model-2, Model-3, dan Model-5 menghasilkan prediksi nilai tengah area
contoh dengan kisaran nilai RB dan RRMSE yang jauh lebih kecil dibandingkan
dengan model lain pada semua skenario (Tabel 5 dan Tabel 6). Ketiga model
tersebut merupakan model dengan penambahan informasi gerombol sebagai
pengaruh tetap, sehingga dapat dikatakan bahwa secara umum penambahan
tersebut mampu memperbaiki prediksi area contoh.
Nilai RB dari penduga nilai tengah area contoh Model-2 dan Model-3
memiliki nilai yang paling kecil pada skenario 1, skenario 3, dan skenario 5
(Tabel 5). Nilai RB terkecil pada skenario 2 dan skenario 4 diperoleh pada
prediksi yang dihasilkan oleh Model-5, namun perbedaannya dengan Model-2 dan
Model-3 relatif kecil. Nilai RRMSE yang terkecil pada setiap skenario (Tabel 6)
diperoleh dari prediksi area contoh Model-2 dan Model-3. Hal ini

14
mengindikasikan bahwa Model-2 dan Model-3 memiliki kemampuan yang paling
baik untuk melakukan prediksi pada area contoh, prediksi yang dihasilkan
memiliki ketepatan yang relatif lebih baik dibandingkan model lain.
Tabel 7 Median dari Relative Bias (RB) pada area nircontoh (%)
Skenario Model-0 Model-1 Model-2 Model-3 Model-4 Model-5
1
-6.63
-1.11
-1.07
-1.07
-1.01
-0.97
2
0.60
-2.48
-2.66
-2.66
-2.67
-2.58
3
-6.55
0.24
0.35
0.35
0.37
0.40
4
-6.63
-1.02
-0.99
-0.99
-0.91
-0.91
5
-6.53
0.31
0.31
0.31
0.48
0.47
Tabel 8 Median dari RRMSE pada area nircontoh (%)
Skenario Model-0 Model-1 Model-2 Model-3 Model-4 Model-5
1
38.60
2.29
2.46
2.46
2.32
2.37
2
30.25
5.48
6.20
6.20
5.47
6.10
3
38.12
0.68
0.69
0.69
0.45
0.47
4
38.35
2.16
2.32
2.32
2.20
2.20
5
37.87
0.68
0.69
0.69
0.48
0.47
Prediksi nilai tengah area nircontoh skenario 1 yang dihasilkan oleh Model5 memiliki nilai median RB yang paling mendekati nol dibandingkan model lain
(Tabel 7). Nilai median RRMSE yang terkecil diperoleh pada prediksi yang
dihasilkan oleh Model-1 (Tabel 8). Namun demikian, nilai median RB dan
RRMSE yang diperoleh pada Model-1 hingga Model-5 memiliki perbedaan yang
relatif kecil, yaitu berkisar antara 0.03% hingga 0.17%. Hal ini mengindikasikan
bahwa secara umum penambahan informasi gerombol pada kelima model yang
diusulkan mampu meningkatkan kemampuan prediksi parameter area nircontoh
pada kondisi populasi yang paling ideal.
Hasil prediksi area nircontoh pada skenario 3, 4, dan 5 yang dihasilkan oleh
Model-1 hingga Model-5 secara umum lebih baik dibandingkan dengan Model-0
berdasarkan nilai median RB dan RRMSE. Nilai median RB prediksi area
nircontoh skenario 2 yang paling mendekati nol diperoleh pada Model-0 (Tabel 7),
namun nilai RB pada prediksi area nircontoh Model-0 secara keseluruhan
memiliki rentang nilai (range) yang jauh lebih lebar dibandingkan dengan kelima
model yang diusulkan (Gambar 2). Selain itu, nilai median RRMSE terkecil
diperoleh pada prediksi area nircontoh Model-4 (Tabel 8), sehingga Model-4
dapat dianggap sebagai model terbaik pada prediksi area nircontoh skenario ini.

Gambar 2

Boxplot nilai RB dari prediksi nilai tengah area
nircontoh skenario 2

15

Model-1
Model-2
Model-3
Model-4
Model-5

7

RRMSE (%)

6
5
4
3
2
1
0
1

2

3

4

5

Skenario
Gambar 3 Nilai RRMSE (%) prediksi area nircontoh model modifikasi
EBLUP pada seluruh skenario simulasi
Simulasi menunjukkan bahwa model yang diusulkan secara umum memiliki
akurasi yang lebih baik daripada model EBLUP baku dalam memprediksi
parameter area nircontoh, pada berbagai skenario populasi. Model-4 cenderung
menghasilkan prediksi dengan nilai median RRMSE yang terkecil pada seluruh
skenario (Gambar 3). Nilai RB prediksi area nircontoh yang dihasilkan kelima
model yang diusulkan relatif sama (Gambar 4). Dengan demikian, dapat dikatakan
bahwa Model-4 memiliki kemampuan yang relatif lebih baik dibandingkan model
lain dalam memprediksi parameter area nircontoh.
1
0.5

RB (%)

0
-0.5

1

2

3

4

5

-1
-1.5

Model-1
Model-2
Model-3
Model-4
Model-5

-2
-2.5
-3

Skenario
Gambar 4 Nilai RB (%) prediksi area nircontoh model modifikasi
EBLUP pada seluruh skenario simulasi

16
Studi Kasus
Eksplorasi Data
Kota Bogor terdiri dari 6 kecamatan dan 64 kelurahan. Kabupaten Bogor
terdiri dari 40 kecamatan dan 428 desa/kelurahan. Data PODES diasumsikan
mencakup seluruh desa dan kecamatan di Kota dan Kabupaten Bogor sehingga
penggerombolan pada tingkat kecamatan dilakukan berdasarkan peubah yang
dipilih dari data tersebut. Peubah pada data PODES 2011 (Lampiran 25) yang
dipilih sebagai peubah dasar penggerombolan mewakili empat bidang berikut:
1. keterangan umum desa/kelurahan,
2. kependudukan dan ketenagakerjaan,
3. pendidikan dan kesehatan,
4. ekonomi.
Peubah yang dipilih tersebut merupakan peubah yang memiliki ragam yang besar
dan memiliki sedikit nilai nol (Lampiran 25).

(a)

(b)

Gambar 5 Kepekatan peluang (a) peubah , yaitu rata-rata pengeluaran per
kapita per bulan (Rupiah) dan (b) bentuk tranformasi logaritma
peubah Y
Peubah pada data SUSENAS 2010 digunakan sebagai peubah respon
,
yaitu rata-rata pengeluaran per kapita per bulan. Data SUSENAS mencakup 44
kecamatan dan 111 desa/kelurahan di Kota dan Kabupaten Bogor. Rata-rata
pengeluaran per kapita tidak berdistribusi normal. Hal ini dapat dilihat dari plot
peubah yang menjulur ke kanan (Gambar 5).

Gambar 6 Plot kuantil-kuantil peubah

17
Tabel 9 Uji Kenormalan Anderson-Darling
Peubah
AD
Nilai-p

9.367
< 0.005

0.506
0.197

Uji kenormalan Anderson-Darling terhadap peubah menghasilkan nilai
signifikansi < 0.005 sehingga pada taraf nyata 5% dapat dikatakan bahwa data
tersebut tidak mengikuti sebaran normal (Tabel 9). Transformasi logaritma
terhadap peubah dilakukan untuk mengatasi ketaknormalan data. Plot kuantilkuantil peubah
menunjukkan pola yang mengikuti garis kenormalan
(Gambar 6). Uji kenormalan terhadap hasil transformasi peubah menghasilkan
nilai signifikansi sebesar 0.197, artinya pada taraf nyata 5% hipotesis nol yang
menyatakan bahwa data mengikuti sebaran normal dapat diterima.
Analisis Gerombol