6. PENGGUNAAN REGRESI SPLINES ADAPTIF BERGANDA
UNTUK STATISTICAL DOWNSCALING LUARAN GCM
6.1 Pendahuluan
Model regresi SD dinyatakan y = fx + ε dimana y adalah peubah respon
curah hujan observasi, beresolusi tinggi:titikwilayah, x peubah penjelas GCM dengan resolusi rendah dan
ε sisaan. Banyaknya peubah x yang saling ber- korelasi antar grid korelasi spasial dan berkorelasi antar peubah GCM seringkali
melanggar asumsi dasar metode regresi baku. Di samping itu data pengamatan deret waktu menyebabkan kasus autokorelasi. Bentuk fungsi yang tidak diketahui
juga merupakan permasalahan tersendiri dalam metode regresi. Adanya kompleksitas permasalahan dalam model SD seringkali dilakukan
penanganan satu per satu. Untuk mengatasi korelasi antar grid GCM dilakukan reduksi dimensi dengan analisis komponen utama, sehingga model regresinya y =
fz + ε, dimana z adalah skor komponen utama. Demikian juga untuk mengatasi
korelasi antar peubah GCM digunakan metode regresi komponen utama dan regresi bertatar stepwise. Namun demikian peubah GCM tidak hanya
berkorelasi, namun saling berinteraksi satu dengan yang lain. Sampai pada tahapan ini penggunaan metode regresi baku masih memungkinkan digunakan
namun pada penanganan bentuk fungsi yang tidak diketahui, metode baku mengalami collapse. Metode regresi yang memungkinkan digunakan adalah
regresi nonparametrik. Metode ini tidak terlalu ketat terhadap asumsi dasar soft modelling
dan informasi model lebih berdasar pada data data mining. Beberapa metode nonparametrik yang digunakan dalam SD, khususnya
model regresi diantaranya jaringan syaraf tiruan Hewitson dan Crane 1996; Cavazos dan Hewitson 2002; Cavazos dan Hewitson 2005; Sutikno dan Boer
2005, regresi projection pursuit Chan dan Shi 1997; Wigena 2006. Metode nonparametrik lain yang akan digunakan dalam penelitian ini adalah regresi
splines adaptif berganda RSAB atau seringkali disebut multivariate adaptive
regression splines MARS.
Metode RSAB telah berkembang sejak 1991 dan digunakan diberbagai bidang, terutama pemodelan lingkungan, iklim, kesehatan dan sebagainya.
37 Beberapa penelitian menggunakan RSAB, diantaranya: Leathwick et al. 2005;
Keppenne dan Lall 1996; Richard et al. 1993; Finizio dan Palmieri 1998. Khusus digunakan untuk pemodelan SD, diantaranya: Fischer et al. 2004; Corte-Real et
al . 1995. Metode ini mempunyai daya kemampuan prediksi yang lebih baik
dibandingkan metode kuadrat terkecil, generalized aditive mode : GAM Sutikno et al
. 2001; Sutikno dan Boer 2005; Sutikno et al. 2004; Jesús dan Angel 2004. Regresi splines adaptif berganda RSAB, yang dikenal dengan metode
MARS multivariate adaptive regression splines merupakan metode yang dikembangkan oleh Friedman pada tahun 1991. Pembentukan model RSAB
melalui proses bertatar stepwise berdasarkan recursive partitioning dengan splines
Friedman 1991. Metode ini mampu menganalisis data yang besar 50 ≤
N ≤ 10.000, dengan jumlah peubah penjelas yang banyak dan dapat menerangkan
dengan baik pola-pola nonliner dinamik dan interaksinya Finizio dan Palmieri 1998.
Regresi Splines Adaptif Berganda
Konsep Dasar Misalkan y menunjukkan peubah respon tunggal bergantung pada p
peubah penjelas x, dimana x = x
1
, x
2
, x
3,
……., x
p
, maka dapat digambarkan model regresi sebagai berikut :
ε +
= ,......,
,
. 2
1 p
x x
x f
y 6.1
Diasumsikan model regresi f digambarkan sebagai kombinasi linear dari fungsi basis B
B
k
x , k=1, 2, ..., K.
1
x B
a a
x f
k K
k k
∑
=
+ =
6.2 dimana a
o
, a
1
, a
2
, ...a
K
adalah koefisien regresi yang diduga. Setiap fungsi basis adalah fungsi truncated power splines. Univariate truncated power basis dapat
digambarkan sebagai fungsi step indikator. Fungsi univariate splines basis dari kiri dan kanan:
,
[ ]
m m
c x
c x
b
+ +
− +
= ,
[ ]
m m
c x
c x
b
+ +
− −
= ,
6.3a
38 atau dinyatakan dalam satu notasi:
]
]
6.3b
[
m m
c x
s c
s x
b
+
− =
, ,
Gambar 6.1 menunjukkan pasangan basis linear m=1 truncated splines. m=0 menghasilkan step atau piecewise basis konstanta. Multivariate splines dapat
dinyatakan dalam perkalian univariate basis pers. 6.3, sehingga basis fungsi tunggal dinyatakan:
6.4
[
m kl
l k
kl L
l k
c x
s x
B
k
+ =
− =
∏
, 1
dimana [x]
+
bagian bernilai positif dari x, [x]
+
= x jika x 0 dan [x]
+
= 0 jika x ≤
0, m adalah orde dari splines. L
k
banyaknya interaksi pada fungsi basis K, S
kl
nilainya +1 atau –1 jika knotnya terletak di kanan atau kiri subregion. x
k,l
adalah peubah penjelas yang terdapat dalam fungsi basis, dan c
kl
posisi titik knot. Penentuan lokasi titik knot dan jumlah peubah ditentukan berdasarkan pada data
dengan menggunakan kriteria lack- of- fit LOF.
,
1
c x
b
+
,
1
c x
b
−
c x c x Gambar 6.1 Truncated linear fungsi basis.
Dalam algoritma RSAB terdapat dua tahapan, yaitu tahap forward digunakan untuk mendapatkan subregion – subregion agar dapat menentukan
fungsi basis. Tahap backward, mengeluarkan suku model basis fungsi yang kontribusinya terhadap nilai dugaan respon kecil Friedman 1991.
Tahap forward: Inisialisasi, untuk menduga koefisien konstanta, B
=1 Misalkan terdapat K+1 fungsi basis B
B
, B
1
x, . . ., B
k
x. Ditambahkan dua
fungsi basis baru:
[ ]
m kl
l k
k K
c x
x B
x B
+ +
− +
=
, 1
[ ]
m kl
l k
k K
c x
x B
x B
+ +
− −
=
, 2
39 Dimana B
B
k
x adalah fungsi basis awal parent, x
k,l
adalah peubah yang tidak terdapat dalam fungsi basis B
k
B
x dan c
kl
adalah posisi titik knot
{ }
,... 2
, 1
,
n i
x c
l k
i kl
= ∈
. Semua penentuannya berdasarkan meminimumkan kriteria lack-of-fit.
Penambahan fungsi basis dilanjutkan hingga K fungsi basis maksimum. Tahap backward:
Memilih satu fungsi basis kecuali B dan mengeluarkan pruning jika
kontribusinya kecil. Proses ini dilanjutkan hingga tidak ada fungsi basis yang dapat di-
keluarkan. Ukuran kontribusi yang digunakan tahap backward adalah modifikasi
kriteria validasi silang generalized cross validation: GCV Craven dan Wahba 1979, diacu dalam Lewis 1991 yakni :
[ ]
[ ]
2 1
2
1 ˆ
1 N
K C
x f
y N
K GCV
N i
i s
i
− −
=
∑
=
6.5 Pembilang persamaan 6.5 tersebut adalah rataan jumlah kuadrat galat average
sum square of residual : ASR, s jumlah subregion yang ditentukan pada tahap
forward , dan penyebutnya merupakan penalti fungsi model kompleks. CK
adalah nilai kompleksitas model yang terdiri atas K basis fungsi. Model terbaik jika nilai GCV minimum.
Level 0 B
x =1
B
1
x = B
x.+x
1-
c
1 +
B
2
x = B
x.-x
1-
c
1 +
B
3
x = B
x.+x
2-
c
2 +
B
4
x = B
x.-x
2-
c
2 +
Level 2 B
5
x = B
2
x.+x
3-
c
3 +
B
6
x = B
2
x.-x
3-
c
3 +
Level 1
Gambar 6.2. Ilustrasi tahapan pembentukan fungsi basis.
40 Gambar 6.2 di atas memberikan contoh tahapan dalam pembentukan
fungsi basis metode RSAB. Hasil dugaan model RSAB adalah: 6.6
ˆ
6 1
x B
a X
f
k k
k
∑
=
= Kedalaman dari pohon menunjukkan tingkat interaksi. Pohon pada level pertama
menunjukkan model aditif tanpa interaksi, level 2 menunjukkan model dengan interaksi 2, dan seterusnya.
Misalkan fungsi basis B
B
k
x , k =0, 1, 2, . . ., K, untuk menduga koefisien
regresi a
k
dengan menggunakan metode kuadrat terkecil ordinary least square, ,
T K
a a
a a
,..., ,
1
=
Y B
B B
a
T K
K T
K MKT
1
ˆ
−
= , dimana
T n
y y
y Y
,..., ,
2 1
=
dan B
K
B
matriks komponen B
B
k
x
i
. Banyak peubah penjelas yang digunakan memungkinkan terjadinya kasus
multikolinearitas pada matriks B
B
K
. Untuk mengatasi masalah ini Friedman 1991 menyarankan pembentukan model secara bertahap, yaitu model aditif mak-
simum interaksi, m
i
=1, kemudian dilanjutkan dengan model interaksi m
i
=2 dan seterusnya. Di samping itu, Friedman 1991 menambahkan suatu faktor penalty
γ pada algoritma tahap forward.
{ }
⎥⎦ ⎤
⎢⎣ ⎡
⎟ ⎠
⎞ ⎜
⎝ ⎛ ∉
+ ←
− =
l
K L
l
l k
x x
I f
LOF f
LOF
1 1
1
, 1
U γ
6.7 Pada iterasi ke – L terdapat L-1 fungsi basis yang ada dalam model dan fungsi
indikator I bernilai nol jika paling sedikit satu peubah penjelas masuk, dan lainnya bernilai satu. Besarnya nilai
γ bernilai 0 menunjukkan kekuatan penalty
yang digunakan sebagai kontrol dari peubah penjelas yang akan dimasukan. Besarnya nilai
γ yang optimum bergantung pada kondisi tertentu tingkat kolinearitas dan besarnya goodness -of- fit yang digunakan oleh peng-
guna dalam membentuk model yang sederhana parsimony models. Hal ini dapat dilakukan dengan simulasi beberapa
γ secara meningkat, kemudian dilakukan evaluasi melalui nilai GCV akhir.
Interpretasi model RSAB seringkali melalui dekomposisi analisis ragam ANOVA, asalkan maksimum interaksinya tidak terlalu tinggi banyak.
41 Dekomposisi analisis ragam merupakan penjumlahan regrouping dari fungsi
aditif:
∑
=
+ =
K k
k k
x B
a a
x f
1
ˆ
= 6.8
∑ ∑
= =
+ +
+
d j
i j
i ij
d i
i i
x x
f x
f a
1 ,
1
... ,
Jumlah fungsi pertama f
i
adalah jumlah fungsi basis yang hanya satu peubah penjelas, jumlah fungsi kedua f
ij
menunjukkan jumlah fungsi basis yang terdiri atas dua peubah penjelas interaksi dua, dan seterusnya.
Adaptive Splines Threshold Autoregression Adaptive Splines Threshold Autoregression
ASTAR adalah metode runtun waktu nonlinear yang menggunakan algoritma metode RSAB dengan
peubah penjelas nilai lag data deret waktu. Salah satu model ASTAR dinyatakan:
t d
t d
t d
t d
t t
t Z
t Z
t Z
t Z
c Z
ε φ
φ φ
+ −
− +
− +
− +
=
+ −
− +
− +
− 2
1 3
2 2
1 1
2 1
2 1
6.9 dimana c adalah konstanta, t
1,
t
2
masing-masing nilai knot peubah Z
t-d1
dan Z
t-d2
, d
1
dan d
2
merupakan lag 1 dan 2. 6.2 Bahan dan Metode
Bahan
Data GCM dan data curah hujan yang digunakan sama seperti penelitian sebelumnya yang disajikan pada Bab 4 lihat Tabel 4.1.
Metode Analisis
Peubah-peubah penjelas parameter GCM dilakukan pereduksian dimensi dengan mengunakan analisis komponen utama. Banyaknya komponen utama
didasarkan pada nilai akar ciri eigen value: λ ≥ 1 dan melalui scree plot.
Prosedur ini dilakukan untuk mengatasi kasus multikolinearitas. Selanjutnya, skor komponen yang terbentuk digunakan sebagai peubah penjelas pada pemodelan
dengan metode RSAB dan regresi komponen utama RKU.
42 Pada tahap awal, pembentukan model dilakukan dengan metode RSAB.
Pada proses pembentukan dimulai dari model yang paling sederhana tanpa interaksi hingga model kompleks interaksi dua dan tiga. Pemilihan model
terbaik dilakukan dengan simulasi melalui pemasukan input: jumlah fungsi basis, banyaknya interaksi, minimal pengamatan di setiap subregion. Penentuan
jumlah fungsi basis berdasarkan banyaknya peubah penjelas yang digunakan. Dan Stenberg 2001 menyarankan jumlah fungsi basis paling sedikit dua sampai
empat kali jumlah peubah penjelas. Jumlah basis fungsi yang digunakan adalah 80, 120, dan 160, karena jumlah peubah penjelasnya sebanyak 40. Jumlah
minimal pengamatan di setiap subregion sampai saat ini masih belum jelas, karena terbatasnya penelitian mengenai permasalahan tersebut. Sutikno dan Boer 2005
menggunakan minimal 5 pada setiap subregion. Semakin kecil banyaknya pengamatan misal n=1 maka model semakin bergerigi, sehingga akan
menghasilkan model yang baik pada saat verifikasi, namun pada validasi model menurun tingkat ketepatannya. Penentuan jumlah minimal pengamatan dilakukan
simulai, n=5, 10, dan 20. Untuk mengatasi atau mengurangi terjadinya kasus multikolinearitas dilakukan penambahan penalty
γ. Penentuan besarnya nilai γ dilakukan disimulasi, yaitu:
γ = 0.00 tidak korelasi, 0.05 moderat dan 0.1 berat. Pemilihan besarnya
γ mengikuti metode yang dilakukan oleh Friedman 1991, karena penelitian untuk kasus iklim terutama pemodelan SD sangat
terbatas. Dalam proses pemodelan, data dibagi menjadi 2 bagian yaitu untuk
verifikasi model 1967 – 1998 dan validasi model 1999-2000. Kriteria pemilih- an model terbaik digunakan R
2
, dan R
2
-terkoreksi. Model terbaik jika memiliki R
2
, dan R
2
-terkoreksi terbesar. Di samping itu pemilihan model terbaik digunakan data bebas data validasi, dengan kriteria RMSEP, MAEP, dan korelasi antara
data aktual observasi dan nilai dugaan. Semakin kecil nilai RMSEP dan MAEP semakin baik model yang dihasilkan. Sebaliknya, semakin besar nilai korelasi
semakin baik model tersebut. Langkah berikutnya adalah pemodelan dengan menggunakan regresi
berganda komponen utama RKU. Untuk mengetahui tingkat ketepatan model
43 dari kedua metode digunakan kriteria RMSEP, MAEP, dan analisis korelasi antara
data aktual observasi dan nilai dugaan.
6.3 Hasil dan Pembahasan Pendugaan model dengan RSAB