plsr sd bmkg jun2011
REGRESI KU AD RAT TERKECIL PARSIAL
U N TU K STATISTICAL D OW N SCALIN G
Aji Ham im Wigena
Departem en Statistika, FMIPA
Institut Pertanian Bogor
J akarta, 23 J uni 20 11
Pe n d ah u lu an
GCM (General Circulation Model)
•
model yang berorientasi spasial dan temporal
•
skala besar (global) atau resolusi rendah
•
belum memperhitungkan fenomena pada skala kecil (lokal)
•
sumber informasi primer untuk menilai pengaruh perubahan
iklim di masa datang
•
diyakini sebagai model penting dalam upaya memahami iklim di
masa lampau, sekarang dan masa yang akan datang
Luaran GCM
Data luaran GCM bersifat curse of dimensionality ↔ dimensi atau
domain semakin besar, yaitu jika pemodelan SD melibatkan banyak
peubah dan lapisan‐lapisan atmosfir
► Data bersifat nonlinear dan tidak berdistribusi yang baku, seperti
sebaran normal
► Korelasi spasial dan/atau multikolinearitas antar peubah
► Data luaran GCM untuk banyak peubah pada berbagai lapisan
atmosfir atau ketinggian ↔ data semakin kompleks
►
DOW N SCALIN G
•
transformasi hasil simulasi GCM pada
skala besar ke skala yang lebih kecil
•
hubungan fungsional antara peubah
(variable) skala besar dengan peubah
skala kecil
•
menduga (meramal) nilai peubah
dalam interval waktu tertentu
berdasarkan karakteristik sirkulasi
atmosfir skala besar
STATISTICAL D OW N SCALIN G
• Definisi
– Model Statistical Dow nscaling adalah suatu fungsi transfer yang
m enggam barkan hubungan fungsional sirkulasi atm osfir global
(hasil GCM) dengan unsur-unsur iklim lokal
– Pem ilihan peubah-peubah prediktor dan penentuan dom ain (lokasi
dan jum lah grid) m erupakan faktor kritis yang akan m em pengaruhi
kestabilan peram alan (Wilby & Wigley 20 0 0 )
– Model ini juga m em erlukan data deret waktu yang hom ogen dalam
berbagai perubahan iklim (Schubert & Henderson-Sellers 1997)
– Model SD m em berikan hasil yang baik dengan syarat berikut:
• Hubungan erat antara respon dengan prediktor yang m enjelaskan
keragam an iklim lokal dengan baik;
• Peubah prediktor disim ulasi baik oleh GCM, dan
• Hubungan antara respon dengan prediktor tidak berubah dengan
perubahan waktu dan tetap sam a m eskipun ada perubahan iklim
(Busuioc et al. 20 0 1)
• Bentuk um um m odel SD
y = f(X)
dim ana:
Y(b x s)
curah
X (b x g)
GCM)
b
g
s
= peubah skala lokal atau respon (seperti
hujan bulanan)
= peubah skala global atau prediktor (output
= banyaknya waktu (seperti bulanan)
= banyaknya grid skala global GCM
= banyaknya stasiun curah hujan
►Bentuk
um um m odel SD
Bila fungsi f(X) diketahui, pendugaannya dapat dilakukan
dengan m odel param etrik; bila f(X) tidak diketahui,
pendugaannya dengan m odel nonparam etrik
Tetapi pada kenyataannya bentuk fungsi ini sering tidak
diketahui dan m odel yang tidak tepat akan m em berikan hasil
dugaan yang tidak tepat pula (Friedm an & Stuetzle 1981)
Model SD m elibatkan data deret waktu dan data spasial GCM
Banyaknya peubah y, peubah x, dan lapisan atm osfir dalam
m odel, dan otokorelasi dan kolinearitas pada peubah y
m aupun pada peubah x m enunjukkan tingkat kom pleksitas
m odel
• Isu-Isu Pem odelan (Wilby, 1997)
– Peubah-peubah predictor Æ dari GCM (Sea Surface
Tem perature), Sea Level Pressure, Geopotential
height, Hum idity .W ind speed, Precipitable w ater,
Presipitasi)
– Ukuran (luasan) dan lokasi dom ain GCM
– Fungsi Transfer Æ Mo d e l H u bu n gan Fu n gs io n al
– Periode Kalibrasi Æ Data Historis
Metode SD
Regresi Kom ponen Utam a
(Principal Com ponent Regression, PCR)
• berdasarkan analisis kom ponen utam a untuk m ereduksi
dim ensi dan m engatasi m asalah m ultikolinieritas
• digunakan untuk pendugaan satu respon (pendugaan curah
hujan di suatu stasiun atau curah hujan rata-rata dari
sejum lah stasiun di suatu wilayah)
Regresi Kuadrat Terkecil Parsial
(Partial Least Square Regression, PLSR)
• m ereduksi dim ensi dan m engatasi m asalah m ultikolinearitas
secara iteratif
• dapat digunakan untuk pendugaan satu respon dan m ulti
respon (lebih dari satu stasiun)
• pendugaan m ulti respon m em pertim bangkan adanya
hubungan antar respon (hubunga spasial antar stasiun)
Data
•Prediktor Æ presipitasi (GCM ECHAM) tahun 1966 – 20 0 1
•Respon (prediktan) Æ curah hujan di stasiun (Sukadana,
Bondan, J atibarang, Kedokan Bunder, Tugu, Ujung Garis)
kabupaten Indram ayu tahun 1966 – 20 0 1
•Dom ain berukuran 8×8 di atas sekitar wilayah Indram ayu
Domain GCM
Indramayu
Se gi8
Se gi1 0
Se gi1 2
Se gi1 4
Se gi1 6
Curah hujan aktual dan prediksi (dengan PCR dan
PLSR)
J an
Actual
Feb
Mar
Apr
May
J un
J ul
Aug
Sep
Oct
Nov
Dec
241
248
30 6
238
144
10 5
0
0
17
147
360
20 7
PCR
245.2
180 .3
147.9
67.2
11.3
11.5
9.4
37.8
53.0
32.0
79.2
128.0
PLSR
245.7
251.1 220 .3
140 .7
82.6
51.5
29.3
11.4
43.9
67.3
162.1 241.6
RMSEP
R
-
125 0 .60
77
0 .81
Nilai korelasi (r) dan RMSEP dari m odel PLSR
Stasiun
Sukadana
PLSR
(satu respon)
r
RMSEP
0 .78
84.0 4
PLSR
(m ulti respon)
r
RMSEP
0 .70
10 2.80
Bondan
0 .61
77.69
0 .64
76.50
J atibarang
0 .74
71.55
0 .70
81.0 1
Kedokan Bunder
0 .66
90 .46
0 .61
94.98
Tugu
0 .52
125.13
0 .40
138.52
Ujung Garis
0 .77
76.92
0 .76
74.93
Ke s im p u lan
• PLSR lebih baik daripada PCR dan dapat dijadikan sebagai
alternatif teknik statistical dow nscaling
• PLSR untuk satu respon dan m ulti respon m em berikan hasil
dugaan yang relatif sam a, nam un PLSR m ulti respon lebih baik
digunakan untuk pendugaan secara sim ultan
Kajian Be riku tn ya
Teknik statistical dow nscaling m asih terus berkem bang untuk
m em peroleh hasil pendugaan yang lebih baik. Kajian lebih lanjut
diperlukan untuk m engkaji berbagai teknik statistical
dow nscaling sehingga diperoleh m etode terbaik
Kajian-kajian lainnya:
• Model-m odel nonparam etrik
• Multim odel output statistical dow nscaling Æ MME (Kang et.al.
20 0 7)
• Statistical dow nscaling of extrem e value Æ EVT (Friederichs, P., A.
Hense, 20 0 7)
U N TU K STATISTICAL D OW N SCALIN G
Aji Ham im Wigena
Departem en Statistika, FMIPA
Institut Pertanian Bogor
J akarta, 23 J uni 20 11
Pe n d ah u lu an
GCM (General Circulation Model)
•
model yang berorientasi spasial dan temporal
•
skala besar (global) atau resolusi rendah
•
belum memperhitungkan fenomena pada skala kecil (lokal)
•
sumber informasi primer untuk menilai pengaruh perubahan
iklim di masa datang
•
diyakini sebagai model penting dalam upaya memahami iklim di
masa lampau, sekarang dan masa yang akan datang
Luaran GCM
Data luaran GCM bersifat curse of dimensionality ↔ dimensi atau
domain semakin besar, yaitu jika pemodelan SD melibatkan banyak
peubah dan lapisan‐lapisan atmosfir
► Data bersifat nonlinear dan tidak berdistribusi yang baku, seperti
sebaran normal
► Korelasi spasial dan/atau multikolinearitas antar peubah
► Data luaran GCM untuk banyak peubah pada berbagai lapisan
atmosfir atau ketinggian ↔ data semakin kompleks
►
DOW N SCALIN G
•
transformasi hasil simulasi GCM pada
skala besar ke skala yang lebih kecil
•
hubungan fungsional antara peubah
(variable) skala besar dengan peubah
skala kecil
•
menduga (meramal) nilai peubah
dalam interval waktu tertentu
berdasarkan karakteristik sirkulasi
atmosfir skala besar
STATISTICAL D OW N SCALIN G
• Definisi
– Model Statistical Dow nscaling adalah suatu fungsi transfer yang
m enggam barkan hubungan fungsional sirkulasi atm osfir global
(hasil GCM) dengan unsur-unsur iklim lokal
– Pem ilihan peubah-peubah prediktor dan penentuan dom ain (lokasi
dan jum lah grid) m erupakan faktor kritis yang akan m em pengaruhi
kestabilan peram alan (Wilby & Wigley 20 0 0 )
– Model ini juga m em erlukan data deret waktu yang hom ogen dalam
berbagai perubahan iklim (Schubert & Henderson-Sellers 1997)
– Model SD m em berikan hasil yang baik dengan syarat berikut:
• Hubungan erat antara respon dengan prediktor yang m enjelaskan
keragam an iklim lokal dengan baik;
• Peubah prediktor disim ulasi baik oleh GCM, dan
• Hubungan antara respon dengan prediktor tidak berubah dengan
perubahan waktu dan tetap sam a m eskipun ada perubahan iklim
(Busuioc et al. 20 0 1)
• Bentuk um um m odel SD
y = f(X)
dim ana:
Y(b x s)
curah
X (b x g)
GCM)
b
g
s
= peubah skala lokal atau respon (seperti
hujan bulanan)
= peubah skala global atau prediktor (output
= banyaknya waktu (seperti bulanan)
= banyaknya grid skala global GCM
= banyaknya stasiun curah hujan
►Bentuk
um um m odel SD
Bila fungsi f(X) diketahui, pendugaannya dapat dilakukan
dengan m odel param etrik; bila f(X) tidak diketahui,
pendugaannya dengan m odel nonparam etrik
Tetapi pada kenyataannya bentuk fungsi ini sering tidak
diketahui dan m odel yang tidak tepat akan m em berikan hasil
dugaan yang tidak tepat pula (Friedm an & Stuetzle 1981)
Model SD m elibatkan data deret waktu dan data spasial GCM
Banyaknya peubah y, peubah x, dan lapisan atm osfir dalam
m odel, dan otokorelasi dan kolinearitas pada peubah y
m aupun pada peubah x m enunjukkan tingkat kom pleksitas
m odel
• Isu-Isu Pem odelan (Wilby, 1997)
– Peubah-peubah predictor Æ dari GCM (Sea Surface
Tem perature), Sea Level Pressure, Geopotential
height, Hum idity .W ind speed, Precipitable w ater,
Presipitasi)
– Ukuran (luasan) dan lokasi dom ain GCM
– Fungsi Transfer Æ Mo d e l H u bu n gan Fu n gs io n al
– Periode Kalibrasi Æ Data Historis
Metode SD
Regresi Kom ponen Utam a
(Principal Com ponent Regression, PCR)
• berdasarkan analisis kom ponen utam a untuk m ereduksi
dim ensi dan m engatasi m asalah m ultikolinieritas
• digunakan untuk pendugaan satu respon (pendugaan curah
hujan di suatu stasiun atau curah hujan rata-rata dari
sejum lah stasiun di suatu wilayah)
Regresi Kuadrat Terkecil Parsial
(Partial Least Square Regression, PLSR)
• m ereduksi dim ensi dan m engatasi m asalah m ultikolinearitas
secara iteratif
• dapat digunakan untuk pendugaan satu respon dan m ulti
respon (lebih dari satu stasiun)
• pendugaan m ulti respon m em pertim bangkan adanya
hubungan antar respon (hubunga spasial antar stasiun)
Data
•Prediktor Æ presipitasi (GCM ECHAM) tahun 1966 – 20 0 1
•Respon (prediktan) Æ curah hujan di stasiun (Sukadana,
Bondan, J atibarang, Kedokan Bunder, Tugu, Ujung Garis)
kabupaten Indram ayu tahun 1966 – 20 0 1
•Dom ain berukuran 8×8 di atas sekitar wilayah Indram ayu
Domain GCM
Indramayu
Se gi8
Se gi1 0
Se gi1 2
Se gi1 4
Se gi1 6
Curah hujan aktual dan prediksi (dengan PCR dan
PLSR)
J an
Actual
Feb
Mar
Apr
May
J un
J ul
Aug
Sep
Oct
Nov
Dec
241
248
30 6
238
144
10 5
0
0
17
147
360
20 7
PCR
245.2
180 .3
147.9
67.2
11.3
11.5
9.4
37.8
53.0
32.0
79.2
128.0
PLSR
245.7
251.1 220 .3
140 .7
82.6
51.5
29.3
11.4
43.9
67.3
162.1 241.6
RMSEP
R
-
125 0 .60
77
0 .81
Nilai korelasi (r) dan RMSEP dari m odel PLSR
Stasiun
Sukadana
PLSR
(satu respon)
r
RMSEP
0 .78
84.0 4
PLSR
(m ulti respon)
r
RMSEP
0 .70
10 2.80
Bondan
0 .61
77.69
0 .64
76.50
J atibarang
0 .74
71.55
0 .70
81.0 1
Kedokan Bunder
0 .66
90 .46
0 .61
94.98
Tugu
0 .52
125.13
0 .40
138.52
Ujung Garis
0 .77
76.92
0 .76
74.93
Ke s im p u lan
• PLSR lebih baik daripada PCR dan dapat dijadikan sebagai
alternatif teknik statistical dow nscaling
• PLSR untuk satu respon dan m ulti respon m em berikan hasil
dugaan yang relatif sam a, nam un PLSR m ulti respon lebih baik
digunakan untuk pendugaan secara sim ultan
Kajian Be riku tn ya
Teknik statistical dow nscaling m asih terus berkem bang untuk
m em peroleh hasil pendugaan yang lebih baik. Kajian lebih lanjut
diperlukan untuk m engkaji berbagai teknik statistical
dow nscaling sehingga diperoleh m etode terbaik
Kajian-kajian lainnya:
• Model-m odel nonparam etrik
• Multim odel output statistical dow nscaling Æ MME (Kang et.al.
20 0 7)
• Statistical dow nscaling of extrem e value Æ EVT (Friederichs, P., A.
Hense, 20 0 7)