Pendahuluan PENGGUNAAN REGRESI SPLINES ADAPTIF BERGANDA

6. PENGGUNAAN REGRESI SPLINES ADAPTIF BERGANDA

UNTUK STATISTICAL DOWNSCALING LUARAN GCM

6.1 Pendahuluan

Model regresi SD dinyatakan y = fx + ε dimana y adalah peubah respon curah hujan observasi, beresolusi tinggi:titikwilayah, x peubah penjelas GCM dengan resolusi rendah dan ε sisaan. Banyaknya peubah x yang saling ber- korelasi antar grid korelasi spasial dan berkorelasi antar peubah GCM seringkali melanggar asumsi dasar metode regresi baku. Di samping itu data pengamatan deret waktu menyebabkan kasus autokorelasi. Bentuk fungsi yang tidak diketahui juga merupakan permasalahan tersendiri dalam metode regresi. Adanya kompleksitas permasalahan dalam model SD seringkali dilakukan penanganan satu per satu. Untuk mengatasi korelasi antar grid GCM dilakukan reduksi dimensi dengan analisis komponen utama, sehingga model regresinya y = fz + ε, dimana z adalah skor komponen utama. Demikian juga untuk mengatasi korelasi antar peubah GCM digunakan metode regresi komponen utama dan regresi bertatar stepwise. Namun demikian peubah GCM tidak hanya berkorelasi, namun saling berinteraksi satu dengan yang lain. Sampai pada tahapan ini penggunaan metode regresi baku masih memungkinkan digunakan namun pada penanganan bentuk fungsi yang tidak diketahui, metode baku mengalami collapse. Metode regresi yang memungkinkan digunakan adalah regresi nonparametrik. Metode ini tidak terlalu ketat terhadap asumsi dasar soft modelling dan informasi model lebih berdasar pada data data mining. Beberapa metode nonparametrik yang digunakan dalam SD, khususnya model regresi diantaranya jaringan syaraf tiruan Hewitson dan Crane 1996; Cavazos dan Hewitson 2002; Cavazos dan Hewitson 2005; Sutikno dan Boer 2005, regresi projection pursuit Chan dan Shi 1997; Wigena 2006. Metode nonparametrik lain yang akan digunakan dalam penelitian ini adalah regresi splines adaptif berganda RSAB atau seringkali disebut multivariate adaptive regression splines MARS. Metode RSAB telah berkembang sejak 1991 dan digunakan diberbagai bidang, terutama pemodelan lingkungan, iklim, kesehatan dan sebagainya. 37 Beberapa penelitian menggunakan RSAB, diantaranya: Leathwick et al. 2005; Keppenne dan Lall 1996; Richard et al. 1993; Finizio dan Palmieri 1998. Khusus digunakan untuk pemodelan SD, diantaranya: Fischer et al. 2004; Corte-Real et al . 1995. Metode ini mempunyai daya kemampuan prediksi yang lebih baik dibandingkan metode kuadrat terkecil, generalized aditive mode : GAM Sutikno et al . 2001; Sutikno dan Boer 2005; Sutikno et al. 2004; Jesús dan Angel 2004. Regresi splines adaptif berganda RSAB, yang dikenal dengan metode MARS multivariate adaptive regression splines merupakan metode yang dikembangkan oleh Friedman pada tahun 1991. Pembentukan model RSAB melalui proses bertatar stepwise berdasarkan recursive partitioning dengan splines Friedman 1991. Metode ini mampu menganalisis data yang besar 50 ≤ N ≤ 10.000, dengan jumlah peubah penjelas yang banyak dan dapat menerangkan dengan baik pola-pola nonliner dinamik dan interaksinya Finizio dan Palmieri 1998. Regresi Splines Adaptif Berganda Konsep Dasar Misalkan y menunjukkan peubah respon tunggal bergantung pada p peubah penjelas x, dimana x = x 1 , x 2 , x 3, ……., x p , maka dapat digambarkan model regresi sebagai berikut : ε + = ,......, , . 2 1 p x x x f y 6.1 Diasumsikan model regresi f digambarkan sebagai kombinasi linear dari fungsi basis B B k x , k=1, 2, ..., K. 1 x B a a x f k K k k ∑ = + = 6.2 dimana a o , a 1 , a 2 , ...a K adalah koefisien regresi yang diduga. Setiap fungsi basis adalah fungsi truncated power splines. Univariate truncated power basis dapat digambarkan sebagai fungsi step indikator. Fungsi univariate splines basis dari kiri dan kanan: , [ ] m m c x c x b + + − + = , [ ] m m c x c x b + + − − = , 6.3a 38 atau dinyatakan dalam satu notasi: ] ] 6.3b [ m m c x s c s x b + − = , , Gambar 6.1 menunjukkan pasangan basis linear m=1 truncated splines. m=0 menghasilkan step atau piecewise basis konstanta. Multivariate splines dapat dinyatakan dalam perkalian univariate basis pers. 6.3, sehingga basis fungsi tunggal dinyatakan: 6.4 [ m kl l k kl L l k c x s x B k + = − = ∏ , 1 dimana [x] + bagian bernilai positif dari x, [x] + = x jika x 0 dan [x] + = 0 jika x ≤ 0, m adalah orde dari splines. L k banyaknya interaksi pada fungsi basis K, S kl nilainya +1 atau –1 jika knotnya terletak di kanan atau kiri subregion. x k,l adalah peubah penjelas yang terdapat dalam fungsi basis, dan c kl posisi titik knot. Penentuan lokasi titik knot dan jumlah peubah ditentukan berdasarkan pada data dengan menggunakan kriteria lack- of- fit LOF. , 1 c x b + , 1 c x b − c x c x Gambar 6.1 Truncated linear fungsi basis. Dalam algoritma RSAB terdapat dua tahapan, yaitu tahap forward digunakan untuk mendapatkan subregion – subregion agar dapat menentukan fungsi basis. Tahap backward, mengeluarkan suku model basis fungsi yang kontribusinya terhadap nilai dugaan respon kecil Friedman 1991. Tahap forward: Inisialisasi, untuk menduga koefisien konstanta, B =1 Misalkan terdapat K+1 fungsi basis B B , B 1 x, . . ., B k x. Ditambahkan dua fungsi basis baru: [ ] m kl l k k K c x x B x B + + − + = , 1 [ ] m kl l k k K c x x B x B + + − − = , 2 39 Dimana B B k x adalah fungsi basis awal parent, x k,l adalah peubah yang tidak terdapat dalam fungsi basis B k B x dan c kl adalah posisi titik knot { } ,... 2 , 1 , n i x c l k i kl = ∈ . Semua penentuannya berdasarkan meminimumkan kriteria lack-of-fit. Penambahan fungsi basis dilanjutkan hingga K fungsi basis maksimum. Tahap backward: Memilih satu fungsi basis kecuali B dan mengeluarkan pruning jika kontribusinya kecil. Proses ini dilanjutkan hingga tidak ada fungsi basis yang dapat di- keluarkan. Ukuran kontribusi yang digunakan tahap backward adalah modifikasi kriteria validasi silang generalized cross validation: GCV Craven dan Wahba 1979, diacu dalam Lewis 1991 yakni : [ ] [ ] 2 1 2 1 ˆ 1 N K C x f y N K GCV N i i s i − − = ∑ = 6.5 Pembilang persamaan 6.5 tersebut adalah rataan jumlah kuadrat galat average sum square of residual : ASR, s jumlah subregion yang ditentukan pada tahap forward , dan penyebutnya merupakan penalti fungsi model kompleks. CK adalah nilai kompleksitas model yang terdiri atas K basis fungsi. Model terbaik jika nilai GCV minimum. Level 0 B x =1 B 1 x = B x.+x 1- c 1 + B 2 x = B x.-x 1- c 1 + B 3 x = B x.+x 2- c 2 + B 4 x = B x.-x 2- c 2 + Level 2 B 5 x = B 2 x.+x 3- c 3 + B 6 x = B 2 x.-x 3- c 3 + Level 1 Gambar 6.2. Ilustrasi tahapan pembentukan fungsi basis. 40 Gambar 6.2 di atas memberikan contoh tahapan dalam pembentukan fungsi basis metode RSAB. Hasil dugaan model RSAB adalah: 6.6 ˆ 6 1 x B a X f k k k ∑ = = Kedalaman dari pohon menunjukkan tingkat interaksi. Pohon pada level pertama menunjukkan model aditif tanpa interaksi, level 2 menunjukkan model dengan interaksi 2, dan seterusnya. Misalkan fungsi basis B B k x , k =0, 1, 2, . . ., K, untuk menduga koefisien regresi a k dengan menggunakan metode kuadrat terkecil ordinary least square, , T K a a a a ,..., , 1 = Y B B B a T K K T K MKT 1 ˆ − = , dimana T n y y y Y ,..., , 2 1 = dan B K B matriks komponen B B k x i . Banyak peubah penjelas yang digunakan memungkinkan terjadinya kasus multikolinearitas pada matriks B B K . Untuk mengatasi masalah ini Friedman 1991 menyarankan pembentukan model secara bertahap, yaitu model aditif mak- simum interaksi, m i =1, kemudian dilanjutkan dengan model interaksi m i =2 dan seterusnya. Di samping itu, Friedman 1991 menambahkan suatu faktor penalty γ pada algoritma tahap forward. { } ⎥⎦ ⎤ ⎢⎣ ⎡ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ∉ + ← − = l K L l l k x x I f LOF f LOF 1 1 1 , 1 U γ 6.7 Pada iterasi ke – L terdapat L-1 fungsi basis yang ada dalam model dan fungsi indikator I bernilai nol jika paling sedikit satu peubah penjelas masuk, dan lainnya bernilai satu. Besarnya nilai γ bernilai 0 menunjukkan kekuatan penalty yang digunakan sebagai kontrol dari peubah penjelas yang akan dimasukan. Besarnya nilai γ yang optimum bergantung pada kondisi tertentu tingkat kolinearitas dan besarnya goodness -of- fit yang digunakan oleh peng- guna dalam membentuk model yang sederhana parsimony models. Hal ini dapat dilakukan dengan simulasi beberapa γ secara meningkat, kemudian dilakukan evaluasi melalui nilai GCV akhir. Interpretasi model RSAB seringkali melalui dekomposisi analisis ragam ANOVA, asalkan maksimum interaksinya tidak terlalu tinggi banyak. 41 Dekomposisi analisis ragam merupakan penjumlahan regrouping dari fungsi aditif: ∑ = + = K k k k x B a a x f 1 ˆ = 6.8 ∑ ∑ = = + + + d j i j i ij d i i i x x f x f a 1 , 1 ... , Jumlah fungsi pertama f i adalah jumlah fungsi basis yang hanya satu peubah penjelas, jumlah fungsi kedua f ij menunjukkan jumlah fungsi basis yang terdiri atas dua peubah penjelas interaksi dua, dan seterusnya. Adaptive Splines Threshold Autoregression Adaptive Splines Threshold Autoregression ASTAR adalah metode runtun waktu nonlinear yang menggunakan algoritma metode RSAB dengan peubah penjelas nilai lag data deret waktu. Salah satu model ASTAR dinyatakan: t d t d t d t d t t t Z t Z t Z t Z c Z ε φ φ φ + − − + − + − + = + − − + − + − 2 1 3 2 2 1 1 2 1 2 1 6.9 dimana c adalah konstanta, t 1, t 2 masing-masing nilai knot peubah Z t-d1 dan Z t-d2 , d 1 dan d 2 merupakan lag 1 dan 2. 6.2 Bahan dan Metode Bahan Data GCM dan data curah hujan yang digunakan sama seperti penelitian sebelumnya yang disajikan pada Bab 4 lihat Tabel 4.1. Metode Analisis Peubah-peubah penjelas parameter GCM dilakukan pereduksian dimensi dengan mengunakan analisis komponen utama. Banyaknya komponen utama didasarkan pada nilai akar ciri eigen value: λ ≥ 1 dan melalui scree plot. Prosedur ini dilakukan untuk mengatasi kasus multikolinearitas. Selanjutnya, skor komponen yang terbentuk digunakan sebagai peubah penjelas pada pemodelan dengan metode RSAB dan regresi komponen utama RKU. 42 Pada tahap awal, pembentukan model dilakukan dengan metode RSAB. Pada proses pembentukan dimulai dari model yang paling sederhana tanpa interaksi hingga model kompleks interaksi dua dan tiga. Pemilihan model terbaik dilakukan dengan simulasi melalui pemasukan input: jumlah fungsi basis, banyaknya interaksi, minimal pengamatan di setiap subregion. Penentuan jumlah fungsi basis berdasarkan banyaknya peubah penjelas yang digunakan. Dan Stenberg 2001 menyarankan jumlah fungsi basis paling sedikit dua sampai empat kali jumlah peubah penjelas. Jumlah basis fungsi yang digunakan adalah 80, 120, dan 160, karena jumlah peubah penjelasnya sebanyak 40. Jumlah minimal pengamatan di setiap subregion sampai saat ini masih belum jelas, karena terbatasnya penelitian mengenai permasalahan tersebut. Sutikno dan Boer 2005 menggunakan minimal 5 pada setiap subregion. Semakin kecil banyaknya pengamatan misal n=1 maka model semakin bergerigi, sehingga akan menghasilkan model yang baik pada saat verifikasi, namun pada validasi model menurun tingkat ketepatannya. Penentuan jumlah minimal pengamatan dilakukan simulai, n=5, 10, dan 20. Untuk mengatasi atau mengurangi terjadinya kasus multikolinearitas dilakukan penambahan penalty γ. Penentuan besarnya nilai γ dilakukan disimulasi, yaitu: γ = 0.00 tidak korelasi, 0.05 moderat dan 0.1 berat. Pemilihan besarnya γ mengikuti metode yang dilakukan oleh Friedman 1991, karena penelitian untuk kasus iklim terutama pemodelan SD sangat terbatas. Dalam proses pemodelan, data dibagi menjadi 2 bagian yaitu untuk verifikasi model 1967 – 1998 dan validasi model 1999-2000. Kriteria pemilih- an model terbaik digunakan R 2 , dan R 2 -terkoreksi. Model terbaik jika memiliki R 2 , dan R 2 -terkoreksi terbesar. Di samping itu pemilihan model terbaik digunakan data bebas data validasi, dengan kriteria RMSEP, MAEP, dan korelasi antara data aktual observasi dan nilai dugaan. Semakin kecil nilai RMSEP dan MAEP semakin baik model yang dihasilkan. Sebaliknya, semakin besar nilai korelasi semakin baik model tersebut. Langkah berikutnya adalah pemodelan dengan menggunakan regresi berganda komponen utama RKU. Untuk mengetahui tingkat ketepatan model 43 dari kedua metode digunakan kriteria RMSEP, MAEP, dan analisis korelasi antara data aktual observasi dan nilai dugaan.

6.3 Hasil dan Pembahasan Pendugaan model dengan RSAB