Model Regresi PENGGUNAAN PROJECTION PURSUIT UNTUK

39 data asal, seperti keadaan data nonlinear, akan tercermin dalam data hasil proyeksi. Transformasi reduksi dimensi yang biasa digunakan adalah proyeksi linear atau kombinasi linear dari peubah-peubah asal karena proyeksi ini paling sederhana dan mudah diinterpretasi. Jika X = {x 1 , x 2 , ... , x p } adalah matriks berdimensi p yang terdiri dari p vektor peubah asal maka proyeksi linear ℜ p à ℜ k adalah: Z T = A X T , X ∈ ℜ p , Z ∈ ℜ k , kp 4.1 di mana A adalah matriks pemetaan atau proyeksi berukuran k×p dengan pangkat

k. Matriks A bersifat ortonormal. Jika X adalah peubah acak berdimensi p dengan

sebaran F maka Z berdimensi k dengan sebaran F A . Metode PP menggunakan suatu indeks proyeksi, IF A , untuk mendapatkan proyeksi A. Indeks proyeksi ini mencirikan struktur yang akan ada dalam proyeksinya, yang dimaksimumkan melalui optimisasi numerik terhadap parameternya. Indeks proyeksi ini bersifat invariant Huber 1985, yaitu bahwa indeks proyeksi tidak tergantung pada penskalaan dan translasi: IsZ+t = IZ, s ? 0 4.2 di mana s dan t adalah bilangan riil.

4.3. Model Regresi

Projection Pursuit Model PPR bersifat nonparametrik dan termasuk kelompok metode data- driven di mana model yang diperoleh sesuai dengan karakteristik data. Metode ini dapat diterapkan untuk data GCM yang bersifat curse of dimensionality dan multikolinearitas dan data curah hujan yang bersifat nonlinear. Dalam analisis regresi, peubah acak X sebagai prediktor dan Y sebagai peubah respon. Objektif dari analisis regresi adalah menduga nilai harapan EY|X berdasarkan contoh acak {x i ,y i ; i=1,2, ... ,n}. Biasanya diasumsikan bahwa bentuk fungsi regresi diketahui sehingga dapat dilakukan pemodelan parametrik. Namun bila fungsi regresi tidak tepat akan menghasilkan model yang tidak sesuai dengan kondisi datanya. Untuk kasus seperti ini diperlukan model nonparametrik. Pendekatan regresi nonparametrik, seperti kernel dan spline, umumnya berdasarkan rataan lokal dimensi p local averaging, yaitu pendugaan regresi 40 pada titik x adalah rata-rata respon dari sejumlah pengamatan dengan prediktor- prediktor sekitar x . Tetapi metode rataan lokal tidak tepat untuk keadaan data yang curse of dimensionality. Kondisi data ini dapat diatasi dengan fungsi polinomial berordo tinggi dengan ukuran contoh besar, atau dengan recursive partitioning tetapi dengan ukuran contoh yang cukup pada setiap partisi data pengamatan. Friedman dan Stuetzle 1981 menyarankan penggunaan model PPR untuk mengatasi masalah- masalah pada rataan lokal, fungsi polinomial, dan recursive partitioning, yaitu dengan menggunakan sejumlah fungsi pemulus dari hasil proyeksi atau reduksi dimensi seperti pada persamaan 4.7. Bentuk umum model SD tercantum pada persamaan 2.1. Dalam penelitian ini model SD yang digunakan hanya melibatkan satu peubah sirkulasi atmosfir global luaran GCM sebagai prediktor X dan satu peubah iklim lokal sebagai prediktan atau peubah respon y, yaitu: y t = fX t ×g , t=1,2, ... ,n; g=1,2, ... ,p 4.3 di mana: y t = peubah iklim lokal curah hujan, X t ×g = peubah luaran GCM presipitasi, t = banyaknya waktu bulanan, g = banyaknya grid dalam domain GCM 8×8 grid. Peubah prediktornya hanya satu tetapi datanya ada pada setiap grid dalam suatu domain GCM yang contiguous. Dalam hal ini setiap grid dianggap sebagai peubah prediktor sehingga modelnya adalah model regresi berganda. Data tersebut tidak dapat dimodelkan secara langsung karena adanya korelasi spasial antar grid atau multikolinearitas antar peubah prediktor. Untuk masalah ini diperlukan metode pre-processing terhadap X. Metode pre-processing akan mentransformasi X t ×g menjadi peubah baru Z k×g kg sehingga model 4.3 menjadi model berikut. y t = fZ t ×k , t=1,2, ... ,n; k=1,2, ... ,q 4.4 di mana: y t = peubah respon, Z t ×k = peubah hasil pre-processing, t = banyaknya waktu, k = banyaknya peubah hasil pre-processing. 41 Selama ini pemodelan SD menggunakan PCR dengan PCA untuk pre-processing. Dengan PCA matriks X akan ditransformasi menjadi Z dengan persamaan 4.1 yang disebut skor komponen utama dengan total keragaman terbesar. Model regresi dibentuk berdasarkan Z seperti berikut. y = ? + ? 1 z 1 + ? 2 z 2 + … + ? k z k + d 4.5 atau y = ß + ß 1 x 1 + ß 2 z 2 + … + ß g x g + e 4.6 di mana ß = ? dan ß i = ∑ = γ α k 1 j j ji dan a ji = koefisien transformasi. Dalam metode PP, matriks X juga ditransformasi dengan persamaan 4.1, tetapi prosedur mendapatkan matriks A berbeda dengan prosedur dalam metode PCA. Matriks A diperoleh dengan cara memaksimum indeks proyeksi, IA, seperti pada persamaan 4.8. Matriks A disebut matriks koefisien proyeksi dan modelnya adalah: ∑ ∑ = = • = = M 1 m m M 1 m y m m X S Z S a a a 4.7 di mana S disebut fungsi pemulus dan Z = a m ·X yaitu inner product antara a m dan X . Besaran a m disebut faktor loading, sedangkan Z disebut skor peubah prediktor. Ilustrasi geometrik proyeksi X yang sederhana dua peubah X1 dan X2 terhadap Z dan nilai fungsi y tercantum pada Gambar 4.1. X1 X2 Y α i X a Z • = i X S a • Gambar 4.1. Nilai fungsi Y dan Proyeksi X terhadap Z 42 Pemodelan PPR diawali dengan memaksimumkan indeks proyeksi, mene ntukan fungsi- fungsi peubah tunggal secara empirik berdasarkan proyeksi- proyeksi optimum, serta menjumlahkan fungsi- fungsi tersebut Jones Sibson 1987. Johnny, Chan Shi 1997 menyatakan bahwa metode PP dapat memroses data yang berdimensi besar, tidak berdistribusi normal, dan nonlinear. Fungsi tersebut merupakan kombinasi linear dari peubah-peubah asal X. Proses penentuan fungsi pemulus ini dilakukan secara iteratif. Malthouse 1995 mengatakan bahwa metode PPR dapat melakukan pendugaan dengan fungsi- fungsi ridge yang kontinu dan adanya kondisi perlu dan cukup bagi pendugaan fX dengan penjumlahan sebanyak M fungsi ridge, di mana Mp. Algoritme penentuan model PPR Friedman Stuetzle 1981 adalah: 1 Penentuan nilai awal residual dan nilai M banyaknya fungsi. r i ? y i , i=1,2, ... ,n M ? 0 di mana ? y i =0 peubah respon dibakukan. 2 Penentuan a dan fungsi S a dalam model. Untuk kombinasi linear Z = a m •X, tentukan fungsi pemulus S a Z sesuai dengan nilai- nilai Z. Gunakan indeks proyeksi, Ia berikut. ∑ ∑ = = • − − = t 1 i 2 i t 1 i 2 i a i r x r 1 I a S a 4.8 Tentukan vektor koefisien a M+1 yang memaksimumkan Ia atau a M+1 = argmax a Ia dan fungsi pemulusnya, z S 1 M + α . 3 Akhir algoritme. Jika Ia lebih kecil dari nilai threshold, maka stop; jika tidak, ubah nilai residual dan nilai M sebagai berikut, kemudian lanjutkan ke langkah 2. r i ? r i - S a Z, i=1,2, ... ,n M ? M+1. Fungsi pemulus S a Z ditentukan secara nonparametrik. Bentuk umum hubungan antara peubah respon dan Z dengan fungsi pemulusnya dapat dituliskan sebagai berikut. 43 y i = S a z i + r i 4.9 Pada umunya model regresi dalam bentuk seperti berikut: y i = fx i + e i 4.10 di mana e i adalah iid dengan Ee i =0 dan f• kontinu. Dalam regresi nonparametrik fungsi f • diduga dengan S a •, yang ditentukan berdasarkan rataan lokal, yaitu: Sy i = AVE i-k=j=i+k y j 4.11 untuk lebar jendela bandwidth k tertentu dan dengan formulasi AVE seperti median atau rataan. Pemilihan nilai k sangat menentukan keragaman penduga dan besarnya bias. Nilai k terlalu kecil akan memperbesar ragam penduga, sedangkan nilai k yang terlalu besar akan memperbesar bias. Penentuan fungsi pemulus S a • menurut Friedman dan Stuetzle 1981: 1 Tentukan median untuk setiap tiga respon secara sekuensial untuk menghilangkan pengaruh data pencilan. 2 Tentukan penduga ragam respon pada setiap titik dengan residual kuadrat rata- rata average squared residual dari penduga linear lokal dengan k tertentu. 3 Pemulusan penduga ragam dengan rataan bergerak dan k tetap untuk menghindari perhitungan lebih dari satu kombinasi linear Z = a m •X. 4 Pemulusan sekuen dari tahap 1 dengan pengepasan fitting linear lokal dengan nilai k yang diperoleh pada tahap 3. Hall 1989 menguraikan model PPR secara matematik berdasarkan fungsi kernel kernel-based PPR dan sifat penduga PP. Pada dasarnya bahwa solusi PPR invariant terhadap setiap transformasi baik rotasi maupun penskalaan peubah prediktor. Berikut ini adalah pendugaan PP untuk mendapatkan proyeksi pertama. Berdasarkan persamaan 4.10, Ey i |x i =fx, di mana f• disebut fungsi target Hall 1989. Jika S• adalah fungsi pemetaan ℜ p à ℜ , f• adalah fungsi kepekatan dalam ℜ p , dan X adalah peubah acak berdimensi p, maka untuk suatu skalar z, S a z = E{fx| a•X=z} 4.12 Proyeksi pertama terhadap fx adalah fungsi f 1 x= z S 1 α di mana a 1 meminimumkan La berikut. La = E[{fx - S a z} 2 ] 4.13 44 sehingga penduga a 1 akan meminimumkan penduga La, yaitu: ∑ = α • α − = α n 1 i 2 i k } X S ˆ y { n 1 Lˆ i 4.14 dan penduga proyeksi pertamanya adalah X ˆ Sˆ x fˆ 1 1 1 • α = α 4.15 Penduga z S ˆ α akan konvergen terhadap S a z dan konsisten, di mana 1 ˆ á juga konvergen terhadap a. Bentuk model SD persamaan 4.3 adalah: y t = fX t×g + e t , t=1,2, ... ,n; g=1,2, ... ,p sedangkan model PPR persamaan 4.7 adalah: t a ε + • = ∑ = M 1 m m t y m txg a X S sehingga: ∑ = • = M 1 m m f m X S a a X di mana: X S m m • α α = suatu fungsi yang tidak diketahui; a m = a m1 , a m2 , ... , a mp = vektor satuan arah projection pursuit; X tg = x t1 , x t2 , ... , x tp = peubah prediktor; y t = peubah respon; e t = faktor acak dengan Ee t = 0 dan Vare t = s 2 ; X tg dan e t bebas; Didefinisikan bahwa:

1. fX = Ey