39 data asal, seperti keadaan data nonlinear, akan tercermin dalam data hasil
proyeksi. Transformasi reduksi dimensi yang biasa digunakan adalah proyeksi linear
atau kombinasi linear dari peubah-peubah asal karena proyeksi ini paling
sederhana dan mudah diinterpretasi. Jika X = {x
1
, x
2
, ... , x
p
} adalah matriks berdimensi p yang terdiri dari p vektor peubah asal maka proyeksi linear
ℜ
p
à
ℜ
k
adalah:
Z
T
= A X
T
, X
∈ ℜ
p
, Z ∈
ℜ
k
, kp 4.1
di mana A adalah matriks pemetaan atau proyeksi berukuran k×p dengan pangkat
k. Matriks A bersifat ortonormal. Jika X adalah peubah acak berdimensi p dengan
sebaran F maka Z berdimensi k dengan sebaran F
A
. Metode PP menggunakan suatu indeks proyeksi, IF
A
, untuk mendapatkan proyeksi A. Indeks proyeksi ini mencirikan struktur yang akan ada
dalam proyeksinya, yang dimaksimumkan melalui optimisasi numerik terhadap parameternya. Indeks proyeksi ini bersifat invariant Huber 1985, yaitu bahwa
indeks proyeksi tidak tergantung pada penskalaan dan translasi: IsZ+t = IZ,
s ? 0 4.2
di mana s dan t adalah bilangan riil.
4.3. Model Regresi
Projection Pursuit
Model PPR bersifat nonparametrik dan termasuk kelompok metode data- driven di mana model yang diperoleh sesuai dengan karakteristik data. Metode ini
dapat diterapkan untuk data GCM yang bersifat curse of dimensionality dan multikolinearitas dan data curah hujan yang bersifat nonlinear.
Dalam analisis regresi, peubah acak X sebagai prediktor dan Y sebagai peubah respon. Objektif dari analisis regresi adalah menduga nilai harapan EY|X
berdasarkan contoh acak {x
i
,y
i
; i=1,2, ... ,n}. Biasanya diasumsikan bahwa bentuk fungsi regresi diketahui sehingga dapat dilakukan pemodelan parametrik.
Namun bila fungsi regresi tidak tepat akan menghasilkan model yang tidak sesuai dengan kondisi datanya. Untuk kasus seperti ini diperlukan model nonparametrik.
Pendekatan regresi nonparametrik, seperti kernel dan spline, umumnya berdasarkan rataan lokal dimensi p local averaging, yaitu pendugaan regresi
40 pada titik x
adalah rata-rata respon dari sejumlah pengamatan dengan prediktor- prediktor sekitar x
. Tetapi metode rataan lokal tidak tepat untuk keadaan data yang curse of dimensionality. Kondisi data ini dapat diatasi dengan fungsi
polinomial berordo tinggi dengan ukuran contoh besar, atau dengan recursive partitioning tetapi dengan ukuran contoh yang cukup pada setiap partisi data
pengamatan. Friedman dan Stuetzle 1981 menyarankan penggunaan model PPR untuk mengatasi masalah- masalah pada rataan lokal, fungsi polinomial, dan
recursive partitioning, yaitu dengan menggunakan sejumlah fungsi pemulus dari hasil proyeksi atau reduksi dimensi seperti pada persamaan 4.7.
Bentuk umum model SD tercantum pada persamaan 2.1. Dalam penelitian ini model SD yang digunakan hanya melibatkan satu peubah sirkulasi
atmosfir global luaran GCM sebagai prediktor X dan satu peubah iklim lokal sebagai prediktan atau peubah respon y, yaitu:
y
t
= fX
t ×g
, t=1,2, ... ,n; g=1,2, ... ,p
4.3
di mana: y
t
= peubah iklim lokal curah hujan,
X
t ×g
= peubah luaran GCM presipitasi, t
= banyaknya waktu bulanan, g
= banyaknya grid dalam domain GCM 8×8 grid. Peubah prediktornya hanya satu tetapi datanya ada pada setiap grid dalam
suatu domain GCM yang contiguous. Dalam hal ini setiap grid dianggap sebagai peubah prediktor sehingga modelnya adalah model regresi berganda. Data
tersebut tidak dapat dimodelkan secara langsung karena adanya korelasi spasial antar grid atau multikolinearitas antar peubah prediktor. Untuk masalah ini
diperlukan metode pre-processing terhadap X. Metode pre-processing akan mentransformasi X
t ×g
menjadi peubah baru
Z
k×g
kg sehingga model 4.3 menjadi model berikut.
y
t
= fZ
t ×k
, t=1,2, ... ,n; k=1,2, ... ,q
4.4
di mana: y
t
= peubah respon,
Z
t ×k
= peubah hasil pre-processing, t
= banyaknya waktu, k
= banyaknya peubah hasil pre-processing.
41 Selama ini pemodelan SD menggunakan PCR dengan PCA untuk pre-processing.
Dengan PCA matriks X akan ditransformasi menjadi Z dengan persamaan 4.1
yang disebut skor komponen utama dengan total keragaman terbesar. Model
regresi dibentuk berdasarkan Z seperti berikut.
y = ? + ?
1
z
1
+ ?
2
z
2
+ … + ?
k
z
k
+ d 4.5
atau y = ß
+ ß
1
x
1
+ ß
2
z
2
+ … + ß
g
x
g
+ e 4.6
di mana ß = ?
dan ß
i
=
∑
=
γ α
k 1
j j
ji
dan a
ji
= koefisien transformasi.
Dalam metode PP, matriks X juga ditransformasi dengan persamaan 4.1,
tetapi prosedur mendapatkan matriks A berbeda dengan prosedur dalam metode PCA. Matriks A diperoleh dengan cara memaksimum indeks proyeksi, IA,
seperti pada persamaan 4.8. Matriks A disebut matriks koefisien proyeksi dan modelnya adalah:
∑ ∑
= =
• =
=
M 1
m m
M 1
m
y
m m
X S
Z S
a a
a
4.7
di mana S disebut fungsi pemulus dan Z = a
m
·X yaitu inner product antara a
m
dan
X . Besaran a
m
disebut faktor loading, sedangkan Z disebut skor peubah prediktor.
Ilustrasi geometrik proyeksi X yang sederhana dua peubah X1 dan X2 terhadap Z dan nilai fungsi y tercantum pada Gambar 4.1.
X1
X2 Y
α
i X
a Z
• =
i X
S a
•
Gambar 4.1. Nilai fungsi Y dan Proyeksi X terhadap Z
42 Pemodelan PPR diawali dengan memaksimumkan indeks proyeksi,
mene ntukan fungsi- fungsi peubah tunggal secara empirik berdasarkan proyeksi- proyeksi optimum, serta menjumlahkan fungsi- fungsi tersebut Jones Sibson
1987. Johnny, Chan Shi 1997 menyatakan bahwa metode PP dapat memroses data yang berdimensi besar, tidak berdistribusi normal, dan nonlinear.
Fungsi tersebut merupakan kombinasi linear dari peubah-peubah asal X. Proses
penentuan fungsi pemulus ini dilakukan secara iteratif. Malthouse 1995 mengatakan bahwa metode PPR dapat melakukan pendugaan dengan fungsi-
fungsi ridge yang kontinu dan adanya kondisi perlu dan cukup bagi pendugaan
fX dengan penjumlahan sebanyak M fungsi ridge, di mana Mp.
Algoritme penentuan model PPR Friedman Stuetzle 1981 adalah: 1 Penentuan nilai awal residual dan nilai M banyaknya fungsi.
r
i
? y
i
, i=1,2, ... ,n M ? 0
di mana ? y
i
=0 peubah respon dibakukan.
2 Penentuan a dan fungsi S
a
dalam model.
Untuk kombinasi linear Z = a
m
•X, tentukan fungsi pemulus S
a
Z sesuai dengan nilai- nilai Z. Gunakan indeks proyeksi, Ia berikut.
∑ ∑
= =
• −
− =
t 1
i 2
i t
1 i
2 i
a i
r x
r 1
I
a S
a
4.8
Tentukan vektor koefisien a
M+1
yang memaksimumkan Ia atau a
M+1
= argmax
a
Ia dan fungsi pemulusnya,
z S
1 M
+
α
. 3 Akhir algoritme.
Jika Ia lebih kecil dari nilai threshold, maka stop; jika tidak, ubah nilai
residual dan nilai M sebagai berikut, kemudian lanjutkan ke langkah 2. r
i
? r
i
- S
a
Z, i=1,2, ... ,n
M ? M+1.
Fungsi pemulus S
a
Z ditentukan secara nonparametrik. Bentuk umum hubungan antara peubah respon dan Z dengan fungsi pemulusnya dapat dituliskan
sebagai berikut.
43 y
i
= S
a
z
i
+ r
i
4.9 Pada umunya model regresi dalam bentuk seperti berikut:
y
i
= fx
i
+ e
i
4.10 di mana e
i
adalah iid dengan Ee
i
=0 dan f• kontinu. Dalam regresi nonparametrik fungsi f • diduga dengan S
a
•, yang ditentukan berdasarkan rataan lokal, yaitu:
Sy
i
= AVE
i-k=j=i+k
y
j
4.11 untuk lebar jendela bandwidth k tertentu dan dengan formulasi AVE seperti
median atau rataan. Pemilihan nilai k sangat menentukan keragaman penduga dan besarnya bias. Nilai k terlalu kecil akan memperbesar ragam penduga, sedangkan
nilai k yang terlalu besar akan memperbesar bias. Penentuan fungsi pemulus S
a
• menurut Friedman dan Stuetzle 1981:
1 Tentukan median untuk setiap tiga respon secara sekuensial untuk menghilangkan pengaruh data pencilan.
2 Tentukan penduga ragam respon pada setiap titik dengan residual kuadrat rata- rata average squared residual dari penduga linear lokal dengan k tertentu.
3 Pemulusan penduga ragam dengan rataan bergerak dan k tetap untuk
menghindari perhitungan lebih dari satu kombinasi linear Z = a
m
•X.
4 Pemulusan sekuen dari tahap 1 dengan pengepasan fitting linear lokal dengan nilai k yang diperoleh pada tahap 3.
Hall 1989 menguraikan model PPR secara matematik berdasarkan fungsi kernel kernel-based PPR dan sifat penduga PP. Pada dasarnya bahwa solusi PPR
invariant terhadap setiap transformasi baik rotasi maupun penskalaan peubah prediktor. Berikut ini adalah pendugaan PP untuk mendapatkan proyeksi pertama.
Berdasarkan persamaan 4.10, Ey
i
|x
i
=fx, di mana f• disebut fungsi target Hall 1989. Jika S• adalah fungsi pemetaan
ℜ
p
à
ℜ ,
f• adalah fungsi kepekatan dalam
ℜ
p
, dan X adalah peubah acak berdimensi p, maka untuk suatu
skalar z, S
a
z = E{fx| a•X=z} 4.12
Proyeksi pertama terhadap fx adalah fungsi f
1
x=
z S
1
α
di mana a
1
meminimumkan La berikut. La = E[{fx - S
a
z}
2
] 4.13
44
sehingga penduga a
1
akan meminimumkan penduga La, yaitu:
∑
= α
• α
− =
α
n 1
i 2
i k
} X
S ˆ
y {
n 1
Lˆ
i
4.14 dan penduga proyeksi pertamanya adalah
X ˆ
Sˆ x
fˆ
1 1
1
• α
=
α
4.15 Penduga
z S
ˆ
α
akan konvergen terhadap S
a
z dan konsisten, di mana
1
ˆ
á
juga
konvergen terhadap a.
Bentuk model SD persamaan 4.3 adalah:
y
t
= fX
t×g
+ e
t
, t=1,2, ... ,n; g=1,2, ... ,p
sedangkan model PPR persamaan 4.7 adalah:
t
a ε
+ •
=
∑
= M
1 m
m t
y
m
txg a
X S
sehingga:
∑
=
• =
M 1
m m
f
m
X S
a
a X
di mana:
X S
m
m
• α
α
= suatu fungsi yang tidak diketahui;
a
m
= a
m1
, a
m2
, ... , a
mp
= vektor satuan arah projection pursuit;
X
tg
= x
t1
, x
t2
, ... , x
tp
= peubah prediktor;
y
t
= peubah respon;
e
t
= faktor acak dengan Ee
t
= 0 dan Vare
t
= s
2
; X
tg
dan e
t
bebas; Didefinisikan bahwa:
1. fX = Ey