Principal Component Analysis PCA Support Vector Regression SVR

berbasis model linear atau non linear, berbasis parametrik dan non parametrik, berbasis proyeksi dan seleksi, serta teknik berbasis model-driven atau data-driven. Pembedaan mengenai model yang dipergunakan sesuai kategori, disajikan secara detail pada Tabel 1. Suatu model perhitungan SD bisa termasuk ke dalam kombinasi ke lima kategori tersebut, sebagai contoh PCR termasuk kategori metode berbasis regresi, linear, parametrik, proyeksim dan data-driven. Pengembangan model-model downscaling sangat diperlukan untuk pelaksanaan kegiatan kajian dampak keragaman dan perubahan iklim dan penyusunan strategi atau pembuatan keputusan baik pada tingkat pembuatan keputusan sampai petani. Tabel 1 Kategori teknik downscaling Sumber : Sutikno 2008

2.3 Principal Component Analysis PCA

Salah satu tantangan dalam analisis peubah ganda adalah mereduksi dimesi dari himpunan data peubah ganda yang besar. Hal ini sering dilakukan dengan cara mereduksi himpunan peubah tersebut menjadi himpunan peubah yang lebih kecil atau himpunan peubah baru yang banyaknya lebih sedikit. Peubah- peubah baru tersebut merupakan fungsi dari peubah asal atau peubah asal itu sendiri yang memiliki proporsi informasi yang signifikan mengenai himpunan data tersebut Dillon Goldstein 1984. PCA dapat mereduksi q peubah pengamatan menjadi k peubah baru yang saling ortogonal yang masing-masing k peubah baru tersebut merupakan kombinasi linear dari q peubah asal. Pemilihan k peubah baru sedemikian hingga keragaman yang dimiliki p peubah lama dapat diterangkan secara optimal oleh k peubah baru. PCA efektif jika antar q peubah asal memiliki korelasi yang cukup besar Dillon Goldstein 1984. Ada beberapa fungsi dari penggunaan PCA diantaranya adalah Dillon Goldstein 1984: 1. Identifikasi peubah baru yang mendasari data peubah ganda, yang bercirikan: merupakan kombinasi linear peubah-peubah asal; jumlah kuadrat koefisien dalam kombinasi linear tersebut adalah satu;tidak berkorelasi;dan mempunyai ragam berurut dari yang terbesar ke yang terkecil. 2. Mengurangi banyaknya dimensi himpunan peubah yang biasanya terdiri atas peubah yang banyak dan saling berkorelasi menjadi peubah-peubah baru yang tidak berkorelasi dengan mempertahankan sebanyak mungkin keragaman dalam himpunan tersebut. 3. Memilih peubah asal yang banyak memberi kontribusi informasi atau menghilangkan peubah asal yang mempunyai kontribusi informasi relatif kecil. Hasil PCA dapat digunakan untuk analisis lebih lanjut misalkan pengelompokkan clustering dan regresi komponen utama.

2.4 Support Vector Regression SVR

SVR merupakan penerapan support vector machine SVM untuk kasus regresi. Dalam kasus regresi output berupa bilangan riil atau kontinyu. SVR merupakan metode yang dapat mengatasi overfitting, sehingga akan menghasilkan performansi yang bagus Smola dan Schölkopf, 2003. Pada Gambar 3, dimisalkan diberikan data training 1 1 2 2 [ , , , ,..., , ] l l x y x y x y dengan vektor input x i dan data output y i yang dinyatakan sebagai suatu bilangan nyata bernilai kontinyu. Berdasarkan dari data, SVR ingin menemukan suatu fungsi regresi fx yang dapat mengaproksimasi output ke suatu target aktual, dengan eror toleransi- ε, dan kompleksitas yang minimal. Fungsi regresi fx dapat dinyatakan dengan formula sebagai berikut Smola dan Schölkopf, 2003: T f x w x b    2 Dimana φx menunjukkan suatu titik didalam ruang fitur berdimensi lebih tinggi, hasil pemetaan dari input vektor x di dalam ruang input yang berdimensi lebih rendah. Gambar 3 Fungsi regresi pada SVR Sumber : Smola dan Schölkopf 2003 Koefisien w dan b diestimasi dengan cara meminimalkan fungsi resiko risk function yang didefinisikan dalam persamaan:     2 1 1 1 min , 2 i i i w C L y f x       3a yang memenuhi:   i i y w x b      3b   , 1, 2,..., i i w x y b i        Dimana,       , 0, untuk yang lain i i i i i i y f x y f x L y f x            3c Faktor 2 w dinamakan reguralisasi. Meminimalkan 2 w akan membuat suatu fungsi setipis mungkin, sehingga dapat mengontrol kapasitas fungsi. Empirical error diukur dengan ε-insensitive loss function yang diharuskan meminimalkan norm dari w agar mendapatkan generalisasi yang baik untuk fungsi regresi fx Smola dan Schölkopf, 2003. Oleh karena itu diperlukan untuk menyelesaikan problem optimasi berikut: 2 2 1 min w 4a yang memenuhi:   i i y w x b      4b   , 1, 2,..., i i w x y b i        Diasumsikan bahwa ada suatu fungsi f yang dapat mengaproksimasi semua titik   i i y x , dengan presisi ε. Dalam kasus ini kita asumsikan bahwa semua titik ada dalam rentang f   feasible. Dalam hal ketidaklayakan infeasible, dimana mungkin ada beberapa titik yang mungkin keluar dari rentang f   , perlu ditambahkan variable slack ξ, ξ untuk mengatasi masalah pembatas yang tidak layak infeasible constraint dalam problem optimasi seperti yang ditunjukkan pada Gambar 4. Gambar 4 Penambahan variable slack pada SVR Sumber : Smola dan Schölkopf 2003 Selanjutnya problem optimasi di atas bisa diformulasikan sebagai berikut:   2 1 1 1 m i n , 2 l i i i w C x x l    5a yang memenuhi:     - - - £ , 1, 2, ..., - - £ , 1, 2, ..., , ³0 T i i i i i i i i y w j x b x Î i l wj x y b x Î i l x x    5b Konstanta C0 menentukan tawar menawar trade off antara ketipisan fungsi dan batas atas deviasi lebih dari yang masih dapat ditoleransi. Semua deviasi lebih besar daripada ε akan dikenakan pinalti sebesar C. Dalam SVR, ε setara dengan akurasi dari aproksimasi terhadap data training. Nilai ε yang kecil terkait dengan nilai yang tinggi pada variable slack i  dan akurasi aproksimasi yang tinggi. Sebaliknya, nilai yang besar untuk ε berkaitan dengan nilai i  yang kecil dan aproksimasi yang rendah seperti yang diilustrasikan oleh Gambar 5. Gambar 5 Ilustrasi proses SVR Sumber : Smola dan Schölkopf 2003 Nilai yang tinggi untuk variable slack akan membuat empirical error mempunyai pengaruh yang besar terhadap faktor regulasi. Dalam SVR, support vector adalah data training yang terletak pada dan diluar batas f dari fungsi keputusan, karena itu jumlah support vector menurun dengan naiknya ε Smola dan Schölkopf, 2003. Dalam formulasi dual, problem optimisasi dari SVR adalah sebagai berikut:        1 1 1 1 1 max , 2 i i j j i j i j i i i i i i i K x x y                             6a yang memenuhi:   1 , 1, 2, ..., , 1, 2, ..., i i i i i C i C i                  6b dimana nilai C ditentukan sendiri. j i x x K , adalah dot-product kernel yang didefinisikan sebagai     j i T j i x x x x K    , . Dengan menggunakan langrange multiplier dan kondisi optimalitas, fungsi regresi secara eksplisit dirumuskan sebagai berikut:       1 - , i i i i f x K x x b        7

2.5 K-fold Cross Validation