SUPPORT VECTOR REGRESSION SVR

2.4 SUPPORT VECTOR MACHINE SVM

Support Vector Machines SVM adalah satu kumpulan teknik klasifikasi dan regresi, yang merupakan pengembangan algoritma non-linear dan dikembangkan di Rusia pada tahun enam puluhan. Seperti yang telah diuraikan, SVM dapat digunakan baik untuk klasifikasi atau regresi, yang membatasi perhatian untuk sisa pekerjaan ini. Dalam berikut ini, ikhtisar singkat teori di balik menggunakan SVM untuk estimasi fungsi, memperkenalkan pada saat yang sama dan waktu yang paling relevan pengertian dan parameter, dengan khusus memperhatikan parameter yang dampaknya diselidiki di kemudian hari. Dalam arti, ikhtisar ini untuk memahami kinerja bagian evaluasi, tetapi untuk cakupan yang lebih menyeluruh dari SVM merujuk pada survei pembaca yang sangat baik. SVM Bermolen, 2008 adalah suatu algoritma yang mencoba menemukan pemisah linear hyper- plane antara titik data dari dua kelas dalam ruang multidimensi. SVM cocok untuk berurusan dengan interaksi antara fitur dan fitur berlebihan . Gupta et al., 2011

2.5 SUPPORT VECTOR REGRESSION SVR

SVR merupakan penerapan support vector machine SVM untuk kasus regresi. Dalam kasus regresi output berupa bilangan riil atau kontinue. SVR merupakan metode yang dapat mengatasi overfitting, sehingga akan menghasilkan performansi yang bagus Smola dan Scholkopf, 2004. Misalnya ada λ set data training, x j. ,y j N x x x x ℜ ⊆ =  } , , { 3 2 1 dimana j = 1,2,… λ dengan input dan output yang bersangkutan ℜ ⊆ = } ,....., { λ y y y i . Dengan SVR, akan ditemukan suatu fungsi fx yang mempunyai deviasi paling besar ε dari target aktual y i Misalnya kita mempunyai fungsi berikut sebagai garis regresi untuk semua data training. Maka dengan SVR, ma nakala ε sama dengan 0 akan didapatkan regresi yang sempurna. b x w x f T + = ϕ 1 Universitas Sumatera Utara dimana φx menunjukkan suatu titik didalam feature space F hasil pemetaan x di dalam input space. Koefisien w dan b diestimasi dengan cara meminimalkan fungsi resiko risk function yang didefinisikan dalam persamaan 2 ∑ = ∈ + λ λ 1 2 , 1 2 1 min i i i x f y L C w 2 Subject to λ ε ϕ ε ϕ ,..., 2 , 1 , = ≤ + − ≤ − − i b y x w b x w y i i i i Dimana    ≥ − − − = lain yang untuk x f y x f y x f y L i i i i i i , , ε ε 3 Faktor 2 w dinamakan reguralisasi. Meminimalkan 2 w akan membuat suatu fungsi setipis mungkin, sehingga bisa mengontrol kapasitas fungsi. Faktor kedua dalam fungsi tujuan adalah kesalahan empirik empirical error yang diukur dengan ε- insensitive loss function. Menggunakan ide ε-insensitive loss function harus meminimalkan norm dari w agar mendapatkan generalisasi yang baik untuk fungsi regresi f. Karena itu perlu menyelesaikan problem optimasi berikut: 2 2 1 min w 4 Subject to λ ε ϕ ε ϕ ,..., 2 , 1 , = ≤ + − ≤ − − i b y x w b x w y i i i i Asumsikan bahwa ada suatu fungsi f yang dapat mengaproksimasi semua titik i i y x , dengan presisi ε. Dalam kasus ini diasumsikan bahwa semua titik ada dalam 2 1 2 2 x b b y yˆ y e + − = − = ∑ ∑ ∑ Universitas Sumatera Utara rentang ε ± f feasible. Dalam hal ketidaklayakan infeasible, dimana mungkin ada beberapa titik yang mungkin keluar dari rentang ε ± f , bisa ditambahkan variabel slack ξ, ξ untuk mengatasi masalah pembatas yang tidak layak infeasible constraint dalam problem optimasi. Selanjutnya problem optimasi di atas bisa diformulasikan sebagai berikut: ∑ = + λ ξ ξ λ 1 2 , 1 2 1 min i i i C w 5 Subject to , ,..., 2 , 1 , ,..., 2 , 1 , ≥ = ≤∈ − + − = ≤∈ − − − i i i i i i i T i i b y x w i b x w y ξ ξ λ ξ ϕ λ ξ ϕ Konstanta C0 menentukan tawar menawar trade off antara ketipisan fungsi f dan batas atas deviasi lebih dari ε masih ditoleransi. Semua deviasi lebih besar daripada ε akan dikenakan pinalty sebesar C. Dalam SVR, ε ekuivalen dengan akurasi dari aproksimasi terhadap data training. Nilai ε yang kecil terkait dengan nilai yang tinggi pada variabel slack i ξ dan akurasi aproksimasi yang tinggi. Sebaliknya, nilai yang tinggi untuk ε berkaitan dengan nilai i ξ yang kecil dan aproksimasi yang rendah. Menurut persamaan 5 nilai yang tinggi untuk variabel slack akan membuat kesalahan empirik mempunyai pengaruh yang besar terhadap faktor regulasi. Dalam SVR, support vector adalah data training yang terletak pada dan diluar batas f dari fungsi keputusan, karena itu jumlah support vector menurun dengan naiknya ε. Dalam formulasi dual, problem optimisasi dari SVR adalah sebagai berikut: ∑ ∑ ∑∑ = = = = + ∈ − − +     − − − λ λ λ λ α α α α α α α α 1 1 1 1 , 2 1 max i i i i i i i j i j j i j i i y x x K 6 Subject to Universitas Sumatera Utara λ α λ α α α λ ,..., 2 , 1 , ,..., 2 , 1 , 1 = ≤ ≤ = ≤ ≤ = − ∑ = i C i C i i i i i Dimana C didefinisikan oleh user, j i x x K , adalah dot-product kernel yang didefinisikan sebagai j i T j i x x x x K ϕ ϕ = , . Dengan menggunakan langrange multiplier dan kondisi optimalitas, fungsi regresi secara eksplisit dirumuskan sebagai berikut: b x x K x f i i i i + − = ∑ = λ α α 1 , 7

2.6 POHON KEPUTUSAN