Estimator Pemilihan Parameter Pemulus

ISBN: 978-602-19590-2-2 Fungsi kernel Triangle dan Gaussian menurut Hardle [4] didefiniskan sebagai : a. Kernel Triangle : K x =   x  1 I   1  x b. Kernel Gaussian : K x =          2 2 1 exp 2 1 x       x Dengan I adalah fungsi indikator. Regresi kernel adalah teknik statistik nonparametrik untuk mengestimasi fungsi regresi x m pada model regresi nonparametrik i i i x m y    . Nadaraya dan Watson tahun 1964 mendefinisikan estimator regresi kernel sehingga disebut estimator Nadaraya-Watson, Hardle [4], yaitu :        n i i h n i i i h x x K n y x x K n x m 1 1 1 1 ˆ atau ˆ x m = i n i h i y x w  1 ;                       n i i i n i i i hi h x x K h x x K h x x K h h x x K h x w 1 1 1 1 Bandwidth h adalah parameter pemulus smoothing yang berfungsi untuk mengontrol kemulusan dari kurva yang diestimasi. Bandwith yang terlalu kecil akan menghasilkan kurva yang undersmoothing yaitu sangat kasar dan sangat fluktuatif, dan sebaliknya bandwith yang terlalu lebar akan menghasilkan kurva yang oversmoothing yaitu sangat mulus, tetapi tidak sesuai dengan pola data, Hardle [4]. Oleh karena itu, harus dilakukan pemilihan bandwidth yang optimal. Salah satu metode untuk mendapatkan h optimal adalah dengan menggunakan kriteria Generalized Cross Validation GCV, Eubank [2], yang didefinisikan sebagai berikut: 2 1         h H I tr n MSE h GCV dengan MSE =    n i i h i x m y n 1 2 1 Dalam hal ini, h optimal yang terpilih adalah nilai h yang memberikan nilai GCV h minimum, kurva regresi yang dihasilkan cukup mulus dan sesuai dengan pola data.

2.2 Estimator

Penalized Spline Fungsi spline dengan orde p adalah suatu fungsi m yang dapat dinyatakan sebagai berikut:             K k p k i k p p i p i i i x x x x x m 1 1 1 ...      dengan K adalah banyaknya knot dan          k k p k i p k i x x x x     , , Dari bentuk matematis fungsi spline tersebut, dapat dikatakan bahwa spline merupakan potongan- potongan polinomial dimana segmen-segmen polinomial yang berbeda digabungkan bersama pada titik knot K    , , , 2 1  untuk menjamin sifat kontinuitasnya. Fungsi spline untuk n pengamatan dalam bentuk matriks dapat dituliskan sebagai berikut: 583 KNM XVI - 3-6 Juli 2012 – UNPAD, Jatinangor                                                                1 1 1 2 1 2 1 2 2 2 2 1 2 1 1 1 1 2 1 1 1 2 1 1 1 1 K p p p p K n p n p n n n p K p p p K p p n x x x x x x x x x x x x x x x x m x m x m                      sehingga  X X m  Estimator penalized spline dari X m dapat dituliskan sebagai ˆ ˆ X X m  Nilai  ˆ diperoleh dengan menggunakan Estimator Penalized Spline yaitu meminimumkan fungsi Penalized Least Square PLS:       K k k p n i i i x m y 1 2 2   4 dengan  adalah suatu parameter pemulus, K adalah jumlah knot, dan p adalah orde polinomial. Dengan meminimumkan fungsi PLS pada persamaan 4, sehingga diperoleh  ˆ , yaitu:   Y X D X X T T 1 ˆ      Bentuk estimasi dari fungsi ˆ X m menurut Wand dan Jones [9], secara matriks dituliskan sebagai :   Y X D X X X X m T T 1 ˆ    

2.3 Pemilihan Parameter Pemulus

 Optimal Parameter  merupakan pengontrol keseimbangan antara kecocokan terhadap data goodness of fit dan kemulusan kurva penalty. Jika  besar maka estimasi fungsi yang diperoleh akan semakin mulus, namun kemampuan untuk memetakan data tidak terlalu baik. Sebaliknya, jika  kecil maka estimasi fungsi yang diperoleh akan semakin kasar, Fahrmeir dan Tuhtz [3]. Oleh karena itu, dalam memilih nilai  diharapkan nilainya optimal agar diperoleh estimasi fungsi yang mulus dan pemetaan data yang baik. Suatu kriteria untuk  akan dibatasi pada kelas estimator linier, yaitu: Y H m    dengan   T T X D n X X X H 1      dimana untuk setiap  ada matriks pemulus H    berukuran n × n dengan H    simetri dan semidefinit positif. Identik dengan penentuan bandwith h optimal dalam estimator Kernel, untuk mendapatkan  optimal digunakan metode Generalized Cross Validation GCV, Eubank [2] yang didefinisikan sebagai berikut: 2 1 ] [    H I tr n MSE GCV    dengan      n i i i x m y n MSE 1 2 1  

2.4 Pemilihan Jumlah Knot Optimal