ISBN: 978-602-19590-2-2 Fungsi kernel
Triangle
dan
Gaussian
menurut Hardle [4] didefiniskan sebagai : a.
Kernel
Triangle
: K
x
=
x
1
I
1
x
b. Kernel Gaussian
: K
x
=
2
2 1
exp 2
1
x
x
Dengan I adalah fungsi indikator. Regresi kernel adalah teknik statistik nonparametrik untuk mengestimasi fungsi
regresi x
m pada model regresi nonparametrik
i i
i
x m
y
. Nadaraya dan Watson tahun 1964 mendefinisikan estimator regresi kernel
sehingga disebut estimator Nadaraya-Watson, Hardle [4], yaitu :
n i
i h
n i
i i
h
x x
K n
y x
x K
n x
m
1 1
1 1
ˆ
atau
ˆ x m
=
i n
i h i
y x
w
1
;
n i
i i
n i
i i
hi
h x
x K
h x
x K
h x
x K
h h
x x
K h
x w
1 1
1 1
Bandwidth h
adalah parameter pemulus
smoothing
yang berfungsi untuk mengontrol kemulusan dari kurva yang diestimasi.
Bandwith
yang terlalu kecil akan menghasilkan kurva yang
undersmoothing
yaitu sangat kasar dan sangat fluktuatif, dan sebaliknya
bandwith
yang terlalu lebar akan menghasilkan kurva yang
oversmoothing
yaitu sangat mulus, tetapi tidak sesuai dengan pola data, Hardle [4]. Oleh karena itu, harus dilakukan pemilihan
bandwidth
yang optimal. Salah satu metode untuk mendapatkan
h optimal adalah dengan menggunakan kriteria
Generalized Cross Validation
GCV, Eubank [2], yang didefinisikan sebagai berikut:
2
1
h
H I
tr n
MSE h
GCV
dengan MSE =
n i
i h
i
x m
y n
1 2
1
Dalam hal ini,
h
optimal yang terpilih adalah nilai
h
yang memberikan nilai
GCV h
minimum, kurva regresi yang dihasilkan cukup mulus dan sesuai dengan pola data.
2.2 Estimator
Penalized Spline
Fungsi spline dengan orde p adalah suatu fungsi
m
yang dapat dinyatakan sebagai berikut:
K k
p k
i k
p p
i p
i i
i
x x
x x
x m
1 1
1
...
dengan K adalah banyaknya knot dan
k
k p
k i
p k
i
x x
x x
, ,
Dari bentuk matematis fungsi spline tersebut, dapat dikatakan bahwa spline merupakan potongan- potongan polinomial dimana segmen-segmen polinomial yang berbeda digabungkan bersama pada
titik knot
K
,
, ,
2 1
untuk menjamin sifat kontinuitasnya. Fungsi spline untuk n pengamatan dalam bentuk matriks dapat dituliskan sebagai berikut:
583
KNM XVI - 3-6 Juli 2012
– UNPAD, Jatinangor
1 1
1 2
1 2
1 2
2 2
2 1
2 1
1 1
1 2
1 1
1 2
1
1 1
1
K p
p p
p K
n p
n p
n n
n p
K p
p p
K p
p
n
x x
x x
x x
x x
x x
x x
x x
x x
m x
m x
m
sehingga
X X
m
Estimator penalized spline dari
X m
dapat dituliskan sebagai
ˆ ˆ
X X
m
Nilai
ˆ
diperoleh dengan menggunakan Estimator Penalized Spline yaitu meminimumkan fungsi Penalized Least Square PLS:
K k
k p
n i
i i
x m
y
1 2
2
4 dengan
adalah suatu parameter pemulus,
K
adalah jumlah knot, dan
p
adalah orde polinomial.
Dengan meminimumkan fungsi PLS pada persamaan 4, sehingga diperoleh
ˆ
, yaitu:
Y X
D X
X
T T
1
ˆ
Bentuk estimasi dari fungsi
ˆ X m
menurut Wand dan Jones [9], secara matriks dituliskan sebagai :
Y X
D X
X X
X m
T T
1
ˆ
2.3 Pemilihan Parameter Pemulus
Optimal
Parameter
merupakan pengontrol keseimbangan antara kecocokan terhadap data goodness of fit dan kemulusan kurva penalty. Jika
besar maka estimasi fungsi yang diperoleh akan semakin mulus, namun kemampuan untuk memetakan data tidak terlalu baik.
Sebaliknya, jika
kecil maka estimasi fungsi yang diperoleh akan semakin kasar, Fahrmeir dan Tuhtz [3]. Oleh karena itu, dalam memilih nilai
diharapkan nilainya optimal agar diperoleh estimasi fungsi yang mulus dan pemetaan data yang baik.
Suatu kriteria untuk
akan dibatasi pada kelas estimator linier, yaitu:
Y H
m
dengan
T T
X D
n X
X X
H
1
dimana untuk setiap
ada matriks pemulus H
berukuran n × n dengan H
simetri dan semidefinit positif. Identik dengan penentuan bandwith h optimal dalam estimator Kernel, untuk
mendapatkan
optimal digunakan metode Generalized Cross Validation GCV, Eubank [2] yang didefinisikan sebagai berikut:
2 1
] [
H I
tr n
MSE GCV
dengan
n i
i i
x m
y n
MSE
1 2
1
2.4 Pemilihan Jumlah Knot Optimal