Estimator Densitas Kernel Tinjauan Pustaka

KNM XVI - 3-6 Juli 2012 – UNPAD, Jatinangor nyimpangan asumsi dalam model regresi linear sehingga diperoleh model regresi yang sesuai. Bentuk atau fungsi dipilih melalui teknik trial dan error sehingga penggunaan transformasi yang tepat akan membawa pada metode pendugaan yang relatif mudah, tetapi kesalahan penggunaan transformasi bisa juga membawa pada metode pendugaan dengan model yang lebih rumit, Neter et al [7]. Pendekatan kedua adalah pendekatan nonparametrik. Estimasi fungsi regresi nonparametrik dilakukan berdasarkan data pengamatan dengan menggunakan teknik pemulusan smoothing . Terdapat beberapa teknik smoothing dalam model regresi nonparametrik antara lain histogram, estimator kernel, deret orthogonal, estimator spline , k-NN, deret fourier, dan wavelet, Eubank [2]. Macam-macam fungsi kernel meliputi kernel Uniform , Triangle , Epanechnikov , Gaussian , kuartik, dan cosines, Hardle [4]. Dalam regresi kernel pemilihan parameter pemulus bandwidth jauh lebih penting dibandingkan dengan memilih fungsi kernel. Fungsi kernel yang umum digunakan adalah kernel Gaussian dan kernel Epanechnicov, Hastie dan Tibshirani [5]. Kernel Triangle sering digunakan karena lebih mudah dan cepat dalam perhitungan, Mathsoft [6]. Sedang salah satu bentuk estimator spline yang sering digunakan adalah Penalized Spline , Ruppert [8]. Tujuan yang ingin dicapai dalam penelitian ini adalah membandingkan estimator kernel dan estimator spline dalam mengestimasi model regresi nonparametrik pada data sekunder berdasarkan kriteria MSE, RMSE, dan MAD.

2. Tinjauan Pustaka

2.1 Estimator Densitas Kernel

Estimator densitas kernel merupakan pengembangan dari estimator histogram. Estimator kernel diperkenalkan oleh Rosenblatt 1956 dan Parzen 1962 sehingga disebut estimator densitas kernel Rosenblatt-Parzen, Hardle [4]. Secara umum kernel K dengan bandwith h menurut Wand dan Jones [9] didefinisikan sebagai:        h x K h x K h 1 , untuk -   x  , h 2 serta memenuhi: i  x K , untuk semua x ; ii      1 dx x K ; iii 2 2        dx x K x ; iv      0 dx x xK maka estimator densitas kernel untuk fungsi densitas x f adalah:               n i i i n i h h h x x K nh x x K n x f 1 1 1 1 ˆ 3 Dari persamaan 3 terlihat bahwa ˆ x f h tergantung pada fungsi kernel K dan parameter h . Bentuk bobot kernel ditentukan oleh fungsi kernel K , sedangkan ukuran bobotnya ditentukan oleh parameter pemulus h yang disebut bandwidth. Peran bandwidth seperti lebar interval pada histogram. 582 ISBN: 978-602-19590-2-2 Fungsi kernel Triangle dan Gaussian menurut Hardle [4] didefiniskan sebagai : a. Kernel Triangle : K x =   x  1 I   1  x b. Kernel Gaussian : K x =          2 2 1 exp 2 1 x       x Dengan I adalah fungsi indikator. Regresi kernel adalah teknik statistik nonparametrik untuk mengestimasi fungsi regresi x m pada model regresi nonparametrik i i i x m y    . Nadaraya dan Watson tahun 1964 mendefinisikan estimator regresi kernel sehingga disebut estimator Nadaraya-Watson, Hardle [4], yaitu :        n i i h n i i i h x x K n y x x K n x m 1 1 1 1 ˆ atau ˆ x m = i n i h i y x w  1 ;                       n i i i n i i i hi h x x K h x x K h x x K h h x x K h x w 1 1 1 1 Bandwidth h adalah parameter pemulus smoothing yang berfungsi untuk mengontrol kemulusan dari kurva yang diestimasi. Bandwith yang terlalu kecil akan menghasilkan kurva yang undersmoothing yaitu sangat kasar dan sangat fluktuatif, dan sebaliknya bandwith yang terlalu lebar akan menghasilkan kurva yang oversmoothing yaitu sangat mulus, tetapi tidak sesuai dengan pola data, Hardle [4]. Oleh karena itu, harus dilakukan pemilihan bandwidth yang optimal. Salah satu metode untuk mendapatkan h optimal adalah dengan menggunakan kriteria Generalized Cross Validation GCV, Eubank [2], yang didefinisikan sebagai berikut: 2 1         h H I tr n MSE h GCV dengan MSE =    n i i h i x m y n 1 2 1 Dalam hal ini, h optimal yang terpilih adalah nilai h yang memberikan nilai GCV h minimum, kurva regresi yang dihasilkan cukup mulus dan sesuai dengan pola data.

2.2 Estimator