Model Estimasi Regresi Nonparametrik Dengan Metode Kernel Chapter III V

BAB 3
MODEL ESTIMASI REGRESI NONPARAMETRIK

Dalam melakukan estimasi pada suatu kasus regresi nonparametrik, ada banyak
metode yang dapat digunakan. Yasin (2009) dalam makalahnya melakukan estimasi regresi nonparametrik menggunakan metode Wavelet Shrinkage Neural Network pada model rancang tetap. Yasin menjelaskan bahwa fungsi W avelet merupakan fungsi matematika yang mempunyai sifat-sifat tertentu, diantaranya berosilasi di sekitar nol (seperti fungsi sinus dan cosinus) dan terlokalisasi dalam domain
waktu, artinya pada saat nilai domain relatif besar maka fungsi W avelet bernilai
nol.
Selain W avelet, ada juga beberapa metode untuk melakukan estimasi fungsi
regresi nonparametrik; seperti Nadaraya-Watson yang akan digunakan peneliti untuk menangani persoalan yang dimaksud.
3.1 Estimator
Secara umum, parameter populasi akan diberi simbol m.Jadi merupakan rata-rata
µ, simpangan baku σ,proporsi π dan sebagainya. Jika m yang tidak diketahui harganya, ditaksir oleh harga m̂, maka m̂ dinamakan penaksir. terdapat dua macam
estimasi:
3.1.1 Estimasi titik
Sebuah estimasi titik (point estimate) dari sebuah parameter m adalah suatu angka
tunggal yang dapat dianggap sebagai nilai yang masuk akal bagi m. Estimasi titik
diperoleh dengan memilih statistik yang tepat dan menghitung nilainya dari data
sampel. Statistik yang dipilih disebut estimator titik (point estimator) dan proses
mengestimasi dengan suatu angka tunggal disebut sebagai estimasi titik (point
estimation).


16
Universitas Sumatera Utara

17
3.1.2 Estimasi interval
Sebuah estimasi interval (interval estimate) dari sebuah parameter m adalah suatu
sebaran nilai-nilai yang digunakan untuk mengestimasi m. Proses mengestimasi
dengan suatu sebaran nilai-nilai ini disebut estimasi interval (interval estimation).

3.2 Nadaraya-Watson Estimator
Bilamana terdapat data yang sangat banyak dimana X = xi , maka cara mengatasinya adalah dengan mencari nilai rata-rata setiap yi pada data tersebut. Dan juga
karena X berdistribusi kontinu, maka tidak perlu dilakukan pengamatan berulang
pada data dengan nilai yang sama.
Solusi dari persoalan tersebut adalah dengan memperhatikan ketetanggaan
xi , untuk itu perlu dilakukan sejumlahpengamatan di ketetanggan tersebut. Trik
yang sangat jelas jelas adalah dengan cara melakukan estimasi bias serta estimasi
varians.
Andai dilakukan pengamatan pada sejumlah besar data X. Misalkan x±h untuk sebarang bandwidth h > 0. Maka estimator Nadaraya-Watson (1964) m̂N W (x)
yang ditunjukkan pada persamaan (3.1) merupakan rata-rata nilai yi untuk pengamatan i sedemikian sehingga Xi berada pada ketetanggaannya.
Pn

K(|x − xi| ≤ h)yi
m̂N W (x) = Pi=1
n
K(|x − xi| ≤ h)
Pni=1
i
yi K( x−x
)
h
= Pi=1
n
x−xi
i=1 K( h )

(3.1)

dengan K(u) merupakan Kernel.

Pada dasarnya, fungsi regresi dapat dituliskan seperti pada persamaan berikut.
R

yf(x, y)dy
m(x) =
(3.2)
f(x)
dimana,



n
X

1
y − yi
−1
f(x, y) =
K H (x − xi) K
n|H|hy i=1
hy

dan hy merupakan bandwidth untuk pemulusan data y.


Universitas Sumatera Utara

18
Dengan demikian,
Z
f(x) =
f(x, y)dy


Z
n
X
y − yi
1
−1
dy
K(H (x − xi )) K
=
n|H|hy i=1

hy
n

=

1 X
K(H −1 (x − xi ))
n|H| i=1

(3.3)

dan
Z



Z
n
X
1

y − yi
−1
yf(x, y)dy =
dy
K(H (x − xi )) yK
n|H|hy i=1
hy
n

1 X
=
K(H −1 (x − xi ))yi
n|H| i=1

(3.4)

Kemudian lakukan substitusi persamaan (3.3) dan (3.4) ke persamaan (3.2),
maka diperoleh:
m(x) =
=


Pn
1
−1
(x − xi ))yi
i=1 K(H
n|H|
P
n
1
−1 (x − x ))
i
i=1 K(H
n|H|
Pn
x−xi
yi K( h )
Pi=1
n
x−xi

i=1 K( h )

Pada persamaan tersebut, m(x) dinamakan estimator Nadaraya-Watson. Dalam menghadapi persoalan regresi, para peneliti sangat menyarankan untuk menggunakan hanya fungsi Kernel orde kedua. Hal ini untuk menghindari ketidakasimtotisan distribusi data pengamatannya.
Dalam makalahnya. Isogai (1987) mengambil nilai hn = n−r untuk 0.2 <
r < 1. Kernel K merupakan fungsi kepadatan probabilitas yang berbatas pada
bilangan riil dimana,
lim |u|K(u) = 0,

|u|→∞

R∞

−∞

uK(u)du = 0 dan

R∞

−∞


u2K(u)du < ∞

Nadaraya (1964) mengindikasi bahwa jika Y adalah sebuah variabel random
1

dan nh2n → ∞, maka (nhn ) 2 (m(x) − Em(x)) normal secara asimtotik dengan rataR
rata 0 dan varians E[Y 2 |X = x] K 2(u)du/g(x).
Universitas Sumatera Utara

19
3.2.1 Distribusi yang asimtotis
Karena E(yi |X = xi ) = m(xi ), maka persamaan regresinya dapat dituliskan seperti
pada persamaan (3.5).
yi = m(xi) + εi ,

i = 1, . . . , n

(3.5)

dimana ε1, . . . , εn merupakan nilai error yang merupakan variabel random dengan

nilai ekspektasi E(εi |XI ) = 0 dan nilai varians V (ε2i |xi ) = σ 2(x).
Perhatikan bahwa,
yi = m(xi ) + εi ,
= m(x) + (m(xi) − m(x)) + εi
dan oleh sebab itu,
n

1 X
k
nh i=1



xi − x
h



n


1 X
yi =
k
nh i=1




xi − x
m(x)
h

(3.6)

Universitas Sumatera Utara

BAB 4
HASIL DAN PEMBAHASAN

4.1 Estimasi regresi nonparametrik
Hubungan antara variabel X dan variabel Y pada tesis ini diambil data laju kendaraan Sepeda Motor dengan banyak sampel pengamatan sebanyak 40. Variabel
prediktor yang digunakan adalah waktu dan variabel respon yang digunakan adalah
percepatan. Contoh kasus penerapan estimasi regresi nonparametrik dapat dilihat
pada Tabel 4.1 berikut ini.
Tabel 4.1 Statistika deskriptif sepeda motor
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Waktu (X) Percepatan (Y)
2,4
0,5
2,5
0,55
2,67
0,45
4,5
0,7
4,96
0,45
7
-1,54
5,7
-2,45
8,6
-4,34
9,9
-5,78
12
-5,43
14,6
-6,79
18
-7,64
21,24
-5,43
29,56
-4,34
31,34
-4,01
33,1
-2,24
33,24
-1,02
33,99
-0,35
37,42
0,49
37
0,67

No
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40

Waktu (X)
39,87
41,45
41,67
41,78
42,65
43
43,34
43,87
44,54
44,89
45,32
45,33
45,78
49,56
49,65
52,34
52,66
54,54
55,89
57,4

Percepatan (Y)
0,52
0,7
0,95
1,35
2,47
2,98
6,47
10,24
10,99
9,34
9,75
8,75
8,89
9,75
7,78
8,87
6,56
6,43
5,46
5

Dengan menggunakan aplikasi Microsoft excel dapat ditentukan nilai ratarata, nilai tengah, dan standar deviasi dari kedua variabel di atas. Hasil perhitungan dapat dilihat pada Tabel 4.2 berikut:

20
Universitas Sumatera Utara

21
Tabel 4.2 Nilai rata-rata, nilai tengah dan standar deviasi
Variabel
Waktu (X)
Percepatan (Y)

N
40
40

Min
2,4
-7,64

Maks
57,4
10,99

Mean
32,13
1,89

Q2
38,64
0,68

Standar deviasi
17,84
5,36

Data sampel pengamatan ada sebanyak 40 data, dengan waktu minimum sebesar
2, 4 detik dengan waktu maksimal sebesar 57, 4 detik dan percepatan minimum
sebesar −7, 64 m/s2, percepatan maksimal 10, 99 m/s2 , rata-rata waktu sebesar
32, 13 detik, dan percepatan sebesar 1, 89 m/s2, dengan nilai tengah waktu sebesar
38, 64 detik dan percepatan 0, 68 m/s2 , serta standar deviasi waktu sebesar 17, 84
detik dan percepatan 5, 36 m/s2 .
Bentuk hubungan antara variabel prediktor (waktu) dengan variabel respon
(percepatan) dapat dilihat pada plot antara kedua variabel tersebut seperti pada
gambar berikut ini:

Gambar 4.1 Diagram pencar data sepeda motor

Universitas Sumatera Utara

22
Selanjutnya dengan bantuan software SPSS, analisis estimasi regresi hubungan
antara variabel prediktor (waktu) dengan variabel respon (percepatan) juga dapat
dilihat dari plot antara kedua variabel seperti pada gambar berikut ini:

Gambar 4.2 Diagram analisis estimasi regresi

Universitas Sumatera Utara

23
Apabila data yang telah ada juga dibandingkan dengan menggunakan program R
dari data deskriptif Sepeda Motor dapat dilihat seperti pada gambar berikut ini:

Gambar 4.3 Diagram pencar data sepeda motor
Fungsi s(x) adalah suatu fungsi yang digunakan untuk menentukan bentuk spsesifikasi model suatu formula, menunjukkan bahwa pemulusan yang dilakukan telah
mendekati dengan baik. Pada program R pemilihan parameter pemulusan dilakukan secara otomatis. Berdasarkan dari Gambar 4.3 dapat dilihat bahwa nilai
GCV minimum yaitu 2,3833. Artinya, pendugaan kurva dan kesesuaian fungsi
pada data berada pada nilai GCV = 2, 3833.

Universitas Sumatera Utara

24
Berikut adalah hasil dari program R yang akan memperlihatkan bentuk model
formula kernel:

Gambar 4.4 Model formula nonparametrik
Dengan demikian, dari data hubungan antara variabel prediktor (waktu) dengan
variabel respon (percepatan) dapat dibentuk model estimasi regresi nonparametrik
nya, yaitu:
Y = −4, 81753 + 0, 209x
dengan nilai standar error sebesar 3,90. Penduga Kernel didefinisikan seperti pada
persamaan berikut ini.
40

f(x; h) =

1 X
Kh (x − Xi )
40 i=1

(4.1)

Berkaitan dengan model persamaan regresi yang telah didapat, suatu model
dikatakan baik apabila nilai koefisien determinasi (R2 ) mendekati 1, dari Gambar
4.3 memperlihatkan bahwa koefisien determinasi (R2 ) sebesar 0,937. Hal ini berarti, model yang diperoleh dapat dikatakan baik dan memiliki hubungan antar
variabel yang cukup erat.

Universitas Sumatera Utara

25
Kemudian dalam hal kaitan dengan metode kernel, yang mana model estimasi
regresi nonparametrik dilakukan dengan menggunakan metode kernel, maka ukuran sampel optimal untuk membentuk interval yang telah diperoleh dari gambar
4.1, gambar 4.2, dan gambar 4.3, dengan menggunakan metode kernel mengandalkan pada beberapa sifat asimptomatik dari Nadaraya-Watson.
Maka estimator Nadaraya-Watson (1964) m̂N W (x) yang ditunjukkan pada
persamaan (3.1) merupakan rata-rata nilai yi , dimana dalam hal ini variabel y digunakan untuk menerangkan Percepatan, untuk pengamatan i sebanyak 40 pengamatan sedemikian sehingga Xi , dimana dalam hal ini variabel x digunakan untuk
menerangkan Waktu, diperolah persamaan sebagai berikut:
P40
K(|x − xi | ≤ h)yi
m̂N W (W aktu) = Pi=1
40
i=1 K(|x − xi | ≤ h)
P40
x−xi
i=1 yi K( h )
= P40
x−xi
i=1 K( h )

(4.2)

dengan K(u) menerangkan Kernel.

Universitas Sumatera Utara

BAB 5
KESIMPULAN DAN SARAN

5.1 Kesimpulan
1. Statistik nonparametrik merupakan kumpulan metode untuk analisis data
yang menawarkan sebuah pendekatan dengan cara-cara pengambilan keputusan. Salah satu cara yang digunakan dalam model etimasi regresi nonparametrik ialah dengan metode Kernel.
2. Dengan menghadirkan fungsi regresi nonparametrik, dapat dimodelkan estimasi Nadaraya-Watson berdasarkan metode Kernel.
3. Berdasarkan hasil pembahasan hubungan non-linear antara dua variabel seperti pada contoh kasus untuk data Sepeda Motor dimana variabel Waktu (X)
yang dibutuhan dengan variabel Percepatan (Y ) berpengaruh pada laju Sepeda Motor dengan model estimasi regresi nonparametrik yang diperoleh dapat dikatakan baik dan memiliki hubungan antar variabel yang cukup erat.
Fungsi s(x) yang menyatakan suatu fungsi yang digunakan untuk menentukan bentuk spsesifikasi model suatu formula, menunjukkan bahwa pemulusan yang telah dilakukan mendekati baik, dengan nilai GCV minimum yaitu
2,3833.
4. Apabila dilihat dari grafik pada gambar 4.1, gambar 4.2, dan gambar 4.3
bahwa dari 0 detik sampai 20 detik kurva turun dan setelah waktu 20 detik
kurva naik kembali sampai ke 50 detik. Hal ini sesuai dengan asumsi penggunaan regresi nonparamatrik, yakni contoh kasus yang diambil bersifat acak
dan kontinu dan data yang tidak berdistribusi normal.

5.2 saran
Sebagaimana yang diketahui, bahwa fungsi kernel ada beberapa jenis. Untuk
itu perlu dilakukan penelitian lebih lanjut guna mengetahui apakah ada perbedaan
yang signifikan apabila menggunakan fungsi Kernel yang berbeda.
26
Universitas Sumatera Utara