Pemilihan Variabel Dan Reduksi Dimensi Dalam Regresi Nonparametrik Berdimensi Besar

PEMILIHAN VARIABEL DAN REDUKSI DIMENSI DALAM REGRESI NONPARAMETRIK BERDIMENSI BESAR
TESIS
Oleh EVA YANTI SIREGAR
097021010/MT
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA MEDAN 2011
Universitas Sumatera Utara

PEMILIHAN VARIABEL DAN REDUKSI DIMENSI DALAM REGRESI NONPARAMETRIK BERDIMENSI BESAR
TESIS
Diajukan Sebagai Salah Satu Syarat untuk Memperoleh Gelar Magister Sains dalam
Program Studi Magister Matematika pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Sumatera Utara
Oleh EVA YANTI SIREGAR
097021010/MT
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA MEDAN 2011
Universitas Sumatera Utara

Judul Tesis
Nama Mahasiswa Nomor Pokok Program Studi

: PEMILIHAN VARIABEL DAN REDUKSI DIMENSI DALAM REGRESI NONPARAMETRIK BERDIMENSI BESAR

: Eva Yanti Siregar : 097021010 : Matematika

Menyetujui, Komisi Pembimbing

(Prof. Dr. Tulus, M.Si) Ketua

(Dr. Saib Suwilo, M.Sc) Anggota

Ketua Program Studi

Dekan

(Prof. Dr. Herman Mawengkang)

(Dr. Sutarman, M.Sc)

Tanggal lulus: 16 Juni 2011

Universitas Sumatera Utara


Telah diuji pada Tanggal 16 Juni 2011
PANITIA PENGUJI TESIS Ketua : Prof. Dr. Tulus, M.Si Anggota : 1. Dr. Saib Suwilo, M.Sc
2. Prof. Dr. Herman Mawengkang 3. Drs. Marwan Harahap, M.Eng
Universitas Sumatera Utara

ABSTRAK Prosedur l1 pada model regresi Gauss non-parametrik. Dalam banyak contoh konkrit, dimensi d pada variabel X tergantung pada jumlah pengamatan. Dalam tulisan ini, dibangun dua prosedur. Yang pertama, memilih probabilitas tinggi pada koordinat ini. Kemudian, dengan menggunakan metode pemilihan subset, menjalankan polinomial Estimator untuk memperkirakan fungsi regresi n−2β/(2β+d), dimana d∗ merupakan dimensi ”real” dari masalah jumlah variabel yang tergantung pada f, telah mengganti bentuk dimensi d. Untuk mencapai hasil ini, digunakan metode l1-penalization dalam setup nonparametrik. Kata kunci: Reduksi dimensi, Dimensi besar, LASSO.
i
Universitas Sumatera Utara

ABSTRACT The procedure l1 on Gauss regression model of non-parametric. In many concrete examples, the dimension d of the input variable X depending on the number of observations. In this paper, constructed of two procedures. The first, choosing a high probability on these coordinates. Then, using a subset selection method, perform polynomial regression estimator to estimate the function n−2β/(2β+d), where d∗ is the dimension of ”real” of the problem number of variables that depend on f, has changed the form of dimension d. To achieve this result, used l1-penalization method in the nonparametric setup. Keywords: Dimension reduction, High dimension, LASSO.
ii
Universitas Sumatera Utara

KATA PENGANTAR
Puji dan syukur penulis panjatkan kehadirat Allah SWT, karena berkat rahmat dan karunia-Nya penulis dapat menyelesaikan tesis dengan judul PEMILIHAN VARIABEL DAN REDUKSI DIMENSI DALAM REGRESI NONPARAMETRIK BERDIMENSI BESAR. Tesisi ini merupakan salah satu syarat untuk menyelesaikan kuliah di Program Studi Magister Matematika Sekolah Pascasarjana Universitas Sumatera Utara.
Dalam menyelesaikan tesis ini penulis banyak mendapat dukungan dari berbagai pihak, maka pada kesempatan ini penulis mengucapkan terima kasih, dan apresiasi yang sebesar-besarnya kepada:
Prof. Dr. dr. Syahril Pasaribu, DTM & H, M.Sc (CTM), Sp.A(K) selaku Rektor Universitas Sumatera Utara.
Dr. Sutarman, M. Sc selaku Dekan FMIPA Universitas Sumatera Utara.
Prof. Dr. Herman Mawengkang selaku Ketua Program Studi Magister Matematika Sekolah Pascasarjana Universitas Sumatera Utara dan sebagai Dosen Penguji yang telah memberikan petunjuk kepada penulis sehingga tesis ini dapat diselesaikan.
Drs. Marwan Harahap, M.Eng sebagai dosen penguji yang telah memberikan bimbingan, masukan dan motivasi sehingga tesis ini dapat diselesaikan.

Prof. Dr. Tulus, MSi sebagai Dosen Pembimbing I yang telah memberikan bimbingan untuk perbaikan dan kesempatan tesis ini.
Dr. Saib Suwilo, MSc sebagai pembimbing II yang telah memberikan bimbingan untuk perbaikan dan kesempatan tesis ini.
Seluruh Staf Pengajar pada Program Studi Magister Matematika Sekolah Pascasarjana Universiras Sumatera Utara yang telah membekali penulis ilmu pengetahuan selama perkuliahan hingga selesai.
iii
Universitas Sumatera Utara

Sahabat-sahabat angkatan 2009 reguler terima kasih atas kekompakan, kebersamaan dan kerjasama yang telah terjalin selama perkuliahan hingga selesai. Kak Misiani, S.Si selaku Staf Administrasi pada Program Studi Magister Matematika Sekolah Pascasarjana Universitas Sumatera Utara, terimakasih telah banyak membantu administrasi perkuliahan penulis.
Seluruh keluarga Ayah, Ibu dan Adik-adik ku tercinta, yang dengan penuh semangat member motivasi kapada penulis hingga selesainya pengerjaan tesis ini.
Hanya ucapan syukur dan terima kasih yang dapat penulis sampaikan kepada semua pihak yang telah memberi doa, dukungan, motivasi, bimbingan dan arahan selama perkuliahan hingga penyelesaian tesis ini. Semoga amal kebajikan yang telah diberikan kepada penulis menjadi amal ibadah dan mendapat ganjaran kebajikan di sisi Allah SWT, Amin.
Dan semoga tesis ini bermanfaat bagi pembaca dan pihak-pihak yang memerlukannya.
Medan, Penulis, Eva Yanti Siregar
iv
Universitas Sumatera Utara

RIWAYAT HIDUP Eva Yanti Siregar, lahir di Napa Kecamatan Batang Toru Kabupaten Tapanuli Selatan pada tanggal 08 Juni 1987, merupakan anak pertama dari 3 (Tiga) bersaudara dari Ayah Basaro Siregar S.Sos dan Ibunda Rusianni Pulungan S.Pd. Menamatkan Sekolah Dasar (SD) Negeri 2 Batang Toru tahun 1999, Sekolah Lanjutan Tingkat Pertama (SLTP) Swasta Galih Agung Kutalimbaru Deli Serdang tahun 2002, Madrasah Aliyah Negri 2 Model Padangsidimpuan tahun 2005. Pada tahun 2005 memasuki Perguruan Tinggi UISU Medan jurusan Matematika dan memperoleh gelar Sarjana Pendidikan pada tahun 2009. Pada tahun 2009 mengikuti Program Studi Magister Matematika Sekolah Pascasarjana Universitas Sumatera Utara.
v
Universitas Sumatera Utara

DAFTAR ISI


ABSTRAK ABSTRACT KATA PENGANTAR RIWAYAT HIDUP DAFTAR ISI
BAB 1 PENDAHULUAN
1.1 Latar Belakang 1.2 Perumusan Masalah 1.3 Tujuan Penelitian 1.4 Manfaat Penelitian 1.5 Metode Penelitian
BAB 2 TINJAUAN PUSTAKA

Halaman i ii
iii v vi
1
1 2 2 2 2
4

BAB 3 PEMILIHAN VARIABEL DAN REDUKSI DIMENSI DALAM REGRESI NONPARAMETRIK

7

3.1 Perbedaan Regresi Parametrik dan Regresi Nonparametrik 3.2 Regresi Parametrik
3.2.1 Regresi Linier 3.2.2 Uji Asumsi Klasik Regresi Linier 3.2.3 Regresi Polynomial 3.2.4 Metode Kuadrat Terkecil (MKT) 3.3 Regresi Nonparametrik Berdimensi Besar 3.4 Estimator Kernel

7 8 9 10 12 12 13 15


vi
Universitas Sumatera Utara

3.5 Seleksi Prosedur Estimasi 3.5.1 Prosedur Seleksi 3.5.2 Prosedur Estimasi
3.6 Estimasi Titik untuk Kurva Regresi
BAB 4 PEMILIHAN VARIABEL DAN REDUKSI DIMENSI DALAM REGRESI NONPARAMETRIK BERDIMENSI BESAR

16 17 18 19
22

BAB 5 KESIMPULAN DAFTAR PUSTAKA

29 30

vii
Universitas Sumatera Utara

ABSTRAK Prosedur l1 pada model regresi Gauss non-parametrik. Dalam banyak contoh konkrit, dimensi d pada variabel X tergantung pada jumlah pengamatan. Dalam tulisan ini, dibangun dua prosedur. Yang pertama, memilih probabilitas tinggi pada koordinat ini. Kemudian, dengan menggunakan metode pemilihan subset, menjalankan polinomial Estimator untuk memperkirakan fungsi regresi n−2β/(2β+d), dimana d∗ merupakan dimensi ”real” dari masalah jumlah variabel yang tergantung pada f, telah mengganti bentuk dimensi d. Untuk mencapai hasil ini, digunakan metode l1-penalization dalam setup nonparametrik. Kata kunci: Reduksi dimensi, Dimensi besar, LASSO.
i
Universitas Sumatera Utara


ABSTRACT The procedure l1 on Gauss regression model of non-parametric. In many concrete examples, the dimension d of the input variable X depending on the number of observations. In this paper, constructed of two procedures. The first, choosing a high probability on these coordinates. Then, using a subset selection method, perform polynomial regression estimator to estimate the function n−2β/(2β+d), where d∗ is the dimension of ”real” of the problem number of variables that depend on f, has changed the form of dimension d. To achieve this result, used l1-penalization method in the nonparametric setup. Keywords: Dimension reduction, High dimension, LASSO.
ii
Universitas Sumatera Utara

BAB 1 PENDAHULUAN
1.1 Latar Belakang
Analisa regresi adalah analisis statistik yang mempelajari bagaimana membangun sebuah model fungsional dari data untuk dapat menjelaskan ataupun meramalkan suatu fenomena alami atas dasar fenomena yang lain. Analisa regresi merupakan salah satu teknik statistik yang digunakan secara luas dalam ilmu pengetahuan terapan. Regresi di samping digunakan untuk mengetahui bentuk hubungan antar peubah regresi, juga dapat dipergunakan untuk peramalan.
Model regresi linier merupakan model regresi dalam fungsi regresi yang berbertuk linier. Persamaan Y = β0 + β1X1 + β2X2 + ... + βkXk + ε merupakan model regresi linier dengan parameter regresi yang diestimasi berdasarkan data pengamatan. Dengan menggunakan n pengamatan untuk suatu model linier sederhana.
Dengan Y adalah peubah tidak bebas, Xi adalah peubah bebas dengan i = 1, 2, . . . , n, β0 dan β1 adalah parameter-parameter yang tidak diketahui, ε adalah error.
Metode yang biasanya digunakan untuk estimasi parameter regresi adalah metode kuadrat terkecil. Metode kuadrat terkecil dapat memberikan hasil yang optimal jika sesatannya diasumsikan berdistribusi normal ε ∼ N(0, σ2). Dengan pemenuhan terhadap asumsi kenormalan dapat digunakan regresi parametrik untuk mengetahui bentuk hubungan antar peubah regresi pada contoh data yang diamati.
Dalam asumsi-asumsi sering terjadi dan terkadang peubah acak yang diamati tidak dapat dianggap menyebar normal. Dari segi statistika persoalan tersebut harus dapat diselesaikan dengan menggunakan teknik statistika. Dalam statistika parametrik, teknik-teknik yang digunakan berhubungan dengan pendugaan parameter serta pengujian hipotesis yang berhubungan dengan parame-
1
Universitas Sumatera Utara

2
ternya. Asumsi-asumsi yang digunakan pada umumnya menspesifikasikan bentuk sebarannya. Salah satu analisis alternatif lain yang dapat digunakan adalah dengan regresi nonparametrik karena dalam regresi nonparametrik tidak diperlukan pemenuhan asumsi kenormalan. Dalam penelitian ini masalah yang dipertimbangkan adalah masalah dimensi besar.
1.2 Perumusan Masalah Perumusan masalah dalam penelitian ini adalah bagaimana memilih variabel
dan mereduksi dimensi dalam Regresi Nonparametrik berdimensi besar.
1.3 Tujuan Penelitian Tujuan dari penelitian ini adalah untuk menelusuri metode dan asumsi-

asumsi yang mendasar untuk mereduksi dimensi dalam Regresi Gauss yang berdimensi besar.
1.4 Manfaat Penelitian Untuk dapat memperlihatkan prosedur asumsi yang mendasar didalam me-
reduksi dimensi dari Regresi Nonparametrik berdimensi besar.
1.5 Metode Penelitian Metode penelitian yang dilakukan adalah bersifat literatur kepustakaan dan
dilakukan dengan mengumpulkan informasi dari referensi beberapa buku dan jurnal, memahami penelitian-penelitian yang telah pernah dilakukan oleh peneliti lain yang berhubungan dengan penelitian yang dilakukan. Adapun langkahlangkah yang akan dilakukan adalah:
1. Menjelaskan tentang Regresi Parametrik dan Regresi Nonparametrik. 2. Menjelaskan tentang Reduksi Dimensi dalam Regresi Nonparametrik. 3. Menjelaskan tentang Regresi Nonparametrik Berdimensi Besar.
Universitas Sumatera Utara

3 4. Mengidentifikasi kesalahan-kesalan yang ditemukan pada Regresi Gauss Non-
parametrik. 5. Memperhitungkan estimator dan konvergensi pada kesalahan yang muncul. 6. Menguraikan pendekatan Polynomial Taylor dalam harga mutlak yang di-
pakai dalam estimasi dan kekonvergensian.
Universitas Sumatera Utara

BAB 2 TINJAUAN PUSTAKA

Model Regresi Gauss Nonparametrik ditulis sebagai berikut (Bertin dan Lecue (2008)):
Y = f (Xi) + ei, i = 1, 2, ..., n,
dengan variabel input X1, ..., Xn merupakan variabel acak n bersebaran bebas identik (i.i.d) dengan nilai Rd, dengan e1, ..., en sampai n merupakan variabel acak Gauss dengan variansi σ2 bebas dari Xi dan f fungsi regresi. Terpenting pada penilaian pointwise dari fungsi f pada titik tertentu x = (x1, ..., xd) ∈ Rd. Dibutuhkan beberapa konsep proses penilaian fn memiliki pointwise terkecil yang digabungkan dengan kuadrat resiko.

E fn(x) − f (x) hanya menggunakan sekumpulan data Dn = (Yi, Xi)1≤i≤n.


(2.1)

Asumsikan bahwa fungsi regresi memiliki beberapa sifat beraturan sekitar x adalah suatu asumsi klasik untuk permasalahan ini. Pada tulisan ini asumsikan fungsi f sebagai β −Hlderian sekitar x. Diingat kembali bahwa fungsi f : Rd → R adalah β − Hlderian pada titik x dengan β > 0, dinotasikan oleh f ∈ (β, x) ketika dua titik berikut memenuhi:

1. Fungsi f adalah l−kali terdiferensial pada x (dengan l = [β] adalah bilangan bulat terbesar yang tepat lebih kecil dari β),
2. Terdapat L > 0 sedemikian hingga untuk sebarang t = (t1, ..., tn) ∈ B∞(x, 1),

|f (t) − Pi(f )(t, x)| ≤ L

t, x

β 1

,

dengan Pl(f )(., x) adalah Polinomial Taylor pada orde l menghubungkan dengan fungsi f pada titik x, · 1 adalah l1 norm dan B∞(x, 1) adalah satuan l∞-bola pada pusat x dan jari-jari 1.

4


Universitas Sumatera Utara

5

Dalam matematika, seri Taylor adalah representasi dari suatu fungsi sebagai jumlah tak terbatas, dihitung dari nilai turunannya pada satu titik. Seri Taylor secara resmi diperkenalkan oleh matematikawan Brook Inggris Taylor. Jika seri ini berpusat di nol, seri ini juga disebut seri maclaurin, dinamai ahli matematika Skotlandia Colin Maclaurin yang menggunaka banyak kasus dari deret taylor di abad ke-18. Seri Taylor dapat dianggap sebagai batas dari Polinomial Taylor.

ketika fungsi f hanya diasumsikan pada (β, x), tidak ada estimator yang

dapat konvergen ke fungsi f (untuk kemungkinan yang diberikan pada persamaan

(1.1)) lebih cepat dari,

n−2β/(2β+d).

(2.2)

Asumsi 2.1 Terdapat bilangan bulat d∗ ≤ d, sebuah fungsi g : Rd∗ → R dan sebuah subset J = {i1, ..., id∗} ⊂ {1, ..., d} kardinalitas d∗ sehingga untuk setiap (x1, ..., xd) ∈ Rd berlaku
f (x1, ..., xd) = g(xi1 , ..., xid∗).
Berdasarkan Asumsi (2.1) dimensi ”real” pada permasalahan tidak lagi disebut fungsi d tetapi fungsi d∗. Selanjutnya, diharapkan bahwa jika f ∈ (β, x) (yang mana dapat juga dikatakan bahwa g adalah β-Hlderian pada titik x), memungkinkan mengestimasi fungsi f(x) seperti pada persamaan (1.2) di mana fungsi d digantikan oleh fungsi d∗, mengarahkan pembuktian kekonvergensian ketika d∗ 1 yang memenuhi Asumsi (2.1) memungkinkan untuk mengkonstruksi berdasarkan data Dn, prosedur estimasi fˆn dapat dituliskan sebagai berikut
P fˆn(x) − f (x) ≥ δ ≤ c exp −c δ2 n2β/(2β+d∗) , ∀δ > 0

dengan c tidak bergantung terhadap n (Karine Bertin dan Guillaume Lecue (2008)).

Masalah yang dipertimbangkan dalam tulisan ini disebut masalah dimensi besar. Banyak tulisan sebelumnya yang mempelajari macam-macam permasalah yang meringkas keadaan yang tidak mungkin (Lafferty dan Wasserman (2008)). Dalam Bickel dan Li (2007), Levina dan Bickel (2005), Belkin dan Niyogi (2003), Donoho dan Grimes (2003), diasumsikan bahwa bentuk variabel X termasuk dimensi kecil dengan dimensi d∗ < d. Semua permasalahan didasarkan pada teknik heuristik. Lafferty dan Wasserman (2008), masalah yang sama sebagai satu pertimbangan disini teratasi.

Universitas Sumatera Utara

BAB 3 PEMILIHAN VARIABEL DAN REDUKSI DIMENSI DALAM
REGRESI NONPARAMETRIK
3.1 Perbedaan Regresi Parametrik dan Regresi Nonparametrik
Ada beberapa perbedaan khusus dalam penggunaan prosedur parametrik dan prosedur nonparametrik antara lain:
1. Penggunaan prosedur parametrik didasarkan pada asumsi-asumsi tertentu, misalnya mengasumsikan bahwa sampel yang diambil dari populasi yang berdistribusi normal. Prosedur nonparametrik tidak didasarkan pada asumsiasumsi yang mengikuti suatu distribusi tertentu dan dapat digunakan apabila asumsi yang diperlukan pada penggunaan prosedur parametrik menjadi tidak valid.
2. Dalam kasus parametrik untuk mengetahui bentuk hubungan antar peubah respon pada contoh data yang diamati dapat digunakan Metode Kuadrat Terkecil dan Metode Maksimum Likelihood. Dalam regresi nonparametrik untuk memperkirakan parameter digunakan metode Theil dengan koefisien kemiringan garis regresi sebagai median kemiringan dari seluruh pasangan garis dari titik-titik dengan nilai-nilai X yang berbeda atau independen.
3. Pengujian hipotesis untuk model parametrik menggunakan statistik uji t yang merupakan sebuah hasil asumsi secara normal yang didasarkan dari metode kuadrat terkecil. Pengujian hipotesis pada regresi nonparametrik menggunakan metode Theil yang disusun berdasarkan statistik t Kendall.
4. Interval kepercayaan pada regresi parametrik adalah pembentukan interval kepercayaan untuk parameter yang didasarkan pada metode kuadrat terkecil dan asumsi yang digunakan masih sama dengan asumsi yang digunakan pada pengujian hipotesis. Interval kepercayaan pada regresi nonparametrik adalah pembentukan interval kepercayaan hanya untuk koefisien kemiringan.
7
Universitas Sumatera Utara

8
Kurva regresi digunakan untuk menjelaskan hubungan antara peubah penjelas dengan peubah terikat. Pendekatan yang paling sering digunakan adalah pendekatan parametrik. Asumsi yang mendasari pendekatan ini adalah kurva regresi yang diwakili oleh suatu model parametrik (Hardle, 1990). Dalam regresi parametrik, diasumsikan bahwa bentuk kurva regresi diketahui berdasarkan teori, informasi sebelumnya, atau sumber lain yang dapat memberi pengetahuan secara rinci.
Apabila model dari pendekatan parametrik diasumsikan benar, maka pendugaan parametrik akan sangat efisien. Tetapi jika tidak, menyebabkan interpretasi data yang menyesatkan. Selain itu, model parametrik mempunyai keterbatasan untuk menduga pola data yang tidak diharapkan. Jika asumsi bentuk kurva parametrik ini tidak terpenuhi, maka kurva regresi dapat diduga menggunakan model regresi dari pendekatan nonparametrik.

Pendekatan nonparametrik merupakan metode pendugaan model yang dilakukan berdasarkan pendekatan yang tidak terikat asumsi bentuk kurva regresi tertentu. Kurva regresi berdasarkan pendekatan nonparametrik ini, diwakili oleh model yang disebut model regresi nonparametrik. Karena sebelumnya tidak ada asumsi mengenai bentuk kurva regresi, model regresi nonparametrik dapat berbentuk fungsi apa saja, baik linier atau nonlinier. Semua fungsi dapat digunakan untuk pendugaan dalam model regresi. Komputasi atau perhitungan dalam menduga model, merupakan kendala utama dalam regresi nonparametrik. Seiring dengan perkembangan media komputer yang sangat pesat dewasa ini, regresi nonparametrik turut berkembang pula. Ada beberapa teknik pendugaan nilai peubah respons dalam regresi nonparametrik yakni penduga kernel, regresi spline, regresi lokal, dll.
3.2 Regresi Parametrik
Regresi parametrik merupakan suatu metode statistik yang digunakan untuk mengetahui bentuk hubungan antara peubah penjelas dan peubah terikat, dengan asumsi bahwa bentuk kurva regresi diketahui berdasarkan informasi sebelumnya.
Universitas Sumatera Utara

9 Model regresi parametrik yang sering kali digunakan adalah model regresi linier.

3.2.1 Regresi Linier

Regresi linier adalah metode statistika yang digunakan untuk membentuk model hubungan antara variabel terikat dengan satu atau lebih variabel bebas. Apabila variabel bebasnya hanya satu disebut regresi linier sederhana, sedangkan jika variabel bebasnya lebih dari satu disebut sebagai regresi linier berganda.

Analisis regresi memiliki tiga kegunaan yaitu untuk tujuan deskripsi dari fenomena data atau kasus yang sedang diteliti, untuk tujuan kontrol, dan untuk tujuan prediksi. Regresi mampu mendeskripsikan fenomena data melalui terbentuknya suatu model hubungan yang bersifatnya numerik. Regresi juga dapat digunakan untuk melakukan pengendalian terhadap suatu kasus atau hal-hal yang sedang diamati melalui penggunaan model regresi yang diperoleh. Selain itu, model regresi juga dapat dimanfaatkan untuk melakukan prediksi untuk variabel terikat. Namun yang perlu diingat prediksi di dalam konsep regresi hanya boleh dilakukan di dalam rentang data dari variabel-variabel bebas yang digunakan untuk membentuk model regresi tersebut. Misal suatu model regresi diperoleh dengan mempergunakan data variabel bebas yang memiliki rentang antara 5-25, maka prediksi hanya boleh dilakukan bila suatu nilai yang digunakan sebagai input untuk variabel X berada di dalam rentang tersebut. Konsep ini disebut sebagai interpolasi.

Hubungan antara dua peubah yakni peubah penjelas variabel X dan peubah

terikat variabel Y secara matematis dapat ditulis dalam model regresi linier se-

bagai berikut:

Y = Yˆ + ε
P
Y = β0 + βjXj + ε,
j=1

(3.1)

dengan : β0 ¯: Intersep yakni nilai dugaan peubah terikat variabel Y saat

Xj = 0. Untuk j = 1, 2, ..., p.

Xj ¯: Peubah penjelas ke-j.

Universitas Sumatera Utara

10

βj ¯: Slope yakni koefisien pengganda peubah penjelas Xj terhadap peubah terikat variabel Y .

ε ¯: Faktor gangguan yang tidak dapat dijelaskan model regresi. E [ε] = 0; V ar(ε) = στ2; Cov(εi, εu) = 0 untuk i dan u = 1, 2, ..., n ;
i=u
Hamilton (1992) menyebutkan bahwa model regresi hanya dibentuk oleh satu peubah penjelas, sehingga persamaan (3.1) menjadi:

Y = β0 + β1X + ε.

(3.2)

Persamaan (3.2) disebut Regresi Linier Sederhana (Simple Linier Regression). Sedangkan, untuk peubah penjelas yang lebih dari 1(p > 1), persamaan (3.1) dapat dibentuk kembali menjadi:

Y = β0 + β1X1 + β2X2 + ... + βpXp + ε,

(3.3)

persamaan (3.3) disebut Regresi Linier Berganda (Multiple Linier Regression).

3.2.2 Uji Asumsi Klasik Regresi Linier
Koefisien-koefisien regresi linier sebenarnya adalah nilai duga dari parameter model regresi. Parameter merupakan keadaan sesungguhnya untuk kasus yang diamati. Parameter regresi diduga melalui teknik perhitungan yang disebut Ordinary Least Square (OLS). Tentu saja yang namanya menduga tidak mungkin terlepas dari kesalahan, baik itu sedikit maupun banyak. Namun dengan Ordinary Least Square (OLS), kesalahan pendugaan dijamin yang terkecil (dan merupakan yang terbaik) asal memenuhi beberapa asumsi. Asumsi-asumsi tersebut biasanya disebut asumsi klasik regresi linier. Untuk mengetahui apakah koefisien regresi yang didapat telah diterima, maka perlu dilakukan pengujian terhadap kemungkinan adanya pelanggaran asumsi klasik tersebut.

Universitas Sumatera Utara

11
Dalam uji asumsi klasik regresi linier, terlebih dahulu menyelesaikan data residual. Perlu diingat, pengujian asumsi klasik menggunakan data residual bukan data pengamatan, kecuali uji asumsi multikolinieritas. Dengan kata lain, penerapan pengujian asumsi klasik regresi linier dilakukan terhadap data residual, kecuali untuk uji asumsi multikolinieritas. Memang untuk memunculkan hasil uji asumsi klasik regresi linier, pengguna paket software statistika pada umunya tidak diminta untuk memasukkan data residual. Hal ini disebabkan karena pada umumnya software statistika secara otomatis melakukan uji asumsi klasik tanpa terlebih dahulu meminta pengguna software memasukkan data residual. Sehingga yang membuat sebagian orang tidak menyadari bahwa sebenarnya saat melakukan uji asumsi klasik, software statistika terlebih dahulu mendapatkan data residual dan baru kemudian melakukan perhitungan uji asumsi klasik regresi linier.
Asumsi klasik regresi linier adalah sebagai berikut:
1. Model dispesifikasikan dengan benar. Asumsi ini adalah asumsi pertama yang harus dipenuhi. Maksud dari model dispesifikasikan dengan benar adalah bahwa model regresi tersebut dirancang dengan benar. Khusus untuk asumsi ini memang tidak ada uji statistikanya. Hal ini disebabkan karena model regresi yang dirancang berhubungan dengan konsep teoritis dari kasus yang sedang diteliti.
2. Error menyebar normal dengan rata-rata nol dan suatu ragam (variance) tertentu. Penulisan matematis dari asumsi kedua ini adalah ∈∼ N(0, σ2). ∈ merupakan lambang untuk error. Sedangkan adalah lambang matematis untuk kalimat menyebar mengikuti distribusi dan notasi N(0, σ2) menyatakan distribusi sebaran normal dengan rata-rata nol dan ragam σ2. Statistik uji yang paling sering digunakan untuk menguji asumsi kenormalan error dengan menggunakan data residual adalah Kolmogorov-Smirnov normality test. Kolmogorov-Smirnov test bekerja dengan cara membandingkan dua buah distribusi sebaran data yaitu distribusi yang dihipotesiskan dan distribusi yang teramati. Distribusi yang dihipotesiskan dalam kasus ini adalah
Universitas Sumatera Utara

12
distribusi normal. Sedangkan distribusi yang teramati adalah distribusi yang dimiliki oleh data yang sedang diuji. Apabila distribusi yang teramati mirip dengan distribusi yang dihipotesiskan (distribusi normal), maka bisa disimpulkan bahwa data yang diamati memiliki distribusi sebaran normal.

3.2.3 Regresi Polynomial

Regresi Polynomial merupakan model regresi linier yang dibentuk dengan

menjumlahkan pengaruh masing-masing peubah penjelas yang meningkat sampai orde ke-m. Secara umum, model ditulis dalam bentuk:

p m−1

Y = β0 +

βj−rXjr + ε,

j=1 r=1

(3.4)

dengan : β0 ¯: Intersep peubah terkait Y yakni nilai dugaan peubah terikat saat

Xj = 0. Untuk j = 1, 2, ..., p.

Xjr ¯: Peubah penjelas ke-j dengan order ke-r.

βj−r ¯: Besar sokongan peubah penjelas pada orde ke-r terhadap peubah

terikat Y . r : 1, 2, ..., m − 1.

ε ¯: Faktor gangguan yang tidak dapat dijelaskan model regresi.

E [ε] = 0 ; V ar (ε) = στ2 ; Cov (εi, εu) = 0 untuk i dan u = 1, 2, ..., n ; i=u

Model regresi polynomial, mempunyai struktur yang sama dengan model regresi linier berganda. Artinya, setiap pangkat atau orde peubah penjelas pada model Polynomial merupakan transformasi peubah awal dan dipandang sebagai sebuah peubah penjelas baru dalam model Linier berganda.

3.2.4 Metode Kuadrat Terkecil (MKT) Metode kuadrat terkecil (MKT) digunakan untuk pendugaan parameter dari

Universitas Sumatera Utara

13
model. Prinsip dari Metode kuadrat terkecil (MKT) adalah meminimumkan galat yang dihasilkan oleh model sehingga diharapkan model regresi menjelaskan data dengan baik. Mengingat galat yang dihasilkan model regresi pada tiap amatan dapat bernilai negatif dan positif, maka untuk menghindari penjumlahan yang bernilai negatif, dicari jumlah dari kuadrat nilai galat.
Dari bentuk umum regresi yang berdasarkan persamaan (3.5) dapat diambil bentuk hubungan yang baru yakni
ε = Y − X −→β .
Asumsi-asumsi yang mendasari analisis regresi dengan satu peubah penjelas antara lain:
1. ε berdistribusi secara normal. εi Normal Identic Distribution (0, σπ2); untuk semua i Artinya, εmenyebar mengikuti sebaran normal dengan E[εi] = 0; var (εi) = σπ2(Ragam konstan/Homoscedasticity)
2. ε bersifat bebas yakni tidak berkorelasi dengan ε yang lain (noautocorrelation) cov(εi, εu) = 0; untuk semua i = u

3.3 Regresi Nonparametrik Berdimensi Besar

Tujuan analisa regresi adalah untuk mempelajari bagaimana respon sebuah

peubah variabel Y terhadap perubahan yang terjadi pada peubah lain yaitu vari-

abel X. Hubungan antara variabel X dan variabel Y dapat dituliskan sebagai

berikut:

y = f (Xi) + εi, i = 1, 2, ..., n,

(3.5)

dengan Y adalah Peubah terikat, fungsi f(x) adalah Fungsi regresi nonparametrik, ε adalah Error faktor gangguan yang tidak dapat dijelaskan oleh model.

Fungsi f adalah fungsi matematik yang disebut sebagai fungsi regresi dan εi adalah error yang mengijinkan terjadinya deviasi dari hubungan yang murni deterministik. Pada aplikasi dikumpulakan data (Xi, Yi), ..., (Xn, Yn) yang berisi

Universitas Sumatera Utara

14
informasi tentang fungsi f. Dari data-data ini dapat diduga ataupun mengestimasi fungsi f tersebut. Jika pengetahuan tentang fungsi f ini minim, maka estimasi terhadap fungsi f ini dapat didekati secara nonparametrik. Agar pendekatan nonparametrik ini menghasilkan estimasi terhadap fungsi f yang masuk akal, maka hal yang harus diperhatikan adalah asumsi bahwa fungsi f memiliki derajat kemulusan. Biasanya kontinuitas dari fungsi f merupakan syarat yang cukup untuk menjamin sebuah estimator akan konvergen pada fungsi f yang sesungguhnya bila jumlah data bertambah tanpa batas.
Sebagai bandingan dari metode nonparametrik tentunya adalah metode parametrik, yang mendominasi statistika klasik. Andaikan peubah variabel X diketahui berada pada selang [0,1]. Maka contoh sederhana dari model parametrik untuk r pada persamaan (3.6) adalah persamaan garis lurus,
f (x) = θ0 + θ1x, 0 ≤ x ≤ 1,
dengan θ0 dan θ1 adalah konstanta yang tidak diketahui. Lebih umum lagi fungsi f dapat dinyatakan sebagai kombinasi linear sebagai berikut,
p
f (x) = θiri(x) 0 ≤ x ≤ 1,
i=0
dengan f0, ..., fp adalah fungsi yang diketahui dan θ0, ..., θp adalah konstanta yang tidak diketahui. Jika asumsi sebuah model parametrik dibenarkan, fungsi regresi dapat diestimasi dengan cara yang lebih efisien daripada dengan menggunakan sebuah metode nonparametrik. Namun demikian jika asumsi terhadap model parametrik ini salah, maka hasilnya akan memberikan kesimpulan yang salah terhadap fungsi regresi.
Dalam penggunaan umum, dimensi berarti parameter atau pengukuran yang dibutuhkan untuk mendefinisikan sifat-sifat suatu objek yaitu panjang, lebar, dan tinggi atau ukuran dan bentuk. Dalam matematika, tidak ada satu pun definisi yang mencukupi untuk menyatakan konsep dalam segala situasi yang digunakan. Konsekuensinya, matematikawan membagi sejumlah definisi dimensi ke dalam tipe-tipe yang berbeda. Semuanya didasarkan pada konsep dimensi Euclides berruang n sehingga menjadi En. Diperoleh
Universitas Sumatera Utara

1. Titik E0 adalah dimensi 0, 2. Garis E1 adalah dimensi 1, 3. Bidang E2 adalah dimensi 2, 4. En adalah dimensi n.

15

3.4 Estimator Kernel

Suatu fungsi K(•) disebut fungsi kernel jika fungsi K fungsi kontinu ber-



harga riil, simetris, terbatas dan K(y)dy = 1. Jika K suatu kernel dengan

sifat

−∞

1.

∞ −∞

xj K (x)dx

=

0,

untuk j

=

1,

2,

...,

r



1

2.

∞ −∞

xr K (x)dx

=

0,

atau ∞ maka K

disebut kernel order

r.

Secara umum estimator regresi kernel dari g adalah estimator kuadrat terke-
n
cil gˆ(x) = n−1 Wni(x)Yi, dengan fungsi bobot Wni(x) tergantung pada kernel
i=1
K. Jika densitas variabel X tak diketahui, Hardle (1990) memberikan bobot

Wni(x)

=

Kh(x−Xi) fˆh(x)

dengan

fˆh(x)

=

n−1

Kh(x − Xi) dan Kh(u) = h−1K

u h

sehingga estimator kernel dari regresi g adalah:

n

n−1 Kh(x − Xi)Yi

gˆh(x) =

i=1 n

.

n−1 Kh(x − Xi)

j=1

Selanjutnya, jika densitas variabel X diketahui, Greblicki (1974) cit. Hardle (1990) memberikan bobot Wni(x) = Kh(x − Xi)/f (x), sehingga estimator kernel dari regresi g adalah:

n

n−1 Kh(x − Xi)Yi

gˆh(x) =

i=1
f (x)

.

Universitas Sumatera Utara

16

Kemudian dalam model rancangan tetap dari ruang yang sama dengan

{Xi} , i = 1, 2, ..., n tetap pada [0,1], Priestley dan Chao (1972) cit. Har-

dle (1990) memberikan bobot Wni(x) = n(Xi − Xi−1)Kh(x − Xi), X0 = 0 dan fˆ(x) = (n(Xi − Xi−1))−1 untuk x ∈ (Xi−1 − Xi), sehingga estimator kernel reg-

resi g adalah:

n
gˆh(x) = (nh)−1 Kh(x − Xi).
i=1

Lemma 3.1 Pada model rancangan tetap variabel X satu dimensi didefinisikan

cK =

1 0

K 2 (u)du

dan

dK

=

1 0

u2K

(u)du.

Diambil

Wni

=

n(Xi −Xi−1)Kh(x−Xi)

dengan asumsi

1. K mempunyai support [-1,1] dengan K(-1) = K(1) = 0 2. g ∈ c2 3. Xi = i/n, i = 1, 2, ..., n 4. var(εi) = σ2, i = 1, 2, ..., n 5. n → ∞, h → 0, dan nh → ∞

Dalam estimator kernel, tingkat kemulusan gˆh ditentukan oleh fungsi kernel K dan h yang disebut parameter pemulus, tetapi pengaruh kernel K tidak sedominan parameter pemulus h. Nilai h kecil memberikan grafik yang kurang mulus sedangkan nilai h besar memberikan grafik yang sangat mulus. Oleh karena itu, perlu dipilih nilai h optimal untuk mendapatkan grafik optimal.

3.5 Seleksi Prosedur Estimasi
Estimasi adalah keseluruhan proses yang menggunakan sebuah estimator untuk menghasilkan sebuah estimate dari suatu parameter. Untuk menyeleksi Prosedur Estimasi yang dilakukan pertama-tama adalah menentukan himpunan indeks J = {i1, ...., id∗}. Kemudian menyusun sebuah penaksir dari nilai f (x) yang konvergen untuk nilai n−2β/(2β+d∗) pada f ∈ (β, x) untuk β > 1. Dalam

Universitas Sumatera Utara

menilai tujuan pertama, gunakan l1 polinomial estimator.

17

3.5.1 Prosedur Seleksi

Prosedur estimasi memiliki himpunan vektor sebagai berikut:

θ¯(λ) = arg min
θ∈Rd+1

1n nhd
i=1

Yi − U

Xi − x h

2
θ

K

Xi − x h

+ 2λ θ 1 ,

(3.6)

dengan U (v) = (1, v1, . . . , vd) untuk sebarang v = (v1, . . . , vd)t ∈ ℜd, θ 1 =

d j=0

|θj |

untuk

sebarang

θ

=

(θ0, . . . , θd)t



ℜd+1, h > 0 disebut bandwidth

atau smoothing parameter, λ > 0 disebut parameter regularisasi dan K : ℜd →

ℜ disebut kernel. Dijelaskan bagaimana memilih parameter h dan λ. Berikut,

dinotasikan U0(v) = 1 dan Ui(v) = vi, untuk i = 1, 2, ..., d untuk sebarang v = (v1, . . . , vd) ∈ ℜd. Kernel K diambil sedemikian hingga himpunan tersebut memenuhi asumsi:

Asumsi 3.2 Kernel K : ℜd → ℜ adalah simetrik yang didukung dalam B∞(0, 1), sebuah matriks ( ℜdK(y) Ui(y) Uj (y) dy)i, j ∈ {0, . .. , d} adalah diagonal dengan koefisien bebas positif pada fungsi d pada diagonal tersebut terdapat suatu konstanta

MK ≥ 1 bebas terhadap fungsi d yang mana batas atas jumlah tersebut adalah

maxu∈Rd |K(u) | , maxu∈Rd K(u)2, maxu∈Rd |K(u) |

u

2 1

,

maxu∈Rd

|K(u) |

u

2 2

,

Rd K(y)2(1 +

y

2 2

)dy

,

Rd |K(u) |2 ×

u

4 1

du

dan

Rd K(y)2(Ui(y)Uj(y))2dy

Setiap statistik θ¯ ∈ θ¯(λ) adalah suatu l1 penalized pada estimator polinomial. Biasanya, untuk permasalahan estimasi terhadap fungsi f(x), hanya koordinat pertama pada θ¯ yang digunakan. Untuk masalah seleksi, digunakan semua koordinat kecuali yang pertama. Dinotasikan θˆ pada vektor dari ℜd diperoleh d pada koordinat terakhir terhadap θ¯.
Diharapkan bahwa vektor θˆ menjadi jarang (artinya banyak koordinat nol) sedemikian hingga himpunan pada semua koordinat tidak nol pada θˆ dinotasikan

Universitas Sumatera Utara

18

pada Jˆ, akan sama dengan himpunan J pada semua koordinat tidak nol pada (θ1∗, . . . , θd∗)t dengan θi∗ = h∂if (x) untuk i ∈ {1, . . . , d} dan ∂if (x) turunan dari fungsi f pada titik x. Ditandai bahwa, asumsi (2.1) di atas, vektor (θ1∗, . . . , θd∗)t adalah jarang.
Oleh karena itu, metode seleksi menyediakan subset Jˆ bergantung pada pemilihan θ¯. Namun demikian, Teorema (4.5) memenuhi untuk sebarang subset Jˆ, vektor θ¯ dipilih pada θ¯(λ).

Anggap prosedur pemilihan seleksi lain tertutup dari yang sebelumnya de-

ngan mensyaratkan asumsi pada fungsi regresi. Yang dibutuhkan hanya asumsi

bahwa terdapat fmax > 0 sedemikian sehingga |f (x)| ≤ fmax. Dengan notasi

yang sama, anggap himpunan vektor berikut:

θ¯2(λ) = arg min
θ∈Rd+1

1n nhd
i=1

Yi − fmax + Ch − U

Xi − x h

2
θ

K

Xi − x h

+ 2λ θ 1 ,

(3.7)

dengan C dan h diberikan selanjutnya. Translasi ini mempengaruhi estimator

karena metode LASSO bukan merupakan prosedur yang linier. Dinotasikan bahwa Jˆ2, prosedur seleksi subset.

3.5.2 Prosedur Estimasi

Untuk membangun estimator polinomial lokal klasik (LPE) (cf.. Korostelev dan Tsybakov (1993), Tsybakov (1986)) pada himpunan koordinat Jˆ2.

Asumsikan bahwa tahapan seleksi telah selesai. Diperoleh sebuah subset

Jˆ2 = ˆi1, . . ., ˆidˆ∗ ⊂ {1, . . ., d} dari kardinalitas dˆ∗. Untuk tahap kedua, anggap γx sebuah polinomial pada ℜdˆ∗ dengan derajat l = ⌊β⌋ yang memini-

malkan

n
(Yi − γx(p(Xi − x)))2 K∗

p

Xi − x h∗

i=1

dengan h∗ = n−1/(2β+dˆ∗), p(u) = (uˆi1, . . ., uˆid∗ )t untuk sebarang v = (v1, . . ., vd)t ∈ ℜd dan K∗ : ℜdˆ∗ → ℜ adalah fungsi kernel. Estimator Polinomial Lokal pada

Universitas Sumatera Utara

19

fungsi f pada titik x adalah γˆx(0) jika γˆx adalah tunggal dan 0 untuk yang lainnya. Dinotasikan bahwa fˆ(x) proyeksi pada [−fmax; fmax] terhadap LPE pada f(x). Dalam hal ini, tidak menggunakan koefisien lain pada γˆx(0) seperti pada tahap seleksi.
Pada tahap estimasi, digunakan hasil pada konvergensi multivariat LPE dari Audibert dan Tsybakov (2007). Sifat kernel dalam Audibert dan Tsybakov (2007). Dalam hal ini diperlukan sifat-sifat dari kernel dalam Audibert dan Tsybakov (2007) untuk memperoleh hasil ini diperoleh.

Asumsi 3.3 Kernel K∗ : ℜdˆ∗ → ℜ sedemikian hingga: terdapat c > 0 memenuhi K∗(u) ≥ c1 x 2≤c, ∀u ∈ ℜdˆ∗; ℜdˆ∗ K∗(u)du = 1

ℜdˆ∗ (1 +

u

4β 2

)

(K ∗ (u))2

du

<

∞ ; sub (1 +
u∈ℜdˆ∗

u

2β 2

)

K ∗ (u)

<

∞.

3.6 Estimasi Titik untuk Kurva Regresi
Estimasi kurva regresi umumnya dilakukan dengan pendekatan parametrik yang mulai diperkenalkan oleh Laplace sejak abad ke XVIII dan juga Boscovich pada tahun 1757. Dalam regresi parametrik diasumsikan bahwa bentuk kurva regresi fungsi f diketahui. Pembuatan asumsi tersebut berdasarkan pada teori, pengalaman masa lalu atau tersedianya sumber-sumber lain yang dapat memberi pengetahuan atau informasi yang terperinci.
Estimasi dapat juga dilakukan berdasarkan pendekatan yang tidak terikat dengan asumsi bentuk kurva regresi tertentu, yang memberikan fleksibilitas yang lebih besar dari kurva regresi. Metode pendekatan seperti ini dinamakan pendekatan nonparametrik yang mulai dikenal sejak abad ke XIX. Ada beberapa teknik untuk mengestimasi dalam regresi nonparametrik, antara lain histogram, estimator Kernel, Spline, dan lain-lain.

Universitas Sumatera Utara

20

Masalah yang sering muncul dalam regresi adalah tidak semua variabel penjelas dapat didekati dengan pendekatan parametrik, karena tidak adanya informasi tentang bentuk hubungan variabel penjelas tersebut dengan variabel responnya, sehingga harus digunakan pendekatan nonparametrik. Dengan menggabungkan dua pendekatan tersebut dalam suatu pendekatan regresi akan didapatkan suatu model semiparametrik. Estimasi model semiparametrik ekuivalen dengan mengestimasi parameter-parameter pada komponen parametrik dan estimasi kurva pada komponen nonparametrik.

Bentuk kurva regresi fungsi f diasumsikan oleh smooth, dalam arti bahwa fungsi f termuat di dalam ruang Sobolev W2p [a, b], dengan
W2p [a, b] = g; (f (p)(x))2dx < ∞ ,

untuk suatu p bilangan bulat positif, dan ei sesatan random yang diasumsikan berdistribusi normal dengan rata-rata nol dan variansi σ2. Untuk mendapatkan estimasi kurva regresi fungsi f menggunakan optimasi

dengan suatu syarat,

n

M in
f ∈ W2p{a,b}

(yi − f (xi))2
i=1

b
g(f ) = f (p)(x) 2dx ≤ ρ,
a

ρ ≥ 0.

Estimasi ini ekuivalen dengan penalized least square (PLS) yaitu penyelesa-

ian optimasi seperti berikut:

 n

b

M in
f ∈ W2p{a,b}

n−1

i=1

(yi



f (xi))2

+

λ

a

  f (p)(xi) 2 dx .

(Eubank, 1988). Ruas pertama pada persamaan di atas merupakan fungsi yang mengukur kecocokan data (goodness of fit), sedangkan ruas merupakan ukuran kekasaran kurva (roughness penalty) dengan λ sebagai parameter yang mengontrol goodness of fit dan roughness penalty.

Universitas Sumatera Utara

21

Umumnya estimasi fungsi fˆ diperoleh dari meminimumkan Penalized Likelihood (PL). Untuk menyelesaikan optimasi Penalized Likelihood (PL), digunakan pendekatan Reproducing Kernel Hilbert Space (RKHS) atau Gateaux. Sedangkan untuk persoalan inferensi seperti estimasi interval untuk fungsi f yang menggunakan pendekatan Bayesian. Tetapi pendekatan ini memerlukan pengetahuan Matematika yang relative tinggi dan sulit dipahami oleh banyak pengguna Statistika.

Namun untuk menduga kurva regresi yang diperoleh dari optimasi Likelihood dapat menjadi pilihan yang cukup baik karena secara matematik mudah dan sederhana. Sedangkan untuk mengkonstruksi selang kepercayaan pada kurva regresi, beberapa peneliti seperti wahba (1983) menggunakan pendekatan Bayesian dengan menggunakan prior improper sehingga secara matematis cukup sulit. Akan tetapi jika selang kepercayaan diperoleh dengan pendekatan Privotal Quantity tidak akan melibatkan distribusi prior, sehingga diperoleh model yang sederhana dan inferensi statistik yang relative mudah (Eubank, 1988).

Apabila diasumsikan sesatan random εi berdistribusi normal independen dengan mean nol dan variansi σ2, maka fungsi yi juga berdistribusi normal dengan mean fungsi f (Xi) dan variansi σ2. Akibatnya diperoleh fungsi Likelihood

n

L(y, f) =

(2πσ2)−1/2Exp(−

1 2σ2

(yi



f

(xi)))

i=1

=

(2π

σ2)−n/2

E

xp(−

1 2σ2

(yi



f (xi)))2.

Estimasi untuk fungsi f diperoleh dengan menyelesaikan Optimasi Likelihood

yaitu:

Max {L(y, f )} = Max (2πσ2)−n/2Exp
f γ∈R2+m+1



1 2σ2

n

j=1

2m
yi − γj xj − γk+2(x − λk)2+
j=0 k=1

.

Universitas Sumatera Utara

BAB 4
PEMILIHAN VARIABEL DAN REDUKSI DIMENSI DALAM REGRESI NONPARAMETRIK BERDIMENSI BESAR

Pada Bab ini diperhatikan hasil utama dari penelitian ini. Hasil utama yang diperoleh berdasarkan penjelasan-penjelasan yang telah dipaparkan pada bab-bab sebelumnya. Hasil utama dari penelitian ini dapat diperoleh dari model regresi nonparametrik berikut y = f (Xi) + εi, i = 1, 2, ..., n. Dan untuk mengestimasi fungsi regresi dilakukan dengan pendekatan nonparametrik. Salah satu metode dalam mengetimasi regresi nonparametrik adalah dengan metode kernel (K) di mana K : ℜd → ℜ, bandwidth yaitu θ = (θ0, . . . , θd)t ∈ ℜd+1, h > 0 dan parameter regularisasi di mana λ > 0. Dan untuk menghindari kerumitan teknis akan diasumsikan pada fungsi µ desain X dalam asumsi sebagai berikut:

Asumsi 4.1 Terdapat beberapa konstanta η, µm > 0, µM ≥ 1 dan Lµ > 0 sedemikian sehingga

1. B∞(x, η) ⊂ supp (µ) dan µm ≤ µ(y) ≤ µM untuk hampir setiap y ∈ B∞(x, η),
2. µ adalah Lµ-Lipschitzian sekitar x, yaitu untuk sebarang t ∈ B∞(x, 1), |µ(x) − µ(t)| ≤ Lµ x − t ∞.
Hasil pertama berhubungan dengan sifat statistik dari prosedur seleksi. Untuk tahap ini, memerlukan asumsi keteraturan untuk fungsi regresi f. Asumsi ini dipenuhi untuk sebarang β-Hlderian dalam fungsi x dengan β > 1.

Asumsi 4.2 Terdapat konstan mutlak L > 0 yang memenuhi kondisi. Fungsi regresi f terdiferensial dan,

|f (t) − P1(f )(t, x)| ≤ L

t−x

β 1

,

∀t ∈ B∞(x, 1)

dengan P1(f )(., x) adalah polinomial Taylor dari derajat 1 dan dari fungsi f pada titik x.

22

Universitas Sumatera Utara

23
Untuk mencapai suatu seleksi efisien pada koordinat yang menarik, harus dapat membedakan turunan parsial tidak nol dari fungsi f dari turunan parsial nol. Untuk itu, dipertimbangkan asumsi berikut:
√ Asumsi 4.3 Terdapat sebuah konstan C ≥ 72(µM /µm) LMK d0 sedemikian hingga |∂jf(x)| ≥ C untuk sebarang j ∈ J , dengan himpunan J diberikan pada Asumsi (2.1) dan d0 adalah integral seperti d∗ ≤ d0.

Teorema 4.4 Terdapat beberapa konstanta c0 > 0 dan c1 > 0 hanya tergantung pada Lµ, µm, µM , MK, L, C dan σ. Berasumsi bahwa fungsi regresi f memenuhi keteraturan Asumsi (4.2), sparsity pada Asumsi (2.1) sedemikian hingga integer d∗ lebih kecil dari integer d0 yang dibedakan pada Asumsi (4.3). Diasumsikan bahwa fungsi kepadatan µ dari variabel input X memenuhi Asumsi (4.1).
Mempertimbangkan bahwa θ¯ = (θ¯0, . . ., θ¯d) ∈ θ¯(λ) ⊂ ℜd+1 dan θ¯2 = ((θ¯2)0, .. ., (θ¯2)d) ∈ θ¯2(λ) ⊂ ℜd+1 dengan θ¯(λ) dan θ¯2(λ) didefinisikan dalam persamaan (3.6) dan (3.7) dengan kernel pada Asumsi (3.2), bandwidth dan parameter regularisasi sehingga,

0

<

h

<

32(d0

µm + 1) LµMK



η

dan

λ

=

8

3MKµM Lh

(4.1)

Dinyatakan Jˆ himpunan j ∈ {1, . . ., d} : θ¯j = 0 dan oleh Jˆ2 himpunan j ∈ {1, . . ., d} : (θ¯2)j = 0 .

1. Jika |f(x)| > Ch, dengan C didefinisikan dalam Asumsi (4.3) atau f(x) = 0, dengan probabilitas yang lebih besar pada 1 − c1 exp (c1d − c0nhd+2).
2. Jika |f (x)| ≤ fmax dengan probabilitas lebih besar pada 1 − c1 exp (c1d − c0 nhd+2 ).

Bahwa Teorema 4.4 masih berlaku ketika berasumsi bahwa ada sebuah subset j ⊂ {1, . . . , d} seperti ∂jf(x) = 0 untuk sebarang j ∈/ J Asumsi (2.1).

Universitas Sumatera Utara

24

Bukti: Pertama mencatat bahwa, mengingat hanya pengamatan Xi dari daerah sekitar x, sebuah estimasi θ¯ = (θ¯0, . . . , θ¯d) ∈ θ¯(λ) didefinisikan dalam persamaan
(3.6) dapat dilihat sebagai estimator LASSO dalam model regresi linier

Z = Aθ∗ + ε dengan θ∗ = (θ0∗, . . ., θd∗)t = (f (x), h∂1f (x), . . ., h∂df (x))t (4.2)

untuk sebarang

i = 1,

. . ., n ∆i

:=

αif (Xi) − Aiθ∗

dan αi

:=

√1 nhd

K

−1/2

Xi−x h

,

hasil vektor Z dari ℜn untuk koordinat Zi := αiYi, i = 1, . . ., n, garis desain

matriks Ai := αiU

Xi−x h

, i = 1, . . ., n (U adalah definisi setelah Persamaan

(3.6)) dan tidak terpusat pada vektor ε dan εi = αi ei + ∆i untuk sebarang

koordinat. Dengan notasi baru diperoleh

θ¯(λ) = arg min
θ ∈ ℜd+1

Z − Aθ

2 2

+



θ1

dengan θ¯(λ) dikenalkan dalam persamaan (3.6) dan ∀z = (z1, , , zn) ∈ Rn,

z

2 2

=

n i=1

z12.

Untuk alasan yang sama, pada estimator θ¯2 ∈ θ¯2(λ) didefinisikan dalam persamaan (3.7) dapat dilihat sebagai estimator LASSO pada model regresi linier

⌣ ⌣∗
Z = Aθ + ε,

dengan

⌣∗
θ

=

(f (x) + fmax

+ Ch,

h∂1f (x),

. . .,

h∂df (x))t

⌣⌣
dan Z untuk koordinat Zi = αi(Yi + fmax + Ch), i = 1, . . ., n.

Dengan mempelajari θ¯ ∈ θ¯(λ) apabila |f (x)| ≥ Ch dan θ¯2 ∈ θ¯2 (λ) sehingga

|f (x)| ≤ fmax. Perhatikan bahwa, dalam kedua kasus yang dipertimbangkan,

diperoleh |θ0∗| ≥ Ch dan

⌣∗
θ0

≥ Ch.

Kenyataan ini akan digunakan sebagai

berikut. Pertama-tama membahas θ¯, bila |f(x)| ≥ Ch. Studi tentang θ¯2 ketika


|f (x)| ≤ fmax adalah terjemahan yang sama dengan data Y i = Yi + fmax + Ch dan

⌣⌣

f = f + fmax + Ch. Perhatikan bahwa f dan fungsi f memiliki turunan parsial

yang

sama

sehingga

θ∗

dan

⌣∗
θ

memiliki

akhir

yang

sama

pada

koordinat

d

yang

merupakan satu-satunya yang menarik untuk langkah seleksi.

Universitas Sumatera Utara

25

Membuktikan Teorema 4.4 dapat dilihat sebagai masalah konsistensi pada estimator LASSO θˆ = (θ¯1, . . ., θ¯d). Untuk mengatasi masalah ini, ikuti ketentuan Zhao dan Yu (2006). Hati-hati menyelesaikan masalah bertentangan dari keunikan LASSO untuk karya Zhao dan Yu (2006) dengan keunikan LASSO estimator yang diasumsikan.

Pertama-tama menyelesaikan masalah keunikan LASSO. Maka diperkenalkan

fungsi

φ(θ) :=

Z − Aθ

2 2

+



θ 1,

∀θ ∈ ℜd+1

(4.3)

maka disebutkan θ ∈ ℜd+1 memenuhi sistem (S) apabila

∀j = 0, . . ., d,

(Aj)t (Z − Aθ) = −λsign (θj) if θj = 0

|(Aj)t (Z − Aθ)| ≤ λ

if θj = 0

dengan, untuk sebarang j ∈ {0, . . ., d}, vektor A·j adalah j-th kolom pada A. Hal ini diketahui bahwa θ ∈ ℜd+1 milik θ¯(λ) jika dan hanya jika θ memenuhi sistem
(S).

Lemma 4.5 Jika θ¯ ∈ ℜd+1 dan θ¯2 ∈ ℜd+1 dua solusi pada (S) sehingga Aθ¯ = Aθ¯2

Bukti: Menunjukkan bahwa S(θ¯) himpunan j ∈ {0, . . . , d} : θ¯j = 0. Untuk sebarang v ∈ ℜd+1, diperoleh

ϕ θ¯ + v − ϕ θ¯ = 2λ

θ¯j + vj − θ¯j − vj sigh (θ¯j)+

j∈S(θ¯)



|vj| − ηj vj +

Av

2 2

,

j∈S(θ¯)

dengan ηj = λ−1(Aj)t (Z − Aθ¯). Untuk sebarang j ∈ S(θ¯) diperoleh θ¯j + vj − θ¯j − vj sign (θ¯j) ≥ 0 dan untuk sebarang j ∈/ S(θ¯), diperoleh |ηj| ≤ 1 sehingga

|vj| − ηjvj ≥ 0. Oleh karena itu,

φ(θ¯ + v) − φ(θ¯) ≥

Av

2 2

Ambil v ∈ Rd+1 sedemikian hingga θ¯(2) = θ¯+ v. Vektor θ¯(2) dan θ¯ keduanya

solusi dari (S), sehingga meminimalkan ϕ dan sehingga ϕ(θ¯(2))