HALAMAN JUDUL - REGRESI CAMPURAN NONPARAMETRIK SPLINE LINIER TRUNCATED DAN FUNGSI KERNEL UNTUK PEMODELAN DATA KEMISKINAN DI PROVINSI PAPUA - ITS Repository

  HALAMAN JUDUL TESIS - SS142501 REGRESI CAMPURAN NONPARAMETRIK

SPLINE LINIER TRUNCATED DAN FUNGSI KERNEL

UNTUK PEMODELAN DATA KEMISKINAN DI PROVINSI PAPUA

  RORY NRP. 1314 201 711 DOSEN PEMBIMBING Prof. Dr. Drs. I Nyoman Budiantara, M.Si.

  Dr. Wahyu Wibowo, S.Si., M.Si.

  PROGRAM MAGISTER JURUSAN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

  INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2016

  TITLE PAGE THESIS - SS142501 NONPARAMETRIC MIXED REGRESSION OF TRUNCATED LINEAR SPLINE AND KERNEL

FUNCTION FOR POVERTY DATA MODELING

  RORY NRP. 1314 201 711 SUPERVISOR Prof. Dr. Drs. I Nyoman Budiantara, M.Si.

  Dr. Wahyu Wibowo, S.Si., M.Si.

  MAGISTER PROGRAM DEPARTEMENT OF STATISTICS FACULTY OF MATHEMATICS AND NATURAL SCIENCES

  INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2016

  

REGRESI CAMPURAN NONPARAMETRIK SPLINE LINIER

TRUNCATED DAN FUNGSI KERNEL UNTUK PEMODELAN

DATA KEMISKINAN DI PROVINSI PAPUA

  Nama Mahasiswa : Rory NRP : 1314 201 711 Pembimbing : Prof. Dr. Drs. I Nyoman Budiantara, M.Si.

  Co-Pembimbing : Dr. Wahyu Wibowo, S.Si., M.Si.

  

ABSTRAK

  Model regresi campuran nonparametrik = ( , ̃ ) + , = 1,2, … , , ) memiliki kurva regresi bersifat aditif

  ̃ = ( , , … ,

  1

  2

  ( , ̃ ℎ ( ) . Komponen ( ) dihampiri dengan spline linier ) = ( ) + ∑

  =1

  truncated, sedangkan komponen ℎ ( ) dihampiri dengan kernel Nadaraya-

  2

  ). Tujuan dari Watson. Error random mengikuti distribusi normal N(0, penelitian ini adalah melakukan kajian mengenai estimator kurva regresi campuran

  , ̃ ) dan mengaplikasikannya pada data nonparametrik spline dan kernel ( kemiskinan di Provinsi Papua. Hasil kajian menunjukkan bahwa estimator kurva regresi spline ̃( ) adalah ̃̂ ( , ̃) = ( ̃, ̃) ̃ dan estimator kurva regresi

  ̃, ̃

  kernel ∑ ℎ̃ ( ) adalah ∑ ℎ̃̂ ( ) = ( ̃) ̃. Selanjutnya, estimator kurva

  =1 =1

  regresi campuran nonparametrik spline dan kernel ̃( , ̃) adalah ̃̂ ( , ̃) = ( ̃, ̃) ̃, dimana ( ̃, ̃) = ( ̃, ̃) + ( ̃). Matriks ( ̃, ̃),

  ̃, ̃ ( ̃) dan ( ̃, ̃) tergantung pada lokasi titik-titik knot ̃ dan bandwidth ̃.

  Estimator-estimator tersebut adalah estimator bias, namun masih kelas estimator linier. Model regresi campuran nonparametrik terbaik adalah model yang menggunakan banyaknya titik knot, lokasi titik-titik knot dan bandwidth optimum yang diperoleh dengan meminimumkan fungsi Generalized Cross Validation (GCV). Pemilihan lokasi titik-titik knot dan bandwidth dilakukan secara simultan. Model regresi campuran nonparametrik spline dan kernel diterapkan pada data kemiskinan di Provinsi Papua, dimana sebagai variabel responnya adalah persentase penduduk miskin ( ), variabel prediktor yang mengikuti kurva regresi spline adalah PDRB perkapita ( ), dan variabel-variabel prediktor yang mengikuti

  ), tingkat kurva regresi kernel adalah gini ratio ( ), rata-rata lama sekolah (

  

1

  2

  ). Model terbaik pengangguran terbuka ( ) dan laju pertumbuhan ekonomi (

  3

  4

  2

  diperoleh ketika model menggunakan 3 titik knot. Estimasi model memberikan R sebesar 92,02%. Model dapat digunakan untuk skenario kebijakan. Kata kunci: kernel nadaraya-watson, regresi campuran nonparametrik, regresi nonparametrik aditif, spline linier truncated

  

NONPARAMETRIC MIXED REGRESSION OF TRUNCATED

LINEAR SPLINE AND KERNEL FUNCTION FOR POVERTY

DATA MODELING IN PAPUA PROVINCE

  Name : Rory NRP : 1314 201 711 Supervisor : Prof. Dr. Drs. I Nyoman Budiantara, M.Si.

  Co-Supervisor : Dr. Wahyu Wibowo, S.Si., M.Si.

  

ABSTRACT

  Nonparametric mixed regression model = ( , ̃ ) + , = 1,2, … , , ) has additive regression curve

  ̃ = ( , , … ,

  1

  2

  ( , ̃ ℎ ( ) . Component of ( ) is approached by truncated ) = ( ) + ∑

  =1

  linear spline regression curve, while components of ℎ ( ) is approached by follows independent Nadaraya-Watson kernel regression curve. Random error

  2

  ). The aim of this thesis is to perform a study on normal distribution normal N(0, ) estimator of nonparametric mixed regression curve of spline and kernel ( , ̃ and to apply it to poverty data in Papua Province. The results of study show that estimator of spline regression curve ̃( ) is ̃̂ ( , ̃) = ( ̃, ̃) ̃ and estimator

  ̃, ̃

  of kernel regression curve ∑ is ∑ ℎ̃ ( ) ℎ̃̂ ( ) = ( ̃) ̃. Furthermore,

  =1 =1

  estimator of nonparametric mixed regression curve of spline and kernel ̃( , ̃) is ̃̂ ( , ̃) = ( ̃, ̃) ̃, where ( ̃, ̃) = ( ̃, ̃) + ( ̃). The estimators are

  ̃, ̃

  biased estimator, but still the class of linear estimator. Matrix ( ̃, ̃), ( ̃) and ( ̃, ̃) depend on knot points location ̃ and bandwidths ̃. The best nonparametric mixed regression model of spline and kernel is the model that uses the optimum of number of knots point, knot points location and bandwidths obtained from Generalized Cross Validation (GCV) method. The choice of knot points location and bandwidths is conducted simultaneously. Nonparametric mixed regression model of spline and kernel is applied to poverty data in Papua Province, in which the response variable is percentage of poor people ( ), the predictor variable that follows spline regression curve is GDRP per capita ( ), and the

  ), mean years predictor variables that follow kernel curve regression is gini ratio (

  1

  ). The best of schooling ( ), unemployment rate ( ) and economic growth (

  2

  

3

  4

  2

  model is obtained when the model has 3 knot points. Estimation model results R of 92.02%. The model can be used for policy scenario. Key words: additive nonparametric regression, kernel nadaraya-watson, nonparametric mixed regression, truncated linear spline

KATA PENGANTAR

  Alhamdulillah, puji syukur penulis panjatkan kehadirat Allah SWT, atas segala limpahan rahmat dan kemurahan-Nya penulis dapat menyelesaikan tesis dengan judul “Regresi Campuran Nonparametrik Spline Linier Truncated dan

Fungsi Kernel untuk Pemodelan Data Kemiskinan di Provinsi Papua”.

Penyelesaian Tesis ini tak lepas dari peranan, dukungan dan motivasi berbagai pihak. Oleh karena itu pada kesempatan ini penulis ingin menyampaikan terima kasih yang sedalam-dalamnya secara khusus kepada kedua orang tua yang sangat penulis cintai dan hormati, Bapak Amziur dan Ibu Erneli. Terima kasih atas segala cinta, pendidikan, doa dan motivasi yang tiada henti. Selanjutnya penulis ingin menyampaikan rasa terimakasih kepada

  1. Bapak Prof. Dr. Drs. I Nyoman Budiantara, M.Si. selaku dosen pembimbing pertama atas motivasi dan kesabarannya dalam mengarahkan penulis dalam menyelesaikan tesis ini,

  2. Bapak Dr. Wahyu Wibowo, S.Si., M.Si. selaku dosen pembimbing kedua atas semua petunjuk, saran dan arahannya,

  3. Ibu Dr. Dra. Ismaini Zain, M.Si., Bapak Dr. rer. pol. Dedy Dwi Prastyo, S.Si., M.Si., dan Ibu Dr. Vera Lisna, S.Si., M.Phil. selaku dosen penguji yang telah memberikan banyak saran dan masukan terhadap tesis ini.

  4. Bapak Dr. Suhartono, S.Si., M.Sc. selaku ketua Jurusan Statistika FMIPA

  ITS, atas segala kemudahan urusan akademis dan fasilitas yang menunjang di Jurusan Statistika Statistika FMIPA ITS Surabaya.

  5. Bapak Ibu Dosen selaku Pengajar di Jurusan Statistika atas pembekalan ilmu kepada penulis selama penulis menempuh pendidikan di Program Studi Magister Jurusan Statistika FMIPA ITS Surabaya. Terimakasih juga kepada Seluruh Staf Pegawai di Jurusan Statistika FMIPA ITS atas pelayanannya yang tulus dan ramah.

  6. Pimpinan Badan Pusat Statistik (BPS) RI beserta seluruh jajarannya, atas kesempatan yang diberikan kepada penulis untuk melanjutkan pendidikan S2.

  7. Pimpinan BPS Provinsi Jambi dan PUSDIKLAT BPS yang telah memberikan kesempatan dan motivasi kepada penulis untuk menempuh pendidikan magister di Jurusan Statistika FMIPA ITS.

  8. Pimpinan BPS Kabupaten Tanjung Jabung Barat atas kepercayaan dan ijin yang telah diberikan serta Seluruh Pegawai BPS Kabupaten Tanjung Jabung Barat atas suka duka, kenangan dan pengalaman yang diberikan.

  9. Saudariku Uni Elfina Rozita, Uda Ridsalman dan keponakanku Muhammad Alif Salman atas motivasi dan semangatnya.

  10. Nani Sundari, yang telah memberikan motivasi, semangat dan doanya selama menyelesaikan tesis ini.

  11. Saudara senasib sepenanggungan Magister BPS angkatan 8, Pak Komting Mas Ali, Aan, Mpih, Yanti, Mas Mur, Mb Nike, Widi, Mas Henri, Maul, Mas Duto, Mas Arip, Daeng Zablin, Dian, Yani, Fatih, Mb Afni, Santi, Vivin, Mb Anita (diurutkan sesuai absen, semoga selalu ingat) atas kerjasama dan kenangan suka dukanya selama menyelesaikan studi.

  12. Teman-teman S2 TB BPS angkatan 9 dan Mas-mas S3 TB BPS Jurusan Statistika FMIPA ITS atas dukungan dan bantuannya.

  13. Teman-teman S2 Statistika reguler angkatan 2014 yang ikut juga berjuang bersama angkatan 8 TB BPS di Jurusan Statistika FMIPA ITS.

  14. Semua pihak yang telah membantu selama penulis menyelesaikan studi, yang tidak dapat penulis sebutkan satu persatu.

  Semoga tesis ini dapat bermanfaat dan dapat menambah wawasan keilmuan. Penulis menyadari bahwa tesis ini masih jauh dari sempurna. Saran dan kritik yang membangun dari semua pihak, sangat penulis harapkan untuk perbaikan.

  Penulis Surabaya, Januari 2016

  

DAFTAR ISI

  LEMBAR PENGESAHAN ..................................................................................... i ABSTRAK ............................................................................................................ iii ABSTRACT ............................................................................................................ v KATA PENGANTAR .......................................................................................... vii DAFTAR GAMBAR ............................................................................................. xi DAFTAR TABEL ................................................................................................ xiii DAFTAR LAMPIRAN ......................................................................................... xv

  BAB 1 PENDAHULUAN ...................................................................................... 1

  1.1 Latar Belakang ...................................................................................... 1

  1.2 Perumusan Masalah ............................................................................... 4

  1.3 Tujuan Penelitian ................................................................................... 5

  1.4 Manfaat Penelitian ................................................................................. 5

  1.5 Batasan Penelitian ................................................................................. 6

  BAB 2 KAJIAN PUSTAKA ................................................................................... 7

  2.1 Analisis Regresi ..................................................................................... 7

  2.2 Regresi Parametrik, Nonparametrik dan Semiparametrik ..................... 7

  2.3 Regresi Parametrik Linier Berganda ..................................................... 9

  2.4 Regresi Nonparametrik Spline Truncated ........................................... 10

  2.5 Regresi Nonparametrik Kernel ............................................................ 14

  2.6 Regresi Campuran Nonparametrik ...................................................... 18

  2.7 Optimasi nlminb .................................................................................. 20

  2.8 Uji Normalitas Kolmogorov-Smirnov ................................................ 21

  2.9 Kriteria Kebaikan Model ..................................................................... 21

  2.10 Tinjauan Kemiskinan ........................................................................ 22

  2.10.1 Konsep dan Pengukuran Kemiskinan .................................. 22

  2.10.2 Faktor-faktor yang Mempengaruhi Kemiskinan .................. 23

  BAB 3 METODE PENELITIAN.......................................................................... 27

  3.1 Sumber Data ........................................................................................ 27

  3.2 Variabel Penelitian ............................................................................... 27

  3.3 Tahapan Penelitian ............................................................................... 29

  BAB 4 HASIL DAN PEMBAHASAN ................................................................. 35

  4.1 Model Regresi Campuran Nonparametrik Spline dan Kernel ............. 35

  4.2 Estimasi Kurva Regresi ....................................................................... 37

  4.3 Sifat Estimator Kurva Regresi ............................................................. 43

  4.4 Pemilihan Titik-titik Knot dan Bandwidth Secara Simultan ............... 45

  4.5 Aplikasi pada Data Kemiskinan .......................................................... 46

  4.5.1 Eksplorasi Data....................................................................... 46

  4.5.2 Model Regresi Campuran Nonparametrik ............................. 48

  4.5.3 Fungsi Kernel, Titik Knot dan Bandwidth Optimum ............. 49

  4.5.3.1 Model dengan Satu Titik Knot ........................................ 49

  4.5.3.2 Model dengan Dua Titik Knot......................................... 50

  4.5.3.3 Model dengan Tiga Titik Knot ........................................ 51

  4.5.3.4 GCV Minimum dan Banyaknya Titik Knot Optimum .... 52

  4.5.4 Estimasi Model Regresi.......................................................... 53

  4.5.5 Uji Normalitas Residual ......................................................... 54

  4.5.6 Interpretasi Model .................................................................. 55

  4.5.7 Simulasi Data untuk Prediksi ................................................. 58

  BAB 5 KESIMPULAN ......................................................................................... 61

  5.1 Kesimpulan .......................................................................................... 61

  5.2 Saran .................................................................................................... 62 DAFTAR PUSTAKA ............................................................................................ 63 LAMPIRAN .......................................................................................................... 67 BIOGRAFI PENULIS ........................................................................................... 81

  

DAFTAR GAMBAR

Gambar 3.1 Peta Provinsi Papua ........................................................................... 27Gambar 3.2 Diagram Alir Tahap Analisis untuk Tujuan Pertama dan Kedua...... 32Gambar 3.3 Diagram Alir Tahap Analisis untuk Tujuan Ketiga .......................... 33Gambar 4.1 Diagram Pencar Variabel Respon dan Prediktor............................... 47Gambar 4.2 Probability Plot Residual .................................................................. 54

  

DAFTAR TABEL

Tabel 4.1 Statistik Deskriptif Variabel Respon dan Prediktor .............................. 48Tabel 4.2 GCV pada Model dengan Satu Titik Knot ............................................. 50Tabel 4.3 GCV pada Model dengan Dua Titik Knot.............................................. 51Tabel 4.4 GCV pada Model dengan Tiga Titik Knot ............................................. 52Tabel 4.5 Perbandingan nilai GCV Minimum ....................................................... 52Tabel 4.6 Skenario Data untuk Prediksi Persentase Penduduk Miskin ................ 59

  

DAFTAR LAMPIRAN

  Lampiran 1. Data dan Format Data yang Digunakan ........................................... 67 Lampiran 2. Fungsi nlminb pada Program R ........................................................ 68 Lampiran 3. Prosedur Pemanggilan Fungsi nlminb .............................................. 70 Lampiran 4. Syntax R GCV Model dengan Satu Titik Knot ................................ 72 Lampiran 5. Syntax R GCV Model dengan Dua Titik Knot................................. 74 Lampiran 6. Syntax R GCV Model dengan Tiga Titik Knot ................................ 76 Lampiran 7. Syntax R Estimasi Parameter Model dengan Tiga Titik Knot ......... 78 Lampiran 8. Syntax R untuk Menghitunng Estimasi y i dan Residual ................... 79 Lampiran 9. Syntax R Prediksi Persentase Penduduk Miskin dari Model ........... 80

BAB 1 PENDAHULUAN Equation Section (Next)

1.1 Latar Belakang

  Analisis regresi adalah salah satu metode statistika yang sering digunakan oleh para peneliti di berbagai bidang penelitian. Analisis ini digunakan untuk mengetahui pola hubungan dua atau lebih variabel dalam bentuk fungsional. Dalam hubungan fungsional tersebut, masing-masing variabel dikelompokkan ke dalam variabel respon dan variabel prediktor. Identifikasi awal adanya pola hubungan dapat dilakukan dengan memanfaatkan pengalaman masa lalu atau menggunakan diagram pencar (scatter plot). Jika bentuk pola hubungan fungsionalnya diketahui, maka model regresi yang digunakan adalah model regresi parametrik. Sebaliknya, jika bentuk pola hubungan fungsionalnya tidak diketahui, maka model regresi yang digunakan adalah model regresi nonparametrik (Eubank, 1999).

  Seringkali dalam prakteknya, bentuk pola hubungan fungsional antara variabel respon dan variabel prediktor tidak diketahui. Pada kondisi ini tentu model regresi parametrik kurang cocok digunakan. Oleh karena itu, seiring dengan makin berkembangnya teknologi di bidang komputasi, model regresi nonparametrik yang umumnya membutuhkan tingkat penghitungan yang cukup sulit sudah semakin banyak digunakan. Model regresi nonparametrik ini sangat baik digunakan untuk pola data yang tidak diketahui karena memiliki fleksibilitas yang tinggi, dimana data diharapkan mencari sendiri bentuk estimasi kurva regresinya tanpa dipengaruhi oleh subyektifitas peneliti (Eubank, 1999).

  Ada banyak estimator kurva regresi nonparametrik yang telah dikembangkan oleh para peneliti, diantaranya spline (Reinsch, 1967; Silverman, 1985; Wahba, 1990; Eubank, 1999; Liang, 2006; Lin & Zhang, 2006; Islamiyati & Budiantara, 2007; Budiantara, 2009), kernel (Nadaraya, 1989; Gasser & Muller, 1979; Hardle, 1994; Wand & Jones, 1995; Eubank, 1999; You & Chen, 2007; Kayri & Zirbhoglu, 2009; Klemela, 2014) dan deret fourier (De Jong, 1977; Bilodeau, 1992; Morton & Silverberg, 1999; Tripena & Budiantara, 2007; Sudiarsa, Budiantara, Suhartono & Purnami, 2015). Regresi spline merupakan salah satu model regresi yang mempunyai interpretasi statistik dan interpretasi visual sangat khusus dan sangat baik (Eubank, 1999). Kurva regresi spline memiliki kemampuan yang sangat baik dalam menangani data yang perilakunya berubah-ubah pada sub-sub interval tertentu (Budiantara, 2009). Dengan bantuan titik-titik knot, kurva spline dapat mengatasi permasalahan pola data yang menunjukkan naik/turun yang tajam sehingga dapat dihasilkan kurva yang relatif mulus (Eubank, 1999). Bentuk kurva regresi spline sangat dipengaruhi oleh banyaknya titik knot dan lokasi titik-titik knot.

  Estimator kernel adalah pengembangan dari estimator histogram. Estimator ini merupakan estimator linier yang mirip dengan estimator regresi nonparametrik yang lain, perbedaannya hanya karena estimator kernel lebih khusus dalam penggunaan metode bandwidth (Eubank, 1999). Kelebihan dari estimator kernel adalah memiliki kemampuan yang baik dalam memodelkan data yang tidak mempunyai pola tertentu (Hardle, 1994). Selain itu, estimator kernel lebih fleksibel, bentuk matematisnya mudah, dan dapat mencapai tingkat kekonvergenan yang relatif cepat (Budiantara & Mulianah, 2007). Dari segi komputasinya, metode kernel lebih mudah dilakukan dan mudah diimplementasikan (Klemela, 2014).

  Model regresi nonparametrik dapat diterapkan di berbagai bidang keilmuan, salah satunya adalah bidang sosial. Pada bidang ini, model regresi nonparametrik dapat diterapkan untuk menganalisis masalah kemiskinan. Masalah kemiskinan merupakan masalah yang sangat serius yang dihadapi oleh negara- negara di dunia terutama negara-negara berkembang termasuk Indonesia. Pengentasan kemiskinan yang menjadi tujuan utama Millennium Development

  

Goals (MDGs) yang ditetapkan oleh Perserikatan Bangsa-Bangsa (PBB) kembali

  menjadi tujuan utama dalam Sustainable Development Goals (SDGs) untuk tahun 2016–2030. Berdasarkan data BPS (2014), pada September 2013 persentase penduduk miskin di Indonesia sebesar 11,47 persen. Dari 33 provinsi di Indonesia, Provinsi Papua menjadi provinsi yang persentase penduduk miskinnya tertinggi di Indonesia yaitu sebesar 31,52 persen. Hal ini tentu wajib menjadi perhatian pemerintah pusat maupun pemerintah daerah untuk menekan angka kemiskinan di provinsi tersebut.

  Masalah kemiskinan merupakan masalah yang komplek dan kronis. Oleh karena itu, menganalisis masalah kemiskinan membutuhkan metode analisis statistik yang tepat, serta melibatkan komponen permasalahan yang tepat pula. Model regresi nonparametrik yang didukung dengan variabel-variabel yang tepat diharapkan bisa menjadi model alternatif yang mampu menganalisis permasalahan kemiskinan.

  Penelitian mengenai kemiskinan menggunakan model regresi nonparametrik sebelumnya pernah dilakukan oleh Budiantara, Ratna, Zain, & Wibowo (2012) yang memodelkan kemiskinan di Indonesia menggunakan pendekatan spline truncated. Selanjutnya Merdekawati & Budiantara (2013) memodelkan kemiskinan di Provinsi Jawa Tengah menggunakan pendekatan spline truncated multivariabel. Budiantara, Diana, Purhadi & Darmesto (2011) menganalisis pola hubungan kemiskinan dan pengangguran di Indonesia dengan menggunakan pendekatan spline bayesian. Selanjutnya, Ratnasari, Budiantara, Zain, Ratna & Mirah (2015) menganalisis kemiskinan di Provinsi Papua dengan membandingkan spline truncated dan deret fourier. Muller (1997) menganalisis kemiskinan di Rwanda menggunakan kernel, Jalan & Ravallion (2003) menganalisis kemiskinan di Argentina menggunakan kernel, Sala-i-Martin (2006) menganalisis kemiskinan negara-negara di dunia menggunakan kernel, Minoiu & Reddy (2008) menganalisis kemiskinan di tiga negara (Tanzania, Nicaragua dan Vietnam) menggunakan estimator kernel. Jung (2009) menganalisis masalah kemiskinan di Amerika Serikat bagian selatan menggunakan spasial kernel adaptif.

  Menurut Budiantara, Ratnasari, Ratna, & Zain (2015), model-model regresi nonparametrik maupun semiparametrik yang dikembangkan oleh para peneliti selama ini, jika ditelusuri lebih mendalam, pada dasarnya terdapat asumsi yang sangat berat dan mendasar pada modelnya. Masing-masing prediktor dalam regresi nonparametrik multiprediktor dianggap memiliki pola yang sama sehingga para peneliti memaksakan penggunaan hanya satu bentuk estimator model untuk semua variabel prediktornya. Oleh karena itu, menggunakan hanya satu bentuk estimator saja dalam berbagai bentuk pola hubungan data yang berbeda-beda tentu akan mengakibatkan estimator yang dihasilkan kurang cocok dengan pola data. Akibatnya estimasi model regresi menjadi kurang baik dan menghasilkan error yang besar. Oleh karena itu, untuk mengatasi masalah tersebut beberapa peneliti telah mengembangkan estimator kurva regresi campuran nonparametrik dimana masing-masing pola data dalam model regresi nonparametrik dihampiri dengan estimator kurva yang sesuai. Estimator kurva regresi campuran nonparametrik ini diharapkan menjadi estimator yang tepat yang mampu mengestimasi pola data dengan baik. Beberapa peneliti yang pernah mengembangkan estimator kurva regresi campuran nonparametrik diantaranya adalah Budiantara, dkk (2015) yang mengembangkan estimator kurva regresi campuran nonparametrik spline truncated dan kernel. Selain itu Sudiarsa, Budiantara, Suhartono & Purnami (2015) mengombinasikan estimator deret fourier dan spline truncated dalam kurva regresi nonparametrik multivariabel.

1.2 Perumusan Masalah

  Pada penelitian sebelumnya, Budiantara, dkk (2015) telah melakukan pengembangan estimator kurva regresi campuran nonparametrik pada model regresi nonparametrik yang memiliki dua variabel prediktor. Hubungan variabel respon dengan masing-masing variabel prediktor memiliki bentuk pola hubungan yang berbeda. Bentuk pola hubungan variabel respon dengan variabel prediktor pertama adalah pola datanya memiliki perilaku berubah-ubah pada setiap sub-sub interval tertentu, sedangkan bentuk pola hubungan variabel respon dengan variabel prediktor kedua adalah pola datanya tidak diketahui atau tidak mengikuti pola tertentu.

  Dalam prakteknya, variabel prediktor dalam suatu model regresi bisa saja lebih dari dua. Oleh karena itu, jika variabel prediktor lebih dari dua dan terdapat dua bentuk pola hubungan, maka perlu dilakukan kajian lebih lanjut mengenai estimator kurva regresi campuran nonparametrik yang telah dilakukan oleh Budiantara, dkk (2015) tersebut. Penelitian ini akan melakukan kajian mengenai model regresi nonparametrik aditif lebih dari dua prediktor, dimana bentuk pola hubungan salah satu prediktor dengan variabel respon adalah pola datanya berubah- ubah pada setiap sub-sub interval tertentu, sedangkan bentuk hubungan variabel prediktor yang lain dengan variabel respon adalah pola datanya tidak diketahui atau tidak mengikuti pola tertentu. Secara teoritis, pola data yang memiliki perilaku berubah-ubah pada setiap sub-sub interval tertentu dapat dihampiri dengan kurva regresi spline, sedangkan pola data yang tidak diketahui atau tidak mengikuti pola tertentu dapat dihampiri dengan kurva regresi kernel.

  Pokok permasalahan dalam model regresi nonparametrik multiprediktor tersebut adalah bagaimana bentuk estimator kurva regresi campuran nonparametriknya. Selanjutnya, bagaimana penerapan estimator kurva regresi campuran nonparametrik tersebut pada data riil, yaitu data kemiskinan di Provinsi Papua sehingga diperoleh model regresi campuran nonparametrik terbaik.

  1.3 Tujuan Penelitian

  Untuk menjawab pokok permasalahan tersebut, maka disusunlah tujuan dari penelitian ini yaitu

  1. Melakukan kajian mengenai estimator kurva regresi campuran nonparametrik spline dan kernel dalam model regresi campuran nonparametrik multiprediktor aditif.

  2. Melakukan kajian mengenai sifat estimator kurva regresi campuran nonparametrik spline dan kernel.

  3. Mengeksplorasi data kemiskinan di Provinsi Papua dan memodelkannya menggunakan regresi campuran nonparametrik spline dan kernel, selanjutnya membuat simulasi data untuk melakukan prediksi persentase penduduk miskin kabupaten/kota.

  1.4 Manfaat Penelitian

  Dengan dilakukannya penelitian ini, diharapkan bisa diperoleh manfaat sebagai berikut.

  1. Memberikan kontribusi dalam mengembangkan wawasan keilmuan bidang statistika khususnya pada regresi nonparametrik pendekatan spline dan kernel.

  2. Memberikan model alternatif untuk menganalisis masalah kemiskinan yaitu dengan menggunakan model regresi campuran nonparametrik.

1.5 Batasan Penelitian

  Dalam penelitian ini, ruang lingkup permasalahan dibatasi pada beberapa hal sebagai berikut.

  1. Data yang digunakan adalah data makro seluruh kabupaten/kota di Provinsi Papua kondisi tahun 2013 yang bersumber dari Badan Pusat Statistik (BPS).

  Banyaknya kabupaten/kota di Provinsi Papua kondisi tahun 2013 adalah 29 kabupaten/kota. Konsep dan definisi data yang digunakan sama dengan konsep dan definisi yang digunakan oleh BPS.

  2. Model yang digunakan adalah model regresi campuran nonparametrik spline linier truncated dan kernel Nadaraya-Watson, dimana pada model tersebut diasumsikan bahwa satu pola data mengikut kurva spline, sedangkan beberapa pola data mengikuti kurva kernel.

  3. Fungsi kernel yang digunakan adalah fungsi kernel Gaussian dan metode yang digunakan dalam menentukan banyaknya titik knot, lokasi titik-titik knot dan bandwidth optimum adalah metode Generalized Cross Validation (GCV). Pemilihan banyaknya titik knot dibatasi sampai dengan tiga titik knot.

BAB 2 KAJIAN PUSTAKA Equation Section (Next)

  2.1 Analisis Regresi

  Analisis regresi digunakan untuk mengetahui pola hubungan antara dan variabel variabel respon dan variabel prediktor. Jika variabel respon adalah

  , akan memiliki model prediktor adalah , = 1, 2, ... , , maka pasangan data hubungan fungsional

  = ( , (2.1)

  ) + adalah error random yang diasumsikan dimana ( ) adalah kurva regresi dan

  2

  identik, independen dan berdistribusi normal dengan mean nol dan varian (Eubank, 1999). Analisis regresi memiliki dua tujuan utama. Pertama, memberikan cara mengeksplorasi hubungan antara variabel respon dan variabel prediktor dan yang kedua adalah membuat prediksi (Silverman, 1985).

  2.2 Regresi Parametrik, Nonparametrik dan Semiparametrik

  Model regresi umumnya dibagi ke dalam tiga bentuk, yaitu model regresi parametrik, model regresi nonparametrik dan model regresi semiparametrik.

  ) pada persamaan (2.1). Bentuk model regresi tersebut tergantung pada kurva (

  ) diketahui, maka pendekatan model regresi yang Apabila bentuk kurva ( digunakan adalah pendekatan model regresi parametrik (Islamiyati & Budiantara,

  ) tidak diketahui atau tidak terdapat informasi 2007). Apabila bentuk kurva ( masa lalu yang lengkap tentang bentuk pola datanya, maka pendekatan model regresi yang digunakan adalah pendekatan model regresi nonparametrik (Lestari & Budiantara, 2010). Dalam beberapa kasus, sebagian bentuk pola data diketahui, sedangkan untuk sebagian yang lain bentuk pola datanya tidak diketahui. Pada kasus ini, pendekatan model regresi yang disarankan adalah pendekatan model regresi semiparametrik (Wahba, 1990).

  Menurut Budiantara (2009), dalam regresi parametrik terdapat asumsi yang sangat kaku dan kuat yaitu bentuk kurva regresi diketahui, misalnya linear, kuadratik, kubik, polinomial derajat-p, eksponen, dan lain-lain. Untuk memodelkan data menggunakan regresi parametrik linear, kuadrat, kubik atau yang lain, umumnya dimulai dengan membuat diagram pencar. Pendekatan regresi parametrik memiliki sifat yang sangat baik dari pandangan statistika inferensi, seperti sederhana, mudah interpretasinya, parsimoni, estimatornya tidak bias, tergolong estimator linear, efisien, konsisten, BLUE (Best Linear Unbiased Estimator), yang sangat jarang dimiliki oleh pendekatan regresi lain seperti regresi nonparametrik dan regresi semiparametrik. Dalam pandangan regresi nonparametrik, data mencari sendiri bentuk estimasi dari kurva regresinya tanpa harus dipengaruhi oleh faktor subyektifitas si peneliti. Ini berarti pendekatan model regresi nonparametrik sangatlah fleksibel dan sangat obyektif. Pendekatan model regresi parametrik yang sering digunakan oleh para peneliti adalah pendekatan model regresi linier sederhana dan model regresi linier berganda, sedangkan pada model regresi nonparametrik, pendekatan model regresi yang sering digunakan adalah pendekatan regresi spline dan regresi kernel.

  Regresi nonparametrik umumnya tidak mensyaratkan uji asumsi klasik. Misalnya pada regresi nonparametrik ridge yang tidak menyaratkan terjadinya multikolinieritas. Pelanggaran asumsi multikolinieritas biasanya terjadi pada regresi parametrik linier berganda dimana di antara variabel prediktor terdapat hubungan linier, sehingga pada estimasi parameter

  −1

  (2.2) ̃̂ = ( ) ̃ menyebabkan determinan sama dengan 0 (matriks singular) atau determinan mendakati 0 (hampir singular). Adanya multikolinieritas menyebabkan terdapat akar karakteristik yang kecil dalam matriks , yang mengakibatkan varian ̃̂ menjadi besar. Multikolinieritas yang tinggi mengakibatkan estimator ̃̂ yang dihasilkan dari metode Ordinary Least Square (OLS) menjadi tidak stabil (peka terhadap perubahan kecil pada data yang kelihatannya tidak penting).

  Pada regresi nonparametrik ridge, estimasi parameter (2.2) dimodifikasi menjadi

  −1

  ̃̂ = ( + λ ) ̃ , dimana 0 ≤ λ ≤ ∞, λ adalah nilai konstan yang dipilih sebagai indeks dari kelas estimator. Adanya konstanta λ menyebabkan matriks + λ memiliki determinan tidak sama dengan 0 (bukan matriks singular) atau tidak mendekati 0. Oleh karena itu, regresi nonparametrik ridge tidak mensyaratkan uji asumsi multikolinieritas, namun demikian estimator ridge bersifat bias, yaitu sebesar

  −1 = λ( + λ ) ̃ .

  Sifat bias pada regresi nonparametrik ridge ini memang sifat estimator yang baik yaitu tak bias, namun estimator ridge dapat mengatasi adanya multikolinieritas. Sifat tidak bias merupakan sifat yang dibutuhkan namun tidak terlalu penting. Hal ini disebabkan karena sifat tak bias tidak menunjukkan apapun mengenai penyebaran dari distribusi estimator. Suatu estimator yang tidak bias namun mempunyai varians yang besar seringkali menghasilkan estimasi yang jauh berbeda dari nilai parameter yang sebenarnya.

2.3 Regresi Parametrik Linier Berganda

  Model regresi parametrik memiliki sifat yang sangat baik dari sisi statistika inferensia seperti sederhana, mudah interpretasinya, estimatornya tidak bias, efisien dan konsisten (Budiantara, 2009). Pada model regresi parametrik, apabila bentuk pola data cenderung mengikuti pola linier, maka pendekatan yang sesuai untuk bentuk pola data tersebut adalah pendekatan regresi linier. Begitu juga untuk bentuk pola data kuadratik menggunakan pendekatan regresi kuadratik dan bentuk pola data kubik menggunakan pendekatan regresi kubik (Hardle, 1994). Dalam banyak penelitian, model regresi linier berganda adalah model regresi parametrik yang paling sering digunakan. Pada regresi ini, variabel respon diprediksi berdasarkan asumsi bahwa variabel respon tersebut memiliki hubungan yang linier dengan variabel-variabel prediktor (Rencher & Schaalje, 2008).

  , , … , , Diberikan data berpasangan ( ), = 1,2, … , , dimana

  

1

  2

  pasangan data tersebut memiliki hubungan yang diasumsikan mengikuti model regresi parametrik linier berganda. Pada model regresi tersebut, yang merupakan . Bentuk variabel respon adalah dan variabel prediktor adalah , , … ,

  1

  2

  fungsional model regresi tersebut adalah (2.3) + + + = + ⋯ + .

  1

  1

  2

  2 merupakan parameter-parameter yang tidak diketahui, Parameter , , , … ,

  1

  2

  adalah error random yang identik, independen dan berdistribusi sedangkan

  2 .

  normal dengan mean nol dan varian Persamaan (2.3) berlaku untuk = 1 sampai dengan = , sehingga kumpulan persamaan-persamaan (2.3) dari = 1 sampai dengan = dapat membentuk persamaan vektor

  • ⋯ + +

  1

  1

  1

  11

  2

  21

  1

  • ⋯ +

  2

  2

  1

  12

  2

  22

  2 [ ] = [ ] + [ ] .

  ⋮ ⋮

  ⋮

  • ⋯ + +

  1

  1

  2

2 Jika disederhanakan akan menjadi

  1 ⋯

  1

  1

  11

  21

  

1

  1

  1 …

  2

  2

  12

  22

  

2

  [ ] = [ ] 2 + [ ] .

  ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮

  ⋮ 1 …

  1

  2

  [ ] Dalam bentuk notasi matriks, dapat ditulis menjadi

  (2.4) ̃ = ̃ + ̃ , dimana

  1

  1 ⋯

  1

  11

  21

  1

  1

  2

  1 …

  2

  12

  22

  2

  ̃ = [ ] , = [ ] , ̃ = 2 , ̃ = [ ] .

  ⋮ ⋮

  ⋮ ⋮ ⋮ ⋱ ⋮ ⋮ 1 …

  1

  2

  [ ] Vektor ̃ berukuran × 1, matriks berukuran × ( + 1), vektor ̃ berukuran ( + 1) × 1 dan vektor ̃ berukuran × 1. Parameter ̃ pada persamaan (2.4) dapat diestimasi dengan menggunakan metode Ordinary Least Square (OLS) atau

  

Maximum Likelihood Estimation (MLE). Estimator yang dihasilkan dari kedua

persamaan tersebut sesuai dengan persamaan (2.2).

2.4 Regresi Nonparametrik Spline Truncated

  Regresi spline merupakan suatu regresi polinomial dimana segmen- segmen polinomial yang berbeda digabungkan bersama pada titik-titik knot , , … , dan kontinu sehingga bersifat fleksibel dibandingkan polinomial biasa.

  1

2 Kurva regresi spline mempunyai titik knot yang maksudnya adalah titik perpaduan

  bersama dimana terjadi perubahan perilaku kurva. Kurva regresi spline dapat menyesuaikan diri secara efektif terhadap perubahan perilaku data, sehingga didapatkan hasil yang mendekati kebenaran (Eubank, 1988). Menurut Cox & O’Sullivan (1996), Kurva regresi spline memiliki kemampuan yang sangat baik untuk menangani data yang perilakunya berubah-ubah pada sub-sub interval tertentu. Menurut Budiantara (2009), model regresi spline mempunyai interpretasi statistik dan interpretasi visual yang sangat khusus dan sangat baik. adalah

  Diberikan data berpasangan ( , ), = 1,2, … , , dimana dapat variabel respon dan adalah variabel prediktor. Pola hubungan dan dinyatakan dalam model regresi

  (2.5) = ( . ) +

  ) pada persamaan (2.5) dihampiri dengan kurva Selanjutnya jika kurva regresi ( regresi spline truncated, maka

  ( − ) + + ⋯ + + ⋯ + ( − ) + ) = (

  1

  1

  1

  (2.6) )

  = ∑ + ∑ ( − ,

  • =0 =1

  dimana )

  ( − , ≥ − ) = {

  (

  • 0 , < .

  ) merupakan kurva regresi nonparametrik spline truncated Kurva regresi ( derajat dengan banyaknya titik knot . Derajat merupakan derajat pada persamaan polinomial. Biasanya digunakan = 1, 2 atau 3, karena untuk derajat kurva regresi di atasnya (lebih dari 3) bisa didekati dengan bentuk kurva polinomial tersebut. Kurva regresi polinomial derajat 1 biasa disebut dengan kurva regresi linier, kurva regresi polinomial derajat 2 biasa disebut dengan kurva regresi kuadratik, sedangkan kurva regresi polinomial derajat 3 biasa disebut dengan kurva adalah titik-titik knot yang menunjukkan regresi kubik. Titik-titik knot , , … ,

  1

  2

  < < pola perilaku dari kurva pada sub-sub interval yang berbeda, dimana

  1

  2

  ⋯ < . Jika pendekatan regresi spline truncated memiliki derajat = 1, maka akan menjadi regresi spline linier truncated, dimana bentuk model regresi (2.6) akan menjadi )

  ( ) = ( − + + + ⋯ + ( − )

  1

  1 1 +

  • ) ) ( = + ∑ ( + −
  • 1 =1

  Persamaan (2.6) berlaku untuk = 1 sampai dengan = , sehingga kumpulan persamaan-persamaan (2.6) dari = 1 sampai dengan = tersebut dapat digabungkan ke dalam bentuk persamaan vektor dan matriks

  1

  ⋯ − ) ⋯ ( − ) (

  1

  1

  1

  1

  1

  1 ⋮

  ) (

  1

  ( ) ) 1 ⋯ ( − ⋯ ( − )

  2

  2

  2

  1

  2

  2

  [ ] = .

  ⋮

  1

  ⋮ ⋮ ⋱ ⋮ ⋮ ⋱ ⋮ ( )

  2

  1 ⋯ − ) ⋯ ( − ) (

  1

  [ ]

  • [ ]

  Dalam notasi matriks dapat ditulis menjadi (2.7)

  ̃( ) = ( ̃) ̃ , dimana

  

1

  ⋮ )

  (

  1

  ( )

  2

  ̃( ) = [ ] , ̃ = , ⋮

  

1

  ( )

  

2

  ⋮ [ ]

  ⋯ − ) ⋯ ( − ) (

  1

  

1

  1

  1

  • 1

  1

  • 1 ⋯ − ) ⋯ ( − )

  (

  2

  

2

  1

  2

  2

  ( ̃) = .

  ⋮ ⋮ ⋱ ⋮ ⋮ ⋱ ⋮ 1 ⋯ − ) ⋯ ( − ) (

  1

  [ ]

  Vektor ̃( ) berukuran × 1, matriks ( ̃) berukuran × ( + + 1), sedangkan vektor ̃ berukuran ( + + 1) × 1.

  Sebelum estimasi terhadap kurva regresi ̃( ) pada persamaan (2.7), terlebih dahulu dilakukan estimasi terhadap parameter ̃. Estimasi parameter ̃ dilakukan dengan menggunakan metode MLE. Fungsi likelihood yang diberikan adalah

  1

  1

  2

  2

  ( ̃, | ̃) = ∏ exp (− )

  2

  2

  2 √2

  =1

  1

  2

  2 − 2

  = (2 ) exp (− ) ‖ ̃‖

  2

  2

  1

  2

  2 − 2

  ) = (2 exp (− ‖ ̃ − ( ̃) ̃‖ ) .

  2

  2 Estimator MLE yang dihasilkan adalah

  −1 ̃̂( ̃) = [( ( ̃)) ( ̃)] ( ( ̃)) ̃ .

  Dengan demikian, estimasi dari kurva regresi ̃( ) adalah

  −1

  ̃̂ ( ̃)] ( ( ̃)) ̃ ( ) = ( ̃) [( ( ̃))

  ̃ ̃̂ = ( ̃) ̃ , ( )

  ̃

  dimana:

  

−1

( ̃) = ( ̃) [( ( ̃)) ( ̃)] ( ( ̃)) .

  Vektor ̃̂ ( ) dan ̃̂( ̃) memiliki ukuran yang sama dengan vektor parameternya.

  ̃ Sedangkan matriks ( ̃) berukuran × ( + + 1).

  Titik-titik knot merupakan pengontrol keseimbangan antara kemulusan kurva dan kesesuaian kurva terhadap data. Pemilihan banyaknya titik knot, lokasi titik-titik knot optimum dapat dilakukan salah satunya dengan metode Generalized Cross Validation atau GCV (Eubank, 1988).

  MSE( ̃) GCV( ̃) = ,

  

2

  (2.8)

  −1

  ( ( − ( ̃))) dimana MSE( ̃) pada persamaan (2.8) adalah

  2 −1

  MSE( ̃) = ∑( − ̂( )) .

  =1 Pemilihan banyaknya titik knot, lokasi titik-titik knot optimum dilakukan dengan melihat nilai GCV yang minimum.

2.5 Regresi Nonparametrik Kernel

  Diberikan pasangan pengamatan independen ( , ), = 1,2, … , , adalah variabel prediktor. dimana adalah variabel respon, sedangkan dapat dimodelkan secara fungsional dalam bentuk Hubungan dan