Metode Regresi Komponen Utama, Regresi Kuadrat Terkecil Parsial, dan LASSO pada Data Kemiskinan Hasil Olahan Susenas 2012

METODE REGRESI KOMPONEN UTAMA, REGRESI KUADRAT
TERKECIL PARSIAL, DAN LASSO PADA DATA KEMISKINAN HASIL
OLAHAN SUSENAS 2012

NURHAYATI

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR
BOGOR
2014

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa skripsi berjudul Metode Regresi Komponen
Utama, Regresi Kuadrat Terkecil Parsial, dan LASSO pada Data Kemiskinan Hasil
Olahan Susenas 2012 adalah benar karya saya dengan arahan dari komisi
pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi
mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan
maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan

dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Agustus 2014
Nurhayati
NIM G14100014

ABSTRAK
NURHAYATI. Metode Regresi Komponen Utama, Regresi Kuadrat Terkecil
Parsial, dan LASSO pada Data Kemiskinan Hasil Olahan Susenas 2012. Dibimbing
oleh MUHAMMAD NUR AIDI dan AGUS M SOLEH.
Multikolinieritas merupakan salah satu masalah yang timbul pada regresi
linier berganda. Multikolinieritas menyebabkan pengujian model dan pendugaan
koefisien regresi menjadi tidak valid karena menghasilkan ragam yang besar.
Metode yang dapat digunakan untuk mengatasi multikolinieritas pada suatu data di
antaranya adalah RKU, RKTP, dan LASSO. RKU dan RKTP membentuk
komponen-komponen baru yang saling bebas dalam mengatasi multikolinieritas.
Kedua metode sebelumnya tidak dapat melakukan penyeleksian peubah. LASSO
melakukan penyeleksian peubah bebas dengan menyusutkan nilai koefisien tepat
nol. Hasilnya menunjukkan model terbaik dari ketiga metode berdasarkan nilai

RMSE dihasilkan oleh metode LASSO, dan berdasarkan nilai RMSEP dihasilkan
oleh metode RKU. Selisih nilai kesalahan untuk ketiga metode tidak jauh berbeda.
Kata kunci: LASSO, Multikolinieritas, RKTP, RKU
ABSTRACT
NURHAYATI. Principal Componen Regression, Partial Least Square, and LASSO
Methods on Poverty Data Result of Susenas 2012. Supervised by MUHAMMAD
NUR AIDI and AGUS M SOLEH.
Multicollinearity is a problem that is arise in multiple linear regression.
Multicollinearity lead testing and estimating coefficient regression models become
invalid because it produces a large variety. Methods that can be used to overcome
multicollinearity in the data in among these are PCR, PLS, and LASSO. PCR and
PLS forming independent new components to overcome multicollinearity. Both
method previously unable to do the screening variables. LASSO does the screening
variables by shrinking appropriate coefficient value of zero. The result showed the
best model of the three based on RMSE value produced by LASSO method, and
based on RMSEP value produced by RKU method. Difference in value of error for
the three method are not much different.
Keywords: LASSO, Multicollinearity, PCR, PLS

METODE REGRESI KOMPONEN UTAMA, REGRESI KUADRAT

TERKECIL PARSIAL, DAN LASSO PADA DATA KEMISKINAN HASIL
OLAHAN SUSENAS 2012

NURHAYATI

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Statistika pada Departemen Statistika

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR
BOGOR
2014

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah SWT atas segala karuniaNya sehingga penulis dapat menyelesaikan karya ilmiah yang berjudul “Metode
Regresi Komponen Utama, Regresi Kuadrat Terkecil Parsial, dan LASSO pada

Data Kemiskinan Hasil Olahan Susenas 2012”. Karya ilmiah ini merupakan salah
satu syarat kelulusan di Departemen Statistika, Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian Bogor.
Terima kasih penulis ucapkan kepada Bapak Dr Ir Muhammad Nur Aidi, MS
dan Bapak Agus M Soleh, SSi MT selaku pembimbing yang telah banyak memberi
masukan dan saran. Terima kasih penulis ucapkan kepada Bapak Ir M. Masjkur,
MS selaku dosen penguji yang telah memberikan banyak masukan dan saran pada
penulis. Ungkapan terima kasih juga disampaikan kepada kedua orang tua serta
seluruh keluarga, atas segala doa dan kasih sayangnya.
Semoga karya ilmiah ini bermanfaat.

Bogor, Agustus 2014
Nurhayati

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR


vi

DAFTAR LAMPIRAN

vi

PENDAHULUAN

1

Latar Belakang

1

Tujuan Penelitian

1

METODE


2

Data

2

Prosedur Analisis Data

2

HASIL DAN PEMBAHASAN

6

Hasil Pendugaan Metode Kuadrat Terkecil (MKT)

6

Pendeteksian Multikolinieritas


6

Pendugaan Menggunakan Regresi Komponen Utama (RKU)

7

Pendugaan Menggunakan Regresi Kuadrat Terkecil Parsial (RKTP)

9

Pendugaan Menggunakan Least Absolute Shrinkage and Selection Operator
(LASSO)
11
Perbandingan Metode

14

SIMPULAN


14

DAFTAR PUSTAKA

15

LAMPIRAN

16

RIWAYAT HIDUP

20

DAFTAR TABEL
1 Analisis ragam hasil MKT

6

2 Nilai dugaan koefisien regresi dan nilai-p pada MKT


6

3 Nilai VIF setiap peubah bebas

7

4 Vektor ciri untuk setiap komponen

7

5 Nilai RMSECV dan akar ciri metode RKU

8

6 Nilai dugaan koefisien regresi dan nilai-p pada RKU

8

7 Bentukan matriks bobot W


9

8 Bentukan matriks loading P

9

9 Nilai penduga koefisien regresi c

10

10 Nilai RMSECV dan variansi total metode RKTP

10

11 Nilai dugaan koefisien regresi dan nilai-p pada RKTP

11

12 Tahapan peubah bebas yang masuk ke dalam model


12

13 Nilai dugaan koefisien regresi metode LASSO

13

14 Nilai RMSE dan RMSEP

14

DAFTAR GAMBAR
1 Plot objek LARS yang dihasilkan oleh fungsi LAR

11

2 Validasi silang menggunakan mode step

12

3 Validasi silang menggunakan mode fraction

13

DAFTAR LAMPIRAN
1 Hasil bentukan skor komponen-komponen utama

16

2 Hasil bentukan kolom-kolom t untuk matriks T

17

3 Nilai koefisien regresi metode LASSO pada setiap tahapan
4 Nilai ∑| ̂ |⁄max ∑| ̂ |�pada setiap tahapan LASSO

18
19

PENDAHULUAN
Latar Belakang
Regresi merupakan alat statistika yang digunakan untuk memodelkan
hubungan dari peubah respon dengan sebuah atau beberapa peubah bebas. Salah
satu masalah yang timbul apabila peubah bebas lebih dari 1 dalam regresi linier
berganda adalah multikolinieritas. Masalah multikolinieritas yang terjadi pada
penelitian ini merupakan near multikolinieritas, karena pada data contoh
multikolinieritas sempurna tidak pernah terjadi. Multikolinieritas biasanya, tetapi
tidak selalu, ditandai dengan adanya korelasi antara peubah bebas di dalam model.
Adanya multikolinieritas menyebabkan pendugaan koefisien regresi menggunakan
Metode Kuadrat Terkecil (MKT) masih dapat dilakukan, namun interpretasinya
menjadi sulit (Juanda 2009). Akibatnya pendugaan model regresi yang diperoleh
pun menjadi tidak layak.
Masalah multikolinieritas dapat diatasi dengan harapan diperoleh model
terbaik dengan ragam minimum. Untuk mengatasi masalah ini, salah satunya
dengan mengunakan penduga regresi berbias, yaitu regresi gulud (ridge
regression), Regresi Kuadrat Terkecil Parsial (RKTP), Least Absolute Shrinkage
and Selection Operator (LASSO), dan juga pendekatan berdasarkan komponen
utama (Jolliffe 2002). Metode yang digunakan untuk mengatasi multikolinieritas
pada penelitian ini yaitu Regresi Kompone Utama (RKU), Regresi Kuadrat Terkecil
Parsial (RKTP), dan Least Absolute Shrinkage and Selection Operator (LASSO).
Metode RKU meregresikan peubah respon dengan komponen-komponen
utama yang bersifat ortogonal sebagai peubah bebas baru melalui MKT.
Komponen-komponen inilah yang membuat tidak ada lagi masalah
multikolinieritas dalam model. Metode regresi lain yang digunakan adalah RKTP.
Metode ini diperkenalkan oleh statistisi asal Swedia, Herman Wold, pada tahun
1960. Regresi RKTP menggeneralisasi dan menggabungkan sifat-sifat dari analisis
komponen utama (AKU) dan regresi linier berganda (Abdi 2010). Meskipun
awalnya diterapkan di bidang ilmu sosial, saat ini RKTP lebih banyak diterapkan
di bidang kemometrik dan bidang-bidang lain (Ismah dkk. 2009, Farmani dkk.
2012).
Tahun 1996, Tibshirani memperkenalkan teknik regresi penyusutan lain yang
baik bila berurusan dengan peubah bebas yang banyak, yaitu Least Absolute
Shrinkage and Selection Operator (LASSO). LASSO melakukan penyeleksian
peubah bebas selain mengatasi multikolinieritas, sehingga memungkinkan kita
untuk menggunakan hanya sebagian peubah bebas dalam model.
Tujuan Penelitian
Mengetahui perbedaan hasil dari metode Regresi Komponen Utama (RKU),
Regresi Kuadrat Terkecil Parsial (RKTP), dan Least Absolute Shrinkage and
Selection Operator (LASSO) dalam mengatasi multikolinieritas, dan menentukan
metode dengan model terbaik menggunakan kriteia RMSE dan RMSEP.

2

METODE
Data
Penerapan metode pada penelitian ini menggunakan data riil yang diperoleh
dari hasil olahan Susenas 2012, Badan Pusat Statistik Indonesia. Respon yang
digunakan adalah persentase penduduk miskin setiap provinsi di Indonesia pada
tahun
2012
(www.bps.go.id/menutab.php?tabel=1&kat=1&id_subyek=23).
Peubah bebas yang diduga berpengaruh terhadap respon yaitu
(www.bps.go.id/menutab.php?tabel=1&kat=1&id_subyek=29) [diunduh 6 juni
2014]:
X1: Persentase rumah tangga menurut provinsi dengan atap terluas bukan
ijuk/lainnya.
X2: Persentase rumah tangga menurut provinsi dengan dinding terluas bukan
bambu/lainnya.
X3: Persentase rumah tangga menurut provinsi dengan KRT yang bekerja.
X4: Persentase rumah tangga menurut provinsi dengan lantai terluas bukan
tanah.
X5: Persentase rumah tangga menurut provinsi dengan sanitasi layak, 2012.
X6: Persentase rumah tangga menurut provinsi dengan sumber air minum layak.
X7: Persentase rumah tangga menurut provinsi dengan status kepemilikan
rumah milik sendiri.
X8: Persentase rumah tangga menurut provinsi dengan status kepemilikan
rumah kontrak/sewa.
X9: Persentase rumah tangga menurut provinsi dengan luas hunian per kapita