Kajian Metode Least Absolute Selection and Shrinkage Operator (LASSO) pada Data yang Mengandung Heteroskedastisitas
KAJIAN METODE LEAST ABSOLUTE SELECTION AND
SHRINKAGE OPERATOR (LASSO) PADA DATA YANG
MENGANDUNG HETEROSKEDASTISITAS
MEIRA MAWATI
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Kajian Metode Least
Absolute Selection and Shrinkage Operator (LASSO) pada Data yang
Mengandung Heteroskedastisitas adalah benar karya saya dengan arahan dari
komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan
tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang
diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks
dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Maret 2015
Meira Mawati
NIM G14100084
ABSTRAK
MEIRA MAWATI. Kajian Metode Least Absolute Selection and Shrinkage
Operator (LASSO) pada Data yang Mengandung Heteroskedastisitas. Dibimbing
oleh KUSMAN SADIK dan BAGUS SARTONO.
Metode Least Absolute Selection and Shrinkage Operator (LASSO) telah banyak
digunakan dalam regresi berdimensi besar untuk menyeleksi peubah maupun
menduga parameter. Solusi LASSO diperoleh dengan meminimumkan jumlah
kuadrat sisaan terhadap suatu kendala, yaitu jumlah dari nilai mutlak penduga
MKT (Metode Kuadrat Terkecil) lebih kecil daripada suatu konstanta. Jia et al.
(2010) melakukan analisis terhadap data aplikasi medical imaging menggunakan
metode LASSO dimana ragam galat data tersebut menyebar Poisson-like.
Penelitian ini melakukan hal serupa. LASSO dievaluasi menggunakan data regresi
yang heteroskedastis. Berdasarkan pendekatan simulasi, terungkap bahwa LASSO
tidak selektif pada data regresi yang banyak mengandung penduga yang tidak
signifikan (sparse). LASSO tidak lebih baik dibandingkan dengan MKT dan Best
Subset dalam menangani data yang mempunyai ragam galat yang heterogen.
Kata kunci: heteroskedastisitas, LARS, LASSO
ABSTRACT
MEIRA MAWATI. Study of Least Absolute Selection and Shrinkage Operator
(LASSO) Method Under Heteroscedasticity. Under the supervision of KUSMAN
SADIK and BAGUS SARTONO.
Least Absolute Selection and Shrinkage Operator (LASSO) has been
acknowledged to analyse high dimention data to select variables and to estimate
parameters. LASSO estimators obtained by minimizing the residual sum of
squares subject to the sum of the absolute value of the coefficients being less than
a constant. Jia et al. (2010), in his research, conducted an analysis on a medical
imaging application data using LASSO when error variance of the data suffered
heteroscedasticity problem, which is Poisson-like distributed. This research aimed
to study the similar problem. LASSO is evaluated by using heteroscedastic
regression data. By conducting simulation approach, the result showed that
LASSO encountered difficulties. In regression data that has too many zerocoefficients estimator, LASSO is not selective. Compared to OLS (Ordinary Least
Square) and Best Subset, LASSO doesn’t offer better solution.
Keywords: heteroscedasticity, LARS, LASSO, LASSO under heteroscedasticity
KAJIAN METODE LEAST ABSOLUTE SELECTION AND
SHRINKAGE OPERATOR (LASSO) PADA DATA YANG
MENGANDUNG HETEROSKEDASTISITAS
MEIRA MAWATI
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Statistika
pada
Departemen Statistika
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
Judul Skripsi : Kajian Metode Least Absolute Selection and Shrinkage Operator
(LASSO) pada Data yang Mengandung Heteroskedastisitas
Nama
: Meira Mawati
NIM
: G14100084
Disetujui oleh
Dr Kusman Sadik, MSi
Pembimbing I
Dr Bagus Sartono, MSi
Pembimbing II
Diketahui oleh
Dr Anang Kurnia, MSi
Ketua Departemen
Tanggal Lulus:
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Februari 2014 ini ialah
Metode LASSO, dengan judul Kajian Metode Least Absolute Selection and
Shrinkage Operator (LASSO) pada Data yang Mengandung Heteroskedastisitas.
Terima kasih penulis ucapkan kepada Bapak Dr Kusman Sadik, MSi dan
Bapak Dr Bagus Sartono, MSi selaku pembimbing. Di samping itu ungkapan
terima kasih juga penulis sampaikan kepada ayah, ibu, kakak, serta rekan-rekan,
atas doa, kasih sayang, dan segala bentuk dukungan yang telah diberikan.
Semoga karya ilmiah ini bermanfaat.
Bogor, Maret 2015
Meira Mawati
DAFTAR ISI
DAFTAR TABEL
x
DAFTAR GAMBAR
x
DAFTAR LAMPIRAN
x
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
2
TINJAUAN PUSTAKA
2
LASSO
2
Algoritma LAR
3
Validasi Silang Lipat-K
4
Heteroskedastisitas pada Regresi Linier
4
LASSO pada Kasus Heteroskedastisitas
6
DATA DAN METODE
6
Data
6
Metode
8
HASIL DAN PEMBAHASAN
SIMPULAN DAN SARAN
9
13
Simpulan
13
Saran
13
DAFTAR PUSTAKA
14
LAMPIRAN
15
RIWAYAT HIDUP
20
DAFTAR TABEL
1. Sebaran peubah penjelas (X1, X2, X3, dan X4) dan nilai parameter (βi)
data simulasi contoh kasus 2
2. Nilai ragam galat data simulasi contoh kasus 1
6
7
3. Sebaran peubah penjelas (X1, X2, …, X8) dan nilai parameter (βi) data
simulasi contoh kasus 2
7
4. Beberapa contoh Uji Breusch-Pagan pada contoh kasus 1 dan 2
9
5. Hasil simulasi contoh kasus 1
12
6. Jumlah kemunculan setiap peubah penjelas pada contoh kasus 2
13
DAFTAR GAMBAR
1. Contoh validasi silang lipat-5 saat anak gugus data ke-3 dijadikan anak
gugus data pengujian model
4
2. Plot objek yang dihasilkan oleh algoritma LARS untuk menduga
koefisien LASSO
10
3. Nilai KTG validasi silang mode fraction (a) dan mode step (b) pada
salah satu gugus data di contoh kasus 1
10
4. Nilai KTG validasi silang mode fraction (a) dan mode step (b) gugus
data ke-53 pada contoh kasus 2
11
DAFTAR LAMPIRAN
1. Model yang terpilih pada simulasi contoh kasus 2
15
2. Model yang muncul pada simulasi contoh kasus 2
17
PENDAHULUAN
Latar Belakang
Least Absolute Selection and Shrinkage Operator (LASSO) adalah suatu
metode yang telah banyak digunakan dalam regresi berdimensi besar untuk
menyeleksi peubah maupun menduga parameter. Dalam aplikasi keilmuan,
berbagai macam percobaan sering kali melibatkan banyak peubah. Peubah-peubah
tersebut diekspresikan menjadi pengaruh-pengaruh yang dapat memberikan efek
terhadap respon, baik efek dari pengaruh tunggal, maupun efek dari interaksi
antarpeubah. Banyaknya pengaruh menyebabkan penyeleksian peubah menjadi
sulit untuk dilakukan sehingga model yang efisien sulit didapat.
LASSO ditemukan oleh Tibshirani (1996) pertama kali sebagai alternatif
dari solusi permasalahan penduga parameter model MKT yang kurang akurat
dalam prediksi dan sulit diinterpretasi. Penelitian telah menunjukkan bahwa pada
data yang mengandung jumlah peubah penjelas lebih banyak dari jumlah amatan,
metode LASSO menunjukkan hasil yang baik dalam memilih model yang tepat
(Jia et al. 2010). LASSO mengadaptasi konsep pemilihan peubah dan pendugaan
parameter yang dikenal lebih dulu dengan nama subset selection dan ridge
regression. Oleh karena itu, LASSO menyeleksi peubah dan menduga parameter
secara simultan (Chand dan Kamal 2011).
Pemilihan model dan pendugaan parameter LASSO sudah dikenal dengan
baik dalam kondisi data yang memenuhi asumsi standar, salah satunya dalam
kondisi data yang homoskedastis (Jia at al. 2010). Walaupun demikian, masalah
homoskedastisitas atau kehomogenan ragam galat sering kali tidak dideskripsikan
dengan jelas. Homoskedastisitas mengindikasikan setiap pengamatan
mengandung informasi yang sama penting (Rawlings et al. 1998). Kondisi ini
penting untuk diperhatikan karena keabsahan uji hipotesis yang dilakukan
terhadap data tersebut bergantung pada terpenuhinya asumsi homoskedastisitas.
Inferensia yang dilakukan terhadap data yang tidak memenuhi asumsi
homoskedastisitas menyebabkan simpulan menyimpang, serta penduga dan model
yang diperoleh tidak meyakinkan karena mengandung bias yang tinggi.
Jia et al. (2010) melakukan analisis terhadap data aplikasi medical imaging
menggunakan metode LASSO. Data yang digunakan tidak memenuhi asumsi
homoskedastisitas, yaitu ragam galat data tersebut menyebar Poisson-like.
Penelitian ini melakukan hal serupa, yaitu evaluasi akan dilakukan terhadap
metode LASSO dengan mengaplikasikannya terhadap data yang heteroskedastis.
Perbedaannya adalah ragam galat pada simulasi dijadikan sebagai fungsi dari
peubah penjelas yang terdapat dalam model. Dengan demikian akan didapat galat
yang tidak saling bebas terhadap peubah penjelas, dan kondisi heteroskedastisitas
diperoleh. Proses pengecekan kondisi heteroskedastisitas data dilakukan dengan
Uji Breusch-Pagan pada taraf nyata 0.05. Perbandingan antara LASSO dengan
MKT dan Metode Best Subset dilakukan untuk mengetahui keunggulan LASSO
dibandingkan dengan keduanya.
2
Tujuan Penelitian
Tujuan penelitian ini adalah mengkaji metode LASSO dalam melakukan
pemilihan peubah dan pendugaan parameter pada data yang mengandung
heteroskedastisitas.
TINJAUAN PUSTAKA
LASSO
Tibshirani (1996) pertama kali memperkenalkan LASSO sebagai metode
penyeleksian peubah dan pendugaan parameter. Metode LASSO mulai dikenal
setelah Efron menemukan algoritma LAR pada tahun 2004. Penduga LASSO
tidak dapat diperoleh dalam bentuk tertutup seperti pada MKT ataupun ridge
regression, tetapi dengan pemrograman kuadratik (Hastie et al. 2008). Penduga
LASSO
koefisien LASSO ( ̂
diperoleh dengan meminimumkan jumlah kuadrat
sisaan dengan suatu kendala L1 (Tibshirani 1996), sebagai berikut:
̂
LASSO
argmin
p
p
N
∑
i
i
- β -∑
j
ij βj
L
∑ |βj | t
j
(Hastie et al. 2008).
Dalam persamaan di atas, jumlah kuadrat sisaan diminimumkan terhadap
parameter β dengan s arat kendala L1 sehingga dapat diperoleh solusi LASSO.
Nilai t dalam L1 merupakan parameter kontrol yang mengendalikan banyaknya
penyusutan yang dilakukan terhadap nilai penduga, dengan t > 0. Nilai t yang
kecil menyebabkan beberapa koefisien regresi menjadi bernilai nol sehingga
peubah-peubah yang berpengaruh besar dalam model terpilih dan peubah-peubah
yang berpengaruh kecil tereliminasi. Hai ini mengakibatkan solusi LASSO
menghasilkan model yang efisien. Jika β̂ merupakan penduga MKT dan t0 =
j
p
∑ |β̂ j | maka nilai t < t0 menyebabkan penduga solusi MKT susut ke arah nol. Jika
nilai t yang dipilih lebih besar daripada t0 maka penduga LASSO yang diperoleh
akan sama dengan penduga MKT model penuh (Tibshirani 1996).
Penduga koefisien LASSO dievaluasi dengan menentukan parameter baku
t
p
s
, dengan t = ∑ |β̂ | dan β̂ merupakan penduga MKT model penuh atau
p
∑ |β̂ j |
j
j
pada gambar output algoritma LARS ditulis sebagai |beta|/max|beta| (Dewi 2010).
Plot antara penduga galat LASSO versus nilai s dibuat untuk mempermudah
interpretasi. Penentuan nilai optimal s dapat diperoleh dengan melakukan validasi
silang (Tibshirani 1996). Hastie et al. (2008) melakukan validasi silang lipat 10
untuk menentukan nilai s optimum pada LASSO.
Perbedaan antara ridge regression dengan LASSO adalah terletak pada
nilai kendala yang digunakan untuk memperoleh penduga parameter regresi.
p
Kendala pada ridge regression adalah ∑j βj t, sedangkan pada LASSO adalah
3
∑pj |βj | t. Perbedaan tersebut menyebabkan penduga parameter LASSO
cenderung lebih kecil dibandingkan dengan penduga parameter ridge regression.
Penduga parameter regresi yang diperoleh dari ridge regression hanya disusutkan
ke arah nol, sedangkan pada solusi LASSO beberapa penduga parameter regresi
disusutkan tepat menjadi nol. Dengan demikian metode LASSO juga berfungsi
sebagai seleksi peubah seperti pada subset selection.
Algoritma LAR
Least Angle Regression (LAR) adalah metode klasik yang berkaitan dengan
metode pemilihan model yang dahulu dikenal dengan nama forward selection atau
forward stepwise regression (Efron et al. 2004). Seperti halnya pada forward
selection, dalam algoritma LAR model terbaik diperoleh dengan cara
memasukkan peubah penjelas satu persatu. Modifikasi algoritma LAR untuk
LASSO menghasilkan efisiensi algoritma dalam menduga koefisien LASSO
dengan komputasi yang lebih cepat dibandingkan pemrograman kuadratik
(Pusporini 2012). Algoritma LAR selalu mengambil p langkah untuk
mendapatkan penduga kuadrat terkecil secara penuh, sedangkan modifikasi LAR
untuk LASSO, disebut LARS, dapat memiliki lebih dari p langkah untuk
mendapatkannya. Algoritma LASSO dengan memodifikasi LAR merupakan cara
yang efisien dalam komputasi solusi masalah LASSO, terutama ketika jumlah
peubah penjelas yang digunakan jauh lebih banyak daripada jumlah amatan.
Tahapan algoritma LARS adalah sebagai berikut (Hastie et al. 2008):
1. Membakukan peubah penjelas { i : i = 1, ..., p } sehingga rata-ratanya bernilai
nol dan ragamnya bernilai 1. Mulai dengan sisaan r
- ̅ , β , ..., βp = 0. Jika
nilai terbakukan dinyatakan dengan
yaitu :
2.
3.
4.
5.
*
i
i
̅
-X
√ ar(X)
*
i
maka pembakuan yang dilakukan
Proses pembakuan dilakukan agar dapat membandingkan
dugaan koefisien regresi yang berbeda ragam dalam suatu model.
Mencari peubah penjelas xa yang paling berkorelasi dengan r.
Mengubah nilai βa dari 0 menuju nilai koefisien regresi yang diperoleh dari
proses MKT sampai suatu xb mempunyai korelasi sama besarnya dengan
korelasi antara xa dengan sisaan sekarang.
Mengubah nilai βa dan βb bergerak dalam arah koefisien kuadrat terkecil
bersama dari sisaan sekarang dalam (xa, xb) sampai suatu kompetitor lain,
misalnya xc, memiliki korelasi yang cukup dengan sisaan akibat (xa, xb).
Mengeluarkan peubah tersebut dari gugus peubah aktif jika koefisien
bukan nol mencapai nilai nol, dan menghitung kembali arah kuadrat
terkecil bersama.
Meneruskan langkah nomor 4 sampai semua p peubah penjelas telah masuk.
Setelah min(N-1,p) langkah, solusi model penuh untuk kuadrat terkecil
diperoleh.
4
Validasi Silang Lipat-K
Validasi silang merupakan metode yang paling sederhana dan banyak
dipakai secara luas untuk menduga galat prediksi. Idealnya, ketika data yang
dimiliki memadai, akan dapat ditentukan suatu anak gugus data validasi dan
digunakan untuk mengukur ketepatan model yang dimiliki. Namun sering kali
data yang dimiliki terlalu sedikit sehingga tidak memungkinkan untuk dilakukan
validasi secara langsung. Solusinya adalah melakukan validasi silang yang
menggunakan sebagian data yang tersedia untuk mengepaskan model (validasi
model), dan sebagian data yang lain untuk digunakan sebagai data pengujian
model (Hastie et al. 2008).
Salah satu jenis validasi silang adalah validasi silang lipat-K. Metode ini
baik digunakan ketika jumlah data amatan sedikit. Dalam validasi silang lipat-K,
amatan dibagi ke dalam K anak gugus data sama rata secara acak.
Gambar 1 Contoh validasi silang lipat-5 saat anak gugus data
ke-3 dijadikan anak gugus data pengujian model
Sebagai contoh, jika K = 5 maka salah satu contoh skenario pembagian data
yang terjadi akan terlihat seperti pada Gambar 1. Pada ilustrasi ini, anak gugus
data ke-3 menjadi gugus data validasi, model dibangun menggunakan keempat
anak gugus data lain, yaitu anak gugus data ke-1, 2, 4 dan 5. Lalu dihitung nilai
dugaan galat prediksi dari model terbaik ketika memprediksi anak gugus data ke3. Hal ini dilakukan untuk k = 1, 2, 3, 4, 5, lalu semua 5 penduga galat prediksi
dikombinasikan.
Nilai galat prediksi ( ̂ ) validasi silang lipat-K diduga oleh persamaan
berikut:
P̂
C
∑
k
∑
( i, i )
i
- ̂ -k (
i
dengan ̂ -k ( i adalah dugaan y untuk xi pada saat lipat ke-k tidak digunakan
dalam menduga model, dan yi adalah nilai respon pada amatan ke-i pada data test
T. Izeman (2008) merekomendasikan validasi silang lipat-5 atau lipat-10 karena
menghasilkan nilai ̂ dengan bias tinggi namun ragam rendah.
Heteroskedastisitas pada Regresi Linier
Homoskedastisitas adalah salah satu asumsi dalam regresi linier ketika
ragam dari galat menyebar konstan di suatu nilai tertentu. Asumsi ini
menunjukkan bahwa setiap amatan pada peubah respon mengandung informasi
yang sama pentingnya sehingga seluruh pengamatan di dalam MKT mendapatkan
bobot yang sama (Rawlings et al. 1998).
5
Model umum regresi berganda dapat ditulis sebagai berikut:
i
dengan
yi
:
β0 :
xij :
βj
:
:
i
p
β + ∑j
ij βj + i ,
nilai respon pada amatan ke-i,
intersep,
nilai peubah penjelas ke-j pada amatan ke-i,
nilai parameter bagi peubah penjelas ke-j,
nilai galat pada amatan ke-i.
Ragam galat disebut homogen jika Var ( i) σ2, sebaliknya ketika data tidak
homogen dalam ragam, maka setiap amatan mempunyai nilai ragam yang
berbeda, atau disimbolkan sebagai: Var ( i) = σi . Akibatnya, setiap amatan
mengandung informasi yang tidak sama karena ragam tidak konstan pada suatu
nilai tertentu (Rawlings et al. 1998). Kondisi demikian disebut heteroskedastisitas.
Heteroskedastisitas disebabkan beberapa pengamatan mengandung informasi
yang lebih dibandingkan dengan yang lain. Dengan demikian pengamatan tersebut
seharusnya mendapat bobot yang lebih besar dibandingkan dengan pengamatan
lainnya (Rawlings et al. 1998).
Sifat dari penduga MKT yaitu tak bias terbaik (memiliki ragam penduga
yang minimum) dan sangat bergantung pada asumsi kehomogenan ragam.
Pembobotan yang sama, sebagaimana yang dilakukan pada MKT, tidak akan
menghasilkan penduga dengan ragam minimum, apabila ragamnya tidak sama.
Oleh karena itu, pengaruh dari tidak terpenuhinya asumsi ini adalah
presisi/kecermatan dari penduga MKT menjadi lebih kecil dibandingkan dengan
penduga yang mengakomodasi ketidakhomogenan ragam tersebut (Rawlings et al.
1998).
Sejalan dengan Rawlings et al. (2008), Gujarati (2006) menyatakan (tanpa
pembuktian) bahwa ada beberapa dampak buruk dari keberadaan
heteroskedastisitas, yaitu:
1. Ragam menjadi tidak minimum. Keberadaan heteroskedastisitas mempunyai
makna bahwa ragam galat tidak homogen. Asumsi ragam galat yang
homogen mengindikasikan bahwa informasi seluruh amatan sama. Namun
karena asumsi tersebut tidak terpenuhi maka ragam pendugaan secara
keseluruhan tidak lagi efisien. Hal ini berlaku juga dalam analisis
menggunakan ukuran sampel yang besar.
2. Rumus-rumus biasa untuk memprediksi ragam penduga MKT umumnya bias.
Prediksi ragam penduga MKT bias, namun tidak dapat dikatakan secara tegas
bias ke atas (overestimate) atau bias ke bawah (underestimate). Hal ini
disebabkan oleh tidak dapat dijelaskannya seberapa besar derajat
keheterogenan ragam yang terjadi dalam model regresi yang mendapat
gangguan heteroskedastisitas karena belum ada alat ukur yang dapat
menghitungnya secara pasti.
3. Bias muncul karena σ̂ (penduga bagi σ2 yaitu ∑ni ei ⁄d.b.) tidak lagi
merupakan penduga tak bias dari σ2.
6
4.
Selang kepercayaan dan hipotesis yang didasarkan pada distribusi t dan F
tidak meyakinkan. Oleh sebab itu, kemungkinan kesalahan perhitungan dapat
terjadi jika dilakukan pengujian hipotesis.
LASSO pada Kasus Heteroskedastisitas
Metode LASSO telah banyak digunakan dalam penyeleksian peubah dan
pendugaan parameter pada data regresi berdimensi besar. Proses pemilihan model
yang dilakukan oleh LASSO telah baik dikenal dalam kondisi model regresi
standard sparse dan homoskedastis (Jia et al. 2010).
Dalam kasus heteroskedastisitas, LASSO memilih model ketika ragam
penduga tidak minimum. Dalam masalah kekonsistenan, LASSO kekar terhadap
pelanggaran asumsi homoskedastisitas yang galatnya menyebar Poisson-like.
Hasil teoritis dari model regresi sparse Poisson-like serupa dengan model regresi
standard sparse. Simulasi yang telah dilakukan membuktikan bahwa dalam
masalah kualitas pemilihan model, data regresi yang galatnya menyebar Poissonlike dan data yang homoskedastis menunjukkan hasil yang serupa (Jia et al. 2010).
DATA DAN METODE
Data
Data yang digunakan dalam penelitian ini adalah data simulasi. Proses
pembangkitan data dilakukan pada perangkat lunak R versi 3.1.2. Dalam
penelitian ini digunakan dua contoh kasus. Kasus pertama adalah analisis
kemampuan LASSO dengan mencobakan beberapa kondisi ragam galat. Kasus
yang kedua adalah perbandingan metode LASSO dengan MKT dan Best Subset
dalam menganalisis data regresi yang heteroskedastis.
Pada contoh kasus 1 dicobakan 100 gugus data bangkitan (100 ulangan)
dengan masing-masing 30 amatan (n=30). Sebanyak empat peubah penjelas X
dibangkitkan menurut sebaran peubah acak Seragam, dengan nilai koefisien
regresi yang berbeda-beda (Tabel 1).
Tabel 1 Sebaran peubah penjelas (X1, X2, X3, dan X4) dan nilai
parameter (βi) data simulasi contoh kasus 2
Peubah
Sebaran peubah penjelas Xi
Nilai parameter (βi)
Penjelas
X1
Seragam(1, 10) diskrit
10.0
X2
X2 = 2X1 + e, e~Normal(0,1)
10.0
X3
Seragam(1, 20) diskrit
5.0
X4
Seragam(1, 100) diskrit
0.0
Peubah respon yang menampung nilai amatan (Y) diperoleh dari model
regresi linier berganda tanpa intersep, ditambah galat,
+ , dengan X
merupakan matriks berukuran 30x4 yang menampung nilai-nilai keempat peubah
penjelas, merupakan vektor penduga koefisien regresi, dan merupakan vektor
7
galat. Kondisi heteroskedastisitas dalam data diperoleh dari pembangkitan galat
terlebih dahulu yang ragamnya menyebar menurut fungsi dari peubah
penjelasnya, yaitu Seragam. Sebagai kontrol dilibatkan satu kali simulasi terhadap
data yang homoskedastisitas. Kondisi ragam sisaan yang dicobakan pada contoh
kasus 1 dideskripsikan pada Tabel 2.
Tabel 2 Nilai ragam galat data simulasi contoh kasus 1
Nilai ragam galat
Simulasi
Keterangan
ke(σ )
1
1
Homoskedastis*
2
X1i
Heteroskedastis
3
2X1i
Heteroskedastis
4
Heteroskedastis
X
5
X2i
Heteroskedastis
6
2X2i
Heteroskedastis
7
Heteroskedastis
X
8
X4i
Heteroskedastis
9
2X4i
Heteroskedastis
10
Heteroskedastis
X
*sebagai kontrol
Pada contoh kasus 2 dilakukan simulasi dengan 100 gugus data (100
ulangan) dan 50 jumlah amatan pada masing-masing gugus data (n=50). Sebanyak
delapan peubah penjelas dibangkitkan menurut sebaran Normal dengan nilai
parameter (μ dan σ2) berbeda-beda dan nilai koefisien regresi ditentukan berbedabeda pula (Tabel 3).
Tabel 3 Sebaran peubah penjelas (X1, X2, …, X8) dan nilai parameter
(βi) data simulasi contoh kasus 2
Peubah Penjelas
X1
X2
X3
X4
X5
X6
X7
X8
Sebaran peubah
penjelas Xi
Normal (100,5)
Normal (10,2)
Normal (55,7)
Normal (155,10)
Normal (65,7)
Normal (20,3)
Normal (10,3)
Normal (40,5)
Nilai parameter (βi)
3.0
2.0
0.0
0.0
1.5
0.0
0.0
2.0
Peubah respon yang menampung nilai amatan (Y) diperoleh dari model regresi
linier berganda tanpa intersep. Kondisi heteroskedastisitas diperoleh dengan
menetapkan Var ( i) = X . Pada contoh kasus ini dilakukan pembandingan antara
LASSO, MKT, dan Best Subset. Dari ketiga metode tersebut diamati model
regresi yang diperoleh pada 100 gugus data.
8
Metode
Tahapan metode yang digunakan pada contoh kasus 1 adalah sebagai
berikut:
1. Membangkitkan peubah penjelas X sebanyak 4 peubah, X1, X2, X3, dan X4,
dengan X2 merupakan peubah yang berkorelasi kuat dengan X1 (X2i = X ).
2. Membangkitkan peubah respon Y dengan model regresi linier dari sebanyak
4 peubah penjelas yang dihasilkan pada langkah 1 dengan koefisien regresi
yang ditentukan terlebih dahulu sesuai dengan Tabel 1, ditambah galat yang
memiliki ragam heterogen seperti pada Tabel 2.
3. Menguji keberadaan heteroskedastisitas pada model regresi data simulasi
dengan Uji Breusch-Pagan.
Jika heteroskedastisitas terdeteksi maka analisis dilanjutkan ke langkah 4.
Sedangkan jika tidak terdeteksi, mengulangi langkah 1 sampai 3.
4. Melakukan seleksi peubah dan pendugaan parameter dengan metode LASSO
menggunakan algoritma LARS.
5. Memilih model dengan nilai KTG terkecil yang diperoleh dari proses validasi
silang.
6. Mengulang langkah 1 sampai 5 sebanyak 100 kali (100 gugus data).
7. Melakukan evaluasi terhadap penduga LASSO dengan cara:
menghitung banyaknya peubah penjelas yang oleh LASSO diduga
memiliki nilai koefisien regresi (βi≠ ) dan yang disusutkan menjadi nol.
8. Melakukan semua langkah tersebut (1 sampai 8) dengan kondisi galat kedua,
ketiga, sampai kesepuluh.
Tahapan metode yang digunakan pada contoh kasus 2 adalah sebagai
berikut:
1. Membangkitkan peubah penjelas X sebanyak 8 peubah.
2. Membangkitkan peubah respon Y dengan model regresi linier dari sebanyak 8
peubah penjelas yang dihasilkan pada langkah 1 dengan koefisien regresi yang
ditentukan terlebih dahulu, ditambah galat yang memiliki ragam heterogen
yang merupakan fungsi dari peubah X3 (Var ( i) = X ).
3. Menguji keberadaan heteroskedastisitas pada model regresi data simulasi
dengan Uji Breusch-Pagan.
Jika heteroskedastisitas terdeteksi maka analisis dilanjutkan ke langkah 4.
Sedangkan jika tidak terdeteksi, mengulangi langkah 1 sampai 3.
4. Melakukan seleksi peubah dan pendugaan parameter dengan metode LASSO
menggunakan algoritma LARS.
5. Memilih model dengan nilai KTG terkecil yang diperoleh dari proses validasi
silang.
6. Mengulang langkah 1 sampai 5 sebanyak 100 kali (100 gugus data).
7. Melakukan evaluasi terhadap penduga LASSO dengan cara:
menghitung banyaknya peubah penjelas yang oleh LASSO diduga
memiliki nilai koefisien (βi≠ ) dan yang disusutkan menjadi nol.
8. Melakukan langkah 1 sampai 3 lalu dilanjutkan dengan:
pemilihan model dan pendugaan parameter menggunakan MKT,
pemilihan model menggunakan metode Best Subset.
9
HASIL DAN PEMBAHASAN
Dalam penelitian ini dilakukan pembangkitan data regresi yang
heteroskedastis. Masalah pertama yang dihadapi adalah cara membuat data yang
sesuai dengan kriteria yang diinginkan sehingga dapat dianalisis. Data peubah
penjelas dibangkitkan menurut sebaran Seragam untuk contoh kasus 1 dan
sebaran Normal untuk contoh kasus 2. Pemilihan sebaran dan nilai parameter bagi
peubah penjelas yang digunakan mengandung subjektifitas yang tinggi dan dapat
berbeda-beda di setiap percobaan dan pengguna (user).
Setelah melakukan pembangkitan data peubah penjelas, masalah kedua yang
dihadapi adalah cara memperoleh model regresi yang galatnya mempunyai ragam
yang heterogen. Dalam MKT, asumsi homoskedastisitas mensyaratkan ragam
galat menyebar Normal ( , σ2). Dengan demikian jika ingin memperoleh ragam
galat yang heterogen dapat dilakukan dengan menentukan fungsi ragam galat dari
peubah penjelas yang terlibat (misalnya Var ( i) = X1i untuk contoh kasus 1).
Keberhasilan proses ini dapat diamati dari nilai-p pada Uji Breusch-Pagan. Jika
nilai-p pada uji Breusch-Pagan lebih kecil dari taraf nyata (0.05) maka diperoleh
data yang heteroskedastis. Uji Breusch-Pagan didekati dengan pengujian statistik
uji sebaran Khi-kuadrat dengan derajat bebas (d. b.) sebesar banyaknya peubah
penjelas pada model. Berdasarkan beberapa gugus data dalam simulasi (Tabel 4),
terlihat bahwa data regresi telah memenuhi kriteria yang diinginkan, yaitu data
regresi yang heteroskedastis kecuali bagi kontrol.
Tabel 4 Beberapa contoh Uji Breusch-Pagan pada contoh kasus 1 dan 2
Statistik Uji
Gugus
ar ( i)
Breuschd.b.
Nilai-p
Keterangan
data kePagan
Contoh 1
1
1
6.89050
4
0.14180 Homoskedastis
X2i
40
10.68580
4
0.03033 Heteroskedastis
16
11.85030
4
0.01850 Heteroskedastis
X
2X4i
9
16.10830
4
0.00288 Heteroskedastis
63
15.44060
4
0.00387 Heteroskedastis
X
Contoh 2
1
15.53450
8
0.04955 Heteroskedastis
25
17.45550
8
0.02570 Heteroskedastis
42
16.93980
8
0.03074 Heteroskedastis
X
69
17.66080
8
0.02392 Heteroskedastis
95
19.09850
8
0.01434 Heteroskedastis
Gambar 2 merupakan grafik hasil proses pemilihan peubah pada algoritma
LARS. Peubah penjelas terpilih satu persatu ke dalam model sekaligus diduga
(Chand dan Kamal 2011). Garis membujur 0, 1, 2, 3, dan 4 menggambarkan
jumlah langkah yang dialami LASSO pada saat pemilihan model. Pada contoh
data yang grafiknya tercermin di Gambar 2, peubah penjelas X2 merupakan
peubah yang paling berkorelasi dengan sisaan, oleh karenanya peubah tersebut
terpilih di langkah awal pemilihan model. Pada langkah selanjutnya, X3 terpilih,
10
Koefisien regresi baku
sampai akhirnya peubah X1 dan X4 juga terseleksi. Setelah semua peubah penjelas
terseleksi, dibuat terlebih dahulu grafik antara nilai s dengan nilai KTG (Kuadrat
Tengah Galat) yang diperoleh dari proses validasi silang untuk mengevaluasi
model yang terbaik. Model terbaik adalah model ketika langkah tersebut
menghasilkan KTG yang minimum. Model terbaik dapat diperoleh dengan
menggunakan dua fungsi yang terdapat pada algoritma LARS, yaitu fraction dan
step. Mode fraction berguna untuk mencari nilai KTG minimum pada proses
validasi silang, sedangkan untuk mencari langkah ketika model terbaik bagi solusi
LASSO digunakan fungsi pada mode step.
|beta|
maksimum|beta|
Gambar 2 Plot objek yang dihasilkan oleh
algoritma LARS untuk menduga
koefisien LASSO
KTG validasi silang
KTG validasi silang
Pada Gambar 3 (b) yang dihasilkan dari salah satu gugus data di contoh
kasus 1, KTG minimum terjadi pada nilai s = 3 atau pada langkah ketiga pada
pemanggilan fungsi mode step. Dengan demikian, model LASSO yang dipilih
dari gugus data ini adalah model pada langkah ketiga. Proses ini terus dilakukan
untuk setiap gugus data. Karena setiap pemanggilan fungsi di setiap gugus data
menghasilkan nilai KTG minimum yang berbeda-beda dan bersifat subjektif,
maka diperlukan ketelian yang tinggi untuk memutuskan model terbaik.
Fraksi akhir nilai L1
(a)
Jumlah langkah
(b)
Gambar 3 Nilai KTG validasi silang mode fraction (a) dan mode step (b) pada
salah satu gugus data di contoh kasus 1
11
KTG validasi silang
KTG validasi silang
Dalam pemilihan model dan pendugaan parameter LASSO di contoh kasus
2, terdapat beberapa gugus data dimana tidak terpilih sama sekali peubah penjelas,
artin a semua βi disusutkan menjadi nol oleh LASSO. Hal ini diidentifikasi dari
grafik yang ditunjukkan pada mode step maupun mode fraction. Trend pada
grafik ang dihasilkan dari data dengan semua βi = 0 berbeda dengan trend yang
ditunjukkan pada Gambar 3. Salah satu contoh kasus tidak terpilihnya peubah
penjelas sama sekali ada pada gugus data ke-53. Grafik yang dihasilkan gugus
data ke-53 pada pemanggilan fungsi mode fraction dan mode step ditunjukkan
pada Gambar 4.
Fraksi akhir nilai L1
(a)
Jumlah langkah
(b)
Gambar 4 Nilai KTG validasi silang mode fraction (a) dan mode step
(b) gugus data ke-53 pada contoh kasus 2
Pada grafik di Gambar 4, KTG minimum terjadi pada langkah pertama.
Dengan demikian pada gugus data ini, penduga parameter LASSO yang didapat
adalah ̂ = (0, 0, 0, 0, 0, 0, 0, 0)T. Pada gugus data ini heteroskedastisitas
mempengaruhi LASSO dalam menduga parameter sehingga tidak terpilih model
yang baik. Peubah yang berpengaruh maupun yang tidak berpengaruh disusutkan
semua menjadi nol oleh LASSO. Selain gugus data ke-53, terdapat 28 gugus data
lain yang juga mengalami hal serupa.
Evaluasi dilakukan terhadap metode LASSO dengan menghitung ketepatan
LASSO dalam menyeleksi peubah penjelas yang berkoefisien regresi tidak
nol/berpengaruh dan berkoefisien regresi nol/tidak berpengaruh. Tabel 5
menunjukkan hasil evaluasi dari simulasi pada contoh kasus 1.
Tabel 5 mengungkap bahwa dalam kasus data regresi heteroskedastis
dengan ragam galat yang merupakan fungsi dari peubah penjelas berpengaruh
( ar ( i) = f(Xi); βi≠ ), heteroskedastisitas tidak mempengaruhi LASSO ketika
ukuran sampel kecil (n
SHRINKAGE OPERATOR (LASSO) PADA DATA YANG
MENGANDUNG HETEROSKEDASTISITAS
MEIRA MAWATI
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Kajian Metode Least
Absolute Selection and Shrinkage Operator (LASSO) pada Data yang
Mengandung Heteroskedastisitas adalah benar karya saya dengan arahan dari
komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan
tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang
diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks
dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Maret 2015
Meira Mawati
NIM G14100084
ABSTRAK
MEIRA MAWATI. Kajian Metode Least Absolute Selection and Shrinkage
Operator (LASSO) pada Data yang Mengandung Heteroskedastisitas. Dibimbing
oleh KUSMAN SADIK dan BAGUS SARTONO.
Metode Least Absolute Selection and Shrinkage Operator (LASSO) telah banyak
digunakan dalam regresi berdimensi besar untuk menyeleksi peubah maupun
menduga parameter. Solusi LASSO diperoleh dengan meminimumkan jumlah
kuadrat sisaan terhadap suatu kendala, yaitu jumlah dari nilai mutlak penduga
MKT (Metode Kuadrat Terkecil) lebih kecil daripada suatu konstanta. Jia et al.
(2010) melakukan analisis terhadap data aplikasi medical imaging menggunakan
metode LASSO dimana ragam galat data tersebut menyebar Poisson-like.
Penelitian ini melakukan hal serupa. LASSO dievaluasi menggunakan data regresi
yang heteroskedastis. Berdasarkan pendekatan simulasi, terungkap bahwa LASSO
tidak selektif pada data regresi yang banyak mengandung penduga yang tidak
signifikan (sparse). LASSO tidak lebih baik dibandingkan dengan MKT dan Best
Subset dalam menangani data yang mempunyai ragam galat yang heterogen.
Kata kunci: heteroskedastisitas, LARS, LASSO
ABSTRACT
MEIRA MAWATI. Study of Least Absolute Selection and Shrinkage Operator
(LASSO) Method Under Heteroscedasticity. Under the supervision of KUSMAN
SADIK and BAGUS SARTONO.
Least Absolute Selection and Shrinkage Operator (LASSO) has been
acknowledged to analyse high dimention data to select variables and to estimate
parameters. LASSO estimators obtained by minimizing the residual sum of
squares subject to the sum of the absolute value of the coefficients being less than
a constant. Jia et al. (2010), in his research, conducted an analysis on a medical
imaging application data using LASSO when error variance of the data suffered
heteroscedasticity problem, which is Poisson-like distributed. This research aimed
to study the similar problem. LASSO is evaluated by using heteroscedastic
regression data. By conducting simulation approach, the result showed that
LASSO encountered difficulties. In regression data that has too many zerocoefficients estimator, LASSO is not selective. Compared to OLS (Ordinary Least
Square) and Best Subset, LASSO doesn’t offer better solution.
Keywords: heteroscedasticity, LARS, LASSO, LASSO under heteroscedasticity
KAJIAN METODE LEAST ABSOLUTE SELECTION AND
SHRINKAGE OPERATOR (LASSO) PADA DATA YANG
MENGANDUNG HETEROSKEDASTISITAS
MEIRA MAWATI
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Statistika
pada
Departemen Statistika
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
Judul Skripsi : Kajian Metode Least Absolute Selection and Shrinkage Operator
(LASSO) pada Data yang Mengandung Heteroskedastisitas
Nama
: Meira Mawati
NIM
: G14100084
Disetujui oleh
Dr Kusman Sadik, MSi
Pembimbing I
Dr Bagus Sartono, MSi
Pembimbing II
Diketahui oleh
Dr Anang Kurnia, MSi
Ketua Departemen
Tanggal Lulus:
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan Februari 2014 ini ialah
Metode LASSO, dengan judul Kajian Metode Least Absolute Selection and
Shrinkage Operator (LASSO) pada Data yang Mengandung Heteroskedastisitas.
Terima kasih penulis ucapkan kepada Bapak Dr Kusman Sadik, MSi dan
Bapak Dr Bagus Sartono, MSi selaku pembimbing. Di samping itu ungkapan
terima kasih juga penulis sampaikan kepada ayah, ibu, kakak, serta rekan-rekan,
atas doa, kasih sayang, dan segala bentuk dukungan yang telah diberikan.
Semoga karya ilmiah ini bermanfaat.
Bogor, Maret 2015
Meira Mawati
DAFTAR ISI
DAFTAR TABEL
x
DAFTAR GAMBAR
x
DAFTAR LAMPIRAN
x
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
2
TINJAUAN PUSTAKA
2
LASSO
2
Algoritma LAR
3
Validasi Silang Lipat-K
4
Heteroskedastisitas pada Regresi Linier
4
LASSO pada Kasus Heteroskedastisitas
6
DATA DAN METODE
6
Data
6
Metode
8
HASIL DAN PEMBAHASAN
SIMPULAN DAN SARAN
9
13
Simpulan
13
Saran
13
DAFTAR PUSTAKA
14
LAMPIRAN
15
RIWAYAT HIDUP
20
DAFTAR TABEL
1. Sebaran peubah penjelas (X1, X2, X3, dan X4) dan nilai parameter (βi)
data simulasi contoh kasus 2
2. Nilai ragam galat data simulasi contoh kasus 1
6
7
3. Sebaran peubah penjelas (X1, X2, …, X8) dan nilai parameter (βi) data
simulasi contoh kasus 2
7
4. Beberapa contoh Uji Breusch-Pagan pada contoh kasus 1 dan 2
9
5. Hasil simulasi contoh kasus 1
12
6. Jumlah kemunculan setiap peubah penjelas pada contoh kasus 2
13
DAFTAR GAMBAR
1. Contoh validasi silang lipat-5 saat anak gugus data ke-3 dijadikan anak
gugus data pengujian model
4
2. Plot objek yang dihasilkan oleh algoritma LARS untuk menduga
koefisien LASSO
10
3. Nilai KTG validasi silang mode fraction (a) dan mode step (b) pada
salah satu gugus data di contoh kasus 1
10
4. Nilai KTG validasi silang mode fraction (a) dan mode step (b) gugus
data ke-53 pada contoh kasus 2
11
DAFTAR LAMPIRAN
1. Model yang terpilih pada simulasi contoh kasus 2
15
2. Model yang muncul pada simulasi contoh kasus 2
17
PENDAHULUAN
Latar Belakang
Least Absolute Selection and Shrinkage Operator (LASSO) adalah suatu
metode yang telah banyak digunakan dalam regresi berdimensi besar untuk
menyeleksi peubah maupun menduga parameter. Dalam aplikasi keilmuan,
berbagai macam percobaan sering kali melibatkan banyak peubah. Peubah-peubah
tersebut diekspresikan menjadi pengaruh-pengaruh yang dapat memberikan efek
terhadap respon, baik efek dari pengaruh tunggal, maupun efek dari interaksi
antarpeubah. Banyaknya pengaruh menyebabkan penyeleksian peubah menjadi
sulit untuk dilakukan sehingga model yang efisien sulit didapat.
LASSO ditemukan oleh Tibshirani (1996) pertama kali sebagai alternatif
dari solusi permasalahan penduga parameter model MKT yang kurang akurat
dalam prediksi dan sulit diinterpretasi. Penelitian telah menunjukkan bahwa pada
data yang mengandung jumlah peubah penjelas lebih banyak dari jumlah amatan,
metode LASSO menunjukkan hasil yang baik dalam memilih model yang tepat
(Jia et al. 2010). LASSO mengadaptasi konsep pemilihan peubah dan pendugaan
parameter yang dikenal lebih dulu dengan nama subset selection dan ridge
regression. Oleh karena itu, LASSO menyeleksi peubah dan menduga parameter
secara simultan (Chand dan Kamal 2011).
Pemilihan model dan pendugaan parameter LASSO sudah dikenal dengan
baik dalam kondisi data yang memenuhi asumsi standar, salah satunya dalam
kondisi data yang homoskedastis (Jia at al. 2010). Walaupun demikian, masalah
homoskedastisitas atau kehomogenan ragam galat sering kali tidak dideskripsikan
dengan jelas. Homoskedastisitas mengindikasikan setiap pengamatan
mengandung informasi yang sama penting (Rawlings et al. 1998). Kondisi ini
penting untuk diperhatikan karena keabsahan uji hipotesis yang dilakukan
terhadap data tersebut bergantung pada terpenuhinya asumsi homoskedastisitas.
Inferensia yang dilakukan terhadap data yang tidak memenuhi asumsi
homoskedastisitas menyebabkan simpulan menyimpang, serta penduga dan model
yang diperoleh tidak meyakinkan karena mengandung bias yang tinggi.
Jia et al. (2010) melakukan analisis terhadap data aplikasi medical imaging
menggunakan metode LASSO. Data yang digunakan tidak memenuhi asumsi
homoskedastisitas, yaitu ragam galat data tersebut menyebar Poisson-like.
Penelitian ini melakukan hal serupa, yaitu evaluasi akan dilakukan terhadap
metode LASSO dengan mengaplikasikannya terhadap data yang heteroskedastis.
Perbedaannya adalah ragam galat pada simulasi dijadikan sebagai fungsi dari
peubah penjelas yang terdapat dalam model. Dengan demikian akan didapat galat
yang tidak saling bebas terhadap peubah penjelas, dan kondisi heteroskedastisitas
diperoleh. Proses pengecekan kondisi heteroskedastisitas data dilakukan dengan
Uji Breusch-Pagan pada taraf nyata 0.05. Perbandingan antara LASSO dengan
MKT dan Metode Best Subset dilakukan untuk mengetahui keunggulan LASSO
dibandingkan dengan keduanya.
2
Tujuan Penelitian
Tujuan penelitian ini adalah mengkaji metode LASSO dalam melakukan
pemilihan peubah dan pendugaan parameter pada data yang mengandung
heteroskedastisitas.
TINJAUAN PUSTAKA
LASSO
Tibshirani (1996) pertama kali memperkenalkan LASSO sebagai metode
penyeleksian peubah dan pendugaan parameter. Metode LASSO mulai dikenal
setelah Efron menemukan algoritma LAR pada tahun 2004. Penduga LASSO
tidak dapat diperoleh dalam bentuk tertutup seperti pada MKT ataupun ridge
regression, tetapi dengan pemrograman kuadratik (Hastie et al. 2008). Penduga
LASSO
koefisien LASSO ( ̂
diperoleh dengan meminimumkan jumlah kuadrat
sisaan dengan suatu kendala L1 (Tibshirani 1996), sebagai berikut:
̂
LASSO
argmin
p
p
N
∑
i
i
- β -∑
j
ij βj
L
∑ |βj | t
j
(Hastie et al. 2008).
Dalam persamaan di atas, jumlah kuadrat sisaan diminimumkan terhadap
parameter β dengan s arat kendala L1 sehingga dapat diperoleh solusi LASSO.
Nilai t dalam L1 merupakan parameter kontrol yang mengendalikan banyaknya
penyusutan yang dilakukan terhadap nilai penduga, dengan t > 0. Nilai t yang
kecil menyebabkan beberapa koefisien regresi menjadi bernilai nol sehingga
peubah-peubah yang berpengaruh besar dalam model terpilih dan peubah-peubah
yang berpengaruh kecil tereliminasi. Hai ini mengakibatkan solusi LASSO
menghasilkan model yang efisien. Jika β̂ merupakan penduga MKT dan t0 =
j
p
∑ |β̂ j | maka nilai t < t0 menyebabkan penduga solusi MKT susut ke arah nol. Jika
nilai t yang dipilih lebih besar daripada t0 maka penduga LASSO yang diperoleh
akan sama dengan penduga MKT model penuh (Tibshirani 1996).
Penduga koefisien LASSO dievaluasi dengan menentukan parameter baku
t
p
s
, dengan t = ∑ |β̂ | dan β̂ merupakan penduga MKT model penuh atau
p
∑ |β̂ j |
j
j
pada gambar output algoritma LARS ditulis sebagai |beta|/max|beta| (Dewi 2010).
Plot antara penduga galat LASSO versus nilai s dibuat untuk mempermudah
interpretasi. Penentuan nilai optimal s dapat diperoleh dengan melakukan validasi
silang (Tibshirani 1996). Hastie et al. (2008) melakukan validasi silang lipat 10
untuk menentukan nilai s optimum pada LASSO.
Perbedaan antara ridge regression dengan LASSO adalah terletak pada
nilai kendala yang digunakan untuk memperoleh penduga parameter regresi.
p
Kendala pada ridge regression adalah ∑j βj t, sedangkan pada LASSO adalah
3
∑pj |βj | t. Perbedaan tersebut menyebabkan penduga parameter LASSO
cenderung lebih kecil dibandingkan dengan penduga parameter ridge regression.
Penduga parameter regresi yang diperoleh dari ridge regression hanya disusutkan
ke arah nol, sedangkan pada solusi LASSO beberapa penduga parameter regresi
disusutkan tepat menjadi nol. Dengan demikian metode LASSO juga berfungsi
sebagai seleksi peubah seperti pada subset selection.
Algoritma LAR
Least Angle Regression (LAR) adalah metode klasik yang berkaitan dengan
metode pemilihan model yang dahulu dikenal dengan nama forward selection atau
forward stepwise regression (Efron et al. 2004). Seperti halnya pada forward
selection, dalam algoritma LAR model terbaik diperoleh dengan cara
memasukkan peubah penjelas satu persatu. Modifikasi algoritma LAR untuk
LASSO menghasilkan efisiensi algoritma dalam menduga koefisien LASSO
dengan komputasi yang lebih cepat dibandingkan pemrograman kuadratik
(Pusporini 2012). Algoritma LAR selalu mengambil p langkah untuk
mendapatkan penduga kuadrat terkecil secara penuh, sedangkan modifikasi LAR
untuk LASSO, disebut LARS, dapat memiliki lebih dari p langkah untuk
mendapatkannya. Algoritma LASSO dengan memodifikasi LAR merupakan cara
yang efisien dalam komputasi solusi masalah LASSO, terutama ketika jumlah
peubah penjelas yang digunakan jauh lebih banyak daripada jumlah amatan.
Tahapan algoritma LARS adalah sebagai berikut (Hastie et al. 2008):
1. Membakukan peubah penjelas { i : i = 1, ..., p } sehingga rata-ratanya bernilai
nol dan ragamnya bernilai 1. Mulai dengan sisaan r
- ̅ , β , ..., βp = 0. Jika
nilai terbakukan dinyatakan dengan
yaitu :
2.
3.
4.
5.
*
i
i
̅
-X
√ ar(X)
*
i
maka pembakuan yang dilakukan
Proses pembakuan dilakukan agar dapat membandingkan
dugaan koefisien regresi yang berbeda ragam dalam suatu model.
Mencari peubah penjelas xa yang paling berkorelasi dengan r.
Mengubah nilai βa dari 0 menuju nilai koefisien regresi yang diperoleh dari
proses MKT sampai suatu xb mempunyai korelasi sama besarnya dengan
korelasi antara xa dengan sisaan sekarang.
Mengubah nilai βa dan βb bergerak dalam arah koefisien kuadrat terkecil
bersama dari sisaan sekarang dalam (xa, xb) sampai suatu kompetitor lain,
misalnya xc, memiliki korelasi yang cukup dengan sisaan akibat (xa, xb).
Mengeluarkan peubah tersebut dari gugus peubah aktif jika koefisien
bukan nol mencapai nilai nol, dan menghitung kembali arah kuadrat
terkecil bersama.
Meneruskan langkah nomor 4 sampai semua p peubah penjelas telah masuk.
Setelah min(N-1,p) langkah, solusi model penuh untuk kuadrat terkecil
diperoleh.
4
Validasi Silang Lipat-K
Validasi silang merupakan metode yang paling sederhana dan banyak
dipakai secara luas untuk menduga galat prediksi. Idealnya, ketika data yang
dimiliki memadai, akan dapat ditentukan suatu anak gugus data validasi dan
digunakan untuk mengukur ketepatan model yang dimiliki. Namun sering kali
data yang dimiliki terlalu sedikit sehingga tidak memungkinkan untuk dilakukan
validasi secara langsung. Solusinya adalah melakukan validasi silang yang
menggunakan sebagian data yang tersedia untuk mengepaskan model (validasi
model), dan sebagian data yang lain untuk digunakan sebagai data pengujian
model (Hastie et al. 2008).
Salah satu jenis validasi silang adalah validasi silang lipat-K. Metode ini
baik digunakan ketika jumlah data amatan sedikit. Dalam validasi silang lipat-K,
amatan dibagi ke dalam K anak gugus data sama rata secara acak.
Gambar 1 Contoh validasi silang lipat-5 saat anak gugus data
ke-3 dijadikan anak gugus data pengujian model
Sebagai contoh, jika K = 5 maka salah satu contoh skenario pembagian data
yang terjadi akan terlihat seperti pada Gambar 1. Pada ilustrasi ini, anak gugus
data ke-3 menjadi gugus data validasi, model dibangun menggunakan keempat
anak gugus data lain, yaitu anak gugus data ke-1, 2, 4 dan 5. Lalu dihitung nilai
dugaan galat prediksi dari model terbaik ketika memprediksi anak gugus data ke3. Hal ini dilakukan untuk k = 1, 2, 3, 4, 5, lalu semua 5 penduga galat prediksi
dikombinasikan.
Nilai galat prediksi ( ̂ ) validasi silang lipat-K diduga oleh persamaan
berikut:
P̂
C
∑
k
∑
( i, i )
i
- ̂ -k (
i
dengan ̂ -k ( i adalah dugaan y untuk xi pada saat lipat ke-k tidak digunakan
dalam menduga model, dan yi adalah nilai respon pada amatan ke-i pada data test
T. Izeman (2008) merekomendasikan validasi silang lipat-5 atau lipat-10 karena
menghasilkan nilai ̂ dengan bias tinggi namun ragam rendah.
Heteroskedastisitas pada Regresi Linier
Homoskedastisitas adalah salah satu asumsi dalam regresi linier ketika
ragam dari galat menyebar konstan di suatu nilai tertentu. Asumsi ini
menunjukkan bahwa setiap amatan pada peubah respon mengandung informasi
yang sama pentingnya sehingga seluruh pengamatan di dalam MKT mendapatkan
bobot yang sama (Rawlings et al. 1998).
5
Model umum regresi berganda dapat ditulis sebagai berikut:
i
dengan
yi
:
β0 :
xij :
βj
:
:
i
p
β + ∑j
ij βj + i ,
nilai respon pada amatan ke-i,
intersep,
nilai peubah penjelas ke-j pada amatan ke-i,
nilai parameter bagi peubah penjelas ke-j,
nilai galat pada amatan ke-i.
Ragam galat disebut homogen jika Var ( i) σ2, sebaliknya ketika data tidak
homogen dalam ragam, maka setiap amatan mempunyai nilai ragam yang
berbeda, atau disimbolkan sebagai: Var ( i) = σi . Akibatnya, setiap amatan
mengandung informasi yang tidak sama karena ragam tidak konstan pada suatu
nilai tertentu (Rawlings et al. 1998). Kondisi demikian disebut heteroskedastisitas.
Heteroskedastisitas disebabkan beberapa pengamatan mengandung informasi
yang lebih dibandingkan dengan yang lain. Dengan demikian pengamatan tersebut
seharusnya mendapat bobot yang lebih besar dibandingkan dengan pengamatan
lainnya (Rawlings et al. 1998).
Sifat dari penduga MKT yaitu tak bias terbaik (memiliki ragam penduga
yang minimum) dan sangat bergantung pada asumsi kehomogenan ragam.
Pembobotan yang sama, sebagaimana yang dilakukan pada MKT, tidak akan
menghasilkan penduga dengan ragam minimum, apabila ragamnya tidak sama.
Oleh karena itu, pengaruh dari tidak terpenuhinya asumsi ini adalah
presisi/kecermatan dari penduga MKT menjadi lebih kecil dibandingkan dengan
penduga yang mengakomodasi ketidakhomogenan ragam tersebut (Rawlings et al.
1998).
Sejalan dengan Rawlings et al. (2008), Gujarati (2006) menyatakan (tanpa
pembuktian) bahwa ada beberapa dampak buruk dari keberadaan
heteroskedastisitas, yaitu:
1. Ragam menjadi tidak minimum. Keberadaan heteroskedastisitas mempunyai
makna bahwa ragam galat tidak homogen. Asumsi ragam galat yang
homogen mengindikasikan bahwa informasi seluruh amatan sama. Namun
karena asumsi tersebut tidak terpenuhi maka ragam pendugaan secara
keseluruhan tidak lagi efisien. Hal ini berlaku juga dalam analisis
menggunakan ukuran sampel yang besar.
2. Rumus-rumus biasa untuk memprediksi ragam penduga MKT umumnya bias.
Prediksi ragam penduga MKT bias, namun tidak dapat dikatakan secara tegas
bias ke atas (overestimate) atau bias ke bawah (underestimate). Hal ini
disebabkan oleh tidak dapat dijelaskannya seberapa besar derajat
keheterogenan ragam yang terjadi dalam model regresi yang mendapat
gangguan heteroskedastisitas karena belum ada alat ukur yang dapat
menghitungnya secara pasti.
3. Bias muncul karena σ̂ (penduga bagi σ2 yaitu ∑ni ei ⁄d.b.) tidak lagi
merupakan penduga tak bias dari σ2.
6
4.
Selang kepercayaan dan hipotesis yang didasarkan pada distribusi t dan F
tidak meyakinkan. Oleh sebab itu, kemungkinan kesalahan perhitungan dapat
terjadi jika dilakukan pengujian hipotesis.
LASSO pada Kasus Heteroskedastisitas
Metode LASSO telah banyak digunakan dalam penyeleksian peubah dan
pendugaan parameter pada data regresi berdimensi besar. Proses pemilihan model
yang dilakukan oleh LASSO telah baik dikenal dalam kondisi model regresi
standard sparse dan homoskedastis (Jia et al. 2010).
Dalam kasus heteroskedastisitas, LASSO memilih model ketika ragam
penduga tidak minimum. Dalam masalah kekonsistenan, LASSO kekar terhadap
pelanggaran asumsi homoskedastisitas yang galatnya menyebar Poisson-like.
Hasil teoritis dari model regresi sparse Poisson-like serupa dengan model regresi
standard sparse. Simulasi yang telah dilakukan membuktikan bahwa dalam
masalah kualitas pemilihan model, data regresi yang galatnya menyebar Poissonlike dan data yang homoskedastis menunjukkan hasil yang serupa (Jia et al. 2010).
DATA DAN METODE
Data
Data yang digunakan dalam penelitian ini adalah data simulasi. Proses
pembangkitan data dilakukan pada perangkat lunak R versi 3.1.2. Dalam
penelitian ini digunakan dua contoh kasus. Kasus pertama adalah analisis
kemampuan LASSO dengan mencobakan beberapa kondisi ragam galat. Kasus
yang kedua adalah perbandingan metode LASSO dengan MKT dan Best Subset
dalam menganalisis data regresi yang heteroskedastis.
Pada contoh kasus 1 dicobakan 100 gugus data bangkitan (100 ulangan)
dengan masing-masing 30 amatan (n=30). Sebanyak empat peubah penjelas X
dibangkitkan menurut sebaran peubah acak Seragam, dengan nilai koefisien
regresi yang berbeda-beda (Tabel 1).
Tabel 1 Sebaran peubah penjelas (X1, X2, X3, dan X4) dan nilai
parameter (βi) data simulasi contoh kasus 2
Peubah
Sebaran peubah penjelas Xi
Nilai parameter (βi)
Penjelas
X1
Seragam(1, 10) diskrit
10.0
X2
X2 = 2X1 + e, e~Normal(0,1)
10.0
X3
Seragam(1, 20) diskrit
5.0
X4
Seragam(1, 100) diskrit
0.0
Peubah respon yang menampung nilai amatan (Y) diperoleh dari model
regresi linier berganda tanpa intersep, ditambah galat,
+ , dengan X
merupakan matriks berukuran 30x4 yang menampung nilai-nilai keempat peubah
penjelas, merupakan vektor penduga koefisien regresi, dan merupakan vektor
7
galat. Kondisi heteroskedastisitas dalam data diperoleh dari pembangkitan galat
terlebih dahulu yang ragamnya menyebar menurut fungsi dari peubah
penjelasnya, yaitu Seragam. Sebagai kontrol dilibatkan satu kali simulasi terhadap
data yang homoskedastisitas. Kondisi ragam sisaan yang dicobakan pada contoh
kasus 1 dideskripsikan pada Tabel 2.
Tabel 2 Nilai ragam galat data simulasi contoh kasus 1
Nilai ragam galat
Simulasi
Keterangan
ke(σ )
1
1
Homoskedastis*
2
X1i
Heteroskedastis
3
2X1i
Heteroskedastis
4
Heteroskedastis
X
5
X2i
Heteroskedastis
6
2X2i
Heteroskedastis
7
Heteroskedastis
X
8
X4i
Heteroskedastis
9
2X4i
Heteroskedastis
10
Heteroskedastis
X
*sebagai kontrol
Pada contoh kasus 2 dilakukan simulasi dengan 100 gugus data (100
ulangan) dan 50 jumlah amatan pada masing-masing gugus data (n=50). Sebanyak
delapan peubah penjelas dibangkitkan menurut sebaran Normal dengan nilai
parameter (μ dan σ2) berbeda-beda dan nilai koefisien regresi ditentukan berbedabeda pula (Tabel 3).
Tabel 3 Sebaran peubah penjelas (X1, X2, …, X8) dan nilai parameter
(βi) data simulasi contoh kasus 2
Peubah Penjelas
X1
X2
X3
X4
X5
X6
X7
X8
Sebaran peubah
penjelas Xi
Normal (100,5)
Normal (10,2)
Normal (55,7)
Normal (155,10)
Normal (65,7)
Normal (20,3)
Normal (10,3)
Normal (40,5)
Nilai parameter (βi)
3.0
2.0
0.0
0.0
1.5
0.0
0.0
2.0
Peubah respon yang menampung nilai amatan (Y) diperoleh dari model regresi
linier berganda tanpa intersep. Kondisi heteroskedastisitas diperoleh dengan
menetapkan Var ( i) = X . Pada contoh kasus ini dilakukan pembandingan antara
LASSO, MKT, dan Best Subset. Dari ketiga metode tersebut diamati model
regresi yang diperoleh pada 100 gugus data.
8
Metode
Tahapan metode yang digunakan pada contoh kasus 1 adalah sebagai
berikut:
1. Membangkitkan peubah penjelas X sebanyak 4 peubah, X1, X2, X3, dan X4,
dengan X2 merupakan peubah yang berkorelasi kuat dengan X1 (X2i = X ).
2. Membangkitkan peubah respon Y dengan model regresi linier dari sebanyak
4 peubah penjelas yang dihasilkan pada langkah 1 dengan koefisien regresi
yang ditentukan terlebih dahulu sesuai dengan Tabel 1, ditambah galat yang
memiliki ragam heterogen seperti pada Tabel 2.
3. Menguji keberadaan heteroskedastisitas pada model regresi data simulasi
dengan Uji Breusch-Pagan.
Jika heteroskedastisitas terdeteksi maka analisis dilanjutkan ke langkah 4.
Sedangkan jika tidak terdeteksi, mengulangi langkah 1 sampai 3.
4. Melakukan seleksi peubah dan pendugaan parameter dengan metode LASSO
menggunakan algoritma LARS.
5. Memilih model dengan nilai KTG terkecil yang diperoleh dari proses validasi
silang.
6. Mengulang langkah 1 sampai 5 sebanyak 100 kali (100 gugus data).
7. Melakukan evaluasi terhadap penduga LASSO dengan cara:
menghitung banyaknya peubah penjelas yang oleh LASSO diduga
memiliki nilai koefisien regresi (βi≠ ) dan yang disusutkan menjadi nol.
8. Melakukan semua langkah tersebut (1 sampai 8) dengan kondisi galat kedua,
ketiga, sampai kesepuluh.
Tahapan metode yang digunakan pada contoh kasus 2 adalah sebagai
berikut:
1. Membangkitkan peubah penjelas X sebanyak 8 peubah.
2. Membangkitkan peubah respon Y dengan model regresi linier dari sebanyak 8
peubah penjelas yang dihasilkan pada langkah 1 dengan koefisien regresi yang
ditentukan terlebih dahulu, ditambah galat yang memiliki ragam heterogen
yang merupakan fungsi dari peubah X3 (Var ( i) = X ).
3. Menguji keberadaan heteroskedastisitas pada model regresi data simulasi
dengan Uji Breusch-Pagan.
Jika heteroskedastisitas terdeteksi maka analisis dilanjutkan ke langkah 4.
Sedangkan jika tidak terdeteksi, mengulangi langkah 1 sampai 3.
4. Melakukan seleksi peubah dan pendugaan parameter dengan metode LASSO
menggunakan algoritma LARS.
5. Memilih model dengan nilai KTG terkecil yang diperoleh dari proses validasi
silang.
6. Mengulang langkah 1 sampai 5 sebanyak 100 kali (100 gugus data).
7. Melakukan evaluasi terhadap penduga LASSO dengan cara:
menghitung banyaknya peubah penjelas yang oleh LASSO diduga
memiliki nilai koefisien (βi≠ ) dan yang disusutkan menjadi nol.
8. Melakukan langkah 1 sampai 3 lalu dilanjutkan dengan:
pemilihan model dan pendugaan parameter menggunakan MKT,
pemilihan model menggunakan metode Best Subset.
9
HASIL DAN PEMBAHASAN
Dalam penelitian ini dilakukan pembangkitan data regresi yang
heteroskedastis. Masalah pertama yang dihadapi adalah cara membuat data yang
sesuai dengan kriteria yang diinginkan sehingga dapat dianalisis. Data peubah
penjelas dibangkitkan menurut sebaran Seragam untuk contoh kasus 1 dan
sebaran Normal untuk contoh kasus 2. Pemilihan sebaran dan nilai parameter bagi
peubah penjelas yang digunakan mengandung subjektifitas yang tinggi dan dapat
berbeda-beda di setiap percobaan dan pengguna (user).
Setelah melakukan pembangkitan data peubah penjelas, masalah kedua yang
dihadapi adalah cara memperoleh model regresi yang galatnya mempunyai ragam
yang heterogen. Dalam MKT, asumsi homoskedastisitas mensyaratkan ragam
galat menyebar Normal ( , σ2). Dengan demikian jika ingin memperoleh ragam
galat yang heterogen dapat dilakukan dengan menentukan fungsi ragam galat dari
peubah penjelas yang terlibat (misalnya Var ( i) = X1i untuk contoh kasus 1).
Keberhasilan proses ini dapat diamati dari nilai-p pada Uji Breusch-Pagan. Jika
nilai-p pada uji Breusch-Pagan lebih kecil dari taraf nyata (0.05) maka diperoleh
data yang heteroskedastis. Uji Breusch-Pagan didekati dengan pengujian statistik
uji sebaran Khi-kuadrat dengan derajat bebas (d. b.) sebesar banyaknya peubah
penjelas pada model. Berdasarkan beberapa gugus data dalam simulasi (Tabel 4),
terlihat bahwa data regresi telah memenuhi kriteria yang diinginkan, yaitu data
regresi yang heteroskedastis kecuali bagi kontrol.
Tabel 4 Beberapa contoh Uji Breusch-Pagan pada contoh kasus 1 dan 2
Statistik Uji
Gugus
ar ( i)
Breuschd.b.
Nilai-p
Keterangan
data kePagan
Contoh 1
1
1
6.89050
4
0.14180 Homoskedastis
X2i
40
10.68580
4
0.03033 Heteroskedastis
16
11.85030
4
0.01850 Heteroskedastis
X
2X4i
9
16.10830
4
0.00288 Heteroskedastis
63
15.44060
4
0.00387 Heteroskedastis
X
Contoh 2
1
15.53450
8
0.04955 Heteroskedastis
25
17.45550
8
0.02570 Heteroskedastis
42
16.93980
8
0.03074 Heteroskedastis
X
69
17.66080
8
0.02392 Heteroskedastis
95
19.09850
8
0.01434 Heteroskedastis
Gambar 2 merupakan grafik hasil proses pemilihan peubah pada algoritma
LARS. Peubah penjelas terpilih satu persatu ke dalam model sekaligus diduga
(Chand dan Kamal 2011). Garis membujur 0, 1, 2, 3, dan 4 menggambarkan
jumlah langkah yang dialami LASSO pada saat pemilihan model. Pada contoh
data yang grafiknya tercermin di Gambar 2, peubah penjelas X2 merupakan
peubah yang paling berkorelasi dengan sisaan, oleh karenanya peubah tersebut
terpilih di langkah awal pemilihan model. Pada langkah selanjutnya, X3 terpilih,
10
Koefisien regresi baku
sampai akhirnya peubah X1 dan X4 juga terseleksi. Setelah semua peubah penjelas
terseleksi, dibuat terlebih dahulu grafik antara nilai s dengan nilai KTG (Kuadrat
Tengah Galat) yang diperoleh dari proses validasi silang untuk mengevaluasi
model yang terbaik. Model terbaik adalah model ketika langkah tersebut
menghasilkan KTG yang minimum. Model terbaik dapat diperoleh dengan
menggunakan dua fungsi yang terdapat pada algoritma LARS, yaitu fraction dan
step. Mode fraction berguna untuk mencari nilai KTG minimum pada proses
validasi silang, sedangkan untuk mencari langkah ketika model terbaik bagi solusi
LASSO digunakan fungsi pada mode step.
|beta|
maksimum|beta|
Gambar 2 Plot objek yang dihasilkan oleh
algoritma LARS untuk menduga
koefisien LASSO
KTG validasi silang
KTG validasi silang
Pada Gambar 3 (b) yang dihasilkan dari salah satu gugus data di contoh
kasus 1, KTG minimum terjadi pada nilai s = 3 atau pada langkah ketiga pada
pemanggilan fungsi mode step. Dengan demikian, model LASSO yang dipilih
dari gugus data ini adalah model pada langkah ketiga. Proses ini terus dilakukan
untuk setiap gugus data. Karena setiap pemanggilan fungsi di setiap gugus data
menghasilkan nilai KTG minimum yang berbeda-beda dan bersifat subjektif,
maka diperlukan ketelian yang tinggi untuk memutuskan model terbaik.
Fraksi akhir nilai L1
(a)
Jumlah langkah
(b)
Gambar 3 Nilai KTG validasi silang mode fraction (a) dan mode step (b) pada
salah satu gugus data di contoh kasus 1
11
KTG validasi silang
KTG validasi silang
Dalam pemilihan model dan pendugaan parameter LASSO di contoh kasus
2, terdapat beberapa gugus data dimana tidak terpilih sama sekali peubah penjelas,
artin a semua βi disusutkan menjadi nol oleh LASSO. Hal ini diidentifikasi dari
grafik yang ditunjukkan pada mode step maupun mode fraction. Trend pada
grafik ang dihasilkan dari data dengan semua βi = 0 berbeda dengan trend yang
ditunjukkan pada Gambar 3. Salah satu contoh kasus tidak terpilihnya peubah
penjelas sama sekali ada pada gugus data ke-53. Grafik yang dihasilkan gugus
data ke-53 pada pemanggilan fungsi mode fraction dan mode step ditunjukkan
pada Gambar 4.
Fraksi akhir nilai L1
(a)
Jumlah langkah
(b)
Gambar 4 Nilai KTG validasi silang mode fraction (a) dan mode step
(b) gugus data ke-53 pada contoh kasus 2
Pada grafik di Gambar 4, KTG minimum terjadi pada langkah pertama.
Dengan demikian pada gugus data ini, penduga parameter LASSO yang didapat
adalah ̂ = (0, 0, 0, 0, 0, 0, 0, 0)T. Pada gugus data ini heteroskedastisitas
mempengaruhi LASSO dalam menduga parameter sehingga tidak terpilih model
yang baik. Peubah yang berpengaruh maupun yang tidak berpengaruh disusutkan
semua menjadi nol oleh LASSO. Selain gugus data ke-53, terdapat 28 gugus data
lain yang juga mengalami hal serupa.
Evaluasi dilakukan terhadap metode LASSO dengan menghitung ketepatan
LASSO dalam menyeleksi peubah penjelas yang berkoefisien regresi tidak
nol/berpengaruh dan berkoefisien regresi nol/tidak berpengaruh. Tabel 5
menunjukkan hasil evaluasi dari simulasi pada contoh kasus 1.
Tabel 5 mengungkap bahwa dalam kasus data regresi heteroskedastis
dengan ragam galat yang merupakan fungsi dari peubah penjelas berpengaruh
( ar ( i) = f(Xi); βi≠ ), heteroskedastisitas tidak mempengaruhi LASSO ketika
ukuran sampel kecil (n