Pemodelan Linier Sebaran Gamma dan Pareto Terampat dengan Regularisasi L1 pada Statistical Downscaling untuk Pendugaan Curah Hujan Bulanan Aplikasi Pada Pemodelan Curah Hujan di Kabupaten Indramayu

PEMODELAN LINIER SEBARAN GAMMA DAN PARETO
TERAMPAT DENGAN REGULARISASI L1 PADA
STATISTICAL DOWNSCALING UNTUK PENDUGAAN CURAH
HUJAN BULANAN
Aplikasi Pada Pemodelan Curah Hujan di Kabupaten Indramayu

AGUS MOHAMAD SOLEH

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI DISERTASI DAN SUMBER
INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa disertasi berjudul Pemodelan Linier
Sebaran Gamma dan Pareto Terampat dengan Regularisasi L1 pada Statistical
Downscaling untuk Pendugaan Curah Hujan Bulanan adalah benar karya saya
dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa
pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau
dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah

disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
disertasi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.

Bogor, September 2015
Agus Mohamad Soleh
NIM G161100021

RINGKASAN
AGUS MOHAMAD SOLEH. Pemodelan Linier Sebaran Gamma dan Pareto
Terampat dengan Regularisasi L1 pada Statistical Downscaling untuk Pendugaan
Curah Hujan Bulanan.
Dibimbing oleh AJI HAMIM WIGENA, ANIK
DJURAIDAH dan ASEP SAEFUDDIN.
Pemodelan Statistical Downscaling (SDS) merupakan suatu teknik dalam
klimatologi yang menggunakan pemodelan statistika untuk menganalisis hubungan
antara data iklim skala besar (global) dengan data iklim skala kecil (lokal).
Pemodelan SDS umumnya melibatkan kovariat skala besar terkondisi buruk
(ill-conditioned) (tidak bebas/korelasi tinggi). Teknik-teknik seperti pereduksian

dimensi, seleksi peubah, dan penyusutan koefisien (shrinkage) dapat digunakan
untuk mengatasinya. Teknik regularisasi L1 merupakan salah satu teknik yang
dikembangkan untuk menangani masalah kovariat terkondisi buruk oleh Tibshirani
(1996) dengan cara seleksi peubah dan penyusutan koefisien. Penelitian yang
dilakukan merupakan kajian tentang penggunaan dan pengembangan teknik
regularisasi L1 pada model linier untuk mendapatkan solusi bagi permasalahan
kovariat terkondisi buruk dalam pemodelan SDS. Dalam hal ini peubah kovariat
mengambil nilai dari luaran model GCM dari CMIP5 dan data observasi GPCP versi
2.2 pada grid domain 7 × 7 yang ditetapkan di atas wilayah Kabupaten Indramayu.
Pemodelan yang digunakan merupakan pemodelan linier berbasis sebaran, yaitu
respons diasumsikan berasal dari sebaran normal, sebaran Gamma dan sebaran
pareto terampat.
Penelitian dibagi ke dalam dua kelompok, yaitu kelompok kajian
pengembangan teknik regularisasi L1 untuk pemodelan linier sebaran Gamma dan
sebaran pareto terampat, dan kelompok kajian aplikasi pemodelan SDS untuk
pendugaan curah hujan bulanan menggunakan pemodelan linier. Pengembangan
teknik regularisasi L1 dilakukan dengan menggunakan teknik optimisasi umum
Nelder-Mead. Pada model linier terampat sebaran Gamma, nilai awal parameter
diduga melalui teknik iterative reweighted least square (IRWLS), sedangkan
pada model linier sebaran

pareto terampat nilai awal diduga menggunakan

6 var(y)

. Teknik optimisasi Nelder-Mead pada pemodelan
metode IRWLS dan
π
linier terampat sebaran Gamma berhasil mendapatkan penduga parameter yang
konvergen, tetapi pada pemodelan linier sebaran pareto terampat penduga parameter
tidak konvergen ke parameter sebenarnya dengan menggunakan data simulasi.
Simulasi dilakukan untuk membandingkan teknik regularisasi L1 dengan
analisis komponen utama dalam pendugaan respons. Tiga skenario digunakan
dalam simulasi, yaitu skenario berdasarkan data kovariat yang digunakan, nilai
koefisien β j dan sebaran respons. Dua skenario kovariat digunakan dalam kajian
yaitu data observasi GPCP versi 2.2 dan data luaran CMIP5. Skenario koefisien β j
diambil dari kombinasi (< 1, 0 dan > 1) dan β j seragam < 1. Skenario sebaran
respons yang digunakan adalah sebaran normal, Gamma dan pareto terampat

dengan 3 nilai parameter simpangan baku (σ) untuk sebaran normal dan 3 nilai
parameter bentuk/shape (ξ) untuk sebaran Gamma dan pareto terampat. Hasil

simulasi menunjukkan teknik regularisasi L1 memberikan hasil pendugaan yang
lebih baik atau relatif sama baiknya dibanding dengan analisis komponen utama.
Teknik lasso (regresi dengan regularisasi L1 ) pada aplikasi pemodelan SDS
memberikan hasil yang lebih baik dalam memprediksi curah hujan di 11 pos hujan
di Indramayu dan sekitarnya dibanding dengan metode regresi komponen utama.
Pada pendugaan curah hujan menggunakan model linier terampat sebaran Gamma,
penambahan peubah dummy bulan mempengaruhi pendugaan curah hujan secara
signifikan. Beberapa hasil menunjukkan nilai RMSE dari pendugaan model linier
terampat sebaran Gamma memberikan nilai yang lebih kecil dibanding dengan
pendugaan dari regresi komponen utama. Tetapi dalam pendugaan nilai ekstrim di
atas batas nilai pencilan, pemodelan linier terampat sebaran Gamma memberikan
nilai RMSE yang lebih kecil di banding regresi komponen utama. Pada kasus ini,
curah hujan ekstrim bulanan lebih baik diduga menggunakan nilai dugaan pada
quantil 0.90 dan 0.95.
Model linier sebaran pareto terampat memberikan nilai RMSE yang lebih
besar pada pendugaan rataan curah hujan bulanan di atas nilai ambang, dibanding
dengan model linier terampat sebaran Gamma atau metode regresi komponen
utama. Tetapi, pada pendugaan curah hujan bulanan di atas pencilan, model linier
sebaran pareto terampat memberikan hasil sama baiknya dibanding dua metode
lainnya dengan menggunakan pendugaan quantil 0.90 dan 0.95.

Kata kunci: regularisasi L1 , statistical downscaling, model linier terampat sebaran
Gamma, model linier sebaran pareto terampat, curah hujan ekstrim

SUMMARY
AGUS MOHAMAD SOLEH. Gamma and Generalized Pareto Distribution
Linear Modeling with L1 Regularization to Predict Montly Rainfall in Statistical
Downscaling. Supervised by AJI HAMIM WIGENA, ANIK DJURAIDAH and
ASEP SAEFUDDIN.
Statistical Downscaling (SDS) modeling is a technique in climatology that
uses statistical model to analyze the relationship between large-scale data (global)
and small-scale (local) data. SDS models might involve large-scale ill-conditioned
covariates (not independent/high correlation). Techniques such as dimensional
reduction, selection, and shrinkage could be use to solve this problems. L1
regularization is a technique for selection and shrinkage was proposed by Tibshirani
(1996). This research is about the development and the use of L1 regularization
technique on linear model to obtain a solution for ill-conditioned covariates problem
faced in SDS modeling. Covariates were taken from the output of CMIP5 and
the GPCP version 2.2 in the 7 × 7 gridded domain above Indramayu. Linear
modeling based on distribution was used in this research using normal, Gamma
and generalized pareto distribution.

This study consists of two parts, namely the development of L1 regularization
technique for linear modeling with Gamma and generalized pareto distribution, and
application of monthly rainfall prediction using SDS modeling. L1 regularization
technique development was done by using the general Nelder-Mead optimization
technique. Initial parameter values for the generalized linear model with Gamma
distribution estimated by iterative reweighted least squares (IRWLS), while
√ for the
6 var(y)

.
linear modeling with generalized pareto distribution used IRWLS and
π
The parameters estimated for generalized linear modeling with Gamma distribution
was convergent to the actual values, but for the linear modeling with generalized
pareto distribution did not converge using data of simulations.
Simulations were performed to compare prediction of responses between L1
regularization technique and principal component analysis. Three scenarios were
based on covariates, the coefficient of β j and distribution of responses scenarios.
Two covariates scenarios were used in this study, namely observational data of
GPCP version 2.2 and the outputs of CMIP5. The coefficient of β j scenarios were

taken from the combination of < 1; 0 and > 1 and a uniform of β j equal to < 1.
Normal, Gamma and generalized pareto distributions were used for distribution of
responses scenario with different parameters, namely 3 different standard deviation
(σ) for normal distribution and 3 different shape (ξ) parameters for Gamma and
generalized pareto distribution. The simulation showed that L1 regularization
technique provide better prediction or as good as principal component analysis.
On SDS modeling application, lasso technique (regression with L1
regularization) gave better monthly rainfall predictions compared to principal
component regression method on 11 post rain in Indramayu. Addition of dummy

variables (month) to predict monthly rainfall using generalized linear model with
Gamma distribution gave significant impact. Some results of generalized linear
model with Gamma distribution showed a smallest root mean square error (RMSE)
than principal component regression. However, all of models from generalized
linear model with Gamma distribution gave a smaller RMSE values for extreme
value prediction above outliers. In this case, quantile 0.90 and 0.95 were better for
prediction of extreme monthly rainfall.
Pareto distribution linear models gave RMSE values greater than the Gamma
distribution linear models or principal component regression on monthly rainfall
average prediction above a threshold. However, the prediction of monthly rainfall

above an outlier, the generalized pareto distribution linear models gave smallest
RMSE as good as Gamma distribution generalized linear models and principal
component regression using quantile 0.90 and 0.95.
Keywords: L1 regularization, statistical downscaling, generalized linear model
with Gamma distribution, generalized pareto distribution linear model, monthly
extreme rainfall

c Hak Cipta Milik IPB, Tahun 2015

Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya
tulis ini dalam bentuk apa pun tanpa izin IPB

PEMODELAN LINIER SEBARAN GAMMA DAN PARETO
TERAMPAT DENGAN REGULARISASI L1 PADA
STATISTICAL DOWNSCALING UNTUK PENDUGAAN CURAH

HUJAN BULANAN
Aplikasi Pada Pemodelan Curah Hujan di Kabupaten Indramayu

AGUS MOHAMAD SOLEH

Disertasi
sebagai salah satu syarat untuk memperoleh gelar
Doktor
pada
Program Studi Statistika

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2015

Penguji pada Ujian Tertutup:

Dr. Ir. Dodo Gunawan, DEA
Dr. Anang Kurnia, MSi


Penguji pada Sidang Promosi: Dr. Ir. Dodo Gunawan, DEA
Dr. Anang Kurnia, MSi

Judul Disertasi

:

Nama
NIM

:
:

Pemodelan Linier Sebaran Gamma dan Pareto Terampat
dengan Regularisasi L1 pada Statistical Downscaling untuk
Pendugaan Curah Hujan Bulanan. Aplikasi Pada Pemodelan
Curah Hujan di Kabupaten Indramayu
Agus Mohamad Soleh
G161100021


Disetujui oleh
Komisi Pembimbing

Dr Ir Aji Hamim Wigena, MSc
Ketua

Dr Ir Anik Djuraidah, MS
Anggota

Prof Dr Ir Asep Saefuddin, MSc
Anggota

Diketahui oleh
Ketua Program Studi Statistika

Dekan Sekolah Pascasarjana

Dr Ir I Made Sumertajaya, MSi

Dr Ir Dahrul Syah, MScAgr

Tanggal Ujian: 11 September 2015

Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan ke hadirat Allah SWT atas segala
karunia-Nya sehingga disertasi ini dapat diselesaikan dengan baik. Tema yang
dipilih dalam penelitian ini adalah pengembangan metode pemodelan linier, dengan
judul ”Pemodelan Linier Sebaran Gamma dan Pareto Terampat dengan Regularisasi
L1 pada Statistical Downscaling untuk Pendugaan Curah Hujan Bulanan. Aplikasi
Pada Pemodelan Curah Hujan di Kabupaten Indramayu”.
Terima kasih penulis ucapkan kepada Bapak Dr Ir Aji Hamim Wigena,
MSc, Ibu Dr Ir Anik Djuraidah, MS dan Bapak Prof Dr Ir Asep Saefuddin,
MSc selaku pembimbing, Dr Agus Salim (La Trobe University Australia) selaku
pendamping/mentor selama program Sandwich-like yang telah banyak memberi
bantuan dalam penelitian ini, Bapak Dr. Ir. Dodo Gunawan, DEA dari BMKG dan
Bapak Dr. Anang Kurnia, MSi selaku penguji luar komisi pembimbing yang banyak
memberikan masukan berharga untuk disertasi ini. Di samping itu, penghargaan
penulis sampaikan kepada Bapak Urip Haryoko dari BMKG yang membantu dalam
penyediaan data curah hujan di Kabupaten Indramayu, pak Hari Wijayanto selaku
ketua departemen yang memberikan izin untuk studi S3, Dian Kusumaningrum
& Utami Dyah Syafitri yang membantu dalam terjemahan bahasa Inggris, Bagus
Sartono & Prof. Noer Azam Achsani yang memberikan semangat dan informasi
berharga sebagai bekal hidup di luar negeri dalam program Sandwich-like, dan
Pak Heri yang banyak membantu dalam pengurusan administrasi. Terima kasih
juga penulis ucapkan kepada teman sejawat di Departemen Statistika IPB yang
telah banyak membantu dan mendorong penulis untuk menyelesaikan studi S3,
teman kuliah di S3: pak Setyono dan rekan-rekan mahasiswa pasca Program
Studi Statistika & Statistika Terapan IPB. Terakhir, ungkapan terima kasih juga
disampaikan kepada seluruh keluarga penulis: istri dan anak, kedua orang tua
penulis, ibu mertua, kakak & kakak ipar, keponakan-keponakan atas segala
dukungan, do’a dan kasih sayangnya.
Semoga karya ilmiah ini bermanfaat.
Bogor, September 2015
Agus Mohamad Soleh

DAFTAR ISI

DAFTAR TABEL

vii

DAFTAR GAMBAR

viii

DAFTAR LAMPIRAN

x

DAFTAR ISTILAH

xi

1 PENDAHULUAN
Latar Belakang
Road Map Penelitian
Rumusan Permasalahan
Tujuan Penelitian
Manfaat Penelitian
Ruang Lingkup Penelitian
Kebaruan/Novelty

1
1
3
5
6
6
7
8

2 REGRESI LINIER DENGAN REGULARISASI L1
Pendahuluan
Tinjauan Pustaka
Pendugaan Parameter dengan Metode Iterasi
Perbandingan Teknik Regularisasi L1 dengan Analisis Komponen Utama
Hasil dan Pembahasan
Simpulan

9
9
9
12
14
17
19

3 MODEL LINIER TERAMPAT SEBARAN GAMMA DENGAN
REGULARISASI L1
Pendahuluan
Model Linier Terampat dengan Respons Sebaran Gamma
Pendugaan Parameter
Perbandingan Teknik Regularisasi L1 dengan Analisis Komponen Utama
Hasil dan Pembahasan
Simpulan

21
21
21
22
23
25
28

4 MODEL LINIER SEBARAN PARETO TERAMPAT
Pendahuluan
Perbandingan Metode IRWLS dengan Metode Optimisasi Nelder-Mead
Simpulan dan Saran

29
29
30
32

5 APLIKASI MODEL LINIER PADA STATISTICAL DOWNSCALING
Pendahuluan
Model Prediksi Curah Hujan di Pos Hujan Indramayu

35
35
36

v

vi
Model Proyeksi Curah Hujan Ekstrim pada 3 Zona Musim (ZOM)
Indramayu
Simpulan

51
60

6 PEMBAHASAN UMUM
Perbandingan Model Linier untuk Pendugaan Respons dari Sebaran
Berbeda

63

7 SIMPULAN DAN SARAN
Simpulan
Saran

67
67
68

DAFTAR PUSTAKA

69

LAMPIRAN

73

63

DAFTAR TABEL

2.1

Proporsi keragaman kumulatif untuk luaran GCM CMIP5 dan data
observasi GPCP

Banyaknya parameter model yang diduga menggunakan metode
lasso di luar intersep
5.2 Nilai statistik RMSE dan RMSEP menggunakan validasi silang
10-fold untuk setiap penduga model menggunakan data observasi
model GPCP versi 2.2
5.3 Koefisien korelasi antara nilai respons dengan dugaan setiap teknik
5.4 Nilai RMSE untuk setiap model pendugaan
5.5 Koefisien korelasi antara nilai respons dengan dugaan model regresi
komponen utama, model linier terampat sebaran Gamma dengan
analisis komponen utama dan regularisasi L1
5.6 Banyaknya parameter model yang diduga menggunakan metode
model linier terampat sebaran Gamma dengan regularisasi L1
termasuk peubah dummy di luar intersep
5.7 Nilai RMSE untuk setiap model pendugaan curah hujan ekstrim
menggunakan metode regresi komponen utama
5.8 Nilai RMSE untuk setiap model pendugaan curah hujan ekstrim
menggunakan metode model linier terampat sebaran Gamma
dengan analisis komponen utama
5.9 Nilai RMSE untuk setiap model pendugaan curah hujan ekstrim)
menggunakan metode model linier terampat sebaran Gamma
dengan regularisasi L1
5.10 Nilai RMSE pendugaan model linier untuk masing-masing ZOM
5.11 Koefisien korelasi antara respons dengan nilai dugaan pada setiap
model linier untuk masing-masing ZOM
5.12 Nilai RMSE untuk pendugaan model linier curah hujan di atas
pencilan setiap ZOM menggunakan model linier sebaran pareto
terampat, regresi komponen utama (RKU), dan model linier
terampat sebaran Gamma

16

5.1

vii

45

46
46
48

48

49
50

51

51
59
59

60

DAFTAR GAMBAR

1.1

Roadmap penelitian pemodelan SDS yang diusulkan dengan
literatur terbaru
Kerangka penelitian yang dilakukan

4
8

2.2

Grafik screeplot hasil analisis komponen utama luaran model
CMIP5 dan data observasi GPCP versi 2.2
Hasil RMSE dengan kovariat data observasi GPCP

15
18

3.1
3.2

Hasil RMSE dengan kovariat data observasi GPCP
Hasil RMSE dengan kovariat data luaran CMIP5

26
27

4.1

Dugaan paramater β pada model linier sebaran pareto terampat
menggunakan metode IRWLS pada paket VGAM dan metode
optimisasi Nelder-Mead pada paket ismev

32

1.2
2.1

5.1
5.2

5.3
5.4
5.5
5.6
5.7
5.8

5.9
5.10
5.11
5.12
5.13
5.14
5.15
5.16

Pemodelan Statistical Downscaling (SDS)
Peta pos hujan di Kabupaten Indramayu dan sekitarnya yang diteliti
(tanda yang sama menunjukkan pos-pos hujan dalam satu wilayah
ZOM)
Pola sebaran curah hujan bulanan 3 pos hujan pada wilayah ZOM 77
Pola sebaran curah hujan bulanan 4 pos hujan pada wilayah ZOM 78
Pola sebaran curah hujan bulanan 4 pos hujan pada wilayah ZOM 79
Domain grid kovariat yang digunakan dalam penelitian
Karakteristik spasial dua komponen utama kovariat GPCP versi 2.2
Grafik plot C p Mallows dengan banyaknya parameter yang diduga
untuk pos hujan di wilayah ZOM77 dengan kovariat data observasi
GPCP
Boxplot curah hujan bulanan untuk setiap Zona Musim (ZOM) di
Indramayu dan sekitarnya
Grafik mean residual life plot untuk setiap ZOM
Grafik nilai ambang dan penduga parameter sebaran pareto
terampat untuk ZOM 77
Grafik nilai ambang dan penduga parameter sebaran GP untuk
ZOM 78
Grafik nilai ambang dan penduga parameter sebaran pareto
terampat untuk ZOM 79
Grafik plot verifikasi penduga parameter sebaran pareto terampat
untuk ZOM 77
Grafik plot verifikasi penduga parameter sebaran pareto terampat
untuk ZOM 78
Grafik plot verifikasi penduga parameter sebaran pareto terampat
untuk ZOM 79
viii

36

37
38
38
39
40
40

44
53
55
56
56
57
58
58
59

ix
6.1

Perbandingan RMSE model dengan respons sebaran normal pada
kovariat data observasi GPCP

65

DAFTAR LAMPIRAN

1
2
3
4
5

6

7
8

9
10
11
12
13
14

Implementasi algoritma metode iterasi regresi linier dengan
regularisasi L1 dalam perangkat lunak komputasi statistik R
Hasil RMSE dengan kovariat data luaran CMIP5
Hasil RMSEP dengan kovariat data luaran GPCP
Hasil RMSEP dengan kovariat data luaran CMIP5
Implementasi algoritma model linier terampat sebaran Gamma
dengan regularisasi L1 dalam perangkat lunak komputasi
statistik R
Implementasi algoritma model linier sebaran pareto terampat
dengan regularisasi L1 dalam perangkat lunak komputasi
statistik R
Karakteristik spasial enam komponen utama (KU-3 – KU-8)
kovariat GPCP versi 2.2
Grafik plot C p Mallows dengan banyaknya parameter yang
diduga untuk pos hujan di wilayah ZOM 78 dan ZOM 79
dengan kovariat data observasi GPCP
Karakteristik spasial tiga komponen utama (KU) kovariat
CMIP5
Perbandingan RMSE model dengan respons sebaran normal
pada kovariat data luaran CMIP5
Perbandingan RMSE model dengan respons sebaran Gamma
pada kovariat data observasi GPCP
Perbandingan RMSE model dengan respons sebaran Gamma
pada kovariat data luaran CMIP5
Perbandingan RMSE model dengan respons sebaran pareto
terampat pada kovariat data observasi GPCP
Perbandingan RMSE model dengan respons sebaran pareto
terampat pada kovariat data luaran CMIP5

x

75
76
77
78
79

81

82
83

84
85
86
87
88
89

DAFTAR ISTILAH
AKU

:

GCM
GLM

:
:

ill-conditioned

:

IRWLS

:

Kovariat

:

Lasso

:

MKT
Model linier terampat
regularisasi L1

:
:
:

RKU

:

RMSE

:

RMSEP

:

SDS
:
sebaran pareto terampat :
sebaran GP
:
shrinkage
:

Analisis
Komponen
Utama
(Principal
Component Analysis)
General Circulation Models
generalized linear model/model linier terampat,
suatu rampatan model-model linier dengan
respons dari keluarga sebaran eksponensial
kovariat terkondisi buruk akibat adanya kolinier
atau korelasi tinggi
Iteratively Re-Weighted Least Square, suatu
algoritma untuk mendapatkan solusi penduga
koefisien β̂ p pada model linier
Peubah
bebas/peubah
penjelas/peubah
prediktor
least absolute shrinkage and selection
operator/ regresi dengan regularisasi L1
metode kuadrat terkecil/(least square method)
lihat generalized linear model
pemberian kendala dari norm L1 yaitu
p
∑ j=1 |β j | ≤ t, t ≥ 0 pada fungsi tujuan
pemodelan linier
Regresi Komponen Utama/Regresi linier ganda
dengan kovariat skor komponen utama
Root Mean Square Error, rataan dari kuadrat
simpangan nilai respons dengan nilai dugaan
pada data yang digunakan untuk menduga
model
Root Mean Square Error Prediction, rataan dari
kuadrat simpangan nilai respons dengan nilai
dugaan pada data validasi
Statistical Downscaling
generalized pareto distribution
sebaran pareto terampat
Penyusutan penduga koefisien parameter dalam
model linier ke arah 0

xi

xii

1 PENDAHULUAN
Latar Belakang
Pemodelan Statistical Downscaling (SDS) merupakan suatu teknik dalam
klimatologi yang menggunakan pemodelan statistika untuk menganalisis hubungan
antara data skala besar (global) dengan data skala kecil (lokal) (Benestad et al.
2008). Metode ini relatif baru walaupun perkembangan penerapan pendugaan
menggunakan statistika dalam klimatologi sudah dimulai sejak Klein tahun 1948
(dalam Benestad et al. (2008)). Penggunaan istilah SDS merujuk pada keberadaan
model iklim global yang direpresentasikan dengan luaran General Circulation
Model (GCM) sebagai representasi data skala besar untuk pendugaan kasar iklim
lokal seperti curah hujan pada suatu wilayah yang merepresentasi data skala kecil.
GCM merupakan model numerik yang menghasilkan sejumlah data dari
berbagai parameter iklim seperti presipitasi, temperatur, dan kelembaban untuk
keperluan pendugaan iklim. Model GCM merepresentasikan cara kemungkinan
terbaik mensimulasi kondisi iklim skala-besar dan memproyeksikan perubahan
iklim ke depan akibat pengaruh kekuatan (forcing) yang diketahui seperti pengaruh
gas rumah kaca. Kemampuan untuk menduga skala kecil menggunakan GCM
sangat terbatas karena resolusi spasial dalam GCM umumnya kasar (± 300 km
× 300 km).
Pengembangan model prediksi curah hujan menggunakan model SDS
berbasis GCM sudah banyak dilakukan di IPB seperti dalam Wigena (2006)
dan Sutikno (2008). Kajian lain menggunakan SDS di antaranya menggunakan
arsitektur jaringan syaraf (neural network) (Buono et al. 2010), regresi kontinum
(continuum regression) dengan pra-pemrosesan PCA (Sutikno et al. 2010),
Empirical Orthogonal Function/Principal Component (EOF/PC) dengan regresi
linier; Maximum Covariance Analysis (MCA); dan analisis korelasi kanonik (CCA)
(Vimont et al. 2010), dan teknik partial least square (PLS) sebagai alternatif dalam
pemodelan SDS (Wigena 2011).
Pemodelan SDS menggunakan luaran GCM melibatkan banyak peubah yang
tidak bebas (korelasi tinggi/data terkondisi buruk (ill-conditioned)). Teknik-teknik
seperti pereduksian dimensi, seleksi peubah, dan penyusutan koefisien (shrinkage)
dapat digunakan dalam pendugaan parameter untuk mengatasinya. Analisis
komponen utama (principal component analysis) merupakan metode yang umum
digunakan di dalam pemodelan pada data dengan kondisi buruk ini. Hammami et
al. (2012) dan Gao et al. (2014) menggunakan teknik baru, yaitu menggunakan
metode lasso (least absolute shrinkage and selection operator) untuk pemodelan
SDS yang diperbandingkan dengan metode regresi bertatar (stepwise regression).
Metode lasso dikembangkan oleh Tibshirani (1996), digunakan dalam seleksi
peubah dan menyusutkan koefisien parameter dalam regresi linier, yaitu dengan cara
memberikan penalti yang disebut regularisasi L1 . Regularisasi L1 adalah pemberian
p
kendala ∑ j=1 |β j | ≤ t, t ≥ 0 pada fungsi tujuan pemodelan seperti meminimumkan
jumlah kuadrat sisaan pada kuadrat terkecil. Penambahan regularisasi L1 ini
memberikan dua keuntungan (Hastie et al. 2008), yaitu: seleksi peubah seperti

2
pada metode regresi bertatar dan penduga parameter yang stabil seperti pada regresi
gulud (ridge regression). Selain itu, metode lasso masih dapat digunakan pada kasus
n ≪ p, dalam hal ini n adalah banyaknya observasi dan p adalah banyaknya kovariat,
yang tidak dapat dilakukan apabila menggunakan metode regresi bertatar ataupun
regresi gulud.
Pola curah hujan di Indonesia memiliki karakteristik berbeda untuk beberapa
wilayah yang ditentukan oleh banyak faktor, seperti letak geografis yang berada di
antara dua benua dan dua samudera, kejadian ENSO (El-Niño Southern Oscilation),
dan kejadian Indian Ocean Dipole (IOD) (As-syakur dan Prasetia 2010). Aldrian
dan Susanto (2003) mengidentifikasi tiga wilayah curah hujan dominan (A, B dan
C) di Indonesia yang memiliki karakteristik berbeda. Wilayah A meliputi bagian
selatan Sumatera sampai kepulauan Timor, bagian selatan Kalimantan, Sulawesi
bagian selatan dan sebagian Papua, Wilayah B meliputi bagian utara Sumatera dan
bagian utara Kalimantan, dan Wilayah C meliputi Maluku dan Sulawesi bagian
utara.
Pola curah hujan di Kabupaten Indramayu termasuk ke dalam pola curah
wilayah A (seperti didefinisikan oleh Aldrian dan Susanto (2003)). Pemodelan
SDS untuk pendugaan curah hujan di wilayah A yang dilakukan oleh Vimont et
al. 2010, pada umumnya sudah cukup baik dalam menduga curah hujan periode
Mei-Desember dan tidak baik pada periode Januari-April. Vimont et al. 2010
menggunakan tiga metode dalam pendugaan, yaitu regresi dengan Empirical
Orthogonal Function/Principal Component (EOF/PC), Analisis Korelasi Kanonik
(CCA) dan Analisis Peragam Maksimum (MCA). Pada periode bulan Januari-April
merupakan puncak tertinggi terjadinya curah hujan sehingga terdapat kemungkinan
terjadinya curah hujan ekstrim. Oleh karena itu pendekatan pemodelan SDS
menggunakan pemodelan respons sebaran nilai ekstrim diduga akan memberikan
pendugaan yang lebih baik.
Curah hujan ekstrim sebagai respons pada pemodelan tidak dapat didekati
dengan pemodelan sebaran normal. Stephenson et al.
(1999) melakukan
pendugaan curah hujan ekstrim di India pada hari-basah (wet-day) dengan
menggunakan sebaran Gamma dan Weibull yang memberikan nilai dugaan yang
lebih baik. Menurut Das (1955) (di dalam Krishnamoorthy 2006), sebaran Gamma
dipostulatkan dalam aplikasi curah hujan (presipitasi) dikarenakan presipitasi
terjadi hanya ketika partikel air dapat terbentuk di sekitar debu dengan massa yang
cukup, dan waktu tunggu untuk terjadinya akumulasi debu mirip dengan aspek
waktu tunggu sebaran Gamma secara implisit. Oleh karena itu penggunaan model
respons menggunakan sebaran Gamma diperkirakan akan mendapatkan pendugaan
yang lebih baik untuk menduga curah hujan ekstrim.
Beberapa kajian mengenai curah hujan ekstrim menggunakan pemodelan
SDS sudah dilakukan seperti menggunakan metode Artificial Neural Network
(Olsson et al. 2001, Begueria dan Vicente-Serrano 2006), regresi kuantil
tersensor (Friederichs dan Hense 2007), analisis korelasi kanonik (Busuioc et
al. 2008), dan teori nilai ekstrim dengan menggunakan suatu nilai di atas
ambang (Peak Over Thresshold/POT) untuk pemodelan sebaran pareto terampat
(Generalized Pareto Distribution/GPD) serta Blok Maksima untuk pemodelan
teori nilai ekstrim terampat (Generalized Extreme Value/GEV) (Friederichs 2010,
Mannshardt-Shamseldin et al. 2010, Acero et al. 2010, Tryhorn dan DeGaetanoa
2011). Di Indonesia, Mondiana (2012) menduga model curah hujan ekstrim pada

3
salah satu pos hujan di Kabupaten Indramayu menggunakan regresi kuantil.
Aplikasi pemodelan teori nilai ekstrim dalam pemodelan SDS saat ini
adalah dengan cara memodelkan periode taraf nilai return respons dengan
masing-masing kovariat dalam sebaran GEV atau sebaran GP. Periode taraf nilai
return yang digunakan berdasarkan pada nilai persentil tertentu yang dimodelkan
dengan menggunakan metode regresi linier biasa. Yee dan Stephenson (2007)
mengembangkan metode pemodelan linier teori nilai ekstrim (sebaran GEV
dan sebaran GP) dengan kovariat yang diimplementasikan dalam metode Vector
Generalized Linear and Aditive Models (VGLM/VGAM). Aplikasi pemodelan
linier teori nilai ekstrim untuk pemodelan SDS menggunakan VGLM umumnya
terkendala dalam kovariat yang tidak saling bebas, sama seperti pemodelan
menggunakan sebaran Gamma. Permasalahan ini dapat ditangani menggunakan
teknik pereduksian dimensi seperti analisis komponen utama (AKU) untuk
mendapatkan peubah yang saling bebas. Alternatif lain adalah dengan memberikan
regularisasi L1 pada fungsi tujuan pendugaan parameter modelnya.
Penelitian ini mengembangkan pemodelan linier dengan sebaran Gamma
dan Pareto Terampat menggunakan regularisasi L1 dan menerapkannya dalam
pemodelan SDS untuk curah hujan terutama curah hujan ekstrim di Indonesia.
Pemodelan linier dengan respons sebaran Gamma termasuk ke dalam model
linier terampat (Generalized Linear Model/GLM). Pengembangan regularisasi L1
dalam pemodelan GLM untuk respons diasumsikan sebaran Binom dan Poisson
telah dilakukan oleh Park dan Hastie (2007) dan kemudian Friedman et al.
(2010) mengusulkan metode Coordinate Descent pada kasus yang sama di dalam
pendugaannya. Secara umum untuk mendapatkan solusi dari penerapan regularisasi
L1 adalah dengan menggunakan metode optimisasi yang merupakan bagian dari
optimisasi convex (Tibshirani 1996, Boyd dan Vandenberghe 2004).
Road Map Penelitian
Penelitian ini berdasarkan beberapa penelitian sebelumnya dan kepustakaan
yang berkaitan dengan pemodelan SDS seperti telah disampaikan dalam
pendahuluan. Road Map pemodelan SDS dan kajian yang diusulkan untuk
pemodelan SDS dengan sebaran non-normal disajikan pada Gambar 1.1. Terdapat
dua permasalahan dalam pemodelan SDS, yaitu: peubah kovariat yang tidak
saling bebas (multikolinier) dan pendugaan respons nilai ekstrim/non-ekstrim.
Metode Projection Pursuit Regression, regresi komponen utama, regresi continuum,
jaringan syaraf tiruan, MCA & CCA, PLS, Lasso dan regresi bertatar telah
digunakan dalam pemodelan SDS untuk menduga respons non-ekstrim, sedangkan
pemodelan dengan pra pemrosesan komponen utama untuk model sebaran GEV
dan GP, regresi kuantil, jaringan syaraf tiruan serta CCA telah digunakan untuk
pendugaan curah hujan ekstrim. Penelitian yang diusulkan adalah pengembangan
teknik pemodelan linier menggunakan model linier sebaran pareto terampat
dengan regularisasi L1 untuk menduga curah hujan ekstrim dan non-ekstrim serta
pemodelan linier dengan sebaran pareto terampat dengan regularisasi L1 untuk
menduga curah hujan ekstrim.

4

Gambar 1.1

Roadmap penelitian pemodelan SDS yang diusulkan dengan literatur
terbaru

5
Rumusan Permasalahan
Kajian tentang pendugaan model curah hujan ekstrim menggunakan teknik
pemodelan SDS di Indonesia belum banyak dilakukan. Mondiana (2012)
menggunakan regresi kuantil dalam pemodelan SDS untuk menduga curah hujan
ekstrim di salah satu pos hujan Kabupaten Indramayu. Penggunaan regresi kuantil
untuk eksplorasi pola curah hujan di Kabupaten Indramayu juga sebelumnya
telah dilakukan oleh Djuraidah dan Wigena (2011). Teknik pemodelan SDS
menggunakan pemodelan sebaran pareto terampat dalam Friederichs (2010) dan
Acero et al. (2010) memodelkan periode taraf nilai return sebaran pareto terampat
(taraf yang diperkirakan akan melebihi suatu nilai tertentu pada suatu periode)
dari respons dengan periode taraf nilai return sebaran pareto terampat dari
masing-masing kovariat menggunakan regresi linier ganda.
Pemodelan SDS menggunakan peubah kovariat dari data skala besar seperti
luaran GCM. Penggunaan luaran GCM yang memiliki keterkaitan secara spasial
dan temporal umumnya terkendala dalam mendapatkan peubah yang saling bebas
seperti disyaratkan pada pemodelan linier. Empat teknik telah dikembangkan untuk
mengatasi permasalahan ini, yaitu:
1. Teknik seleksi peubah: seperti subset terbaik dan regresi bertatar.
2. Teknik penyusutan (shrinkage): seperti regresi gulud/regresi dengan
regularisasi L2 .
3. Teknik pereduksian dimensi: seperti regresi komponen utama, dan PLS
(partial least square).
4. Teknik seleksi dan penyusutan: seperti lasso/regresi dengan regularisasi L1 .
Teknik seleksi memiliki keunggulan dalam pemilihan kovariat yang
mempengaruhi respons, tetapi kelemahannya adalah model yang diduga tidak stabil.
Penambahan atau pengurangan dari observasi dapat mengakibatkan model penduga
yang berbeda atau kovariat yang terseleksi berbeda. Sebaliknya, teknik penyusutan
memiliki keunggulan dalam kestabilan penduga model, tetapi tidak dapat secara
otomatis menyeleksi kovariat yang mempengaruhi respons. Keunggulan teknik
pereduksian dimensi adalah mempertahankan semua peubah kovariat masuk ke
dalam model (menganggap semua kovariat penting). Lasso mempertahankan
keunggulan-keunggulan dari teknik seleksi dan penyusutan, yaitu dapat melakukan
seleksi peubah yang mempengaruhi respons sekaligus kestabilan dalam menduga
model.
Metode pemodelan linier dengan respons sebaran Gamma dan sebaran pareto
terampat menggunakan regularisasi L1 sampai saat ini belum memiliki kajian
pengembangannya. Pemodelan linier dari sebaran Gamma dan pareto terampat
diduga akan memberikan pendugaan yang lebih baik pada kasus pemodelan SDS
untuk curah hujan ekstrim. Penambahan regularisasi L1 pada pemodelan linier
sebaran Gamma diduga akan membuat pendugaan parameter menjadi stabil dan
konsisten seperti pada penambahan regularisasi L1 di regresi linier (Tibshirani 1996,
Hastie et al. 2008, Soleh dan Aunuddin 2013).
Belum semua metode pemodelan linier dikembangkan dengan menggunakan
teknik regularisasi L1 , seperti model linier terampat sebaran Gamma dan
model linier sebaran pareto terampat. Kedua pemodelan linier ini umumnya
digunakan untuk memodelkan respons yang memiliki sebaran dengan ekor panjang
(menjulur/tidak simetrik). Salah satu kejadian peubah acak yang memiliki sebaran

6
dengan ekor panjang (menjulur) adalah sebaran curah hujan pada bulan tertentu
yang menjadi topik dalam penelitian ini.
Pengembangan teknik regularisasi L1 untuk model linier terampat sebaran
Gamma dan sebaran pareto terampat tidak dapat dilakukan secara deduktif,
tetapi menggunakan teknik optimisasi. Teknik optimisasi yang lebih umum
adalah metode optimisasi Nelder-Mead yang tidak memerlukan fungsi diferensial
dari fungsi tujuannya. Kendala dalam metode optimisasi Nelder-Mead adalah
penentuan nilai awal parameter yang akan diduga. Dalam hal ini pemilihan nilai
awal parameter yang tidak tepat akan menyebabkan fungsi tujuan konvergen ke
maksimum/minimum lokal. Oleh karena itu, penetapan nilai awal yang tepat sangat
diperlukan dalam metode optimisasi ini. Pada penelitian ini nilai awal diusulkan
dari metode yang menjamin nilai fungsi tujuan pemodelan tanpa regularisasi L1
mencapai maksimum. Dalam pemodelan linier terampat (seperti model untuk
respons sebaran Gamma), metode IRWLS (Iteratively Re-Weighted Least Square)
menjamin fungsi tujuan dapat dicapai nilai maksimum globalnya apabila konvergen,
sedangkan untuk model linier sebaran pareto terampat terdapat dua metode yang
digunakan untuk mendapatkan
√ fungsi tujuan maksimum, yaitu metode IRWLS (Yee
6 var(y)

(Coles 2001).
dan Stephenson 2007) dan
π
Hasil pengembangan teknik regularisasi L1 untuk model linier terampat
sebaran Gamma dan model linier sebaran pareto terampat kemudian diaplikasikan
untuk menduga curah hujan bulanan. Curah hujan bulanan diduga oleh nilai tengah
sebaran dari parameter-parameter sebaran yang diduga oleh model, sedangkan
curah hujan ekstrim bulanan diduga menggunakan nilai quantil 0.75, 0.90 dan 0.95
dari parameter-parameter sebaran yang diduga oleh model.
Tujuan Penelitian

Tujuan yang ingin dicapai dalam penelitian ini adalah pengembangan teknik
Regularisasi L1 dalam pemodelan linier dengan respons diasumsikan dari sebaran
Gamma dan pareto terampat, yang kemudian diaplikasikan pada pemodelan untuk
menduga curah hujan bulanan dan curah hujan ekstrim bulanan di beberapa pos
hujan dan Zona Musim (ZOM) Kabupaten Indramayu dan sekitarnya. Secara rinci
tujuan penelitian ini adalah:
1. Mengkaji pendugaan curah hujan dengan model regresi regularisasi L1
(lasso).
2. Mengembangkan teknik regularisasi L1 untuk model linier terampat sebaran
Gamma dan mengaplikasikan pada pendugaan model curah hujan bulanan
dan curah hujan ekstrim.
3. Mengembangkan teknik regularisasi L1 untuk model linier sebaran pareto
terampat dan mengaplikasikan pada pendugaan model curah hujan ekstrim
bulanan.
Manfaat Penelitian
Penelitian yang dilakukan memberikan manfaat dalam dua bidang keilmuan,
yaitu pada bidang keilmuan statistika dan bidang klimatologi sebagai berikut:

7
1. Keilmuan Statistika:
• Memperkaya kajian teknik regularisasi L1 dalam pendugaan model
regresi linier dengan mengembangkan teknik secara iteratif.
• Mengembangkan teknik regularisasi L1 untuk model linier terampat
sebaran Gamma dan model linier sebaran pareto terampat.
• Kajian perbandingan hasil dugaan menggunakan teknik regularisasi L1
dengan analisis komponen utama pada kasus data terkondisi buruk pada
respons sebaran normal, sebaran Gamma dan sebaran pareto terampat.
• Menambah road map teknik pemodelan SDS dengan menggunakan
teknik regularisasi L1 .
2. Klimatologi:
• Memberikan kajian pendugaan terhadap curah hujan dan curah hujan
ekstrim bulanan dengan pemodelan SDS melalui pemodelan linier

Ruang Lingkup Penelitian
Penelitian dikelompokkan ke dalam dua kelompok, yaitu kelompok kajian
pengembangan teknik regularisasi L1 untuk pemodelan linier sebaran Gamma dan
sebaran pareto terampat, dan kelompok kajian aplikasi pemodelan SDS untuk
pendugaan curah hujan bulanan menggunakan pemodelan linier. Pengembangan
teknik regularisasi L1 dilakukan dengan menggunakan teknik optimisasi umum
Nelder-Mead dengan nilai awal parameter yang diduga melalui pendugaan
metode

6 var(y)

untuk
IRWLS untuk sebaran Gamma dan pemilihan metode IRWLS atau
π
sebaran pareto terampat.
Pada aplikasi hasil pengembangan teknik pemodelan, penelitian dibagi
menjadi tiga bagian kajian yang saling berkaitan (Gambar 1.2).
Kajian
yang dilakukan adalah mengkaji teknik regularisasi L1 dalam pemodelan linier
dibandingkan dengan teknik analisis komponen utama dalam menduga curah hujan
bulanan. Pada kajian pertama, curah hujan dimodelkan menggunakan pendugaan
model linier yang mengasumsikan sebaran respons berasal dari sebaran normal.
Kajian kedua menggunakan pemodelan linier terampat dengan respons sebaran
Gamma untuk menduga curah hujan normal dan curah hujan ekstrim bulanan.
Terakhir, bagian ketiga, melakukan aplikasi pemodelan sebaran pareto terampat
untuk memodelkan curah hujan pada suatu nilai ekstrim.
Data yang digunakan pada penelitian ini adalah data riil, yaitu data curah
hujan bulanan sebagai respons dan data skala besar dari luaran GCM atau data
observasi dalam bentuk grid sebagai kovariat. Kebaikan teknik yang dibandingkan
ditentukan oleh nilai Root Mean Square Error (RMSE) terkecil.
Kajian pengembangan pemodelan linier dengan regularisasi L1 untuk
pemodelan SDS dilaksanakan di Departemen Statistika Institut Pertanian Bogor.
Hasil pengembangan diaplikasikan ke dalam perangkat lunak komputasi statistik R
dan diaplikasikan untuk memodelkan curah hujan bulanan dan curah hujan ekstrim
bulanan di 11 pos hujan yang termasuk dalam tiga Zona Musim (ZOM 77, 78
dan 79) di Kabupaten Indramayu dan sekitarnya. Data curah hujan 11 pos hujan

8
Indramayu dan sekitarnya yang digunakan untuk pemodelan diambil dari periode
tahun 1981 - 2014.

Gambar 1.2

Kerangka penelitian yang dilakukan

Kebaruan/Novelty
Penelitian ini dengan ”Pemodelan Linier Sebaran Gamma dan Pareto
Terampat dengan Regularisasi L1 pada Statistical Downscaling untuk Pendugaan
Curah Hujan Bulanan” memiliki kebaruan sebagai berikut:
1. Kajian teknik regularisasi L1 dalam pemodelan SDS merupakan suatu
kebaruan di Indonesia.
Saat penelitian mulai di awal tahun 2012,
penelusuran literatur pemodelan SDS menggunakan teknik regularisasi L1
belum diperoleh dalam jurnal-jurnal internasional. Saat ini baru ada dua
literatur yang menggunakan teknik ini, yaitu oleh Hammami et al. (2012)
dan Gao et al. (2014). Terdapat perbedaan metode yang dibandingkan, dalam
hal ini Hammami et al. (2012) dan Gao et al. (2014) membandingkan teknik
regularisasi L1 dengan metode regresi bertatar (stepwise), sedangkan dalam
penelitian ini dibandingkan dengan teknik analisis komponen utama.
2. Pengembangan metode pemodelan linier terampat sebaran Gamma dan
pemodelan linier sebaran pareto terampat dengan teknik regularisasi L1
sampai saat ini belum ada kajiannya sehingga merupakan suatu kebaruan di
bidang statistik. Demikian juga dengan aplikasinya pada pemodelan SDS
merupakan suatu kebaruan di bidang klimatologi.

2 REGRESI LINIER DENGAN REGULARISASI L1
Pendahuluan
Seleksi peubah merupakan isu penting dalam regresi terutama ketika jumlah
kovariat sangat besar dan tidak saling bebas. Tibshirani (1996) mengusulkan
teknik lasso (least absolute shrinkage and selection operator), sebuah metode baru
yang saat ini populer untuk seleksi peubah dan penyusutan (shrinkage) koefisien
penduga parameter. Lasso menambahkan penalti L1 (disebut juga regularisasi
L1 ) terhadap fungsi tujuan pendugaan model regresi yang menghasilkan dua
keuntungan: seleksi dan penyusutan. Kegunaan dari penyusutan adalah untuk
mencegah timbulnya overfit akibat terjadi kolinieritas dari kovariat (Hastie et al.
2008). Pendugaan parameter pada teknik lasso tidak dapat dilakukan dalam
bentuk formula tertutup, tetapi menggunakan optimisasi convex. Tibshirani (1996)
menggunakan pemrograman kuadratik, salah satu metode dalam optimisasi convex
untuk mendapatkan solusi dari lasso dan Efron et al. (2004) mengembangkan
metode LAR (Least Angle Regression) yang menghitung jalur (path) koefisien
lebih efisien. Bab ini memberikan kajian literatur metode lasso (regresi linier
dengan regularisasi L1 ) dan melakukan simulasi untuk menentukan metode terbaik
dibandingkan dengan metode regresi komponen utama pada data kovariat yang
terkondisi buruk.
Metode regresi komponen utama merupakan salah satu metode yang
sering digunakan dalam pemodelan linier dengan kovariat terkondisi buruk.
Tahap pertama pada metode regresi komponen utama adalah melakukan analisis
komponen utama terhadap peubah-peubah kovariat untuk mendapatkan komponen
utama/peubah laten yang ortogonal. Tahap kedua adalah memodelkan antara
respons dengan skor komponen utama sebagai peubah kovariat. Banyaknya
komponen utama yang digunakan dalam pemodelan ditentukan oleh grafik scree
plot, proporsi keragaman, dan nilai akar ciri.

Tinjauan Pustaka
Teknik lasso (least absolute shrinkage and selection operator) yang
bertujuan mengatasi masalah dalam keakuratan pendugaan dan interpretasi dengan
mempertahankan keuntungan-keuntungan metode regresi bertatar (stepwise) dan
regresi gulud (ridge) dikembangkan oleh Tibshirani (1996). Pada regresi linier
ganda, teknik lasso meminimumkan jumlah kuadrat sisaan dengan memberikan
penalti L1 pada koefisien parameternya. Misalkan terdapat vektor input XT =
(x1 , x2 , . . . , xp ) digunakan untuk memprediksi luaran nilai Y yang berupa bilangan
riil. Model regresi linier memiliki bentuk:
p

f (X) = β0 + ∑ xj βj
j=1

(2.1)

10
Untuk menduga β = (β0 , β1 , . . . , βp )T , metode kuadrat terkecil meminimumkan
jumlah kuadrat sisaan (Hastie et al. 2008), yaitu dengan meminimumkan
persamaan:
N

p

N

JKS(β) = ∑ (yi − f (xi ))2 = ∑ yi − β0 − ∑ xi j β j
i=1

j=1

i=1

!2

(2.2)

yang dapat ditulis dalam catatan matriks, dengan X berukuran N × (p + 1) dan y
adalah vektor-N, sebagai :
JKS(β) = (yy − Xβ)T (yy − Xβ).

(2.3)

JKS(β) minimum didapatkan dengan cara mendiferensialkan JKS(β) terhadap β
secara kalkulus, yang menghasilkan persamaan dalam bentuk:
XT y = XT Xβ

(2.4)

yang disebut sebagai persamaan normal.
Jika XT X adalah matriks berpangkat penuh, maka dugaan β akan
menghasilkan solusi unik, yaitu:
β̂ = XT X

−1

XT y .

(2.5)

Apabila XT X tidak berpangkat penuh atau mendekati singular, maka β̂
yang diperoleh menjadi tidak stabil. Regresi gulud diperkenalkan oleh Hoerl dan
Kennard (1970) (dalam Draper dan Smith (1998)) diusulkan sebagai salah satu
metode untuk menangani ketidakstabilan penduga kuadrat terkecil ini. Regresi
gulud memberikan penalti koefisien regresi dalam norm L2 atau secara spesifik
menduga β dengan meminimumkan JKS(β) dengan kendala:
p

∑ β2j ≤ t,

j=1

t ≥ 0.

(2.6)

Masalah regresi gulud ini dapat ditulis dengan cara lain dalam bentuk
persamaan lagrange yaitu memininumkan jumlah kuadrat sisaan terkendala:
JKS(β, λ) = (yy − Xβ)T (yy − Xβ) + λkβk22

λ ≥ 0.

(2.7)

Solusi regresi gulud didapat dengan cara yang sama seperti pada metode kuadrat
terkecil, yaitu dengan meminimumkan jumlah kuadrat sisaan JKS(β, λ) sehingga
memperoleh persamaan dalam bentuk:
XT y = (XT X + λI)β.

(2.8)

Dengan cara ini dapat dijamin (XT X + λI) selalu berpangkat penuh walaupun XT X
tidak berpangkat penuh dengan cara mengambil λ ≥ 0. Untuk λ = 0 persamaan
ini adalah persamaan normal seperti yang diperoleh menggunakan metode kuadrat

11
terkecil. Solusi yang unik dapat diperoleh dalam bentuk tertutup:
β̂ gulud = XT X + λI

−1

XT y .

(2.9)

Penduga koefisien yang diperoleh menggunakan metode regresi gulud tidak
equivariant (Hastie et al. 2008), artinya penduga koefisien tersebut tidak dapat
diperbandingkan hasilnya jika peubah asal tidak dibakukan. Oleh karena itu untuk
pendugaan β̂ gulud ini sebelumnya disarankan untuk membakukan skala dari peubah
asal sehingga memiliki nilai harapan nol dan ragam satu (Hastie et al. 2008).
Penduga koefisien regresi hasil dari regresi gulud akan disusutkan ke arah nol
seiring dengan peningkatan nilai λ. Tetapi, penyusutan ini tidak dapat dilakukan
untuk seleksi peubah secara otomatis dikarenakan secara simultan koefisien yang
diduga mungkin tidak bernilai nol.
Tibshirani (1996) mengembangkan metode lasso yang mengubah kendala
p
dalam regresi gulud menjadi dalam bentuk norm L1 , yaitu: ∑ j=1 |βi | ≤ t atau
disebut juga dengan istilah regularisasi L1 . Solusi dari lasso yang dituliskan dalam
bentuk persamaan lagrange adalah meminimumkan:
JKS(β, λ) = (yy − β0 − Xβ)T (yy − β0 − Xβ) + λkβk1 .

(2.10)

Untuk mendapatkan solusi penduga koefisien tidak dapat diperoleh dalam bentuk
tertutup, tetapi harus menggunakan pemrograman kuadratik (Tibshirani 1996)
yang merupakan bagian dari optimisasi convex Boyd dan Vandenberghe (2004).
Dampak yang terjadi dari pengubahan kendala ini sangat besar, yaitu menyebabkan
koefisien menyusut ke arah nol seperti dalam regresi gulud dan beberapa koefisien
menghasilkan nilai nol secara tepat.
Ide dasar metode lasso berasal dari Non-negative Garrotte (Breiman 1995)
yang meminimumkan fungsi berikut terhadap c = c j :
N

i=1

p

p

∑ (yi − ∑ c j xi j β̂ j )2
j=1

dengan kendala

c j ≥ 0, ∑ c j ≤ t,

(2.11)

j=1

dalam hal ini β̂ j adalah penduga kuadrat terkecil biasa. Metode NN-Garrotte ini
tidak terdefinisikan ketika p > N (yang bukan merupakan topik panas pada tahun
1995) (Tibshirani 2011). Pada sekitar tahun tersebut, beberapa metode yang mirip
dengan lasso telah dikembangkan berdasarkan penalti L1 , seperti bridge regression
oleh Frank dan Friedman tahun 1993 dan basis pursuit oleh Chen et al. (1998)
(dalam Tibshirani (2011)). Setelah publikasi pertama tahun 1996 sampai tahun
2002, makalah metode lasso dengan pendekatan pemrograman kuadratik ini tidak
mendapatkan perhatian. Tetapi setelah tahun 2002, metode lasso mulai menjadi
perhatian setelah dikembangkan algoritma lar (Least Angle Regresion) oleh Efron,
Hastie, Johnstone dan Tibshirani yang dipublikasikan tahun 2004 (Tibshirani 2011).
Efron et al. (2004) mengembangkan algoritma lar yang digunakan untuk
menduga model regresi linier dalam bentuk model umum:
E(Y |X = x) = f (x) = β0 + βM φ1 (x) + βM φ2 (x) + . . . + βM φM (x),

(2.12)

dalam hal ini φM adalah fungsi nonlinier dari prediktor X asli. Modifikasi dari

12
lar untuk lasso menghasilkan efisiensi algoritma dalam menduga solusi penduga
koefisien lasso dengan komputasi yang lebih cepat dibandingkan pemrograman
kuadratik. Selain untuk menduga koefisien lar dan lasso, algoritma lar ini juga
dimodifikasi untuk digunakan dalam menduga koefisien regresi forward stagewise
dan regresi bertatar, sehingga kemudian namanya dikenal sebagai lars (untuk lar,
lasso, forward stagewise dan regresi bertatar).

Pendugaan Parameter dengan Metode Iterasi
Perhatikan kembali permasalahan lasso sebagai berikut:
(
p

p

p

)

arg min (y − β0 − ∑ βk xk )T (y − β0 − ∑ βk xk ) + λ ∑ |βk | .
βk

k=1

k=1

p

p

p

k=1

Misalkan f (βk , λ) = (y − ∑k=1 βk xk )T (y − ∑k=1 βk xk ) + λ ∑k=1 |βk |, solusi dari
lasso untuk setiap β j diperoleh dengan mendiferensialkan f (βk , λ) terhadap β j
sama dengan nol yang akan memberikan teorema sebagai berikut.
Teorema 1: Terdapat λ j yang membuat β̂ j bernilai nol, yaitu: λ j ≥ |2xTj r− j |, dalam
hal ini r− j = y − ∑k6= j β̂k xk .
Bukti.


f (βk , λ) = 0 =
∂β j
∂β j

(

p

yT y − 2yT

p

p

k=1

k=1

k=1

∑ βk xk + λ sign(β j )
k=1

p

= −xTj y + xTj
= xTj

λ

∑ βk xk + 2 sign(β j )

k=1

p
k=1

= β j xTj x j + xTj
= β j xTj x j − xTj

!

λ
sign(β j )
2
!
λ
∑ βk xk − y + 2 sign(β j )
k6= j
!
λ
y − ∑ βk xk + sign(β j )
2
k6= j

∑ βk xk − y

+

Notasi: xTj x j = kx j k2 , sehingga:
= β j kx j k2 − xTj

)

∑ βk xk + ( ∑ βk xk )T ( ∑ βk xk ) + λ ∑ |βk |

p

= −2yT x j + 2xTj

p

!

y − ∑ βk xk +
k6= j

λ
sign(β j )
2

k=1

13

= βj