Pemodelan Geographically Weighted Ridge Regression Dan Geographically Weighted Lasso Pada Data Spasial Dengan Multikolinieritas

PEMODELAN GEOGRAPHICALLY WEIGHTED RIDGE
REGRESSION DAN GEOGRAPHICALLY WEIGHTED LASSO
PADA DATA SPASIAL DENGAN MULTIKOLINIERITAS

TIYAS YULITA

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016

PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa tesis berjudul Pemodelan
Geographically Weighted Ridge Regression dan Geographically Weighted Lasso
pada Data Spasial dengan Multikolinieritas adalah benar karya saya dengan
arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada
perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya
yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam
teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.
Bogor, Januari 2016

Tiyas Yulita
NIM G151130251

RINGKASAN
TIYAS YULITA. Pemodelan Geographically Weighted Ridge Regression dan
Geographically Weighted Lasso pada Data Spasial dengan Multikolinieritas.
Dibimbing oleh ASEP SAEFUDDIN dan AJI HAMIM WIGENA.
Data spasial berorientasi secara geografis dan memiliki sistem koordinat
tertentu sebagai dasar referensinya sehingga dapat disajikan dalam sebuah peta.
Permasalahan yang sering ditemukan pada data spasial adalah ragam yang tidak
selalu homogen pada setiap lokasi pengamatan atau heterogenitas spasial. Jika
data spasial dengan masalah heterogenitas spasial dianalisis dengan Metode
Kuadrat Terkecil (MKT) atau dimodelkan dengan regresi linier maka dugaan
parameter yang diperoleh akan memiliki ragam yang besar.
Geographically Weighted Regression (GWR) dapat digunakan untuk
mengeksplorasi keragaman spasial dengan membentuk model regresi yang
berbeda pada setiap lokasi pengamatan. Metode ini cukup efektif dalam

melakukan pendugaan parameter pada data dengan heterogenitas spasial.
Permasalahan lain mungkin dapat muncul seperti adanya hubungan antarpeubah
penjelasnya yang disebut dengan multikolinieritas. Pada data spasial, masalah
multikolinieritas juga dapat menyebabkan model spasial yang diperoleh tidak
stabil sehingga kesalahan interpretasi dapat terjadi, maka diperlukan metode yang
mampu menangani masalah multikolinieritas seperti Geographically Weighted
Ridge Regression (GWRR) dan Geographically Weighted Lasso (GWL).
Sukmantoro (2014) menggunakan GWRR untuk memodelkan nilai tanah di
Perumahan Pondok Indah Jakarta Selatan tahun 2011 yang menghasilkan dugaan
parameter dengan GWRR memiliki akurasi dan presisi pendugaan yang lebih baik
dari GWR. Munikah et al. (2014) menggunakan GWL untuk mengatasi masalah
heterogenitas spasial dan multikolinieritas pada data spasial dengan studi kasus
kerawanan pangan di Kabupaten Tanah Laut dengan hasil GWL memiliki
performa yang lebih baik dari GWR.
Pada penelitian ini performa dari kedua model pendugaan dalam mengatasi
multikolinieritas akan dievaluasi dengan menggunakan data Produk Domestik
Regional Bruto (PDRB) dari 113 kabupaten/kota di Pulau Jawa tahun 2010.
Sebelum menggunakan GWL dan GWRR pada data, dilakukan pemodelan
dengan menggunakan GWR terlebih dahulu untuk mengetahui adanya
multikolinieritas lokal antara peubah penjelasnya. Nilai VIF yang diperoleh pada

model GWR dari data menunjukkan bahwa terdapat multikolinieritas lokal pada
peubah-peubah penjelasnya. Ini dapat disebabkan oleh adanya penambahan
matriks pembobot dalam proses pendugaan. Fungsi yang digunakan untuk
membentuk matriks pembobot pada setiap model adalah dengan fungsi fixed
exponential kernel.
Pemodelan dengan GWRR dan GWL dilakukan untuk mengatasi
heterogenitas sekaligus multikolinieritas lokal pada data. Untuk mengetahui
kekonsistenan metode dalam mengatasi multikolinieritas maka data dibagi
menjadi dua gugus, gugus pertama merupakan data penyusun nilai PDRB pada
sebuah kabupaten/kota, sedangkan gugus data kedua mempertimbangkan kondisi
multikolinieritas yang kuat pada peubah-peubah penjelasnya. Hasil yang diperoleh

dari analisis pada data gugus pertama adalah model GWRR memberikan hasil
dugaan yang lebih baik dari GWR, sedangkan GWL menghasilkan dugaan yang
lebih baik dari GWR maupun GWRR. Pada gugus data kedua, model GWL
mampu mengatasi multikolinieritas lokal yang kuat dengan menghasilkan dugaan
yang lebih baik dari model GWR maupun GWRR, namun performa yang
dihasilkan oleh model GWRR tidak lebih baik dari hasil yang diberikan oleh
model GWR.
Kata kunci: heterogenitas spasial, lasso, multikolinieritas, ridge


SUMMARY

TIYAS YULITA. Geographically Weighted Ridge Regression and
Geographically Weighted Lasso Models in Spatial Data with Multicollinearity.
Supervised by ASEP SAEFUDDIN and AJI HAMIM WIGENA

Spatial data is geographically oriented and it has a specific coordinate
system as reference and it can be presented in a map. The problem of spatial data
is variance in over observation location which is not always homogen (spatial
heterogeneity). If the spatial data with spatial heterogeneity problem is analyzed
by Ordinary Least Squares Method (OLS), it will has large variance.
Geographically Weighted Regression (GWR) can be used to explore the
spatial heterogeneity by forming the different regression models for each
observation location. This method is quite effective in parameter estimation on the
data with spatial heterogeneity. Another problem is any relationship between
explanatory variables which called as multicollinearity. On the spatial data,
multicollinearity problem can obtain spatial models which is not stable so it will
occur misinterpretations models.
To solve the spatial heterogeneity and local multicollinearity problem,

Geographically Weighted Ridge Regression (GWRR) and Geographically
Weighted Lasso (GWL) will be used. Sukmantoro (2014) use GWRR to form
models of land value in Pondok Indah, South Jakarta in 2011 and the result is
accuracy and precision of GWRR has better estimation than GWR. Munikah et
al. (2014) use GWL to resolve the problem of spatial heterogeneity and local
multicollinearity on spatial data with study case of food insecurity in Tanah Laut,
and the result is GWL has better performance than GWR.
Performance of the prediction model to overcome spatial heterogeneity
and local multicollinearity will be evaluated by using data Gross Regional
Domestic Product (GRDP) of 113 districts / cities in Java on 2010. Before we use
GWL and GWRR on data, checking multicollinearity between explanatory
variables before is needed. VIF value which obtained in GWR models indicate
that there are local multicollinearity between explanatory variables. It can be
caused by the addition of weighted matrix in the estimation process. Fixed
exponential kernel function is used to form the weighted matrix on each model
over location observation.
To determine the consistency of both methods to resolve local
multicollinearity problem, data is divided into two groups, the first data group is
used to predict the value of GRDP of 113 districts / cities in Java on 2010, while
the second data group is set up as strong local multicollinearity between

explanatory variables in predict value of GRDP. The results from analysis of the
first group data is GWRR models has better results than GWR, while GWL
produce better accuracy estimation results than GWR and GWRR. In the second
data group, GWL models resolve strong local multicollinearity with produce

better prediction results than GWR and GWRR models, but the performance of
GWRR has no better results than GWR.
Keywords: lasso, multicollinearity, ridge, spatial heterogeneity

© Hak Cipta Milik IPB, Tahun 2016
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan
atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan
IPB.
Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apapun tanpa izin IPB.

PEMODELAN GEOGRAPHICALLY WEIGHTED RIDGE

REGRESSION DAN GEOGRAPHICALLY WEIGHTED LASSO
PADA DATA SPASIAL DENGAN MULTIKOLINIERITAS

TIYAS YULITA

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Sains
pada
Program Studi Statistika

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2016

Penguji Luar Komisi pada Ujian Tesis: Dr Ir Indahwati, MSi

PRAKATA
Puji dan syukur penulis ucapkan kehadirat Allah Subhanahuwata’ala atas

segala karunia-Nya sehingga penulis dapat menyelesaikan tesis ini. Shalawat serta
salam semoga senantiasa tercurah kepada junjungan kita Nabi Muhammad SAW
beserta keluarga, para sahabat, serta para penerus perjuangan Beliau hingga akhir
zaman. Penelitian ini berjudul “Pemodelan Geographically Weighted Ridge
Regression dan Geographically Weighted Lasso pada Data Spasial dengan
Multikolinieritas”. Penulisan karya ilmiah ini tidak lepas dari bantuan, bimbingan,
dan petunjuk dari berbagai pihak. Oleh karena itu, penulis menyampaikan
penghargaan dan ucapan terima kasih khususnya kepada:
1. Prof Dr Asep Saefuddin, MSc selaku pembimbing I dan Dr Ir Aji Hamim
Wigena, MSc selaku pembimbing II yang dengan kesabaran telah banyak
memberi bimbingan, arahan, serta saran kepada penulis selama penyusunan
tesis ini.
2. Dr Ir Indahwati, MSi selaku penguji luar komisi yang telah memberikan
masukan dan arahan yang sangat membangun dalam penyusunan tesis ini.
3. Seluruh staf pengajar Sekolah Pascasarjana Statistika IPB yang telah banyak
memberikan ilmu dan arahan selama perkuliahan sampai dengan penyusunan
tesis ini.
4. Teman-teman statistika angkatan 2013 atas kebersamaan dan bantuannya
kepada penulis selama kuliah.
5. Kedua orang tua serta seluruh keluarga atas doa, dukungan moril, dan kasih

sayang yang diberikan kepada penulis.
6. Direktorat Jenderal Pendidikan Tinggi sebagai sponsor pemberi beasiswa
BPPDN yang mendukung kelanjutan studi S2 penulis.
7. Seluruh pihak yang namanya tidak dapat disebutkan satu per satu.
Atas segala bantuan yang diberikan, penulis hanya bisa berdoa dengan
harapan semoga semua kebaikan yang penuh keikhlasan tersebut dicatat sebagai
amal ibadah dan mendapatkan balasan berupa pahala disisi Allah
Subhanahuwata’ala Aamiin Ya Rabbal‘Alamin. Semoga karya ilmiah ini
bermanfaat serta dapat menambah wawasan bagi para pembaca.

Bogor, Januari 2016

Tiyas Yulita

DAFTAR ISI

DAFTAR TABEL
DAFTAR GAMBAR
DAFTAR LAMPIRAN
PENDAHULUAN

Latar Belakang
Tujuan Penelitian
TINJAUAN PUSTAKA
Uji Heterogenitas Spasial
Multikolinieritas
Geographically Weighted Regression (GWR)
Fungsi Pembobot Spasial
Korelasi Pearson Terboboti Geografis
Pengujian Goodness of Fit
Regresi Ridge
Geographically Weighted Ridge Regression (GWRR)
Locally Compensated Ridge Geographically Weighted
Regression (LCR-GWR)
Least Absolute Shrinkage and Selection Operator (LASSO)
Geographically Weighted Lasso (GWL)
METODE PENELITIAN
Data
Metode Analisis
HASIL DAN PEMBAHASAN
Eksplorasi Data

Pemodelan Regresi Linier
Pengujian Pengaruh Heterogenitas Spasial
Pemodelan Geographically Weighted Regression (GWR)
Pemodelan Geographically Weighted Ridge Regression (GWRR)
Pemodelan LCR-GWR
Pemodelan Geographically Weighted Lasso (GWL)
Kekonsitenan Metode Terhadap Multikolinieritas
SIMPULAN DAN SARAN
Simpulan
Saran
DAFTAR PUSTAKA
LAMPIRAN

xi
xi
xi
1
2
3
4
5
6
6
7
7
8
9
10
11
12
13
15
17
18
18
21
22
23
24
28
28
29
31

DAFTAR TABEL
1
2
3
4
5
6
7
8
9
10
11
12
13
14

Peubah penjelas gugus data pertama
Peubah penjelas gugus data kedua
Statistik deskriptif peubah respon dan penjelas
Koefisien korelasi antara peubah respon dan penjelas
Hasil pengujian parsial dari dugaan parameter dengan MKT
Hasil analisis ragam dengan MKT
Matriks pembobot pada model GWR
Ringkasan pendugaan parameter pada model GWR
Ringkasan nilai VIF untuk gugus data pertama pada seluruh
lokasi
Ringkasan hasil pendugaan parameter pada model GWRR
Nilai multikolinieritas untuk gugus data kedua pada model dengan
MKT
Ringkasan nilai VIF untuk gugus data kedua pada seluruh lokasi
Perbandingan model GWR, GWRR, LCR-GWR dan GWL
untuk gugus data pertama
Perbandingan model GWR, GWRR, LCR-GWR, dan GWL
untuk gugus data kedua

12
12
16
16
17
17
19
19
20
21
24
24
26
27

DAFTAR GAMBAR
1
2
3
4
5
6
7

Peta PDRB pada setiap kabupaten/kota di Pulau Jawa tahun 2010
Scatterplot hubungan antar peubah penjelas
Peta dugaan nilai PDRB pada model GWR
Peta dugaan nilai PDRB pada model GWRR
Peta dugaan nilai PDRB pada model LCR-GWR
Peta dugaan nilai PDRB pada model GWL
Peta dugaan nilai PDRB pada model GWR(a), GWRR(b),
LCR-GWR (c), dan GWL(d)

15
17
20
22
22
23
25

DAFTAR LAMPIRAN
1
2
3

Plot nilai sisaan (residual) terhadap dugaan nilai PDRB
Tabel hasil dugaan parameter pada model GWRR dan nilai dugaan
PDRB untuk setiap lokasi pengamatan
Tabel hasil dugaan parameter pada model LCR-GWR, nilai dugaan
PDRB dengan nilai koefisien bias ridge untuk setiap lokasi

31
31
34

4

5
6
7

Tabel hasil dugaan parameter pada model GWL, nilai dugaan
PDRB serta nilai koefisien penyusutan (s) untuk setiap lokasi
pengamatan
Tabel korelasi Pearson terboboti geografis antara peubah respon
dan peubah-peubah penjelasnya (X1, X2, X3, dan X4)
Tabel korelasi Pearson terboboti geografis antara peubah respon
dan peubah-peubah penjelasnya (X5, X6, X7, dan X8)
Syntax Pemodelan GWR, GWRR, LCR-GWR, dan GWL dengan
menggunakan software R

37
41
44
47

1

PENDAHULUAN
Latar Belakang
Metode statistika seringkali digunakan sebagai alat untuk mengetahui
hubungan antarpeubah dengan cara membentuk suatu model yang sesuai dalam
menggambarkan karakteristik data. Seperti pada model regresi linier yang mampu
menggambarkan hubungan antara peubah penjelas dengan peubah responnya.
Melihat hubungan antarpeubah pada data spasial dapat dilakukan dengan metode
statistika spasial.Data spasial merupakan data yang berorientasi secara geografis
dan memiliki sistem koordinat tertentu sebagai dasar referensinya, sehingga dapat
disajikan dalam sebuah peta.
Permasalahan yang sering ditemukan pada data spasial adalah ragam yang
tidak selalu homogen pada setiap lokasi pengamatan atau disebut dengan
heterogenitas spasial. Heterogenitas spasial dapat disebabkan oleh beberapa hal
seperti perbedaan kondisi geografis, sosial-budaya, hingga kebijakan ekonomi
yang berbeda-beda pada setiap lokasi. Hal ini akan menjadi masalah jika data
spasial tetap dianalisis dengan menggunakan Metode Kuadrat Terkecil (MKT)
dalam pendugaan parameternya, karena dapat menyebabkan ragam dugaan
menjadi besar. Untuk mengatasi permasalahan ini, diperlukan metode yang
mampu mengatasi heterogenitas ragam pada data spasial untuk membentuk model
yang lebih efisien.
Geographically Weighted Regression (GWR) adalah metode statistika
spasial yang merupakan pergeseran dari model global menjadi model lokal.
Model GWRbertujuan untuk mengeksplorasi keragaman spasial dengan
membentuk model regresi yang berbeda pada setiap lokasi pengamatan. Metode
ini cukup efektif dalam melakukan pendugaan parameter pada data dengan
heterogenitas spasial (Fotheringham et al.2002). Masalah lain yang mungkin
muncul pada pemodelan dengan peubah penjelas lebih dari satu adalah
multikolinieritas. Multikolinieritas disebabkan oleh adanya hubungan linier yang
hampir sempurna (near dependence) pada kolom-kolom matriks X dan apabila
terjadi hubungan linier yang sempurna akan menyebabkan |�� �| = 0, sehingga
kondisi ini disebut dengan multikolinieritas sempurna (exact multicollinearity)
(Draper &Smith 1998). Kondisi tersebut dapat menyebabkan hasil dugaan
parameter memiliki ragam yang besar sehingga pengujian signifikansi peubah
menjadi tidak stabil. Seperti pada pemodelan dengan regresi linier berganda,
masalah multikolinieritas juga dapat ditemui pada regresi spasial yang disebut
dengan mutikolinieritas lokal.
Terdapat beberapa metode untuk mengatasi multikolinieritas pada
pemodelan regresi linier berganda diantaranya regresi ridge dan lasso (Least
Absolute Shrinkage and Selection Operator). Lasso melakukan pendugaan dengan
algoritma LARS (Least Angle Regression) yang menyusutkan koefisien dugaaan
sampai ke nol. Sedangkan regresi ridge menambahkan suatu koefisien bias
bernilai positif pada proses pendugaan parameter sehingga hasil yang diperoleh
berbias namun memiliki ragam yang lebih kecil daripada hasil dengan
menggunakan metode MKT.

2

Pada regresi spasial, multikolinieritas dapat diatasi dengan menggunakan
konsep dari metode regresi ridge dan lasso ke dalam GWR. Geographically
Weighted Lasso(GWL) merupakan metode GWR yang menggunakan konsep
lasso dalam pendugaan parameter untuk mengatasi masalah multikolinieritas,
sehingga diharapkanhasil dugaan parameter yang diperoleh lebih stabil. Metode
GWL mampu mengatasi masalah heterogenitas spasial dan multikolinieritas pada
data spasial dengan studi kasus kerawanan pangan di Kabupaten Tanah Laut
dengan hasil GWL memiliki performa yang lebih baik dari GWR (Munikah et al.
2014). Metode lain yang dapat digunakan untuk mengatasi multikolinieritas pada
data spasial adalah Geographically Weighted Ridge Regression (GWRR), metode
ini menggunakan konsep regresi ridge dalam proses pendugaan parameternya.
GWRR pernah digunakan untuk memodelkan nilai tanah di Perumahan Pondok
Indah Jakarta Selatan tahun 2011 yang menghasilkan dugaan parameter dengan
GWRR memiliki akurasi dan presisi pendugaan yang lebih baik dari GWR
(Sukmantoro 2014).
Fatulloh (2013) menggunakan GWR dalam memodelkan Produk
Domestik Regional Bruto (PDRB) pada 113 kabupaten/kota diPulau Jawa tahun
2010 yang mempunyai efek spasial berupa heterogenitas spasial. PDRB
merupakan jumlah nilai tambah yang timbul dari seluruh sektor perekonomian di
suatu wilayah tertentu, atau merupakan jumlah nilai barang dan jasa akhir yang
dihasilkan oleh seluruh unit ekonomi. PDRB dapat dijadikan sebagai ukuran atau
gambaran menyeluruh tentang kondisi perekonomian suatu daerah karena
merupakan suatu indikator ekonomi. Pertumbuhan ekonomi Indonesia pada tahun
2010 sebesar 6,4% per tahun, dan Pulau Jawa memberikan kontribusi PDRB
sebesar 58,7% terhadap Produk Domestik Bruto (PDB) nasional. Selain dilihat
dari sumber pendukung perekonomian secara fisik, pertumbuhan ekonomi dari
suatu wilayah tidak lepas dari kualitas SDM dari wilayah tersebut. Pada penelitian
ini akan digunakan peubah-peubah yang meliputi faktor penyusun PDRB serta
faktor dari kualitas SDM berupa IPM untuk menduga nilai PDRB. Pada penelitian
sebelumnya (Fatulloh 2013) tidak menggunakan peubah yang mengandung
multikolinieritas dalam menduga nilai PDRB, sehingga pada penelitian ini
digunakan peubah penjelas yang mengandung multikolinieritas yang kemudian
diatasi dengan menggunakan model GWRR dan GWL.

Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1. Membangun model GWRR dan GWL dari data PDRB113 kabupaten/kota di
Pulau Jawa tahun 2010.
2. Membandingkan model GWRR dan GWL untuk memperoleh model terbaik
dan konsisten dalam mengatasi masalah heterogenitas spasial dan
multikolinieritas lokal pada data PDRB dari 113 kabupaten/kota di Pulau
Jawa di tahun 2010.

3

TINJAUAN PUSTAKA
Data spasial merupakan data yang memiliki referensi berupa ruang
kebumian (georeference) dengan data atribut sebagai pelengkap untuk setiap unit
spasialnya. Data atribut merupakan informasi non-spasial yang berfungsi sebagai
penjelas objek bagi suatu data spasial. Salah satu cara dasar dalam penyajian data
spasial adalah dengan menggunakan titik (point) berupa informasi koordinat dari
suatu wilayah pengamatan. Pada penelitian ini, data PDRB diperoleh dari 113
kabupaten/kota yang terdapat di Pulau Jawa sehingga sangat dimungkinkan jika
data spasial maupun data atribut memiliki keragaman yang tidak homogen. GWR
dipilih karena dinilai mampu mengatasi keragaman spasial dengan membentuk
model yang berbeda untuk setiap unit spasialnya. Penggunaan beberapa peubah
penjelas pada penelitian ini juga memungkinkan terjadinya masalah
multikolinieritas yang kemudian diatasi dengan menggunakan model GWRR dan
GWL. Beberapa referensi yang terkait dan mendukung tercapainya tujuan dalam
penelitian ini diberikan sebagai berikut.
Uji Heterogenitas Spasial
Perbedaan kondisi sosial-budaya maupun geografis dari beberapa wilayah
dapat menyebabkan adanya heterogenitas spasial pada model. Anselin (1988)
menggunakan Uji Breusch-Pagan untuk menguji adanya heterogenitas spasial
dalam model dengan hipotesis seperti berikut:
� ∶ ��2 = � 2 (tidak terdapat heterogenitas spasial)
� ∶ minimal ada satu ��2 ≠ � 2 (terdapat heterogenitas spasial) ; � = , , … , �
Statistik Uji Breusch-Pagan (BP)
�=

��





dengan elemen vektor �


=

��2

�2



� ~ �2

�+

(1)

dengan :
��
= sisaan untuk pengamatan ke-i dengan matriks berukuran � ×

= vektor berukuran � ×

= banyaknya wilayah pengamatan
2

= ragam sisaan ��
=matriks berukuran � × � +
yang berisi vektor dari X dengan
pengamatan yang telah dibakukan.
p
= banyaknya peubah penjelas.

4

pengambilan keputusan pada uji BP tolak � jika BP > χ,2p+
merupakan titik kritis uji � 2 dengan taraf nyata .

dimana χ,2p+

Multikolinieritas
Draper dan Smith (1998) menyatakan bahwa multikolinieritas disebabkan
oleh adanya hubungan linier yang hampir sempurna (near dependence) pada
kolom-kolom matriks X dan apabila terjadi hubungan linier yang sempurna akan
menyebabkan | � | = sehingga kondisi ini disebut dengan multikolinieritas
sempurna (exact multicollinearity).
Jika X merupakan matriks berukuran � × � +
dan tiap vektor
, , , … , � pada matriks X tidak memiliki hubungan liner, maka rank (X) =
p + 1. Karena X adalah matriks dengan rank penuh (full rank) maka � adalah
matriks persegi yang berukuran (p+1) × (p+1) dengan rank ( � ) = rank (X) = p
+ 1. Jika � merupakan
matriks persegi dengan rank penuh, maka

merupakan matriks non-singular, sehingga | � |bersifat unik. Maka dari itu
penyelesaian untuk persamaan berikut juga bersifat unik.
̂=




� �

�, �





(2)

Namun jika terdapat hubungan linier antar vektor , , , … , � pada
matriks X, maka � bukan merupakan matriks dengan rank penuh sehingga


tidak bersifat unik, yang menyebabkan penyelesaian untuk persamaan
(2) tidak diperoleh secara unik. Multikolinieritas yang ada pada peubah penjelas
dalam model regresi linear dapat menyebabkan pendugaan parameter dari model
regresi yang dihasilkan memiliki ragam yang besar.Mengidentifikasi adanya
multikolinieritas pada peubah penjelas dapat dilakukan dengan melihat hasil
pengujian parsial dan serentak pada koefisien model regresi. Jika hasil pengujian
parsial menunjukkan peubah-peubah penjelas tidak berpengaruh signifikan
sedangkan pada pengujian secara serentak menunjukkan hasil yang sebaliknya
atau signifikan maka dicurigai terdapat masalah multikolinieritas pada peubah
penjelasnya.
Indikator lain dari adanya multikolinieritas dapat dilihat dari nilai VIF
(Variance Inflation Factor) yang merupakan invers dari nilai toleransi − � 2 .
Nilai toleransi yang mengindikasikan adanya mutikolinearitas bernilai kurang dari
0,20 atau 0,10 dan atau nilai VIF-nya lebih besar dari 5 atau 10. Nilai VIF yang
lebih besar dari 10 sangat mempengaruhi dugaan kuadrat terkecil dari koefisien
regresi (Friday & Emenonye 2012). Pada pemodelan GWR, nilai VIF dihitung
untuk masing-masing peubah penjelasnya pada setiap lokasi pengamatan dengan
matriks pembobot sebagai area deteksi kolinieritas pada model GWR. Nilai VIF
dinyatakan sebagai berikut :
=

−�

,

(3)

5

dengan � 2 � , � adalah koefisien determinasi antara
lainnya utuk setiap lokasi � , � (Wheeler 2007).

dengan peubah penjelas

Geographically Weighted Regression (GWR)
Fotheringham et al. (2002) mengatasi data yang memiliki masalah
keheterogenan spasial melalui pendugaan titik yang efektif dengan menggunakan
GWR. Dalam prinsipnya GWR mengadopsi konsep yang ada pada model regresi
linier menjadi model regresi terboboti. Model GWR menerapkan hubungan
regresi spasial non-stasioner untuk kasus keheterogenan spasial dengan
menghasilkan koefisien model regresi pada masing-masing lokasi. Jika koefisien
parameter yang dihasilkan pada setiap lokasi bernilai konstan disebut model
regresi global. Model regresi global dinotasikan sebagai berikut:
�� =

+ ∑� =

�� =

�, �

+ �; � = , , … , �



(4)

dengan ( , … , � adalah koefisien parameter lokasi dan sisaan diasumsikan
2
� ~� , � . Sedangkan notasi untuk model GWR adalah:
+∑



�, �

=



+



;� = , ,…,�

(5)

dimana �� adalah peubah respon pada lokasi ke-i, � merupakan peubah penjelas
ke-k pada lokasi ( � , � ,
adalah koefisien parameter lokal untuk masingmasing lokasi ( � , � dan sisaan diasumsikan � ~� , � 2 . Ini mengakibatkan
setiap lokasi memiliki koefisien parameter yang berbeda-beda sehingga
menghasilkan keragaman yang memberi informasi mengenai hubungan regresi
antara peubah penjelas dan respon secara lokal.
Leung et al. (2000) menerangkan bahwa pendugaan koefisien parameter
lokal dari model GWR dilakukan dengan metode Weighted Least Square (WLS)
dari persamaan (5) diturunkan terhadap �� � , � , dugaan parameter untuk setiap
lokasi ̂ � , � adalah sebagai berikut:


�, �

dengan :

2

=



�, �



=[

=





�, �

2

22

�2





�, �

]−







2�

⋮ )

��
2

�, �



�, �

=




(6)


�2
⋮)
��





�, �

)

6

Fungsi Pembobot Spasial
Untuk membentuk matriks pembobot diperlukan fungsi pembobot yang
dipengaruhi oleh ukuran ketetanggaan (neighborhood size) yang seringkali
disebut dengan bandwidth atau lebar jendela dan disesuaikan dengan kedekatan
titik lokasi pengamatan ke-i. Pada model GWR, koordinat dari data spasial
digunakan untuk menghitung jarak antar titik lokasi dari suatu pengamatan yang
kemudian menghasilkan bobot antar pengamatan. Matriks pembobot pada GWR
dihitung dari suatu fungsi kernel yang menjadikan lokasi pengamatan yang lebih
dekat dengan titik lokasi pengamatan ke- � memiliki bobot yang lebih besar
daripada lokasi pengamatan yang letaknya lebih jauh. Fungsi fixed exponential
kernel digunakan untuk membentuk matriks pembobot karena merupakan fungsi
kernel yang paling sederhana. Fungsi kernel tersebut memiliki nilai bandwidth
yang sama untuk setiap pengamatan dengan bentuk fungsi sebagai berikut:
�, �

=

=√



� −

(7)



dengan ℎ pada fungsi kernel merupakan bandwidth pada lokasi pengamatan ke- i.
Pada fungsi kernel di atas, � adalah jarak antara titik di lokasi ke-i dan lokasi kej yang diperoleh dari jarak euclidean seperti berikut ini:


2



+



2



(8)

Sebelum melakukan pemodelan dengan GWR, hal lain yang harus
diperhatikan adalah menduga nilai bandwidth. Pendugaannya dilakukan dengan
metode Cross Validation leave-one-out pada seluruh lokasi. Bentuk matematis
dari CV adalah sebagai berikut:
� ℎ = ∑��= [�� − �̂≠� ℎ ]2

(9)

dengan �̂≠� ℎ adalah nilai dugaan untuk �� dengan menghilangkan pengamatan
titik lokasi ke- i pada proses prediksi dan bandwidth optimum (h) akan diperoleh
dengan proses iterasi sampai diperoleh CV yang minimum (Fotheringham et al.
2002).
Korelasi Pearson Terboboti Geografis
Korelasi Pearson tanpa diberikan pembobot dalam perhitungannya
menghasilkan koefisien korelasi yang bersifat global. Maka Kalogitou (2013)
memberikan korelasi secara lokal dengan pemberian bobot secara geografis untuk
mengetahui kondisi korelasi peubah-peubahnya pada setiap lokasi pengamatan.
Koefisien korelasi terboboti geografis untuk dua peubah diberikan sebagai
berikut:
�,

=

√∑ =

∑ =

(

(

dengan ̅� = ∑

− ̅
=

− ̅

√∑ =


/∑

−̅

=

(10)
−̅


, dan ̅� = ∑

=





/∑

=



7

Pengujian Goodness of Fit
Untuk mengetahui apakah model GWR yang diperoleh lebih baik dari
Metode Kuadrat Terkecil (MKT) dalam menjelaskan keragaman maka dilakukan
pengujian kebaikan model dengan mengukur perbedaan jumlah kuadrat galat
(JKG) dari MKT dan GWR. Hipotesis nol menyatakan bahwa kemampuan model
GWR dan MKT dalam mendeskripsikan data tidak berbeda. Statistik uji yang
digunakan adalah sebagai berikut:


�=

�/

(11)

���� / �−�−

dengan
� = � � − ���� = � [ −
− − � � − � ] = ��
dan � = −
− − � � − � adalah matriks semidefinit positif, karena




untuk setiap . � � = � −
, dimana =
dan


−� ] .
− bersifat idempoten. ���� = [ − �
�=



(

[

[







�[ �







Tolak � jika � > �
( Leung et al. 2000).

]−
]−

]−










� � )

,� − � −

, dengan

=

� dan

2

=

�2

Regresi Ridge
Hoerl & Kennard (2000) memperkenalkan regresi ridge untuk
mengendalikan ketidakstabilan penduga kuadrat terkecil. Regresi ridge mengatasi
masalah multikolinieritas dengan cara meminimumkan jumlah kuadrat galat yang
menambahkan kendala pada kuadrat terkecil sehingga koefisien menyusut
mendekati nol (Hastie et al. 2009). Secara spesifik, penduga koefisien pada
regresi ridge diperoleh dengan cara meminimumkan persamaan berikut:


̂� = �rg �i� {∑ (�� −
�=



−∑
=



2



) + ∑
=

2

}

dengan kendala ∑�= 2 �, dimana � merupakan besaran yang mengendalikan
besarnya penyusutan dengan nilai �
. Pendugaan koefisien dalam bentuk
matriks diperoleh dengan cara meminimumkan jumlah kuadrat galat untuk model
seperti berikut ini:
=

+

Meminimumkan jumlah kuadrat galat dapat diperoleh dengan cara:

8


�=

2


�� � =

= �� �

− ��



− ��





dengan syarat pembatas ∑�= 2 �, dugaan parameter regresi ridge diperoleh
dengan menurunkan jumlah kuadrat galat terhadap ̂ , maka diperoleh
̂
�� =



+

(12)

dengan
�erup�k�� matriks identitas berukuran � × �, dan adalah tetapan
bias yang bernilai positif. Menurut Montgomery & Peck (1992), pemilihan nilai
yang optimal dapat diperoleh dengan menggunakan validasi silang terampat atau
Generalized Cross Validation (GCV). Penduga koefisien yang optimal diperoleh
dari pemilihan nilai yang menghasilkan nilai GCV paling minimum. Nilai GCV
dirumuskan sebagai berikut:
∑�=

� � = {�−[

+ �

,�



(13)

]}

dengan,
2
�,� = sisaan kuadrat ke-i untuk nilai c tertentu
� = matriks hat
Regresi ridge menghasilkan penduga yang berbias tetapi cenderung stabil
dibandingkan dengan hasil dugaan menggunakan MKT.

Geographically Weighted Ridge Regression (GWRR)
Menurut Wheeler (2007), GWRR merupakan salah satu metode yang
dapat mengatasi masalah multikolinieritas pada data spasial. GWRR adalah
metode perkembangan dari metode regresi ridge, yang membedakan antara
metode regresi ridgedan GWRR adalah pada penggunaan pembobot sebagai
informasi tambahan.
̂� = �rg �i� {∑��= (�� −

�, �


=

−∑



�, �

2


+ ∑ =

2

�, �

} (14)

Pendugaan koefisien pada GWRR dengan lokasi pengamatan � , �
dilakukan dengan menambahkan unsur pembobot � � , � yang dapat ditulis
sebagai berikut:


�, �

=�

�, �

� +�

(15)

jika persamaan (13) dituliskan dalam bentuk matriks, maka meminimumkan
jumlah kuadrat galat dapat diperoleh dengan cara sebagai berikut:

9



∑�
�=

�, �

�� �

�, �

�� �

�, �

2


= �� �

�=�

�, �



− ��

�, �

dengan syarat pembatas ∑�= ̂ 2
=



+





�, �

∑ ̂

− �



− ��

�, maka






+�

�, �







�, �

��

=

Dugaan parameter GWRR diperoleh dengan menurunkan jumlah kuadrat galat
̂
terhadap �
� , � seperti berikut ini:
�� �
̂



̂




�, �

�, �

�, �

�, �

=



=

− �








�, �



�, �

+

̂




+�

�, �











�, �

�, �

� + (∑�= ̂

=

(16)

dengan adalah matriks identitas berukuran � × �, tetapan bias yang bernilai
positif, dan � � , � merupakan matriks pembobot spasial berdimensi � × �.

Locally Compensated Ridge Geographically Weighted Regression (LCR-GWR)
Model GWRR pada persamaan (16) menggunakan satu koefisien bias
untuk seluruh lokasi pengamatan. Gollini et al. (2015) memperkenalkan model
LCR-GWR yang menggunakan satu koefisien bias untuk suatu lokasi tertentu,
jika terdapat N lokasi pengamatan maka terdapat n koefisien bias ridge yang
berbeda. Metode tersebut menghasilkan koefisien bias ridge secara lokal. Model
regresi pada LCR-GWR adalah sebagai berikut:
̂


�,



=





�,



+

�,









�, �

(17)

pada lokasi
dengan
� , � merupakan nilai locally-compensated (LC) dari
�, � .
Nilai parameter regresi ridge diperoleh dengan menghubungkan nilai
eigen dan conditional number κ dari perkalian matriks � . Jika diperoleh
nilai eigen dari matriks � adalah � , �2 , … , �� maka nilai eigen dari matriks

+
adalah � + , �2 + , … , �� + . Conditional number κ
dari
matriks persegi didefinisikan sebagai � /�� , dengan � merupakan nilai eigen
terbesar dan �� adalah nilai eigen terkecil. Dengan menggunakan aturan tersebut,
maka koefisien bias ridge yang diperoleh dari nilai eigen dan conditional number
κ tertentu adalah = { � − �� / � − } − �� . Dengan menggunakan konsep
tersebut, maka koefisien bias ridge pada LCR-GWR diperoleh dari hubungan

10

antara nilai eigen dengan conditional number κ dari matriks � � � , � ,
dengan harapan mampu menghasilkan model yang lebih akurat dengan adanya
masalah multikolinieritas pada peubah penjelasnya.

Least Absolute Shrinkage and Selection Operator (LASSO)
Metode lasso diperkenalkan pertama kali oleh Tibshirani pada tahun 1996.
Penduga koefisien parameter lasso tidak dapat diperoleh dalam bentuk tertutup
seperti pada MKT atau regresi ridge, tetapi dengan menggunakan pemrograman
kuadratik (Hastie et al. 2009). Lasso didefinisikan sebagai berikut:
( ̂ = �rg �i� {∑��= (�� −

− ∑� =



2

+ ∑� = |

|}

(18)

dengan syarat ∑�= | ̂ |
.Tibshirani (1996) menyatakan bahwa konstrain

∑ = |̂ |
sama halnya dengan menambahkan penalti ∑�= | | pada jumlah
kuadrat galat (JKG), sehingga terdapat hubungan langsung antara parameter dan
yang mengendalikan jumlah penyusutan dari koefisien regresi. Nilai mutlak
konstrain dari koefisien regresi meyebabkan persamaan yang dihasilkan bersifat
non-linier
sehingga
memerlukan
pemrograman
kuadratik
untuk
menyelesaikannya. Diketahui bahwa t merupakan suatu besaran yang
mengendalikan besarnya penyusutan pada pendugaan koefisien lasso dengan t ≥ 0.
Jika
merupakan penduga parameter koefisien lasso terkecil dan t0 = ∑�= | ̂ |,
maka nilai t