Estimasi dan Pengujian Hipotesis pada Model Geographically Weighted Multinomial Logistic Regression
Estimasi dan Pengujian Hipotesis
pada Model Geographically Weighted
Multinomial Logistic Regression
1
2
3
4 1 M. Fathurahman , Purhadi , Sutikno , Vita Ratnasari
Mahasiswa S3 Statistika ITS Surabaya, fathurahman13@mhs.statistika.its.ac.id
2 3 Jurusan Statistika ITS Surabaya, purhadi@statistika.its.ac.idJurusan Statistika ITS Surabaya, sutikno@statistika.its.ac.id
4 Jurusan Statistika ITS Surabaya, vitaratna70@gmail.com
Abstrak. Model Geographically Weighted Multinomial Logistic Regression
(GWMLR) merupakan pengembangan dari model regresi logistik multinomial yang
mempertimbangkan pengaruh faktor lokasi . Faktor ini digunakan sebagai pembobot
dan memiliki nilai yang berbeda untuk setiap lokasi yang menunjukkan sifat lokal
pada model GWMLR. Estimasi parameter model GWMLR dilakukan dengan
menggunakan metode Maximum Likelihood Estimation (MLE) terboboti dan iterasi
Newton-Raphson. Pembobot yang digunakan pada estimasi parameter model
GWMLR adalah pembobot fungsi Kernel. Pengujian hipotesis model GWMLR
dilakukan dengan menggunakan uji F, Maximum Likelihood Ratio Test (MLRT) dan
Kata Kunci uji Wald.: GWMLR, MLE, Newton-Raphson, Uji F, MLRT, Uji Wald
1 Pendahuluan Dalam pemodelan data kategorik seringkali dilakukan dengan regresi logistik.
Jika variabel respon hanya mempunyai dua kategori (dikotomus), maka digunakan model regresi logistik biner. Untuk variabel respon yang mempunyai kategori lebih dari dua (polikotomus) digunakan model regresi logistik multinomial bila mempunyai skala pengukuran nominal dan model regresi logistik ordinal bila
[1] mempunyai skala pengukuran ordinal .
Model regresi logistik telah dikembangkan untuk memodelkan hubungan antara variabel respon dengan variabel bebas yang bergantung pada lokasi geografis dimana data tersebut diamati. Model tersebut adalah Geographically
[2]
Weighted Logistic Regression (GWLR) . Model GWLR merupakan bentuk
kombinasi dari model Geographically Weighted Regression (GWR) dan model
[2, 3]
regresi logistik dikotomus . Model GWLR dikembangkan menjadi model
Geographically Weighted Logistic Regression Semiparametric
(GWLRS). Model GWLRS merupakan bentuk lokal dari regresi logistik biner, dimana terdapat parameter yang dipengaruhi lokasi (geographically varying coefficient) dan
[4]
parameter yang tidak dipengaruhi lokasi (fixed coefficient) . Model GWLR dikembangkan pula menjadi model Geographically Weighted Multinomial
Logistic Regression [5]
(GWMLR) dan Multinomial Logit Geographically
Weighted Regression (MNL GWR) [6] . Model GWMLR dan MNL GWR merupakan bentuk kombinasi dari model GWR dan model regresi logistik multinomial (multinomial logit). Kemudian model GWLR dikembangkan menjadi
[7]
model Geographically Weighted Ordinal Logistic Regression (GWOLR) dan
Geographically Weighted Ordinal Logistic Regression Semiparametric
[8](GWOLRS) . Model GWOLR merupakan bentuk kombinasi dari model GWR
[7]
dan model regresi logistik ordinal . Sedangkan model GWOLRS merupakan bentuk lokal dari regresi logistik ordinal, dimana terdapat parameter yang
[8] dipengaruhi lokasi dan parameter yang tidak dipengaruhi lokasi .
Makalah ini mengkaji estimasi parameter dan pengujian hipotesis model GWMLR. Estimasi parameter dilakukan dengan menggunakan metode Maximum
Likelihood Estimation
(MLE) terboboti. Pengujian hipotesis model GWMLR dilakukan dengan menggunakan uji F, Maximum Likelihood Ratio Test (MLRT) dan uji Wald.
2 Model GWMLR
Model GWMLR merupakan model regresi yang digunakan untuk memodelkan hubungan antara variabel respon kategorik polikotomus berskala nominal dengan variabel bebas yang masing-masing koefisien regresinya bergantung pada lokasi dimana data tersebut diamati. Variabel respon model GWMLR berdistribusi Multinomial yaitu
y y y
, , , ~ Multinomial 1, , , , . Sehingga model
x x x i 1 i 2 i J , 1 1 i 2 i J 1 i [5] GWMLR dinyatakan seperti persamaan berikut .
j i T ( ) x u v i n j J
ln x β , , 1, 2, , ; 1, 2, ,
1 (1) i j i i
J i ( ) x T x x x dengan x adalah vektor variabel bebas lokasi ke-i, i 1 i i ip
1
2
T
u v u v u v u v u v β , , , , , j i i j i i j i i j i i pj i i 1 2
adalah vektor
u v
parameter untuk lokasi ke-i, , adalah titik koordinat (garis lintang selatan, i i
garis bujur timur) lokasi ke-i, ( ) x adalah probabilitas kategori respon ke-j, j i
j J 1, 2, ,
1 i x adalah probabilitas J i
yang merupakan fungsi dari x dan ( )
kategori respon ke-J. Probabilitas j ( ) x dan i x dinyatakan seperti J ( ) i persamaan berikut. T exp u v ,
x β i j i i
, i 1,2, , ; n j 1,2, , J j x i (2) J 1 T
1 u v 1 exp x β i j i , i
j 1
1
(3) J i x J 1 T
u v 1 exp , x β i j i i
j 1
2.1 Estimasi Parameter
Model GWMLR dapat diperoleh dengan melakukan estimasi terhadap parameter modelnya dengan menggunakan metode MLE terboboti. Langkah awal
dimana adalah fungsi densitas normal standar dan merupakan standar deviasi dari vektor jarak
w u v d h
, exp i i i i i i q
2
2. Adaptive Gaussian
d .
* * * , i i i i i d w u v h
1. Gaussian
:
[5, 9]
. Pembobot berdasarkan fungsi Kernel diantaranya adalah
Kernel
3. Bisquare
x β x β
w u v d h
, exp i i i i i
5. Exponential
d h d h w u v d h
2
- * *
2
* *
*
, i i i i i q i q i i i i i i q
1 , ,
2
- * * 2 * * *
4. Adaptive Bisquare
1 , , ,
i i i i
i i i i i d h d h w u v d h(5) Faktor letak geografis merupakan faktor pembobot pada model GWMLR. Faktor ini memiliki nilai yang berbeda untuk setiap lokasi yang menunjukkan sifat lokal pada model GWMLR. Oleh karena itu pembobot diberikan pada fungsi ln likelihood. Salah satu jenis fungsi pembobot yang dapat digunakan adalah fungsi
L y u v u v
x x x x 1 2 , 1 1 2 , 1 1 1 2 1 1
i i i J i i i J
ny y y y y y
i i J i J i i
L
β β β x 1 2 , 1 1 2 1 1 i i i J iJ n y y y y i i J i J i i
L u v u v u v
, , , , , , ij n J y i i i i J i i j i i j
1 * * 2 * * 1 * * 1 1
x x x x
1 2 , 1 1 2 1 , , , ~ Multinomial 1, , , , .
i i i J i i J i
y y y(4) Langkah selanjutnya adalah membentuk fungsi ln likelihood dengan cara melakukan transformasi ln pada fungsi likelihood, yaitu:
adalah mengambil n sampel random, yaitu 1 2 , , , n Y Y Y
dengan probabilitas kategori respon ke-j pada pengamatan ke-i adalah seperti persamaan (2) dan (3) sehingga,
1
1
1 2 , 1 1 2 1 1 i i i J y y y n i i J i J i i J i J i J i
x x x x x x x
x x x Selanjutnya menentukan fungsi likelihood sebagai berikut.
1 ln , ln 1 exp , n J n J T T
ij i j i i i j i i
i j i j1
1
1
- i i
6. Tricube 3 3
d h d h1 ,
* * i i i i
w u v i i , i * * , d h i i *
- * d
u v u v
dimana adalah jarak Euclidean antara lokasi , dan lokasi , , i i 2 2 i i i i * *
d u u v v * * i i * i i i i , dan h adalah parameter nonnegatif yang diketahui
dan disebut dengan parameter penghalus (bandwidth) sebagai pengontrol keseimbangan antara kemulusan fungsi dan kesesuaian fungsi terhadap data.
h
Kemudian i adalah bandwidth adaptif yang menetapkan q sebagai jarak (q ) tetangga terdekat (nearest neighbour) dari lokasi i. Untuk mendapatkan
bandwidth [5, 9] optimum digunakan metode Cross Validation (CV) . u v w u v w
Misalkan pembobot untuk setiap lokasi i , i adalah , i i i ii
, * * * i i n
, * 1,2,..., maka diperoleh fungsi ln likelihood terboboti sebagai berikut: n J n J
1
1 T T
L w u v y u v w u v u v
ln i i , i ij i x β j i , i i i , i ln 1 exp x β i j i , i i j i j * * * * * * *
- 1
1
1
1
n J n J
1
w y u v w u v ii ij x β i j i , i ii ln 1 exp x β i j i , i (6)
1 T T
i j i j
1
1
1
1
Selanjutnya untuk mendapatkan estimator parameter model GWMLR adalah memaksimumkan fungsi ln likelihood terboboti dengan cara menentukan turunan parsial pertama fungsi ln likelihood terhadap parameter yang diestimasi kemudian disamakan dengan nol, yaitu: n J T
1 n u v L exp ,
ln x β x i j i i i
* * w y w
x T J (7) * * ii ij i ii
1 u v
, T
β j i i i i 1 j
1
1
u v
1 exp ,
x β
- i j i i
j
1 Persamaan (7) dapat juga ditulis menjadi persamaan berikut. n J T
1 u v
L exp x β i j , i i ln
w y T ii i ij J x
- 1
(8)
u v i j T
β , j i i
1
1
u v
1 exp x β i j i , i
* *
j
1 n J
1
L ln
w y
x x (9) T * ii i ij j i u v
,
β j i i i j
1
1 * *
Penyelesaian dari persamaan (7) menghasilkan fungsi yang berbentuk tidak eksplisit, sehingga untuk menyelesaikannya digunakan pendekatan numerik dengan metode Newton-Raphson. Metode ini membutuhkan turunan parsial kedua dari fungsi ln likelihood terboboti sebagai berikut: 2 n
L ln T w (10) T
ii x i j x i j x x i i
* 1 u v u v β j i i j i i * * * * , β , i 1 i i n j J
untuk , * 1,2, , ; 1,2, , 1 .
, j i i pj i i j i i pj i i L u v u v u v L Simetris u v
ln , , , ln
2 2 2 * * * * 2 * * 2 2 * *
H β
, , , , , , ln L L L L j i i j i i j i i j i i j i i pj i i j i i j i i j i i j i i pj i i j i i j i i u v u v u v u v u v u v u v L L L u v u v u v u v u v u v L
ln ln ln ln
, , , , , , , ln ln ln 2 2 2 2
- * * 2 * * 1 * * * * 2 * * * * * * 2 2 2 2 1 * * 2 * * 1 * * * * 1 * * 2 * *
- * D w y u v w u v
- x β x β * * * * * ii ij i j i i ii i j i i
- D df
- * * * * * * i j i i i j i i j i i
-
- * * kj i i ,
- * 2 * * * * 1 * * * estimator maksimum likelihood dari
- * u v N u v u v
- * dengan I β [ ( , )] adalah matriks Hesian dan
- * ˆ ˆ
1
β β H β
ˆ ˆ ˆ
, , ,
j i i j i i j i i Cov u v u v u v 1 1
* * * * * *
pada saat iterasi terakhir. Prosedur iterasi ini diulang untuk setiap lokasi ke-i, sehingga akan didapatkan estimator parameter lokal model GWMLR. Turunan parsial kedua dari fungsi ln likelihood merupakan elemen dari matriks Hessian. Nilai ekspektasi dari matriks Hessian merupakan matriks Informasi. Invers dari matriks informasi merupakan penduga dari matriks varian-kovarian, sehingga penduga dari matriks varian-kovarian dapat dinyatakan sebagai:
u v β
, t j i i
adalah bilangan yang sangat kecil. Hasil estimasi yang diperoleh adalah
β β , dimana
u v u v
, , t t j i i j i i
1
Proses iterasi Newton-Raphson ini akan berhenti jika terpenuhi kondisi konvergen, yaitu selisih
g β
(12)
* *
dapat diperoleh dengan menggunakan regresi Ordinary Least Squares (OLS) seperti pada estimasi parameter model regresi logistik multinomial. Nilai awal dapat pula dimulai dengan nol.
β
* * , j i i u v
digunakan untuk menentukan nilai taksiran dari
β adalah parameter model GWMLR dan nilai awal yang
* * , j i i u v
(11) dimana
β β H β g β
u v H β adalah matriks nonsingular dengan elemen-elemen
1 1 * * * * * * * * , , , , t t t t j i i j i i j i i j i i u v u v u v u v
pada persamaan (7) adalah:
u v β
ˆ , j i i
* *
Persamaan yang digunakan dalam proses iterasi Newton-Raphson untuk mendapatkan nilai
, j i i
matriksnya merupakan turunan parsial kedua dari fungsi ln likelihood terboboti terhadap parameter yang akan diestimasi.
* *
, , , , j i i j i i j i i j i i pj i i L L L L u v u v u v u v u v
* * * * 1 * * 2 * * * * ln ln ln ln ,
β
* * * * 1 * * 2 * * * * , , , , , T j i i j i i j i i j i i pj i i u v u v u v u v u v
u v H β adalah:
, j i i
g β dan
u v
, j i i
β ,
* * , j i i u v
elemen-elemennya turunan parsial pertama dari fungsi ln likelihood terboboti terhadap parameter yang diestimasi dan t adalah banyaknya iterasi (t = 0, 1, 2, ...). Sehingga elemen dari
g β adalah vektor dengan
u v
, j i i
2.2 Pengujian Parameter
Sebelum dilakukan pengujian terhadap parameter model GWMLR, terlebih dahulu dilakukan pengujian kesamaan model GWMLR dengan model regresi logistik multinomial yang bertujuan untuk menguji signifikansi dari faktor geografis. Bentuk hipotesisnya adalah sebagai berikut:
H u v i n j J k p : kj i , i kj , 1, 2,..., ; 1, 2, , 1; 1, 2,...,
(Tidak ada perbedaan yang signifikan antara model GWMLR dan model regresi logistik multinomial)
H u v : Paling tidak ada satu ,
kj i i kj
1
(Ada perbedaan yang signifikan antara model GWMLR dan model regresi logistik multinomial) Setelah terbentuk hipotesis, maka selanjutnya menentukan statistik uji yaitu dengan membandingkan nilai devians model regresi logistik multinomial dan model GWMLR dimana devians model regresi logistik multinomial dihitung
L H ˆ
berdasarkan nilai maksimum likelihood dibawah ( ) , sedangkan devians
untuk model GWMLR dihitung berdasarkan nilai maksimum likelihood dibawah ˆ ˆ populasi L ( ) . Misalkan D
β menyatakan nilai devians model regresi j df
logistik multinomial dengan derajat bebas maka n J 1 n J 1 1
ˆ
D y y y
2 ln ln 1
β j ji j j
i j i j 1 1 1
1
n J 1 n J 1
T T ˆ ˆ
y ln 1 exp ji x β i j x β i j
i j i j (13) 1 1 1 1
dimana nilai ˆ
β merupakan estimator parameter model regresi logistik j multinomial yang diperoleh dari metode Newton-Raphson. *
ˆ
D
Misalkan
β menyatakan nilai devians model GWMLR dengan derajat jj df
bebas , maka 2 n J 1 n J 1
T T
ˆ ˆ ˆ
2 , ln 1 exp ,
β j ii ij x i j i i ii x i j i i * * * * * *
i j i j 1 1 1 1
n J 1 n J 1 T T
ˆ ˆ
w y u v w u v
, ln 1 exp ,
i j i j (14) 1 1 1 1
ˆ dimana nilai dan ˆ j β merupakan estimator parameter model GWMLR yang j diperoleh dari metode Newton-Raphson.
Statistik uji untuk pengujian kesamaan antara model GWMLR dengan model regresi logistik multinomial dilakukan dengan membandingkan nilai devians model regresi logistik multinomial dan model GWMLR, yaitu
ˆ
D df β j
1
F
(15) ˆ
β jj
2
(16) Himpunan parameter model dibawah populasi adalah:
x x
1 1 * * * * * * 1 1
1
1 ˆ ˆ , ln 1 exp , n J n J T T ii ij i j i i ii i j i i i j i j w y u v w u v
L L
ˆ max
1
1 1 exp , J J J 1 exp , 1 exp , i i J y y n j i i j i i i j i i j i i j i i j j j u v u v u v u v u v
1 , 1 * * * * 1
1
1 1 * * * * * * 1 1 1 exp , exp ,
* * 1 * * 2 * * * *
; , , , , , , , , n i j i i j i i j i i pj i i i
x x x x x x x
x x x x x x x
1 2 , 1 1 2 1 1
i i i J
y y y n i i J i J i i J i J i J i
x x x x
L f y u v u v u v u v
1 i i i J i i i J n y y y y y y i i J i J i i
1
2
1
1
1 2 , 1 1 2 , 1
akan mengikuti distribusi F dengan derajat bebas 1
H u v u v u v
1, 2, , . k p
1, 2, , 1; j J
i n
untuk * 1, 2, , ;
u v
, kj i i
Paling tidak ada satu
H
1 :
1 * *
2 * * * *
: , , ... , j i i j i i pj i iUntuk menentukan nilai statistik uji, terlebih dahulu ditentukan fungsi likelihood yang berhubungan dengan ruang parameter pada H dan populasi. Himpunan parameter dibawah H adalah:
(LRT). Hipotesis yang digunakan adalah:
likelihood ratio test
dapat diperoleh dari tabel F. Pengujian parameter model GWMLR secara serentak dilakukan dengan uji
; , 1 2 df df F
. Nilai
; , 1 2 df df F F
. Kriteria pengujiannya adalah tolak H bila
df
dan 2
df
2
1 2 , 1 1 2 1 1 i i i J y y y n i i J i J i i J i J i J i
x x x x
1
i i i J i i i J
ny y y y y y
i i J i J i i1
1
1
1 2 , 1 1 2 , 1
L f y u v
; , n i j i i i
1
* *
sehingga diperoleh fungsi likelihood dan maksimum fungsi likelihood sebagai berikut:
u v i n j J
, , * 1,2, , ; 1, 2, , 1 j i i
y i y i J 1 , 1
T T n u v u v exp x β , exp x β , * * * * i j i i i j i i
1
L J J J 1
1
1 i 1 T T T u v u v u v
1 exp x β , 1 exp x β , 1 exp x β ,
j j j 1 1 1
Sehingga diperoleh fungsi likelihood dan maksimum fungsi likelihood: ˆ
L max L
n J n J 1 1 T T ˆ ˆ w y u v w u v ii ij i j i i ii ln 1 exp x β i j i , i * * * * * * x β ,
i 1 j 1 i 1 j 1
(17) ˆ
L ˆ L
Rasio antara dan dapat dituliskan sebagai berikut:
n J n J 1
1 T T
ˆ ˆ
w y x u , v w ln 1 exp x u , v
ii ij i j i i ii i j i i L ˆ i j i j
1
1
1
1 n J n J
1
1 ˆ
L
T T
ˆ ˆ
w y u v w u v ii ij i j i i ii i j i i
x β , ln 1 exp x β , i j i j
1
1
1
1
(18)
L ˆ
H
Kriteria pengujiannya adalah tolak jika
1 , untuk 1 . ˆ
L
ˆ
L ˆ L
Rasio antara dan disebut juga dengan statistik likelihood ratio dan
[10]
dapat ditulis menjadi :
L ˆ
2
ˆ
G L ˆ L
2ln 2ln 2 ln ln (19)
ˆ
L
2 G
Statistik uji pada persamaan (19) adalah devians model GWMLR dan secara
2
asimtotik berdistribusi Chi-Square dengan derajat bebas v. Kriteria
2
2 G
pengujiannya adalah tolak H jika , dengan
,v adalah tingkat
signifikansi dan v adalah derajat bebas yang didapat dari banyaknya parameter 2 dibawah populasi dikurangi banyaknya parameter dibawah H . Nilai
,v
dapat diperoleh dari tabel Chi-Square. Selanjutnya pengujian parameter model GWMLR secara parsial digunakan uji Wald. Pengujian ini digunakan untuk mengetahui pengaruh dari masing-masing variabel bebas pada lokasi ke-i* terhadap variabel respon. Hipotesis yang digunakan adalah:
u v H
: , kj i i
u v H i n j J k p 1 : kj i , i , * 1, 2, , ; 1, 2, , 1; 1, 2, , .
ˆ u v
kj * * i i ,
Z k
(20)
ˆ SE u v
ˆ ˆ
u v
dengan u v , menyatakan estimator untuk dan SE u v , kj i i * * kj i , i kj i i
* * * *
ˆ menyatakan standard error dari u v , . Persamaan yang digunakan untuk kj i i * *
ˆ mendapatkan nilai dari SE u v , kj i i
* *
adalah: ˆ ˆ
SE u v , Var ˆ u v , kj i i kj i i * * * *
(21)
Persamaan (21) dapat diperoleh dari persamaan (12). Statistik uji pada persamaan (20) berdistribusi normal standar. Hal ini dapat ditunjukkan sebagai berikut: T T T T
u v u v u v u v u v * *
Salah satu sifat β ˆ( , ) , β ˆ( , ) β ( , ) β ( , ) β ( , ) i i i i i i i i J i i 1 *
( , ) u v adalah berdistribusi normal
β
i i * *asimtotik yaitu: asym * * 1
β ˆ( , ) ( ( , ),[ ( ( , ))] ) β I β (22) i i i i i i * * * * * *
u v ( , ) u v adalah nilai sebenarnya * * i i β i i * *
dari parameter ( , ) u v . Karena ˆ( , ) u v adalah estimator yang takbias, maka
β β i i i i * * * * persamaan (22) ekuivalen dengan persamaan (23). d 1 1