PENGARUH MIXED DISTRIBUTION PADA PENDEKATAN QUASI-LIKELIHOOD DALAM MODEL LINEAR

  

PENGARUH MIXED DISTRIBUTION

PADA PENDEKATAN QUASI-LIKELIHOOD

1) DALAM MODEL LINEAR

  

Anang Kurnia

  Departemen Statistika FMIPA IPB Jl. Meranti, Wing 22 Level 4 Kampus IPB Darmaga, Bogor

  Email: anangk@ipb.ac.id

  Abstrak . Diawali oleh Wedderburn (1974), perkembangan metode “quasi-

likelihood” (QL) telah memberikan manfaat yang sangat besar dalam

pemodelan statistika. Dengan keuntungan yang dimilikinya yaitu tidak

memerlukan diketahuinya bentuk sebaran dari peubah respon, metode QL

telah menjadi alternatif dalam pemodelan statistika yang komplek. Namun

demikian, inferensi berdasarkan metode quasi-likelihood hanya bisa dilakukan

berdasarkan sifat asimtotik. Disamping itu, pengaruh data pencilan atau

terjadinya mixed distribution pada peubah respon akan mempengaruhi akurasi

pendugaan yang dihasilkannya.

  

Kajian simulasi untuk hal tersebut, menunjukkan bahwa terjadinya mixed

distribution dibawah 10% masih memungkinkan untuk digunakan quasi-

likelihood dengan menganggap respon berasal dari satu populasi. Sedangkan

jika terjadi mixed distribution diatas 10%, analisis harus mempertimbangkan

kondisi ini karena pendugaaan dan inferensi jika hal tersebut diabaikan

menjadi jauh dari kondisi sebenarnya.

  Kata Kunci : Quasi-likelihood, mixed distribution

  1. Pendahuluan Pemodelan statistika berkembang sangat cepat sejalan dengan perkembangan teknologi komputasi.

  Namun demikian banyak masalah-masalah aktual dalam pemodelan yang tidak bisa dilakukan dengan sederhana. Pendekatan full likelihood memiliki keterbatasan pada asumsi sebaran peubah respon. Diawali oleh Wedderburn (1974), kemudian McCullagh (1983) dikembangkan suatu pendekatan lain “quasi-likelihood” yang memiliki keuntungan tidak memerlukan diketahuinya bentuk sebaran dari peubah respon, karena estimating function dibentuk hanya berdasarkan pada momen satu dan momen kedua. Namun demikian, keuntungan ini tidak menjadikan quasi-likelihood sebagai metode yang power-full. Oleh karena sifatnya yang relatif bebas sebaran, inferensi berdasarkan metode quasi- likelihood hanya bisa dilakukan berdasarkan sifat asimtotik. Disamping itu, pengaruh data pencilan atau terjadinya mixed distribution pada peubah respon akan mempengaruhi akurasi pendugaan yang dihasilkannya. Seberapa besar pengaruh mixed distribution mempengaruhi pendugaan pada metode quasi-likelihood menjadi kajian pada paper ini.

  2. Tinjauan Pustaka

Generalized Linear Model (GLM)

  Model linear khususnya model regresi sudah mulai digunakan sejak awal abad 19, ditandai dengan kajian-kajian yang dilakukan oleh Francis Galton (1822-1911) tentang hubungan tinggi badan ayah dan anaknya. Dalam perkembangannya, model regresi linear dengan asumsi peubah respon Y ~ N( µ ,

  i i

  2 ) tidaklah mampu menjawab masalah-masalah yang dihadapi dalam pemodelan statistik.

  σ Generalized Linear Model (GLM) merupakan pengembangan dari model linear ”klasik” khususnya

  1)

  Paper disampaikan pada Seminar Nasional Statistika, Universitas Islam Bandung, 24 Mei 2007 dalam mengatasi kendala peubah respon yang tidak normal. Namun demikian, peubah respon dalam GLM diasumsikan memiliki sebaran yang termasuk dalam keluarga sebaran eksponensial. Ada tiga komponen utama dalam GLM (McCullagh dan Nelder,1989), meliputi :

  1. Komponen acak, yaitu peubah respon Y , Y , …, Y yang merupakan contoh acak dimana Y

  1 2 n i

  2

  ~ ( µ , σ ) dan termasuk dalam keluarga sebaran eksponensial

  i

  2. Komponen sistematik yang merupakan fungsi dari peubah penjelas : = x x i + x η i β

  • 1 1i β

  2 2 β 3 3i

  • … + β x

  p pi

  3. Fungsi hubung yang menghubungkan suatu fungsi dari nilai tengah komponen acak dengan komponen sistematik : g( µ ) = η .

  i i

  Jika Y adalah suatu peubah acak, baik kontinu maupun diskret, dan termasuk dalam keluarga sebaran eksponensial, maka fungsi peluang atau fungsi kepekatan peluang Y dapat dimodelkan sebagai berikut dengan a, b, dan c merupakan fungsi spesifik yang diturunkan berdasarkan fungsi peluang atau fungsi kepekatan peluang dari Y. Nilai harapan dan ragam peubah acak Y dinotasikan : Jika µ merepresentasikan nilai tengah dari Y, dan ragam merupakan fungsi dari nilai tengah, maka dimana V(.) adalah suatu fungsi ragam yang diketahui.

  Fungsi likelihood dari n peubah acak Y , Y , ..., Y didefinisikan sebagai fungsi kepekatan peluang

  1 2 n bersama dari n peubah acak f(y| θ) yang dilihat sebagai fungsi dari θ dan dinotasikan dengan L(θ | y).

  Untuk suatu gugus y yang diketahui, memaksimumkan L( θ | y) adalah metode kemungkinan θ. Dalam kasus Y θ | y)] maksimum dalam menduga i adalah keluarga sebaran eksponensial, log [L( adalah Jika E(Y) = µ tergantung pada parameter β , β , …, βp maka penduga kemungkinan maksimum

  1

  

2

  untuk setiap βj adalah penyelesaian dari persamaan berikut dimana η = X β, atau dapat pula ditulis dalam notasi score function yang merupakan turunan pertama

  i i terhadap θ dari fungsi log-likelihood.

  Sedangkan nilai harapan dari turunan keduanya

  E ( )

  disebut Fisher information function. Solusi kemungkinan maksimum dari θ adalah penyelesaian S(θ)

  • 1 = 0, dan [I( θ)] adalah penduga ragamnya.

  

Quasi Likelihood

  Quasi-likelihood (QL) merupakan suatu framework dalam pemodelan statistika yang didasari oleh pendekatan terhadap model fungsi likelihood. Keuntungan dari quasi-likelihood adalah tidak memerlukan diketahuinya bentuk sebaran dari peubah respon, karena estimating function dibentuk berdasarkan momen satu dan momen kedua. Model dasar quasi-likelihood pertama kali dikembangkan oleh Wedderburn (1974). Fungsi quasi- likelihood didefinisikan sebagai dengan E(y ) = µ dan ragam var(y ) = V(µ ) dengan V merupakan suatu fungsi yang diketahui. Dalam

  i i i i

  kasus regresi, µ biasanya tergantung pada suatu fungsi linear x β melalui suatu fungsi hubung g

  i

  • 1

  sehingga µ = g (x β). Wedderburn (1974) memperlihatkan bahwa perhatian pada µ dan koefisien

  i i

  regresi β dari fungsi Q(µ ;y ) memiliki sifat yang sama dengan fungsi log-likelihood. Hal ini dapat

  i i

  dijelaskan dengan memperhatikan prinsip-prinsip quasi-likelihood yang mirip dengan GLM, meliputi :

  1. Pola hubungan nilai tengah dengan peubah bebas yang membentuk suatu fungsi hubung, g( µ ) = η .

  i i

  2. Pola hubungan ragam dengan nilai tengah yang membentuk fungsi ragam (variance function), Var(Y ) = φV(µ ), dengan φ adalah dispersion parameter.

  i i

  Berdasarkan dua komponen yang menyusun QL tersebut, jelas menjadikan quasi-likelihood mirip dengan fungsi log-likelihood pada GLM sehingga QL dapat diselesaikan dengan cara yang sama seperti pada penyelesaian GLM. Parameter yang akan diduga pada quasi-likelihood adalah θ = (β, φ) dimana β merupakan parameter yang menjadi perhatian, sedangkan φ biasanya bukan merupakan parameter yang menjadi perhatian dan sering disebut nuisance parameter. Pengaruh φ digunakan pada pendugaan galat baku penduga β.

  Dalam kasus model linear, Pawitan (2001) menunjukkan bahwa dengan kondisi E(y ) = x ’ β = µ ( β)

  i i i

  2

  dan var(y i ) = σ i = V i ( β), maka untuk µ i (.) dan V i (.) yang diketahui, penduga bagi β adalah penyelesaian dari persamaan berikut

  n

  ∂ µ ( y µ )

  

i i i

  =

  ∑

  β

  V ∂

  i i =

  1

3. Kajian Simulasi untuk Kasus Mixed Distribution

  

Desain Simulasi

Kajian simulasi didasarkan pada model linear.

  Untuk pasangan pengamatan (y , x ), i = 1, 2, …, n dimana

  i i

  E(y ) = x ’ β = µ ( β)

  i i i

  2

  var(y ) = σ = V ( β)

  i i i

  Dengan memperhatikan bahwa penduga β merupakan penyelesaian dari n n

  

µ ( y µ ) β

∂ ( y x ' )

  i i i i i

  = ⇔

∑ x =

  i

  2

  ∂ β

V σ

  i i = 1 i = 1 i sehingga

  n

  2

  x y σ

  ∑ i i i i =

  1

  ˆ β =

  n

  2

  x x ' σ

  ∑ i i i i =

  1

  • 1 -1 -1

  = (X’V X) X’V Y

  2 dengan V = diag[ σ ]. i

2 Dengan demikian, untuk kasus Y i ~ N( µ i , σ i ) penyelesaian dengan quasi-likelihood, restricted maximum likelihood maupun ordinary least square akan menghasilkan pendugaan yang sama.

  Kajian simulasi dilakukan dengan memberikan intervensi pada peubah respon seolah-olah berasal dari dua populasi yang berbeda. Banyaknya intervensi berturut-turut 5%, 10%, 15%, 20%, dan 25% dari banyaknya pengamatan. Banyaknya pengamatan ditentukan n = 200 dan masing-masing diulang sebanyak 30 ulangan.

  Algoritma pembangkitan data didesain sebagai berikut :

  1. Bangkitkan X (sebagai peubah bebas), X ~ Seragam(145, 190)

  2. Tetapkan parameter, β = (-100 1,1)

  3. Hitung µ = X β

  i i

  4. Untuk setiap proporsi intervensi, set µ i = X i β + 15

  

2

  5. Hitung ragam untuk setiap pengamatan, σ = sqrt( µ )

  i i

  2

  6. Bangkitkan Y (peubah respon), Y i ~ N( µ i , σ i )

  7. Evaluasi pasangan pengamatan (y , x ) dengan metode quasi-likelihood, restricted maximum

  i i

  likelihood dan ordinary least square

  

Hasil Kajian Simulasi

  Gambar 1 dan Gambar 2 menyajikan pola distribusi data simulasi. Gambar 1 adalah pola distribusi data simulasi untuk 200 pengamatan dengan intervensi mixed distribusion sebesar 5%. Sedangkan Gambar 2 adalah pola distribusi data simulasi dengan pengamatan 200 dan intervensi mixed distribution sebesar 25%.

  Gambar 1. Sebaran peubah respon dengan intervensi 5% Gambar 2. Sebaran peubah respon dengan intervensi 25%

  Deskripsi hasil simulasi disajikan pada Tabel 1. Terlihat bahwa semakin besar intervensi yang dilakukan pada data, bias pendugaan baik intersep maupun koefisien model semakin besar. Gambar 3 menyajikan pola perubahan bias pendugaan parameter berdasarkan perubahan intervensi pada data. Berdasarkan Tabel 1 dan Gambar 3, terlihat bahwa intervensi data sampai dengan 10% dari banyaknya pengamatan masih memberikan toleransi bias pendugaan yang kecil. Baik intersep maupun koefisien parameter memiliki nilai mutlak bias dibawah 5%. Nilai mutlak bias naik dengan tajam jika intervensi data lebih dari 10%.

  Tabel 1. Deskripsi rata-rata pendugaan parameter model

  Presentase Intercept Coeff MSE-Model Intervensi

  5 -96.76 1.09 95.95 10 -105.20 1.14 104.49 15 -73.28 0.95 160.10 20 -64.92 0.90 175.72 25 -31.56 0.70 247.71

  80

  ias

  60

  e B

  40

  tas en s

  20

  er P

  5

  10

  15

  20

  25 Pe rs e ntas e Inte rve ns i Series1 Series2

  Intersep Koefisien Gambar 3. Persentase bias pendugaan parameter untuk setiap persentase intervensi pada data

  Pendugaan MSE-model juga memiliki pola yang serupa dengan pola nilai mutlak bias pendugaan parameter. Untuk intervensi yang lebih dari 10% dari data pengamatan, besarnya pendugaan MSE- model meningkat dengan cukup tajam. Peningkatan MSE-model seperti yang disajikan pada Gambar 4, juga berpengaruh langsung secara linear dalam pendugaan galat baku atau MSE-penduga parameter, karena MSE-penduga parameter merupakan fungsi linear dari MSE-model.

  300 247.71

  250 200

  175.72 160.10

  150 104.49

  95.95 100

  50

  5

  10

  15

  20

  25 Pe rs e ntas e Inte rve ns i Gambar 4. Perubahan pendugaan MSE-Model untuk setiap persentase intervensi pada data

  Peningkatan yang tajam baik pada nilai mutlak bias maupun MSE penduga parameter model untuk intervensi data memberikan indikasi bahwa jika ada indikasi mixed-distribution, apalagi lebih dari

  10% data pengamatan, peneliti harus lebih hati-hati dalam melakukan analisis. Memaksakan melakukan analisis dengan menganggap bahwa respon berasal dari satu populasi beresiko dalam pendugaan parameter.

4. Kesimpulan

  Penggunaan metode quasi-likelihood (QL), restricted maximum likelihood (REML) maupun ordinary least square (OLS) untuk data simulasi yang dibangkitkan dari populasi normal menghasilkan pendugaan parameter yang sama. QL dan OLS adalah dua metode yang tidak mensyaratkan diketahuinya sebaran peubah respon, sedangkan REML ataupun maximum likelihood untuk kasus data normal secara analitik akan menghasilkan pendugaan parameter yang sama dengan QL maupun OLS.

  Pengaruh intervensi mixed distribution pada data simulasi baik dilakukan analisis dengan metode QL, OLS maupun REML memberikan hasil yang sama. Peningkatan proporsi intervensi yang diberikan semakin meningkaktan nilai mutlak bias maupun pendugaan MSE. Intervensi mixed distribution yang kurang dari 10%, menyebabkan bias kurang dari 5%, sehingga jika hal ini terjadi pada data empirik masih memungkinkan untuk dilakukan analisis dengan mengasumsikan data berasal dari satu populasi. Namun untuk intervensi yang lebih dari 10%, mengasumsikan data masih berasal dari satu populasi memberikan resiko yang besar dalam inferensi model, sehingga seharusnya dilakukan analisis berbasis mixed distribution.

  

Daftar Pustaka

Godambe VP. dan Heyde CC. 1987. Quasi-likelihood and optimal estimation. Intl Statist Review.

  ;55:231–244. McCullagh P. 1983. Quasi-likelihood functions. Ann Statist. ;11:59–67. McCullagh, P.dan Nelder, JA. 1989. Generalized Linear Models. 2. Chapman and Hall, London. Nelder JA, dan Lee Y. 1992. Likelihood, quasi-likelihood and pseudolikelihood: some comparisons. J R Statist Soc B.;54:273–284.

  Pawitan, Y. 2001. In All Likelihood: Statistical Modelling and Inference Using Likelihood. Clarendon Press, Oxford. Wedderburn RWM. 1974. Quasi-likelihood functions, generalized linear models, and the Gauss- Newton method. Biometrika.;61:439–447.

  Lampiran 1. Sebagian Output Quasi-Likelihood, Restricted Maximum Likelihood dan Ordinary Least Square pada data simulasi dengan intervensi 5 %.

  The GLIMMIX Procedure Model Information Response Distribution Unknown Link Function Identity Variance Function 1 Estimation Technique Quasi-Likelihood Parameter Estimates Standard Effect Estimate Error DF t Value Pr > |t| Intercept -104.09 9.2952 198 -11.20 <.0001 X 1.1250 0.05552 198 20.26 <.0001 Residual 107.87 . . . .

  The GLIMMIX Procedure Model Information Response Distribution Gaussian Link Function Identity Variance Function Default Estimation Technique Restricted Maximum Likelihood Parameter Estimates Standard Effect Estimate Error DF t Value Pr > |t| Intercept -104.09 9.2952 198 -11.20 <.0001 X 1.1250 0.05552 198 20.26 <.0001 Scale 107.87 10.8412 . . .

  The REG Procedure Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 44280 44280 410.50 <.0001 Error 198 21358 107.86816 Corrected Total 199 65638 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > |t| Intercept Intercept 1 -104.09398 9.29518 -11.20 <.0001

  X X 1 1.12497 0.05552 20.26 <.0001

  Lampiran 2. Hasil pendugaan parameter pada data simulasi berdasarkan metode quasi-likelihood

  

Intervensi 5% Intervensi 10%

No. B0 B1 MSE-Model B0 B1 MSE-Model

  1 -104.0900 1.1250 107.8700 -110.2000 1.1752 109.2200 2 -105.3000 1.1373 107.9700 -105.3500 1.1426 90.2208 3 -95.7839 1.0829 123.0500 -111.7600 1.1837 101.4700 4 -87.9778 1.0257 102.4000 -107.1400 1.1510 112.9300 5 -87.9365 1.0320 98.1003 -96.7979 1.0897 86.9418 6 -106.4700 1.1469 91.1556 -108.8600 1.1591 97.2449 7 -100.2000 1.1117 87.8798 -110.4800 1.1709 88.0713 8 -92.0821 1.0548 99.9047 -96.5088 1.0921 119.8200 9 -88.5113 1.0357 93.2441 -110.3300 1.1762 101.5100 10 -105.1900 1.1385 105.1400 -97.3053 1.0974 102.9200

  11 -96.5193 1.0867 87.6829 -108.4900 1.1566 103.7700 12 -111.7500 1.1701 108.7800 -103.3100 1.1313 113.4600 13 -96.3774 1.0775 93.7820 -101.4900 1.1185 94.1875 14 -90.1284 1.0455 81.1876 -91.3852 1.0530 92.0453 15 -101.7400 1.1156 82.6093 -105.4900 1.1381 108.6100 16 -94.7503 1.0760 106.6200 -98.5473 1.1008 108.8100 17 -94.4194 1.0758 76.6619 -98.6479 1.1036 97.7858 18 -94.7401 1.0724 85.0134 -105.0000 1.1431 95.3625 19 -89.4162 1.0377 89.4151 -99.5995 1.1043 106.5400 20 -91.4737 1.0551 76.5309 -110.1500 1.1662 95.9693 21 -91.8156 1.0550 87.3936 -110.0800 1.1724 110.7100 22 -96.3271 1.0841 113.2000 -120.8700 1.2343 118.0000 23 -91.7637 1.0589 98.6719 -108.0900 1.1557 118.2000 24 -104.3900 1.1310 76.9285 -107.5400 1.1517 108.3800 25 -94.5840 1.0714 96.0896 -119.3300 1.2277 121.6000 26 -94.4193 1.0762 91.5096 -96.8744 1.0936 105.0300 27 -106.5200 1.1390 98.1910 -94.1486 1.0725 107.3100 28 -95.1057 1.0800 116.3600 -100.6700 1.1119 109.8900 29 -99.1103 1.1036 99.3868 -118.6700 1.2155 105.1700 30 -93.7602 1.0673 95.6922 -102.7600 1.1230 103.4800 Lampiran 2. Hasil pendugaan parameter pada data simulasi berdasarkan metode quasi-likelihood

  Intervensi 15% Intervensi 20% No. B0 B1 MSE-Model B0 B1 MSE-Model

  1 -61.6212 0.8789 160.1500 -70.1561 0.9256 180.6800 2 -80.9142 1.0006 164.4600 -58.5970 0.8620 182.9000 3 -76.9403 0.9668 164.3200 -69.4084 0.9222 186.8000 4 -66.3130 0.9102 162.6100 -71.8121 0.9382 156.9100 5 -77.7803 0.9796 147.7500 -50.8781 0.8119 190.5300 6 -74.2710 0.9544 143.4200 -70.9390 0.9364 180.2800 7 -69.0762 0.9183 140.3500 -61.4570 0.8777 184.2900 8 -65.0806 0.8949 159.8700 -41.6533 0.7528 185.1000 9 -80.4510 0.9970 176.6500 -53.4820 0.8316 174.2500 10 -78.4694 0.9783 177.8000 -62.3355 0.8830 180.1600

  11 -70.0338 0.9337 158.0600 -62.2864 0.8818 177.6400 12 -72.4576 0.9465 191.2600 -76.2894 0.9704 178.1000 13 -71.3514 0.9421 171.3600 -68.6345 0.9256 146.4300 14 -74.1147 0.9508 149.6100 -71.5045 0.9352 201.1400 15 -63.9835 0.8905 155.2800 -71.7678 0.9343 156.0400 16 -88.4130 1.0424 149.5100 -67.5960 0.9081 168.5400 17 -72.9315 0.9453 170.0400 -78.1077 0.9740 197.0900 18 -62.3561 0.8782 143.8300 -51.2083 0.8155 174.3000 19 -74.5510 0.9514 182.3800 -53.9479 0.8349 168.7500 20 -78.8687 0.9872 137.5900 -54.0066 0.8273 194.7900 21 -74.0964 0.9497 175.6700 -70.6045 0.9309 180.5500 22 -61.2068 0.8709 132.9700 -64.5814 0.8947 145.0000 23 -66.0670 0.9142 162.4900 -76.7923 0.9676 191.3900 24 -73.5612 0.9483 151.2100 -78.2506 0.9769 165.0700 25 -68.8475 0.9202 157.9300 -61.6423 0.8759 180.1800 26 -71.5390 0.9360 175.1000 -70.2674 0.9313 176.1200 27 -77.8568 0.9807 141.5900 -59.8571 0.8620 173.7300 28 -83.5256 1.0147 149.4500 -70.1822 0.9261 161.0100 29 -87.8618 1.0456 175.6300 -63.8013 0.8907 158.6900 30 -74.0090 0.9556 174.5200 -65.4642 0.8980 175.2300 Lampiran 2. Hasil pendugaan parameter pada data simulasi berdasarkan metode quasi-likelihood

  Intervensi 25% No. B0 B1 MSE-Model

  1 -32.7793 0.7046 230.2600 2 -39.5092 0.7475 261.1200 3 -31.5739 0.6994 243.6500 4 -35.5297 0.7264 221.2300 5 -26.5146 0.6736 220.6000 6 -26.5101 0.6700 246.3800 7 -30.9150 0.7009 259.2900 8 -19.2076 0.6294 239.1700 9 -22.3491 0.6459 228.2400 10 -43.7108 0.7747 236.9300

  11 -39.5022 0.7494 267.8400 12 -35.2377 0.7256 257.8700 13 -26.7754 0.6710 236.2700 14 -26.7865 0.6737 231.5800 15 -36.1538 0.7331 238.1200 16 -24.2711 0.6613 266.6100 17 -34.8963 0.7203 231.0000 18 -31.0452 0.7020 215.9000 19 -40.2408 0.7550 264.6400 20 -23.6834 0.6511 247.5700 21 -17.7075 0.6206 289.9100 22 -20.6716 0.6389 262.4400 23 -32.1472 0.7082 251.8500 24 -31.7064 0.7019 269.5000 25 -42.0327 0.7665 266.5200 26 -45.5136 0.7898 261.8100 27 -26.7614 0.6736 244.9800 28 -40.2888 0.7568 252.6900 29 -28.3523 0.6805 242.5700 30 -34.2910 0.7194 244.6700