Devijacija u prilagodbi modela

4 Devijacija u prilagodbi modela

Parametri u GLM se obiˇcno procjenjuju upotrebom procjene maksimalne vjerodostojnosti. Funkcija log-vjerodostojnosti, l(y; θ, φ) = log(f Y (y; θ, φ)), ovisi o parametrima u linearnom predvidatelju preko funkcije veze. Stoga se procjene parametara pomo´cu maksimalne vjerodostojnosti mogu dobiti mak- simiziranjem l u odnosu na parametre u linearnom predvidatelju. Aproksi- macije standardnih pogreˇsaka parametara takoder se mogu dobiti upotre- bom teorije asimptotske maksimalne vjerodostojnosti. Proces izbora modela takoder koristi metode koje su aproksimacije temeljene na teoriji maksimalne vjerodostojnosti, i u ovom odjeljku skiciramo taj proces. Zasi´ceni model definira se kao model u kojem je toliko parametara koliko i opaˇzanja, tako da su prilagodene vrijednosti jednake opaˇzenim vrijednos- tima. Skalirana devijacija definira se kao dvostruka razlika izmedu log- vjerodostojnosti modela kojeg razmatramo (poznat kao sadaˇsnji model) i zasi´cenog modela. Devijacija za sadaˇsnji model, D M , definira se tako da je

skalirana devijacija =

Odluka koji model koristiti obiˇcno zapoˇcinje razmatranjem devijacija za niz modela. ˇ Sto je manja devijacija, to je model bolji s toˇcke glediˇsta prilagodbe

c Faculty and Institute of Actuaries Poglavlje 9, stranica 9

Predmet 106

Generalizirani linearni modeli

modela. To se moˇze ilustrirati promatraju´ci sluˇcaj kada su podaci normalno distribuirani. U tom sluˇcaju je log-vjerodostojnost uzorka veliˇcine n jednaka

l(y; θ, φ) = X log(f

Za zasi´ceni model se parametar θ i procjenjuje s y i , te tako drugi ˇclan iˇsˇcezava. Stoga je skalirana devijacija (dvostruka razlika izmedu vrijednosti log-vjero- dostojnosti sadaˇsnjeg i zasi´cenog modela) jednaka

X (y 2 i −ˆ θ i )

i =1

gdje je ˆ θ i prilagodena vrijednost za sadaˇsnji model. Devijacija je (podsjetimo se da je parametar skaliranja φ = σ 2 ) dobro poznat zbroj kvadrata ostataka:

Stoga se moˇze vidjeti da je devijacija mjera prilagodbe modela. Za normalno distribuirane podatke, skalirana devijacija ima χ 2 -distribuciju. Do sada smo ignorirali problem parametra skaliranja koji takoder treba procijeniti. Za normalne podatke, uobiˇcajena procedura je uzeti kvocijent zbroja kvadrata

i upotrijebiti F -test (kao u analizi varijance). U sluˇcaju podataka koji nisu normalno distribuirani, parametar skaliranja moˇze biti poznat (na primjer, za Poissonovu distribuciju φ = 1), i devijacija je samo aproksimativno (u

stvari asimptotski) χ 2 distribucija. Zbog tih razloga uobiˇcajena procedura je usporedba dva modela promatranjem razlike u devijaciji i usporedivanje sχ 2 distribucijom. Znaˇcajna vrijednost (na nivou 5% ) χ 2 distribucije sa ν stupnjava slobode je pribliˇzno 2ν. Stoga, ako ˇzelimo odluˇciti da li je model

2 (koji ima p parametara i devijaciju S 2 ) znaˇcajno poboljˇsanje u odnosu na model 1 (koji ima q parametara i devijaciju S 1 ), moˇzemo usporediti S 1 −S 2 sχ 2

p−q distribucijom. Kao aproksimacija, preferirat ´cemo model 2 ako je S 1 −S 2 > 2(p − q). Vaˇzna toˇcka je da se ova metoda usporedbe moˇze

Poglavlje 9, stranica 10

c Faculty and Institute of Actuaries

Generalizirani linearni modeli

Predmet 106

upotrijebiti samo za ugnijeˇzdene modele. Drugim rijeˇcima, model 1 mora biti podmodel modela 2. Zato moˇzemo usporedivati dva modela za koje je distribucija podataka i funkcija veze ista, ali linearni predvidatelj ima dodatni

parametar u modelu 2. Na primjer β 0 +β 1 xiβ 0 +β 1 x+β 2 x 2 . Ali na ovaj naˇcin ne moˇzemo usporedivati razliˇcite distribucije podataka ili funkcije veze, ili, na primjer, kada su linearni predvidatelji β 0 +β 1 x+β 2 x 2 iβ 0 +β 2 log x. Treba biti jasno da moˇzemo mjeriti vaˇznost faktora ispituju´ci skalirane devijacije, ali ne moˇzemo upotrijebiti gore skiciranu proceduru testiranja.

Ukratko, tablica devijacija za ugnjeˇzdene modele moˇze se koristiti za ispi- tivanje skupa mogu´cih modela da bi se odredilo koji su faktori, interakcije, varijable ili funkcije varijabli vaˇzni predvidatelji varijable odziva.

4.1 Primjer

Za ilustraciju upotrebe devijacije u izboru modela, promatramo skup po- dataka koji se odnose na ˇstete motornih vozila. Postoje tri faktora: dob os- iguranika (do), starost vozila (sv) i premijska grupa vozila (gv). Ovi podaci su koriˇsteni u knjizi P. McCullagh i J. Nelder, “Generalized Linear Models”, koja je vjerojatno najraˇsirenija referentna knjiga u ovom podruˇcju. Koristimo analizu iz te knjige. Devijacije za potpun raspon mogu´cih modela pokazane

c Faculty and Institute of Actuaries Poglavlje 9, stranica 11

Predmet 106

Generalizirani linearni modeli

su u doljnjoj tablici.

Model Devijacija Stupnjevi Razlike slobode

34.32 21 do + gv + sv + do.gv

18.77 21 do + gv + sv + do.gv + do.sv

3.89 9 do + gv + sv + do.gv + do.sv + gv.sv

69.524 58 do + gv + sv + do.gv + do.sv + gv.sv + do.gv.sv 0

Uoˇcite da se prvi model sastoji jednostavno od konstante (1 parametar),

a zadnji ima toliko parametara koliko i podataka, te je stoga prilagodba savrˇsena. Zadnji model takoder sadrˇzi i ˇclan s trostrukom interakcijom. U praksi, kod prilagodivanja modela odredivanja premija takve je modele naj- bolje izbjegavati.

Pri odluˇcivanju koji model(i) adekvatno objaˇsnjava podatke, treba ispitivati razlike u devijacijama i stupnjevima slobode. Redoslijed kojim se ˇclanovi dodaju modelu utjeˇce na rezultate, te se u praksi moˇze gledati nekoliko re- doslijeda tako da se ne propusti niˇsta vaˇzno. Na primjer, svaki glavni uˇcinak moˇze se prilagoditi sam za sebe, umjesto da se svaki dodaje modelu kao ˇsto je napravljeno gore.

Ako je razlika u devijacijama ve´ca od dvostrukih stupnjeva slobode, tada je dodani ˇclan znaˇcajan u objaˇsnjenju varijacije u odzivu. Stoga vidimo da se svaki od glavnih uˇcinaka ˇcini znaˇcajnim i treba biti upotrebljen u modelu. Medutim, niti jedan od interaktivnih ˇclanova ne ˇcini se naroˇcito znaˇcajnim.

Poglavlje 9, stranica 12

c Faculty and Institute of Actuaries

Generalizirani linearni modeli

Predmet 106

Dokumen yang terkait

HASIL UJI KEMAMPUAN DASAR MATEMATIKA MAHASISWA BARU FMIPA TAHUN 2015 DAN ANALISA BUTIR SOAL TES DENGAN MENGGUNAKAN INDEKS POINT BISERIAL

2 67 1

IMPLEMENTASI MODEL COOPERATIVE LEARNING TIPE STAD (STUDENT TEAMS ACHIEVEMENT DIVISION) UNTUK MENINGKATKAN HASIL BELAJAR SISWA PADA POKOK BAHASAN MENGENAL UNSUR BANGUN DATAR KELAS II SDN LANGKAP 01 BANGSALSARI

1 60 18

Peningkatan keterampilan menyimak melalui penerapan metode bercerita pada siswa kelas II SDN Pamulang Permai Tangerang Selatan Tahun Pelajaran 2013/2014

20 223 100

PENGARUH METODE THINKING ALOUD PAIR PROBLEM SOLVING (TAPPS) DAN GENDER TERHADAP KEMAMPUAN BERPIKIR KRITIS MATEMATIKA SISWA

34 139 204

UPAYA MENINGKATKAN AKTIVITAS DAN HASIL BELAJAR MATEMATIKA MELALUI MODEL SNOWBALL THROWING PADA PESERTA DIDIK KELAS IV SD NEGERI 3 NEGERI SAKTI KABUPATEN PESAWARAN T.P 2012-2013

2 28 44

PENINGKATAN HASIL BELAJAR MATEMATIKA DENGAN MENGGUNAKAN MODEL PEMBELAJARAN DISCOVERY PADA SISWA KELAS V SEKOLAH DASAR NEGERI 5 SUNGAILANGKA PESAWARAN TAHUN PELAJARAN 2012/2013

0 22 38

TINJAUAN TENTANG ALASAN PERUBAHAN KEBIASAAN NYIRIH MENJADI MEROKOK DI KALANGAN IBU-IBU DI DUSUN TRIMO HARJO II KELURAHAN BUMI HARJO KECAMATAN BUAY BAHUGA KABUPATEN WAY KANAN

3 73 70

PENINGKATAN AKTIVITAS DAN HASIL BELAJAR MATEMATIKA PADA MATERI LUAS BANGUN DATAR MENGGUNAKAN METODE DISCOVERY DI KELAS VB SD NEGERI 5 SUMBEREJO KECAMATAN KEMILING BANDAR LAMPUNG TAHUN PELAJARAN 2012/2013

7 63 30

PENGGUNAAN MODEL COOPERATIVE LEARNINGTIPE NUMBERED HEADS TOGETHER (NHT) DALAMPEMBELAJARAN MATEMATIKA UNTUK MENINGKATKAN HASIL BELAJAR SISWA KELAS IV SDN 1 KUTOARJO TAHUN PELAJARAN 2013/2014

1 23 51

TEKNIK REAKSI KIMIA II

0 26 55