Funkcije veze i linearni predvidatelji
3 Funkcije veze i linearni predvidatelji
Odnos izmedu odziva i kontroliranih varijabli definiran je kroz E[Y ]. Raz- matramo li prvo linearni model regresije za normalno distribuirane podatke, to se moˇze napisati kako slijedi:
Y ∼ N(µ, σ 2 )
gdje je µ = β 0 +β 1 x. Uoˇcite da su sastavni dijelovi modela
1. Distribucija podataka U ovom sluˇcaju to je normalna distribucija, ali ´ce biti proˇsirena do bilo koje
distribucije koja se moˇze napisati kao eksponencijalne familije.
2. “Linearni predvidatelj” Linearni predvidatelj je funkcija kontroliranih varijabli. U ovom sluˇcaju to
je β 0 +β 1 x.
3. “Funkcija veze” Nuˇzno je povezati srednji odziv s linearnim predvidateljem. U ovom sluˇcaju
veza je direktna jednakost: E[Y ] = linearni predvidatelj. Op´cenito uzimamo neku funkciju srednjeg odziva i tu funkciju zovemo funkcijom veze. Spojimo li 2. i 3., imamo op´cenito odnos
g(µ) = η
gdje je g funkcija veze i η je linearni predvidatelj. Da bismo definirali GLM trebamo specificirati sve tri gornje komponente. U praksi, distribucija podataka obiˇcno je specificirana na poˇcetku (ˇcesto defini- rana podacima), linearni predvidatelj moˇze se odabrati ovisno o tome ˇsto se smatra odgovaraju´cim ili pogodnim, i tada se nalazi najbolja struktura mo- dela promatraju´ci raspon linearnih predvidatelja. Naravno, to nisu pravila kojih se moramo pridrˇzavati: mogu´ce je da odgovara viˇse od jedne distribu- cije, i te se moraju ispitivati prije donoˇsenja konaˇcne odluke. Moˇze biti nejasno koju funkciju veze treba upotrijebiti, te se opet treba ispitati raspon funkcija. Sada ´cemo detaljnije promatrati funkcije veze i linearne predvidatelje.
Poglavlje 9, stranica 6
c Faculty and Institute of Actuaries
Generalizirani linearni modeli
Predmet 106
3.1 Funkcije veze
Da bi funkcija veze odgovarala modelu potrebno je, tehniˇcki, da bude dife- rencijabilna i invertibilna. Osim tih osnovnih uvjeta, ve´ci broj funkcija su odgovaraju´ce za gornje distribucije. Za svaku distribuciju se prirodna, ili kanonska, funkcija veze definira sa g(µ) = θ(µ). Stoga je kanonska funkcija veze za svaki od gornjih sluˇcaja
Normalna Identiteta g(µ) = µ Poissonova Log
g(µ) = log(µ)
Binomna µ Logit g(µ) = log
Te funkcije veze dobro rade za svaku od gornjih distribucija, ali ih nije nuˇzno koristiti u svakom sluˇcaju. Na primjer, moˇzete koristiti identitetu kao funkciju veze u vezi s Poissonovom distribucijom, moˇzete koristiti log funkciju veze za podatke koji imaju gama distribuciju, i tako dalje. Medutim, morate razmotriti posljedice izbora funkcije veze na mogu´ce vrijednosti od µ. Na primjer, ako podaci imaju Poissonovu distribuciju, tada µ mora biti
pozitivan. Ako upotrijebite log funkciju veze, tada je η = log(µ) i µ = e η . Stoga je sigurno da ´ce µ biti pozitivan bez obzira koju vrijednost (pozitivnu
ili negativnu) poprimi linearni predvidatelj. To ne´ce biti tako upotrijebite li identitetu kao funkciju veze. Postoje i druge funkcije veze i za odredene namjere modeliranja mogu biti vrlo sloˇzene. Kao temelj aktuarskih primjena, gornje ˇcetiri funkcije su ˇcesto dovoljne.
3.2 Linearni predvidatelj
Kovarijate (takoder zvane kontrolne varijable ili varijable predvidanja), ulaze u model pomo´cu linearnih predvidatelja. Ovdje se takoder pojavljuju para- metri koje treba procijeniti. U sluˇcaju pravca za jednu kontrolnu varijablu
x, linearni predvidatelj je β 0 +β 1 x, te da bi se taj model prilagodio potrebno je procijeniti faktore β 0 iβ 1 . U tom sluˇcaju vaˇzna je stvarna vrijednost od x. Primjer varijable tog tipa koja se redovito pojavljuje u aktuarskoj praksi je dob osiguranika. Drugi glavni tip kovarijate je faktor koji uzima kategorijsku vrijednost. Na primjer, spol osiguranika je ili muˇski ili ˇzenski, ˇsto tvori faktor s dvije kategorije (ili nivoa). Taj tip kovarijate moˇze se parametrizirati tako
c Faculty and Institute of Actuaries Poglavlje 9, stranica 7
Predmet 106
Generalizirani linearni modeli
da linearni predvidatelj ima ˇclan α 1 za muˇsko, a ˇclan α 2 za ˇzensko. Tako model koji ukljuˇcuje uˇcinak dobi i uˇcinak spola na osiguranika moˇze imati linearni predvidatelj
α i + βx
gdje je i = 1 za muˇsko i i = 2 za ˇzensko. Uoˇcite da je parametar β 0 re- dundantan i nije ukljuˇcen (moˇze se procijeniti zasebno od α 1 iα 2 ). Uoˇcite takoder da je uˇcinak dobi osiguranika jednak za muˇske i ˇzenske. Moˇze se dopustiti interakcija izmedu dvije kovarijate, dobi i spola, i imati linearni predvidatelj
α i +β i x.
U ovom sluˇcaju je uˇcinak dobi osiguranika razliˇcit za muˇske i ˇzenske. Faktor za sebe se naziva glavnim uˇcinkom. Takoder je mogu´ce imati interakciju izmedu dva faktora koja dopuˇsta da uˇcinak jednog faktora na varijablu odziva ovisi o vrijednosti drugog faktora. Kada se u modelu koristi interaktivni
ˇclan, moraju se ukljuˇciti oba glavna uˇcinka. Model s glavnim uˇcincima za dva faktora i njihovu interakciju ima linearni predvidatelj
α i +β i +γ ij .
Postoji notacija za specificiranje tih modela, koja je za gornje modele kako slijedi:
model linearni predvidatelj dob
β 0 +β 1 x
spol
dob + spol
α i + βx
dob + spol + dob. spol
α i +β i x
dob* spol
α i +β i x
Zadnja dva modela su ekvivalentna, a pokazana su odvojeno za ilustraciju upotrebe notacije za modele. I drugi modeli se mogu prilagoditi, ukljuˇcuju´ci, na primjer, model za dob bez slobodnog ˇclana. Modeli se mogu specificirati na sliˇcan naˇcin, i to se obiˇcno radi direktno unutar statistiˇckih kompjutorskih paketa kao ˇsto su GLIM ili S-Plus. Op´cenito, aktualna vrijednost varijable ulazi u linearni predvidatelj, dok za faktore postoji parametar za svaki nivo koji taj faktor moˇze imati. Raspon linearnih predvidatelja je vrlo ˇsirok, i dolje su dani neki daljnji primjeri. Zahtjev je da bude linearan u parametrima.
Poglavlje 9, stranica 8
c Faculty and Institute of Actuaries
Generalizirani linearni modeli
Predmet 106
Najjednostavniji model za varijablu je pravac, a to se moˇze proˇsiriti do poli- noma, do funkcija te varijable, i do linearnih predvidatelja koji ukljuˇcuju viˇse od jedne varijable. To ilustrira donja tablica. Dob i trajanje se tretiraju kao varijable, dok su dob i grupa za odredivanje premije vozila faktori. Ako postoji viˇse od jednog faktora u modelu, tada ukljuˇcivanje ˇclana interakcije implicira da uˇcinak svakog faktora ovisi o nivou drugog faktora.
model linearni predvidatelj dob
β 0 +β 1 x dob + dob 2
0 +β 1 x+β 2 x dob + trajanje
β 0 +β 1 x+β 2 x 2 log(dob)
β 0 + +β log x spol
α i grupa za odredivanje premije vozila
β j spol + grupa za odredivanje premije vozila
α i +β j spol* grupa za odredivanje premije vozila
α i +β j