Eksponencijalne familije
2 Eksponencijalne familije
Distribucija sluˇcajne varijable Y pripada eksponencijalnoj familiji ako njena gusto´ca ima sljede´ci oblik:
f Y (y; θ, φ) = exp
+ c(y, φ)
a(φ)
gdje su a, b i c funkcije. Uoˇcite da to nije jedinstveno, te da se drugdje mogu vidjeti malo drugaˇcije definirane eksponencijalne familije. Imamo dva parametra u gornjoj definiciji: θ, koji se naziva “prirodnim” parametrom, je relevantan za model zbog odnosa odziva (Y ) i kontroliranih varijabli, i φ poznat kao parametar skaliranja. Da bismo motivirali te defini- cije i kasniji razvoj, promotrimo prvo normalnu distribuciju.
2.1 Normalna distribucija
2 − 2 σ 2 σ + log 2π Poglavlje 9, stranica 2
= exp 2
c Faculty and Institute of Actuaries
Generalizirani linearni modeli
Predmet 106
ˇsto je oblika (2.1) sa
a(φ) = φ b(θ) = θ 2 /2
c(y, φ) = − 2
+ log 2πσ
Stoga je prirodni parametar normalne distribucije jednak µ, a parametar skaliranja je σ 2 . Promotrimo log-vjerodostojnu funkciju, l(y; θ, φ) = log(f Y (y; θ, φ)). Koristit ´cemo ju kasnije pri procjeni GLM. Trenutno trebamo dva vrlo dobro znana rezultata iz statistiˇcke teorije:
Upotrebom tih rezultata u (2.1), moˇze se pokazati da su oˇcekivanje i varijanca od Y jednaki:
Var(Y ) = a(φ)b ′′ (θ) , gdje crtica oznaˇcava derivaciju s obzirom na θ. To su vrlo korisni rezul-
E[Y ] = b ′ (θ)
tati koje ´cemo sada detaljnije prouˇcavati. Prvo, promatramo li normalnu distribuciju, moˇzemo izvesti oˇcekivanje i varijancu
b(θ) = θ 2 /2
te stoga
E[Y ] = b ′ (θ) = θ = µ
a(φ) = φ te stoga 2 Var[Y ] = a(φ)b (θ) = φ = σ . Op´cenito, uoˇcite da oˇcekivanje ne ovisi o φ, te kada predvidamo Y vaˇzan je
θ. Takoder, varijanca podataka ima dvije komponente: jednu koja ukljuˇcuje parametar skaliranja, i drugu koja odreduje naˇcin na koji varijanca ovisi o oˇcekivanju. Za normalnu distribuciju, varijanca ne ovisi o oˇcekivanju (zbog
b ′′ (θ) = 1), ali ´cemo kod drugih distribucija vidjeti da varijanca ovisi o oˇcekivanju. Da bi se naglasila ovisnost o oˇcekivanju, varijanca se ˇcesto piˇse kao Var(Y ) = a(φ)V (µ), gdje je “funkcija varijance” definirana sa V (µ) = b ′′ (θ). Sada ´cemo promatrati druge distribucije eksponencijalne familije. Uoˇcite
da uz malu zloupotrebu notacije koristimo f i za neprekidne i zs diskretne distribucije.
c Faculty and Institute of Actuaries Poglavlje 9, stranica 3
Predmet 106
Generalizirani linearni modeli
2.2 Poissonova distribucija
µ y e −µ
f Y (y; θ, φ) = = exp[y log µ − log y!]
y!
ˇsto je oblika (2.1) sa
θ = log µ φ = 1, te zato a(φ) = 1
b(θ) = e θ c(y, φ) = − log y!
Zato je prirodni parametar Poissonove distribucije log µ, oˇcekivanje je E[Y ] =
b θ (θ) = e = µ, a funkcija varijance je V (µ) = b ′′ (θ) = e θ = µ. Funkcija varijance nam kaˇze da je varijanca proporcionalna oˇcekivanju. Vidimo da je
varijanca u stvari jednaka oˇcekivanju, jer je a(φ) = 1.
2.3 Binomna distribucija
To je malo nespretnije, budu´ci da prvo moramo binomnu sluˇcajnu varijablu podijeliti s n. Pretpostavimo, dakle, da je Z ∼ binomna (n, µ). Stavimo
(1−µ) , te supstituiraju´ci za z, distribucija od Y je
Y= z n , tako da je Z = nY . Distribucija od Z je f Z (z; θ, φ) =
n−z z
f n−ny Y (y; θ, φ) =
ny
ny = exp n(y log µ + (1 − y) log(1 − µ)) + log
ny
= exp n y log + log(1 − µ) + log
ny ˇsto je oblika (2.1) sa µ θ e
θ = log (uoˇcite da je inverz od toga µ = 1+e θ
b(θ) = log(1 + e θ ) c(y, φ) = log
ny
Poglavlje 9, stranica 4
c Faculty and Institute of Actuaries
Predmet 106 Zato je prirodni parametar binomne distribucije log µ
Generalizirani linearni modeli
1−µ , oˇcekivanje je
E[Y ] = b (θ) =
1+e θ
a funkcija varijance je
2.4 Gama distribucija
Najbolji naˇcin za razmatranje gama distribucije je zamijeniti parametre iz α
iλuαiµ= α λ , t.j., λ = µ .
= exp − − log µ α + (α − 1) log y + α log α − log Γ(α)
ˇsto je oblika (2.1) sa
φ b(θ) = − log(−θ) c(y, φ) = (φ − 1) log y + φ log φ − log Γ(φ) .
Stoga je, ignoriraju´ci negativan predznak, prirodni parametar gama distribu- cije jednak 1/µ. Oˇcekivanje je E[Y ] = b ′ (θ) = −1/θ = µ. Funkcija varijance
2 2 je V (µ) = b 2 (θ) = 1/θ =µ , te je varijanca jednaka µ /α. Konaˇcno, lognormalna distribucija ˇcesto se upotrebljava u neˇzivotnom osigu-
ranju za modeliranje distribucija veliˇcine ˇsteta. To se moˇze ukljuˇciti u okvir GLM, jer ako je Y ∼ lognormalna, tada je log Y ∼ normalna. Ako trebamo koristiti lognormalnu distribuciju, podatke prvo trebamo logaritmirati, te se
tada moˇze primjeniti modeliranje normalnom distribucijom.
c Faculty and Institute of Actuaries Poglavlje 9, stranica 5
Predmet 106
Generalizirani linearni modeli