Transcript Fasit

Oppgave 1: Terningsutfall
På en kubisk terning er det 1/6 sannsynlighet for hver type utfall fra 1 til 6. Ved to
terninger, er utfallene antatt uavhengig.
a)
Hva er sannsynligheten for å få et spesifikt utfall på to terninger, f.eks.
sannsynligheten for å få 5 på første terning og 2 på andre?
Uavhengige utfall:
P(femmer på første og toer på andre terning) =
P(femmer på første)*P(toer på andre) = 1/6*1/6 = 1/36
b) Hva blir da sannsynligheten for å få sum=2 på de to terningene? Gjenta for sum=3,
sum=4, sum=5, sum=6 , sum=7, sum=8.
Sum=2. En måte å få til det på; 1-1. Altså P(sum=2)=1/36
Sum=3. To måter å få til det på; 1-2, 2-1.
Altså P(sum=3)=P(1-2)+P(2-1)=2/36=1/18
Sum=4. Tre måter å få til det på; 1-3, 2-2, 3-1.
Altså, P(sum=4)=1/36+1/36+1/36=3/36=1/12
Sum=5. Fire måter å få til det på; 1-4, 2-3, 3-2, 4-1.
Altså, P(sum=5)=4/36=1/9
Sum=6. Fem måter; 1-5, 2-4, 3-3, 4-2, 5-1. P(sum=6)=5/36
Sum=7. Seks måter; 1-6, 2-5, 3-4, 4-3, 5-2, 6-1. P(sum=7)=6/36=1/6
Sum=8. Fem måter; 2-6, 3-5, 4-4, 5-3, 6-2. P(sum=8)=5/36
Oppgave 1: Terningsutfall
På en kubisk terning er det 1/6 sannsynlighet for
hver type utfall fra 1 til 6. Ved to terninger, er
utfallene antatt uavhengig.
c) Hva er sannsynligheten for å få sum<=4?
P(sum<=4) =
P(sum=2 eller sum=3 eller sum=4) =
P(sum=2)+P(sum=3)+P(sum=4) =
1/36+2/36+3/36=6/36=1/6
d) Hva er sannsynligheten for to like?
Seks ulike utfall med to like: 1-1, 2-2, 3-3, 4-4, 5-5, 6-6
P(to like)=P(1-1)+P(2-2)+…+P(6-6)=6/36=1/6
Oppgave 1: Terningsutfall
På en kubisk terning er det 1/6 sannsynlighet for hver
type utfall fra 1 til 6. Ved to terninger, er utfallene
antatt uavhengig.
e) Hva er sannsynligheten for å få to like og sum<=4?
P(to like og sum<=4) = P(1-1)+P(2-2)=2/36=1/18
f) Hva er sannsynligheten for enten å få sum<=4 eller to like
terninger? Du kan bruke svaret fra c, d og e.
1). P(to like eller sum<=4) =
P(to like)+P(sum<=4)-P(to like og sum<=4) =
1/6+1/6-1/18 = 5/18
2). P(to like eller sum<=4)=
P(1-1)+P(1-2)+P(2-1)+P(2-2)+P(1-3)+P(3-1)+P(3-3)+P(4-4)+
P(5-5)+P(6-6)=10/36=5/18
Oppgave 1: Terningsutfall
På en kubisk terning er det 1/6 sannsynlighet for hver type utfall
fra 1 til 6. Ved to terninger, er utfallene antatt uavhengig.
g) Både fra regelen for betinget sannsynlighet og fra listen av utfall der
sum<=4, hva blir sannsynligheten for to like gitt sum<=4?
1). P(to like | sum<=4)=
P(to like og sum<=4)/P(sum<=4)=
(1/18) / (1/6) = 1/3
2). Liste av utfall der sum<=4: 1-1, 1-2, 1-3, 2-1, 2-2, 3-1
Hvert utfall har lik sannsynlighet, 1/6. To utfall med to like, 1-1 og 2-2.
Derfor P(to like | sum<=4)=2/6=1/3
h) Regn ut sannsynligheten for sum<=4 gitt to like, både fra liste av
mulige utfall og fra Bayes formel.
1). Liste over utfall med to like: 1-1, 2-2, 3-3, 4-4, 5-5, 6-6. Seks utfall
med like stor sannsynlighet. To av disse har sum<=4. Ergo
P(sum<=4 | to like)=1/3
2). Bayes formel:
P(to like | sum  4)P(sum  4)
(1 / 3 ) * (1 / 6 )
P ( sum  4 | to like) 

P(to like)
1/ 6
 1/ 3
Oppgave 2 – betingete
sannsynligheter
Hobbitun-rådet har avgjort at man skal
ekspandere hobbit-landen vestover.
Dessverre viser det seg at landene vestover
er infisert av drager!
Av de 10kmx10km arealene som er studert så
langt, var 70% av dem drage-infisert.
En standard-protokoll for område-undersøkelse
ble lagt. Et standardisert testområde av
mindre størrelse, inne i området man
undersøker, blir finkjemmet av feltbiologer.
Hobbitun biologiske avdeling har funnet at
sannsynligheten for å finne drager i et
testområde hvis området det er i er infisert
av drager, er 50%
Hvis det ikke er noen drage i området, blir det
selvfølgelig ingen deteksjon i testområdet.
Hobbit
Dragon
No dragons
Here be dragons
?
?
Oppgave 2 forts.
Modell: Områdets drage-status (L)  Sanns. for drage detektert i testområde (D)
Hva er (marginal) sannsynlighet for å
finne en drage, hvis du ikke vet om
området er infisert eller ikke?
(Hint: Loven om total sannsynlighet)
eller
Loven om total sannsynlighet:
P(finne drage)=P(finne drage | drageinfisert område)*P(drageinfisert område) +
P(finne drage | ikke drageinfisert område)*P(ikke drageinfisert område) =
50%*70%+0%*30% = 35%
Oppgave 2 forts.
Drager i
området
Vis med Bayes formel at
sannsynligheten for å at et
område er infisert av drager, gitt
at du fant en drage i testområdet,
er 100%.
P(drageinf
Drager
funnet
Ingen
drager
Drager
isert område | fant drage) 
P(fant drage | drageinfis
ert område) * P(drageinf
isert område)

P(fant drage)
50% * 70%/35%
 100%
Finn sannsynligheten for at det er
drager i området gitt at du ikke
fant noen. Kunne du forvente at
sannsynligheten minsket fra
originalsannsynligheten (70%)
selv uten å vite deteksjonssannsynligheten?
P(drageinf
Drager i
området
Drager
funnet
Drager i
området
Ingen
drager
Ingen
drager
isert område | fant ikke drage) 
P(fant ikke drage | drageinfis
ert område) * P(drageinf
P(fant ikke drage)
50 % * 70 % /( 1  35 %)  35 % / 65 %  7 / 13  53 . 85 %
isert område)

Siste spm, hint: Se grafisk
eller bruk evidensreglene.
Oppgave 3:
På Blindern er det slik at det er 33.9% sjanse for at det
regner en dag, hvis det regnet gårsdagen, og 12.9% sjanse
for at det regner en dag hvis det ikke regnet gårsdagen. PS:
Antar stasjonaritet, altså at alle sannsynligheter er de samme uavhengig av
tidspunkt, under de samme forutsetningene.
a) Hva er sannsynligheten for at det regner en tilfeldig dag? (I.e.
hva er marginalsannsynligheten for regn?) Tips…
P(regn i dag)=
P(regn i dag og regn i går)+P(regn i dag men ikke i går)=
P(regn i dag|regn i går)*P(regn i går) +
P(regn i dag | ikke regn i går)=
33.9%*P(regn i går)+12.9%*(1-P(regn i går)= (stasjonaritet)
33.9%*P(regn i dag)+12.9%*(1-P(regn i dag)
P(regn i dag)*(100%-33.9%+12.9%)=12.9%
P(regn i dag)=12.9%/79%=16.3%
Oppgave 3 forts.
På Blindern er det slik at det er 33.9% sjanse for at det
regner en dag, hvis det regnet gårsdagen, og 12.9%
sjanse for at det regner en dag hvis det ikke regnet
gårsdagen. PS: Antar stasjonaritet, altså at alle sannsynligheter er de
samme uavhengig av tidspunkt, under de samme forutsetningene.
b) Hvorfor er sjansen for at det regnet i går gitt at det regner i
dag også 33.9%? (Tips: Bayes formel)
P(regn i går | regn i dag) 
P(regn i dag | regn i går) * P(regn i går)

P(regn i dag)
P(regn i dag | regn i går) * P(regn i dag)
P(regn i dag)
P(regn i dag | regn i går)  33.9%

(stasjonaritet)
Ekstraoppgave 1
Skal teste store talls lov og sentralgrenseteoremet
a) Trekk n=10000 ganger fra Poisson-fordelingen med forventingsverdi =0.3.
Beregn så gjennomsnittet og se hvor mye eller lite det avviker fra
forventningsverdien og gjenta et par ganger. Hvorfor blir resultatene som de
blir?
Får rundt 0.3+/-0.005. Rimelig at resultatene varierer rundt forventingen, siden
forventingen til snittet er forventningen til enkeltvariabelene. Rimelig at
variasjonen er lav siden variansen til et snitt er 1/n*variasjonen til enkeltvariansene.
b) Se på histogrammet og sammenlign med sannsynlighetsfordelingen.
Teoretiske sannsynligheter matcher trekningene ganske bra.
Ser ikke så veldig normalfordelt ut, btw.
Ekstraoppgave 1 forts.
c) Skal nå se på fordelingen til snittet av n=10000 trekninger fra Poisson-fordelingen.
Trekk N=1000 slike snitt. Se på histogram og sammenlign med normalfordelingen N (  ,  / n ) som er det sentralgrense-teoremet sier
snittfordelingen skal begynne å ligne på.
Ser bra ut
Ekstraoppgave 1 forts.
d) Sjekk også kumulativt histogram vs kumulativ fordeling.
e) Sjekk QQ-plott.
Ekstraoppgave 1 forts.
f) Hva skjer hvis snittet er over et fåtall trekninger, n=10. Øk N til 100000. Er det da en
merkbar forskjell på snittet og normalfordelingen?
Merkbart, ja. Minst på kumulativt histogram, mest antageligvis på QQ-plott.
Oppgave 4: Utfør R-koden på
http://folk.uio.no/trondr/nvekurs/hoelen1.R
Denne koden skal gi svar på følgende:
a) Ta en titt på årsvannføringer (snitt) fra Hølen.
b) Se på histogram sammen med en normalfordeling med
samme snitt (forventing) og varians som data. Se om
dataene ser noenlunde normalfordelt ut.
Ser ok ut.
Oppgave 4: forts.
c) Se på histogram sammen med en normalfordeling med
samme snitt (forventing) og varians som data. Se om
dataene ser noenlunde normalfordelt ut.
Ser ok ut.
Oppgave 4: forts.
d) Gjør det samme som i b og d, men bruk lognormalfordelingen i stedet, der
log-snitt og log-varians er den samme fordelingen som i data.
Ser også ok ut, men kanskje ikke like bra for lave verdier (det finnes noen verdier som er ekstremt
lave ifølge lognormal-fordelingen).
e) Gjenta b-d for døgnvannføring også (finnes på
http://folk.uio.no/trondr/nvekurs/TrendDognHoelen.txt). Hvis
konklusjonene blir litt ulike, hva er grunnen?
Ekstremt
dårlig!
Bedre, men ikke bra.
Oppgave 5: Forventingsverdien til
årsvannføringer fra Hølen.
http://folk.uio.no/trondr/nvekurs/hoelen2.R
a) Estimer forventningsverdien.
11.67041
b) Sjekk om forventingen er 10m3/s ved en t-test
(tar hensyn til usikkerheten i estimert varians).
Bruk gjerne 5% signifikansnivå (konfidens 95%).
t = 5.4363, df = 84, p-value = 5.233e-07
alternative hypothesis: true mean is not equal to 10
95 percent confidence interval:
11.05937 12.28145
sample estimates:
mean of x
11.67041
95% konf. Int. fra 11.06 til 12.28,
omslutter ikke 10, altså kan vi
forkaste forventing=10.
p-verdi=0.5ppm, så dermed
kunne vi tatt i med mye mer
konfidens enn som så, også.
Oppgave 5 forts.
c) Vis data sammen med konfidensintervallet.
Er det en bekymring at såpass masse års-snitt ligger utenfor
konfidensintervallet?
Nei. Dette konfidensbåndet antyder vår usikkerhet angående forventingen
(langtids-snittet), ikke angående enkelt-utfall.
Er det 95% sannsynlighet for at egentlig forventingsverdi ligger innefor det
spesifikke konfidensintervallet?
Nei. Et 95% konfidensintervall kan anses som en metode som før data har
95% sannsynlighet for å omslutte egentlig verdi, hva nå enn den verdien
er. Plugger man inn data, har man ingenting å ta sannsynlighet over lenger.
Frekventistisk metodikk har ikke noe konsept om sannsynlighet for
parameter verdier. Den har sannsynligheter for estimatorer, som er
funksjoner av de data man får. Men plugger man i data i en estimator, har
man dermed sikekrhet angående estimatoren.
Oppgave 5 forts.
d) Kunne vi gjort a-c for døgndata også?
5a kan gjøres trivielt og vil uansett være et estimat på forventingsverdien.
Analysen i oppgave 5b og 5c avhenger av uavhengigshetsantagelser, som
slettes ikke kan stemme for døgndata!
e) Skal nå foreta samme analyse der vi bruker lognormal-fordelingen hellers
enn normalfordelingen. Kjør en bootstrap-analyse som angir 95%
konfidensintervall. Hva sier dette om antagelsen forventing=10m3/s?
Anslått 95% konfidensintervall omslutter ikke 10. (Det må sies at bootstrap-estimatet
av 95% konfidensintervall er litt naivt her, for å holde ting enkelt.) Konfidensintervallet
er ganske like du får med t-testen (under normalfordelingsantagelser).
Konklusjon: forventing=10m3/s stemmer nok ikke.
Oppgave 6: Forveningsverdien til årsvannføringer fra Hølen – Bayesiansk
analyse
http://folk.uio.no/trondr/nvekurs/hoelen3.R
Antar at data er normalfordelt. Har en vag men informativ prior for
vannførings-forventningen, 0==10, se slide 17-18. Antar vi kjenner
=2.83.
a) Hvordan blir a’ posteriorifordelingen i dette tilfelle? Estimer vannførings-forventningen fra
dette. Er dette veldig forskjellig fra det du fikk i oppgave 5a?
mu.D
[1] 11.66884
11.669 nå og 11.670 tidligere. Ikke akkurat en kjempeforskjell.
tau.D
[1] 0.3068121
b) Lag et 95% troverdighetsintervall for vannførings-forventningen (Tips: 95% av
sannsynlighetsmassen befinner seg innenfor +/-1.96 standardavvik fra forventningsverdien
i en normalfordeling). Ble dette mye forskjellig fra 5b? Kan du fra dette konkludere noe
angående antagelsen vannførings-forventning=10m3/s?
c(mu.D-1.96*tau.D,mu.D+1.96*tau.D)
[1] 11.06749 12.27019
Nå, 11.07-12.27, før 11.06-12.28. ingen stor forskjell. (Det at intervallet var litt bredere for ttesten skyldes nok at man ikke kjørte noen antagelser om støy-størrelsen.)
Kan strengt tatt ikke konkludere noe angående vannførings-forventning=10m3/s. Det er ikke noe
en-til-en-forhold mellom Bayesianske troverdighetsintervall og modell-testing.
Oppgave 6 – forts.
c) Skal nå teste antagelsen vannførings-forventning=10m3/s Bayesiansk.
Sammenlign marginalsannsynlighetstettheten for de data vi fikk vs
sannsynlighetstettheten når =10. Hva antyder dette?
> d1=dnorm(mean(Q),mu.0,sqrt(tau^2+sigma^2/n))
> d1
[1] 0.03932351
>
> # Sannsynlighetstetthet hvis vi vet mu=10
> d0=dnorm(mean(Q),10,sigma/sqrt(n))
> d0
[1] 4.822864e-07
d1 = marginalsannsynlighet under vår førantagelse
d0 = marginalsannsynlighet
d1>>d0 antyder at vi har fått evidens for vår førkunnskaps-modell hellers enn
antagelsen mu=10.
Oppgave 6 – forts.
d) Skal nå bruke resultatet fra c til å regne på modellsannsynligheter. Modell 0
har =10 mens modell 1 er slik som spesifisert ovenfor. Bruk
Pr( M | D ) 
f ( D | M ) Pr( M )

f ( D | M ' ) Pr( M ' )
og anta at a’ priori-sannsynligheten for hver modell er 50%. Hva blir
konklusjonen?
> p0.D=d0*p0/(d0*p0+d1*p1)
> p1.D=d1*p1/(d0*p0+d1*p1)
> c(p0.D,p1.D)
[1] 1.226443e-05 9.999877e-01
99.9988% sannsynlighet for modell 1 (førkunnskapsmodellen) vs modell 0
(mu=10). Veldig sannsynlig at mu10, med andre ord.
Oppgave 6 – forts.
e) Lag et plott over marginalfordelingen gitt ulike utfall og sammenlign med
sannsynlighetstettheten nå =10 (likelihood under modell 0). Hva sier dette om
hvilke utfall som ville være evidens for modell 0 og 1?
> c(min(x[d0>d1]),max(x[d0>d1]))
[1] 9.19 10.81
Hvis vi fikk utfall (gjennomsnitt) mellom 9.19 og 10.81, er
marginalsannsynligheten større for modell 0 enn for modell 1. Altså ville et slikt
utfall være evidens for modell null (mu=10), ellers for modell 1.
Oppgave 7: Bayesiansk gjentaksanalyse for bestemt nivå i
kontinuerlig tid.
Skal se på faren for å overgå en spesifikk vannførings-verdi. Antar slike hendelser
foregår uavhengig i tid. Altså at antall hendelser innefor en tidsperiode er Poissonfordelt. Bruker gjentaks-intervall, T, som parameter i denne fordelingen. Da får vi
P ( y hendelser
i løpet av tid t | T ) 
(t / T )
y
e
t /T
y!
Antar invers-gamma-fordeling (siden det er matematisk behagelig å gjøre det) for
gjentaksintervallet
f (T ) 


 ( )
T
  1   / T
e
Får da at marginalfordelingen blir:
P ( y hendelser
   y  1 y
t



i løpet av tid t )  
p (1  p ) der p 

y
t


(dette er den såkalte negativ binomiske fordelingen).
Oppgave 7 (forts.): Kode finnes på
http://folk.uio.no/trondr/nvekurs/gryta_ekstrem.R
P ( y hendelser
P ( y hendelser
i løpet av tid t | T ) 
(t / T )
y
e
t /T
f (T ) 


T
  1   / T
e
 ( )
y!
   y  1 y
t

 p (1  p ) der p 
i løpet av tid t )  
y
t


Stasjonen Gryta har hatt vannføring>1.5m3/s y=27 ganger i løpet av t=44 år.
a) Plott a’ priori-fordeling og marginalfordeling hvis du bruker ==1 som førkunnskap.
Ser at a’prior’en topper seg rundt T=1, men er ganske vid. Derfor svært vid
marginalfordeling også. y=27 ikke spesielt oppsiktsvekkende
Oppgave 7 (forts.): Kode finnes på
http://folk.uio.no/trondr/nvekurs/gryta_ekstrem.R
P ( y hendelser
P ( y hendelser
i løpet av tid t | T ) 
(t / T )
y
e
t /T
f (T ) 


T
  1   / T
e
 ( )
y!
   y  1 y
t

 p (1  p ) der p 
i løpet av tid t )  
y
t


Stasjonen Gryta har hatt vannføring>1.5m3/s y=27 ganger i løpet av t=44 år.
b) Hva blir det generelle uttrykket for a’ posteriori-fordelingen til T?
(t / T )
f (T | y ) 
f ( y | T ) f (T )
f ( y)
(  t)

y!
y
e
t /T


 ( )
T
  1
e
 /T
  y  1 y


 p (1  p )
y


y
 (  y )
T
   y 1
e
( t) /T
~  ( *    y ,  *    t )

Oppgave 7 (forts.): Kode finnes på
http://folk.uio.no/trondr/nvekurs/gryta_ekstrem.R
P ( y hendelser
i løpet av tid t | T ) 
(t / T )
y
e
t /T
f (T ) 


T
  1   / T
e
 ( )
y!
   y  1 y
t

 p (1  p ) der p 
P ( y hendelser i løpet av tid t )  
y
t


3
Stasjonen Gryta har hatt vannføring>1.5m /s y=27 ganger i løpet av t=44 år.
b) Hva blir det generelle uttrykket for a’ posteriori-fordelingen til T? Plott den for Gryta for
==1 sammen med a’ priori-fordelingen. Forsøk også ==0.5 og til og med ==0 (ikkeinformativt) . Ble det noen stor forskjell i a’ posteriori-fordelingen? Sammenlign med
klassisk estimat: TML=t/y=1.63 år. T | y ~  ( *    y ,  *    t )
Posterior
med
prior
Posterior med
ulike priorer
Innzoomet
versjon
Topper seg (modus-estimat) forholdsvis nære ML-estimatet. Forventings- eller mediansestimat kan forventes å ha litt høyere verdi.
Oppgave 7 (forts.):
(t / T )
y
t /T
f (T ) 


  1   / T
P ( y hendelser
i løpet av tid t | T ) 
P ( y hendelser
y!
   y  1 y
t

 p (1  p ) der p 
i løpet av tid t )  
y
t


e
 ( )
T
e
c) Kan du finne prediksjons-fordelingen til antall nye flommer på Gryta de neste
hundre år? Plott i så tilfelle denne. Sammenlign med Poisson-fordeling hvis man tar
ML-parameteren for gitt. Hvorfor er sistnevnte fordeling skarpere enn den
Bayesianske prediksjonsfordelingen?
Siden a’ posteriorifordelingen kommer fra samme fordelingsfamilie som a’
priorifordelingen, kan vi bare bytte ut  med * og  med * i marginalfordelingen.
P ( y hendelser
i løpet av tid t ) 
  *  y ny  1  y
t

 p (1  p )  der p 


y
t ny   *
ny


Poisson med gitt parameter skarpere enn marginalfordelingen siden førstnevnte ikke tar hensyn til
parameter-usikkerheten.
Oppgave 7 (forts.)
P ( y hendelser
P ( y hendelser
i løpet av tid t | T ) 
(t / T )
y
e
t /T
f (T ) 


T
  1   / T
e
 ( )
y!
   y  1 y
t



i løpet av tid t )  
 p (1  p ) der p  t  
y


d) Kjør en enkel MCMC-algoritme fra a’ posteriori-fordelingen. Se etter når
trekningen stabiliserer seg (burn-in) og hvor mange trekninger som trenges før du
få en trekning som er ca. uavhengig (spacing).
Burnin=20-40, spacing=10
Oppgave 7 (forts.)
P ( y hendelser
P ( y hendelser
i løpet av tid t | T ) 
(t / T )
y
e
t /T
f (T ) 


T
  1   / T
e
 ( )
y!
   y  1 y
t



i løpet av tid t )  
 p (1  p ) der p  t  
y


e) Hent 1000 uavhengige trekninger etter burn-in. Sammenlign med teoretisk a’
posteriori-fordeling (histogram og qq-plott).
Ser bra ut på min trekning.
f) Foreta ny MCMC-trekning men bruk nå a’ priori som er f(T)=lognormal(=0,=2).
(Dette kan ikke løses analytisk). Sammenlign med de trekningene du fikk i d.
Forholdsvis
uavhengig
Ganske likt, men
kanskje noen
forskjeller helt ute i
øvre hale.
Det er helt ok…
Oppgave 8: Ekstremverdi-analyse på Bulken (rundt 120 år med data).
Kode: http://folk.uio.no/trondr/nvekurs/bulken_ekstrem.R
Data: : http://folk.uio.no/trondr/nvekurs/bulken_max.txt
Skal bruke Gumbel-fordelingen som fordelings-kandidat her:
1  ( x   ) /   e ( x  ) / 
f (x | ,  ) 
e
a)

Foreta et ekstremplott, det vil si sorter vannføringene og plott dem mot
n  0 . 12
estimert gjentakintervall t  i  0 .44 der n er antall år og i er en løpe-indeks
fra n til 1.
i
b)
Foreta en ekstremverditilpasning via første to l-momenter, 1 og 2.
Sammenlign med det du får fra DAGUT. Parameterne forholder seg til lmomentene som = 2/log(29, = 1-0.57721. Estimater for 1 og 2 fås
som
1
1
Sorterte data
ˆ1 
n
n

j 1
x j  x , ˆ2 
n
n ( n  1)
 (( j  1)  ( n 
j )) x( j )
j 1
DAGUT: God overenstemmelse med beta…
> c(mu.lmom, beta.lmom)
[1] 305.22055 67.96247
Oppgave 8 –forts.
f (x | ,  ) 
1

e
( x  ) /  e
( x  ) / 
c) Plott flomstørrelse som funksjon av gjentaksintervall gitt l-momentestimatene sammen med data (a).
Ser ok ut.
d) Foreta ML-estimering av parameterne.
> c(mu.ml, beta.ml)
[1] 304.49483 74.13713
e) Plott flomstørrelse som funksjon av gjentaksintervall gitt ML-estimatene.
Ganske like l-moment-estimatet for
små verdier. Litt uenighet for store
gjentaksintervall.
Oppgave 8 – forts.
f (x | ,  ) 
1

e
( x  ) /  e
( x  ) / 
f) (Obs: hvis dette blir for mystisk, slutt her.) Foreta Bayesiansk analyse med flat
prior. Foreta 1000 MCMC-trekninger (burnin=1000, spacing=1000).
Sammenlign.
Topper seg rundt mu=305, beta=75 (modus-estimat).
Ikke ulik andre estimater. # Forventings-estimat:
> c(mean(mu.mcmc),mean(beta.mcmc))
[1] 304.81509 74.86763
# Median-estimat:
> c(median(mu.mcmc),median(beta.mcmc))
[1] 305.16144 74.93275
g) Bruk også prediksjonsfordelingen (altså der du tar parameterusikkerheten
med i betraktningen) til å foreta samme plott som i a, c og e.
Ganske likt ML-resultatet.
Oppgave 9: Sjekk om årsmiddel-data for stasjon Hølen har en lineær tidstrend.
Kode: http://folk.uio.no/trondr/statkurs/hoelen_detrend.R
a) Tilpass en lineær regresjon til årsmiddel-dataene og tolk resultatet.
> summary(fit)
Call:
lm(formula = Q ~ t)
Residuals:
Min
1Q
-6.5630 -1.6384
Median
0.1355
3Q
1.5524
Max
6.5040
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -49.77338
23.83462 -2.088
0.0398 *
t
0.03125
0.01212
2.578
0.0117 *
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.742 on 83 degrees of freedom
Multiple R-squared: 0.07414,
Adjusted R-squared: 0.06299
F-statistic: 6.647 on 1 and 83 DF, p-value: 0.0117
Beste estimat: Q(h)=-49.7734 + 0.03125*t
Formelen lar seg ikke ekstrapolere til år 0 (eller 1), i hvert fall. Q(0)=-49.7734.
Antyder en økning på 31l/s i snittvannføring per år. P-verdi=1.17% er under et 5%
signifikansnivå. Tids-avhengigheten er dermed ikke null med 95% konfidens
(men ikke 99%). Med bare en parameter, blir resultatet fra F-testen det
samme.
Merk at vi får signifikant tidsavhengighet her selv om goodness-of-fit=R2=7.4%.
Oppgave 9- forts.
b) Plott data og tilpasning. Ser det rimelig ut?
Ja…
c) De-trend data’ene, d.v.s. fjern den lineære trenden.
d) Se på residualene, og vurder om forutsetningene for regresjonen var
tilfredstilte.
Residular mot tid
Residualer mot vannf.
Residualer mot teoretiske kvantiler
Oppgave 9- forts.
e) Ekstra: Se på samme tilpasning når vi ser
på log-vannføring hellers enn
vannføring.
Litt forskjell i tilpasningen, men det skal
bare mangle når man har en annen
funksjon og avvik i log(vannføringer) er
utslagsgivende hellers enn absoluttverdier.
Det er her ikke en nødvendighet at
ekstrapolasjonen bryter sammen, så
slik sett er det en bedre modell.
QQ-plott dog noe dårligere.
Oppgave 10: Sjekk om døgnmiddel-data for stasjon Hølen har en sesong-trend.
Kode: http://folk.uio.no/trondr/statkurs/hoelen_sesong.R
a) Tilpass en multilineær regresjon av døgnmiddel-dataene mot tid pluss 4 sett
trigonometriske funksjoner (sinus og cosinus) og tolk resultatet.
Coefficients:
Alt ser signifikant ut. Men
det skal vise seg at residualene
har stor avhengighet, så
p-verdiene må tas med en stor
klype salt.
Estimate Std. Error t value Pr(>|t|)
(Intercept) -42.666671
4.140744 -10.30
<2e-16 ***
t
0.027606
0.002104
13.12
<2e-16 ***
sint
-2.916632
0.074742 -39.02
<2e-16 ***
cost
-12.824844
0.074739 -171.59
<2e-16 ***
sin2t
-2.302746
0.074740 -30.81
<2e-16 ***
cos2t
6.469062
0.074739
86.56
<2e-16 ***
sin3t
4.065130
0.074739
54.39
<2e-16 ***
cos3t
-4.211345
0.074739 -56.35
<2e-16 ***
sin4t
-2.489911
0.074739 -33.31
<2e-16 ***
cos4t
2.026632
0.074739
27.12
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9.421 on 31767 degrees of freedom
Multiple R-squared: 0.5996,
Adjusted R-squared: 0.5995
F-statistic: 5286 on 9 and 31767 DF, p-value: < 2.2e-16
Q(t) = -42.67 +0.0276*t-2.91*sin(2t)-12.82*cos(2t)-2.30*sin(4t)+6.47*cos(4t)+…
R2=60%. Mye bedre enn for årsverdier.
Definitivt sesongvariasjon her, men det ses på plottet også.
Oppgave 10 – forts.
b) Plott data og tilpasning. Ser det rimelig ut?
Tilpasningsplott ser ok ut.
Oppgave 10-forts.
c) Se på residualene, og vurder om forutsetningene for regresjonen var tilfredstilte.
Residual mot tid
antyder sterk tidstrend!
QQ-plott ser heller ikke bra ut!
Alt for mange høye verdier.
Tunge haler.
Oppgave 10 – forts.
d) Gjenta etter log-transform av vannføringene. Ble det bedre?
Tilpasning ser omtrent like
bra ut.
Residaler har
fremdeles sterk
tidstrend.
Definitivt mer normalfordelt enn
for absolutt-vannføringer.
Oppgave 11:
Skal kjøre power-law-regresjon av vannstand mot vannføring for
vannføringsmålinger på Gryta (altså lineær regresjon på logskala).
Kode: http://folk.uio.no/trondr/statkurs/gryta.R
a)
Plott data, både på original-skala og log-skala
Ser ut til å krumme
oppover
Ser noenlunde lineært ut
Oppgave 11- forts
b) Kjør en lineær regresjon av log-vannføring mot log-vannstand. Fortolk
resultatet. Er det en signifikant sammenheng?
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.93691
0.03870
24.21 2.74e-16 ***
lh
2.53572
0.03841
66.03 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.0492 on 20 degrees of freedom
Multiple R-squared: 0.9954,
Adjusted R-squared: 0.9952
F-statistic: 4359 on 1 and 20 DF, p-value: < 2.2e-16
Vannstand er signifikant. R2=99.54%. God tilpasning.
c) Hva blir formelen for vannføring vs vannstand?
Q(h)=exp(0.937)*h2.536
Plott dette:
Ser bra ut.
Oppgave 11 – forts.
d) Sjekk om det er noe galt med residualene (trend eller ikke normalfordelt)
Ingen synelig trend. Antydning til tung øvre hale, men det er alt.
e) Ekstra: Gjør lineærtilpasning på original-skala og se hvordan denne tilpasningen
er også. (PS: R-kode ikke lagd).
Ingen stor suksess… 
Oppgave 12:
Skal kjøre power-law-regresjon av vannstand mot vannføring for vannføringsmålinger
på Gryta (altså lineær regresjon på log-skala), men nå med ukjent bunnvannstand,
h0.
Kode: http://folk.uio.no/trondr/statkurs/gryta2.R
a) Kjør en lineær regresjon for et sett av kandidat-verdier for h0. Se på likelihood
som en funksjon av kandidatverdiene. Hva blir beste estimat for h0?
> c(C.ml, b.ml, h0.ml, sigma.ml)
[1] 0.8456408 0.6182650 0.0800000 0.2143720
b)
Ekstra (kode ikke med): En test kalt likelihood-ratio-testen sier at en nullhypotese blir forkastet med 95% konfidens når (lfull-l0)>1.92 (NB: for en
parameter). Test om h0=0.
Får at lfull=39.89, l0=36.04, l=3.85>1.92. Altså forkastes h0=0.
Oppgave 13:
Skal nå kjøre ARMA-tilpasning av døgndata fra Hølen.
Kode: http://folk.uio.no/trondr/statkurs/hoelen_arima.R
a) Plott data
b) De-trend (fjern lineær tids-trend og sesonvariasjon).
Oppgave 13- forts.
c) Se på autokorrelsjon (og partiell autokorrelasjon).
ACF
PACF
d) Tilpass en AR(1)-modell (PS: pacf antyder at AR(2) er bedre). Se om estimert
parameter er lik noe du så i 13c.
AR(1)-koeffisient=0.9472, ganske likt
største verdi i pacf-plottet.
Coefficients:
ar1 intercept
0.9472
0.0000
s.e. 0.0018
0.0252
Oppgave 13- forts.
e) Lag analytiske plott av residualene. Hva sier de?
Antyder at veldig mye av tidsavhengigheten er forklart allerede, men at noe
fremdeles ikke er med i modellen.
f) Forsøk så med en ARMA(1,1)-modell. Se igjen på residualene. Hva sier de nå?
At dette begynner å se bra ut?