Transcript Oppgaver

Oppgave 1: Terningsutfall
På en kubisk terning er det 1/6 sannsynlighet for hver type
utfall fra 1 til 6. Ved to terninger, er utfallene antatt
uavhengig.
a)
b)
c)
d)
e)
f)
g)
h)
Hva er sannsynligheten for å få et spesifikt utfall på to
terninger, f.eks. sannsynligheten for å få 5 på første terning
og 2 på andre?
Hva blir da sannsynligheten for å få sum=2 på de to
terningene? Gjenta for sum=3, sum=4, sum=5, sum=6 ,
sum=7, sum=8.
Hva er sannsynligheten for å få sum<=4?
Hva er sannsynligheten for to like?
Hva er sannsynligheten for å få to like og sum<=4?
Hva er sannsynligheten for enten å få sum<=4 eller to like
terninger? Du kan bruke svaret fra c, d og e.
Både fra regelen for betinget sannsynlighet og fra listen av
utfall der sum<=4, hva blir sannsynligheten for to like gitt
sum<=4?
Regn ut sannsynligheten for sum<=4 gitt to like, både fra liste
av mulige utfall og fra Bayes formel.
Oppgave 2 – betingete
sannsynligheter
Hobbitun-rådet har avgjort at man skal
ekspandere hobbit-landen vestover.
Dessverre viser det seg at landene vestover
er infisert av drager!
Av de 10kmx10km arealene som er studert så
langt, var 70% av dem drage-infisert.
En standard-protokoll for område-undersøkelse
ble lagt. Et standardisert testområde av
mindre størrelse, inne i området man
undersøker, blir finkjemmet av feltbiologer.
Hobbitun biologiske avdeling har funnet at
sannsynligheten for å finne drager i et
testområde hvis området det er i er infisert
av drager, er 50%
Hvis det ikke er noen drage i området, blir det
selvfølgelig ingen deteksjon i testområdet.
Hobbit
Dragon
No dragons
Here be dragons
?
?
Oppgave 2 forts.
Modell: Områdets drage-status (L)  Sanns. for drage detektert i testområde (D)
Hva er (marginal) sannsynlighet for å
finne en drage, hvis du ikke vet om
området er infisert eller ikke?
eller
(Hint: Loven om total sannsynlighet)
Vis med Bayes formel at sannsynligheten
for å at et område er infisert av
drager, gitt at du fant en drage i
testområdet, er 100%.
Drager i
området
Drager
funnet
Finn sannsynligheten for at det er drager Drager i
i området gitt at du ikke fant noen.
området
Kunne du forvente at sannsynligheten
Drager
minsket fra originalsannsynligheten
funnet
(70%) selv uten å vite deteksjonssannsynligheten?
Ingen
drager
Drager
funnet og
er i
området
Drager i
området
Ingen
drager
Ingen
drager
Oppgave 3:
På Blindern er det slik at det er 33.9% sjanse for at det
regner en dag, hvis det regnet gårsdagen, og 12.9%
sjanse for at det regner en dag hvis det ikke regnet
gårsdagen. PS: Antar stasjonaritet, altså at alle sannsynligheter er de
samme uavhengig av tidspunkt, under de samme forutsetningene.
a) Hva er sannsynligheten for at det regner en tilfeldig dag?
(I.e. hva er marginalsannsynligheten for regn?) Tips:
P(regn i dag)=P(regn i dag og regn i går)+P(regn i dag men ikke i går).
b) Hvorfor er sjansen for at det regnet i går gitt at det regner
i dag også 33.9%? (Tips: Bayes formel)
Ekstraoppgave 1
Skal teste store talls lov og sentralgrenseteoremet
Kode finner du her: http://folk.uio.no/trondr/nvekurs/storetallslov.R
a) Trekk n=10000 ganger fra Poisson-fordelingen med forventingsverdi =0.3.
Beregn så gjennomsnittet og se hvor mye eller lite det avviker fra
forventningsverdien og gjenta et par ganger. Hvorfor blir resultatene som
de blir?
b) Se på histogrammet og sammenlign med sannsynlighetsfordelingen.
c) Skal nå se på fordelingen til snittet av n=10000 trekninger fra Poissonfordelingen. Trekk N=1000 slike snitt. Se på histogram og sammenlign med
normalfordelingen N ( ,  / n ) som er det sentralgrense-teoremet sier
snittfordelingen skal begynne å ligne på.
d) Sjekk også kumulativt histogram vs kumulativ fordeling.
e) Sjekk QQ-plott.
f) Hva skjer hvis snittet er over et fåtall trekninger, n=10. Øk N til 100000. Er
det da en merkbar forskjell på snittet og normalfordelingen?
Oppgave 4: Utfør R-koden på
http://folk.uio.no/trondr/nvekurs/hoelen1.R
Denne koden skal gi svar på følgende:
a) Ta en titt på årsvannføringer (snitt) fra Hølen.
b) Se på histogram sammen med en normalfordeling
med samme snitt (forventing) og varians som data
(momentestimat). Se om dataene ser noenlunde
normalfordelt ut.
c) Gjør et QQ-plott for også å sjekke data mot
normalfordelingen.
d) Gjør det samme som i b og c, men bruk
lognormalfordelingen i stedet, der log-snitt og logvarians er den samme som i data (log-momentestimat).
e) Gjenta b-d for døgnvannføring også (finnes på
http://folk.uio.no/trondr/nvekurs/TrendDognHoelen.txt). Hvis
konklusjonene blir litt ulike, hva er grunnen?
Oppgave 5: Er forventingsverdien til årsvannføringer fra
Hølen 10m3/s?
http://folk.uio.no/trondr/nvekurs/hoelen2.R
a) Estimer forventningsverdien.
b) Sjekk om forventingen er 10m3/s ved en t-test (tar
hensyn til usikkerheten i estimert varians). Bruk gjerne
5% signifikansnivå (konfidens 95%).
c) Vis data sammen med konfidensintervallet. Er det en
bekymring at såpass masse års-snitt ligger utenfor
konfidensintervallet? Er det 95% sannsynlighet for at
egentlig forventingsverdi ligger innefor det spesifikke
konfidensintervallet?
d) Kunne vi gjort a-c for døgndata også?
e) Skal nå foreta samme analyse der vi bruker lognormalfordelingen hellers enn normalfordelingen. Kjør en
bootstrap-analyse som angir 95% konfidensintervall. Hva
sier dette om antagelsen forventing=10m3/s?
Oppgave 6: Forveningsverdien til årsvannføringer fra Hølen – Bayesiansk analyse
http://folk.uio.no/trondr/nvekurs/hoelen3.R
Antar at data er normalfordelt. Har en vag men informativ prior for vannføringsforventningen, 0==10, se slide 17-18. Antar vi kjenner =2.83.
Minner om formlene når alt er normalt:
2
2
Likelihood: f ( x | ,  ) ~ N (,  / n)
A’ priorifordeling, velger:
f ( ) ~ N (0 , 2 )
 x  2  0 2 / n  2 2 / n 
2
A’ posteriori-fordeling: f (  | x ) ~ N 

,

N
(

(
x
),

( x ))
2
2
2
2

   / n   / n 
a) Hvordan blir a’ posteriorifordelingen i dette tilfelle? Estimer vannføringsb)
forventningen fra dette. Er dette veldig forskjellig fra det du fikk i oppgave
5a?
Lag et 95% troverdighetsintervall for vannførings-forventningen (Tips: 95% av
sannsynlighetsmassen befinner seg innenfor +/-1.96 standardavvik fra
forventningsverdien i en normalfordeling). Ble dette mye forskjellig fra 5b?
Kan du fra dette konkludere noe angående antagelsen vannføringsforventning=10m3/s.
Oppgave 6 –forts: Forveningsverdien til årsvannføringer fra Hølen –
Bayesiansk analyse
http://folk.uio.no/trondr/nvekurs/hoelen3.R
Antar at data er normalfordelt. Har en vag men informativ prior for
vannførings-forventningen, 0==10, se slide 17-18. Antar vi
kjenner =2.83.
Marginal sanns.tetthet: f ( x ) ~ N (0 , 2   2 / n)
c) Skal nå teste antagelsen vannførings-forventning=10m3/s
Bayesiansk. Sammenlign marginalsannsynlighetstettheten for de
data vi fikk vs sannsynlighetstettheten når =10. Hva antyder
dette?
d) Skal nå bruke resultatet fra c til å regne på modellsannsynligheter.
Modell 0 har =10 mens modell 1 er slik som spesifisert ovenfor.
f ( D | M ) Pr(M )
Bruk Pr(M | D) 
 f ( D | M ' ) Pr(M ' )
og anta at a’ priori-sannsynligheten for hver modell er 50%. Hva blir
konklusjonen?
e) Lag et plott over marginalfordelingen gitt ulike utfall og sammenlign
med sannsynlighetstettheten nå =10 (likelihood under modell 0).
Hva sier dette om hvilke utfall som ville være evidens for modell 0
og 1?
Oppgave 7: Bayesiansk gjentaksanalyse for bestemt nivå i
kontinuerlig tid.
Skal se på faren for å overgå en spesifikk vannførings-verdi. Antar slike hendelser
foregår uavhengig i tid. Altså at antall hendelser innefor en tidsperiode er Poissonfordelt. Bruker gjentaks-intervall, T, som parameter i denne fordelingen. Da får vi
(t / T ) y t / T
P( y hendelseri løpetav tid t | T ) 
e
y!
Antar invers-gamma-fordeling (siden det er matematisk behagelig å gjøre det) for
gjentaksintervallet
   1  / T
f (T ) 
T e
( )
Får da at marginalfordelingen blir:
  y  1 y
t



P( y hendelseri løpetav tid t )  
p (1  p) der p 

y 
t

(dette er den såkalte negativ binomiske fordelingen).
Oppgave 7 (forts.): Kode finnes på
http://folk.uio.no/trondr/nvekurs/gryta_ekstrem.R
   1  / T
f (T ) 
T e
( )
t
 p (1  p) der p 
P( y hendelseri løpetav tid t )  
y 
t

3
Stasjonen Gryta har hatt vannføring>1.5m /s y=27 ganger i løpet av t=44 år.
a) Plott a’ priori-fordeling og marginalfordeling hvis du bruker ==1 som
førkunnskap.
b) Hva blir det generelle uttrykket for a’ posteriori-fordelingen til T? Plott den for
Gryta for ==1 sammen med a’ priori-fordelingen. Forsøk også ==0.5 og til og med
==0 (ikke-informativt) . Ble det noen stor forskjell i a’ posteriori-fordelingen?
Sammenlign med klassisk estimat: TML=t/y=1.63 år.
c) Kan du finne prediksjons-fordelingen til antall nye flommer på Gryta de neste
hundre år? Plott i så tilfelle denne. Sammenlign med Poisson-fordeling hvis man tar
ML-parameteren for gitt. Hvorfor er sistnevnte fordeling skarpere enn den
Bayesianske prediksjonsfordelingen?
d) Kjør en enkel MCMC-algoritme fra a’ posteriori-fordelingen. Se etter når
trekningen stabiliserer seg (burn-in) og hvor mange trekninger som trenges før du få
en trekning som er ca. uavhengig (spacing).
e) Hent 1000 uavhengige trekninger etter burn-in. Sammenlign med teoretisk a’
posteriori-fordeling (histogram og qq-plott).
f) Foreta ny MCMC-trekning men bruk nå a’ priori som er f(T)=lognormal(=0,=2).
(Dette kan ikke løses analytisk). Sammenlign med de trekningene du fikk i d.
(t / T ) y t / T
P( y hendelseri løpetav tid t | T ) 
e
y!


y

1 y

Oppgave 8: Ekstremverdi-analyse på Bulken (rundt 120 år med data).
Kode: http://folk.uio.no/trondr/nvekurs/bulken_ekstrem.R
Data: : http://folk.uio.no/trondr/nvekurs/bulken_max.txt
Skal bruke Gumbel-fordelingen som fordelings-kandidat her:
f (x | ,  ) 
a)
b)
1

e
 ( x   ) /  e ( x ) / 
Foreta et ekstremplott, det vil si sorter vannføringene og plott dem mot
estimert gjentakintervall ti  n  0.12 der n er antall år og i er en løpe-indeks
i  0.44
fra n til 1.
Foreta en ekstremverditilpasning via første to l-momenter, 1 og 2.
Sammenlign med det du får fra DAGUT. Parameterne forholder seg til lmomentene som = 2/log(29, = 1-0.57721. Estimater for 1 og 2 fås
som
n
1 n
1
ˆ
ˆ
1   x j  x , 2 
 (( j 1)  (n  j)) x( j )
n j 1
n(n  1) j 1
c)
d)
e)
f)
g)
Sorterte data
Plott flomstørrelse som funksjon av gjentaksintervall gitt l-momentestimatene sammen med data (a).
Foreta ML-estimering av parameterne.
Plott flomstørrelse som funksjon av gjentaksintervall gitt ML-estimatene.
(Obs: hvis dette blir for mystisk, slutt her.) Foreta Bayesiansk analyse med
flat prior. Foreta 1000 MCMC-trekninger (burnin=1000, spacing=1000).
Sammenlign.
Bruk også prediksjonsfordelingen (altså der du tar parameterusikkerheten
med i betraktningen) til å foreta samme plott som i a, c og e.
Oppgave 9: Sjekk om årsmiddel-data for stasjon
Hølen har en lineær tidstrend.
Kode:
http://folk.uio.no/trondr/statkurs/hoelen_detrend.R
a) Tilpass en lineær regresjon til årsmiddel-dataene
og tolk resultatet.
b) Plott data og tilpasning. Ser det rimelig ut?
c) De-trend data’ene, d.v.s. fjern den lineære
trenden.
d) Se på residualene, og vurder om forutsetningene
for regresjonen var tilfredstilte.
e) Ekstra: Se på samme tilpasning når vi ser på logvannføring hellers enn vannføring.
Oppgave 10: Se på sesong-trenden til døgnmiddel-data
for stasjon Hølen.
Kode:
http://folk.uio.no/trondr/statkurs/hoelen_sesong.R
a) Tilpass en multilineær regresjon av døgnmiddeldataene mot tid pluss 4 sett trigonometriske
funksjoner (sinus og cosinus) og tolk resultatet.
b) Plott data og tilpasning. Ser det rimelig ut? Se på
residualene, og vurder om forutsetningene for
regresjonen var tilfredstilte.
c) Gjenta etter log-transform av vannføringene. Ble
det bedre?
Oppgave 11:
Skal kjøre power-law-regresjon av vannstand mot
vannføring for vannføringsmålinger på Gryta
(altså lineær regresjon på log-skala).
Kode: http://folk.uio.no/trondr/statkurs/gryta.R
a) Plott data, både på original-skala og log-skala
b) Kjør en lineær regresjon av log-vannføring mot logvannstand. Fortolk resultatet. Er det en signifikant
sammenheng?
c) Hva blir formelen for vannføring vs vannstand? Plott
dette.
d) Sjekk om det er noe galt med residualene (trend
eller ikke normalfordelt)
e) Ekstra: Gjør lineærtilpasning på original-skala og se
hvordan denne tilpasningen er også. (PS: R-kode ikke
lagd).
Oppgave 12:
Skal kjøre power-law-regresjon av vannstand mot
vannføring for vannføringsmålinger på Gryta
(altså lineær regresjon på log-skala), men nå med
ukjent bunnvannstand, h0.
Kode: http://folk.uio.no/trondr/statkurs/gryta2.R
a) Kjør en lineær regresjon for et sett av kandidatverdier for h0. Se på likelihood som en funksjon av
kandidatverdiene. Hva blir beste estimat for h0?
b) Ekstra (kode ikke med): En test kalt likelihood-ratiotesten sier at en null-hypotese blir forkastet med
95% konfidens når (lfull-l0)>1.92 (NB: for en parameter). Test
om h0=0.
Oppgave 13:
Skal nå kjøre ARMA-tilpasning av døgndata fra Hølen.
Kode:
http://folk.uio.no/trondr/statkurs/hoelen_arima.R
a) Plott data
b) De-trend (fjern lineær tids-trend og sesonvariasjon).
c) Se på autokorrelsjon (og partiell autokorrelasjon).
d) Tilpass en AR(1)-modell (PS: pacf antyder at AR(2)
er bedre). Se om estimert parameter er lik noe du
så i 13c.
e) Lag analytiske plott av residualene. Hva sier de?
f) Forsøk så med en ARMA(1,1)-modell. Se igjen på
residualene. Hva sier de nå?