Transcript Dag 1

Hvordan får man data og modell til å passe sammen?
Faget statistikk
• Ikke tørre tall, men essensen i dem.
• Modell vs data – tilpasning av interesse-parametre
 Eks på parametre: gjennomsnittelig årsnedbør, en
vannføringsseries forklaringsverdi på en annen slik
serie, magasinering som funksjon av nedbørsareal.
 Parametre er i utgangspunktet ukjent, men dataene gi
oss et estimat samt en antydning om hvor usikre disse
estimatene er.
• Modellvalg – gir svar på spørsmål
 Eks: Er årsnedbøren lik i to nabofelt? Kan vi si noe
som helt om en vannføringsserie på bakgrunn i en
annen?
 Svarene er ikke absolutte, men gis med en viss
usikkerhet.
Datausikkerhet
 Perfekte målinger + perfekte modeller = Null usikkerhet
verken angående parameter-verdier eller modellvalg.
Usikkerhets-kilder:
 Reelle målinger er beheftet med usikkerhet.
 Modellene kan ikke ta alt med i betraktningen. Umålte
”confounders” (lokal topografi og jordsmonn i en hydrologisk
modell, for eksempel.)
Begge delere håndteres ved å se på måten målingene sprer seg på,
i.e. sannsynlighetsfordelingen.
Denne usikkerheten får så konsekvenser for hvor sikker vi kan være
på modellvalg og frie parametre i de modellene vi velger å se på.
Parameter- og modellusikkerhet
Parameter-usikkerhet. Usikkerhet om tallverdien til frie parametre i
en modell.
 Frekventistisk: Parametrene anses som ukjente men fikserte.
Usikkerhet håndteres ved å se på spredningen av estimatorer
(metoder for å estimere interesse-parametre fra data) og andre
test-observable (metoder å oppsummere data). Spredningen
angis med sannsynlighetstettheter før data.
 Bayesiansk: Usikkerhet håndteres ved å se på
sannsynlighetsfordeling for parametre gitt data.
Modell-usikkerhet. Usikkerhet om modellvalg.
 Frekventistisk: Usikkerhet ved å se på konfidensgrad/p-verdier til
hypotesetester, samt ved å se på forskjell i informasjonskriterier.
 Bayesiansk: Usikkerhet håndteres ved å se på sannsynlighet for
modeller gitt data.
Sannsynlighet
 Sannsynlighet:
Angir langtidsraten av utfall som havner i en gitt kategori. F.eks. vil
1/6 av alle terningkast gi utfallet ”en”.
II.
Angir forholdet mellom en gevinst og hva du er villig til å risikere for
den. F.eks. kan du være villig til å risikere 10kr for å få tilbake 60kr
hvis du får ”en” på en terningkast.
III. Kan gi en formell beregningssystem for usikkerhet og forventning.
Sannsynlighet 1/6 for å få ”en” på et terningkast antyder at du ikke
har noen større eller mindre grunn til å forvente ”en” enn noe annet
av de total 6 ulike utfallene på terningen.
Notasjon: Bruker Pr(”ett eller annet”) for å angi sannsynlighen for dette
”ett eller annet”. (Evt. P(”ett eller annet”))
I.
•
II og III er begge Bayesianske sannsynligheter, som kan oppfattes som
“subjektive” mens I er frekventistisk og “objektiv” i den forstand at
sannsynlighetene antas komme fra tings iboende egenskaper. (Så spørs det
om dette virkelig er tilfelle.)
Sannsynlighetlovene
0. For en hendelse A skriver vi
sannsynligheten for hendelsen
som Pr(A) eller P(A).
1. 0≤Pr(A)≤1
Eks:
Pr(”Du får en ener på ett
terningkast”)
Pr(flom på vestlandet)=1.1
betyr at du har regnet feil.
Pr(”to eller mer på et
terningkast) = 1-Pr(”ener”)
= 1-1/6=5/6
3. Pr(A eller B)=Pr(A)+Pr(B) når A Pr(”ener eller toer på ett
terningkastkast”) =
og B ikke kan stemme samtidig.
Pr(”ener”)+Pr(”toer”)=
1/6+1/6=1/3
2. Pr(A)+Pr(ikke A)=1
Sannsynlighetlover 2 – betinget
sannsynlighet
Pr(A | B) gir sannsynligheten for A
under forutsetning at B stemmer.
Eks: Pr(regn | overskyet)
Pr(A|B)=Pr(A) betyr at A er uavhengig Andre terningkast ikke lar seg påvirke av
første, så
av B. B gir ikke informasjon om A.
I motsatt tilfelle gir B informasjon om A,
som er drivkraften i Bayesiansk statistikk.
Pr(A og B)=Pr(A|B)Pr(B)
Pr(”ener på andre” | ”ener i første”) =
Pr(”ener på andre”).
Lar vi B=”ener i første kast” og
A=”ener i første kast”:
Pr(”ener på første og andre terningkast”)
= Pr(A|B)Pr(A) = Pr(A)Pr(B) =
1/6*1/6=1/36.
Siden Pr(A og B)=Pr(B|A)Pr(A) også,
Fra Bayes formel: Hvis B er uavhengig
får vi Bayes formel:
av A, Pr(A|B)=Pr(A), så er A
Pr(A|B)=Pr(B|A)Pr(A)/Pr(B)
uavhengig av B også; Pr(B|A)=Pr(B).
Loven om total sannsynlighet
Har man de betingete sannsynligheten man trenger og sannsynlighetene for det
man betinger på, kan man få ut ubetingete (marginal-)sannsynligheter.
Anta man har tre muligheter B1, B2 eller B3. En og kun en av disse muligheten kan
være sann. (”regn”, ”overskyet uten regn” og ”sol”, f.eks., og A kan være det at en
person velger å ta bil til jobben.)
Pr(A) = Pr(A og B1) + Pr(A og B2) + Pr(A og B3) =
Pr(A|B1)Pr(B1)+Pr(A|B2)Pr(B2)+Pr(A|B3)Pr(B3)
Tilsvarende hvis det finnes kun 2 alternativ, eller 4 alternativ etc.
F.eks: Anta at man vet at sannsynligheten for en dag med hagl i vinter-halvåret er
20% og i sommer-halvåret er 2%. Hva er sannsynligheten for hagl på en tilfeldig
dag i året?
Pr(hagl)=Pr(hagl|sommer)Pr(sommer)+Pr(hagl|vinter)Pr(vinter)=
20%*50%+2%*50%=10%+1%=11%
Sannsynlighets-logikk
Så fra forrige eksempel sannsynligheten for at det regner øker hvis vi får vite at
det er overskyet. Sagt med sannsynlighets-logikk-språk, så er overskyet
evidens for regn i dette eksempelet.
Evidens er informasjon som øker (minsker) sannsynligheten for noe annet, noe
vi er usikre på. Det går an å lage regler for evidens, der du ikke trenger å ha de
nøyaktige sannsynlighetene.
Eks:
•
•
Når A->B, er B evidens for A. (Hvis regn -> overskyet er overskyet evidens for regn).
Når A er evidens for B, er B evidens for A. (Hvis flom i vassdrag A gjør det mer
sannsynlig at det er flom i vassdrag B samtidig, så ….) Merk at styrken på evidensen ikke
trenger å være den samme begge veier.
•
Hvis A er evidens for B og B er evidens for C (og det ikke er noen ekstra
avhengigheter), så er A evidens for C. (Hvis Oddgeir for det meste snakker sant og han
sier det er overskyet ute, så er det evidens for regn.)
•
Hvis A er evidens for B er ”ikke A” evidens for ”ikke B”. (Ikke overskyet er
evidens for ikke regn. Hvis du leter etter sjefen og ikke finner vedkommende, så er det
evidens for at han/hun ikke er i bygget.)
En sannsynlighetsfordeling med kontinuerlige utfall gir
et hvert mulig intervall en sannsynlighet. Dette heter
gjerne en sannsynlighetstetthet.
Notasjon: Angir sannsynlighetstetthet til en variabel
med f(variabel)
Sannsynligheter for forskjellige utfall skal summere
seg til en. Siden sannsynligheter er noe man har for
intervall i kontinuerlige utfall, må sannsynlighetstettheter *integrere* seg til en. f ( x ) dx  1

f(x)=sannsynlighetsfordeling
Sannsynlighetstetthets-regler
1
0
1
x=utfall
Dette kan brukes hvis du skal integrere noe der du kjenner igjen funksjonen som en kjent
sannsynlighetstetthet. Alle kjente sannsynlighetstettheter er ”normerte” d.v.s. at de
integrerer seg til en.
Tilsvarende som du kan ha betingete sannsynligheter, kan du ha betingete tettheter. For
eksempel sannsynlighetstettheten til vannføringsmålinger *gitt* vannstanden. (Aktuelt i
vf-kurve-tilpasning). Og dets forhold til samlet fordeling er den samme:
f ( x, y)  f ( x | y) f ( y)
Loven om total sannsynlighet:
Bayes formel:
f ( x | y) 
 f ( x | y)  f ( x, y) / f ( y)
f ( x)   f ( x | y ) f ( y )dy
f ( y | x) f ( y )

f ( x)
f ( y | x) f ( y )
 f ( x | y) f ( y)dy
Kumulative fordelinger og kvantiler
Har man en sannsynlighetstetthet, kan man regne ut sannsynligheten for å få utfall innenfor et
hvilket som helst intervall. (Dette gjøres ved integrasjon). Spesielt kan man regne ut
sannsynligheten for å få mindre verdier enn et gitt utfall, x. Dette kalles kumulativ fordeling,
F(x). Kumulativ fordeling angir en-entydig sannsynlighetstettheten, f(x) og vice versa*.
Hvis vi snur på kumulativ fordeling, kan vi spørre om
hvilken verdi som har så og så mye sannsynlighet for
å underskrides.
Man få da en kvantil/persentil, q(p). Dette er en verdi
slik at sannsynligheten for at X skal ligge under
denne er p. p -> q(p)=F-1(p)
Spesiell kvantil: medianen. 50% sannsynlighet for å
være over og under denne.
Kvantiler kan brukes til å angi troverdighets-intervall
for hva som kan antas være rimelige utfall. 95% av
sannsynligheten befinner seg innenfor 2.5%- og
97.5%-kvantilen, f.eks. Dette blir brukt til å sette
førkunnskap og til å angi analyse-resultater i
Bayesiansk analyse. (F.eks. er (-1.96,+1.96) et 95%
troverdighetsintervall når noe er normalfordelt.)
Eks: 0.85-kvantilen til standardnormalfordelingen er ca. lik 1.
Egenskaper til stokastiske variable
– forventingsverdi og varians
 Forventningen er en stokastisk variabels gjennomsnitt, vektet på
sannsynlighetene.
N
E ( X )   xi Pr(X  xi ) der det er N ulike mulige ut fall,(x1 ,..., xN ).
 Eks:
i.
ii.
iii.
i 1
For en terning er forventningsverdien 3.5.
For en uniformt fordelt variabel mellom 0 og 1, er forventingen ½.
For en normalfordelt variabel er forventingen .
 Standardavviket angir hvor mye en stokastisk variabel sprer seg på.
Teknisk sett er den kvadratroten av variansen, som er forventet
kvadratisk avvik fra forventingsverdien:
N
Var( X )   ( xi  E ( x))2 Pr(X  xi ) der N er ulike mulige utfall,(x1 ,..., xN ).
i 1
i.
ii.
For en uniformt fordelt variabel mellom 0 og 1, er variansen 1/12.
For en normalfordelt variabel, er standardavviket  (evt. varians 2) en av
parametrene.
Normalfordelingen
Sannsynlighetstettheten, f(x), er glatt. Sannsynligheten for å få et utfall i
et lite intervall (x,x+dx) er f(x)*dx. Større intervaller må regnes ut med
integral. Notasjon: Bruker notasjonen ”f(variabel)” for å angi
sannsynlighetstettheten til en variabel.
 ( x   )2 
1

exp 
Matematisk ser den slik ut: f ( x |  ,  ) 
2
2
2 


der  er forventingsverdien og  er
standardavviket.
Skal man regne ut sannsynligheten for å
få et utfall i et vilkårlig stort intervall må
man summere sannsynligheten for
masse små. En slik sum er kjent som et
integral. Jobben med det gjort for svært
mange fordelinger.
At en tilfeldig (stokastisk) variabel, X, er
normalfordelt, skriver vi som: X~N(,).
Standard-normalfordelingen:
=0,=1
Standardavvik og
normalfordelingen
Hvor mye av sannsynligheten er innenfor 1,2,3,5
standardavvik fra forventningsverdien?
68.3% av sannsynligheten
95.4% av sannsynligheten
99.73% av sannsynligheten
99.99994% av
sannsynligheten
Hvorfor normalfordelingen?
Selv om normalfordelingen ser litt komplisert ut matematisk, har den en
rekke gode egenskaper.
 Den er glatt og tillater alle mulige utfall.
 Er karakterisert med en enkelt topp.
• Det viser seg at hvis du betinger på at en funksjon er positiv, glatt og har
bare en topp, vil normalfordelingen være den enkleste og en som lokalt
tilnærmelsesvis er lik enhver annen fordeling med samme egenskaper.
 Symmetrisk
 Informasjonsmessig er det den fordelingen som koder for en gitt
sentrering (forventning) og spredning (standardavvik) med minst
mulig ekstra informasjon. (Maksimal entropi).
 Summen av to normalfordelte størrelser er normalfordelt.
 En stor sum av størrelser med lik fordeling vil være ca.
normalfordelt. (Sentralgrenseteoremet).
 Matematisk behagelig å jobbe med (tro det eller ei!)
Burde funke bra for temperaturer. Ikke like bra for vannføringer!
Risiko og forventing
Statistikk kan ses på som en del av beslutningsteorien.
Ofte defineres en optimal beslutning som en beslutning som maksimerer forventet
gevinst eller minimerer risiko (forventet tap). (tap=-gevinst)
Risiko(beslutning) E(tap(beslutning))
#utfall
 tap(beslutning,utfall' i' )Pr(utfall' i' | beslutning)
i 1
Eks:
 Du lurer på om du skal vedde ti kroner på at neste terningkast blir en ener med
gevinst ti kroner hvis du vinner.
Risiko(veddemål)=10kr*5/6 – 10kr*1/6=6 2/3kr.
Risiko(ikke veddemål)=0
Her burde du klart ikke vedde!
Hadde gevinsten vært mer enn 50kr, hadde veddemålet begynt å lønt seg.
 Opsjoner i aksjemarkedet er prisgitt slik at forventet gevinst = opsjonspris
(justert for rentenivå).
 Ei ny bru skal bygges. Den kan bygges med ulike løsninger, noen som er mer
robuste enn andre og tåler større vannføringer, men er typisk dyrere. En
flomfrekvensanalyse kan ideelt sett svare på hvilken løsning som er optimal, gitt
det vi vet så langt. (PS: tror ikke dette blir gjort noe sted).
Trekninger av stokastiske variable –
store talls lov
 Hvis vi er i stand til å trekke fra en statistisk fordeling, vil vi med mange
nok trekninger se at:
i.
ii.
iii.
iv.
v.
n
Rater nærmer seg sannsynligheter rA  nA  Pr( A)
n
Gjennomsnittet nærmer seg x  1 x  E ( X )
i
n i 1
forventingsverdien.
Observert kvadratavviket nærmer seg
variansen.
1 n
2
S 
( xi  x ) 2  Var( X )

n  1 i 1
Raten av trekningen innenfor et intervall
nærmer seg sannsynligheten. Dermed
nærmer histogrammet seg
fordelingsfunksjonen.
f(x)
Treknings-kvantiler nærmer seg
fordelings-kvantiler.
 De data vi har, anses gjerne som trekninger fra en eller annen fordeling.
Diagnostikk på
fordelingsfunksjoner
 Man kan vise histogrammet til dataene
og sammenligne med fordelingen.
 Kumulative rater kan gjøres mer
finmaskede, som gjør sammenligning
med kumulativ fordeling enklere.
 Eventuelt kan man plotte teoretiske
kvantiler mot data-kvantiler, såkalte
qq-plott. Har man rett fordeling, skal
disse kvantilene ligge på en rett linje.
Statistisk inferens
 I realiteten kan det være usikkerhet om hvilken fordeling
(modell) som passer til å beskrive hvordan dataene har blitt
produsert.
 Gitt modellen, vil likevel parameterverdiene være ukjent.
Naturen vil ikke bare dumpe dette i hendene våre.
 Statistisk inferens dreier seg om å bruke data til å si noe om:
Estimering av parameterverdier i en modell
ii. Usikkerheten til parameterverdiene
iii. Modellvalg
iv. Usikkerhet rundt modellvalget
v. Andre typer avgjørelser som tas på bakgrunn av modellog parameter-usikkerhet. (Risikoanalyse)
i.
Statistisk skoler- Frekventistisk
Klassisk/frekventistisk: Kun data tilordnes en sannsynlighetsfordeling. Ofte basert på likelihood, f(D|) (D=data,
=parametersett), som er sannsynlighet for data gitt
parametre sett på som en funksjon av parametre. Fokus på
estimering ved kun å bruke data og modell. Modellvalg og
usikkerhetsanslag fra sannsynligheten for å reprodusere
noe som ligner på de data man fikk.
Mens parameterne selv ikke kan ha sannsynlighetsfordeling,
kan man tilordne en til estimatorer. En estimator er en
metode for å lage et parameter-estimat fra data. Før data
kommer, vil dermed en estimator ha en sannsynlighetsfordeling.
Frekventistisk statistikk: Estimering
Estimering av en parameter gjøres via en estimator, som er en metode for å produsere
et tall fra data generert fra modellen.
Bør være konsistent, d.v.s. at sannsynligheten for at den vil avvike mer enn gitt grense
fra parameterverdien går mot null når antall data går mot uendelig.
Helst skal den også være forventningsrett, d.v.s. at forventningen til estimatoren er lik
verdien til parameteren som estimeres.
Ofte brukte måter å lage estimatorer:
 Momentmetoden. Sett parameter-estimatene slik at fordelingens forventing blir snittet fra data,
fordelingens varians blir lik kvadratavviket til data…
Fordel, enkel å lage.
Ulempe: Lite asymptotisk teori omhandlene dens fordeling (så dårlig som utgangspunkt for
anslag av usikkerhet), kan være patologisk, begrenset anvendelsesområde.
 L-moment-metoden. Variant av moment-metoden som benytter såkalte L-momenter.
Fordel: Gode erfaringer fra flomfrekvensanalyse. Ulempe: Se over + ikke så enkel å lage
 ML-metoden. Sett parameter-estimatene slik at likelihood får sin maksimale verdi (i.e. finn den
modellen som gjør data så sannsynlig som mulig).
Fordel: Nærmest ubegrenset anvendelighet, asymptotisk teori eksisterer, patologiske estimat
umulig.
Ulempe: kan være forventningsskjev.
Frekventistisk statistikk: MLoptimering når ting blir vanskelige
Ikke alle modeller gir en likelihood som lar seg
analytisk optimere.
Da blir man avhengig av å kjøre en numerisk
optimering. Her finnes det mye rart, men det
meste kan deles i to kategorier:
1. Hill-climbing/lokal klatring: Disse metodene
starter i et punkt i parameter-rommet og
bruker den lokale ”topografien” til likelihoodfunksjonen til å finne den nærmeste toppen.
Eksempel: Newton’s algoritme, Nelder-Mead.
2.
Globale metoder: Disse er mye mer
sofistikerte/kompliserte. De trenger lang
kjøringstid og ofte mye finjustering.
Eksempel: simulated annealing, genetiske
algoritmer.
Frekventistisk statistikk: Parameterusikkerhet og konfidensintervall
Et estimat er ikke sannheten. Det kan være mange mulige
parameter-verdier som er tilnærmet like rimelige, gitt de
dataene du har.
Frekventistisk statistikk opererer med konfidens-intervaller.
Et 95% konfidensinterval er en lagd fra en metode for å
lage intervaller som før data har 95% sannsynlighet for å
omslutte den riktige parameterverdien.
(Et Bayesiansk troverdighetsintervall har 95% sannsynlighet for å
omslutte riktig parameterverdi, gitt data).
Konfidensintervaller dannes ved å se på fordelingen til såkalt
test-statistikk, som ofte er estimatorer.
Konfidensintervall-teknikker
Teknikker for å lage konfidensintervall:
•
Eksakte teknikker. Dette får man til når man eksakt kan regne ut
fordelingen til test-statistikk. Eks. 95% konfidensintervall for
normalfordelingen fås som
( x  tn1 (0.975)s /
•
•
n , x  tn1 (0.975)s /
n)
der s er roten av estimert kvadratavvik og tn-1 er den såkalte
t-fordelingen med n-1 frihetsgrader.
Asymptotisk teori. Når antall data går mot uendelig, gjelder følgende
for ML-estimat:
2

l ( )
-1
ˆ ~ N( , I( ) ) der I ( )   E
er Fisher's informasjonsmatrise.
2

1 ˆ
ˆ
ˆ
Dermed vil (  1.96 I ( ) ,  1.96 I 1 (ˆ) ) være et 95%
konfidensintervall. (Siden 95% av sannsynlighetsmassen til
normalfordelingen er innenfor 1.96 standardavvik fra forventningen).
Bootstrap. Her forsøker man å gjenskape fordelingen man har
trukket fra, enten ved å trekke data på ny med tilbaketrekning eller
ved å bruke parametriske anslag og trekke fra modellen. Man ser på
spredningen av nye parameter-estimater.
Frekventistisk statistikk:
Modell-testing
Iblant er vi ikke sikre på hvilken modell vi skal bruke. Klassisk hypotesetesting
foregår gjerne ved:
1.
Formuler en null-hypotese, H0, og en alternativ hypotese, Ha.
2.
Sett en smerteterskel, kalt signifikansnivå, for hvor sannsynlig det skal
være å forkaste en ok nullhypotese. Typisk blir dette satt til 5%.
3.
Fokuser på en funksjon av data, test-statistikken, som typisk er en estimator
eller likelihood. Finn et uttrykk for sannsynlighetstettheten til denne.
4.
Ved å sammenligne null-hypotese og alternativ hypotese, får man et
innblikk i hva som er ekstreme verdier for test-statistikk. Finn fra fordelingen
til test-statistikken intervallet av de 5% (signifikansnivå) mest ekstreme
verdiene.
5.
Hvis den faktiske test-statistikken er i det intervallet, forkastes
nullhypotesen med 100%-signifikansnivå konfidens.
P-verdi: Sannsynligheten for å få en like ekstrem verdi som den vi fikk (der Ha
bestemmer hva som er ekstremt å få under H0), gitt at H0 stemmer.
P-verdi<signifikansnivå medfører forkastning.
Test-styrke: Angir sannsynligheten for å forkaste en null-hypotese for ulike
varianter av den alternative hypotesen, typisk for andre parameter-verdier enn det
null-hypotesen angir. Dette er en funksjon av parameter-verdien.
Frekventistisk statistikk:
Modell-testing (3)
Eks på test: t-testen. Sjekker om to datasett som antas være normalfordelt
med samme (ukjente) varians har den samme forventningen. Kan i praksis
gjøres ved å se om 95% konfidensintervall for forskjellen i forventning
omslutter null. ( x  tn1 (0.025)s / n , x  tn1 (0.975)s / n )
Generell metodikk:
2
•
Likelihood-ratio-testen. Under en nullhypotese er 2(l A  l0 ) ~  k
der k er forskjellen i antall parametre og lA og l0 er max likelihood for alternativ
hypotese og null-hypotese, henholdsvis. (Gjelder kun asymptotisk, når antall
uavhengige data går mot uendelig.)
 2l ( )
-1
ˆ
Score-test. Bruker  ~ N( , I( ) ) der I ( )   E  2 er Fisher's informasjonsmatrise.
•
til å sjekke om et parameter-estimat er langt nok unna en spesifikk verdi til at
1
denne verdien kan forkastes. (Se om konfidensintervallet som går fra ˆ  1.96 I (ˆ)
til ˆ  1.96 I 1 (ˆ) omslutter verdien du vil teste).
Frekventistisk statistikk:
andre måter å foreta modellvalg
Hypotesetesting er fint hvis primærønsket er å unngå å forkaste ok null-hypoteser.
Men ofte er man hellers interessert i å få tak i den modellen som er best for enkelte
formål, som å minimere prediksjonsusikkerheten. I mange tilfeller kan man til og
med ende opp med å sammenligne modeller med lik kompleksitet, slik at en nullhypotese ikke kan formuleres.
Merk at prediksjonsusikkerhet både kommer av stokastisiteten i selve data, feil i
modellen og usikkerhet i parameter-estimatene. Stokastisitet i selve dataene blir vi
ikke kvitt, men kunsten er å balansere de to andre.
Metoder:
•
Justert R2 (kun regresjon)
•
AIC=-2*log(ML)+2*k, k=#parametre
•
BIC=-2*log(ML)+log(n)*k
•
FIC
•
Oppdeling i trenings- og validerings-sett.
•
Kryssvalidering
•
CV-ANOVA (Anova-test på resultatene
av kryssvaldiering)
Prediksjonsusikkerhet
Modellfeil
Estimeringsusikkerhet
Modell-kompleksitet
Frekventistisk metodikk – generelt
forhold til usikkerhet
I frekventistisk statistikk er det to typer ukjente størrelser, stokastiske
variable og ukjente parametre. All sannsynlighet og mål på usikkerhet går
på de stokastiske variablene, som gjerne er data.
Det er derfor alltid usikkerheten til metodikken, før data har kommet, som
benyttes.
• Et konfidensintervall er en metode for å lage intervall som, før data, har
95% sannsynlighet for å omslutte rett parameterverdi.
• En test av null-hypotese vs alternativ hypotese med signifikansnivå 5% er
en metode som før data har 5% sannsynlighet for å forkaste en korrekt nullhypotese.
• En p-verdi er en metode som før data vil produsere et tall trukket fra den
uniforme fordeling hvis data kommer fra null-hypotesen (og en skjev fordeling
mot lave verdier hvis det kommer fra alternative).
Spør man seg selv om usikkerheten til parameterverdi eller modell, gitt de
data man har, er man på det Bayesianske territoriet.
Når modell krasjer med virkeligheten
Ønsker å lage konfidensintervall for
gjennomsnittelig mammut-masse
Datasett: x=(5000kg,6000kg,11000kg)
Modell 1: xi~N(,) i.i.d.
 Tillater mammuter å ha negativ masse!
 Resulterer i 95% konfidens-intervall, C()=(-650kg,15300kg) inneholder
verdier som bare ikke kan stemme.
Modell 2: log(xi) ~ N(,) u.i.f. (xi ~ logN(,) )
 Kun positive målinger og forventninger mulig på originalskala.
 95% konfidens-intervall transformert tilbake til original-skala:
(2500kg,19000kg).
 Enda bedre hvis vi kan legge til førkunnskap.
( Å få et forventningsrett estimat er dog vanskeligere . Hvis kun dette er ønsket, kan modell 1 være bedre.)
Modellering
For at man skal foreta en analyse og si noe fornuftig, må man ha en
modell. Desto mer den reflekterer det vi vet om virkeligheten, desto
bedre. Pragmatiske hensyn og begrenset data-tilgang gjør imidlertid at
model-kompleksiteten må begrenses. Likevel, ofte kan modeller gjøres
mer realistiske med enkle håndgrep (som i mammut-eksempelet).
Faren er at man kan velge modeller ut ifra det man er vant med av
statistiske teknikker. ”Hvis alt du har er en hammer ser alle problem ut
som spikere”. Det lønner seg derfor å ha kjennskap til ulike måter data
kan produsere på (fordelinger og prosesser) og dermed ulike analyser.
En modell må kunne si hvordan fordeling til enkeltdata, men også
hvordan avhengighetsstrukturen i data er. I tillegg må den si hvordan
fordelingen av data avhenger av parameterverdier. Alt dette
oppsummeres av likelihood, f(D|). I mer avanserte modeller, kan data
også avhenge av såkalt skjulte variable (umålte stokastiske variable, som
også trenger en sannsynlighetsfordeling). I Bayesiansk sammenheng
må også førkunnskapen oppsummeres som en
sannsynlighetsfordelingen til parameter.
Fordelingsfamilier
 Fordelingsfamilier er sannsynlighetsfordelinger med
fritt justerbare parametre. Formen på sannsynlighetsfordelingen er ofte gitt av de betingelsene man jobber
under. Enkelte betingelser (slik som uavhengighet og
telling) dukker opp igjen og igjen.
 Det er derfor fint å opparbeide seg et lite arsenal av
ofte forekommende fordelinger.
For å lettere lage sine egne modeller
b) For å vurdere andre sine modeller og vite hva man
forholder seg til.
a)
Prosesser
 Prosesser er en samling stokastiske variable med en eller
annen avhengighetsstruktur (eller uavhengighet) og der man
kan putte en kronologisk rekkefølge på variablene.
 Eks: Vanntemperatur, vannføringer, nedbør på et gitt sted,
flomhendelser, en serie terningkast, antall ulv i Norge, evolusjon
av størrelsen til en organisme, organisasjonsstrukturen i NVE.
 Noen prosesser kan være naturlig å modellere med diskret tid
(vannføringsmaksima per år, vannstandsmålinger,
terningkast). Andre prosesser kan være mer naturlig å
modellere i kontinuerlig tid (vannføring, antall ulv i Norge,
evolusjon av størrelsen til en organisme). Noen ganger kan det
være hipp som happ, og man velger det som er enklest.
 I likhet med fordelingsfamilier kan de ha frie parametre. Ulike
aspekter ved prosesser vil gi opphav til ulike fordelingsfamilier.
De fleste kjente fordelingsfamilier er tilknyttet en eller annen
prosess.
Prosesser – generelle prosesser
 Det generelle uttrykket for den samlede sannsynlighetsfordelingen
(likelihood) til en diskret prosess er (ved iterativ bruk av uttrykk for
betinget fordeling)
f ( x1 , x2 , x3 , x4 ,, xn ) 
f ( x1 ) f ( x2 | x1 ) f ( x3 | x1 , x2 ) f ( x4 | x1 , x2 , x3 ) f ( xn | x1 , x2 , x3 , x4 ,, xn1 )
x1 x 2
x3 x4
x5 x6
….
....
xn
Kompleksiteten øker med antall variable her. Dette gjør generelle prosesser
vanskelig og uhensiktsmessig å forholde seg til. Men forenklende
antagelser kan likelihood’en bli penere og analysen kan bli overkommelig.
Tidsseriemodellering –
Markov-kjeder
En Markov-kjede er en prosess der fordelingen til prosess-tilstanden et gitt tidspunkt
gitt hele forhistorien, kun avhenger av denne forhistorien via siste foregående
tilstand.
x1
x2
x3
x4
x5
x6 …..
xn
Hvis man ikke har en Markov-kjede, vil enkelte (jeg f.eks.) si at man ikke har
tilstrekkelig beskrevet tilstands-rommet.
Starter man med generell avhengighetsfordeling, forenkler denne seg adskillig:
f ( x1 , x2 , x3 , x4 ,, xn ) 
f ( x1 ) f ( x2 | x1 ) f ( x3 | x1 , x2 ) f ( x4 | x1 , x2 , x3 )  f ( xn | x1 , x2 , x3 , x4 ,, xn1 ) 
f ( x1 ) f ( x2 | x1 ) f ( x3 | x2 ) f ( x4 | x3 )  f ( xn | xn1 )
Dette er spesielt fint hvis kjeden fordelingen til xt gitt xt-1 er den samme for alle t. Hvis
også marginalfordelingen, (f(xt) ubetinget på resten) er den samme for alle t, er
prosessen stasjonær.
MCMC er en Markov-kjede (mer om det senere) da en trekning kun avhenger av
forrige.
Prosesser – uavhengige variable
 Uavhengighet er en veldig behagelig egenskap til en prosess.
x1
x2
x3
x4
x5
…..
x6 …..
xn
f ( x1 , x2 , x3 , x4 , x5 , x6 ,, xn ) 
n
f ( x1 ) f ( x2 ) f ( x3 ) f ( x4 ) f ( x5 ) f ( x6 )  f ( xn )   f ( xi )
i 1
 Samlet fordeling blir da ganske enkel å regne ut, hvis man kjenner
fordelingen til enkelt-variablene. Er variablene likt fordelt blir det enda
enklere. Noen kjente fordelingsfamilier og analysemetoder er tilknyttet
uavhengige, likt fordelte variable via asymptotiske resultat.
 Eks. på asymptotiske resultat for uavhengige variable:
 Summen av n uavhengig, likt fordelte variable går (asymptotisk) i fordeling mot
normalfordelingen, N (n, n ) , der  og  er forventning og standardavvik til
enkelt-variablene. Snittet går mot N (, / n ).
 Maksimum/minimum av n uavhengige, likt fordelte variable går (asymptotisk) i
fordeling mot General Extreme Value (GEV)-fordelingen.