Transcript Dag 1

Hvordan får man data og modell til å passe sammen?
Faget statistikk
• Ikke tørre tall, men essensen i dem.
• Modell vs data – tilpasning av interesse-parametre
 Eks på parametre: gjennomsnittelig årsnedbør, en
vannføringsseries forklaringsverdi på en annen slik
serie, magasinering som funksjon av nedbørsareal.
 Parametre er i utgangspunktet ukjent, men dataene gi
oss et estimat samt en antydning om hvor usikre disse
estimatene er.
• Modellvalg – gir svar på spørsmål
 Eks: Er årsnedbøren lik i to nabofelt? Kan vi si noe
som helt om en vannføringsserie på bakgrunn i en
annen?
 Svarene er ikke absolutte, men gis med en viss
sikkerhet.
Datausikkerhet
 Perfekte målinger + perfekte modeller = Null usikkerhet
verken angående parameter-verdier eller modellvalg.
Usikkerhets-kilder:
 Reelle målinger er beheftet med usikkerhet.
 Modellene kan ikke ta alt med i betraktningen. Umålte
”confounders” (lokal topografi og jordsmonn i en hydrologisk
modell, for eksempel.)
Begge delere håndteres ved å se på måten målingene sprer seg på,
i.e. sannsynlighetsfordelingen.
Skal man lage fornuftige modeller, må man ha et forhold til på
forhånd usikre data. Man må altså ha et forhold til sannsynlighet.
Desto mer man kan om sannsynlighets-fordelinger, desto bedre
gjør man sin modellering.
Sannsynlighet
 Sannsynlighet:
Angir langtidsraten av utfall som havner i en gitt kategori. F.eks. vil
1/6 av alle terningkast gi utfallet ”en”.
II.
Angir forholdet mellom en gevinst og hva du er villig til å risikere for
den. F.eks. kan du være villig til å risikere 10kr for å få tilbake 60kr
hvis du får ”en” på en terningkast.
III. Kan gi en formell beregningssystem for usikkerhet og forventning.
Sannsynlighet 1/6 for å få ”en” på et terningkast antyder at du ikke
har noen større eller mindre grunn til å forvente ”en” enn noe annet
utfall på terningen.
Notasjon: Bruker Pr(”ett eller annet”) for å angi sannsynlighen for dette
”ett eller annet”. (Evt. P(”ett eller annet”))
I.
•
II og III er begge Bayesianske sannsynligheter, som kan oppfattes som
“subjektive” mens I er frekventistisk og “objektiv” i den forstand at
sannsynlighetene antas komme fra tings iboende egenskaper. (Så spørs det
om dette virkelig er tilfelle.)
Sannsynlighetlovene
0. For en hendelse A skriver vi
sannsynligheten for hendelsen
som Pr(A) eller P(A).
1. 0≤Pr(A)≤1
Eks:
Pr(”Du får en ener på ett
terningkast”)
Pr(flom på vestlandet)=1.1
betyr at du har regnet feil.
Pr(”to eller mer på et
terningkast) = 1-Pr(”ener”)
= 1-1/6=5/6
3. Pr(A eller B)=Pr(A)+Pr(B) når A Pr(”ener eller toer på ett
terningkastkast”) =
og B ikke kan stemme samtidig.
Pr(”ener”)+Pr(”toer”)=
1/6+1/6=1/3
2. Pr(A)+Pr(ikke A)=1
Eks. på bruk av
sannsynlighetlovene
Hvis vi har en fair 8-kantet terning,
hva er sannsynligheten for hva
er sannsynligheten for hvert
utfall?
Har (a’ priori) ingen grunn til å anse
noen utfall som mer
sannsynlighet enn andre. Gir
hvert utfall sannsynlighet p.
Regel 3+4 sier at
sannsynlighetene for alle
mulige distinkte utfall skal
summere seg til 1. Altså, 8p=1
=> p=1/8.
p
p
p
p
p
p
p
p
Eks. på bruk av
sannsynlighetlovene
Anta vi vet sannsynligheten for at det regner både i går og i dag (10%), samt sannsynligheten for
at det regner en hvilken som helst dag (20%). Hva er sannsynligheten for at det enten regner i
dag eller i morgen?
Pr(regn i morgen)=Pr(regn i dag og i morgen) + Pr(regn i morgen men ikke i dag)
Pr(regn i dag eller i morgen)
=
Pr(regn i dag men ikke i morgen) +
Pr(regn i morgen men ikke i dag) +
Pr(regn i dag og i morgen)
=
Pr(regn i dag)+ Pr(regn i morgen) 
Pr(regn i dag og i morgen)
=
Regn i dag
Regn i dag
og i morgen
20%+20%-10%=30%.
Regn i morgen
Generelt: Pr(A eller B) = Pr(A) + Pr(B) - Pr(A og B)
Sannsynlighetlover 2 – betinget
sannsynlighet
Pr(A | B) gir sannsynligheten for A
under forutsetning at B stemmer.
Eks: Pr(regn | overskyet)
Pr(A|B)=Pr(A) betyr at A er uavhengig Andre terningkast ikke lar seg påvirke av
første, så
av B. B gir ikke informasjon om A.
I motsatt tilfelle gir B informasjon om A,
som er drivkraften i Bayesiansk statistikk.
Pr(A og B)=Pr(A|B)Pr(B)
Pr(”ener på andre” | ”ener i første”) =
Pr(”ener på andre”).
Lar vi B=”ener i første kast” og
A=”ener i første kast”:
Pr(”ener på første og andre terningkast”)
= Pr(A|B)Pr(A) = Pr(A)Pr(B) =
1/6*1/6=1/36.
Siden Pr(A og B)=Pr(B|A)Pr(A) også,
Fra Bayes teorem: Hvis B er uavhengig
får vi Bayes formel:
av A, Pr(A|B)=Pr(A), så er A
Pr(A|B)=Pr(B|A)Pr(A)/Pr(B)
uavhengig av B også; Pr(B|A)=Pr(B).
Eks. på betingete sannsynligheter
Antar igjen at Pr(regn både i går og i dag)=10%, samt Pr(regn en dag)=20%.
Hva er Pr(regn i morgen | regn i dag)?
Pr(regn i morgen | regn i dag)=Pr(regn i morgen og regn i dag)/Pr(regn i dag)=
10%/20%=50%.
Hvis det alltid er overskyet når det regner og det er overskyet 50% av tiden, hva
er sannsynligheten for at det regner gitt at det er overskyet?
Pr(regn | overskyet) =
(PS: Utleder Bayes formel igjen, her.)
Pr(overskyet og regn)/Pr(overskyet)=
Pr(overskyet | regn)Pr(regn)/Pr(overskyet)=
100%*20%/50%=40%.
Sier at overskyet er ”evidens” for regn.
Pr(regn | overskyet)>Pr(regn)
Loven om total sannsynlighet
Har man de betingete sannsynligheten man trenger og sannsynlighetene for det
man betinger på, kan man få ut ubetingete (marginal-)sannsynligheter.
Anta man har tre muligheter B1, B2 eller B3. En og kun en av disse muligheten kan
være sann. (”regn”, ”overskyet uten regn” og ”sol”, f.eks., og A kan være det at en
person velger å ta bil til jobben.)
Pr(A)=Pr(A og B1) + Pr(A og B2) + Pr(A og B3) =
Pr(A|B1)Pr(B1)+Pr(A|B2)Pr(B2)+Pr(A|B3)Pr(B3)
Tilsvarende hvis det finnes kun 2 alternativ, eller 4 alternativ etc.
F.eks: Anta at man vet at sannsynligheten for en dag med hagl i vinter-halvåret er
20% og i sommer-halvåret er 2%. Hva er sannsynligheten for hagl på en tilfeldig
dag i året?
Pr(hagl)=Pr(hagl|sommer)Pr(sommer)+Pr(hagl|vinter)Pr(vinter)=
20%*50%+2%*50%=10%+1%=11%
Bayesiansk statistikk –
en medisinsk oppvarming
Forestill deg en sykdom med en medisinsk test som alltid vil finne
sykdommen hvis man har den.
Den er ellers svært nøyaktig også, og vil gi falske positive i kun 1%
av tilfellene der man ikke har sykdommen.
Sykdommen er sjelden, bare en av tusen har den.
Hvis du tester positivt, hvor sannsynlig er det at du har
sykdommen?
P r(syk| positivtest)
P r(positivtest| syk)P r(syk)

P r(positivtest| syk)P r(syk)  P r(positivtest| frisk)P r(frisk)
100% * 0.1%
 9%
100% * 0.1%  1% * 99.9%
Det er altså bare 9% sjanse at du har sykdommen! Hva skjer?
Bayesiansk statistikk –
en grafisk medisinsk oppvarming
Ett tusen personer før testen, representert med små sirkler
= Syk
= Frisk
Bayesiansk statistikk –
en grafisk medisinsk oppvarming
Etter testen, vil en syk og ca. ti friske teste positiv
= Syk
= Frisk
Sannsynligheten for at du har sykdommen har økt enormt, men ti av elleve (91%) vil
teste positiv selv om de er frisk, kun 9% fordi de faktisk har sykdommen.
Positiv test er altså evidens (og ganske sterkt sådan) for sykdom, men ikke så sterkt at vi
tror det er mer sannsynlig enn at vi fremdeles er frisk.
Sannsynlighets-logikk
Så fra forrige eksempel sannsynligheten for at det regner øker hvis vi får vite at
det er overskyet. Sagt med sannsynlighets-logikk-språk, så er overskyet
evidens for regn i dette eksempelet.
Evidens er informasjon som øker (minsker) sannsynligheten for noe annet, noe
vi er usikre på. Det går an å lage regler for evidens, der du ikke trenger å ha de
nøyaktige sannsynlighetene.
Eks:
•
•
Når A->B, er B evidens for A. (Hvis regn -> overskyet er overskyet evidens for regn).
Når A er evidens for B, er B evidens for A. (Hvis flom i vassdrag A gjør det mer
sannsynlig at det er flom i vassdrag B samtidig, så ….) Merk at styrken på evidensen ikke
trenger å være den samme begge veier.
•
Hvis A er evidens for B og B er evidens for C (og det ikke er noen ekstra
avhengigheter), så er A evidens for C. (Hvis Oddgeir for det meste snakker sant og han
sier det er overskyet ute, så er det evidens for regn.)
•
Hvis A er evidens for B er ”ikke A” evidens for ”ikke B”. (Ikke overskyet er
evidens for ikke regn. Hvis du leter etter sjefen og ikke finner vedkommende, så er det
evidens for at han/hun ikke er i bygget.)
Sannsynlighetsfordelinger –
endelige utfall
En sannsynlighetsfordeling gir hvert mulig utfall en
sannsynlighet.
Eks: En terning
Alle utfall fra en til seks er like
sannsynlige
Sum av to terninger
En sum på tre (2+1 eller 1+2) er dobbelt så
sannsynlig som et utfall på 2 (1+1).
Fordelingsfamilier
 Formen på sannsynlighets-fordelingen er ofte gitt av de
betingelsene man jobber under. Enkelte betingelser
(slik som uavhengighet og telling) dukker opp igjen og
igjen.
 Det er derfor fint å opparbeide seg et lite arsenal av
ofte forekommende fordelinger.
For å letter lage sine egne modeller
b) For å vurdere andre sine modeller og vite hva man
forholder seg til.
a)
Fordelingsfamilier –
tellingsfordelinger (1)
Binomisk fordeling får du når du ser på
antall hendelser av en gitt type, gitt et antall
forsøk. Hver hendelse antas uavhengig av
de andre. Eks:
i.
Antall mynt når du flipper kron/mynt 10
ganger.
ii.
Antall år der vannføringen oversteg et
gitt nivå i på en stasjon i Glomma 19822012.
Inkorrekt: Antall dager med regn sist måned.
I tillegg til antall forsøk, n, karakteriseres
fordelingen med en ”suksess”-rate (eller
sannsynlighet), p.
Denne sannsynligheten er ofte ukjent i
utgangspunktet og er noe vi ønsker å
estimere (mer om det senere).
i.
p=Sannsynlighet for mynt
ii.
p=Sannsynlighet for vannføringsoverstigning av et gitt nivå.
 n x
Pr(x | n, p)    p (1  p) n x
 x
I dette tilfelle, n=30, p=0.3
Fordelingsfamilier –
tellingsfordelinger (2)
Poisson-fordeling får du når du teller antall
uavhengige hendelser over tid, der hendelsene
kan skje når som helst og det ikke finnes noen
øvre grense. Alt. når man i binomisk fordeling
har høyt antall forsøk og lav sukssess-rate.
i.
Antall kantareller innenfor et gitt område.
ii.
Antall bil-ulykker pr. år med dødlig utfall.
iii.
Antall ganger man overskrider et gitt
vannføringsnivå innenfor et tidsintervall.
(PS: Strengt tatt ikke uavhengig!)
Poisson-fordelingen karakteriseres
med en rate-parameter, .
i.
 =Kantarelltetthet
ii.
 =Grad av dødlig fare i trafikken
iii.
 =Overstigningsrate
Er raten usikker på en spesiell måte,
blir fordelingen negativt binomisk når
vi ikke vet raten. Ligner på Poissonfordelingen men er breiere.
Pr(x |  ) 
x e  
x!
I dette tilfelle er =10.
Sannsynlighetstettheter –
kontinuerlige utfall
En sannsynlighetsfordeling med kontinuerlige utfall gir et hvert mulig
intervall en sannsynlighet. Dette heter gjerne en sannsynlighetstetthet.
f(x)=sannsynlighetsfordeling
Notasjon: Angir sannsynlighetstetthet til en variabel med f(variabel)
Eks: uniform fordeling: f(x)=1 for 0<x<1 (0 utenfor).
Hva dette sier, er at utfall mindre enn 0 eller større
enn 1 er umulig. Videre sier det at alle intervaller
innenfor (0,1) som har lik størrelse, er like
sannsynlige.
Sannsynligheter må summeres til en og
sannsynligheten for to ulike utfall er summen av
enkeltsannsynlighetene. Dermed blir
sannsynligheten for et utfall i et intervall
proporsjonalt med størrelsen til intervallet.
1
0
1
x=utfall
Sannsynlighetstetthets-regler
Sannsynligheter for forskjellige utfall skal summere seg til en. Siden
sannsynligheter er noe man har for intervall i kontinuerlige utfall, må
sannsynlighetstettheter *integrere* seg til en.
 f ( x)dx  1
Dette kan brukes hvis du skal integrere noe der du kjenner igjen
funksjonen som en kjent sannsynlighetstetthet. Alle kjente
sannsynlighetstettheter er ”normerte” d.v.s. at de integrerer seg til en.
Tilsvarende som du kan ha betingete sannsynligheter, kan du ha
betingete tettheter. For eksempel sannsynlighetstettheten til
vannføringsmålinger *gitt* vannstanden. (Aktuelt i vf-kurve-tilpasning).
Loven om total sannsynlighet: f ( x)   f ( x | y ) f ( y ) dy
Bayes formel: f ( x | y) 
f ( y | x) f ( y )

f ( x)
f ( y | x) f ( y )
 f ( x | y) f ( y)dy
Fordelingsfamilier Normalfordelingen
Til forskjell fra uniform fordeling er alle utfall på tallinjen mulig, men den
har likevel et klart senter og en klar utspredning. Senteret og
spredningen er de to parametrene i fordelingen.
Mer om normalfordelingen
Sannsynlighetstettheten, f(x), er glatt. Sannsynligheten for å få et utfall i
et lite intervall (x,x+dx) er f(x)*dx. Notasjon: Bruker notasjonen
”f(variabel)” for å angi sannsynlighetstettheten til en variabel.
 ( x   )2 
1

f ( x | , ) 
exp 
Matematisk ser den slik ut:
2
2
2 
der  er forventingsverdien og  er


standardavviket.
Skal man regne ut sannsynligheten for å
få et utfall i et vilkårlig stort intervall må
man summere sannsynligheten for
masse små. En slik sum er kjent som et
integral. Jobben med det gjort for svært
mange fordelinger.
At en tilfeldig (stokastisk) variabel, X, er
normalfordelt, skriver vi som: X~N(,).
Standard-normalfordelingen:
=0,=1
Hvorfor normalfordelingen?
Selv om normalfordelingen ser litt komplisert ut matematisk, har den en
rekke gode egenskaper.
 Den er glatt og tillater alle mulige utfall.
 Er karakterisert med en enkelt topp.
• Det viser seg at hvis du betinger på at en funksjon er positiv, glatt og har
bare en topp, vil normalfordelingen være den enkleste og en som lokalt
tilnærmelsesvis er lik enhver annen fordeling med samme egenskaper.
 Symmetrisk
 Informasjonsmessig er det den fordelingen som koder for en gitt
sentrering (forventning) og spredning (standardavvik) med minst
mulig ekstra informasjon. (Maksimal entropi).
 Summen av to normalfordelte størrelser er normalfordelt.
 En stor sum av størrelser med lik fordeling vil være ca.
normalfordelt. (Sentralgrenseteoremet).
 Matematisk behagelig å jobbe med (tro det eller ei!)
Burde funke bra for temperaturer. Ikke like bra for vannføringer!
Fordelingsfamilier – lognormalfordelingen (skalastørrelser)
Når en størrelse er nødt til å være strengt positiv (massen til en person,
volum i et magasin, vannføringen i en elv), passer det ikke å bruke
normalfordelingen.
En enkel måte å fikse dette på, er å ta en logaritmisk transformasjon på
størrelsen. Hvis en stokastisk variabel X>0, vil log(X) anta verdier
over hele tall-linjen.
Antagelsen log(X)~N(,) gir også en fordeling for X, kalt den
lognormale fordelingen, X~logN(,).
 (log(x)   ) 2 
1

f ( x | , ) 
exp 
2
2
2 x


Hvis forventningen  øker, øker også
usikkerheten (standardavviket), men den
relative usikkerheten forblir konstant.
Fordelingsfamilier – (invers)
gamma-fordeling
Gamma-fordelingen er en annen fordeling for strengt positive
størrelser.
f ( x |  , )  x 1e x / /   ( )
Den har en matematisk form som er svært behagelig når man studerer
variasjons-parametre og rate-parametre (Poisson).
Den er dog ikke så enkel å bruke når man starter med et troverdighetsintervall og ønsker å finne fordelingen som passer med det.
Hvis X er log-normal-fordelt, er også 1/X det. Men hvis X er gammafordelt er 1/X invers-gammafordelt.
f ( x |  ,  )  x 1e  / x   / ( )
Dette er ikke samme fordelingen, selv
om den kan se ganske lik ut.
Fordelingsfamilier –
Ekstremverdifordelinger (GEV)
Ekstremverdifordelinger er fordelingstyper som typisk vil være gode
tilnærmelser til fordelingen til ekstreme hendelser, under gitte
betingelser. Betingelsene vil angi hvilken fordeling det er snakk om.
1. Maksimum/minimum over et
gitt tidsintervall. Eks: årsflommer
Her sier teorien det er GEVfordelingen som gjelder. Denne har
tre parametre, en som angir
sentrering, en for spredning og en
angir formen.
f ( x |  , ,  ) 
1

t ( x) 1 e t ( x )
x   1/ 


))
når   0 
 (1   (
der t ( x)  


( x   ) / 
e
ellers (Gumbel)
Fordelingsfamilier –
Ekstremverdifordelinger (Pareto)
1. Maksimum over en gitt terskelverdi
Her sier teorien det er Pareto-fordelingen som gjelder. Denne har to
parametre, en som angir nedre grense, xm, og en som angir formen, .
f ( x |  , xm ) 
xm
x
 1
for x  xm
Pareto-fordelingen kan være
ekstremt tunghalet, det vil si at
sannsynlighets-tettheten avtar
veldig lite utover.
(Dette kan være problematisk for
forventing og standard-avvik. Mer
om det senere).
Kumulativ fordeling
Har man en sannsynlighetstetthet, kan man regne ut sannsynligheten for å få utfall
innenfor et hvilket som helst intervall. (Dette gjøres ved integrasjon).
Spesielt kan man regne ut sannsynligheten for å få mindre verdier enn et gitt utfall, x.
Dette kalles kumulativ fordeling, F(x).
Kumulativ fordeling angir en-entydig sannsynlighetstettheten, f(x) og vice versa*.
f(x)
F(x)
Den bestemmer også sannsynligheten for å havne innefor et intervall (a,b):
Pr(a<X<b)=F(b)-F(a), der X er den tilfeldige variabelen.
* Sant så lenge F(x)
er glatt.
Egenskaper til stokastiske variable kvantiler
 Hvis vi snur på kumulativ fordeling, kan vi
spørre om hvilken verdi som har så og så
mye sannsynlighet for å underskrides.
 Man få da en kvantil/persentil, q(p). Dette er
en verdi slik at sannsynligheten for at X skal
ligge under denne er p. p -> q(p)=F-1(p)
 Spesiell kvantil: medianen. 50%
sannsynlighet for å være over og under
denne.
 Kvantiler kan brukes til å angi troverdighets-
intervall for hva som kan antas være rimelige
utfall. 95% av sannsynligheten befinner seg
innenfor 2.5%- og 97.5%-kvantilen, f.eks.
Dette blir brukt til å sette førkunnskap og til å
angi analyse-resultater i Bayesiansk analyse.
(F.eks. er (-1.96,+1.96) et 95% troverdighetsintervall når noe er
normalfordelt.)
Eks: 0.85-kvantilen til standardnormalfordelingen er ca. lik 1.
Egenskaper til stokastiske variable forventingsverdi
 Forventningen er en stokastisk variabels gjennomsnitt,
vektet på sannsynlighetene.
N
E ( X )   xi Pr(X  xi ) der det er N ulike mulige ut fall,(x1 ,..., xN ).
i 1
 Eks:
i.
ii.
iii.
iv.
v.
•
For en terning er forventningsverdien 3.5.
For en uniformt fordelt variabel mellom 0 og 1, er forventingen ½.
For en normalfordelt variabel er forventingen .
For en lognormalfordelt variabel er forventingen exp(+2/2)
En Pareto-fordelt variabel har ikke forventing for <1.
Egenskap: Forventingen til en sum er summen av forventninger.
Forventningen til et snitt av identisk fordelte variable er forventingen til en
enkelt-variabel.
Risiko og forventing
Statistikk kan ses på som en del av beslutningsteorien.
Ofte defineres en optimal beslutning som en beslutning som maksimerer forventet
gevinst eller minimerer risiko (forventet tap). (tap=-gevinst)
Risiko(beslutning) E(tap(beslutning))
#utfall
 tap(beslutning,utfall' i' )Pr(utfall' i' | beslutning)
i 1
Eks:
 Du lurer på om du skal vedde ti kroner på at neste terningkast blir en ener med
gevinst ti kroner hvis du vinner.
Risiko(veddemål)=10kr*5/6 – 10kr*1/6=-6 1/3kr.
Risiko(ikke veddemål)=0
Her burde du klart ikke vedde!
 Hadde gevinsten vært mer enn 50kr, hadde veddemålet begynt å lønt seg.
 Opsjoner i aksjemarkedet er prisgitt slik at forventet gevinst = opsjonspris
(justert for rentenivå).
 Ei ny bru skal bygges. Den kan bygges med ulike løsninger, noen som er mer
robuste enn andre og tåler større vannføringer, men er typisk dyrere. En
flomfrekvensanalyse kan ideelt sett svare på hvilken løsning som er optimal, gitt
det vi vet så langt. (PS: tror ikke dette blir gjort noe sted).
Log-normalfordelingen med parametre =0 og =1
Noen alternativ for å angi en
representativ (oppsummerende) verdi
Modus. Toppen på sannsynlighetsfordelingen.
Median: 50% sannsynlighet for å overstige.
Forventning: Fordelings-snittet
1
e
e1.5
Det å angi en representativ verdi (estimering) kan ses på som en beslutning.
Forventning minimerer forventet kvadratavvik mellom utfall og din beslutning for
representativ verdi. Median minimerer forventet absoluttverdi-avvik. Modus minimerer 0-1 tap.
(Tap 1 hvis du gjetter feil, tap 0 hvis du gjetter rett.)
Egenskaper til stokastiske variable
– standardavvik og varians
 Standardavviket angir hvor mye en stokastisk variabel sprer
seg på. Teknisk sett er den kvadratroten av variansen, som
er forventet kvadratisk avvik fra forventingsverdien:
N
Var( X )   ( xi  E ( x))2 Pr(X  xi ) der N er ulike mulige utfall,(x1 ,..., xN ).
i 1
ii.
For en uniformt fordelt variabel mellom 0 og 1, er variansen 1/12.
For en normalfordelt variabel, er standardavviket  (evt. varians 2) en av
parametrene.
iii.
En Pareto-fordelt variabel har ikke varians eller standardavvik for <2.
i.
•
Egenskaper: Variansen til en sum av uavhengige variable er summen av
varianser. Variansen til et snitt av identisk fordelte uavhengige variable er
1/n*variansen til hver variabel.
Standardavvik og
normalfordelingen
Hvor mye av sannsynligheten er innenfor 1,2,3,5
standardavvik fra forventningsverdien?
68.3% av sannsynligheten
95.4% av sannsynligheten
99.73% av sannsynligheten
99.99994% av
sannsynligheten
Trekninger av stokastiske variable –
store talls lov
 Hvis vi er i stand til å trekke fra en statistisk fordeling, vil vi med mange
nok trekninger se at:
i.
ii.
iii.
iv.
v.
n
Rater nærmer seg sannsynligheter rA  nA  Pr( A)
n
Gjennomsnittet nærmer seg x  1 x  E ( X )
i
n i 1
forventingsverdien.
Observert kvadratavviket nærmer seg
variansen.
1 n
2
S 
( xi  x ) 2  Var( X )

n  1 i 1
Raten av trekningen innenfor et intervall
nærmer seg sannsynligheten. Dermed
nærmer histogrammet seg
fordelingsfunksjonen.
f(x)
Treknings-kvantiler nærmer seg
fordelings-kvantiler.
 De data vi har, anses gjerne som trekninger fra en eller annen fordeling.
Diagnostikk på
fordelingsfunksjoner
 Man kan vise histogrammet til dataene
og sammenligne med fordelingen.
 Kumulative rater kan gjøres mer
finmaskede, som gjør sammenligning
med kumulativ fordeling enklere.
 Eventuelt kan man plotte teoretiske
kvantiler mot data-kvantiler, såkalte
qq-plott. Har man rett fordeling, skal
disse kvantilene ligge på en rett linje.