Transcript coLektion3
Statistik
Lektion 3
Simultan fordelte stokastiske variable
Kontinuerte stokastiske variable
Normalfordelingen
Repetition
En stokastisk variabel X er en funktion defineret på S
(udfaldsrummet), der antager værdier på R.
Diskret stokastisk variabel: Tælleligt antal værdier
Sandsynlighedsfordeling: Tabel med ssh. for hvert x,
P(X = x) = P(x) ≥ 0.
P(i)
Kumulativ fordelingsfunktion F ( x) P( X x)
i x
Middelværdi E( x) xP( x)
x
2
2
2
2
Varians V ( X ) E[(X ) ] E( X ) [E( X )]
Standard afvigelse SD( X ) V ( X )
Lineær transformation: E[aX b] aE[ X ] b V [aX b] a2V [ X ]
Middelværdi for Lineær transformation: Bevis
E[aX b] ax b P x
x
axP x bP x
x
axP x bP x
x
x
a xP x b P x
x
aE X b
x
Varians for Lineær transformation: Bevis
E aX b aE X b
E aX aE X
E a X E X
E a X E X
V [aX b] E aX b E aX b
2
2
2
2
2
a 2V X
2
Simultan Sandsynlighedsfordeling
Definition: Hvis X og Y er to diskrete stokastiske variable,
så er P(x,y) =P(X=x,Y=y) en simultan sandsynlighedsfunktion for X og Y, hvis
(joint probability function)
1.
P( x, y) 0 for alle værdier af x og y.
P( x, y) 1
2. alle x og y
Definition: Den Marginale sandsynlighedsfordeling for
hhv. X og Y er
P( X x) P( x)
P( x, y)
P( X y) P( y) P( x, y)
alle y
alle x
Eksempel: Alder og Salg
Sammenhæng mellem aldersgruppe (X) og købsmønster
(Y):
Marginale
fordeling af Y
Aldergruppe (X)
Købsmønster (Y)
1
(16 til 25)
2
3
(26 til 45) (46 til 65)
P(y)
1 (køb)
0.10
0.20
0.10
0.40
2 (ej køb)
0.25
0.25
0.10
0.60
P(x)
0.35
0.45
0.20
1.00
Marginale
fordeling af X
Betinget Sandsynligheder for SV
For to diskrete stokastiske variable er den betingede
sandsynligheden for X=x givet Y=y givet ved
P ( x, y )
P( X x | Y y )
P( y )
Eksempel: Betingede sandsynlighed for køb (Eksempel:
Betingede sandsynlighed for køb (Y=1) givet kunde i
aldergruppen 26 til 45 (X = 2).
Svar: P(X=2,Y=1) = P(2,1) = 0.20 og P(X=2) = 0.45
0.20
P(Y 1 | X 2)
0.44
0.45
Uafhængighed
Definition: To diskrete stokastiske variable X og Y er
uafhængige hvis og kun hvis
P( x, y) P( x) P( y)
for alle x og y, hvor P(x) og P(y) er de marginale
sandsynligheds-funktioner.
Eksempel: Er aldersgruppe og købsmønster
uafhængige?
Svar:
P( X 3) P(Y 2) 0.20 0.60 0.12 0.10 P( X 3, Y 2)
Dvs. der er ikke uafhængighed.
Kovarians
X stokastisk variabel med forventet værdi μX
Y stokastisk variabel med forventet værdi μY
Kovariansen mellem X og Y er givet ved
Bemærk: Hvis X og Y er uafhængige så er Cov(X,Y) = 0.
Hvis X og Y har diskrete stokastiske variable med simultan
sandsynlighedsfunktion P(x,y), så er kovariansen givet ved
Cov( X , Y ) E( X X )(Y Y )
Cov( X , Y ) ( x X )( y Y ) P( x, y)
x
y
Middelværdi og Varians for Par af
Stokastiske Variable
Lad X være SV med forventet værdi x og varians 2X
Lad Y være SV med forventet værdi Y og varians 2Y
Da gælder
EaX bY c a X bY c
V aX bY c a 2 X2 b 2 Y2 ab2Cov( X , Y )
Eksempler:
E[ X + Y ] = X + Y
E[ X – Y ] = X - Y
V X Y X2 Y2 2Cov( X , Y )
V X Y X2 Y2 2Cov( X , Y )
Regneregler for middelværdi og varians
Middelværdien af en linearkombination af stokastiske
variable X1, X2,…, Xk.
E( X1 X 2 X k ) E( X1 ) E( X 2 ) E( X k )
E (a1 X 1 a2 X 2 ak X k ) a1E ( X1 ) a2 E ( X 2 ) ak E ( X k )
Hvis X1, X2,… ,Xk er indbyrdes uafhængige, så:
V ( X1 X 2 X k ) V ( X1 ) V ( X 2 ) V ( X k )
V (a1 X 1 a2 X 2 ak X k ) a12V ( X 1 ) a22V ( X 2 ) ak2V ( X k )
Disse regler gælder for både diskrete og kontinuerte stokastiske variable
Bernoulli fordelingen
Hvis et eksperiment består af et enkelt forsøg og forsøget
enten kan være en succes eller en fiasko, så kaldes
forsøget for et Bernoulli forsøg
En binær stokastisk variabel X er en Bernoulli variabel med
sandsynligheds-parameter p, hvis
P(Succes) = P(X=1) = p og P(Fiasko) = P(X=0) = 1-p.
Middelværdi og varians for en Bernoulli variabel:
2
E(X ) =
E(X) =
V(X) =
Hvis for eksempel p = 0,7:
E(X) =
V(X) =
Mange forsøg…
Lad X1, X2,…, Xn være n uafhængige Bernoulli variable, alle
med samme sandsynligheds-parameter p.
Husk:
E(Xi) = p
og
V(Xi) = p(1-p)
Definer:
Da gælder X ~ B(n,p) (X følger en binomial fordeling)
Middelværdi og varians for X
E(X ) =
E(X1+X2+…+Xn) =
V(X ) =
V(X1+X2+…+Xn) =
X = X1+X2+…+Xn
(X = ”Antal successer”)
Diskrete og kontinuerte stokastiske
•
Diskret stokastisk variabel:
Tæller hændelser
Har et tællelig antal af mulige værdier
Har diskrete hop mellem
efterfølgende værdier
Har målelige sandsynligheder for
hver enkelt værdi
Sandsynlighed er højde
For eksempel:
Binomial
n=3 p=.5
x
0
1
2
3
P(x)
0.125
0.375
0.375
0.125
1.000
•
En kontinuert stokastisk variabel:
Måler (højde, vægt, hastighed, løn)
Har et uendelig antal af mulige
værdier
Går kontinuert fra værdi til værdi
Har ingen målelig sandsynlighed
til hver individuel værdi
Sandsynlighed er areal
For eksempel:
Det skraverede
område angiver
sandsynligheden
for mellem 2 og
3 minutter.
Kontinuert Stokastisk Variabel og
Sandsynlighedstæthedsfunktion
Tæthedsfunktionen f(x)
Arealet under
kurven f(x) er 1
Sandsynligheden for
X mindre end 3 er
det røde areal
Kontinuert Stokastisk Variabel og
Sandsynlighedstæthedsfunktion
Definition: Lad X → R være en kontinuert stokastisk
variabel.
f(x) er (sandsynligheds)tæthedsfunktionen for X hvis
f ( x) 0 for alle x
f ( x)dx 1
Dvs. kurven f(x) er aldring under x-aksen
Dvs. arealet under kurven f(x) er 1
a
P( X a) f ( x)dx
Dvs. sandsynligheden for X er mindre
end a svarer til arealet under kurven til
venstre for a
Tæthedsfunktion og Kumulerede
Fordelingsfunktion
3
P(2 X 3) f ( x)dx
2
P( X 3) P( X 2)
F (3) F (2)
P(X = x) = 0
Kumulerede
fordelingsfunktion:
F(3)
x
F ( x) P( X x) f (t )dt
F(2)
Bemærk:
F(x) →0, når x → -∞
F(x) →1, når x → ∞
Middelværdi og Varians
Stok. Var:
Regel
Regel
Middelværdi:
E[ h(X) ]
E[X2]
Varians:
Bemærk: Integralerne kan typisk ikke ”udregnes”.
Diskret
P( x) 0
Kontinuert
f ( x) 0
f ( x)dx 1
P( x ) 1
E ( X ) xf ( x)dx
E ( X ) xP( x)
E(h( X )) h( x) P( x) E (h( X )) h( x) f ( x)dx
E ( X ) x P( x)
E ( X ) x f ( x)dx
x
x
x
2
x
2
2
2
V ( X ) E[( X )2 ] E[ X 2 ] E[ X ]2
Flere Regneregler
Regneregler for middelværdi og varians er præcist som for
diskrete stokastiske variable.
Antag at X er en kontinuert stokastisk variabel med
middelværdi og varians 2.
Da gælder
E[aX b] aE[ X ] b a b
V [aX b] a 2V [ X ] a 2
Eksempel: Standardisering:
X
E
X
V
Uniform fordeling
uniform [a,b] tæthed:
1/(b – a) for a xb
f(x)=
0 ellers
E(X) = (a + b)/2; V(X) = (b – a)2/12
Uniform [a, b] fordeling
f(x)
Hele arealet under f(x) = 1/(b – a) * (b – a) = 1.00
Arealet under f(x) fra a1 til b1 = P(a1Xb1)
= (b1 – a1)/(b – a)
1/(b-a)
a a1
x
b1
b
Uniform fordeling - Eksempel
uniform [0,5] tæthed:
1/5 for 0 x5
f(x)=
0 ellers
E(X) = (0 + 5)/2; V(X) = (5 – 0)2/12
Uniform [a, b] fordeling
f(x)
Hele arealet under f(x) = 1/(5-0) * (5 – 0) = 1.00
Arealet under f(x) fra 1 til 3 = P(1X3)
= (3 – 1)/(5 –0)
= 2/5 = 0,4
1/5
0 1
x
3
5
Normal-fordelingen
Gauss
0.4
Gaussfordeling
0.2
0.0
Normal-fordelingen er en vigtig fordeling, blandt andet fordi mange
andre fordelingen, kan approksimeres til den.
Desuden er mange teststørrelser normal-fordelte – kommer senere i
kurset
Bland andre Carl F. Gauss (1777-1855) fandt frem til den, derfor
kaldes den også den Gaussiske fordeling.
function(x) dnorm(x) (x)
-4
-2
0
x
2
4
Må ikke printes ;-)
Normalfordelingen
Dens kendetegn er:
Klokkeformet og symmetrisk omkring dens middelværdi
Middelværdi = median = toppunkt
2
Den er karakteriseret ved en middelværdi og varians
(eller standardafvigelsen σ).
Notation: X~N,2 betyder, at X følger en normal
fordeling med middelværdi μ og varians σ²
Arealet under kurven indenfor zσ af middelværdien, er den
samme for enhver normal fordeling - uanset middelværdi
og standardafvigelse.
Er uanset parametre værdier, defineret for alle x (dvs x kan
antage værdier fra minus uendelig til plus uendelig)
Tæthedsfunktionen for normal-fordelingen
Tæthedsfunktionen for normal-fordelingen:
2
2
e
Normal-fordelingen: = 0, 2= 1
for x
0.4
0.3
f(x)
f ( x)
1
( x )2
2 2
0.2
0.1
hvor e 2,7182818 og π 3,14159265
0.0
-5
0
x
5
Eksempler på normal-fordelinger
μ = 0.0
μ = 1.0
μ = 2.0
Samme
varians
σ = 2.0
Samme
middelværdi.
σ = 0.5
σ = 1.0
Standardafvigelsen σ når X~N(μ,σ2)
Cirka 68% af all observationer ligger indenfor en
standard afvigelse fra middelværdien
P( X ) 68%
Cirka 95% af alle observationer ligger indenfor to
standard afvigelser fra middelværdien
P( 2 X 2 ) 95%
Cirka 99.7% af alle observationer ligger indenfor 3
standard afvigelser fra middelværdien
P( 3 X 3 ) 99,7%
≈68%
σ
≈95%
2σ
≈99,7%
3σ
Arealet under kurven indenfor kσ af middelværdien, er den samme for
enhver normal fordeling, uanset middelværdi og standard afvigelse.
Standard normalfordelingen
Standard normalfordelingen, er normalfordelingen med
middelværdi μ = 0 og standard afvigelse σ = 1, Z~N(0,1²)
Standard Normalfordeling
0 .4
0 .3
=1
{
f(z)
0 .2
0 .1
0 .0
-5
-4
-3
-2
-1
0
=0
1
2
3
4
5
Z
NB: En standard normalfordelt stokastisk variabel betegnes sædvanligvis Z.
Tabellen
P(Z≤1.21)
F(1.21)
Den kumulative
fordelingsfunktion F(x)
for standard normal
fordelingen er tabellagt i
Tabel 1 i Appendikset,
side 837 for positive
værdier af x.
F(z) = P(Z ≤ z)
Figuren viser
P(Z ≤ 1.21) = F(1.21)
Find P(Z < 1.21) vha. Tabelopslag
P(Z ≤ 1.21 ) = F(1.21) = 0.8869
88,69%
Tilsvarende tabelopslag i R:
> pnorm(1.21)
[1] 0.8868606
Bemærk: Standard normalfordelingen
Er kun tabellagt for z = 0.00 til 3.99.
Find P(Z < -1.76)
P(Z ≤ -1.76)
P(Z ≥ 1.76)
Vi kan ikke slå F(-1.76)
op i tabellen…
Da standard normalfordelingen er
symmetrisk omkring nul:
P(Z 1.76) P(Z 1.76)
Vi har også:
P( Z 1.76) 1 P( Z 1.76)
Tabelopslag
1 F (1.76)
1 0.9608 0.0392
P(Z ≤ 1.76)
P(Z ≥ 1.76)
Dvs.
P(Z 1.76) 3.92%
Find P(1 ≤ Z ≤ 2)
P(Z ≤ 2)
P(1 ≤ Z ≤ 2)
P(Z ≤ 2)
Der gælder
P(1 Z 2) P( Z 2) P( Z 1)
F (2) F (1)
0.9772 0.8413
0.1359
Transformation til Standardnormal
En lineær transformation af normalfordelt stokastisk
variabel er stadig en normalfordelt stokastisk variabel.
Lad X ~N(,2) og definer Y = aX + b, så gælder
E[Y] = aE[X] + b = a + b
2
2 2
V[Y] = a V[X] = a
2 2
Y ~ N(a + b, a )
Lad X ~N(,2) og definer Z
E[Z] = 0
V[Z] = 1
Z ~ N(0,1)
X
, så gælder
Transformation: Eksempel
Antag studerendes score til eksamen er normalfordelt med
middelværdi 60 og standardafvigelse 15.
Dvs. score X ~ N(60,152)
Spørgsmål: Hvor stor en andel af de studerende har en
score under 95? P(X ≤ 95) = ?
Ide: Transformer problemet til et, der vedrører en standard
normal-fordelt stokastisk variabel.
95 60
X 95
P( X 95) P
P
Z
15
95 60
P Z
P( Z 2.33) F (2.33) 0.9901
15
Dvs. 99.01% af de studerende har en score under 95.
Kumulative fordeling i R
For dem der foretrækker kommando-linjen i R
Antag X ~ N(2,32)
Vi kan finde den kumulerede sandsynlighed F(7) = P(X 7)
vha. kommandoen
pnorm(x=7,mean=2,sd=3)
R har en standard rækkefølge til parametre, så man kan
nøjes med at skrive
pnorm(7,2,3)
Bemærk: Det er standardafvigelsen ikke variansen!