Transcript coLektion3

Statistik
Lektion 3
Simultan fordelte stokastiske variable
Kontinuerte stokastiske variable
Normalfordelingen
Repetition





En stokastisk variabel X er en funktion defineret på S
(udfaldsrummet), der antager værdier på R.
Diskret stokastisk variabel: Tælleligt antal værdier
Sandsynlighedsfordeling: Tabel med ssh. for hvert x,
P(X = x) = P(x) ≥ 0.
P(i)
Kumulativ fordelingsfunktion F ( x)  P( X  x)  
i x
Middelværdi   E( x)   xP( x)
x

2
2
2
2
Varians   V ( X )  E[(X   ) ]  E( X )  [E( X )]
Standard afvigelse   SD( X )  V ( X )

Lineær transformation: E[aX  b]  aE[ X ]  b V [aX  b]  a2V [ X ]

Middelværdi for Lineær transformation: Bevis
E[aX  b]   ax  b P x 
x
  axP x   bP x 
x
  axP x    bP x 
x
x
 a  xP x   b P x 
x
 aE X   b
x
Varians for Lineær transformation: Bevis


 E aX  b   aE X   b  
 E aX  aE X  
 E a X  E X  
 E a  X  E X  
V [aX  b]  E aX  b   E aX  b
2
2
2
2
2
 a 2V X 
2
Simultan Sandsynlighedsfordeling
Definition: Hvis X og Y er to diskrete stokastiske variable,
så er P(x,y) =P(X=x,Y=y) en simultan sandsynlighedsfunktion for X og Y, hvis
(joint probability function)
1.
P( x, y)  0 for alle værdier af x og y.
 P( x, y)  1
2. alle x og y
Definition: Den Marginale sandsynlighedsfordeling for
hhv. X og Y er
P( X  x)  P( x) 
P( x, y)

P( X  y)  P( y)   P( x, y)
alle y
alle x
Eksempel: Alder og Salg

Sammenhæng mellem aldersgruppe (X) og købsmønster
(Y):
Marginale
fordeling af Y
Aldergruppe (X)
Købsmønster (Y)
1
(16 til 25)
2
3
(26 til 45) (46 til 65)
P(y)
1 (køb)
0.10
0.20
0.10
0.40
2 (ej køb)
0.25
0.25
0.10
0.60
P(x)
0.35
0.45
0.20
1.00
Marginale
fordeling af X
Betinget Sandsynligheder for SV

For to diskrete stokastiske variable er den betingede
sandsynligheden for X=x givet Y=y givet ved
P ( x, y )
P( X  x | Y  y ) 
P( y )


Eksempel: Betingede sandsynlighed for køb (Eksempel:
Betingede sandsynlighed for køb (Y=1) givet kunde i
aldergruppen 26 til 45 (X = 2).
Svar: P(X=2,Y=1) = P(2,1) = 0.20 og P(X=2) = 0.45
0.20
P(Y  1 | X  2) 
 0.44
0.45
Uafhængighed
Definition: To diskrete stokastiske variable X og Y er
uafhængige hvis og kun hvis
P( x, y)  P( x) P( y)
for alle x og y, hvor P(x) og P(y) er de marginale
sandsynligheds-funktioner.


Eksempel: Er aldersgruppe og købsmønster
uafhængige?
Svar:
P( X  3) P(Y  2)  0.20 0.60  0.12  0.10  P( X  3, Y  2)
Dvs. der er ikke uafhængighed.
Kovarians

X stokastisk variabel med forventet værdi μX
Y stokastisk variabel med forventet værdi μY

Kovariansen mellem X og Y er givet ved

Bemærk: Hvis X og Y er uafhængige så er Cov(X,Y) = 0.

Hvis X og Y har diskrete stokastiske variable med simultan
sandsynlighedsfunktion P(x,y), så er kovariansen givet ved

Cov( X , Y )  E( X   X )(Y  Y )
Cov( X , Y )   ( x   X )( y  Y ) P( x, y)
x
y
Middelværdi og Varians for Par af
Stokastiske Variable

Lad X være SV med forventet værdi x og varians 2X
Lad Y være SV med forventet værdi Y og varians 2Y

Da gælder

EaX  bY  c  a X  bY  c
V aX  bY  c   a 2 X2  b 2 Y2  ab2Cov( X , Y )

Eksempler:
 E[ X + Y ] = X + Y
 E[ X – Y ] = X - Y
V X  Y    X2   Y2  2Cov( X , Y )
V X  Y    X2   Y2  2Cov( X , Y )
Regneregler for middelværdi og varians
Middelværdien af en linearkombination af stokastiske
variable X1, X2,…, Xk.
 E( X1  X 2    X k )  E( X1 )  E( X 2 )    E( X k )
 E (a1 X 1  a2 X 2    ak X k )  a1E ( X1 )  a2 E ( X 2 )    ak E ( X k )
Hvis X1, X2,… ,Xk er indbyrdes uafhængige, så:
V ( X1  X 2    X k )  V ( X1 )  V ( X 2 )    V ( X k )
 V (a1 X 1  a2 X 2    ak X k )  a12V ( X 1 )  a22V ( X 2 )    ak2V ( X k )
Disse regler gælder for både diskrete og kontinuerte stokastiske variable
Bernoulli fordelingen


Hvis et eksperiment består af et enkelt forsøg og forsøget
enten kan være en succes eller en fiasko, så kaldes
forsøget for et Bernoulli forsøg
En binær stokastisk variabel X er en Bernoulli variabel med
sandsynligheds-parameter p, hvis
P(Succes) = P(X=1) = p og P(Fiasko) = P(X=0) = 1-p.


Middelværdi og varians for en Bernoulli variabel:
2
 E(X ) =
 E(X) =
 V(X) =
Hvis for eksempel p = 0,7:
 E(X) =
V(X) =
Mange forsøg…

Lad X1, X2,…, Xn være n uafhængige Bernoulli variable, alle
med samme sandsynligheds-parameter p.
Husk:
E(Xi) = p
og
V(Xi) = p(1-p)

Definer:

Da gælder X ~ B(n,p) (X følger en binomial fordeling)

Middelværdi og varians for X
 E(X ) =
E(X1+X2+…+Xn) =
 V(X ) =
V(X1+X2+…+Xn) =

X = X1+X2+…+Xn
(X = ”Antal successer”)
Diskrete og kontinuerte stokastiske
•
Diskret stokastisk variabel:

Tæller hændelser

Har et tællelig antal af mulige værdier

Har diskrete hop mellem
efterfølgende værdier

Har målelige sandsynligheder for
hver enkelt værdi

Sandsynlighed er højde
For eksempel:
Binomial
n=3 p=.5
x
0
1
2
3
P(x)
0.125
0.375
0.375
0.125
1.000
•
En kontinuert stokastisk variabel:

Måler (højde, vægt, hastighed, løn)

Har et uendelig antal af mulige
værdier

Går kontinuert fra værdi til værdi

Har ingen målelig sandsynlighed
til hver individuel værdi

Sandsynlighed er areal
For eksempel:
Det skraverede
område angiver
sandsynligheden
for mellem 2 og
3 minutter.
Kontinuert Stokastisk Variabel og
Sandsynlighedstæthedsfunktion
Tæthedsfunktionen f(x)
Arealet under
kurven f(x) er 1
Sandsynligheden for
X mindre end 3 er
det røde areal
Kontinuert Stokastisk Variabel og
Sandsynlighedstæthedsfunktion


Definition: Lad X → R være en kontinuert stokastisk
variabel.
f(x) er (sandsynligheds)tæthedsfunktionen for X hvis


f ( x)  0 for alle x



f ( x)dx  1
Dvs. kurven f(x) er aldring under x-aksen
Dvs. arealet under kurven f(x) er 1
a

P( X  a)   f ( x)dx

Dvs. sandsynligheden for X er mindre
end a svarer til arealet under kurven til
venstre for a
Tæthedsfunktion og Kumulerede
Fordelingsfunktion
3
P(2  X  3)   f ( x)dx
2
P( X  3)  P( X  2) 
F (3)  F (2)
P(X = x) = 0
Kumulerede
fordelingsfunktion:
F(3)
x
F ( x)  P( X  x)   f (t )dt

F(2)
Bemærk:
F(x) →0, når x → -∞
F(x) →1, når x → ∞
Middelværdi og Varians

Stok. Var:
Regel
Regel
Middelværdi:
E[ h(X) ]
E[X2]
Varians:

Bemærk: Integralerne kan typisk ikke ”udregnes”.






Diskret
P( x)  0
Kontinuert
f ( x)  0

 f ( x)dx  1
 P( x )  1
E ( X )   xf ( x)dx
E ( X )   xP( x)
E(h( X ))   h( x) P( x) E (h( X ))   h( x) f ( x)dx
E ( X )   x P( x)
E ( X )   x f ( x)dx

x


x
x
2
x
2
2



2

V ( X )  E[( X   )2 ]  E[ X 2 ]  E[ X ]2
Flere Regneregler



Regneregler for middelværdi og varians er præcist som for
diskrete stokastiske variable.
Antag at X er en kontinuert stokastisk variabel med
middelværdi  og varians 2.
Da gælder
E[aX  b]  aE[ X ]  b  a  b
V [aX  b]  a 2V [ X ]  a 2

Eksempel: Standardisering:
X 
E


  
X 
V


  
Uniform fordeling
uniform [a,b] tæthed:
1/(b – a) for a xb
f(x)=
0 ellers
E(X) = (a + b)/2; V(X) = (b – a)2/12
Uniform [a, b] fordeling
f(x)
Hele arealet under f(x) = 1/(b – a) * (b – a) = 1.00
Arealet under f(x) fra a1 til b1 = P(a1Xb1)
= (b1 – a1)/(b – a)
1/(b-a)
a a1
x
b1
b
Uniform fordeling - Eksempel
uniform [0,5] tæthed:
1/5 for 0 x5
f(x)=
0 ellers
E(X) = (0 + 5)/2; V(X) = (5 – 0)2/12
Uniform [a, b] fordeling
f(x)
Hele arealet under f(x) = 1/(5-0) * (5 – 0) = 1.00
Arealet under f(x) fra 1 til 3 = P(1X3)
= (3 – 1)/(5 –0)
= 2/5 = 0,4
1/5
0 1
x
3
5
Normal-fordelingen
Gauss
0.4
Gaussfordeling
0.2

0.0

Normal-fordelingen er en vigtig fordeling, blandt andet fordi mange
andre fordelingen, kan approksimeres til den.
Desuden er mange teststørrelser normal-fordelte – kommer senere i
kurset
Bland andre Carl F. Gauss (1777-1855) fandt frem til den, derfor
kaldes den også den Gaussiske fordeling.
function(x) dnorm(x) (x)

-4
-2
0
x
2
4
Må ikke printes ;-)
Normalfordelingen

Dens kendetegn er:
 Klokkeformet og symmetrisk omkring dens middelværdi
 Middelværdi = median = toppunkt
2
 Den er karakteriseret ved en middelværdi  og varians 
(eller standardafvigelsen σ).
 Notation: X~N,2 betyder, at X følger en normal
fordeling med middelværdi μ og varians σ²
 Arealet under kurven indenfor zσ af middelværdien, er den
samme for enhver normal fordeling - uanset middelværdi
og standardafvigelse.
 Er uanset parametre værdier, defineret for alle x (dvs x kan
antage værdier fra minus uendelig til plus uendelig)
Tæthedsfunktionen for normal-fordelingen
Tæthedsfunktionen for normal-fordelingen:
2
2
e




Normal-fordelingen:  = 0, 2= 1
for    x  
0.4
0.3
f(x)
f ( x) 
1
 ( x )2


2 2

0.2
0.1
hvor e  2,7182818 og π  3,14159265
0.0
-5
0
x
5
Eksempler på normal-fordelinger
μ = 0.0
μ = 1.0
μ = 2.0
Samme
varians
σ = 2.0
Samme
middelværdi.
σ = 0.5
σ = 1.0
Standardafvigelsen σ når X~N(μ,σ2)

Cirka 68% af all observationer ligger indenfor en
standard afvigelse fra middelværdien
P(    X     )  68%

Cirka 95% af alle observationer ligger indenfor to
standard afvigelser fra middelværdien
P(  2  X    2 )  95%

Cirka 99.7% af alle observationer ligger indenfor 3
standard afvigelser fra middelværdien
P(  3  X    3 )  99,7%
≈68%
σ
≈95%
2σ
≈99,7%
3σ
Arealet under kurven indenfor kσ af middelværdien, er den samme for
enhver normal fordeling, uanset middelværdi og standard afvigelse.
Standard normalfordelingen
Standard normalfordelingen, er normalfordelingen med
middelværdi μ = 0 og standard afvigelse σ = 1, Z~N(0,1²)
Standard Normalfordeling
0 .4
0 .3
=1
{
f(z)

0 .2
0 .1
0 .0
-5
-4
-3
-2
-1
0
=0
1
2
3
4
5
Z
NB: En standard normalfordelt stokastisk variabel betegnes sædvanligvis Z.
Tabellen

P(Z≤1.21)
F(1.21)
Den kumulative
fordelingsfunktion F(x)
for standard normal
fordelingen er tabellagt i
Tabel 1 i Appendikset,
side 837 for positive
værdier af x.
F(z) = P(Z ≤ z)

Figuren viser
P(Z ≤ 1.21) = F(1.21)
Find P(Z < 1.21) vha. Tabelopslag
P(Z ≤ 1.21 ) = F(1.21) = 0.8869
88,69%

Tilsvarende tabelopslag i R:
> pnorm(1.21)
[1] 0.8868606
Bemærk: Standard normalfordelingen
Er kun tabellagt for z = 0.00 til 3.99.
Find P(Z < -1.76)

P(Z ≤ -1.76)
P(Z ≥ 1.76)

Vi kan ikke slå F(-1.76)
op i tabellen…
Da standard normalfordelingen er
symmetrisk omkring nul:
P(Z  1.76)  P(Z  1.76)

Vi har også:
P( Z  1.76)  1  P( Z  1.76)
Tabelopslag
 1  F (1.76)
 1  0.9608 0.0392
P(Z ≤ 1.76)
P(Z ≥ 1.76)

Dvs.
P(Z  1.76)  3.92%
Find P(1 ≤ Z ≤ 2)

P(Z ≤ 2)
P(1 ≤ Z ≤ 2)
P(Z ≤ 2)
Der gælder
P(1  Z  2)  P( Z  2)  P( Z  1)
 F (2)  F (1)
 0.9772 0.8413
 0.1359
Transformation til Standardnormal



En lineær transformation af normalfordelt stokastisk
variabel er stadig en normalfordelt stokastisk variabel.
Lad X ~N(,2) og definer Y = aX + b, så gælder
 E[Y] = aE[X] + b = a + b
2
2 2
 V[Y] = a V[X] = a 
2 2
 Y ~ N(a + b, a  )
Lad X ~N(,2) og definer Z 



E[Z] = 0
V[Z] = 1
Z ~ N(0,1)
X 

, så gælder
Transformation: Eksempel




Antag studerendes score til eksamen er normalfordelt med
middelværdi 60 og standardafvigelse 15.
Dvs. score X ~ N(60,152)
Spørgsmål: Hvor stor en andel af de studerende har en
score under 95? P(X ≤ 95) = ?
Ide: Transformer problemet til et, der vedrører en standard
normal-fordelt stokastisk variabel.
95  60 
 X   95   

P( X  95)  P


P
Z






15




95  60 

 P Z 
  P( Z  2.33)  F (2.33)  0.9901
15 


Dvs. 99.01% af de studerende har en score under 95.
Kumulative fordeling i R
For dem der foretrækker kommando-linjen i R
Antag X ~ N(2,32)
Vi kan finde den kumulerede sandsynlighed F(7) = P(X  7)
vha. kommandoen
pnorm(x=7,mean=2,sd=3)
R har en standard rækkefølge til parametre, så man kan
nøjes med at skrive
pnorm(7,2,3)
Bemærk: Det er standardafvigelsen ikke variansen!