Transcript coLektion4

Statistik
Lektion 4
Kovarians og korrelation
Mere om normalfordelingen
Den centrale grænseværdisætning
Stikprøvefordelingen
Repetition: Kontinuerte stokastiske variable

f (x) er en sandsynlighedstæthedsfunktion, hvis
f ( x)  0 for alle x R




f ( x)dx  1 - arealet under f(x) er 1
f(x)
F(x) = P(X≤x)
Fordelingsfunktion
x
F ( x)  P( X  x)   f (t )dt

- arealet til venstre for x.

F(x)
Sandsynlighed for interval
b
P(a  X  b)  F (b)  F (a)   f ( x)dx
a
P(2 ≤x≤3)
Simultan kumulativ fordelingsfunktion
og uafhængighed
Definition: Lad X1,X2,…,Xn være stokastiske variable. Da er
den Simultane kumulativ fordelingsfunktion givet ved
F ( x1, x2 ,, xn )  P( X1  x1  X 2  x2  X n  xn )
Dvs. sandsynligheden for at X1 er mindre end x1, samtidig med
at X2 er mindre end x2 osv.
Definition: De stokastiske variable X1,X2,…,Xn er uafhængige
hvis og kun hvis
F ( x1, x2 ,, xn )  F ( x1 ) F ( x2 )F ( xn )
hvor F(xi) = P(Xi ≤ xi) er den marginale fordelingsfunktion for Xi.
Kovarians
Definition: Lad X og Y være stokastiske variable (kontinuerte
eller diskrete), med middelværdier E[X]=mX og E[X]=mY. Da er
kovariansen mellem X og Y givet ved
Cov( X , Y )  E[( X  m X )(Y  μY )]
 E[ XY ]  m X μY
Sætning: Hvis X og Y er uafhængige stokastiske variable, så
er Cov(X,Y) = 0. Det modsatte gælder generelt ikke.
Bemærk: Der gælder at Cov(X,X) = Var(X).
Korrelation
Definition: Lad X og Y være stokastiske variable (diskrete
eller kontinuerte) med varianser Var[X] = s2X og Var[Y] = s2Y.
Da er korrelationen mellem X og Y givet ved
Cov( X , Y )
  Corr( X , Y ) 
s XsY
▪ Korrelationen tager værdier i intervallet [-1;1]
▪ Korrelationen beskriver graden af lineær sammenhæng.
▪ Både  = 1 og  = - 1 betyder perfekt lineær sammenhæng
▪  > 0 : store x med store y og små x med små y
▪  < 0 : store x med små y og små x med store y
▪  = 0 : ingen lineær sammenhæng mellem X og Y
Korrelation: Eksempler

Stikprøver fra par af stokastiske variable, X og Y, med
forskellige korrelationer.
2
2
  1.0
1
1
  0.8
0
0
-1
-1
-2
-2
-3
-2
-1
0
1
2
3
-2
-1
-2
-1
0
1
2
3
3
  0.3
2
2
  0.0
1
0
1
0
-1
-1
-2
-2
-3
-3
-2
-1
0
1
2
3
4
-3
0
1
2
3
Linearkombinationer af to stok. var.
Sætning: Lad X og Y være to stokastiske variable
(kontinuerte eller diskrete) med
E[X] = mX, E[Y] = mY, Var[X] = s2x og Var[Y] = s2Y.
Da gælder
E[aX  bY  c]  am X  bmY  c
og
Var[aX  bY  c]  a 2s X2  b2s Y2  2abCov( X , Y )
Hvis X og Y er uafhængige gælder
Var[aX  bY  c]  a 2s X2  b2s Y2
Linearkombination af stokastiske variable
Sætning: Lad X1, X2,…,Xn være stokastiske variable med
middelværdier μ1, μ2,…, μn og varianser s12, s22,…, sn2.
Middelværdien af en sum
E[a1 X1  a2 X 2   an X n ]  a1m1  a2 m2   an mn
Linearkombination af stokastiske variable
Sætning: Lad X1, X2,…,Xn være stokastiske variable med
middelværdier μ1, μ2,…, μn og varianser s12, s22,…, sn2.
Variansen af en sum, hvis X1, X2,…,Xn er indbydes uafhængige
V [a1 X1  a2 X 2   an X n ]  a12s12  a22s 22   an2s n2
Hvis afhængige
V [a1 X 1  a2 X 2    an X n ] 
n 1
n
a s  a s    a s  2  ai a j Cov( X i ,X j )
2
1
2
1
2
2
2
2
2
n
2
n
i 1 j i 1
Repetition: Normal fordelingen

Dens kendetegn er:






Klokkeformet og symmetrisk omkring dens middelværdi
Middelværdi=median=mode
Den er karakteriseret ved en middelværdi μ og varians σ² (eller
standard afvigelse σ).
X~N( m , s² ) betyder, at X følger en normal fordeling med middelværdi μ
og varians σ²
Arealet under kurven indenfor zσ af middelværdien, er den samme for
enhver normal fordeling, uanset middelværdi og standard afvigelse.
Er uanset parametre værdier, defineret for alle x (dvs x kan antage
værdier fra minus uendelig til plus uendelig)
s
m
Standard normal fordelingen
Standard normal fordelingen, er normalfordelingen med
middelværdi μ=0 og standard afvigelse σ=1, Z~N(0,1²)
Standard Normal fordeling
0 .4
0 .3
s=1
{
f(z)

0 .2
0 .1
0 .0
-5
-4
-3
-2
-1
0
m=0
1
2
3
4
5
Z
NB: En standard normal fordelt stokastisk variabel betegnes sædvanligvis Z.
Ny type spørgsmål



Eksempel fra sidst:
F(z) = 90%
 Find P(Z ≤ -1.76 )
Nyt eksempel:
 Find en værdi z, så
z
P(Z ≤ z) = F(z) = 0.90
Tabelløsning:
 I Tabel 1 find z, så F(z) er tættest mulig på 0.90. F(1.28)
= 0.8997 og F(1.29) = 0.9015. Dvs. Svaret er et sted
mellem 1.28 og 1.29…
Ny type spørgsmål - fortsat

Eksempel igen:
 Find en værdi z, så
P(Z ≤ z) = 0.90.
90%
z


R løsning:
> qnorm(p=0.90,mean=0,sd=1)
[1] 1.281552
R løsning – endnu simplere:
> qnorm(0.90)
[1] 1.281552
Repetition: Standardisering



En lineær transformation af normalfordelt stokastisk
variabel er stadig en normalfordelt stokastisk variabel.
Lad X ~N(m,s2) og definer Y = aX + b, så gælder
 E[Y] = aE[X] + b = am + b
2
2 2
 V[Y] = a V[X] = a s
2 2
 Y ~ N(am + b, a s )
Lad X ~N(m,s2) og definer Z 



E[Z] = 0
V[Z] = 1
Z ~ N(0,1)
X m
s
, så gælder
Transformation: Eksempel




Antag studerendes score til eksamen er normalfordelt med
middelværdi 60 og standardafvigelse 15.
Dvs. score X ~ N(60,152)
Spørgsmål: Find x, så P(X ≤ x) = 0.90
Ide: Transformer problemet til et, der vedrører en standard
normal-fordelt stokastisk variabel.
x  60 
 X m xm 

P( X  x)  P


P
Z



  0.90
s 
15 
 s


Vi ved allerede P(Z ≤ 1.282 ) = 0.90
1.282 

x  60
 x  1.282 15  60  79.23
15
Dvs. 90% af de studerende har en score under 79.23.
Sum af normalfordelte stok. var.

Antag X1,…, Xn er uafhængige stokastiske variable, hvor
X i ~ N (mi ,s i2 )
Dvs. Xi er normal-fordelt med middelværdi mi og varians si2.


Regel: Summen af normalfordelte stokastiske variable er
også en normalfordelt stokastisk variabel.
Definer S = X1 + ⋯ + Xn . Da gælder

S ~ N m1  m2   mn ,s12  s 22   s n2

Statistik

Statistisk Inferens:



Udtale os om værdier af populations parametre
Teste hypoteser om værdier af populations parametre
Tage beslutninger på basis af stikprøver
Drage konklusioner
om egenskaber for
en population...
…på basis af
observationer i en
stikprøve, en del
af populationen.
The Literary Digest Poll (1936)
Ikke biased
stikprøve
Demokrater
Republikanere
Population
Folk, der har telefon
og/eller bil og/eller
læser Digest.
Demokrater
Population
Biased
stikprøve
Republikanere
Ikke biased,
repræsentativ
stikprøve fra hele
populationen.
Biased, ikke
repræsentativ
stikprøve af folk, der
har telefon og/eller bil
og/eller læser Digest.
Data indsamling

Data indsamling
 Direkte observationer
 Eksperimenter
 Registre
 Spørgeskemaer

Et problem med spørgeskemaer er nonrespons bias – hvad gør man
når folk ikke vil svare?
Hvordan laver man en stikprøve

Simpel stikprøve
 I en simpel stikprøve er observationerne udvalgt, så
enhver anden stikprøve med samme antal observationer,
er lige så sandsynlig at vælge

Stratificeret stikprøve
 Opdele populationen i disjunkte mængder (strata) og
tage en simpel stikprøve fra hver strata.
 Hvis man for eksempel vil sammenligne hjemløse med
resten af befolkningen, så dur en simpel stikprøve ikke.
Stikprøvefordeling

Antag at vi vil udtale os om en populationsparameter (fx
middelværdien m på baggrund af en stikprøve statistik
(fx. stikprøve-gennemsnittet x ).

Vores konklusion skal tage i betragtning, at værdien af
ændrer sig for hver ny tilfældig stikprøve

Den tilfældig variation af stikprøve-statistikken (her
gennemsnittet) betegnes stikprøve-fordelingen (af
stikprøve-gennemsnittet)
x
Stikprøvefordeling: Eksempel


En direktør har seks ansatte med ancienniteten målt i år:
2
4
6
6
7
8
Populationens gennemsnit er
2 46678
m
 5.5
6


Vi udtager nu en stikprøve på to ansatte og udregner
stikprøve-gennemsnittet.
Bemærk: Vi kan udvælge to ansatte på 15 måder:
6
6!
1 2  3  4  5  6
  

 15
 2  2!(6  2)! 1  2 1  2  3  4
Stikprøvefordeling: Eksempel

De 15 lige sandsynlige stikprøver
og deres stikprøve-gennemsnit.

De mulige gennemsnit og deres
sandsynlighed.
Stikprøve
Stikprgenst
Stikprøve
Stikpr.
gnst
Stikpr.
gnst
Sandsynlighed
2,4
3.0
4,8
6.0
3.0
1/15
2,6
4.0
6,6
6.0
4.0
2/15
2,6
4.0
6,7
6.5
4.5
1/15
2,7
4.5
6,8
7.0
5.0
3/15
2,8
5.0
6,7
6.5
5.5
1/15
4,6
5.0
6,8
7.0
6.0
2/15
4,6
5.0
7,8
7.5
6.5
2/15
4,7
5.5
7.0
7.5
2/15
1/15
Stikprøvefordeling: Eksempel



Samme direktør og ansatte, men nu en stikprøvestørrelse
på n = 5.
Stikprøve
x
Sandsynlighed
2,4,6,6,7
5.0
1/6
2,4,6,6,8
5.2
1/6
2,4,6,7,8
5.4
2/6
2,6,6,7,8
5.8
1/6
4,6,6,7,8
6.2
1/6
Bemærk 1: Kun værdier tæt på populations-middelværdien
er sandsynlige.
Bemærk 2: Stikprøve-gennemsnittet tættest på
populations-middelværdien er mest sandsynlig.
Stikprøve-fordeling





Antag nu at vi tager en tilfældig stikprøve bestående af
n observationer fra en meeeget stor population.
Populationen har middelværdi m og varians s2.
Vi betragter de enkelte observationer i stikprøven som
stokastiske variable X1, X2,…,Xn.
For hver observation Xi antager vi at E[Xi] = m og V[Xi]
= s2.
Hvad kan vi nu sige om fordelingen af stikprøvegennemsnittet?
Stikprøve-gennemsnittets stikprøvefordeling: Forventede værdi

Lad de stokastiske variable X1, X2,…,Xn være en tilfældig
stikprøve fra en population.

Stikprøve-gennemsnittet af disse SV er
1 n
X   Xi
n i 1

Den forventede værdi af stikprøve-gennemsnittet er
m
1

EX   E   X 1  X 2    X n   n  m
n
n


Dvs stikprøve-gennemsnittet i middel er lig populationens middelværdi.
Stikprøve-gennemsnittets stikprøvefordeling: Varians


Hvis stikprøvestørrelsen n er lille i forhold til populationens
størrelse N kan vi antage at SV X1, X2,…,Xn er uafhængige.
Variansen af stikprøve-gennemsnittet er da
2
1  1 2
1
1 2 s
2
s X  V X   V  X1    X n     s      s 
n  n
n
n
n
2


2
Bemærk: Jo større stikprøve, jo mindre varians.
Hvis n er stor i forhold til N kan vi ikke antage
uafhængighed. Variansen af stikprøve-gennemsnittet er da
2
s
N n
2
sX V X 
n N 1
 
Normal-fordelt Population


Hvis populationen er normal-fordelt gælder Xi ~ N(m,s2)
Da summen af normal-fordelte SV er en normal-fordelt SV
har vi at
X ~ N m,s
2
X

Udregnes som på forrige slide

Vi kan standardisere stikprøve-gennemsnittet:
Z
X m
sX
X m

~ N 0,1
s n
Frequency
4
Stikprøver (n=10)
3
2
1
0
0
2
3
4
Fordelingen af stikprøve
gennemsnit
(1000 stikprøver)
5
3.0
Population
0.6
0.5
150
2.0
1.5
1.0
0.5
0.4
0.0
0.3
0
1
2
3
4
5
0.2
Frequency
Frequency
2.5
0.7
100
50
6
0.1
5
0.0
0
1
2
3
4
5
Frequency
y
1
4
0
3
0
2
1
0
0
1
2
3
4
5
1
2
3
4
5
Eksempel: Tændrør

Producent påstår at levetiden for tændrør er
normalfordelt med middelværdi 36.000 miles og SD
4.000 miles.
En stikprøve af størrelse n = 16 har en gennemsnitslevetid på 34.500.
Spørgsmål: Hvis producenten har ret, hvad er
sandsynligheden for et stikprøvegennemsnit mindre end
eller lig 34.500?
Løsning:

Tror vi på producentens påstande?



Den Centrale Grænseværdi Sætning (CLT)
(Central limit theorem)
Sætning: Lad X1, X2,…, Xn, er være n uafhængige stokastiske
variable fra samme fordeling med middelværdi m og varians
s2. Da gælder, at når stikprøvestørrelsen n øges, så vil
fordelingen af
X m
Z
s n
nærme sig mere og mere en standard normal-fordeling.
Tommelfingerregel: n = 30 er nok til en god tilnærmelse.
Eksempler
Normal
Uniform
Skewed
General
Population
n=2
n = 30
m
X
m
X
m
X
m
X
Java Eksempel

Her er en animeret illustration af den centrale
grænseværdi sætning.

http://www.intuitor.com/statistics/CentralLim.html

Prøv selv at google efter flere…
Acceptområde
Antag vi har en population med middelværdi m og varians s2.
Vi udtager en stikprøve, der er så stor at CLT ”virker”, dvs.

X ~ N m,s 2 n

Med lidt omskrivning får vi
s
s 

P m  za 2
 X  m  za 2
  1  a 100%
n
n

Hvor za/2 er defineret så P(Z>za/2) = a/2.
Dvs. (1-a)100% sandsynlighed ligger X i intervallet
(acceptområdet)
s
m  za 2
n
Eksempel: Nok Espresso?




Kafe Kjeld har købt en ny espresso-maskine!
Producent påstår at hver kop espresso fylder i
gennemsnit 30ml med en SD på 2ml.
En stikprøve bestående af n = 36 kopper espresso har
et gennemsnitsvolumen på sølle 29.3 ml.
Spørgsmål: Skal Kafe Kjeld brokke sig?