Transcript coLektion5

Statistik
Lektion 5
Flere stikprøvefordelinger
Estimatore og estimater
Konfidensintervaller
Stikprøvefordeling

Antag at vi vil udtale os om en populationsparameter (fx
middelværdien m) på baggrund af en stikprøve statistik (fx.
stikprøve-gennemsnittet x ).

Vores konklusion skal tage i betragtning, at værdien af
ændrer sig for hver ny tilfældig stikprøve

Den tilfældig variation af stikprøve-statistikken (her
gennemsnittet) betegnes stikprøve-fordelingen (af
stikprøve-gennemsnittet)
x
Stikprøve-gennemsnittets stikprøvefordeling: Forventede værdi

Lad de stokastiske variable X1, X2,…,Xn være en tilfældig
stikprøve fra en population m. middelværdi m og varians s2.

Stikprøve-gennemsnittet af disse SV er
1 n
X   Xi
n i 1

Den forventede værdi og varians for stikprøvegennemsnittet er
EX   m
og
V X  
s2
n
Hvis stikprøve er lille i forhold til population
Den Centrale Grænseværdi Sætning (CLT)
(Central limit theorem)

Lad X1, X2,…, Xn, er være n uafhængige stokastiske
variable fra samme fordeling med middelværdi m og
varians s2. Da gælder, at når stikprøvestørrelsen n øges,
så vil fordelingen af
X m
Z
s n
nærme sig mere og mere en standard normal-fordeling.

Tommelfinger-regel: n ≥ 30 er nok til en god tilnærmelse.
2-fordelingen

[ki-i-anden]
En 2 -fordelt stokastisk variabel 2-fordelingen: df=10, df=30, df=50
kan ikke være negativ, så den
er begrænset af 0 til venstre.
Fordelingen er højreskæv.
En 2 fordeling er specificeret
ved antallet af frihedsgrader.
Notation: En stokastisk variabel
Y, der følger en 2-fordeling
med n [ny] frihedsgrader
 2-fordelingen nærmer
angives som
sig en normalfordelingen, når antallet
Y ~ n2
af frihedsgrader vokser.
0 .1 0
df = 10
0 .0 9
0 .0 8
2

f( )
0 .0 7
0 .0 6
df = 30
0 .0 5
0 .0 4

df = 50
0 .0 3
0 .0 2
0 .0 1
0 .0 0

0
50
2
100
Mere om 2 fordelingen

Middelværdi og Varians
Hvis Y er 2 -fordelt med n frihedsgrader:
E[Y ]  n

og
V [Y ]  2n
Sammenhæng med normalfordelingen
Lad X1, X2,…, Xn være uafhængige, standard normalfordelte
stokastiske variable. Definer
X 2  X 12  X 22    X n2
Da gælder
X 2 ~  n2
Stikprøvevariansen og dens fordeling

Stikprøve-variansen for en tilfældig stikprøve er
X


n
S

i 1
i
X)
n 1
Generelt gælder
E[S 2 ]  s 2

2
2
og
V [S 2 ]  2s 4 (n  1)
Hvis populationen er normalfordelt gælder
2 
(n  1) S 2
s2
~  n21
Sandsynligheder i 2 fordelingen
Table 7 s865
a
Areal i højre hale (α)
2

a
7.88
.995
.990
.975
.950
.900
.100
.050
.025
.010
.005
1 0.0000393
2
0.0100
3
0.0717
4
0.207
5
0.412
6
0.676
7
0.989
8
1.34
9
1.73
10
2.16
11
2.60
12
3.07
13
3.57
14
4.07
15
4.60
16
5.14
17
5.70
18
6.26
0.000157
0.0201
0.115
0.297
0.554
0.872
1.24
1.65
2.09
2.56
3.05
3.57
4.11
4.66
5.23
5.81
6.41
7.01
0.000982
0.0506
0.216
0.484
0.831
1.24
1.69
2.18
2.70
3.25
3.82
4.40
5.01
5.63
6.26
6.91
7.56
8.23
0.000393
0.103
0.352
0.711
1.15
1.64
2.17
2.73
3.33
3.94
4.57
5.23
5.89
6.57
7.26
7.96
8.67
9.39
0.0158
0.211
0.584
1.06
1.61
2.20
2.83
3.49
4.17
4.87
5.58
6.30
7.04
7.79
8.55
9.31
10.09
10.86
2.71
4.61
6.25
7.78
9.24
10.64
12.02
13.36
14.68
15.99
17.28
18.55
19.81
21.06
22.31
23.54
24.77
25.99
3.84
5.99
7.81
9.49
11.07
12.59
14.07
15.51
16.92
18.31
19.68
21.03
22.36
23.68
25.00
26.30
27.59
28.87
5.02
7.38
9.35
11.14
12.83
14.45
16.01
17.53
19.02
20.48
21.92
23.34
24.74
26.12
27.49
28.85
30.19
31.53
6.63
9.21
11.34
13.28
15.09
16.81
18.48
20.09
21.67
23.21
24.72
26.22
27.69
29.14
30.58
32.00
33.41
34.81
10.60
12.84
14.86
16.75
18.55
20.28
21.95
23.59
25.19
26.76
28.30
29.82
31.32
32.80
34.27
35.72
37.16

Man kan finde 2a i R vha.
> qchisq(p=a,df=df,lower.tail=FALSE)
Sikrer at a svarer til sandsynligheden til højre.
Eksempel



Setup: Antag vi har en stikprøve på n =15 fra en normal-fordelt
population med middelværdi m  20 og varians s2  9.
Spørgsmål: Find en værdi c, så sandsynligheden for at få en
stikprøve-varians mindre end c er 5%?
Løsning: Spørgsmålet formuleret som sandsynlighed:
P ( S 2  c)  0.05
 (n  1) S 2 (n  1)c 
  0.05
P

2
2
s
 s

(15  1)c 

P  2 
  0.05
9





Hvis 2 følger en 2 -fordeling med
15-1 frihedsgrader, så ved vi fra 2
- tabellen at
P(2 > 6.57)  0.95 
P(2  6.57)  0.05
Løs ligningen 14c/9 = 6.57  c =
4.22.
5% af alle stikprøvevarianser, vil
være under 4.22.
Estimator og estimat
En stikprøve-statistik er et
numerisk mål for en
opsummerende karakteristik
af stikprøven.
fx x
En populations-parameter
er et numerisk mål for en
opsummerende karakteristik
af populationen.
• En estimator af en populations parameter er en
•
•
•
stikprøve statistik, der bruges til at estimere
populations parameteren.
Et estimat af en parameter er en bestemt
numerisk værdi af en stikprøve statistik.
Et punkt-estimat er en enkelt værdi, der bruges
som et estimat for en populations parameter.
Et interval-estimat er et interval, der bruges
som et estimat for en populations parameter.
fx
m
Eksempel:
X er en estimator
for m .
x er et (punkt-)
estimat af m .
Estimatore: Egenskaber



Lad q være en generel populations-parameter, fx m.
Lad qˆ være en estimator for q, fx. X
Vi vil se på tre ønskelige egenskaber for estimatorer
 Unbiased
 Konsistent
 Effektiv
Unbiased estimator

Definiton: Hvis en estimator opfylder E[qˆ]  q er den
unbiased .
En unbiased estimator
rammer i gennemsnit plet.
Bia
s
En biased estimator rammer
i
gennemsnit ikke plet.
Effektiv Estimator

Definiton: Antag at qˆ1 og qˆ2 er to unbiased estimatorer.
Hvis Var(qˆ1 ) < Var( qˆ2 ), så siger vi at qˆ1 er en mere effektiv
estimator end qˆ2.
En effektiv estimator er i
gennemsnit tættere på at
ramme plet.
En ineffektiv estimator er i
gennemsnit længere fra at
ramme plet.
Konsistent

En estimator er konsistent hvis sandsynligheden for at
ligge tæt på den parameter, den estimerer, stiger, når
størrelsen på stikprøven stiger.
n = 10
n = 100
Konfidensintervaller
Konfidensintervaller generelt
Konfidensintervaller for middelværdi
Konfidens-intervaller




Et punkt-estimat estimerer værdien af en ukendt populationsparameter ved en enkelt værdi.
 Fx: Middelhøjden blandt oecon studernde x  172,73 .
Et konfidensinterval er et interval, der estimerer værdien af en
ukendt populationsparameter. Kaldes også et intervalestimat.
Sammen med intervallet gives et mål for, hvor sikker man er på, at
den sande populations parameter ligger i intervallet. Dette mål
kaldes for konfidensniveauet.
Et punktestimat indeholder ikke meget information om den faktiske
værdi af μ – fx hvor sikkert er vores punkt estimat?
Et intervalestimat indeholder flere informationer, for eksempel:


Vi er 95% sikre på, at intervallet [164,8 ; 180,7] indeholde den sande
middelværdi μ.
Eller vi er 90% sikre på, at intervallet [166,1 ; 179,3] indeholder den
sande middelværdi μ.
Konfidensinterval for middelværdien
- Opvarmning

2
Da X ~ N ( m , s n) gælder følgende:
s
s 

P m  1.96
 X  m  1.96
  0.95

n
n
Dvs. med 95% sandsynlighed ligger (den stokastiske
variabel) X i det faste interval m  1.96 s n .

Det kan omskrives til
s

s 
P X  1.96
 m  X  1.96
  0.95
n
n

Dvs. det stokastiske interval X  1.96 s
95% sandsynlighed det faste tal m.
n indeholder med
Konfidensinterval for middelværdien
- når X er normal-fordelt eller stikprøven er stor

Vi har altså
s
s 

P X  1.96
 m  X  1.96
  0.95
n
n


Hvis vi erstatter den estimatoren X (”et tilfældigt tal”) med
estimatet x (”et fast tal”) får vi konfidensintervallet:

For en stikprøve der enten er stor eller fra en normalpopulation er et 95% konfidensinterval for
middelværdien m når variansen er kendt
x  1.96
s
n
Bemærk at estimatoren X er
er ersattet med estimatet x.
Mellemregninger….
P (1.96  Z  1,96)  0.95, hvor Z ~N (0,1)
0.4
0,025
s
s 

P  1.96
 X  m  1,96
  0.95
n
n


s
s 

P m  1.96
 X  m  1,96
  0.95
n
n


s
s 

P X  1.96
 m  X  1,96
  0.95
n
n


0,025
0.1
0.0


X m
P  1.96 
 1,96   0.95
s/ n


0,025
0.2
0.3
σ2
Da X~N ( μ, ) gælder at :
n
-3
-2
-1
0
1
2
3
Konfidens-interval for middelværdi
0,025
0.3
0.4
0,025
0.0
0.1
0.2
0,025
-3
2.5% falder
nedenfor
intervallet
-2
-1
0
1
2
3
x
x
x
x
x
x
95% falder
indenfor
intervallet
2.5% falder
over intervallet
x
Approksimativt 95% af stikprøve
middelværdierne kan forventes at
falde indenfor intervallet
s
s 

m

1
.
96
,
m

1
.
96

n
n 
Omvendt, cirka 2.5% kan forventes at
s
være under m  1.96 n og 2.5% kan
s
.
forventes at være over m  196
n
.
Så 5% kan forventes at være udenfor
intervallet.
.
Konfidens-interval for middelværdi
0,025
0.3
0.4
0,025
0.0
0.1
0.2
0,025
-3
-2
-1
0
1
2
3
x
*
Approksimativt 95% af intervallerne
s omkring stikprøve
x  1.96
n
middelværdien kan forventes at indeholde
den faktiske værdi af populations
middelværdien, m.
x  1.96s
x
x
x
x  1.96s
*5% af sådanne intervaller omkring
x
x
x
95% falder
indenfor
intervallet
*
x
stikprøve middelværdien kan forventes
ikke at inkludere den faktiske værdi af
populations middelværdien.
Et (1-a )100% konfidens-interval for m
Vi definerer z a som den z-værdi, hvor sandsynligheden for at Z er
2
a
a
højere end denne værdi, er
. Kaldes også fraktilen eller den
2
2
kritiske værdi.
(1-α)100% kaldes konfidens-niveauet.


P Z > za   a/2


2


P Z  za   a/2


2





P za Z za   (1  a)
 2

2
S tand ard Norm al fordeling
0.4
(1  a )
f(z)
0.3
0.2
0.1
a
a
2
2
0.0
-5
-4
-3
-2
-1
 za
2
0
1
Z
za
2
2
3
4
5
1a) 100% konfidens interval:
s
x  za
n
2
Kritiske værdier for z og konfidens-niveauer
Standard normalfordeling
2.576
0.98
0.010
2.326
0.95
0.025
1.960
0.90
0.050
1.645
0.80
0.100
1.282
1a
0.4
0.005
0.3
0.99
0.2
Za/2
a 2
a 2
0.1
a/2
0.0
1-a
-3
Bemærk: F ( za 2 )  1  a 2
-2
 za-1 2
0
z1a
2
2
3
Eksempel




Spørgsmål: Antag 1a)  80%. Find za/2
Løsning: a  0.20 og a/2  0.10
Vi ved Fza/2)  10.1  0.90.
Dvs. za/2  1.28
Konfidens niveau og bredden af konfidensintervallet
Når man tager stikprøver fra den samme population og bruger den samme
stikprøve størrelse, så jo højere et konfidens-niveau, jo bredere et
konfidens-interval.
St an d ar d N or m al Di stri b uti o n
0.4
0.4
0.3
0.3
f(z)
f(z)
St an d ar d N or m al Di s tri b uti o n
0.2
0.1
0.2
0.1
0.0
0.0
-5
-4
-3
-2
-1
0
1
2
3
4
Z
-5
-4
-3
-2
-1
0
1
2
3
4
Z
80% konfidens interval for m :
x  1.28
5
s
n
95% konfidens interval for m :
x  1.96
s
n
5
Stikprøvestørrelsen og bredden af konfidensintervallet
Når man tager stikprøver fra den samme population og bruger det
samme konfidensniveau, så jo større stikprøvestørrelse, n, jo
smallere et konfidensinterval.
S a m p lin g D is trib utio n o f th e M e an
S a m p lin g D is trib utio n o f th e M e an
0 .4
0 .9
0 .8
0 .7
0 .3
f(x)
f(x)
0 .6
0 .2
0 .5
0 .4
0 .3
0 .1
0 .2
0 .1
0 .0
0 .0
x
95% konfidensinterval: n = 20
x
95% konfidensinterval: n = 40
Eksempel på tavlen


Antag n = 25, x = 27.781 kr/md, s = 2500 kr/md.
Find et 95% konfidensinterval for m.
Student’s t fordeling



Antag populationen er normalfordelt med middelværdi m
og varians s2.
Gammel viden: Hvis vi kender variansen s2, så kan vi
bruge:
X m
~ N 0,1)
s n
Ny viden: Hvis vi ikke kender variansen s2, så kan vi
erstatte s2 med stikprøve-variansen s2:
X m
~ tn1
s n

”følger en t-fordeling med n-1 frihedsgrader”.
Student’s t fordeling





t fordelingen er klokkeformet
Standard normal
og symmetrisk og defineret
ved antal frihedsgrader (df).
t, df=20
Middelværdien er altid lig 0.
t, df=10
Variansen af t er større end 1,
0
men går mod 1, når antallet af
m
frihedsgrader vokser.
t fordelingen er fladere og har ”tykkere haler” en standard
normal fordelingen.
t fordelingen går mod standard normal fordelingen nå
antallet af frihedsgrader vokser.
Konfidensinterval for m når s er ukendt t-fordelingen

Defintion: Et (1-a)100% konfidensinterval for m når s er
ukendt (og man antager en normalfordelt population):
x  ta
2
s
n
hvor ta 2 er værdien i t-fordelingen med n-1 frihedsgraders,
hvor sandsynligheden for at t er højere end denne værdi, er
a.
a/2
ta/2
Tabel for t-fordelingen
df
--1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
∞
t0.100
----3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.303
1.296
1.289
1.282
t0.050
----6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.684
1.671
1.658
1.645
t0.025
-----12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.021
2.000
1.980
1.960
t0.010
-----31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.423
2.390
2.358
2.326
t0.005
-----63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.704
2.660
2.617
2.576
a/2
ta/2
For store frihedsgrader kan tfordelingen approksimeres ved en
standard normalfordeling.
R

Man kan slå ta/2 op i R:
 Hvis vi vil finde t0.025 når antallet af frihedsgrader er 27:
> qt(0.025,df=27,lower.tail=F)
[1] 2.051831
 Tilføjelsen lower.tail=F er nødvendig, da de 0.025
angiver arealet i øvre hale.

Alternativt kan man bruge
> qt(0.975,27)
[1] 2.051831
Eksempel
En aktieanalytiker vil estimere den gennemsnitlige gevinst på en
bestemt aktie. En stikprøve på 15 dage giver en gennemsnitlig
gevinst på x  10.37% og en standardafvigelse på s = 3.5%.
Antag en normal-population og giv et 95% konfidensinterval for
den gennemsnitlige gevinst på denne aktie.
Den kritiske værdi af t for df = (n -1) =
(15 -1) = 14 og et højrehalet areal på
α/2 = 0.025 er: t 0.025  2.145
Konfidensintervallet er:
s
n
35
.
 10.37  2.145
15
 10.37  1.94
 8.43,12.31
x  t 0.025
R-mellemregning:
> qt(0.025,df=14,lower.tail=F)
[1] 2.144787
Konfidensintervaller for Middelværdien i R


R har kun en indbygget funktion til at beregne konfidensintervallet
for m under antagelse af ukendt varians:
Eksempel: 95% konfidensinterval for højde i Sundby95:
> t.test(data$hoejde)
One Sample t-test
data: data$hoejde
t = 918.6152, df = 2626, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
172.3263 173.0635
sample estimates:
mean of x
172.6949
Konfidensintervaller for Middelværdien i R

Man kan også ændre konfidensniveauet, fx et 99% konfidensinterval:
> t.test(data$hoejde,conf.level=0.99)
99 percent confidence interval:
172.2103 173.1795


Man kan også ”bare” sætte ind i formlen
x  ta 2
s
:
n
> mean(data$hoejde,na.rm=T) +
c(-1,1)*qt(0.995,n-1)*sd(data$hoejde,na.rm=T)/sqrt(n)
[1] 172.2103 173.1795
Hvor n er antallet af faktiske observationer af højde:
> n = sum(!is.na(data$hoejde))