Transcript coLektion8

Statistik
Lektion 8
Test for ens varians
Fra tidligere

Hvis populationen er normalfordelt med varians s2, så
gælder
( n  1) S
s

2
2
~ c n 1
2
hvor n er stikprøve størrelsen og S2 er
stikprøvevariansen.
c2-fordeling med n-1 frihedsgrader
c n 1
2
Test af Variansen

Antagelse: Populationen er normalfordelt med varians s2.

Hypoteser:
H 0 :s
2
s0
H1 :s
2
s0
c 
2
2
2
( n  1) s
c n  1 ,
2
2

Teststørrelse:

Under H0 følger c2 en c2-fordeling med n-1 frihedsgrader

Kritiske værdier: c n 1 ,1  

Nu: Teste for ens varians i to uafhængige stikprøver.
s
2
0
2
2
og
c n  1 ,
2
2
2
F-fordelingen

Antag c21 og c22 er uafhængige
og c2-fordelte med hhv. k1 og k2
frihedsgrader.
2
c 1 k1
Definer
f(F)

F-fordelingen er fordelingen af brøken af to c2-fordelte
stokastiske variable, der er uafhængige og hver er
divideret med antallet af dens frihedsgrader.


F 
c 2 k2
2
Da følger F en F-fordelingen
med k1 og k2 frihedsgrader.
F Distributions with different Degrees of Freedom
F(25,30)
1.0
F(10,15)
0.5
F(5,6)
0.0
0
1
2
3
4
5
F
F-fordeligen på hovedet

Antag c21 og c22 er uafhængige og c2-fordelte med hhv.
k1 og k2 frihedsgrader.
c 1 k1
2
F 

Definer

Så følger F en F-fordeling med k1 og k2 frihedsgrader.
1
c 2 k2
2
c 2 k2
2


Vi har

Dvs. F-1 følger en F-fordelingen med k2 og k1
frihedsgrader.
F
c 1 k1
2
F-tabellen
Critical Points of the F Distribution Cutting Off a
Right-Tail Area of 0.05
k2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1
2
3
4
5
6
7
8
9
0.7
0.6
161.4
18.51
10.13
7.71
6.61
5.99
5.59
5.32
5.12
4.96
4.84
4.75
4.67
4.60
4.54
199.5
19.00
9.55
6.94
5.79
5.14
4.74
4.46
4.26
4.10
3.98
3.89
3.81
3.74
3.68
215.7
19.16
9.28
6.59
5.41
4.76
4.35
4.07
3.86
3.71
3.59
3.49
3.41
3.34
3.29
224.6
19.25
9.12
6.39
5.19
4.53
4.12
3.84
3.63
3.48
3.36
3.26
3.18
3.11
3.06
230.2
19.30
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33
3.20
3.11
3.03
2.96
2.90
234.0
19.33
8.94
6.16
4.95
4.28
3.87
3.58
3.37
3.22
3.09
3.00
2.92
2.85
2.79
236.8 238.9
19.35 19.37
8.89
8.85
6.09
6.04
4.88
4.82
4.21
4.15
3.79
3.73
3.50
3.44
3.29
3.23
3.14
3.07
3.01 2.95
3.01
2.91
2.85
2.83
2.77
2.76
2.70
2.71
2.64
240.5
19.38
8.81
6.00
4.77
4.10
3.68
3.39
3.18
3.02
2.90
2.80
2.71
2.65
2.59
0.05
0.5
f(F)
k1
F-fordelingen med 7 og 12 frihedsgrader
0.4
0.3
0.05
0.2
0.1
F
0.0
0
1
2
3
4
1/F12,7,0.05 = 0.278
F7,12,0.05 = 3.01
Når man skal finde det venstre kritiske punkt, kan man bruge følgende
sammenhæng:
1
F k 1 , k 2 , 
F k 2 , k 1 ,1  
5
Kritiske punkter i F fordelingen

F(6, 9),  = 0.10
Det højresidet kritiske punkt:
F-fordeling med 6 og 9 frihedsgrader
0.7
F6,9,0.05 = 3.37
0.6
0.90
0.05
f(F)
0.5
Det tilsvarende venstresidet punkt:
0.4
0.3
0.05
0.2
F6 , 9 , 0 .95 
0.1
0.0
0
1
F6,9,0.95 = 1/F9,6,0.05 = 0.2439

2
3
4
5
F
F6,9,0.05 = 3.37
Tabelopslag i R
> qf(0.95,df1=6,df2=9)
[1] 3.373754
> qf(0.05,df1=6,df2=9)
[1] 0.243961
1
F9 , 6 , 0 .05

1
4 . 10
 0 . 2439
Stikprøve-variansen i to grupper

Antag vi har to normalfordelte populationer.

Vi har n1 observationer fra population 1.

Lad s21 betegne stikprøve-variansen for pop. 1.
Lad s21 betegne populations-variansen for pop.1

( n1  1) s
2
1
~ c n1  1
2
c2-fordelt med n1-1
frihedsgrader

Vi har fra tidligere:

Tilsvarende for stikprøven fra population 2.
s1
2
Forholdet mellem to stikprøve-varianser

Hvis de to stikprøver er uafhængige har vi:
( n1  1) s1
( n 2  1) s 2
2
s1
2
2
~ c n1  1
2
( n 1  1) s 1
og
s2
2
~ c n 2 1
2
2

Dvs.
F 
s
2
1
( n 2  1) s
s
2
2
2
2
( n1  1)
~ F n1  1 , n 2  1
( n 2  1)
s1 s 1
2

Det kan omskrives til
F 
s
2
2
2
s
2
2
~ F n1  1 , n 2  1
Test for ens varians
Teststørrelsen til test for ens populations varians i to
normalfordelte populationer er givet ved:
2
F  n1  1 , n 2  1  
s1
2
s2
 I: Tosidet test:
s1 = s2
• H0: s1 = s2
• H1:s1 s2
 II:Ensidet test
•
•
s1s2
• H0: s1  s2
• H1: s1  s2
Eksempel
Kritiske værdier:
Hypoteser:
H0 : s 1  s 2
F12 , 8 , 0 .05  3 . 28
H1 : s 1  s 2
F8 ,12 , 0 .05  2 . 85
2
2
2
2
Signifikansniveau: 0.10
F8 ,12 , 0 .95 
Population 1
Population 2
n1  13
n2  9
s1  0 . 12
2
s 2  0 . 11
2
2
Teststørrelse:
2
F 
s1
s
2
2

0 . 12
2
0 . 11
2
 1 . 19
2
1
F8 ,12 , 0 .05

1
 0 . 35
2 . 85
H0 kan ikke afvises på signifikansniveau 10%, da teststørrelsen ikke er
større end 3.28 eller mindre end 0.35.
Eksempel i R




Start med at definere alle variable
> n1 = 13; s1 = 0.12; n2 = 9; s2 = 0.11
Hefter kan vi udregne teststørrelsen
> f = s1^2/s2^2
> f
[1] 1.190083
De kritiske værdier finder vi vha.
> qf(c(0.05,0.95),n1-1,n2-1)
[1] 0.3510539 3.2839390
Da 1.19 ligger mellem de to kritiske værdier kan vi ikke afvise
H0.
12
Test vha. P-værdi

Antag: F ~ Fn1-1,n2-1

Hvis F>1, så er P-værdien
2·P(F > F)


=
P-værdi = 2·
I R:
> 2*pf(f, n1-1, n2-1,
lower.tail=F)
[1] 0.8277536
F
Hvis F<1, så er P-værdien
2·P(F < F)
P-værdi = 2·
> 2*pf(f, n1-1, n2-1,
lower.tail=T)
F
Sammenligning af to varianser i R

Er der en forskel variansen for mænd og kvinders vægt?
Altid plot før test!
> sundby = read.table("Sundby95.dat", header=T)
> library(trellis) # udvidelse med ekstra plot-funktioner
> histogram(~ vaegt | koen, data=sundby)
40
Kvinde
20
10
0
40
60
80
100
60
80
100
Mand
30
Percent of Total

120
140
vaegt
120
140
Lidt mellemregninger
Først definerer vi variable for hhv. mænd og kvinder vægt:
> vaegt.maend = sundby$vaegt[sundby$koen=="Mand"]
> vaegt.kvinder = sundby$vaegt[sundby$koen=="Kvinde"]
 Derefter finder vi de to varianser vi skal bruge
> var(vaegt.maend,na.rm=T); var(vaegt.kvinder,na.rm=T)
[1] 157.1127
[1] 127.1143
 Dvs. variansen for hhv. mænd og kvinder er

s1  157 . 1127
2
og
s 2  127 . 1143 .
2
Hypotesetest

Hypoteser
2
2
 H0 : s

s
1
2
vs
H1: s 1  s 2
2
2
=

Teststørrelse
F 
s
s


2
1
2
2

157 .1127
2
127 .1143
2
P-værdi = 2·
 1 . 236
P-værdi
1.24
> 2*pf(1.236, 1205, 1430, lower.tail=F)
[1] 0.00012295981
Da P-værdien << 5% kan vi (meget klart) afvise nulhypotesen
om ens varians.
Hypotesetest i R


Hypoteser
2
2
 H0 : s

s
1
2
vs
H1: s 1  s 2
2
2
Test af ens varians
> var.test(vaegt.maend, vaegt.kvinder)
F test to compare two variances
data: vaegt.maend and vaegt.kvinder
F = 1.236, num df = 1205, denom df = 1430, p-value = 0.000123
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
1.109260 1.377912
sample estimates:
ratio of variances
1.235995
Vigtigste fordelinger i kurset

Binomial
B(n,p)

Normal
N(m,s2)


c2
t
c2n
t(n)
Hvis Z 1 ,  , Z n uafh. og Z i ~ N ( 0 ,1), så

gælder
n
i 1
Z i ~ c (n)
2
2
Hvis Z og X uafh. og Z ~ N ( 0 ,1) og
X ~ c ( n ) så gælder Z
2
X n ~ t (n)
Hvis X og Y uafh. og X ~ c ( k 1 ) og
2

F
F(k1,k2)
Y ~ c ( k 2 ) så gælder ( X k 1 ) (Y k 2 ) ~ F ( k 1 , k 2 )
2
Hvis X ~ t ( n ) så gælder
X
2
~ F (1, n )