Transcript coLektion7

Statistik
Lektion 7
Hypotesetest og kritiske værdier
Type I og Type II fejl
Styrken af en test
Sammenligning af to populationer
1
Trin I en Hypotesetest

En hypotesetest består af 4 elementer:
I.
Antagelser
•
Primært hvilken fordeling stikprøven følger
II.
Hypoteser
•
Opstil H0 og H1 hypoteser
III. Teststørrelser
•
Hvilken fordeling har teststørrelsen
•
Hvilke værdier er kritiske for H0?
IV. Beslutning/konklusion
•
Vha. p-værdi
•
Vha. kritisk værdi
2
Eksempel: Test af middelværdi

(to-sidet test)
Antagelse: Populations-variansen s2 er kendt og populationen er enten normal
eller stikprøven er stor (n>30).
H 0 : m  m0

Hypoteser:

Teststørrelsen:

Stikprøvefordeling: Når H0 er sand så følger Z en standard normalfordeling

Beslutning: Princippet er at H0 hypotesen er sand indtil det modsatte er bevis.
Det betyder bl.a. at alle beregninger foretages under antagelse af at H0 er sand.
I en-sidet test (fx: H0: m≤ m0) betyder H0 sand at beregning foretaget med m=m0.
H1 : m  m0
X  m0
Z
s n
3
p-værdi og signifikansniveau a

p-værdien af en test, er sandsynligheden for at observere en ny
teststørrelse, der er mindst lige så fritisk for H0 som den allerede
observerede teststørrelse, under antagelse af, at nul hypotesen er sand.
Signifikansniveauet a er et tal,
således at H0 forkastes, hvis pværdien er mindre end a.
p-værdi
H0
H1

a er normalvis 0.05 eller 0.01.
p<α
Forkast
Accepter

a vælges før analysen foretages.
p>α
Forkast
ikke
Accepter
ikke


Konklusion
Hvor lille et signifikans niveau man vælger, afhænger af hvilke
konsekvenser beslutningen om at forkaste H0 har. Hvis det er et spørgsmål
om liv eller død, for eksempel i medicinske forsøg, vælges α meget lille.
Men hvis det ”bare” er at teste om et folketingsparti er større end et andet,
kan man godt α større.
4
Eksempel




Signifikansniveau: a0.05
Fordelingen Z under H0:
Z
31.5  30
 2,12
5 50
0.2
Teststørrelse:

0.017
0.017
0.1


(1-a)100%
0.0

Stikprøve:
n = 50
x = 31.5
s=5

0.3
0.4

Hypoteser:
H0: m = 30
H1: m ≠ 30
-3

-2
-2,12
-1
0
1
z2
2,12
3
p-værdi:
p  værdi  P(| Z | 2,12)
 2  p( Z  2,12)
 2  0.017  0.034

Da p-værdi < a forkastes H0.
5
Kritiske værdier


Dvs. hvis x  1.96 eller x  1.96 ,
så ved vi at p-værdien ≤ 0.05.
Hvis p-værdien ≤ 0.05 afviser vi
H 0.
0.4

0.3

0.2

2.5%
2.5%
95&
0.1

I tilfælde, hvor man ikke kan bestemme p-værdien kan man typisk
finde de kritiske værdier.
De kritiske værdier svarer til teststørrelser, der har en p-værdi lig
signifikansniveauet a.
Eksempel: To-sidet test af middelværdien, s kendt, a=0.05.
I dette tilfælde er de kritiske værdier -1.96 og 1.96
0.0

-3
-2
-1,96
-1
0
1
z2
1,96
3
Tilsvarende kritiske værdier kan findes for andre fordelinger, fx tfordelingen.
6
Eksempel





H0: m = 30
H1: mm 30

Kritiske værdi:
 Da 2,12 > 1,96 forkastes H0 (eller
hvis den var mindre end -1,96)

Hvis højresidet test, dvs. H1:μ>30:
 Da 2,12 > 1.645 forkastes H0

Hvis venstresidet test, dvs. H1:μ<30:
 Da 2,12 ikke er mindre end -1,645,
forkastes H0 ikke
Signifikansniveau:
 a0.05
Stikprøve:
 n = 50
x = 31.5

 s = 5
Test størrelse:
Z
31.5  30
 2,12
5 50
7
En- og to-sidet test af middelværdi for store eller normale
stikprøver og kendt varians og signifikansniveau a.
H0: m  m0
H1: m ≠ m0
Forkast H0, hvis |z| > Za/2
H0: m  m0
H1: m < m0
Forkast H0, hvis z < -Za
To-sidet test
En-sidet test
H0: m  m0
H1: m > m0
Forkast H0, hvis z > Za
I alle tre tilfælde er teststørrelsen
x  m0
z
s/ n
8
Type I og type II fejl


Type I fejl: En sand H0 forkastes.
Type II fejl: En falsk H0 forkastes ikke.
Beslutning
Sand tilstand af H0



Forkast H0
Forkast ikke H0
H0 sand
Type I fejl
Korrekt beslutning
H0 falsk
Korrekt beslutning
Type II fejl
Signifikans niveauet a er sandsynligheden for at begå en Type I fejl.
Sandsynligheden for at begå en Type II fejl betegnes β.
Sandsynligheden for Type I og Type II fejl er inverst relaterede, dvs.
når den ene stiger, så falder den anden, så man kan ikke vælge
begge to så lavt som muligt – se næste slide.
9
Hvordan α og β afhænger af hinanden
For forskellige n
og et bestemt μ


Typisk vælger man at fastsætte sandsynligheden for type II fejl, a,
så man ikke begår store fejl.
For eksempel hvis H0 er, at en eller anden medicinsk behandling er
skadelig, er det bedre at være sikker på, at man ikke forkaster H0
selvom den er sand, end at være sikker på, at man ikke forkaster
den, selvom den er falsk.
10
Beregning af  (for en venstre sidet test)







Se på følgende hypoteser:
 H0: m  1000
 H1: m  1000
Lad s = 5, a = 5%, og n = 100.
Man kan kun beregne  for konkrete (alternative) valg af m.
Vi vil beregne  når m  m1  998.
Se næste slide
Figuren viser fordelingen af x når m = m0 = 1000, og når m = m1 = 998.
Bemærk at H0 vil blive forkastet, når x er mindre end den kritiske
værdi givet ved xkrit  m0  za s / n  10001.645 5 / 100  999.18
Omvendt, H0 vil ikke blive forkastet, når x er større end xkrit .
11
Beregning af 
xkrit  999.18
Fordeling af X
når m  m1.
Forkast H0
Fordeling af X
når m  m0.
Forkast ikke H0
12
Beregning af  (for en venstre sidet test)


Når m = m1 = 998, så er  sandsynligheden for ikke at forkaste H0,
dvs. den er P( X  xkrit ) .
Når m = m1, så vil X følge en normal fordeling med middelværdi m1 og
standard afvigelse = s/n, så:

X krit  m1 
  P Z 
  P( Z  1.18 / 0.5)  P( Z  2.360)
s/ n 

 0.0091


Styrken (power) af en test, er sandsynligheden for at den falske nul
hypotese bliver opdaget af testen.
Styrken af testen = 1 – β = 1 – 0.0091 = 0.9909.
13
Sammenligning af to grupper

Tjener mænd og kvinder lige meget? (Respons: Løn, Forklarende: Køn)

Kører en Fiat X-1/9 og en Lancia Stratos det samme antal kilometer per liter?
(Forklarende: Bilmodel, Respons: antal kilometer per l)

Kører en VW Touran det samme antal kilometer per liter på almindelig benzin,
som på bio benzin? (Forklarende: Benzin type, Respons: antal kilometer)

Er der forskel på hvor hurtigt man løber 5 km, når man har originale Nike sko og
Super Nike sko på?
14
Afhængige og uafhængige stikprøver
Ved en uafhængig stikprøve udtages en stikprøve fra hver
gruppe.

1.
2.
Mænd og kvinders løn: Tag en stikprøve fra gruppen af mænd og en
stikprøve fra gruppen af kvinder og sammenlign gennemsnitslønnen
for de to grupper.
Kilometer per liter: Tilfældig stikprøve af Touran’er og tilfældig
stikprøve af Skoda’er.
Ved en afhængig stikprøve er observationerne i de to
grupper parrede. Oftest er det den samme
person/genstand, der bliver observeret i to forskellige
situationer.

1.
2.
Bio benzin kontra almindelig benzin: Vælg tilfældigt et antal VW
Touran’er og test dem med de to forskellige typer benzin.
Original Nike sko kontra Super Nike sko: Vælg tilfældigt nogle
personer til at løbe 5 km og lad dem teste begge par sko.
15
Resten af forelæsningen

1.
2.

1.
2.
Sammenligning af to middelværdier – kendt varians
Hypotesetest
Konfidensinterval
Sammenligning af to middelværdier – ukendt varians
Hypotesetest
Konfidensinterval
16
Sammenligning af to middelværdier
Kendt varians og store eller normalfordelte populationer
Antag vi har to uafhængige populationer med ukendte
middelværdier mx og my og kendte varianser s2x og s2y.
Vi vil udtale os om forskellen i middelværdi: md = mx-my.
Fra hver population har vi hhv. nx og ny observationer.
E( X  Y )  E( X )  E(Y )  mx  m y
2
2
s
s
y
og
V ( X  Y )  V ( X )  V (Y )  x 
nx n y
dvs. X  Y er en unbiased og konsistent estimator for md
Vi har
17
Sammenligning af to middelværdier
Kendt varians og store eller normalfordelte populationer
Sætning: Antag vi har to stikprøver fra to uafhængige
populationer bestående af hhv. nx og ny observationer. De to
populationer har middelværdier mx og my og kendte varianser
s2x og s2y. Hvis nx og ny er store eller de to populationer er
normalfordelte, så er et (1a)100% konfidensinterval for mx-my
givet ved
x  y  za 2
s x2
nx

s y2
ny
Som sædvanligt har vi taget udgangspunkt i

x  y  D0

P  za 2 
 za
2
2
s x nx  s y n y



2

18
Sammenligning af to middelværdier
Kendt varians og store eller normalfordelte populationer
Antagelser: To uafhængige stikprøver fra to populationer, og
enten normalfordelte populationer eller store stikprøver
Hypoteser
H0: mx-my = D0 vs
H1: mx-my  D0
Teststørrelse
x  y  D0
z
s x2 nx  s y2 n y
2  P(Z | z |)
p-værdi
Beslutning:
Afvis H0, hvis p-værdi < a
Kritiske værdier  za 2
Beslutning:
Afvis H0 hvis |z|>za/2
19
Eksempel – er der forskel på hvor langt
bilerne kører på 25 l. benzin?
Population X: Fiat X-1/9
nx=100
x =308
σ x =84
Population Y: Lancia Stratos
H0: mx-my = 0
vs
H1: mx-my  0
z  ( x  y ) 2  (3082 2542)
84  67
s x2  s y
100 100
nx ny
 54  54  5,025
115.45 10.75
p-værdi: 2·P(Z>|5,025|) ≈ 0
Teststørrelse
Vi forkaster H0, dvs. der er en forskel i
hvor langt de to biltyper kører på literen.
n y=100
95% Konfidensinterval:
y =254
x  y  za 2 s x2 nx  s y2 n y 
σ y =67
54  1.96 115.45  [32.94 ; 75.06]
20
Sammenligning af to middelværdier
To normalfordelte populationer med ukendte varianser
Når de to populationer har forskellige varianser varianserne
er ukendte er et estimat af Var[ X  Y ] givet ved:
sx2 nx  s y2 ny
Hvis de to populationer har ens varianser, så er et estimat
for Var[ X  Y ] givet ved
s 2p (1 nx 1 ny )
hvor s2p er den ”poolede” varians er et estimat for den fælles
varians:
2
2
s 
2
p
(nx  1) s x  (n y  1) s y
nx  n y  2
21
Sammenligning af to middelværdier
Kendt varians og store eller normalfordelte populationer
Sætning: Antag vi har to stikprøver fra to uafhængige
normale populationer med middelværdier mx og my bestående
af hhv. nx og ny observationer. Hvis de to populationer har
samme varians, så er et (1a)100% konfidensinterval for mxmy givet ved
x  y  tnx  n y 2,a
2
s 2p (1 nx  1 n y )
Hvis populationerne har forskellige varianser er konfidensintervallet givet ved
x  y  t ,a
2
s x2 nx  s y2 n y
hvor antallet af friheds grader er:
( s12 n1  s22 n2 ) 2
 2
( s1 n1 ) 2 ( s22 n2 ) 2

n1  1
n2  1
22
Sammenligning af to middelværdier
Kendt varians og store eller normalfordelte populationer
Hypoteser
H0: mx-my = D0
vs
H1: mx-my  D0
Hvis s2x = s2y
Teststørrelse
t
(x  y )  D0
s 2p (1 nx  1 n y )
p-værdi
2  P(T | t |) , hvor T ~ tnx ny 2,a 2
Kritiske værdier
 tnx ny 2,a 2
Hvis s2x  s2y
Teststørrelse
t
(x  y )  D0
s x2 n x  s y2 n y
p-værdi
2  P(T | t |) , hvor T ~ t
Kritiske værdier
 t ,a 2
23
Eksempel

Forskel på højden af drenge og piger
nx  10
ny  9
x  181,30
y  170,89
s x  10,12
s y  6,17




(antal drenge)
(antal piger)
(n1  1)s12  (n2  1)s22
s 
n1  n2  2
(gennemsnitshøjde drenge)
2
p
(gennemsnitshøjde piger)
(10  1)10,12 2  (9  1)6,17 2
s 
 72,13
10  9  2
(est. standardafv. drenge)
2
p
(est. standardafv. piger)
Antag s12  s22.
Hypoteser:
 H0: m1 = m2
 H1: m1 ≠ m2
Signifikansniveau:
 a  0.05
Teststørrelse:
( x1  x2 )
t
s 2p (1 n1  1 n2 )
t
(181,30  170,89)
 2,67
72,13(1 10  1 9)

Kritiske punkter:

 tnx nx 2,a 2  t17,0.025  2.11
Beslutning:


H0 afvises da 2.67 > 2.11
24
Sammenligning af to middelværdier i R

Er der en forskel på mænd og kvinder middelvægt?
Altid plot før test!
> sundby = read.table("Sundby95.dat", header=T)
> library(trellis) # udvidelse med ekstra plot-funktioner
> histogram(~ vaegt | koen, data=sundby)
40
Kvinde
20
10
0
40
60
80
100
60
80
100
Mand
30
Percent of Total

120
140
vaegt
120
140
Sammenligning af to middelværdier i R
> sundby = read.table("Sundby95.dat", header=T)
> t.test(vaegt~koen, data=sundby, var.equal = F)
Welch Two Sample t-test
t-teststørrelse
Antal frihedsgrader
p-værdi
data: vaegt by koen
H1-hypotesen
t = -31.2108, df = 2449.037, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.52725 -13.69148
95% konfidens-interval for
sample estimates:
forskellen i middelværdi.
mean in group Kvinde
mean in group Mand
64.38064
78.99001


Da p-værdien = 2.2∙10 -16 < 0.05 afviser vi H0 - hypotesen.
Dvs. der er en forskel på mænds og kvinders middelvægt.
26
Parrede observationer





For den i’te person har vi to observationer Xi,1 og
Xi,2, fx. blodtryk før og efter behandling.
For den i’te person definerer vi differencen
Di = Xi,1Xi,2.
Forskelle mellem ”før” og ”efter” kan nu undersøges
vha. hypotesetest af middeldifferencen, mD.
Typisk antagelse er, at differencerne er
normalfordelte, Di ~ N(mD, sD2).
Estimaterne for hhv. middelværdi og varians
betegnes xD og sD2 .
27
Parrede observationer

Udregn differencer:
Nike Super
20
17
18
15
16
17
20
20
Nike Original
21
19
19
20
17
16
21
20
Super-Original
-1
-2
-1
-5
-1
1
-1
0
Beregn xD og sD ud fra differencerne.
H0 : m D  m D0
Ha : m D  m D0
Teststørrelsen : t 
xD  m D0
Konfidensinterval:
s
xD  ta 2 D
n
,
sD n
Er t fordelt med nD  1 frihedsgrader,
hvis differencerne er normalfordelte.
28
Parret t-test i R
> Nike = read.table("Nike.dat",header=T)
> fix(Nike)
> t.test(Nike$Super, Nike$Original, paired=T)
Paired t-test
data: Nike$Super and Nike$Original
t = -2.0174, df = 7, p-value = 0.08345
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.7151678 0.2151678
Bemærk: 95% konfidensinterval for
sample estimates:
forskellen i middelværdi indeholder 0!
mean of the differences
-1.25


p-værdi = 0.08345 > 0.05, dvs. vi kan ikke afvise H0.
Dvs. vi kan ikke afvise at de to sko-typer er lige gode
29
Bemærkninger til parret t-test


Selvom vi har to sæt af observationer, så koger det ned til et
sæt af differencer. Vi tester derfor kun én middelværdi, og kan
derfor ”genbruge” t-testet fra sidst.
Ved at have parrede observationer, forsvinder variationen i
observationerne, der skyldes variationen i ”deltagerne”. Dette
gælder kun hvis differencerne er uafhængige af førmålingerne.
30