Anvendt Statistik Lektion 2

Transcript Anvendt Statistik Lektion 2

Anvendt Statistik
Lektion 5
Sammenligning af to grupper
* Sammenligning af middelværdier
* Sammenligning af andele
1
Motiverende eksempel

Antal minutter brugt på rengøring/madlavning:
Rengøring/Madlavning


Køn
Stikprøvestørrelse (ni)
Gennemsnit (yi)
Standardafvigelse (si)
Mænd
1219
23
32
Kvinder
733
37
16
Der er to variable registeret for hver person
 Køn:
Forklarende variabel
Binær/dikotom (to mulige værdier)
 Tid:
Afhængig variabel
Kontinuert/skala
Uafhængige grupper (mænd/kvinder)
2
Sammenligning af middelværdier




Mål:
 Sammenligne middelværdier m1 og m2 for to grupper.
Ny parameter
 Differencen m2 - m1 er en parameter
Estimat
 y2 – y1 er et estimat for m2 - m1
Husk: Et 95% konfidensinterval er af typen
Punktestimat ± 2 · se
hvis punktestimatet er (approks.) normalfordelt.
3
Standardfejlen for y1-y2


Antag vi har to uafhængige stikprøver, og at se1 og se2 er
standardfejlen for hhv. y1 og y2.
Da er den estimerede standardfejl for y1 - y2
se 
hvor se i  s i

se 1  se 2
2
2
n i , i = 1,2.
Eksempel: Oprydning/Madlavning
2
se 
se 1  se 2 
2
2
s1
n1
2

s2
n2

32 2
1219

16 2
 1 . 09
733
4
Konfidensinterval for m1-m2

For uafhængige stikprøver fra to grupper der har
normale populationsfordelinger er et 1-a100%
konfidensintervallet for m1-m2 givet ved
 y2 -
y1   t a
2
 se
hvor t har df = n1 + n2 - 2 frihedsgrader.

Eksempel: Oprydning/Madlavning
5
Konfidensintervaller

Eksempler på konfidensintervaller for m2 - m1:
0
Indeholder ikke nul.
Peger i retning af, at
m2 er mindre end m1.
Indeholder nul.
Ingen forskel ml. m1
og m2 er plausibelt.
Indeholder ikke nul.
Peger i retning af, at
m2 er større end m1.
6
Hypotesetest for m2-m1




Antagelser: Normale populationer
Nul-hypotese:
 H0: m2-m1  0
(ingen forskel)
Alternativ hypotese:
 Ha: m2-m1  0
(en forskel)
Teststørrelse:

t
 y2 -
y1  - 0
2
hvor se 

punktestim
at
- H 0 værdi
standardfe jl
2
s1

n1
se

t
s2
n2
P-værdi
Konklusion:
 Jo lavere P-værdi jo mindre
tror vi på H0.
P-værdien
Ha: m2-m1  0
-3
-2
-t
-1
0
1
t
2
3
7
Eksempel

Antal minutter brugt på rengøring/madlavning:
Rengøring/Madlavning

Køn
Stikprøvestørrelse
Gennemsnit
Standardafvigelse
Mænd
n1=1219
y1=23
s1=32
Kvinder
n2=733
y2=37
s2=16
Hypoteser: H0: m2-m1  0 vs
2

se 
s1
n1

t
 y2 -
Ha: m2-m1  0
2

s2

n2
y1  - 0
se

-3
-2
-1
0
1
2
3
8
SPSS




SPSS: Analyze → Compare Means → Independent-Sample T Test
Test Variable(s): Afhængig variabel
Grouping variabel: Forklarende variabel
Define Groups: Angiv hvilke værdier af den forklarende variabel,
der svarer til de to grupper.
Bemærk: Køn er kodet som hhv. 0 og 1.
9
SPSS Output

Opsummering af de to grupper
Bemærk: I forhold til forrige slide
er m1 og m2 byttet rundt. Derved
får t modsat fortegn. P-værdien er
upåvirket af ombytningen, da det
er et to-sidet test.
t-teststørrelse

Test af forskel i middelværdi:
P-værdi for
to-sidet test

Konfidensinterval:
95%
konf.
interval
for m1-m2.
10
Sammenligne m1 og m2 for afhængige
stikprøver

Typisk eksempel på afhængige grupper, er hvor
observationer i de to grupper er parrede.

Eksempel: Hver af 32 studerende får målt reaktionstider
under bilkørsel under to omstændigheder:
Reaktions 1) Mens de snakker i mobil (gruppe1)
y1,i
tider for i’te
studerende.
 2) Uden de snakker i mobil (gruppe2)
y2,i
 For hver studerende har vi en forskel i reaktionstid:
yd,i = y2,i - y1,i
11
Sammenligne m1 og m2 for afhængige
stikprøver



Lad y1 og y2 være gennemsnittet for hhv. gruppe 1 og
gruppe 2.
Lad yd være gennemsnittet af differencerne.
Der gælder
y  y - y
d


2
1
Dvs. hvis vi vil teste forskelle er det nok at se på
gennemsnittet af differencerne.
Et 1-a100% konfidensinterval for m2 - m1
y d  ta
2

sd
n
df = n-1
hvor sd er standardafvigelsen for differencerne.
12
Signifikanstest for m2 - m1 (parrede obs.)




Antagelser: Normale populationer
Nul-hypotese:
 H0: md  0
(ingen forskel/effekt)
Alternativ hypotese:
 Ha: md  0
(en forskel/effekt)
Teststørrelse:



t
yd - 0
hvor se  s d
se
P-værdi: Se figur →
Konklusion:
 Jo lavere P-værdi jo mindre
tror vi på H0
P-værdien
Ha: md  0
n
-3
-t
-2
-1
0
1
t
2
3
13
Eksempel


Hypoteser
H0: md  0 vs Ha: md  0
Gennemsnitsdifferencen
y d  50 , 625
Uden mobil
Med mobil
Diff.
604
556
540
522
459
544
:
636
623
615
672
601
600
:
32
67
75
150
142
56
:

Standardafvigelse for differencerne
s d  52 , 486

Teststørrelse
t 
yd - 0
sd

n
-3
-2
-1
0
1
2
3
14
SPSS

SPSS: Analyze → Compare Means → Paired-Samples T Test
Gruppe 1
Gruppe 2
15
SPSS: Resultat

Hypoteser
H0: md  0 vs
se  s d
t
yd - 0
se
Ha: md  0
n  52 . 486

- 50 . 825
32  9 . 28
 - 5 . 455
9 . 28
-3
-2
-1
0
1
2
3
16
Test direkte på differencerne

Lav et t-test af differencerne

Bemærk at t er præcis som før og dermed er P-værdien som før.
17
Sammenligning af andele



Effekten af bøn på udfald af operation:
Bøn
Komplikationer
Ej komplikationer
Total
Andel komplika.
Ja
315
289
604
0.522
Nej
304
293
597
0.509
Der er to variable registeret for hver person
 Bøn:
Forklarende variabel
Binær/dikotom (to mulige værdier)
 Udfald: Afhængig variabel
Binær/dikotom (to mulige værdier)
Uafhængige grupper (Bøn/Ej bøn)
18
Sammenligning af andele



Mål:
 Sammenligne pop. andelene p1 og p2 for to grupper.
Ny parameter
 Differencen p2 - p1 er en parameter
Estimat
^
^
 p2 – p1 er et estimat for p2 - p1.
Stikprøve-andele

Husk: Et 95% konfidensinterval er af typen
Punktestimat ± 2 · se
hvis punktestimatet er (approks.) normalfordelt.
19
Standardfejlen for p^2 - p^1

Standardfejlen for p^ 2 - p^ 1 er
se 
hvor se i 

se 1  se 2
2
2
pˆ i 1 - pˆ i  n i .
Eksempel: Bøn og operation
se 
pˆ 1 1 - pˆ 1 

pˆ 2 1 - pˆ 2 
n1

n2
0 . 522 1 - 0 . 522
604


0 . 509 1 - 0 . 509

 0 . 0288
597
20
Konfidensinterval for p2 - p1

For store stikprøver er et 1-a100% konfidens-interval
for forskellen p2 - p1 mellem to populationer
pˆ 2 - pˆ 1   z a

2
 se
Eksempel: Bøn og operation
 Et 95% konfidensinterval for forskellen i andele:
pˆ 2 - pˆ 1   z a
2
 se  0 . 509 - 0 . 522   1 . 96  0 . 0288
 - 0 . 013  0 . 057

( - 0 . 07 ; 0 . 04 )
Da KI’et indeholder 0, er ”ingen forskel” plausibelt.
21
Signifikanstest for p2 - p1






Antagelser: Store stikprøver
punktestim at - H 0 værdi
z
standardfe jl
Nul-hypotese:
 H0: p2-p1  0
(ingen effekt)
Alternativ hypotese:
 Ha: p2-p1  0
(en effekt)
Teststørrelse:
 1
pˆ 2 - pˆ 1  - 0
1 

 z 
hvor se 0  pˆ 1 - pˆ  

n
n
se 0
2 
 1
P-værdi
p^ er den overordnede andel,
Konklusion:
når grupper ignoreres.
 Jo lavere P-værdi jo mindre
tror vi på H0
22
Test af forskel i andele

Effekten af bøn på udfald af operation:
Bøn
Komplikationer
Ej komplikationer
Total
Andel kompl.
Ja
315
289
n1 = 604
p^ 1= 0.522
Nej
304
293
n2 = 597
p^ 2 = 0.509

Hypoteser: H0: p2-p1  0 vs

pˆ 


315  304
604  597
se 0 
z
Ha: p2-p1  0
 0 . 515
 1
1 

 
ˆ
ˆ
p 1 - p  

n
n
2 
 1
pˆ 2 - pˆ 1  - 0
se 0

-3
-2
-1
0
1
2
3
23

Anvendt Statistik Lektion 2

Transcript Anvendt Statistik Lektion 2

Directory