Transcript coLektion6
Statistik Lektion 6
Konfidensinterval for andele og varians Hypoteseteori Hypotesetest af middelværdi, varians og andele
Repetition: Konfidensinterval
Et (1 a )100% konfidensinterval er et interval, der indeholder værdien af populationsparameteren med (1 a )100%
sikkerhed
(ikke sandsynlighed). Hvis jeg i fremtiden gentager mit eksperiment, vil der være (1 a )100% sandsynlighed for at intervallet indeholder den sande populationsværdi.
Repetition: Konfidensinterval for middelværdien
Hvis
variansen
enten er normalfordelt eller stikprøven er stor, så er et (1-a)100% konfidensinterval for populationsmiddelværdien,
x
z
s a 2 2
er kendt
s
n
m og populationen , givet ved Hvis
variansen
s 2
er ukendt
og populationen er normalfordelt, så er et (1-a)100% konfidensinterval for m givet ved
x
t
a 2
s n z
a
t
a a a Husk:
n
-1 frihedsgrader
Konfidensinterval for andele
Hvis stikprøven er stor, gælder
p
(
P
1
p p
)
n
~
N
( 0 , 1 )
P
ˆ
p
er populationsandelen.
Dvs.
P z
1 a 2
p
( 1
p p
)
n
z
a 2 som kan omskrives til
P
z
a 2
p
( 1
p
)
n
p
z
a 2 1 a
p
( 1
p
)
n
1 a
Konfidensinterval for andele
Hvis stikprøven er stor er et (1 a )100% konfidensinterval for populationsandelen
p
givet ved
z
a 2 ˆ ( 1 )
n
;
z
a 2 ( 1 ) ˆ
n n
observationer.
Bemærk at som sædvanligt er estimatoren ˆ ˆ ( 1 ˆ )
n
p
( 1
p
)
n
er erstattet af
Eksempel
For en given produkttype: Hvor stor en andel af det amerikanske marked er besat af udenlandske virksomheder? En stikprøve på 100 forbrugere udtages og 34 af disse bruger et udenlandske produkt; resten bruger et amerikanske produkt. Giv et 95% konfidensinterval for andelen af brugere af udenlandske produkter.
Løsning:
z
a 2 ( 1
n
) 0 .
34 1 .
96 ( 0 .
34 )( 0 .
66 ) 100 0 .
34 ( 1 .
96 )( 0 .
04737 ) 0 .
34 0 .
0928 0 .
2472 ; 0 .
4328
Konfidensinterval for
s 2 Hvis populationen er normalfordelt med varians s 2 , så gælder der at (
n
1 )
S
2 s 2 ~ 2
n
1 hvor
S
2 er stikprøvevariansen.
Kritisk værdi
: Antag
X
2 kritiske værdi 2 n-1, a ~ 2 (
n
-1) . Da er den defineret ved P(
X
2
>
2 n-1, a ) = a Dvs. vi har
P
( 2
n
1 , 1 a 2 (
n
1 )
S
2 s 2 2
n
1 , a 2 ) 1 a 2 a a
Konfidensinterval for
s 2 Hvis populationen er normalfordelt, så er et (1 a )100% konfidensinterval for s 2 givet ved (
n
1 2
n
1 , a )
s
2 2 ; (
n
1 ) 2
n
1 , 1 a
s
2 2 hvor
n
er antallet af observationer i stikprøven. Resultatet kommer sig af, at sandsynligheden på forrige slide kan omskrives til
P
(
n
1 )
S
2 2
n
1 , a 2 s 2 (
n
1 )
S
2
n
1 , 1 a 2 2 1 a Bemærk, at estimatoren erstattet af estimatet
s 2
.
S 2
er
Eksempel
En maskine fylder kaffekander (med kaffe ;-)
Hvis det gennemsnitlige indhold er forskellig fra hvad det skal være, kan maskinen justeres. Hvis sendes til reparation. En stikprøve på 30 kander giver et varians estimat på s 2
variansen
er for høj, skal maskinen = 18,540. Giv et 95% konfidensinterval for populations variansen, s 2 .
Løsning: (
n
1 )
s
2 2
n
1 , a 2 , (
n
1 )
s
2 2
n
1 , 1 a 2 Chi-Square Distribution: df = 29 0.
06 0.
05 0.
04 0.
03 0.
02 0.
01 0.
00 0.025
0.95
0.025
0 10 2 0 .
975 20 16 .
05 30 2 40 2 50 0 .
025 60 70 45 .
72
Hypoteser og Hypotesetest
En hypotese er typisk et udsagn om en populationsparameter, fx middelværdien.
En hypotesetest er en procedure, der afgører om vi vil afvise eller ikke afvise vores hypotese.
Vi afviser vores hypotese, hvis vores data er passer ”usandsynligt dårligt” med vores hypotese.
Case: Hypotesetest på dåse
Baggrund
: I egenskab af brygmestre hos Bryggeriet har vi fået installeret et
nyt tappeanlæg
, der fylder på 0.5l dåser. Vi tømmer 25 dåser og finder at
gennemsnitsvolumen
er
497.1ml
… Producenten af anlægget har oplyst at standardafvigelsen for den påfyldte volumen er
6.7ml
.
Anklage :
Producenten har sjusket med installationen
Spørgsmål :
Er producenten skyldig i sjusk eller ej?
Trin I en Hypotesetest
En hypotesetest består af 5 elementer: I.
II.
III.
Antagelser Hypoteser Teststørrelser IV.
a) Beslutning/konklusion Vha.
p
værdi b) Vha. kritisk værdi
I:
Antagelser
Type af data
: Se på om det er diskrete eller kontinuerte data.
Populationsfordeling
: Se på hvilken fordeling populationen har.
Stikprøve
: Hvilken metode er brugt til at indsamle data. Skal være en
simpel stikprøve
i de test vi bruger.
Stikprøvestørrelse
: Hvor stor er den stikprøve vi har til at beregne test størrelsen?
I bryggeri-eksemplet antager vi at vi har
n
=25 observationer og at populationen af volumener er normalfordelt.
II:
Hypoteser
Nul-hypotesen H 0
: En påstand om en populations-parameter. Er typisk mere specifik end alternativ hypotesen.
Den alternative hypotese H 1
: En påstand om alle situationer, der ikke er dækket af H 0 , dvs. det ”modsatte af H 0 ”.
Generelt princip
: Nul-hypotesen er sand indtil det modsatte er bevist.
Strafferetsanalogi: H 0 bevist.
= uskyldig. Uskyldig indtil det det modsatte er I bryggeri-eksemplet har vi to hypoteser: H H 0 1 : : m = m 0 m m 0 (her: m 0 = 500) (ingen sjusk, uskyldig) (sjusk, ikke uskyldig)
III:
Teststørrelsen
Teststørrelsen
beregnes fra stikprøve data og bruges til at vurdere nul-hypotesen H 0 .
Den indeholder typisk et punktestimat for den parameter, der indgår i nul hypotesen – for eksempel stikprøve-gennemsnittet som punktestimat for middelværdien.
Gør det klart, hvilke værdier af teststørrelsen der er kritiske for H 0 , dvs. hvilke værdier, der taler imod H 0 - hypotesen.
I Bryggeri-eksemplet skal vi bruge Teststørrelsen er
z
x
s m
n
0 497 .
1 6 .
7
x
500 25 497 .
1 2 .
16 Hvis H 0 er sand ved vi at Værdier af
z
langt fra nul er kritiske for H 0 .
Z
X
s m 0
n
~
N
( 0 , 1 )
IV:
Konklusion/Beslutningsregel
En
beslutningsregel
betingelser for en hypotese test, er en regel for under hvilke
nul-hypotesen kan forkastes
på baggrund af stikprøven.
Intuitivt bygger beslutningsreglen på at vi afviser H 0 , hvis teststørrelsen ligger for langt fra hvad man ville forvente hvis H 0 er sand.
Mest almindeligt er at bruge en
p værdi
. En
p
værdi er et udtryk for hvor ”trovædig” H 0 hypotesen er på baggrund af en stikprøve. Hvis
p
værdien er for lille afviser vi H 0 .
Lidt mere old-school er at bruge
kritiske værdier
. Her er ideen at afvise H 0 hypotesen, hvis teststørrelsen er mere ”esktrem” end den/de kritiske værdier.
For begge metoder gælder, at sandsynligheden for at forkaste H 0 hypotesen når H 0 er sand betegnes
signifikansniveauet
og angives ved a .
a) p-værdi og beslutningsregel
Definition
:
p værdien
for en test, er sandsynligheden for at observere en ny teststørrelse, der er mindst lige så kritisk for H 0 som den observerede teststørrelse, under antagelse af at
nul hypotesen er sand
.
Fortolkning:
Jo mere ekstrem teststørrelsen er, jo mindre er
p
værdien.
p
værdien bliver et udtryk for hvor meget vi tror på H 0 . Så når
p
værdien bliver for lille, så tror vi så lidt på H 0 , at vi afviser H 0 .
Procedure:
1.
Vælg et signifikansniveau a , typisk a0.05
.
2.
Udfør testen, dvs. beregn teststørrelsen 3.
4.
Beregn
p
værdien
Beslutning
: Hvis
p værdien <
a , så
afvises
H 0 (H 1 accepteres) Hvis
p værdien >
a , så kan vi
ikke afvise
H 0
Eksempler på dåser
Antag at volumen i populationen af 0.5l Bryggeri dåser er normalfordelt med ukendt middelværdi m og kendt varians s 2 .
Vi opstiller to
hypoteser
H H 0 1 : : m = m m m 0 0 (her: m 0 = 500) I udgangspunktet er H 0
X
~
N
m 0 , s 2
n
sand, dvs.
Z
X
s m 0
n
~
N
Teststørrelsen er:
z
x
s m 0
n
497 .
1 500 6 .
7 25 2 .
16
Skal vi afvise H 0 ?
Beslutning vha. kritiske værdier
Beslutningsregel
: Vi afviser H 0
z
z
a 2 eller
z
z
a hvis 2 Kritiske værdier Eller ækvivalent kan vi afvise H 0 , hvis
x
m 0
z
a 2 s
n
eller
x
m 0
z
a 2 s
n
Sandsynligheden for at afvise en sand H 0 er præcis a .
Ovenfor har vi benyttet: 0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
a/2
z
a 2 Kritiske værdier
z
x
s m
n
0
x
m 0
z
s
n
0 a/2
z
a 2
Eksempel: p-værdier på dåse
Bryggeri-eksemplet:
Vi har observeret et gennemsnit på 497.1 ml for 25 observation fra en normalfordelt population.
Teststørrelsen:
z
x
s m 0
n
497 .
1 6 .
7 500 25 2 .
16 En mere kritisk værdi ville være en teststørrelse mindre end -2.16 eller større end 2.16.
p
værdien er derfor
P
(
Z
2 .
16 )
P
(
Z
2 .
16 ) 2
P
(
Z
2 .
16 ) 0 .
03 Da 0.03 < 0.05 afviser vi H 0 .
Test af middelværdi (to-sidet test)
Antagelse
: Test af m ,
X
Hypoteser
: H 0 H 1 : : kvantitativ variabel og n>30.
m m m m 0 0
Stikprøvefordeling
middelværdi m 0 af når H 0 er sand er approksimativ normal med og standard afvigelse s
n
standardisering
Teststørrelse
:
Z
m 0
x X
s m 0
n
0
z
Eksempel
Hypoteser:
H 0 : m = 30 H 1 : m m 30
Stikprøve:
n = 50
x
s = 31.5
= 5
Z
31 5 .
5 30 50 2 , 12
p værdi:
p
p
2 2 (|
Z
| 2 , 12 )
p
(
Z
0 .
017 2 , 12 0 .
) 034 Lille p værdi, så H 0 forkastes.
Fordeling: 0.3
0.2
0.1
0.0
0.8
0.7
0.6
0.5
0.4
.017
z
2 .
12 0
z
2 .
12 .017
Summe opgave
H 0 : m = 30 H 1 : m m 30 Stikprøve: n = 20
x
s = 31.5
= 5 Beregn værdien af test størrelsen og
p
værdien.
H 0 : m = 30 H 1 : m m 30 Stikprøve: n = 100
x
s = 31.5
= 5 Beregn værdien af test størrelsen og p-værdien
Højresidet test (et en-sidet test)
Antagelse
: Test af m ,
X
kontinuert variabel og n>30.
Hypoteser
: H 0 : m H 1 : m m 0 eller m m 0 m 0
Stikprøve-fordeling
med middelværdi m
X
0 er sand er approksimativ normal og standard afvigelse s
n
Teststørrelse
:
Z
X
s m 0
n
p værdien
: p( Z > observeret z værdi)
Eksempel højresidet test
H 0 : m = 30 H 1 : m > 30 Stikprøve: n = 50
x
= 31.5
s = 5 Test størrelse:
Z
31 .
5 30 5 50 2 , 12
p
værdi:
P
(
Z
2 , 21 ) 0 .
017 Lille p værdi, så H 0 forkastes.
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
.017
0 Fordeling: Z=2,12 0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
.017
m 0 30 x 31.5
Test af middelværdi for ukendt varians
Antagelse
: Population normalfordelt med ukendt middelværdi m og ukendt varians σ²
Hypoteser
: H 0 : m m 0 H 1 : m m 0 Teststørrelse t er
t
-fordelt med (n-1) frihedsgrader:
t
X
m 0
s n
p værdien
: 2· P(
T
> |t|) , hvor
T
~
t n
-1 (kræver computer) Venstre og højre-sidet test efter samme princip som før.
Eksempel
H 0 : m = 30 H 1 : m m 30 Signifikansniveau: a 0.05
Stikprøve: n = 50
x
= 31.5
s = 5 Teststørrelse:
t
31 5 .
5 30 50 2 , 12 Teststørrelsens fordeling: 0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
.020
.020
0 -2.12
2.12
p
værdi: 2
P
(
T
| 2 , 12 |) 2
P
(
t
2 , 12 ) 2 0 .
020 0 .
040 Da
p
værdi < a , forkastes H 0 .
Eksempel - fortsat
H 0 : m = 30 H 1 : m m 30 Signifikansniveau: a 0.05
Stikprøve: n = 50
x
= 31.5
s = 5 Teststørrelse:
t
31 5 .
5 30 50 2 , 12 Teststørrelsens fordeling: 0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
.025
.
025 0 -2.01
2.02
2.12
Slå
t
n-1 ,a/ 2 R. op, enten vha. tabel eller
t
49, a /2 = 2,01 Da 2,12 er større end 2,01 forkastes H 0 . Hvis
t
= -2,12 ville vi forkaste H 0 fordi da -2,12 er mindre end -2.01.
Hypotesetest for middelværdi i R cmdr
Statistics → Means → Single-sample t-test… Vælg mellem to- og en-sidede test Middelværdi under H 0 antal frihedsgrader
t
teststørrelse
p
værdi H 1 hypotese Da
p
værdien mindre end 0.05 forkaster vi H 0 accepterer H 1 hypotesen, dvs. at m hypotesen og er forskellig fra 175.
Test af en Andel
Antagelse
: Test af populationsandel
p
, når
np
(1-
p
) > 9 .
Hypoteser
: H 0 : H 1 :
p
p
p
0
p
0
Stikprøvefordeling
af når H 0
p
0 er sand er approksimativ normal med middelværdi og standard afvigelse
p
0 ( 1
p
0 ) /
n
Teststørrelse
:
z
p
0 ( 1
p
0
p
0 ) /
n
p værdien
: 2·P( Z > |z|) Højresidet og venstresidet test efter samme princip som før.
Test af Variansen
Antagelse
: Populationen er normalfordelt med varians s .
normal fordelt.
Hypoteser
: H 0 : s H 1 : s 2 2 s 0 2 s 0 2
Teststørrelse
Under H 0 : følger 2 2 (
n
1 )
s
2 s 2 0 en 2 -fordeling med n-1 frihedsgrader
Kritiske værdier:
2
n
1 , 1 a 2 og 2
n
1 , a 2
p værdi
2 2
P P
( (
Χ Χ
2
χ
2 ) ) 2 2 n 1,0.5 ellers, hvor og C 2 ~ 2
n
1 .
Højresidet og venstresidet test efter samme princip som før.
Test af varians - Eksempel
H 0 : s 2 1 H 1 : s 2 1 a0.05 ,
s
2 0.8659,
n
25 2 (
n
1 )
s
2 s 0 2 ( 25 1 ) 0 .
8659 1 Venstre sidet test, så H 0 2 1 2 a 1 ) 20 .
78 forkastes, 2 1 2 a (
n
1 ) forkaste H 0 . 0 0.05
13.85
20.78
1 2 a (
n
1 ) 2 0 .
95 ( 24 ) 13 .
85
p
værdi
P
( 2 (
n
1 )
s
2 s 0 2 )
P
( 2 20 .
78 ) Da
p
værdi > 0.05 kan vi ikke afvise H 0 .
p
værdien findes i R vha. pchisq(20.78,df=24) 0 .
3483
Opsummering: Test af middelværdi 1
Antagelser:
Kendt varians
stikprøve:
Z
-test.
+ normalfordelt population
eller
stor
Nul-hypotese
H 0 : m m 0 Test vha.
p
værdier
Teststørrelse
:
z
x
s m 0
n
Alternativ hypoteser H 1 : H 1 : m H 1 : m m m 0 m 0 m Beslutning: 0 p -værdi = P( Z
: Ej afvis H 0 og ej accepter H 1 .
Opsummering: Test af middelværdi 1.1
Antagelser:
Kendt varians
stikprøve:
Z
-test + normalfordelt population
eller
stor
Nul-hypotese
H 0 : m m 0 Test vha. kritiske værdier
Teststørrelse
:
z
x
s m 0
n
Alternativ hypoteser H 1 : m m 0 Afvis H 0 H 1 : m m 0 Afvis H 0 H 1 : m m 0 Afvis H 0 hvis z < -Z a hvis z > Z a hvis |z| > Z a/2
Opsummering: Test af middelværdi 2
Antagelser:
Ukendt varians
+ normalfordelt population:
t
-test
Nul-hypotese
H 0 : m m 0
Teststørrelse
:
t
x
m 0
s n
Test vha. kritiske værdier Alternativ hypoteser H 1 : m m 0 Afvis H 0 H 1 : H 1 : m m m 0 Afvis H 0 m 0 Afvis H 0 hvis t < -t a, n-1 hvis t > t a, n-1 hvis |t| > t a/2, n-1