Transcript coLektion6

Statistik Lektion 6

Konfidensinterval for andele og varians Hypoteseteori Hypotesetest af middelværdi, varians og andele

Repetition: Konfidensinterval

 Et (1 a )100% konfidensinterval er et interval, der indeholder værdien af populationsparameteren med (1 a )100%

sikkerhed

(ikke sandsynlighed).  Hvis jeg i fremtiden gentager mit eksperiment, vil der være (1 a )100% sandsynlighed for at intervallet indeholder den sande populationsværdi.

Repetition: Konfidensinterval for middelværdien

Hvis

variansen

enten er normalfordelt eller stikprøven er stor, så er et (1-a)100% konfidensinterval for populationsmiddelværdien,

x

z

s a 2 2

er kendt

s

n

m og populationen , givet ved Hvis

variansen

s 2

er ukendt

og populationen er normalfordelt, så er et (1-a)100% konfidensinterval for m givet ved

x

t

a 2

s n z

a

t

a a a Husk:

n

-1 frihedsgrader

Konfidensinterval for andele

Hvis stikprøven er stor, gælder

p

(

P

1  

p p

)

n

~

N

( 0 , 1 )

P

ˆ

p

er populationsandelen.

Dvs.

P z

1  a 2  

p

( 1 

p p

)

n

z

a 2 som kan omskrives til

P

 

z

a 2

p

( 1 

p

)

n

p

 

z

a 2  1  a

p

( 1 

p

)

n

  1  a

Konfidensinterval for andele

Hvis stikprøven er stor er et (1 a )100% konfidensinterval for populationsandelen

p

 givet ved 

z

a 2 ˆ ( 1  )

n

; 

z

a 2 ( 1  ) ˆ

n n

 observationer.

Bemærk at som sædvanligt er estimatoren ˆ ˆ ( 1  ˆ )

n

p

( 1 

p

)

n

er erstattet af

Eksempel

For en given produkttype: Hvor stor en andel af det amerikanske marked er besat af udenlandske virksomheder? En stikprøve på 100 forbrugere udtages og 34 af disse bruger et udenlandske produkt; resten bruger et amerikanske produkt. Giv et 95% konfidensinterval for andelen af brugere af udenlandske produkter.

Løsning: 

z

a 2 ( 1 

n

)  0 .

34  1 .

96 ( 0 .

34 )( 0 .

66 ) 100  0 .

34  ( 1 .

96 )( 0 .

04737 )    0 .

34  0 .

0928 0 .

2472 ; 0 .

4328 

Konfidensinterval for

s 2 Hvis populationen er normalfordelt med varians s 2 , så gælder der at (

n

 1 )

S

2 s 2 ~  2

n

 1 hvor

S

2 er stikprøvevariansen.

Kritisk værdi

: Antag

X

2 kritiske værdi  2 n-1, a ~  2 (

n

-1) . Da er den defineret ved P(

X

2

>

 2 n-1, a ) = a Dvs. vi har

P

(  2

n

 1 , 1  a 2  (

n

 1 )

S

2 s 2   2

n

 1 , a 2 )  1  a  2 a a

Konfidensinterval for

s 2 Hvis populationen er normalfordelt, så er et (1 a )100% konfidensinterval for s 2 givet ved    (

n

  1 2

n

 1 , a )

s

2 2 ; ( 

n

 1 ) 2

n

 1 , 1  a

s

2 2    hvor

n

er antallet af observationer i stikprøven. Resultatet kommer sig af, at sandsynligheden på forrige slide kan omskrives til

P

(

n

 1 )

S

2  2

n

 1 , a 2  s 2  (

n

 1 )

S

 2

n

 1 , 1  a 2 2  1  a Bemærk, at estimatoren erstattet af estimatet

s 2

.

S 2

er

Eksempel

En maskine fylder kaffekander (med kaffe ;-)

Hvis det gennemsnitlige indhold er forskellig fra hvad det skal være, kan maskinen justeres. Hvis sendes til reparation. En stikprøve på 30 kander giver et varians estimat på s 2

variansen

er for høj, skal maskinen = 18,540. Giv et 95% konfidensinterval for populations variansen, s 2 .

Løsning:    (

n

  1 )

s

2 2

n

 1 , a 2 , (

n

 1 )

s

2  2

n

 1 , 1  a 2     Chi-Square Distribution: df = 29 0.

06 0.

05 0.

04 0.

03 0.

02 0.

01 0.

00 0.025

0.95

0.025

0 10  2 0 .

975 20  16 .

05 30  2 40  2 50 0 .

025  60 70 45 .

72

Hypoteser og Hypotesetest

 En hypotese er typisk et udsagn om en populationsparameter, fx middelværdien.

 En hypotesetest er en procedure, der afgører om vi vil afvise eller ikke afvise vores hypotese.

 Vi afviser vores hypotese, hvis vores data er passer ”usandsynligt dårligt” med vores hypotese.

Case: Hypotesetest på dåse

Baggrund

: I egenskab af brygmestre hos Bryggeriet har vi fået installeret et

nyt tappeanlæg

, der fylder på 0.5l dåser. Vi tømmer 25 dåser og finder at

gennemsnitsvolumen

er

497.1ml

… Producenten af anlægget har oplyst at standardafvigelsen for den påfyldte volumen er

6.7ml

.

Anklage :

Producenten har sjusket med installationen

Spørgsmål :

Er producenten skyldig i sjusk eller ej?

Trin I en Hypotesetest

 En hypotesetest består af 5 elementer: I.

II.

III.

Antagelser Hypoteser Teststørrelser IV.

a) Beslutning/konklusion Vha.

p

værdi b) Vha. kritisk værdi

I:

Antagelser

   

Type af data

: Se på om det er diskrete eller kontinuerte data.

Populationsfordeling

: Se på hvilken fordeling populationen har.

Stikprøve

: Hvilken metode er brugt til at indsamle data. Skal være en

simpel stikprøve

i de test vi bruger.

Stikprøvestørrelse

: Hvor stor er den stikprøve vi har til at beregne test størrelsen?

 I bryggeri-eksemplet antager vi at vi har

n

=25 observationer og at populationen af volumener er normalfordelt.

II:

Hypoteser

   

Nul-hypotesen H 0

: En påstand om en populations-parameter. Er typisk mere specifik end alternativ hypotesen.

Den alternative hypotese H 1

: En påstand om alle situationer, der ikke er dækket af H 0 , dvs. det ”modsatte af H 0 ”.

Generelt princip

: Nul-hypotesen er sand indtil det modsatte er bevist.

Strafferetsanalogi: H 0 bevist.

= uskyldig. Uskyldig indtil det det modsatte er  I bryggeri-eksemplet har vi to hypoteser: H H 0 1 : : m = m 0 m  m 0 (her: m 0 = 500) (ingen sjusk, uskyldig) (sjusk, ikke uskyldig)

III:

Teststørrelsen

  

Teststørrelsen

beregnes fra stikprøve data og bruges til at vurdere nul-hypotesen H 0 .

Den indeholder typisk et punktestimat for den parameter, der indgår i nul hypotesen – for eksempel stikprøve-gennemsnittet som punktestimat for middelværdien.

Gør det klart, hvilke værdier af teststørrelsen der er kritiske for H 0 , dvs. hvilke værdier, der taler imod H 0 - hypotesen.

    I Bryggeri-eksemplet skal vi bruge Teststørrelsen er

z

x

s  m

n

0  497 .

1 6 .

7 

x

 500 25 497 .

1   2 .

16 Hvis H 0 er sand ved vi at Værdier af

z

langt fra nul er kritiske for H 0 .

Z

X

s  m 0

n

~

N

( 0 , 1 )

IV:

Konklusion/Beslutningsregel

    En

beslutningsregel

betingelser for en hypotese test, er en regel for under hvilke

nul-hypotesen kan forkastes

på baggrund af stikprøven.

Intuitivt bygger beslutningsreglen på at vi afviser H 0 , hvis teststørrelsen ligger for langt fra hvad man ville forvente hvis H 0 er sand.

Mest almindeligt er at bruge en

p værdi

. En

p

værdi er et udtryk for hvor ”trovædig” H 0 hypotesen er på baggrund af en stikprøve. Hvis

p

værdien er for lille afviser vi H 0 .

Lidt mere old-school er at bruge

kritiske værdier

. Her er ideen at afvise H 0 hypotesen, hvis teststørrelsen er mere ”esktrem” end den/de kritiske værdier.

 For begge metoder gælder, at sandsynligheden for at forkaste H 0 hypotesen når H 0 er sand betegnes

signifikansniveauet

og angives ved a .

a) p-værdi og beslutningsregel

Definition

:

p værdien

for en test, er sandsynligheden for at observere en ny teststørrelse, der er mindst lige så kritisk for H 0 som den observerede teststørrelse, under antagelse af at

nul hypotesen er sand

.

Fortolkning:

Jo mere ekstrem teststørrelsen er, jo mindre er

p

værdien.

p

værdien bliver et udtryk for hvor meget vi tror på H 0 . Så når

p

værdien bliver for lille, så tror vi så lidt på H 0 , at vi afviser H 0 .

Procedure:

1.

Vælg et signifikansniveau a , typisk a0.05

.

2.

Udfør testen, dvs. beregn teststørrelsen 3.

4.

Beregn

p

værdien

Beslutning

: Hvis

p værdien <

a , så

afvises

H 0 (H 1 accepteres) Hvis

p værdien >

a , så kan vi

ikke afvise

H 0

Eksempler på dåser

Antag at volumen i populationen af 0.5l Bryggeri dåser er normalfordelt med ukendt middelværdi m og kendt varians s 2 .

Vi opstiller to

hypoteser

H H 0 1 : : m = m m  m 0 0 (her: m 0 = 500) I udgangspunktet er H 0

X

~

N

 m 0 , s 2

n

 sand, dvs.

Z

X

s  m 0

n

~

N

Teststørrelsen er:

z

x

s  m 0

n

 497 .

1  500 6 .

7 25   2 .

16

Skal vi afvise H 0 ?

Beslutning vha. kritiske værdier

Beslutningsregel

: Vi afviser H 0

z

 

z

a 2 eller

z

z

a hvis 2 Kritiske værdier Eller ækvivalent kan vi afvise H 0 , hvis

x

 m 0 

z

a 2 s

n

eller

x

 m 0 

z

a 2 s

n

Sandsynligheden for at afvise en sand H 0 er præcis a .

Ovenfor har vi benyttet: 0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

a/2 

z

a 2 Kritiske værdier

z

x

s  m

n

0 

x

 m 0 

z

s

n

0 a/2

z

a 2

Eksempel: p-værdier på dåse

Bryggeri-eksemplet:

Vi har observeret et gennemsnit på 497.1 ml for 25 observation fra en normalfordelt population.

Teststørrelsen:

z

x

s  m 0

n

 497 .

1  6 .

7 500 25   2 .

16 En mere kritisk værdi ville være en teststørrelse mindre end -2.16 eller større end 2.16.

p

værdien er derfor

P

(

Z

  2 .

16 ) 

P

(

Z

 2 .

16 )  2

P

(

Z

  2 .

16 )  0 .

03 Da 0.03 < 0.05 afviser vi H 0 .

Test af middelværdi (to-sidet test)

  

Antagelse

: Test af m ,

X

Hypoteser

: H 0 H 1 : : kvantitativ variabel og n>30.

m m   m m 0 0

Stikprøvefordeling

middelværdi m 0 af når H 0 er sand er approksimativ normal med og standard afvigelse s

n

standardisering 

Teststørrelse

:

Z

 m 0

x X

s  m 0

n

0

z

Eksempel

  

Hypoteser:

H 0 : m = 30 H 1 : m m 30    

Stikprøve:

n = 50

x

s = 31.5

= 5 

Z

 31 5 .

5  30 50  2 , 12 

p værdi:

 

p

p

2 2 (|  

Z

|  2 , 12 ) 

p

(

Z

0 .

017   2 , 12 0 .

)  034 Lille p værdi, så H 0 forkastes.

Fordeling: 0.3

0.2

0.1

0.0

0.8

0.7

0.6

0.5

0.4

.017

z

  2 .

12 0

z

 2 .

12 .017

Summe opgave

  H 0 : m = 30 H 1 : m m 30     Stikprøve: n = 20

x

s = 31.5

= 5  Beregn værdien af test størrelsen og

p

værdien.

  H 0 : m = 30 H 1 : m m 30     Stikprøve: n = 100

x

s = 31.5

= 5  Beregn værdien af test størrelsen og p-værdien

Højresidet test (et en-sidet test)

Antagelse

: Test af m ,

X

kontinuert variabel og n>30.

Hypoteser

: H 0 : m H 1 : m   m 0 eller m m 0  m 0  

Stikprøve-fordeling

med middelværdi m

X

0 er sand er approksimativ normal og standard afvigelse s

n

Teststørrelse

:

Z

X

s  m 0

n

p værdien

: p( Z > observeret z værdi)

Eksempel højresidet test

  H 0 : m = 30 H 1 : m > 30     Stikprøve: n = 50

x

= 31.5

s = 5  Test størrelse:

Z

 31 .

5  30 5 50  2 , 12   

p

værdi:

P

(

Z

 2 , 21 )  0 .

017 Lille p værdi, så H 0 forkastes.

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

.017

0 Fordeling: Z=2,12 0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

.017

m 0 30 x 31.5

Test af middelværdi for ukendt varians

  

Antagelse

: Population normalfordelt med ukendt middelværdi m og ukendt varians σ²

Hypoteser

: H 0 : m  m 0 H 1 : m  m 0 Teststørrelse t er

t

-fordelt med (n-1) frihedsgrader:

t

X

 m 0

s n

p værdien

: 2· P(

T

> |t|) , hvor

T

~

t n

-1 (kræver computer)  Venstre og højre-sidet test efter samme princip som før.

Eksempel

  H 0 : m = 30 H 1 : m m 30  Signifikansniveau: a  0.05

    Stikprøve: n = 50

x

= 31.5

s = 5  Teststørrelse:

t

 31 5 .

5  30 50  2 , 12    Teststørrelsens fordeling: 0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

.020

.020

0 -2.12

2.12

p

værdi: 2 

P

(

T

 | 2 , 12 |)  2 

P

(

t

 2 , 12 )  2  0 .

020  0 .

040 Da

p

værdi < a , forkastes H 0 .

Eksempel - fortsat

  H 0 : m = 30 H 1 : m m 30  Signifikansniveau: a  0.05

    Stikprøve: n = 50

x

= 31.5

s = 5  Teststørrelse:

t

 31 5 .

5  30 50  2 , 12      Teststørrelsens fordeling: 0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

.025

.

025 0 -2.01

2.02

2.12

Slå

t

n-1 ,a/ 2 R. op, enten vha. tabel eller

t

49, a /2 = 2,01 Da 2,12 er større end 2,01 forkastes H 0 . Hvis

t

= -2,12 ville vi forkaste H 0 fordi da -2,12 er mindre end -2.01.

Hypotesetest for middelværdi i R cmdr

Statistics → Means → Single-sample t-test… Vælg mellem to- og en-sidede test Middelværdi under H 0 antal frihedsgrader

t

teststørrelse

p

værdi H 1 hypotese  Da

p

værdien mindre end 0.05 forkaster vi H 0 accepterer H 1 hypotesen, dvs. at m hypotesen og er forskellig fra 175.

Test af en Andel

 

Antagelse

: Test af populationsandel

p

, når

np

(1-

p

) > 9 .

Hypoteser

: H 0 : H 1 :

p

p

p

0

p

0  

Stikprøvefordeling

af når H 0

p

0 er sand er approksimativ normal med middelværdi og standard afvigelse

p

0 ( 1 

p

0 ) /

n

Teststørrelse

:

z

 

p

0 ( 1 

p

0

p

0 ) /

n

p værdien

: 2·P( Z > |z|)  Højresidet og venstresidet test efter samme princip som før.

Test af Variansen

      

Antagelse

: Populationen er normalfordelt med varians s .

normal fordelt.

Hypoteser

: H 0 : s H 1 : s 2 2  s 0 2  s 0 2

Teststørrelse

Under H 0 :  følger  2 2 (

n

 1 )

s

2  s 2 0 en  2 -fordeling med n-1 frihedsgrader

Kritiske værdier:

 2

n

 1 , 1  a 2 og  2

n

 1 , a 2

p værdi

2 2  

P P

( (

Χ Χ

2   

χ

2 ) )  2  2 n 1,0.5 ellers, hvor og C 2 ~  2

n

1 .

Højresidet og venstresidet test efter samme princip som før.

Test af varians - Eksempel

        H 0 : s 2 1 H 1 : s 2 1 a0.05 ,

s

2 0.8659,

n

25  2  (

n

 1 )

s

2 s 0 2  ( 25  1 )  0 .

8659 1 Venstre sidet test, så H 0  2 1 2  a 1 )  20 .

78 forkastes,  2  1 2  a (

n

1 ) forkaste H 0 . 0 0.05

13.85

20.78

 1 2  a (

n

 1 )   2 0 .

95 ( 24 )  13 .

85

p

 værdi 

P

(  2  (

n

 1 )

s

2 s 0 2 ) 

P

(  2  20 .

78 ) Da

p

værdi > 0.05 kan vi ikke afvise H 0 .

p

værdien findes i R vha. pchisq(20.78,df=24)  0 .

3483

Opsummering: Test af middelværdi 1

    

Antagelser:

Kendt varians

stikprøve:

Z

-test.

+ normalfordelt population

eller

stor

Nul-hypotese

 H 0 : m  m 0 Test vha.

p

værdier

Teststørrelse

:

z

x

s  m 0

n

Alternativ hypoteser    H 1 : H 1 : m H 1 : m m  m 0   m 0 m Beslutning: 0 p -værdi = P( Zz ) -værdi = P( |Z|>|z| ) = 2⋅P( Z>|z| )   Hvis p -værdi < a Hvis p -værdi > a : Afvis H 0 og accepter H 1 .

: Ej afvis H 0 og ej accepter H 1 .

   

Opsummering: Test af middelværdi 1.1

Antagelser:

Kendt varians

stikprøve:

Z

-test + normalfordelt population

eller

stor

Nul-hypotese

 H 0 : m  m 0 Test vha. kritiske værdier

Teststørrelse

:

z

x

s  m 0

n

Alternativ hypoteser    H 1 :  m  m 0 Afvis H 0 H 1 :  m  m 0 Afvis H 0 H 1 :  m  m 0 Afvis H 0 hvis z < -Z a hvis z > Z a hvis |z| > Z a/2

   

Opsummering: Test af middelværdi 2

Antagelser:

Ukendt varians

+ normalfordelt population:

t

-test

Nul-hypotese

 H 0 : m  m 0

Teststørrelse

:

t

x

 m 0

s n

Test vha. kritiske værdier Alternativ hypoteser    H 1 :  m  m 0 Afvis H 0 H 1 :  H 1 :  m m  m 0 Afvis H 0  m 0 Afvis H 0 hvis t < -t a, n-1 hvis t > t a, n-1 hvis |t| > t a/2, n-1