coLektion6

Transcript coLektion6

Statistik Lektion 6

Konfidensinterval for andele og varians Hypoteseteori Hypotesetest af middelværdi, varians og andele

Repetition: Konfidensinterval

 Et (1 a )100% konfidensinterval er et interval, der indeholder værdien af populationsparameteren med (1 a )100%

sikkerhed

(ikke sandsynlighed).  Hvis jeg i fremtiden gentager mit eksperiment, vil der være (1 a )100% sandsynlighed for at intervallet indeholder den sande populationsværdi.

Repetition: Konfidensinterval for middelværdien

Hvis

variansen

enten er normalfordelt eller stikprøven er stor, så er et (1-a)100% konfidensinterval for populationsmiddelværdien,



s a 2 2

er kendt

m og populationen , givet ved Hvis

variansen

s 2

er ukendt

og populationen er normalfordelt, så er et (1-a)100% konfidensinterval for m givet ved



a 2

s n z

a a a Husk:

-1 frihedsgrader

Konfidensinterval for andele

Hvis stikprøven er stor, gælder

(

1  

p p

)

( 0 , 1 )

er populationsandelen.

Dvs.

P z

1  a 2  

( 1 

p p

)



a 2 som kan omskrives til

 

a 2

( 1 

)



 

a 2  1  a

( 1 

)

  1  a

Konfidensinterval for andele

Hvis stikprøven er stor er et (1 a )100% konfidensinterval for populationsandelen

 givet ved 

a 2 ˆ ( 1  )

; 

a 2 ( 1  ) ˆ

n n

 observationer.

Bemærk at som sædvanligt er estimatoren ˆ ˆ ( 1  ˆ )



( 1 

)

er erstattet af

Eksempel

For en given produkttype: Hvor stor en andel af det amerikanske marked er besat af udenlandske virksomheder? En stikprøve på 100 forbrugere udtages og 34 af disse bruger et udenlandske produkt; resten bruger et amerikanske produkt. Giv et 95% konfidensinterval for andelen af brugere af udenlandske produkter.

Løsning: 

a 2 ( 1 

)  0 .

34  1 .

96 ( 0 .

34 )( 0 .

66 ) 100  0 .

34  ( 1 .

96 )( 0 .

04737 )    0 .

34  0 .

0928 0 .

2472 ; 0 .

4328 

Konfidensinterval for

s 2 Hvis populationen er normalfordelt med varians s 2 , så gælder der at (

 1 )

2 s 2 ~  2

 1 hvor

2 er stikprøvevariansen.

Kritisk værdi

: Antag

2 kritiske værdi  2 n-1, a ~  2 (

-1) . Da er den defineret ved P(

 2 n-1, a ) = a Dvs. vi har

(  2

 1 , 1  a 2  (

 1 )

2 s 2   2

 1 , a 2 )  1  a  2 a a

Konfidensinterval for

s 2 Hvis populationen er normalfordelt, så er et (1 a )100% konfidensinterval for s 2 givet ved    (

  1 2

 1 , a )

2 2 ; ( 

 1 ) 2

 1 , 1  a

2 2    hvor

er antallet af observationer i stikprøven. Resultatet kommer sig af, at sandsynligheden på forrige slide kan omskrives til

(

 1 )

2  2

 1 , a 2  s 2  (

 1 )

 2

 1 , 1  a 2 2  1  a Bemærk, at estimatoren erstattet af estimatet

s 2

S 2

Eksempel

En maskine fylder kaffekander (med kaffe ;-)

Hvis det gennemsnitlige indhold er forskellig fra hvad det skal være, kan maskinen justeres. Hvis sendes til reparation. En stikprøve på 30 kander giver et varians estimat på s 2

variansen

er for høj, skal maskinen = 18,540. Giv et 95% konfidensinterval for populations variansen, s 2 .

Løsning:    (

  1 )

2 2

 1 , a 2 , (

 1 )

2  2

 1 , 1  a 2     Chi-Square Distribution: df = 29 0.

06 0.

05 0.

04 0.

03 0.

02 0.

01 0.

00 0.025

0.95

0.025

0 10  2 0 .

975 20  16 .

05 30  2 40  2 50 0 .

025  60 70 45 .

Hypoteser og Hypotesetest

 En hypotese er typisk et udsagn om en populationsparameter, fx middelværdien.

 En hypotesetest er en procedure, der afgører om vi vil afvise eller ikke afvise vores hypotese.

 Vi afviser vores hypotese, hvis vores data er passer ”usandsynligt dårligt” med vores hypotese.

Case: Hypotesetest på dåse

Baggrund

: I egenskab af brygmestre hos Bryggeriet har vi fået installeret et

nyt tappeanlæg

, der fylder på 0.5l dåser. Vi tømmer 25 dåser og finder at

gennemsnitsvolumen

497.1ml

… Producenten af anlægget har oplyst at standardafvigelsen for den påfyldte volumen er

6.7ml

Anklage :

Producenten har sjusket med installationen

Spørgsmål :

Er producenten skyldig i sjusk eller ej?

Trin I en Hypotesetest

 En hypotesetest består af 5 elementer: I.

II.

III.

Antagelser Hypoteser Teststørrelser IV.

a) Beslutning/konklusion Vha.

værdi b) Vha. kritisk værdi

Antagelser

   

Type af data

: Se på om det er diskrete eller kontinuerte data.

Populationsfordeling

: Se på hvilken fordeling populationen har.

Stikprøve

: Hvilken metode er brugt til at indsamle data. Skal være en

simpel stikprøve

i de test vi bruger.

Stikprøvestørrelse

: Hvor stor er den stikprøve vi har til at beregne test størrelsen?

 I bryggeri-eksemplet antager vi at vi har

=25 observationer og at populationen af volumener er normalfordelt.

II:

Hypoteser

   

Nul-hypotesen H 0

: En påstand om en populations-parameter. Er typisk mere specifik end alternativ hypotesen.

Den alternative hypotese H 1

: En påstand om alle situationer, der ikke er dækket af H 0 , dvs. det ”modsatte af H 0 ”.

Generelt princip

: Nul-hypotesen er sand indtil det modsatte er bevist.

Strafferetsanalogi: H 0 bevist.

= uskyldig. Uskyldig indtil det det modsatte er  I bryggeri-eksemplet har vi to hypoteser: H H 0 1 : : m = m 0 m  m 0 (her: m 0 = 500) (ingen sjusk, uskyldig) (sjusk, ikke uskyldig)

III:

Teststørrelsen

  

Teststørrelsen

beregnes fra stikprøve data og bruges til at vurdere nul-hypotesen H 0 .

Den indeholder typisk et punktestimat for den parameter, der indgår i nul hypotesen – for eksempel stikprøve-gennemsnittet som punktestimat for middelværdien.

Gør det klart, hvilke værdier af teststørrelsen der er kritiske for H 0 , dvs. hvilke værdier, der taler imod H 0 - hypotesen.

    I Bryggeri-eksemplet skal vi bruge Teststørrelsen er



s  m

0  497 .

1 6 .

7 

 500 25 497 .

1   2 .

16 Hvis H 0 er sand ved vi at Værdier af

langt fra nul er kritiske for H 0 .



s  m 0

( 0 , 1 )

IV:

Konklusion/Beslutningsregel

    En

beslutningsregel

betingelser for en hypotese test, er en regel for under hvilke

nul-hypotesen kan forkastes

på baggrund af stikprøven.

Intuitivt bygger beslutningsreglen på at vi afviser H 0 , hvis teststørrelsen ligger for langt fra hvad man ville forvente hvis H 0 er sand.

Mest almindeligt er at bruge en

p værdi

. En

værdi er et udtryk for hvor ”trovædig” H 0 hypotesen er på baggrund af en stikprøve. Hvis

værdien er for lille afviser vi H 0 .

Lidt mere old-school er at bruge

kritiske værdier

. Her er ideen at afvise H 0 hypotesen, hvis teststørrelsen er mere ”esktrem” end den/de kritiske værdier.

 For begge metoder gælder, at sandsynligheden for at forkaste H 0 hypotesen når H 0 er sand betegnes

signifikansniveauet

og angives ved a .

a) p-værdi og beslutningsregel

Definition

p værdien

for en test, er sandsynligheden for at observere en ny teststørrelse, der er mindst lige så kritisk for H 0 som den observerede teststørrelse, under antagelse af at

nul hypotesen er sand

Fortolkning:

Jo mere ekstrem teststørrelsen er, jo mindre er

værdien.

værdien bliver et udtryk for hvor meget vi tror på H 0 . Så når

værdien bliver for lille, så tror vi så lidt på H 0 , at vi afviser H 0 .

Procedure:

Vælg et signifikansniveau a , typisk a0.05

Udfør testen, dvs. beregn teststørrelsen 3.

Beregn

værdien

Beslutning

: Hvis

p værdien <

a , så

afvises

H 0 (H 1 accepteres) Hvis

p værdien >

a , så kan vi

ikke afvise

H 0

Eksempler på dåser

Antag at volumen i populationen af 0.5l Bryggeri dåser er normalfordelt med ukendt middelværdi m og kendt varians s 2 .

Vi opstiller to

hypoteser

H H 0 1 : : m = m m  m 0 0 (her: m 0 = 500) I udgangspunktet er H 0

 m 0 , s 2

 sand, dvs.



s  m 0

Teststørrelsen er:



s  m 0

 497 .

1  500 6 .

7 25   2 .

Skal vi afvise H 0 ?

Beslutning vha. kritiske værdier

Beslutningsregel

: Vi afviser H 0

 

a 2 eller



a hvis 2 Kritiske værdier Eller ækvivalent kan vi afvise H 0 , hvis

 m 0 

a 2 s

eller

 m 0 

a 2 s

Sandsynligheden for at afvise en sand H 0 er præcis a .

Ovenfor har vi benyttet: 0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

a/2 

a 2 Kritiske værdier



s  m

0 

 m 0 

0 a/2

a 2

Eksempel: p-værdier på dåse

Bryggeri-eksemplet:

Vi har observeret et gennemsnit på 497.1 ml for 25 observation fra en normalfordelt population.

Teststørrelsen:



s  m 0

 497 .

1  6 .

7 500 25   2 .

16 En mere kritisk værdi ville være en teststørrelse mindre end -2.16 eller større end 2.16.

værdien er derfor

(

  2 .

16 ) 

(

 2 .

16 )  2

(

  2 .

16 )  0 .

03 Da 0.03 < 0.05 afviser vi H 0 .

Test af middelværdi (to-sidet test)

  

Antagelse

: Test af m ,

Hypoteser

: H 0 H 1 : : kvantitativ variabel og n>30.

m m   m m 0 0

Stikprøvefordeling

middelværdi m 0 af når H 0 er sand er approksimativ normal med og standard afvigelse s

standardisering 

Teststørrelse

 m 0

x X

s  m 0

Eksempel

  

Hypoteser:

H 0 : m = 30 H 1 : m m 30    

Stikprøve:

n = 50

s = 31.5

= 5 

 31 5 .

5  30 50  2 , 12 

p værdi:

 



2 2 (|  

|  2 , 12 ) 

(

0 .

017   2 , 12 0 .

)  034 Lille p værdi, så H 0 forkastes.

Fordeling: 0.3

0.2

0.1

0.0

0.8

0.7

0.6

0.5

0.4

.017



  2 .

12 0

 2 .

12 .017

Summe opgave

  H 0 : m = 30 H 1 : m m 30     Stikprøve: n = 20

s = 31.5

= 5  Beregn værdien af test størrelsen og

værdien.

  H 0 : m = 30 H 1 : m m 30     Stikprøve: n = 100

s = 31.5

= 5  Beregn værdien af test størrelsen og p-værdien

Højresidet test (et en-sidet test)



Antagelse

: Test af m ,

kontinuert variabel og n>30.



Hypoteser

: H 0 : m H 1 : m   m 0 eller m m 0  m 0  

Stikprøve-fordeling

med middelværdi m

0 er sand er approksimativ normal og standard afvigelse s

Teststørrelse



s  m 0



p værdien

: p( Z > observeret z værdi)

Eksempel højresidet test

  H 0 : m = 30 H 1 : m > 30     Stikprøve: n = 50

= 31.5

s = 5  Test størrelse:

 31 .

5  30 5 50  2 , 12   

værdi:

(

 2 , 21 )  0 .

017 Lille p værdi, så H 0 forkastes.

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

.017

0 Fordeling: Z=2,12 0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

.017

m 0 30 x 31.5

Test af middelværdi for ukendt varians

  

Antagelse

: Population normalfordelt med ukendt middelværdi m og ukendt varians σ²

Hypoteser

: H 0 : m  m 0 H 1 : m  m 0 Teststørrelse t er

-fordelt med (n-1) frihedsgrader:



 m 0

s n



p værdien

: 2· P(

> |t|) , hvor

t n

-1 (kræver computer)  Venstre og højre-sidet test efter samme princip som før.

Eksempel

  H 0 : m = 30 H 1 : m m 30  Signifikansniveau: a  0.05

    Stikprøve: n = 50

= 31.5

s = 5  Teststørrelse:

 31 5 .

5  30 50  2 , 12    Teststørrelsens fordeling: 0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

.020

0 -2.12

2.12

værdi: 2 

(

 | 2 , 12 |)  2 

(

 2 , 12 )  2  0 .

020  0 .

040 Da

værdi < a , forkastes H 0 .

Eksempel - fortsat

  H 0 : m = 30 H 1 : m m 30  Signifikansniveau: a  0.05

    Stikprøve: n = 50

= 31.5

s = 5  Teststørrelse:

 31 5 .

5  30 50  2 , 12      Teststørrelsens fordeling: 0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

.025

025 0 -2.01

2.02

2.12

Slå

n-1 ,a/ 2 R. op, enten vha. tabel eller

49, a /2 = 2,01 Da 2,12 er større end 2,01 forkastes H 0 . Hvis

= -2,12 ville vi forkaste H 0 fordi da -2,12 er mindre end -2.01.



Hypotesetest for middelværdi i R cmdr

Statistics → Means → Single-sample t-test… Vælg mellem to- og en-sidede test Middelværdi under H 0 antal frihedsgrader

teststørrelse

værdi H 1 hypotese  Da

værdien mindre end 0.05 forkaster vi H 0 accepterer H 1 hypotesen, dvs. at m hypotesen og er forskellig fra 175.

Test af en Andel

 

Antagelse

: Test af populationsandel

, når

(1-

) > 9 .

Hypoteser

: H 0 : H 1 :





0  

Stikprøvefordeling

af når H 0

0 er sand er approksimativ normal med middelværdi og standard afvigelse

0 ( 1 

0 ) /

Teststørrelse

 

0 ( 1 

0 ) /



p værdien

: 2·P( Z > |z|)  Højresidet og venstresidet test efter samme princip som før.

Test af Variansen

      

Antagelse

: Populationen er normalfordelt med varians s .

normal fordelt.

Hypoteser

: H 0 : s H 1 : s 2 2  s 0 2  s 0 2

Teststørrelse

Under H 0 :  følger  2 2 (

 1 )

2  s 2 0 en  2 -fordeling med n-1 frihedsgrader

Kritiske værdier:

 2

 1 , 1  a 2 og  2

 1 , a 2

p værdi

2 2  

P P

( (

Χ Χ

2   

2 ) )  2  2 n 1,0.5 ellers, hvor og C 2 ~  2

1 .

Højresidet og venstresidet test efter samme princip som før.

Test af varians - Eksempel

        H 0 : s 2 1 H 1 : s 2 1 a0.05 ,

2 0.8659,

25  2  (

 1 )

2 s 0 2  ( 25  1 )  0 .

8659 1 Venstre sidet test, så H 0  2 1 2  a 1 )  20 .

78 forkastes,  2  1 2  a (

1 ) forkaste H 0 . 0 0.05

13.85

20.78

 1 2  a (

 1 )   2 0 .

95 ( 24 )  13 .

 værdi 

(  2  (

 1 )

2 s 0 2 ) 

(  2  20 .

78 ) Da

værdi > 0.05 kan vi ikke afvise H 0 .

værdien findes i R vha. pchisq(20.78,df=24)  0 .

3483

Opsummering: Test af middelværdi 1

    

Antagelser:

Kendt varians

stikprøve:

-test.

+ normalfordelt population

eller

stor

Nul-hypotese

 H 0 : m  m 0 Test vha.

værdier

Teststørrelse



s  m 0

Alternativ hypoteser    H 1 : H 1 : m H 1 : m m  m 0   m 0 m Beslutning: 0 p -værdi = P( Zz ) -værdi = P( |Z|>|z| ) = 2⋅P( Z>|z| )   Hvis p -værdi < a Hvis p -værdi > a : Afvis H 0 og accepter H 1 .

: Ej afvis H 0 og ej accepter H 1 .

   

Opsummering: Test af middelværdi 1.1

Antagelser:

Kendt varians

stikprøve:

-test + normalfordelt population

eller

stor

Nul-hypotese

 H 0 : m  m 0 Test vha. kritiske værdier

Teststørrelse



s  m 0

Alternativ hypoteser    H 1 :  m  m 0 Afvis H 0 H 1 :  m  m 0 Afvis H 0 H 1 :  m  m 0 Afvis H 0 hvis z < -Z a hvis z > Z a hvis |z| > Z a/2

   

Opsummering: Test af middelværdi 2

Antagelser:

Ukendt varians

+ normalfordelt population:

-test

Nul-hypotese

 H 0 : m  m 0

Teststørrelse



 m 0

s n

Test vha. kritiske værdier Alternativ hypoteser    H 1 :  m  m 0 Afvis H 0 H 1 :  H 1 :  m m  m 0 Afvis H 0  m 0 Afvis H 0 hvis t < -t a, n-1 hvis t > t a, n-1 hvis |t| > t a/2, n-1

coLektion6

Transcript coLektion6

Statistik Lektion 6

Konfidensinterval for andele og varians Hypoteseteori Hypotesetest af middelværdi, varians og andele

Repetition: Konfidensinterval

Repetition: Konfidensinterval for middelværdien

Konfidensinterval for andele

Konfidensinterval for andele

Eksempel

Konfidensinterval for

Konfidensinterval for

Eksempel

Hypoteser og Hypotesetest

Case: Hypotesetest på dåse

Trin I en Hypotesetest

Antagelser

Hypoteser

Teststørrelsen

Konklusion/Beslutningsregel

a) p-værdi og beslutningsregel

Eksempler på dåser

Beslutning vha. kritiske værdier

Eksempel: p-værdier på dåse

Test af middelværdi (to-sidet test)

Eksempel

Summe opgave

Højresidet test (et en-sidet test)

Eksempel højresidet test

Test af middelværdi for ukendt varians

Eksempel

Eksempel - fortsat

Hypotesetest for middelværdi i R cmdr

Test af en Andel

Test af Variansen

Test af varians - Eksempel

Opsummering: Test af middelværdi 1

Opsummering: Test af middelværdi 1.1

Opsummering: Test af middelværdi 2

Directory