Transcript PowerPoint

Anvendt Statistik
Lektion 3
Punkt- og intervalestimater
Konfidensintervaller
Valg af stikprøvestørrelse
Punkt- og intervalestimater: Motivation

Motiverende eksempel:
 I en undersøgelse er andelen af rygere 0.27. Det anslås at
populationsandelen er mellem 0.25 og 0.29.

Begreber:
 De 0.27 er et punkt-estimat
 Intervallet 0.25 til 0.29 er et interval-estimat.
 Dvs. populationsandelen falder (anslået) indenfor
punkt-estimat +/- fejl-margin.
 Fejl-margin er her 0.02
Punkt-estimat og -estimator

En estimator er en ”generel formel”, der bruges til at
estimere en parameter med, fx.
y1  y2    yn
y
n

Et estimat er en konkret udregning af en estimator, ved
at indsætte data.

Der kan være mange estimatore for den samme
parameter. Hvis populationsfordelingen er symmetrisk
er både stikprøve-median og -gennemsnit estimatorer for
populations-middelværdien.
En god estimator

En god estimator har typisk følgende egenskaber:
 Den er Unbiased – dvs. at estimatoren i gennemsnit
er lig parameteren.
 Den er Efficient – dvs. fejl-marginen bliver mindre jo
mere data der er til rådighed.

Eksempel: Stikprøve-gennemsnittet y er en unbiased
og efficient estimator for populationsmiddelværdien m.

Eksempel: Stikprøve-medianen er en biased estimator
for populationsmiddelværdien, hvis fordelingen ikke er
symmetrisk.
Notation – en på hatten


Generelt vil vi betegne en estimator med en ”hat” ^.
Fx. betegner m^ en estimator for m.
Konfidensinterval

Motivation:
 Ifølge undersøgelse: 54% er vilde med
pålægschokolade! (Et punkt-estimat)
 Spørgsmål: Hvor sikkert er dette estimat?

Konfidensinterval
 Et konfidensinterval angiver et interval, hvor vi tror
parameteren ligger med en vis sikkerhed.
 Sandsynligheden for at vores stikprøve fører til et
konfidensinterval, der indeholder parameteren
betegnes konfidensniveauet.
 Konfidensniveauet er typisk 0.95 eller 0.99.
Konfidensinterval: Typisk opskrift

I mange tilfælde er stikprøvefordelingen for
estimatoren (tilnærmelsesvis) normalfordelt. Fx
stikprøvegennemsnittet.

I disse tilfælde er konfidensintervallet givet ved
punkt-estimat ± fejl-margin

Spørgsmål: Hvordan finder vi fejl-marginen?
Konfidensinterval for andele

Notation

: populations-andel

: stikprøve-andel
Bemærk: p^ er en estimator for p.




p
p^
Antag
 y = 1
: succes / vild med pålægschokolade
 y = 0
: fiasko / ikke vild med pålægschokolade
Vi har
P(1) = p
og
P(0) = 1-p.
Middelværdi og standard-afvigelse for y (populationen) er hhv.
m  p og s  √p(1-p)
Andelen er et gennemsnit

Bemærk:

For stikprøve-gennemsnit ved vi at standard-fejlen
s
er s y 
så for stikprøve-andelen er den
y1  y2    yn i yi
pˆ 

n
n
Dvs. stikprøve-andelen er et stikprøvegennemsnit!
n
s pˆ 
p (1 - p )
n
Konfidensinterval for p for stort n


Da p^ er et gennemsnit siger CLT, at p^ ca. følger en
normalfordeling hvis n bare er stor nok.
Med 95% sandsynlighed vil p^ falde i intervallet
p  1.96 s pˆ

Omvendt: Med 95% sandsynlighed vil p ligge i
intervallet
pˆ  1.96 s pˆ
Konfidens-interval: En figur
Stikprøvefordelingen for p^
0 .4
95%
0 .3
0 .2
0 .1
2.5%
2.5%
0 .0
pˆ - 1.96
x
p
p (1 - p )
pˆ  1.96
n
p (1 - p )
n
pˆ
pˆ
*
pˆ
pˆ
pˆ
pˆ
pˆ
pˆ
pˆ
*
Konfidensinterval

I praksis kender vi ikke p, dvs. vi kender ikke standard
fejlen:
s pˆ  p (1 - p ) n

I stedet for p bruger vi estimatet p^ :

Et 95% konfidens-interval for p er nu givet ved
pˆ  1.96  se
hvor

se  pˆ (1 - pˆ ) n
se = ”standard error” = standardfejlen.
Eksempel


Setup: Af 1200 adspurgte i Florida svarer 396 ja til reduktion
af abortrettigheder.
Spørgsmål: Find et 95% konfidensinterval for populationsandelen af ja-sigere.

p^ =

se =

95% konfidensinterval:
99%
0.0
pˆ  2.58  se
0.2
Et 99% konfidensinterval:
0.1

0.3
0.4
Hvad med et 99% konf. interval?
0
1
2
3
z=2.58
0.3
0.2
(a/2)100%
(1-a)100%
0.1
Et (1-a)100% konfidensinterval
pˆ (1 - pˆ )
ˆ
p  z
n
-1
0.0

-2
0.4
-3
-3

-2
-1
0
1
z2
Egenskaber ved konfidensintervaller:
o Jo højere konfidensniveau, jo større z og jo længere
konfidens-interval
o Jo større stikprøve (n) jo kortere konfidensinterval
o Firdobling af n sikre halvering af konfidensinterval.
3
Konfidensinterval for middelværdi



Ingredienser:
 m : Populations-middelværdi
 y : Stikprøve-gennemsnit
y er et punktestimat for m.
For store stikprøver er y normalfordelt. Standardfejlen er altid
s
sy 
n

hvor s er standard-afvigelsen for populationen.
Den estimerede standard-fejl er
s
se 
n
Eksempel

Konfidensinterval for middelværdi er
y  z  se



, hvor
se 
s
n
Eksempel:
På et spørgsmål om antal seksuelle partnere blandt n = 231
kvinder, var gennemsnittet y = 4.96 og standard-afvigelsen s =
6.81.
Find et 95% konfidensinterval for populations-middelværdien
m.
Konfidensinterval for middelværdi – små stikprøver



Antag: populationen er normal-fordelt.
Da er y normalfordelt – uanset stikprøve-størrelse n.
Hvis vi kender pop. standard-afvigelsen s er et
(eksakt) konfidensinterval givet ved
yz



s
n
Hvis s er ukendt, erstatter vi med stikprøve standardafvigelsen s.
Problem: For små stikprøver medfører brugen af s i
stedet for s en ekstra usikkerhed.
Løsning: Erstat z med t…!
t-fordelingen
t-fordelingen er
 Klokkeformet og symmetrisk omkring 0
 Standard-afvigelsen er lidt større end 1
 Faconen afhænger af antal frihedsgrader (df).
 Har lidt ”tykkere haler” end standard normalfordelingen.
 Ligner en normalfordeling jo højere antal df er.
N(0,1)
df = 6
dnorm(x)

df = 2
-4
-2
0
2
4
Konfidensinterval for små stikprøver

For en normalfordelt
population er et (1-a)100%
konfidensinterval for m
s
y  ta / 2  se, hvor se 
n
hvor df = n-1.
a/2
-3

a/2
1-a
-2
-1
ta/2
0
1
ta/2
2
3
Eksempel:
Vi har observeret 29 vægtændringer, hvor y = 3.01 og s = 7.31.
Find et 95% konf. interval for m :
Løsning:
df = n-1 = 28, a = 0.025, så t0.025 = 2.048
t-tabellen


a
Se Tabel B i bogen side 593.
I SPSS

SPSS: Analyze→Compare Means→One-Sample T-Test…
Valg af stikprøvestørrelse

Hvordan vælger man stikprøvestørrelse n så vi opnår en
 Given fejl-margin ved et
 Givet konfidensniveau

Eksempel:
 Vi ønsker at bestemme et konfidensinterval for p, så
 Fejl-margin
: Max 0.04
 Konfidensniveau
: 95%
 Løsning:
Generel løsning for andele
Stikprøvestørrelsen skal da være:
Hvis populations-andelen p
er helt og aldeles ukendt
bruges p  0.5 i formlen.
2
0.2
0.3
0.4
 z 
n  p (1 - p ) 
M 
a/2
(1-a)100%
0.1

For at populationsandel p vælg
 Fejl-margin:
M
 Signifikansniveau:
(1-a)100%
0.0

-3
-2
-1
0
z
za/2 2
1
3
Generel løsning for middelværdi
Stikprøvestørrelsen skal da være:
2
Hvis populationsstandardafvigelsen s er man
nød til at gætte sig frem til.
Hellere lidt for stor end for
lille.
0.2
0.3
0.4
 z 
n  s 2 
M 
a/2
(1-a)100%
0.1

For middelværdien m vælg
 Fejl-margin:
M
 Signifikansniveau:
(1-a)100%
0.0

-3
-2
-1
0
z
za/2 2
1
3
Eksempel





Middel antal års uddannelse blandt indianere
Ønsker:
 Fejl-margin:
M = 1år
 Konfidensniveau:
99%
Først skal vi gætte s !
Vi tror (næsten) alle har mellem 5 og 20 års uddannelse…
Derfor er vores gæt s = 2.5 år…!