Transcript PowerPoint
Anvendt Statistik
Lektion 3
Punkt- og intervalestimater
Konfidensintervaller
Valg af stikprøvestørrelse
Punkt- og intervalestimater: Motivation
Motiverende eksempel:
I en undersøgelse er andelen af rygere 0.27. Det anslås at
populationsandelen er mellem 0.25 og 0.29.
Begreber:
De 0.27 er et punkt-estimat
Intervallet 0.25 til 0.29 er et interval-estimat.
Dvs. populationsandelen falder (anslået) indenfor
punkt-estimat +/- fejl-margin.
Fejl-margin er her 0.02
Punkt-estimat og -estimator
En estimator er en ”generel formel”, der bruges til at
estimere en parameter med, fx.
y1 y2 yn
y
n
Et estimat er en konkret udregning af en estimator, ved
at indsætte data.
Der kan være mange estimatore for den samme
parameter. Hvis populationsfordelingen er symmetrisk
er både stikprøve-median og -gennemsnit estimatorer for
populations-middelværdien.
En god estimator
En god estimator har typisk følgende egenskaber:
Den er Unbiased – dvs. at estimatoren i gennemsnit
er lig parameteren.
Den er Efficient – dvs. fejl-marginen bliver mindre jo
mere data der er til rådighed.
Eksempel: Stikprøve-gennemsnittet y er en unbiased
og efficient estimator for populationsmiddelværdien m.
Eksempel: Stikprøve-medianen er en biased estimator
for populationsmiddelværdien, hvis fordelingen ikke er
symmetrisk.
Notation – en på hatten
Generelt vil vi betegne en estimator med en ”hat” ^.
Fx. betegner m^ en estimator for m.
Konfidensinterval
Motivation:
Ifølge undersøgelse: 54% er vilde med
pålægschokolade! (Et punkt-estimat)
Spørgsmål: Hvor sikkert er dette estimat?
Konfidensinterval
Et konfidensinterval angiver et interval, hvor vi tror
parameteren ligger med en vis sikkerhed.
Sandsynligheden for at vores stikprøve fører til et
konfidensinterval, der indeholder parameteren
betegnes konfidensniveauet.
Konfidensniveauet er typisk 0.95 eller 0.99.
Konfidensinterval: Typisk opskrift
I mange tilfælde er stikprøvefordelingen for
estimatoren (tilnærmelsesvis) normalfordelt. Fx
stikprøvegennemsnittet.
I disse tilfælde er konfidensintervallet givet ved
punkt-estimat ± fejl-margin
Spørgsmål: Hvordan finder vi fejl-marginen?
Konfidensinterval for andele
Notation
: populations-andel
: stikprøve-andel
Bemærk: p^ er en estimator for p.
p
p^
Antag
y = 1
: succes / vild med pålægschokolade
y = 0
: fiasko / ikke vild med pålægschokolade
Vi har
P(1) = p
og
P(0) = 1-p.
Middelværdi og standard-afvigelse for y (populationen) er hhv.
m p og s √p(1-p)
Andelen er et gennemsnit
Bemærk:
For stikprøve-gennemsnit ved vi at standard-fejlen
s
er s y
så for stikprøve-andelen er den
y1 y2 yn i yi
pˆ
n
n
Dvs. stikprøve-andelen er et stikprøvegennemsnit!
n
s pˆ
p (1 - p )
n
Konfidensinterval for p for stort n
Da p^ er et gennemsnit siger CLT, at p^ ca. følger en
normalfordeling hvis n bare er stor nok.
Med 95% sandsynlighed vil p^ falde i intervallet
p 1.96 s pˆ
Omvendt: Med 95% sandsynlighed vil p ligge i
intervallet
pˆ 1.96 s pˆ
Konfidens-interval: En figur
Stikprøvefordelingen for p^
0 .4
95%
0 .3
0 .2
0 .1
2.5%
2.5%
0 .0
pˆ - 1.96
x
p
p (1 - p )
pˆ 1.96
n
p (1 - p )
n
pˆ
pˆ
*
pˆ
pˆ
pˆ
pˆ
pˆ
pˆ
pˆ
*
Konfidensinterval
I praksis kender vi ikke p, dvs. vi kender ikke standard
fejlen:
s pˆ p (1 - p ) n
I stedet for p bruger vi estimatet p^ :
Et 95% konfidens-interval for p er nu givet ved
pˆ 1.96 se
hvor
se pˆ (1 - pˆ ) n
se = ”standard error” = standardfejlen.
Eksempel
Setup: Af 1200 adspurgte i Florida svarer 396 ja til reduktion
af abortrettigheder.
Spørgsmål: Find et 95% konfidensinterval for populationsandelen af ja-sigere.
p^ =
se =
95% konfidensinterval:
99%
0.0
pˆ 2.58 se
0.2
Et 99% konfidensinterval:
0.1
0.3
0.4
Hvad med et 99% konf. interval?
0
1
2
3
z=2.58
0.3
0.2
(a/2)100%
(1-a)100%
0.1
Et (1-a)100% konfidensinterval
pˆ (1 - pˆ )
ˆ
p z
n
-1
0.0
-2
0.4
-3
-3
-2
-1
0
1
z2
Egenskaber ved konfidensintervaller:
o Jo højere konfidensniveau, jo større z og jo længere
konfidens-interval
o Jo større stikprøve (n) jo kortere konfidensinterval
o Firdobling af n sikre halvering af konfidensinterval.
3
Konfidensinterval for middelværdi
Ingredienser:
m : Populations-middelværdi
y : Stikprøve-gennemsnit
y er et punktestimat for m.
For store stikprøver er y normalfordelt. Standardfejlen er altid
s
sy
n
hvor s er standard-afvigelsen for populationen.
Den estimerede standard-fejl er
s
se
n
Eksempel
Konfidensinterval for middelværdi er
y z se
, hvor
se
s
n
Eksempel:
På et spørgsmål om antal seksuelle partnere blandt n = 231
kvinder, var gennemsnittet y = 4.96 og standard-afvigelsen s =
6.81.
Find et 95% konfidensinterval for populations-middelværdien
m.
Konfidensinterval for middelværdi – små stikprøver
Antag: populationen er normal-fordelt.
Da er y normalfordelt – uanset stikprøve-størrelse n.
Hvis vi kender pop. standard-afvigelsen s er et
(eksakt) konfidensinterval givet ved
yz
s
n
Hvis s er ukendt, erstatter vi med stikprøve standardafvigelsen s.
Problem: For små stikprøver medfører brugen af s i
stedet for s en ekstra usikkerhed.
Løsning: Erstat z med t…!
t-fordelingen
t-fordelingen er
Klokkeformet og symmetrisk omkring 0
Standard-afvigelsen er lidt større end 1
Faconen afhænger af antal frihedsgrader (df).
Har lidt ”tykkere haler” end standard normalfordelingen.
Ligner en normalfordeling jo højere antal df er.
N(0,1)
df = 6
dnorm(x)
df = 2
-4
-2
0
2
4
Konfidensinterval for små stikprøver
For en normalfordelt
population er et (1-a)100%
konfidensinterval for m
s
y ta / 2 se, hvor se
n
hvor df = n-1.
a/2
-3
a/2
1-a
-2
-1
ta/2
0
1
ta/2
2
3
Eksempel:
Vi har observeret 29 vægtændringer, hvor y = 3.01 og s = 7.31.
Find et 95% konf. interval for m :
Løsning:
df = n-1 = 28, a = 0.025, så t0.025 = 2.048
t-tabellen
a
Se Tabel B i bogen side 593.
I SPSS
SPSS: Analyze→Compare Means→One-Sample T-Test…
Valg af stikprøvestørrelse
Hvordan vælger man stikprøvestørrelse n så vi opnår en
Given fejl-margin ved et
Givet konfidensniveau
Eksempel:
Vi ønsker at bestemme et konfidensinterval for p, så
Fejl-margin
: Max 0.04
Konfidensniveau
: 95%
Løsning:
Generel løsning for andele
Stikprøvestørrelsen skal da være:
Hvis populations-andelen p
er helt og aldeles ukendt
bruges p 0.5 i formlen.
2
0.2
0.3
0.4
z
n p (1 - p )
M
a/2
(1-a)100%
0.1
For at populationsandel p vælg
Fejl-margin:
M
Signifikansniveau:
(1-a)100%
0.0
-3
-2
-1
0
z
za/2 2
1
3
Generel løsning for middelværdi
Stikprøvestørrelsen skal da være:
2
Hvis populationsstandardafvigelsen s er man
nød til at gætte sig frem til.
Hellere lidt for stor end for
lille.
0.2
0.3
0.4
z
n s 2
M
a/2
(1-a)100%
0.1
For middelværdien m vælg
Fejl-margin:
M
Signifikansniveau:
(1-a)100%
0.0
-3
-2
-1
0
z
za/2 2
1
3
Eksempel
Middel antal års uddannelse blandt indianere
Ønsker:
Fejl-margin:
M = 1år
Konfidensniveau:
99%
Først skal vi gætte s !
Vi tror (næsten) alle har mellem 5 og 20 års uddannelse…
Derfor er vores gæt s = 2.5 år…!