2. Standard error and confidence interval

Download Report

Transcript 2. Standard error and confidence interval

UK FHS
Historical sociology
(2014+)
Quantitative Data Analysis II.
Standard error and
confidence intervals (1.)
– introduction to inferential statistics,
SE and CI for numerical variables (means)
Jiří Šafr
jiri.safr(AT)seznam.cz
updated 25/11/2014
Content
• Logika měření ve výběrových šetřeních: chyby měření
• Principy inferenční statistiky a intervalového odhadu
• Co předchází výpočtu intervalu spolehlivosti:
1. Standardní (směrodatná) chyba
K čemu je standardní chyba (SE)?
• SE pro kardinální znaky (průměr) a pro nominální (P
resp. %)
2. koeficient spolehlivosti (z-values) - krátký exkurz do
normálního rozložení a teorie pravděpodobnosti
• Využití CfI
• Simultánní intervaly spolehlivosti
• Standardní chyba a intervaly spolehlivosti pro další
parametry (korelační koeficient, medián, rozdíl podílů)
2
Chyby měření
• Při interpretaci a analýze výsledků z výběrových
dat je třeba mít neustále na paměti, že vznikly
zpracováním dat získaných z výběrového šetření
(populace→vzorek).
→ všechny (publikované) údaje jsou pouze
odhady zatížené určitou chybou a nikoliv
přesná čísla.
• Total error has two components: sampling and
non-sampling.
3
Non-sampling error
• Nonsampling error is caused by phenomena such as
subject nonresponse and misreporting of answers that
are not associated with the actual sampling process.
[Assael, Keon 1982]
• It occurs in all kind of research (thus including census)
• It originates because:
– Poor work during preparatory stage (conceptualization,
operationalisation)
– Reluctance of respondents to convey full and faithful information
etc. → validity
– Imperfect methodology, its imprecise observance
– Inaccurate procedures in data processing
• It can be influenced by precise procedures during all
stages of research
• It is very difficult to appraise its impact on the results (one
way is to compare our results with data from census, if we have
them)
(We will not deal with it further.)
4
Sampling Error
Population → sample → population
Random sampling error is encountered in survey research
because the sample selected is not a perfect representation
of the test population. [Assael, Keon 1982]
Vybírá se náhodně (bez
vracení) pouze jeden
výběrový soubor a údaje z
něho reprezentují základní
soubor (populaci).
Chybu způsobenou volbou
výběrového souboru lze s
určitou předem zvolenou
pravděpodobností vymezit
na základě
teorie výběrových šetření
5
Results from survey samples are always only
estimation of the true parameter (in population).
• Their accuracy is dependent mainly on sample size
and distribution of values (variance).
• Orientational tool: for large samples from large
(national) population, ca N=1000, the true
(population) relative frequencies (percent) range in
these intervals:
Source: [Special Eurobarometer 337]
However we will learn, how to compute it exactly and for whichever value and/or
parameter (level of measurement) (e.g. %, mean, % point difference, correlation, …)
6
Přesnost → chyby měření
• Surveys using (random) samples in social sciences are
burden with:.
• Nonsampling error: odmítnutí odpovědi, chyby při
pořizování dotazníku. → nelze kvantifikovat vychýlení
odhadu. (ty se objevují i v případě šetření celé populace - cenzu)
• Sampling error: vznikající vztažením charakteristik
výběrového souboru na celý základní soubor
• vliv: velikosti výběru, metody výběru, velikosti populace
• lze je interpretovat pomocí tzv. intervalů spolehlivosti =
intervaly zkonstruované kolem bodového odhadu tak, že
s určitou pravděpodobností skutečná hodnota odhadované
charakteristiky (tj. v celé populaci) leží právě v tomto
intervalu.
• Nejčastěji se u odhadů konstruuje 95% interval
spolehlivosti v něm s 95% pravděpodobností leží skutečná
hodnota odhadované charakteristiky (připouštíme 5 %
chybu)
7
Extent of sampling error
Can be expressed as
• Standard error - bodovým odhadem
rozptylu/směrodatné odchylky nebo
• Confidence interval → estimating the precision of an
estimate
• Nejčastěji se okolo odhadu konstruuje tzv. 95 % interval
spolehlivosti (vynásobením směrodatné odchylky
odhadu kvantilem normovaného normálního rozdělení, tj.
hodnotou 1,96).
• → interval, ve kterém s 95 % pravděpodobností leží
skutečná hodnota odhadované charakteristiky
8
Measurement error
• Pravděpodobnostní výběry nikdy nedávají
statistiky (změřené hodnoty ve vzorku) přesně
odpovídající parametru (hodnotám v celé v
populaci)
T=M+e
T = true value (within population)
M = measured value of T
e = measurement error
9
Confidence interval
Margin of error
suma všech možných výběrových chyb, která
kvantifikuje nejistotu výsledků měření →
pravděpodobnostní interval ± (např. 95% interval
spolehlivosti určuje rozpětí kolem naměřené
hodnoty)
It is influenced by: sample size, method of
(random) sampling, population size
95 % Confidence interval
→ jsme si jistí, že naše výběrová data z 95 % (tj.
námi zvolená spolehlivost) budou obsahovat skutečnou
hodnotu v celé populaci
10
Confidence interval (CI)
→ principle of interval estimate
• Odhadujeme parametry základního souboru (populace) jsou-li nám známy
pouze charakteristiky výběru
• Při intervalovém odhadování se charakteristika základního souboru
popisuje pomocí intervalu, k níž se přidává pravděpodobnost, že odhad
bude správný → spolehlivost odhadu (1-α).
• Použití pro průměr, podíl (%), rozptyl, korelační koeficient …
• Generally CfI can be expressed:
Point estimate ± Coeficient of confidence for choosen
level of statistical error x Standard error of estimate
Např. pro 95 % CfI a procentní údaj ohledně účasti ve volbách:
Se spolehlivostí 95 % můžeme tvrdit, že podle zjištění výzkumu půjde volit
62,8 % (± 2,7 %) občanů,
tj. v rozmezí 60,1 až 65,5 %.
11
Výsledky výběrových šetření jsou vždy jen
odhadem skutečného parametru (v populaci).
• Jejich přesnost je závislá především na velikosti
výběrového souboru a podílu hodnot daného znaku.
• Orientační pomůcka: pro vzorek z velké (národní)
populace cca N=1000 se skutečné (populační)
relativní četnosti (procenta) pohybují v těchto
intervalech:
Pozorované
četnosti (%)
Intervaly
spolehlivosti
10 % nebo 90 %
20 % nebo 80 %
30 % nebo 70 %
40 % nebo 60 %
50 %
± 1,9
± 2,5
± 2,7
± 3,0
± 3,1
Zdroj: [Special Eurobarometer 337]
My si ale dále ukážeme, jak to spočítat přesně a navíc pro jakoukoliv hodnotu a
míru (%, průměr, rozdíl %, korelace, …)
12
Interval spolehlivosti
• Interval spolehlivosti volíme. Například zvolíme-li 95 %,
znamená to, že parametr naměřený ve výběrovém
souboru (např. průměr) se bude v celé populaci
nacházet v daném intervalu.
Nebo obráceně:
• Zvolená chyba (alpha) např. 5%, je pravděpodobnost, že
průměr (nebo jiná míra) nebude v celé populaci (jejíž
vlastnosti z výběru zjišťujeme) mezi spočítaným
intervalem a to díky náhodě.
• → 5% pravděpodobnost (type I error), znamená že
naměřený rozdíl existuje (např., že lidé budou volit
kandidáta X) oproti tomu, že naměřený rozdíl je ve
skutečnosti způsoben tím, že vzorek je
nereprezentativní.
13
Nejprve ujasnění pojmů (pro jistotu)
• Variance = dispersion of values of variable
• Standard deviation is square root of
variance
• Standard error (e.g. of mean) je
vyjádřením nepřesnosti měření odhadu
K jejímu odhadu můžeme použít právě
směrodatnou odchylku (v případě průměru),
for computation see later
14
Principle of inferential statistics – numeric variable
distribution of mean(s) in random sample(s) from population
[De Vaus 1986: 116]
•
•
•
Ze vzorku víme, že průměrný příjem je 18tis$ (→ bodový odhad), jaký je ale skutečný
populační průměr (tj. v celém základním souboru)?
Protože víme, že výběrový průměr je zatížen výběrovou chybou, nemůžeme se na
tento bodový odhad spolehnout. Potřebujeme zjistit, „jak přesně náš vzorek měří“.
Pokud máme náhodný výběr, odpověď nám dá teorie pravděpodobnosti. Pokud bychom
provedli velké množství náhodných výběrů, budeme se postupně blížit ke skutečné
populační hodnotě průměrného příjmu. Rozložení hodnot ve vzorku se bude blížit tzv.15
normálnímu rozložení (Gaussian distribution).
Principle of inferential statistics – categorial variables
distribution of probability(i.e. %) in random sample(s) from population
[De Vaus (1986) 2002: 304]
•
ditto for percentage.
Na ose X je podíl (relativní počet výskytu) odpovědí pro volbu konzervativní strany v
mnoha náhodných výběrech. S rostoucím počtem opakovaných náhodných výběrů se16
odhadovaná hodnota % blíží skutečné hodnotě v populaci.
Binomial distribution
Návštěva kostela
NSR, červenec–srpen 1956
Pravidelná
Nepravidelná
Málokdy
Nikdy
Celkem
%
30,3
24,6
28,6
16,5
100,0
Náhodný výběr 4000 osob, se rozdělí na
skupiny po 40 osobách, vznikne tak 100
dílčích náhodných výběrů. Toto
rozdělení odpovídá jako při dotazování u
100 reprezentativních průřezů. Tyto dílčí
náhodné výběry však nemají stejné
procento osob, které chodí do kostela jen
„málokdy“. Podle zákona velkých čísel
musí přitom menší odchylky vystupovat
častěji než velké. [Noelleová 1968: 115]
Podíl 27,5 % osob, které „málokdy“
navštěvuji kostel, tj. 11 ze 40
dotazovaných, vystupuje např. u 18 ze
100 dílčích náhodných výběrů, naproti
tomu jen v jednom výběru je podíl 10 %
= 4 ze 40 dotazovaných.
Z křivky zvonovitého tvaru lze vyčíst, jaké
rozdělení by se dalo očekávat v mezním
případě, kdyby se neprošetřovalo pouze
100, ale libovolné množství dílčích
náhodných výběrů.
17
What precedes computation of
confidence interval:
1. Standard error
And its calculation precedes computation of
0. variance/standard deviation
(2. level of confidence → z-values)
(general principle and how to obtain)
Standard error and estimation of
the parameter (e.g. mean)
• or generally standard error of a sample
• It quantifies uncertainty of our measuring
for mean: StD Error (of mean) SE =
for percent (%): StD Error (of proportion) SE =
• Note: Probability, i.e. proportion (%) is in fact a mean of
number of observations, so we calculate SE for proportion
essentially in the same way as SE of mean (standard
deviation of proportion divided by square root of sample
size).
19
Standard error
• Is smaller when sample size increases
(accuracy of parameter estimate increases)
• Increasing sample size twice, the confidence
interval decreases only 1,41 times
(√k-multiplicatively), that's why for twofold
accuracy we need quadruple sample size
• Obvykle nám stačí pokud je pravděpodobnost, že cca
2/3 naměřených hodnot leží v rozsahu hranice průměru
nebo +/- 1 jejich vlastní standardní chyby (SE)
20
What standard error (SE) is for?
• It specifies, how (in)accurate are our results
• for omputation of confidence interval
• for testing, whether two (ore more)
parameters are different (in population)
• for testing, whether a sample parameter is
significantly (statistically) different from
zero in population (dělíme-li např. korelační
koeficient r jeho SE a dostaneme-li číslo větší než 2, pak je
s 95% pravděpodobností korelace nenulová, tj. existuje i v
celé populaci)
21
Small excursus into
statistical distribution
Not onf for the reason we could deduce
Z-values for coefficient C - level of confidence
(attributes of normal - Gaussian distribution will be also applied to
testing hypothesis)
Normální rozložení – rozsah oblastí pod křivkou
Pravděpodobnosti pozorování náhodné proměnné
Procenta
plochy pod
křivkou
Pravděpodobnosti
pozorování
hodnot,
odpovídají oblastem
pod křivkou
Multiples of
standard
deviation
Rozdíl mezi 2 až 3 StD odpovídá 5 % plochy pod křivkou normálního rozložení.
Pravděpodobnost, že se (hodnota) pozorování vyskytne:
-nad bodem E je 0,025
-mezi body A a E je 0,95 → 95 % interval spolehlivosti
Tato vlastnost normálního rozložení nám umožňuje činit odhad parametrů základního
souboru, známe-li pouze charakteristiky výběru.
23
Standard deviation and confidence interval
Normal distribution
Multiples of
standard
deviation
http://www.stat.tamu.edu/~west/applets/ci.html
24
z-values → koeficient spolehlivosti (C)
for given level of significance (α)
→ we choose α, according to, how accurate results we want to present (mostly 5%)
α=5%
α=1%
2,5 %
2,5 %
Multiples of
standard
deviation
α
z α/2
C
z.1
10%
5%
z.05
z.025
1.282 1.645
1%
z.01
z.005
z.001
z.0005
1.960 2.326 2.576 3.090 3.291
http://www.stat.tamu.edu/~west/applets/ci.html
25
and back to computation of
confidence interval
Confidence interval (assumptions)
• Further we will consider only Two-sided
confidence interval
(there is also one-sided CI, when we
determine only either Upper or Lower bound)
• for simple random sample
• and for large samples (n > 30)
• We assume at least normal distribution of
values of the phenomenon (which is in social
reality mostly on principle unrealistic)
27
Reminder from QDA I.
Confidence interval
For numeric variable
→ Mean
and Standard deviation
Výpočet konfidenčního intervalu výběrového průměru
• Hypotetická populace
Průměr v celé populaci μ = 8
jednotky
A
B
C
D
E
F
hodnoty
2
6
8
10
10
12
Např. věk
dětí v ulici
• Náhodný výběr 2 jednotek (např. dětí v ulici)
A (=2) a D (=10)
• Průměr ve výběru X = (2+10)/2 = 6
• Rozptyl (s2) je ve výběru 32 → směrodatná odchylka (s)
CI = X ± 1,96 * 4 = 6 ± 7,84 → -1,84 až 13,84
To znamená, že z námi vypočteného bodového odhadu průměrného věku ve výběru
(6 let) můžeme usuzovat, že v celé populaci se jeho hodnota s přesností 95 %
pohybuje v rozmezí -1,8 až 13,8. (Což je zde jistě neproduktivní informace.) 30
Rozdíl: populace / výběr, StD a SE
→ Vek_AKD2_130305.xls
http://metodykv.wz.cz/Vek_AKD2_ls2013.xls
Application of CI
• Description (estimation) of specific parameter in
population which we measure only using sample
estimation (eg. mean, %, correlation) → EXPLORE
• Comparison of difference in values of two (or more)
variables – testing hypothesis
(→ Do boundaries of confidence intervals overlap?),
e.g. in graph with Error-Bars:
A) vzájemné porovnání rozdílů hodnot (průměrů) u sady
několika proměnných měřených na stejné škále (např.
obliba 8 TV žánrů)
B) Hodnoty průměrů jedné proměnné v podskupinách –
kategoriích vysvětlujícího znaku (např. průměr příjmu v
kategoriích vzdělání).
C) comparison of our results with results from some other
survey (e.g. time perspective or interational comparison)
32
Porovnání rozdílů hodnot (průměrů)
pomocí „překryvu“ intervalů spolehlivosti
A) Obliba 8 TV žánrů
Zdroj: Kultura 2011
GRAPH ERROR (CI) k31_a TO k31_h.
B) Příjem v podskupinách
podle vzdělání
Zdroj: CVVM 2011-11
GRAPH ERROR (CI) prijem BY vzd4.
33
In SPSS: Confidence interval for
numeric variable → mean
E.g. within EXPLORE (in syntax it is named EXAMINE):
EXAMINE variable-name. */ → univariate statistics incl. graphs.
EXAMINE income /PLOT NONE /STATISTICS
DESCRIPTIVES /CINTERVAL 95 /NOTOTAL.
However not clearly arranged, in the output first for Total, only then for subgroups.
Within MEANS we can compute only standard error of mean = SEMEAN.
MEANS income /CELLS= MEAN COUNT STDDEV
SEMEAN. */ for univariate as well as bivariate statistics.
Transparently we can get the confidence intervals for bivariate analysis in one table
within simple analysis of variance (One-way ANOVA):
ONEWAY income BY edu4 / STATISTICS=DESCRIPTIVES.
Or graph for means with CI along categories of independent variable:
GRAPH /ERRORBAR (CI 95)= income BY edu4.
34
CI in the output from EXPLORE / EXAMINE
v třídění 2.stupně:
dependent variable = income
independent variable = gender
(s30)
→ Počítáme odděleně průměry s (S.E.)
a CI v jejích kategoriích.
EXAMINE variable-name.
*univariate incl. graphs.
EXAMINE income BY s30
/PLOT NONE
/STATISTICS DESCRIPTIVES
/CINTERVAL 95 /NOTOTAL.
* bivariate and main statistics only.
For more categories it is impractical but we
can use Oneway Anova:
ONEWAY prijem BY vzd4 /
STATISTICS=DESCRIPTIVES.
35
Zdroj: data ISSP 2007
Graf with Error bars (mean with CI in SPSS
GRAPH /ERRORBAR (CI 95)=Var1 BY Var2.
Var1 is continuous (means)
Var2 is categorical (subgroups)
36
CfI for means in subgroups
ONEWAY income BY edu4/ STATISTICS=DESCRIPTIVES.
GRAPH ERROR (CI 95) inceome BY edu4.
37
Rozdíl: ERRORBAR (graf chybových úseček)
BOXPLOT (graf fousatých krabiček)
BOXPLOT - graf fousatých krabiček
→ znázornění rozložení (rozptýlení) dat:
medián, kvartilové rozpětí (horní a dolní
kvartil) a hranic odlehlých (Outliers = ○) a
vzdálených hodnot (Extremes = *).
ERRORBAR - graf chybových
úseček → znázornění průměru a jeho
(zvoleného) intervalu spolehlivosti
Pouze pro výběrová data.
Jak pro populační tak pro výběrová data.
Vnitřní
a vnější
hradby
(hranice
velmi
vysokých/ní
zkých
hodnot)
Kvartilové
rozpětí
EXAMINE prijem BY s30
/PLOT=BOXPLOT
/STATISTICS=NONE /NOTOTAL.
GRAPH /ERRORBAR (CI 95)
prijem BY s30.
Zdroj: data ISSP 2007
38
Confidence Intervals
for qualitative data - nominal
variable
→ frequency (probability / percent)
See http://metodykv.wz.cz/QDA2_CfI_2.ppt
Simultánní intervaly spolehlivosti
pro četnosti
• Dosud jsme činili samostatné závěry, ale chceme-li
zhodnotit několik četností zároveň, musíme zajistit, aby
všechny parametry byly pokryty předem požadovanou
spolehlivostí.
• Pro souběžný závěr o několika četnostech proto
zpřísníme celkovou spolehlivost C na z α / S
kde S = počet četnostní pro něž chceme simultánní intervaly
spolehlivosti
• Např. pro 4 četnosti, při požadované α = 0,05:
z α / 4 = z α / 0,0125 = 0,02497 tj. přibližně 2,5
Viz tabulky kritických hodnot standardního normálního testu pro
simultánní testování.
[Řehák, Řeháková 1986: 64-65]
40
Further occasions of usage of
Confidence Interval
Standardization of numeric variables
into z-scores
Užitečná transformace data pro porovnání
proměnných měřených na různých škálách (rozpětí)
See http://metodykv.wz.cz/AKD2_TransfZnaku1.ppt
Dimenze pro-čtenářského klimatu a čtení v dětství
v závislosti na vzdělání rodičů, průměry z-skórů, věková
kohorta narozených 1974-1978
above-average
Mean of
scales (=0)
below-average
Zdroj: [Gorčíková, Šafr 2012: 75]
○ Dostupnost/nápodoba
– Interakce/komunikace
□ Četl/a v dětství
Příklad: dvě odlišné dimenze pročtenářského klimatu v rodině a čtení v
dětství (3 průměry) podle vzdělání rodičů
Závislé proměnné (dimenze pročtenářského klimatu a čtení) jsou spojitékardinální a protože byly měřeny na
škálách s odlišným rozpětím jsou
standardized into z-scores, tj. mají
stejnou metriku-rozsah (průměr =0 a
StD=1) → můžeme porovnávat jejich
relativní(!) intenzitu napříč
vzdělanostními kategoriemi a to i uvnitř
nich, nikoliv ale celkovou hodnotu jako
takovou mezi sebou (tj. v třídění 1.
stupně).
Intervaly spolehlivosti (CfI) v SPSS ?
• SPSS umí pouze interval spolehlivosti pro
spojitou proměnnou tj. průměr (např. EXPLORE)
• v OLS regresi pro regresní koeficient B, v logistické
regresi pro exp(B)
• nicméně spočítáním standardní chyby odhadu
(např. pro procento či korelační koeficient) a
dosazením do příslušných vzorců, lze CfI
snadno spočítat (viz dále)
• Alternativně lze použít jobíků nebo
skripty pro úpravu výstupů - pro % v třídění 1.st. viz
•
http://www.acrea.cz/skripty-interval-spolehlivosti-cetnosti.htm
Anebo spočítat si to mimo SPSS …
43
Standard error and Confidence
intervals for various parameters
(correlation coefficient, median,
difference of proportion (%), …)
Standard error and CI of
correlation coefficient (v SPSS)
SE is not included within CORRELATION but it is in CROSSTABS
CROSSTABS OC2011 BY PrijmD
/FORMAT=NOTABLES /STATISTICS=CORR .
CI (95%) for R = 0,072 ± 1,96*0,023 = 0,072 ± 0,045 or 0,027 ← 0,072 → 0,117
CI correlation coefficient can be computed at http://vassarstats.net/rho.html
45
Computation of standard error
• for mean
• for standard deviation
• for median
• pro correlation coefficient
or
46
Computation of standard error
• for proportion (%)
SE = √ p(1 − p) / n
• for difference of proportion (%) p1- p2
• for Odds Ratio
Více viz http://davidmlane.com/hyperstat/A111955.html
47
http://www.miislita.com/information-retrieval-tutorial/a-tutorial-on-standard-errors.pdf
Routines for Confidence intervals
in SPSS syntax
• for proportion (%)
http://www.spsstools.net/Syntax/Distributio
ns/ProportionTestsAndCI.txt
• for median
http://www.spsstools.net/Syntax/Distributio
ns/Calculate95PercCIforTheMedian.txt
48