t-test - Analýza kvantitativních dat

Transcript t-test - Analýza kvantitativních dat

UK FHS
Historická sociologie
Analýza kvantitativních dat III. – praktické
aplikace vícerozměrných statistických metod
Doplnění z AKD II.:
t-test a ANOVA
- testování hypotéz pro průměry
(rozptyly)
Jiří Šafr
jiri.safr(AT)seznam.cz
Poslední aktualizace 11/3/2014
Testování hypotéz pro
průměry (rozptyly)
Doplnění z AKD II.
t-test: testy pro průměry
• Jednovýběrový t-test (One-sample t-test)
→ rozdíl od populačního průměru μ0 (nebo porovnání s jinou testovouteoretickou hodnotou).
Hypotézou je, že střední hodnota normálního rozdělení (průměr), z něhož výběr pochází,
se rovná μ0. (např. H0: výběrová hodnota průměrného příjmu se neliší od hodnoty 10,5 tis.)
T-TEST
•
/TESTVAL 10.5 /VARIABLES prijem.
Párový t-test (Pair-sampled t-test) porovnání dvou průměrů v závislých
výběrech, tj. při uspořádání pozorování ve dvojicích (měřené proměnné
jsou na sobě závislé).
Nejčastěji jde o zjišťování velikosti či obměny znaku u téže osoby ve dvou časových
okamžicích (např. názor před a po shlédnutí filmu). A nebo porovnání průměrů u dvou věcně
„srovnatelných“ proměnných, tj. hodnoty musí mít stejný rozsah.
Např. intenzita sledování TV (q1_a) a intenzita chození do kina (q1_b) (H0: Průměry sou shodné.)
•
T-TEST PAIRS q1_a WITH q1_b (PAIRED).
Dvouvýběrový t-test (Independent-samples t-test) → porovnání dvou
průměrů v nezávislých výběrech, tj. test rozdílu průměrných hodnot
znaku u dvou podskupin podle dichotomického znaku
Např. Příjem (prijem) podle pohlaví (S30) (H0: Rozdíl mezi průměry v podskupinách je nulový.)
Nejprve provedeme test rovnosti rozptylů → různý způsob výpočtu t-testu.
T-TEST GROUPS s30(1 2)/ VARIABLES prijem.
Dvouvýběrový t-test (Independent-samples t-test)
T-TEST GROUPS Treat (0 1)/ VARIABLES Bloodprs.
Ve výstupu máme k dispozici:
1. konvenční t-test (Equal variances
assumed)
2. modifikovaný Welch's t-test (equal
variances not assumed).
Output:
Sig. > 0,05 → skupiny mají stejné
rozptyly
Pokud je Levenův test statisticky
signifikantní (tj. předpoklad o
rovnosti rozptylů je porušen) →
interpretujeme výsledek
Welchova t-testu (equal variances
not assumed). Jeho použití se
ostatně obecně doporučuje.
→ čteme první řádek: konvenční t-test
Výsledek t-testu:
P-value < 0,05
→ hypotézu o
rovnosti průměrů
nemůžeme
přijmout.
Naměřená statistika t = (rozdíl průměrů / S.E. rozdílu průměrů) = 6,9 / 26,1 = 3,783
Tabulková hodnota Studentova t-rozdělení: pro Alfa 5 % a 18 df je 2,101 < 3,783 → H0 zamítáme.
→ Krevní tlak je ve
skupině s novým lékem
(new drug) o 26 bodů nižší
než ve skupině s
placebem.
Zdroj: [SPSS Base User's Guide 13.0: 358-59]
Poznámka - neparametrické testy
• Pokud nejsou dodrženy předpoklady
(malé výběry, normalita rozložení,
ordinální závislý znak atd.) pak bychom
měli pro testy střeních hodnot používat
neparametrických testů:
• Independent-samples t-test → MannWhitney U test
• One-Way ANOVA → Kruskal-Wallis oneway analysis of variance
• Pokud má nezávislá proměnná více
kategorií než dvě pak alternativou pro
dvouvýběrový t-test je jednoduchá
analýza rozptylu (one-way ANOVA)
One-Way Analysis of Variance
ANOVA
jednoduchá analýza rozptylu
One-way ANOVA - předpoklady
• Předpokladem je rovnost rozptylů v
testovaných podskupinách.
• Vizuálně ověříme pomocí ErrorBar grafu
GRAPH /ERRORBAR (STDDEV 1)=prijem BY vzd4.
• Zde tomu tak není:
Vysokoškoláci mají větší rozptyl
v příjmech než ostatní.
• (viz také Levenův test)
Zdroj: [data ISSP 2007, ČR]
One-way ANOVA – zadání
Závislá
proměnná
(číselnákardinální)
Nezávislá
proměnná
(kategoriální)
ONEWAY prijem BY vzd4 /STATISTICS DESCRIPTIVES HOMOGENEITY
/PLOT MEANS /POSTHOC=BONFERRONI ALPHA(0.05).
*Zde máme navíc zadány: popisné statistiky, Levenův test homogeneity rozptylů, graf průměrů, a
tzv. post-hoc test pro statistický test, které skupiny se navzájem odlišují (Bonferroniho test).
One-way ANOVA – Output (1)
Popisné statistiky: průměry v podskupinách, STD, S.E., Intervaly spolehlivosti.
Tyto výsledky posléze věcně interpretujeme (samotný F-test je až v další tabulce).
Levenův test (Homogeneity of variance test)
→ stejnosti rozptylů v podskupinách
H0 (shoda rozptylů) nemůžeme přijmout: P value <
0,05. Homogenita je porušena. → alternativní postupy:
-Provedeme transformaci (např. zlogaritmování závislé
proměnné)
- použijeme neparatmetrický test Kruskal-Wallis oneway analysis of variance
- také to můžeme ignorovat. ANOVA je vůči této
podmínce poměrně robustní, pokud jsou podskupiny (v
nezávislé proměnné) přibližně stejně velké.
One-way ANOVA – Output (2):
hlavní výsledek F-test
F test: Sig. < 0,05 proto zamítáme H0 (o shodě
průměru v podskupinách).
Pozor: samotný tento F-test neříká, které
podskupiny se liší navzájem, pouze víme, že
minimálně jedna vzdělanostní skupina se liší v
průměrném příjmu od ostatních.
Proto dále provedeme: Post-hoc test a nebo
porovnáme Intervaly spolehlivosti mezi skupinami.
One-way ANOVA – Output (3)
Post-hoc test (Bonferroni)
→ rozdíly mezi skupinami
Test porovnává
každou kategorii s
každou, hvězdička *
nám ukazuje, kde jsou
rozdíly v průměru
statisticky signifikantní
na Alfa min. 5 %.
Výsledek si můžeme
přehledně znázornit:
Mnohem praktičtější je ale grafické zobrazení průměrů a intervalů spolehlivosti (viz dále).
ZŠ
VY
SŠ
VŠ
(spojnice značí shodu
průměru, na Alfa 0,05)
Intervaly spolehlivosti mezi skupinami
(ERROR-BAR)
GRAPH ERRORBAR (CI) prijem BY vzd4.
Zde máme mnohem více
informací, interval spolehlivosti
v sobě zahrnuje informaci o
rozptylu (standardní chybě) i
počtu případů ve skupině.
A nezapomeňte, že záleží, jaké je na ose Y rozpětí
(SPSS v grafu „optimalizuje“ zobrazení).
Neparametrické testy NPar Tests
→ „pořadové (Rank) testy“
• K porovnání souborů statistických dat, u nichž není
normální rozdělení pravděpodobností sledovaného znaku
→ náhodná veličina má neznámé rozdělení, které
neumíme charakterizovat pomocí průměru a rozptylu (µ, s).
• nulová hypotéza, se proto vztahuje jen k obecným
vlastnostem rozdělení: (shodu tvaru křivky rozdělení v
porovnávaných souborech dat).
• Výpočty jsou založeny na pořadových číslech jednotlivých
hodnot variační řady (→ pořadové testy),
• Můžeme je proto použít i pro ordinální proměnné
(hodnoty, které nemají přesný číselný význam, odráží jen
pořadí)
Neparametrický test:
Two-Independent-Samples Tests
Mann-Whitneyův pořadový test
Ekvivalent
dvouvýběrového t-testu
NPAR TESTS
/M-W=prijem BY s30(1 2)
/STATISTICS DESCRIPTIVES.
Mann-Whitney Test
Sig. < 0,5 → Nulovou hypotézu o shodě rozdělení
(pořadí v podskupinách) veličin zamítáme.
Neparametrický test:
Kruskal-Wallis one-way analysis of variance
Ekvivalent jednoduché analýzy
rozptylu One-Way ANOVA
NPAR TESTS
/K-W=prijem BY vzd4(1 4)
/STATISTICS DESCRIPTIVES.
Kruskal-Wallis Test
Sig. < 0,5 → Nulovou hypotézu o shodě rozdělení
(pořadí v podskupinách) veličin zamítáme.

t-test - Analýza kvantitativních dat

Transcript t-test - Analýza kvantitativních dat

Directory