4.a Testování hypotéz - Analýza kvantitativních dat

Download Report

Transcript 4.a Testování hypotéz - Analýza kvantitativních dat

UK FHS
Historická sociologie (LS 2012+)
Analýza kvantitativních dat II.
Testování hypotéz (1)
- princip a testy pro
číselné/kardinální znaky
Jiří Šafr
jiri.safr(AT)seznam.cz
Poslední aktualizace 12/2/2015
® Jiří Šafr, 2014
OBSAH
1. Princip testování statistických hypotéz
Obecný postup přijetí/odmítnutí nulové hypotézy
Pro spojité (číselné) proměnné
2. Z-test
3. Testování hypotéz rozdílu mezi dvěma
průměry (T-testy) a jednoduchá analýza
rozptylu ANOVA (F-test)
4. Třídění třetího stupně a elaborace vztahů
(několik poznámek)
5. Neparametrické testy
2
6. Webové nástroje pro analýzu
Princip testování
statistických hypotéz
Proč testujeme hypotézy?
(statistická indukce)
• Protože pracujeme (většinou pouze) s
výběrovými daty
→ potřebujeme vědět, zda (a do jaké míry)
to, co jsme naměřili ve vzorku platí v celé
populaci, tj. zda výsledky ze výběrového
souboru lze zobecnit na celou populaci.
Zdroj: [Příručka pro sociology 1980: 218-220]
4
Statistická kritéria a ověřování hypotéz
• K ověřeni nulové hypotézy se používá specielně
zvolená náhodná veličina - statistické kriterium
(K), její přesné rozdělení je známé - je v tabulkách.
• Pro kritérium K se volí kritická oblast - soubor
hodnot kritéria, pro něž odmítáme nulovou
hypotézu. Bod K je kritický bod (Kkr) tehdy, když
odděluje kritickou oblast od oblasti, v níž hypotézu
přijímáme.
• Přijetí/odmítnutí hypotézy
provádíme na základě
odpovídajícího statistického
kriteria s určitou
pravděpodobností.
Zamítáme H0
Zdroj: [Příručka pro sociology 1980: 218-220]
Obor přijetí H0
Zamítáme H0
5
Statistická kritéria a ověřování hypotéz
• Předpokládáme, že nulová hypotéza je
pravdivá tehdy, jestliže pravděpodobnost
toho, že kriterium K bude mít hodnotu vyšší
než Kkr tzn. že se bude nacházet v kritické
oblasti, se rovná zvolené pravděpodobnosti
→ hladina významnosti
Zdroj: [Příručka pro sociology 1980: 218-220]
6
Obecný postup přijetí / odmítnutí
nulové hypotézy
1. zvolíme odpovídající kritérium (hl. dle typu znaku),
2. vypočítáme pozorovanou hodnotu kriteria KH
(vycházíme ze zjištěného empirického rozdělení),
3. zvolíme hladinu statistické významnosti
(většinou 0,05 nebo 0,01)
4. Z tabulek rozděleni kritéria K pro danou hladinu
významnosti najdeme kritický bod KKR
5. Jestliže:
KH > Kkr
→ nulovou hypotézu H0 odmítáme
KH < Kkr
→ H0 nemůžeme zamítnout.
Alternativně pomocí software spočítáme p-hodnotu (viz dále).
Tento postup ovšem nelze používat mechanicky, protože …
7
Statistická hypotéza
• je tvrzení o rozdělení pozorované náhodné veličiny,
např. o rozdělení nějaké statistiky (parametru jako
průměr, podíl, rozptyl) náhodného výběru.
• Pokud rozdělení výběrové statistiky známé, pak lze
hypotézu formulovat přímo jako tvrzení o hodnotě
parametru příslušného rozdělení (např. že určitá politická
strana má podporu 25 %).
• Hypotéza se týká celého základního souboru, z nějž
jsme vybírali (nebo který experimentálně zkoumáme),
např. všech dospělých osob v ČR,
• ale její testování se odehrává pouze na vybraných
jedincích, které jsme skutečně zkoumali.
• Smyslem testování je správně zobecnit z vybrané
podmnožiny (výběru) na celek.
[Soukup 2010: 79]
8
Testování statistických hypotéz
• Z výběrových dat vypočteme testovou
statistiku
• na základě porovnání s kvantily rozdělení
této statistiky (za předpokladu platnosti
nulové hypotézy)
• zjistíme, zda je na zvolené hladině
spolehlivosti možno nulovou hypotézu
zamítnout.
[Soukup 2010: 79]
9
Platnost H0: Testová a kritická
hodnota
• Pokud
vypočítaná testová < kritická (tabulková)
hodnota
→ nelze zamítnout H0
(→ „rozdíly v populaci nejsou“)
K testování hypotéz podrobněji viz [Hendl 2006: 176-188]
10
Testování hypotéz
Statistická hypotéza H0: „žádný rozdíl“ (variabilita v
datech je náhodná) → testem hodnotíme sílu dokladu proti
tomuto předpokladu
H1: alternativní, platí, když neplatí H0 „existence rozdílů
/ závislosti“
• Hladina významnosti α = pravděpodobnost, že
zamítneme H0, ačkoliv ona platí. → „míra naší ochoty
smířit se s výskytem chyby“. Obvykle 0,05 či 0,01, což je
ale pouze konvence.
• Hodnota významnosti p - pravděpodobnost realizace
hodnoty testovací statistiky, pokud platí H0.
Dosažená hladina hodnoty p < α ukazuje na
neplatnost H0.
Hodnota p-value vyjadřuje nejmenší hodnotu α, při
které ještě zamítneme H0 a přijmeme H1 (alternativní 11
hypotézu).
Platnost hypotéz o základním souboru a
možná rozhodnutí na základě testování
• chyba I. druhu → když je nulová hypotéza zamítnuta,
přestože H0 platí.
• chyba II. druhu → když nulová hypotéza zamítnuta není,
přestože neplatí.
• Kvalita testu je dána pravděpodobnostmi, s jakými tyto
chyby mohou nastat (α a β v tabulce).
• Pro výběrový soubor nelze současně minimalizovat
pravděpodobnosti obou druhů chyb.
• Proto se statistici rozhodli omezit riziko chyby prvního
druhu na rozumnou velikost, nejčastěji na 5 % (α = 0,05).
Chyba I. druhu → H0 ve skutečnosti-v populaci platí, ale my jí ale zamítneme.
12
Chyba II druhu → H0 neplatí, ale my jí nezamítneme (přijmeme).
[Soukup 2010: 80]
Testování hypotéz
• Zamítání nulové hypotézy se tedy děje nejčastěji
s 5% rizikem,
tj. stanovujeme pravděpodobnost zamítání
nulové hypotézy při její platnosti v základním
souboru na maximální hodnotu 0,05.
• Protože chybu druhého druhu nemáme jasně pod
kontrolou, volíme v případě, že nedokážeme na
základě hodnoty testové statistiky zamítnout
nulovou hypotézu,
opatrný závěr: „nezamítáme H0“
místo závěru „zamítáme H1 a přijímáme H0“.
[Soukup 2010: 80]
13
Normální rozložení ukazující hladinu
významnosti α = 0,05
•
•
•
Hladinou významnosti rozumíme pravděpodobnost zamítnutí nulové
hypotézy, pakliže ve skutečnosti (v základním souboru-populaci) platí.
Pokládat hodnotu za významnou na hladině 0,05 znamená, že má
pravděpodobnost 0,05 nebo menší, že se vyskytne na jednom z konců normálního
rozložení. Poněvadž je rozložení symetrické, jsou oba konce rozložení stejné a
hladina významnosti 0,05 znamená useknutí konců ukázané v grafu →
vyšrafovaná plocha je pravděpodobnost 0,05/2 = 0,025.
Hladina významnosti 0,05 znamená, že u 100 výběrů bude mít 5 z nich větší14
než
očekávanou hodnotu pozorovaného rozdílu způsobenou náhodně. [Köniová a kol. 1988: 140]
Co znamená „statisticky významný výsledek“?
• Tvrzeni, že výsledky jsou statisticky významné na hladině a =
0,05 má přesně tento (a žádný jiný) význam [Rabušic, Soukup 2007: 381]:
• U náhodného reprezentativního výběru znamená, že riziko
nesprávného zobecnění z náhodného reprezentativního výběru
na cely základní soubor je nejvýše 0,05 (tj. 5 %).
Např. riziko, že v základním souboru studentů není procento
spokojenosti vyšší než 50 %.
• Jde o riziko tzv. chyby I. druhu, že nesprávně zamítneme
statistickou nulovou hypotézu H0.
Tj. zde hypotézu, že rozdíl mezi skutečným procentem
spokojených v základním souboru a zadaným procentem 50 % je
nulový.
• Chybně zamítneme hypotézu, že rozdíl mezi hodnotou u výběru
(60 %) a pesimisticky předpokládanou možnou hodnotou v
základním souboru (50 %) je jen náhodný. Tedy chybně učiníme
závěr, že z výběru lze provést zobecnění (zde zobecnění, že v
souboru studentů je počet spokojených větší než 50 %).
• Statistická významnost tedy znamená pouze, že výsledek je
„‚statisticky zobecnitelný z reprezentativníhorandomizovaného výběru na základní soubor, a to se
15
zvoleným rizikem. [Blahuš 2000]
Testování hypotéz důležité vlastnosti a omezení
• p-hodnoty nevypovídají nic o
síle evidence → mj. jsou závislé
na velikosti výběru
• Nezamítnutí H0 neznamená její
důkaz.
16
Statistická indukce
a testování hypotéz
→ zobecňování výsledků z výběrového
souboru na základní soubor
Při tom musí být splněny předpoklady:
- velkého náhodného výběru (n > 30)
- z dostatečně velké populace (min 100x
větší než plánovaný vzorek),
- musí jít o výběr, pro celou populaci
(census) nedává smysl
Podrobně viz [Soukup, Rabušic 2007].
17
Statistická významnost a síla testu
Nezamítne H0
Zamítne H0
H0 platí
1-

Chyba I.
druhu
H0 neplatí

Chyba II.
druhu
1-
Síla
• Chyba I. druhu. Hodnota  je pravděpodobnost zamítnutí
nulové hypotézy za předpokladu, že ona platí.
• Chyba II. druhu. Hodnota  je pravděpodobnost
nezamítnutí nulové hypotézy za předpokladu, že ona
neplatí.
18
• Síla testu nebo-li 1- je pravděpodobnost zamítnutí nulové
hypotézy za předpokladu, že ona neplatí.
H0 podle
rozhodnutí testu
Síla testu
platí
neplatí
H0 ve skutečnosti
platí
neplatí
činíme
dopouštíme
správné
se chyby II.
rozhodnutí
druhu
dopouštíme
činíme
se chyby I.
správné
druhu
rozhodnutí
Síla testu (S) = 1 - , tj. jako pravděpodobnost, že
test správně zamítne hypotézu, která ve
skutečnosti neplatí.
19
Síla testu je určena třemi faktory
• Velikostí účinku (ES): hodnota efektu
(např. rozdíl mezi průměry nebo velikost
korelace mezi proměnnými).
• Alfa (): volba menší hodnoty, čím menší
tak zmenšujeme sílu. Nejčastěji  = 0.05.
• Velikost výběru: větší výběr → větší síla.
Proto při velkých výběrech i malou
odchylku hodnotíme jako statisticky
významnou. A na to pozor!
20
Velikost chyby I. a II. druhu
Velikost chyby I. a II. druhu a síly testu je spolu úzce provázána.
Pokud vzrůstá velikost jedné chyby, klesá velikost druhé a naopak.
Jejich vzájemný vztah je také ovlivněn velikostí výběru a velikostí efektu:
21
Statistické testy
Nejčastější statistické testy (dle testovacího
kritéria):
1. Parametrické – jsou vázány splněním předpokladů
o parametrech základního souboru, hl. testovaná
proměnná je v základní souboru normálně
rozdělena:
Z-test → porovnání průměrů, když známe směrod. odchylku populace
T-test → porovnání průměrů, stejné rozptyly neznáme směrod. odchylku
populace
F-test → porovnání rozptylů (pro více kategorií např. Oneway ANOVA)
2. Neparametrické – nejsou závislé na splnění
předpokladů ohledně základního souboru:
Chí-kvadrát, Komolgorův-Smirnovův rozdělení ve 2populacích,
Mann-Whitney test (dvouvýběrový t-test Mediánu ve dvou
subpopulacích) Wilkoxnův, …
Konkrétní volba testu a jeho použití závisí mj. na
charakteru/typu proměnné.
Viz standardní učebnice statistiky, např. [Hendl 2006]
22
Statistické testy, rozlišujeme
- Jednostranné testy (one-tailed): test zda
hodnota leží napravo/nalevo, tj. vyšší /nižší, od
očekávané hodnoty
- Dvoustranné testy (two-tailed): odchylky od H0
bez ohledu na směr (vyšší nebo nižší hodnota)
23
Testování hypotéz o statistické
významnosti rozdílu mezi
dvěma aritmetickými průměry
a rozptyly
Princip testování hypotéz si
vysvětlíme na Z-testu
Z-test
• Pro testování mnoha parametrů
kvantitativních proměnných (průměry, ale i
rozdíly hodnot, podíly nebo korelační koeficienty)
• Podmínky: Náhodný výběr větší než 30,
normální rozložení znaku a známe rozptyl v
základním souboru (populaci)
• Výběrový X (pozorovaná hodnota) – Populační (testovaný) μ (očekávaná hodnota) průměr
pozorovaná hodnota – očekávaná hodnota
Z = ––––––––––––––––––––––––––––––––––
směrodatná chyba pozorované hodnoty
Pokud neznáme populační StD,
nahradíme výběrovou StD/
odmocninou z velikosti výběru, tj.
standardní chybou (SE).
Pokud vypočítaná testová < kritická
(tabulková) hodnota → nelze zamítnout H0
25
Normální rozložení a Z-skóry
Normované
(standardizované)
normální rozdělení
N(0;1) má parametry:
Průměr µ =0
Směr.odch. σ = 1
(průměr = medián = modus)
Násobky
Směrodatné
odchylky
α
z α/2
Z
z.1
10%
5%
z.05
z.025
1.282 1.645
1%
z.01
z.005
z.001
z.0005
1.960 2.326 2.576 3.090 3.291
http://www.stat.tamu.edu/~west/applets/ci.html
26
Z-test příklad
(pokud neznáme populační rozptyl)
Vypočtená hodnota Z je větší než obě
tabelované hodnoty (1,96 pro α = 5 % i 2,58 pro α
= 1 %), proto nulovou hypotézu zamítáme.
Německé abstrakty jsou statisticky
významně kratší než všechny abstrakty.
Zdroj: [Köniová a kol. 1988: 149]
27
Z-test
•
•
•
•
velmi jednoduchý na výpočet, je univerzální
lze ho použít k ověření, např.:
průměrné hodnoty ve výběru
porovnání relativní četnosti s teoretickou
hodnotou
• porovnání dvou relativních četností (rozdíl p1-p2)
• ale i porovnání dvou korelačních koeficientů
• Předpokládá normální rozložení znaku a velký
rozsah výběru (asymptotické vzorce)
28
T-test → modifikace Z-testu
• Pokud neznáme směrodatnou odchylku v základním
soboru (populaci), můžeme jí odhadnout pomocí výběrové
směrodatné odchylky (v našem vzorku z populace),
• pak se k místo Z-rozložení (normální) použije tzv.
Studentovo t-rozložení.
• Jeho tvar a rozložení závisí na
počtu stupňů volnosti df, který je df = n – 1.
→ tabelované hodnoty (pro stupně volnosti a požadované
hladiny statistické významnosti (a jednostranné a dvoustranné testy))
se kterými porovnáme výsledek
•
Ověřovat pomocí T-testu můžeme:
– rozdíl naměřené hodnoty vůči určité hodnotě (teoretické, nebo naměřené v jiném
souboru, např. čase/zemi) (one-sample location test)
– zda dva průměry jsou ve dvou (či více) sub-populacích stejné (two-sample location
test)
– zda se průměrný rozdíl mezi dvěma proměnnými u stejných případů rovná nule
(paired nebo repeated measures t-test)
29
– (v regresní analýze, zda se regresní koeficient (tj. sklon regr. přímky) lišší od nuly).
T-test: testy pro průměry
• Jednovýběrový t-test (One-sample t-test)
→ rozdíl od populačního průměru μ0 nebo porovnání s jinou testovouteoretickou hodnotou.
Hypotézou je, že střední hodnota normálního rozdělení (průměr), z něhož výběr pochází,
se rovná μ0. (např. H0: výběrová hodnota průměrného příjmu se neliší od hodnoty 10,5 tis.)
T-TEST
•
/TESTVAL 10.5 /VARIABLES prijem.
Párový t-test (Pair-sampled t-test) porovnání dvou průměrů v závislých
výběrech, tj. při uspořádání pozorování ve dvojicích (měřené proměnné
jsou na sobě závislé).
Nejčastěji jde o zjišťování velikosti či obměny znaku u téže osoby ve dvou časových
okamžicích (např. názor před a po shlédnutí filmu). A nebo porovnání průměrů u dvou věcně
„srovnatelných“ proměnných, tj. hodnoty musí mít stejný rozsah.
Např. intenzita sledování TV (q1_a) a intenzita chození do kina (q1_b) (H0: Průměry sou shodné.)
•
T-TEST PAIRS q1_a WITH q1_b (PAIRED).
Dvouvýběrový t-test (Independent-samples t-test) → porovnání dvou
průměrů v nezávislých výběrech, tj. test rozdílu průměrných hodnot
znaku u dvou podskupin podle dichotomického znaku
Např. Příjem (prijem) podle pohlaví (S30) (H0: Rozdíl mezi průměry v podskupinách je nulový.)
Nejprve provedeme test rovnosti rozptylů (F- testem) → různý způsob výpočtu t-testu
pro 1 = 2 a 1  2.
T-TEST GROUPS s30(1 2)/ VARIABLES prijem.
30
Princip jednovýběrového t-testu
(One-sample t-test)
• Cíl: zjistit, zda se průměrná hodnota proměnné v
našem výběrovém souboru liší od populační (či
„teoretické“) hodnoty (např. srovnání s jinou
populací či obdobím). H0: neliší se.
• Postup: spočítáme rozdíl hodnot průměrů,
směrodatnou odchylku (SD)
a z ní standardní chybu (SE)
• Testová t-hodnota: Vydělíme rozdíl mezi
výběrovým a populačním průměrem standardní
chybou. Porovnáme s tabulkovou hodnotou (nebo
pomocí software získáme p-hodnotu)
• Z toho plyne, že pokud známe rozptyl/
směrodatnou odchylku výpočet můžeme provést
bez mikro-dat.
31
Jednovýběrový t-test (One-sample t-test)
Oboustranná alternativa (2-tailed) Výstup v SPSS
T-TEST /TESTVAL 10.5 /VARIABLES prijem.
H0: Průměrný příjem (ve výběru) je 10,5 tis. Kč.
Testové
kritérium t
Výsledek testu (nezamítnutí H0) potvrzuje i
to, že interval spolehlivosti pro rozdíl X a
X=10,5 tis. obsahuje nulu.
Alternativní postup - porovnání s kritickou tabulkovou hodnotou:
Kvantily t1-α/2 (n) Studentova t rozdělení
St. volnosti
df
1
…
120

0,8
1,376
…
0,845
0,8416
0,9
3,078
…
1,289
1,2816
0,95
6,314
…
1,658
1,6448
0,975
12,706
…
1,98
1,96
0,9875
25,452
…
2,27
2,2414
0,995
63,657
…
2,617
2,5758
vypočítaná testová
(0,960) < kritickátabulková 1,644)
hodnota → nelze
zamítnout H0
T-TEST /TESTVAL 13 /VARIABLES prijem.
H0: Průměrný příjem (ve výběru) je 13 tis. Kč.
vypočítaná testová (|-9,964|) > kritickátabulková 1,644) hodnota → H0 zamítáme
H0 nemůžeme zamítnout: dosažená
hladina významnosti p je vyšší než 0,05.
Hodnota průměrného příjmu ve výběru 10 720 Kč se statisticky
významně (na p < 0,01) neliší od testované-teoretické hodnoty
10 500 tis. Kč. Rozdíl 220 Kč je způsoben náhodnými vlivy, nelze
ho zobecnit z výběru na populaci.
H0 zamítáme: dosažená hladina
významnosti p je zde nižší než
0,05 i 0,01.
Hodnota průměrného příjmu ve výběru 10
720 Kč se statisticky významně (na p <
0,01) liší od testované-teoretické hodnoty
13 tis. Kč. Rozdíl 2280 Kč je nenáhodný.
32
Zdroj: data ISSP 2007, ČR
interval spolehlivosti pro rozdíl X a
X=13 tis. neobsahuje nulu.
Párový t-test (Pair-sampled t-test)
Oboustranná alternativa (2-tailed) Výstup v SPSS
T-TEST PAIRS q1_a WITH q1_b
(PAIRED).
H0: Průměrná frekvence sledování TV
a navštěvování kina je stejná (v
jednou souboru).
Alternativní postup - porovnání s kritickou tabulkovou hodnotou:
Kvantily t1-α/2 (n) Studentova t rozdělení
St. volnosti
df
1
…
120

0,8
1,376
…
0,845
0,8416
0,9
3,078
…
1,289
1,2816
0,95
6,314
…
1,658
1,6448
0,975
12,706
…
1,98
1,96
0,9875
25,452
…
2,27
2,2414
0,995
63,657
…
2,617
2,5758
H0 zamítáme: dosažená hladina
významnosti p je zde nižší než
0,05 i 0,01.
Průměrná frekvence sledování TV a chození do kina se statisticky významně (na p < 0,01) odlišuje. Rozdíl 3 bodů (na 5ti bodové škále intenzity
trávení volného času) není způsoben náhodnými vlivy, lze ho tedy zobecnit z výběru na populaci.
33
Zdroj: data ISSP 2007, ČR
Dvouvýběrový t-test
(Independent-samples t-test)
Oboustranná alternativa (2-tailed) Výstup v SPSS
T-TEST GROUPS s30(1 2)/
VARIABLES prijem.
H0: Průměrný příjem mužů a žen se
neliší, tj. rozdíl v příjmech je nulový.
1. krok: Test
rovnosti rozptylů
(F-test)
Alternativní postup - porovnání s kritickou tabulkovou hodnotou:
Kvantily t1-α/2 (n) Studentova t rozdělení
St. volnosti
df
1
…
120

•
0,8
1,376
…
0,845
0,8416
0,9
3,078
…
1,289
1,2816
0,95
6,314
…
1,658
1,6448
0,975
12,706
…
1,98
1,96
0,9875
25,452
…
2,27
2,2414
0,995
63,657
…
2,617
2,5758
H0 zamítáme: dosažená
hladina významnosti p je zde
nižší než 0,05 i 0,01.
Výsledek testu (zamítnutí H0) potvrzuje i to,
že interval spolehlivosti pro rozdíl
X muži a X ženy neobsahuje nulu.
Hodnota průměrného příjmu v sub-populaci mužů 12 930 Kč se statisticky významně (na p
< 0,01) liší od průměrného příjmu žen 9 060 Kč. Rozdíl v příjmech 3 870 Kč není způsoben
náhodnými vlivy a lze ho zobecnit z výběru na populaci.
Rozšíření pro nezávislou proměnnou s více kategoriemi je jednoduchá analýza
rozptylu pomocí F-testu (v SPSS OneWay ANOVA).
Zdroj: data ISSP 2007, ČR
34
F-test a Analýza rozptylu
• F-test - alternativní metoda pro srovnání výběrů pomocí podílu jejich rozptylů.
(Předchozí testy T-testy a Z-test byly založeny na rozdílech průměru a směrodatné odchylky.)
(připomeňme si: rozptyl = součet čtverců rozdílů jednotlivých pozorování od průměru)
vážený rozptyl mezi průměry skupin
F = –––––––––––––––––––––––––––––––
rozptyl mezi jedinci ve stejné skupině
• Analýza rozptylu s jednoduchým tříděním (one-way ANOVA): zkoumá
rozdíly průměrů závislé (kardinální-číselné) proměnné mezi několika skupinami
danými jednou nezávislou kategoriální proměnnou (tzv. faktorem).
Pokud má faktor jen dvě kategorie pak je test totožný s dvouvýběrovým T-testem.
•
•
•
•
Jsou tyto skupiny shodné nebo průměry tvoří nějaké identifikované shluky?
H0: všechny průměrné hodnoty jsou v jednotlivých (sub)populacích stejné.
Princip: rozdělíme celkový rozptyl závisle proměnné na variabilitu uvnitř skupin
(→ jak se každá hodnota ve skupině liší od skupinového průměru; residuální variabilita) a
variabilitu mezi skupinami (→ jak se navzájem liší skupinové průměry, tj. porovnání všech
skupinových průměrů s celkovým průměrem ze všech pozorování).
ST = SE + SA neboli Celkový součet čtverců = součet čtverců uvnitř skupin + součet čtverců mezi výběry
Pokud skutečně neexistuje žádný rozdíl mezi skupinovými průměry, pak variabilita
mezi skupinami i variabilita uvnitř skupiny reprezentují stejný jev - stejný populační
rozptyl.
Porovnání variability v rámci skupiny a mezi skupinami se provádí pomocí F testu.
Testové kritérium F (rozklad součtu čtverců odchylek měření od společného
průměru) srovnáme s tabulkovým F-rozdělením.
35
Zdroj: podle [Königová et al. 1988: 154; Hendl 2006: 349-353]
Jednoduchá analýza rozptylu (one-way ANOVA):
Simultánní porovnání mezi skupinami (post-hoc testy)
• F-testem testujeme pouze globální hypotézu – „průměry jsou ve
skupinách dle faktoru stejné“.
Ale nevíme, které ani kolik z nich se případně lišší.
• Většinou proto v dalším kroku provedeme mnohonásobná
porovnávání, tj. porovnáme každou dvojici průměrů:
většinou Post-hoc testem a nebo pomocí porovnání intervalů
spolehlivosti.
• Post-hoc testy používají upravenou hladinu významnosti: čím více
porovnání (skupin dle faktoru), tím potřebujeme hladinu α přísnější.
Jejich cílem je udržet danou hladinu pravděpodobnosti chyby prvního
druhu α (5 %) tak, že ji rozdělí mezi všechna porovnání.
Některé z těchto testů jsou velmi konzervativní. Může se stát, že F test
zamítne hypotézu o rovnosti průměrů, a přitom žádná dvojice průměrů
se od sebe podle výsledků metod mnohonásobného porovnávání
navzájem významně neliší!
Existuje několik variant testů (většinou jde o upravený dvouvýběrový Ttest): Bonferroniho (konzervativní), Fisherův LSD – least significant
difference (nejliberálnější), Tukeyova, Duncanova a dal.
36
Zdroj: podle [Hendl 2006: 354-356; Zvárová 2009: kap. 12]
Jednoduchá analýza rozptylu ANOVA (F-test)
(v SPSS ONEWAY ANOVA)
ONEWAY prijem BY vzd4 /
STATISTICS DESCRIPTIVES
/POSTHOC = BONFERRONI.
H0: Průměrný příjem se mezi
vzdělanostními kategoriemi neliší.
2. krok: Post Hoc Tests
→ Které kategorie se statisticky významně významně odlišují?
1. krok: F-Test (test H0)
Hodnota průměrného příjmu se statisticky
významně (na p < 0,01) liší podle úrovně vzdělání.
Minimálně jedna kategorie se liší od ostatních.
Rozdíly v příjmu nejsou způsobeny náhodnými
vlivy a lze je zobecnit z výběru na populaci.
Následný Post-hoc test (Bonferroniho nerovnost)
ukazuje, že od všech ostatních stupňů se odlišuje
pouze příjem ZŠ (platí pro p < 0,05).
Bonferroniho test je jednoduchý a konzervativní - přísný; použít lze i
jiné testy (LSD, Tukey atd.).
H0 zamítáme: dosažená
hladina významnosti p je
nižší než 0,05 i 0,01.
Znázorněno graficky (shoda průměrů):
ZŠ
VY
SŠ
VŠ
Identifikovat statisticky významné rozdíly
můžeme také pomocí intervalů spolehlivosti a
ty zobrazit v grafu (ERRORBAR).
37
Zdroj: data ISSP 2007, ČR
Jednoduchá analýza rozptylu (one-way ANOVA):
Velikost účinku (míra závislosti)
• Míru vlivu závislé proměnné na nezávislou (tj.
velikost účinku – effect size) můžeme v ANOVA
vyjádřit pomocí koeficientu Eta2 (Eta-squared)
• η2 = SA / ST
neboli součet
čtverců mezi výběry (poměr variability vysvětlené
kategoriemi SA)/ celkový součet čtverců odchylek od celkového
průměru (= Between-Groups Sum of Squares / Total Sum of Squares)
• Jde o nelineární korelační koeficient, který nabývá
hodnot 0–1.
• Vyjadřuje, kolik variability závislé proměnné je
vysvětleno faktorem.
• Umožňuje porovnání vlivu různých faktorů nebo
komparaci vlivu faktoru v odlišném prostředí.
38
Zdroj: podle [Hendl 2006: 356]
Jednoduchá analýza rozptylu ANOVA s Eta2
v SPSS v MEANS (případně i v CROSSTABS)
• Eta2 v One-Way není, ale lze jednoduše dopočítat.
• Jednoduchou ANOVU lze získat i v rámci příkazu
MEANS (STATISTICS = ANOVA), kde bude automaticky i Eta2.
MEANS prijem BY vzd4
/STATISTICS ANOVA.
H0: Průměrný příjem se mezi
vzdělanostními kategoriemi neliší.
Eta2 = Between Groups SS / Total SS
= 2785,592 / 37591,231 = 0,0741
39
Zdroj: data ISSP 2007, ČR
Statistické testy
pro kategoriální proměnné
Testování
rozložení kategorií jedné proměnné a
test závislosti kategoriálních znaků
(Chíkvadrát test)
Viz prezentaci
http://metodykv.wz.cz/AKD2_hypotezy2.ppt
Neparametrické testy
(Non-parametric Tests)
• Parametrické metody předpokládají: náhodný výběr,
normální rozdělní (distribuce znaku), velké výběry z populace,
známé (shodné) rozptyly v sub/populacích, z nichž byl proveden
výběr
• Neparametrické metody:
- nezávislé na rozdělní
- méně citlivé na odchylky extrémních hodnot
- i pro výběry velmi malého rozsahu
- vhodné pro nominální i ordinální znaky
• Ale dochází častěji k chybnému nezamítnutí
nepravdivé H0.
• Např. Chí-kvadrát testy, binomický test, testy středních hodnot
(Mann-Whitney, Kruskal-Wallis atd.)
41
S tříděním druhého stupně
bychom se neměli spokojit.
→ třídění třetího stupně a elaborace vztahů:
statistický test provedeme nejen za celek ale
také zvlášť v každé kategorii
třetí - kontrolní proměnné.
Principy viz prezentace:
Kontingenční tabulka: vztahy mezi kategorizovanými znaky - míry
asociace/korelace, znaménkové schéma (AKD2_kontg_tab2.ppt)
a
Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru
(AKD2_kontg_tab_standardizace.ppt)
Vyloučení (posouzení) vlivu třetí proměnné
→ Třídění 3 stupně
• Kontingenční tabulka A x B x C
– Příklad pro tři proměnné:
Volil (závislá) x VŠ (nezávislá-vysvětlující) x Pohlaví (nezávislá kontrolní)
→ Sledujeme vztah mezi A a B odděleně v
kategoriích C, nejjednodušeji pomocí
koeficientů asociace/korelace (kontingenční koef.,
Cramérovo V, Phi,… pořadové korelace Spermanovo Rho, TauB),
detailněji pak klasicky % rozdíly mezi
kategoriemi nebo adjustovaná residua.
• Parciální korelace – pro spojité proměnné
• Multivariační metody (např. regresní analýza,
vícerozm. analýzu rozptylu ANOVA)
43
Webové nástroje pro analýzu
Index of On-line Stats Calculators
http://www.physics.csbsju.edu/stats/Index.html
• Exact r×c Contingency Table:
http://www.physics.csbsju.edu/stats/exact_NROW_NCOLUMN_form.html
• Statistical Calculations
•
http://statpages.org/
• R. Webster West applets
http://www.stat.tamu.edu/~west/
http://www.stat.tamu.edu/~west/ph/
Učebnice:
Interstat - hypertextová interaktivní učebnice statistiky pro ekonomy
http://www.stahroun.me.cz/interstat/
Statnotes: Topics in Multivariate Analysis, by G. David Garson
http://faculty.chass.ncsu.edu/garson/PA765/index.htm
StatSoft - Elektronická učebnice statistiky (anglicky)
http://www.statsoft.cz/page/index2.php?pg=navigace&nav=31
http://www.statsoft.com/textbook/
44
Literatura
• De Vaus, D. A. 1986. Surveys in Social
Research. London: George Allen & Unwin
(Publishers) Ltd.
• Hendl, J. (2006) 2009. Přehled statistických
metod. Praha: Portál.
• Zvárová, J. 1999. Základy statistiky pro
biomedicínské obory. [on-line] Dostupné na
http://new.euromise.org/czech/tajne/ucebnice/ht
ml/html/statist.html
45