Transcript Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky
UK FHS Historická sociologie (LS 2012+)
Analýza kvantitativních dat I./II./III.
Korelace a asociace:
vztahy mezi kardinálními/ ordinálními znaky
Jiří Šafr jiri.safr(zavináč)seznam.cz
poslední
aktualizace 10.3.2015
(vytvořeno 22.5. 2012)
Asociace mezi znaky
aneb „jak moc to spolu souvisí“
Asociace (korelace) a kauzalita
• •
Asociace (korelace)
neznamená automaticky
kauzální vztah Podmínky kauzality
1. Naměřená korelace (připomenutí): 2. Časová souslednost (k A došlo před B) 3. Vyloučení vlivu třetí proměnné • Vztah mezi proměnnými (pro kategoriální data kontingenční tabulky) sestavujeme tak, aby vyjadřovaly naší výzkumnou otázku resp. pracovní hypotézu.
3
• • • Základní možnosti pro vztah dvou proměnných A x B (opakování)
Nominální A
proměnná) a
tabulka
(kategoriální či „kvalitativní“
nominální B
→ procentní podíly (podmíněné pravděpodobnosti)
kontingenční
(+ chí kvadrát test), znaménkové schéma, koeficient kontingence
Dtto ale ordinální
(Sperman, Tab-B) → dtto + pořadové korelace
Nominální A
x
kardinální
B v podskupinách A (+ T-test či One-way Anova, 95% konf. intervaly),
koeficient asociace Eta
závislosti kvantitativní vysvětlované proměnné na proměnné nominální (číselná) → průměry = míra jednostranné 4
Korelace: kardinální (spojité) znaky
Kovariance a korelace
• Nejprve
Kovariance
→ suma součinů rozdílů dvou proměnných od jejich průměrů dělený počtem případů (-1) •
korelace
(product moment) → kovariance X a Y dělená součinem jejich rozptylů • praktičtější míra lineárních vztahů, protože jde o
standardizovanou kovarianci
(tj. bezrozměrné číslo) 6
Pearsonova korelace
(product moment)
→ kovariance X a Y dělená součinem jejich rozptylů /StD • Korelace: vydělíme kovarianci součinem směrodatných odchylek • praktičtější míra lineárních vztahů, protože jde o standardizovanou kovarianci (tj. bezrozměrné číslo) V praxi se používá výpočtový vzorec 7
•
Korelace
Korelační koeficient – Pearsonův
pro číselné znaky (s normálním rozdělením) 1 = přímá závislost 0 = žádná statisticky zjistitelná
lineární
závislost →
i při nulovém korelačním koeficientu na sobě veličiny mohou záviset
!
−1 = nepřímá závislost: čím více se zvětší hodnoty v první skupině znaků, tím více se zmenší hodnoty v druhé skupině znaků, 8
Pearsonova korelace - vlastnosti • Po
převedení na R2 procento vysvětlené variance jedné proměnné druhou
(to ale neplatí pro ordinální korelace např. Kendaullovo Tau) • Není příliš citlivý na porušení normality rozložení hodnot, ale je má explicitní věcný význam:
citlivý na odlehlá pozorování
(outliers).
• Index
lineárního
vztahu mezi dvěma
číselnými
proměnnými. Proto vždy: • Nejprve
kontrola rozložení proměnných
pozorování, rozložení: boxplot, histogram, P-P plot / Q-P plot) • nejprve
scatterplot X-Y
(odlehlá (a zkusit jinou než lineární funkci) • Paralelní výpočet
koeficientů asociace
, např. Phi/Cramérovo V (pro ordinální znaky) 9
Korelace a vysvětlená variance
• Umocněním r – korelačního koeficientu dostaneme
R 2
(Rsq)
– koeficient determinace
. • Ten nám říká kolik variance znaku X jsme vysvětlili pomocí znaku Y 10
Korelace:
test hodnoty v populaci
• Je třeba pomocí T-testu otestovat, zda je korelace přítomná i v populaci (základním souboru).
• Testujeme, zda se jeho hodnota ve výběru lišší od populační hodnoty. • H0: korelace v základním souboru je nulová (je způsobená náhodou) r = 0 • Porovnáme s tabulkovou hodnotou (dle stupňů volnosti) na hladině významnosti, např. (oboustranný test). Je v li tabulkové
t
0,05 populaci nulová.
>
t
pak H0 nezamítáme → hodnota r není významně rozdílná od 0; korelace je 11
Korelace: věk a příjem; Scatterplot 12
Parciální korelace
aneb výprava do tří (a více) rozměrného prostoru Intervalové (a ordinální) znaky
Korelace: parciální korelace
• kontrolovaný vliv 3 proměnné
Par ciální korelace pro X,Y/U s kontrolou vlivu U
( vzoreček platí i pro neparametrické korelace, např. Spearmanovo Rho)
Příklad: korelace příjmu a věku, při kontrole vlivu vzdělání („čistý“ efekt)
věk-příjem věk-vzdělání příjem-vzdělání R x,y R x,u R y,u -0,14 -0,10 0,33 x - y - u - věk příjem vzdělání
R x,y/u =
-0,11 0,94
= -0,12
14
Parciální korelace v SPSS
Kontrolní proměnná(é) PARTIAL CORR
prijem vek BY
s3
/SIGNIFICANCE=TWOTAIL /STATISTICS=
CORR
/MISSING=LISTWISE.
Lze zařadit i více kontrolních proměnných.
V SPSS pouze pro Pearsonův korelační koeficient
(tj. kardinální znaky).
Neparametrické korelace
nutno nejprve každou zvlášť (→ Bivariate) a potom parciální spočítat „ručně“ pomocí vzorečku.
15 [Data: ISSP 2007]
Lineární regrese Odhadujeme hodnotu závislého znaku (y) na základě znalosti jiných veličin - nezávisle proměnných (x, ….).
Na rozdíl od korelace předpokládáme směr působení:
nezávislá → závislá y = a + bx y
= hodnota
závislé
,
Mnohonásobná regrese
uvažuje vliv více nezávislých proměnných souběžně
a b x
=
konstanta
(typická závislé při nejnižší hodnotě nezávislé, =
regresní koeficient →
„o kolik vzroste Y, když se x změní o jednotku“, = hodnota
nezávislé
proměnné 16
Více k regresní analýze viz prezentaci
Regresní analýza
(AKD2_regrese.ppt)
Ordinální znaky: pořadové korelace
Pořadová korelace: pro ordinální proměnné • •
Spermanův korelační koeficient Rho
• +1 = úplná shoda pořadí jednotek podle obou znaků
Kendallovo Tau
• ve srovnání s Pearsonovým r, ale i Spearmanovým Rho má několik výhod → větší citlivost na některé nelineární vztahy. Více k porovnání korelačních koeficientů viz [Hendl 2004: 259-262].
19
•
Pořadové korelace (pro ordinální znaky) Spearmanův koeficient pořadové korelace
(
ρ
nebo Počítá se ze vzorce na výpočet Pearsonova koeficientu, místo původních hodnot se použijí jejich pořadová čísla.
rs
). • • • Na některé druhy závislostí ovšem není citlivý, proto je lepší použít
Kendallův pořadový korelační koeficient (Kendaulovo Tau)
je neparametrický test nezávislosti • vyjadřuje rozdíl mezi pravděpodobností, že hodnoty dvou proměnných jsou ve stejném pořadí oproti pravděpodobnosti, že ve stejném pořadí nejsou.
•
Tau-b
→ pro větší počet výskytu nerozhodnutých párů • pokud znaky mají odlišný počet unikátních hodnot (kontingenční tabulka m×n) →
Tau-c
nebo
Goodman-Kruskal ův gama koeficient
→ pro vysoký počet výskytu nerozhodnutých párů Gama = 0,70 → poznání hodnoty jedné proměnné sníží chybovost při předpovídání pořadí (ne hodnoty!) druhé proměnné o 70 %.
20
Pořadová korelace: př. Soc. Distance 21
úlohy
• [data ISSP 2007] • Jak souvisí příjem s věkem?
• Souvisí pocit štěstí se vzděláním?
[data Rodiče a výchova 2010] Jaký je vztah (asociace) mezi nominální proměnnou (typ_dom) a kardinální proměnnou (prijem). 22
Nominální a kardinální znak
•
koeficient asociace Eta
na proměnné nominální = míra jednostranné závislosti kvantitativní vysvětlované proměnné •
EtaSq
nabývá hodnot 0=žádná asociace až 1=úplná. Vyjadřuje podíl vysvětlené variance závislé kardinální proměnné pomocí kategorií kategoriální proměnné . Hodnoty 0-1 tedy odpovídají procentům.
• Ale pozor, nejde obecné vysvětlení variance znaku, ale pouze za pomocí této jedné proměnné! • V SPSS využijeme buď příkaz MEANS a jeho podpříkaz ANOVA nebo CROSSTAB • EtaSq je rovněž ve vícenásobné analýze rozptylu MANOVA (větší počet nezávislých znaků) (v SPSS procedura GLM zahrnující též regresní analýzu) 23
Asociace nominálních znaků
Podrobněji o kontingenční tabulce viz
AKD2_kontg_tab
Asociace nominálních znaků:
Kontingenční koeficient (CC)
• Analogie korelačního koeficientu (ten je pro kardinální/ordinální znaky) → míra těsnosti závislosti. Neurčuje směr.
• Výsledek není kontingenčních tabulkách v intervalu (0,1) → existují různé korekce
CC
je rozšíření koef.
Phi
pro >2x2 tabulky.
V menu SPSS:
variables; Analyze, Descriptive Statistics,
Crosstabs
; vložit Row a Column → Statistics; →
Contingency Coefficient / Phi & Cramer‘s V
25
Interpretace korelačních koeficientů
• Korelace pod 0,1 je triviální, – 0,1–0,3 malá, – 0,3–0,5 střední – nad 0,5 velká. • Před interpretací korelačních koeficientů je vhodné zkonstruovat X-Y graf.
– Pomůže nám odhalit odlehlá pozorování (outliers) a nelineární vztahy –
Pozor zejména při malém počtu případů ve výběru a tedy hlavně u agregovaných dat
(viz dále Simpsonův paradox) 26
• Pozor korelační koeficient ukazuje jen na míru souvislosti, ale
neříká nic o kauzalitě
– směru působení mez dvěma znaky.
27
A ZNOVU… Asociace (korelace) a kauzalita •
Asociace (korelace)
neznamená automaticky
kauzální vztah
• • Podmínky kauzality (připomenutí podruhé): • Naměřená korelace • Časová souslednost (k A došlo před B)
Vyloučení vlivu třetí proměnné
→ eliminace (kontrola): pro kardinální či ordinální znaky pomocí
stupně parciální korelace
případně nebo
regresní analýzy
;
pro kategoriální (nominální/ordinální) znaky třídění 3. standardizace podle třetího faktoru
prezentaci
Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru (AKD2_kontg_tab_standardizace.ppt
)) (viz • Směr působení nám může pomoci určit silná teorie 28
Posouzení vlivu třetí proměnné
•
Vyloučení vlivu třetí proměnné
(kontrola společného působení na závislou i nezávislou proměnnou): → eliminace • • pro kardinální či ordinální znaky pomocí
parciální korelace
nebo
regresní analýzy
;
pro kategoriální (nominální/ordinální) znaky třídění 3. stupně podle třetího faktoru
tabulce – kontrola vlivu 3 faktoru
případně
standardizace
(viz prezentaci
Standardizace v kontingenční
(AKD2_kontg_tab_standardizace.ppt)) 29
Na co si dát pozor
Vícerozměrná analýza
Odlehlá pozorování (outliers)
R = 0,88 R = 0,08 Téměř všech rozptyl byl vnesen pouze jedním pozorováním.
Outliers mohou významně ovlivnit vztah dvou (a více) znaků!
Vždy nejprve zjistit odlehlá pozorování
→ Scatterplot 31
Simpsonův / reversal paradox – špatná inference z agregovaných dat • Obrácení závislosti (směru působení) v konntingenční tabulce způsobeného působením třetí proměnné.
• Hrozí při agregaci dat.
V agregovaných datech (černá čára) je negativní souvislost V oddělených podskupinách (modrá a červená čára) je ovšem pozitivní trend 32
Konfigurace v datech na základě podskupin [Disman 1993: 210-211] 33
Neparametrické testy (Non-parametric Tests) • • Parametrické metody předpokládají:
náhodný výběr
,
normální rozdělní
výběr (distribuce znaku),
velké výběry
z populace, známé (shodné) rozptyly v sub/populacích, z nichž byl proveden
Neparametrické metody
: nezávislé na rozdělní méně citlivé na odchylky extrémních hodnot i pro výběry velmi malého rozsahu vhodné pro nominální i ordinální znaky • Ale dochází častěji k chybnému nezamítnutí nepravdivé H0.
• Chí-kvadrát testy, 34