Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

Download Report

Transcript Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

UK FHS Historická sociologie (LS 2012+)

Analýza kvantitativních dat I./II./III.

Korelace a asociace:

vztahy mezi kardinálními/ ordinálními znaky

Jiří Šafr jiri.safr(zavináč)seznam.cz

poslední

aktualizace 10.3.2015

(vytvořeno 22.5. 2012)

Asociace mezi znaky

aneb „jak moc to spolu souvisí“

Asociace (korelace) a kauzalita

• •

Asociace (korelace)

neznamená automaticky

kauzální vztah Podmínky kauzality

1. Naměřená korelace (připomenutí): 2. Časová souslednost (k A došlo před B) 3. Vyloučení vlivu třetí proměnné • Vztah mezi proměnnými (pro kategoriální data kontingenční tabulky) sestavujeme tak, aby vyjadřovaly naší výzkumnou otázku resp. pracovní hypotézu.

3

• • • Základní možnosti pro vztah dvou proměnných A x B (opakování)

Nominální A

proměnná) a

tabulka

(kategoriální či „kvalitativní“

nominální B

→ procentní podíly (podmíněné pravděpodobnosti)

kontingenční

(+ chí kvadrát test), znaménkové schéma, koeficient kontingence

Dtto ale ordinální

(Sperman, Tab-B) → dtto + pořadové korelace

Nominální A

x

kardinální

B v podskupinách A (+ T-test či One-way Anova, 95% konf. intervaly),

koeficient asociace Eta

závislosti kvantitativní vysvětlované proměnné na proměnné nominální (číselná) → průměry = míra jednostranné 4

Korelace: kardinální (spojité) znaky

Kovariance a korelace

• Nejprve

Kovariance

→ suma součinů rozdílů dvou proměnných od jejich průměrů dělený počtem případů (-1) •

korelace

(product moment) → kovariance X a Y dělená součinem jejich rozptylů • praktičtější míra lineárních vztahů, protože jde o

standardizovanou kovarianci

(tj. bezrozměrné číslo) 6

Pearsonova korelace

(product moment)

→ kovariance X a Y dělená součinem jejich rozptylů /StD • Korelace: vydělíme kovarianci součinem směrodatných odchylek • praktičtější míra lineárních vztahů, protože jde o standardizovanou kovarianci (tj. bezrozměrné číslo) V praxi se používá výpočtový vzorec 7

Korelace

Korelační koeficient – Pearsonův

pro číselné znaky (s normálním rozdělením) 1 = přímá závislost 0 = žádná statisticky zjistitelná

lineární

závislost →

i při nulovém korelačním koeficientu na sobě veličiny mohou záviset

!

−1 = nepřímá závislost: čím více se zvětší hodnoty v první skupině znaků, tím více se zmenší hodnoty v druhé skupině znaků, 8

Pearsonova korelace - vlastnosti • Po

převedení na R2 procento vysvětlené variance jedné proměnné druhou

(to ale neplatí pro ordinální korelace např. Kendaullovo Tau) • Není příliš citlivý na porušení normality rozložení hodnot, ale je má explicitní věcný význam:

citlivý na odlehlá pozorování

(outliers).

• Index

lineárního

vztahu mezi dvěma

číselnými

proměnnými. Proto vždy: • Nejprve

kontrola rozložení proměnných

pozorování, rozložení: boxplot, histogram, P-P plot / Q-P plot) • nejprve

scatterplot X-Y

(odlehlá (a zkusit jinou než lineární funkci) • Paralelní výpočet

koeficientů asociace

, např. Phi/Cramérovo V (pro ordinální znaky) 9

Korelace a vysvětlená variance

• Umocněním r – korelačního koeficientu dostaneme

R 2

(Rsq)

– koeficient determinace

. • Ten nám říká kolik variance znaku X jsme vysvětlili pomocí znaku Y 10

Korelace:

test hodnoty v populaci

• Je třeba pomocí T-testu otestovat, zda je korelace přítomná i v populaci (základním souboru).

• Testujeme, zda se jeho hodnota ve výběru lišší od populační hodnoty. • H0: korelace v základním souboru je nulová (je způsobená náhodou) r = 0 • Porovnáme s tabulkovou hodnotou (dle stupňů volnosti) na hladině významnosti, např. (oboustranný test). Je v li tabulkové

t

0,05 populaci nulová.

>

t

pak H0 nezamítáme → hodnota r není významně rozdílná od 0; korelace je 11

Korelace: věk a příjem; Scatterplot 12

Parciální korelace

aneb výprava do tří (a více) rozměrného prostoru Intervalové (a ordinální) znaky

Korelace: parciální korelace

• kontrolovaný vliv 3 proměnné

Par ciální korelace pro X,Y/U s kontrolou vlivu U

( vzoreček platí i pro neparametrické korelace, např. Spearmanovo Rho)

Příklad: korelace příjmu a věku, při kontrole vlivu vzdělání („čistý“ efekt)

věk-příjem věk-vzdělání příjem-vzdělání R x,y R x,u R y,u -0,14 -0,10 0,33 x - y - u - věk příjem vzdělání

R x,y/u =

-0,11 0,94

= -0,12

14

Parciální korelace v SPSS

Kontrolní proměnná(é) PARTIAL CORR

prijem vek BY

s3

/SIGNIFICANCE=TWOTAIL /STATISTICS=

CORR

/MISSING=LISTWISE.

Lze zařadit i více kontrolních proměnných.

V SPSS pouze pro Pearsonův korelační koeficient

(tj. kardinální znaky).

Neparametrické korelace

nutno nejprve každou zvlášť (→ Bivariate) a potom parciální spočítat „ručně“ pomocí vzorečku.

15 [Data: ISSP 2007]

Lineární regrese Odhadujeme hodnotu závislého znaku (y) na základě znalosti jiných veličin - nezávisle proměnných (x, ….).

Na rozdíl od korelace předpokládáme směr působení:

nezávislá → závislá y = a + bx y

= hodnota

závislé

,

Mnohonásobná regrese

uvažuje vliv více nezávislých proměnných souběžně

a b x

=

konstanta

(typická závislé při nejnižší hodnotě nezávislé, =

regresní koeficient →

„o kolik vzroste Y, když se x změní o jednotku“, = hodnota

nezávislé

proměnné 16

Více k regresní analýze viz prezentaci

Regresní analýza

(AKD2_regrese.ppt)

Ordinální znaky: pořadové korelace

Pořadová korelace: pro ordinální proměnné • •

Spermanův korelační koeficient Rho

• +1 = úplná shoda pořadí jednotek podle obou znaků

Kendallovo Tau

• ve srovnání s Pearsonovým r, ale i Spearmanovým Rho má několik výhod → větší citlivost na některé nelineární vztahy. Více k porovnání korelačních koeficientů viz [Hendl 2004: 259-262].

19

Pořadové korelace (pro ordinální znaky) Spearmanův koeficient pořadové korelace

(

ρ

nebo Počítá se ze vzorce na výpočet Pearsonova koeficientu, místo původních hodnot se použijí jejich pořadová čísla.

rs

). • • • Na některé druhy závislostí ovšem není citlivý, proto je lepší použít

Kendallův pořadový korelační koeficient (Kendaulovo Tau)

je neparametrický test nezávislosti • vyjadřuje rozdíl mezi pravděpodobností, že hodnoty dvou proměnných jsou ve stejném pořadí oproti pravděpodobnosti, že ve stejném pořadí nejsou.

Tau-b

→ pro větší počet výskytu nerozhodnutých párů • pokud znaky mají odlišný počet unikátních hodnot (kontingenční tabulka m×n) →

Tau-c

nebo

Goodman-Kruskal ův gama koeficient

→ pro vysoký počet výskytu nerozhodnutých párů Gama = 0,70 → poznání hodnoty jedné proměnné sníží chybovost při předpovídání pořadí (ne hodnoty!) druhé proměnné o 70 %.

20

Pořadová korelace: př. Soc. Distance 21

úlohy

• [data ISSP 2007] • Jak souvisí příjem s věkem?

• Souvisí pocit štěstí se vzděláním?

[data Rodiče a výchova 2010] Jaký je vztah (asociace) mezi nominální proměnnou (typ_dom) a kardinální proměnnou (prijem). 22

Nominální a kardinální znak

koeficient asociace Eta

na proměnné nominální = míra jednostranné závislosti kvantitativní vysvětlované proměnné •

EtaSq

nabývá hodnot 0=žádná asociace až 1=úplná. Vyjadřuje podíl vysvětlené variance závislé kardinální proměnné pomocí kategorií kategoriální proměnné . Hodnoty 0-1 tedy odpovídají procentům.

• Ale pozor, nejde obecné vysvětlení variance znaku, ale pouze za pomocí této jedné proměnné! • V SPSS využijeme buď příkaz MEANS a jeho podpříkaz ANOVA nebo CROSSTAB • EtaSq je rovněž ve vícenásobné analýze rozptylu MANOVA (větší počet nezávislých znaků) (v SPSS procedura GLM zahrnující též regresní analýzu) 23

Asociace nominálních znaků

Podrobněji o kontingenční tabulce viz

AKD2_kontg_tab

Asociace nominálních znaků:

Kontingenční koeficient (CC)

• Analogie korelačního koeficientu (ten je pro kardinální/ordinální znaky) → míra těsnosti závislosti. Neurčuje směr.

• Výsledek není kontingenčních tabulkách v intervalu (0,1) → existují různé korekce

CC

je rozšíření koef.

Phi

pro >2x2 tabulky.

V menu SPSS:

variables; Analyze, Descriptive Statistics,

Crosstabs

; vložit Row a Column → Statistics; →

Contingency Coefficient / Phi & Cramer‘s V

25

Interpretace korelačních koeficientů

• Korelace pod 0,1 je triviální, – 0,1–0,3 malá, – 0,3–0,5 střední – nad 0,5 velká. • Před interpretací korelačních koeficientů je vhodné zkonstruovat X-Y graf.

– Pomůže nám odhalit odlehlá pozorování (outliers) a nelineární vztahy –

Pozor zejména při malém počtu případů ve výběru a tedy hlavně u agregovaných dat

(viz dále Simpsonův paradox) 26

• Pozor korelační koeficient ukazuje jen na míru souvislosti, ale

neříká nic o kauzalitě

– směru působení mez dvěma znaky.

27

A ZNOVU… Asociace (korelace) a kauzalita •

Asociace (korelace)

neznamená automaticky

kauzální vztah

• • Podmínky kauzality (připomenutí podruhé): • Naměřená korelace • Časová souslednost (k A došlo před B)

Vyloučení vlivu třetí proměnné

→ eliminace (kontrola): pro kardinální či ordinální znaky pomocí

stupně parciální korelace

případně nebo

regresní analýzy

;

pro kategoriální (nominální/ordinální) znaky třídění 3. standardizace podle třetího faktoru

prezentaci

Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru (AKD2_kontg_tab_standardizace.ppt

)) (viz • Směr působení nám může pomoci určit silná teorie 28

Posouzení vlivu třetí proměnné

Vyloučení vlivu třetí proměnné

(kontrola společného působení na závislou i nezávislou proměnnou): → eliminace • • pro kardinální či ordinální znaky pomocí

parciální korelace

nebo

regresní analýzy

;

pro kategoriální (nominální/ordinální) znaky třídění 3. stupně podle třetího faktoru

tabulce – kontrola vlivu 3 faktoru

případně

standardizace

(viz prezentaci

Standardizace v kontingenční

(AKD2_kontg_tab_standardizace.ppt)) 29

Na co si dát pozor

Vícerozměrná analýza

Odlehlá pozorování (outliers)

R = 0,88 R = 0,08 Téměř všech rozptyl byl vnesen pouze jedním pozorováním.

Outliers mohou významně ovlivnit vztah dvou (a více) znaků!

Vždy nejprve zjistit odlehlá pozorování

→ Scatterplot 31

Simpsonův / reversal paradox – špatná inference z agregovaných dat • Obrácení závislosti (směru působení) v konntingenční tabulce způsobeného působením třetí proměnné.

• Hrozí při agregaci dat.

V agregovaných datech (černá čára) je negativní souvislost V oddělených podskupinách (modrá a červená čára) je ovšem pozitivní trend 32

Konfigurace v datech na základě podskupin [Disman 1993: 210-211] 33

Neparametrické testy (Non-parametric Tests) • • Parametrické metody předpokládají:

náhodný výběr

,

normální rozdělní

výběr (distribuce znaku),

velké výběry

z populace, známé (shodné) rozptyly v sub/populacích, z nichž byl proveden

Neparametrické metody

: nezávislé na rozdělní méně citlivé na odchylky extrémních hodnot i pro výběry velmi malého rozsahu vhodné pro nominální i ordinální znaky • Ale dochází častěji k chybnému nezamítnutí nepravdivé H0.

• Chí-kvadrát testy, 34