Elaborace, standardizace/vážení

Download Report

Transcript Elaborace, standardizace/vážení

UK FHS Historická sociologie (LS 2013+)

Analýza kvantitativních dat II.

Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru

Jiří Šafr

jiri.safr(zavináč)seznam.cz

poslední

aktualizace 13.1. 2015

třetího stupně

OBSAH

• Připomenutí principu kontingenčních tabulek s tříděním • Princip přímé standardizace v kontingenční tabulce (převážení podle kontrolního faktoru) • Příklad 1: Sebeúcta dítěte podle náboženské orientace rodiny při kontrole vzdělání otce • Příklad 2: Militantnost v boji za lidská práva podle náboženskosti při kontrole vzdělání – Výpočet redukce vlivem kontrolní proměnné/ faktoru • Příklad 3: Vzdělanostní aspirace podle typu školy/čtvrti při kontrole vlivu vzdělání rodičů • Příklad 4 s ukázkou v SPSS: Chození do kina podle vzdělání s kontrolou vlivu věku, ve verzi: a) standardizace v konting. tab. (pro kategoriální znaky) b)

parciální korelace

(pro ordinální/kardinální znaky) 2

Nejprve připomenutí principu:

Tabulky třídění třetího stupně

Podrobněji viz http://metodykv.wz.cz/AKD1_kontg_tab3st_uvod.ppt

Testování/ kontrola vlivu dalšího faktoru

• Vytvořením

samostatných tabulek podle kategorií třetí proměnné

konstantní hodnotě.

je testovaný faktor (třetí proměnná) udržován na → souvislost mezi původními proměnnými je

očištěna od zkreslujícího vlivu

této další proměnné.

4

Testování vlivu dalšího faktoru

• Porovnáme intenzitu souvislosti v původní tabulce se souvislosti zjištěnou v nových tabulkách s kontrolou 3 faktoru . • Když v nových tabulkách

souvislost

původními daty

zmizí

/ je podstatně

oslabena

souvislost v původní tabulce je funkcí třetího faktoru

mezi 5

Třídění 3 st.: kontrola vlivu 3 proměnné: interpretace a uspořádání tabulky

Souvisí účast ve volbách s věkem,

i při kontrole vlivu vzdělání

?

Volil

Nevolil Základní vzdělání Střední vzdělání Vysokoškolské vzdělání < 39 let 40-59 > 60 let < 39 let 40-59 > 60 let < 39 let 40-59 > 60 let

18%

82

24%

76

32%

68

36%

64

34%

66

49%

51

40%

60

50%

50

70%

30 Celkem 100 % 100 % 100 % 100 % 100 % 100 % 100 % 100 % 100 % N (109) (202) (45) (97) (271) (139) (27) (62) (50) Rozdíly mezi krajními kategoriemi věku: Ptáme se:

14 % 13 % 30 %

Zatímco v případě ZŠ a SŠ jsou rozdíly mezi nejmladšími a nejstaršími stejné, tak u VŠ je rozdíl větší. → Vzdělání tedy do vztahu mezi volební účastí a věkem částečně intervenuje.

1. Nacházíme rozdíly v X (věk) a Y (volil)

uvnitř kategorií kontrolní proměnné Z

(vzdělání)? Porovnáme s tabulkou třídění 2. st. Pro X a Y. 2. Jsou

rozdíly mezi krajními kategoriemi X

kontrolní proměnné Z (vzdělání)

stejné

?

(věk) v rámci kategorií 6

Dalším krokem pak může být

Přímá standardizace vztahu

podle třetí proměnné

Přímá standardizace v kontingenční tabulce

• Navazujeme na elaboraci – kontrolu vlivu • Standardizace je metoda původně používaná v demografii, kdy jde o kontrolu proměny nějaké struktury (kontrolovanou proměnnou je tak vlastně čas – skrze vliv proměny struktury např. z hlediska věku) • Princip viz přednášku

Standardizace intenzitních údajů

http://metodykv.wz.cz/Standardizace.ppt

• Tento princip jde aplikovat i na kontingenční tabulku (nebo tabulku průměrů v podskupinách) • Ukazujeme tzv. čistý vztah dvou proměnných při kontrole vlivu třetí proměnné 8

Přímá standardizace v kontingenční tabulce

• Princip: převážení dle kategorií třetí proměnné, čímž kontrolujeme její vliv → ukazujeme vztah dvou kategoriálních proměnných, jako kdyby hodnoty třetí byly v celé populaci stejné • Porovnáme původní s hypotetickou - převáženou tabulkou (v níž je vztah X a Y jako kdyby v kategoriích X-nezávislá měla stejné rozložení v kategoriích Z) • Jde o analogický postup k parciálním korelacím v případě tří kardinálních (ordinálních) znaků.

9

Příklad1

Sebeúcta dítěte podle náboženské orientace rodiny (s kontrolou vlivu Vzdělání otce )

Rosenberg, M. 1962. „

Test Factor Standardization as a Method of Interpretation

.“

Social Forces

41(1): 53-61.

Text je dostupný na http://metodykv.wz.cz/SF1962_Rosenberg_Test_Factor_Standardization.pdf

Výsledek: Původní (hrubý) a Standardizovaný (čistý) vztah

→ tabulku původního vztahu X a Y parcializujeme pro kategorie faktoru M (kontrolní proměnné) → Standardizujme (převážíme) políčka dle struktury faktoru M (zde vzdělání otce) → Porovnáme hrubou a čistou míru X a Y 11 Zdroj: [Rosenberg 1962]

N áboženskost a Sebeúcta, kontrola vzdělání otce:

Standardizace/vážení

Váhy

(vzdělání otce)

Váhy

(podíl vzdělanostních kategorií → třídění 1.st.)

spočítáme z absolutních četností

pro katolíky (Vys. sebeúcta):

0,1579 Standardizace → převážení dle vzdělání otce váha

*

0,681

=

0,1075 hodnota v daném poli

12 Zdroj: [Rosenberg 1962]

Pokračování tabulky

• Tabulka má 6 panelů pro vzdělání Zdroj: [Rosenberg 1962] 13

Váhy: podíl (pravděpodobnost) vzdělanostních kategorií otce

8th Grade or Less Some High School High School Graduate Some College College Graduate Post-Graduate Celkem 0,1579 0,2488 0,2891 0,1019 0,1312 0,0712

1,000

14

Přímá standardizace: Vážený čistý procentní rozdíl

• Váhy získáme z tabulky → z absolutních četností (viz další příklad) Máme-li původní mikro-data, můžeme je rychle spočítat pomocí třídění 1. stupně.

• Ukazujeme

Vážený čistý procentní rozdíl a porovnáme ho s hrubým rozdílem

(původní vztah bez kontroly) • Redukce v pozorovaném vztahu dvou proměnných, způsobené zavedením 3 proměnné • Spočítáme váženou sumu % závislé proměnné (zde sebeúcty) napříč kategoriemi kontrolního faktoru (vzdělání otce) 15

Postup standardizace podle testového faktoru

Váhy

: spočítáme podíly v každé testové kategorii (zde vzdělání otce), = marginální součet / celkovým počtem případů (pro všechny pole platí součet 1 resp. 100%) Pro první pole (8th Grade): 360 + 39 + 193 = 592 tj. 15,79% resp. 0,1579 to je naše váha pro kat. vzdělání I.

• Násobíme každou kategorii v políčku odpovídajícím podílem testového faktoru, tj. váhou Pro první pole High Self-esteem: 0,1579 0,718 a 0,1579 * 0,648 a 0,1579 * 0,681 a * 0,258 atd.

0,1579 * Podobně pro všechna pole každého panelu tabulky.

• Parciální standardizované údaje sepíšeme do nové tabulky: Pro Jews (vysoká sebeúcta): 0,1134 + 0,157 + 2154 + 0,083 + 0,1153 + 0,589 =

75,8

atd. (viz další snímek) 16

+ pro další tři panely tabulky

17

V ážený podíl: pro High Self-Esteem

Vážený podíl

získáme jako součet převážených hodnot pro vzdělanostní kategorie v kategoriích náboženské orientace rodin:

pro High Self-Esteem

8th Grade or Less Some High School High School Graduate Some College College Graduate Post-Graduate celkem

Catholic

0,1075 0,1704 0,2073 0,0722 0,0886 0,0519

0,698 Jewish

0,1134 0,1757 0,2154 0,0803 0,1153 0,0519

0,752 Protestant

0,1023 0,1791 0,1659 0,0712 0,0926 0,0525

0,664

18

Příklad1: Sebeúcta

Porovnání hrubého a čistého % rozdílu mezi kategoriemi nezávislé proměnné

Hrubý

rozdíl (nevážený) mezi Katolíky a Židy je v nejvyšší úrovni sebeúcty

7,8%

(69,7 - 77,5) •

Čistý

(vážený pro vzdělání) je

6 %

(69,8 - 75,8) • To zde odpovídá 23 % redukci po kontrole vzdělání (1-(6/7,8)) 19

Příklad 2.

Religiozita a militantnost v boji za občanská práva

mezi afroameričany v USA (60. léta)

se standardizací podle vzdělání

[Treiman 2009: 30-33] Kapitola 2.

More on the tables

Text je dostupný na

http://metodykv.wz.cz/CrossTabs_Treiman2009_vybK2.pdf

Úloha a tabulky jsou z původního článku Gary T. Marxe [1967]. Religion: Opiate or Inspiration of Civil Rights Militancy Among Negroes?

Religiozita a militantnost - radikalita v boji za lidská práva (operacionalizace)

• •

Religiozita

měřena pomocí kombinace 3 otázek (frekvence návštěv bohoslužeb, ortodoxnosti přesvědčení, význam víry) sloučené do proměnné se 4 hodnotami.

Militantnost v otázce boje za lidská práva

měřena pomocí 7 otázek na protesty za občanská práva (názory, ochota účastnit se atd.) → index konvenční militantnosti, který byl posléze rekódován na 2 kategorie (militantní/nemilitantní) 21

Militantnost podle Religiozity

→ bivariátní vztah, který nás zajímá

Po s loučení kategorií „Not Very Religious“ a „Not at All Religious“

Very Religious Somew. Relig Not very Relig. + Not at All Relig.

Militant Nonmilitant Total N 27 73 100 % (230) 30 70 100 % (532)

48

52 100 % (231) Total 22 (993)

Militantnost podle vzdělání (třídění 2.stupně)

23

Militantnost podle religiozity a vzdělání:

základní tabulka třídění 3. stupně

s panely pro kontrolní proměnnou (zde vzdělání)

V

= Very religious,

S

= Somewhat religious,

N

= Not religious 24

Zjednodušená prezentace předchozí tabulky:

pouze % Militantních + otočeno o 90 st.

→ viz předchozí snímek Závislý znak je dichotomický, proto, u % Militantních dopočet do 100 = % nemilitantních.

→ úsporná forma prezentace v tabulce 25

Z ní získáme – spočteme váhy:

(protože nemáme původní mikro-data a nemůžeme počítat rovnou jen frekvenci vzdělání) Pokud by absolutní četnosti nebyly uvedeny u každé buňky, spočítáme si je nejprve na základě % z celkového N 1. Celkový počet případů = (108 + 96 + … + 49) =993 pro ZŠ (Grammar school) je počet (108 + 201 + 44) = 353 atd.

2. Určíme

váhy

(podíly ve vzdělanostních kategoriích) : – pro ZŠ (Grammar school): 353 / 993 =

0,356

– pro SŠ (High school): 504 / 993 =

0,508

– pro VŠ (College): 136 / 993 =

0,137

Součet pro váhy je 1 (po zaokrouhlení) .

26

A vážíme – standardizujeme:

V principu „rušíme“ kontrolní faktor → všichni jsou jako kdyby stejně vzdělaní Váhy (podíly vzdělání): ZŠ (Grammar School) 0,356 SŠ (High School) 0,508 VŠ (College) 0,137

Váhy: ZŠ SŠ VŠ

• pro Velmi silně věřící (very religious): 17 % * 0,356 + 34 %* 0,508 +38 % * 0,137 =

29 %

• pro Částečně věřící: 22 % * 0,356 + 32 %* 0,508 +48 % * 0,137 =

31 %

• pro Velmi slabě věřící a nevěřící: 32 % * 0,356 + 47 %* 0,508 +62 % * 0,137 =

45 % Standardizované – čisté podíly porovnáme s původními hrubými

27

Militantnost podle religiozity:

Hrubá míra, čistá standardizovaná a procentní rozsah mezi krajními kategoriemi nezávislého znaku REDUKCE vlivem kontrolní proměnné/ faktoru: (1 – (Čistý rozdíl / Hrubý rozdíl))*100 Pozor platí pouze pro ordinální znaky → porovnáváme krajní kategorie.

Hrubé (nevážené) četnosti Hrubý (nevážený) % rozdíl mezi krajními kategoriemi Vážený % rozdíl mezi krajními kategoriemi Rozsah procent mezi krajními kategoriemi

nezávislé proměnné pro vztah bez a s kontrolou faktoru (zde vzdělání):

21 % hrubý rozdíl

oproti

16 % čistému rozdílu

(s kontrolou vzdělání) odpovídá

24 % redukci díky vlivu

vzdělání (=(1-(16/21))*100). Lze tak říci, že vzdělání „vysvětluje“ cca ¼ vztahu mezi religiozitou a militantností. Ale pozor: Předpokladem této interpretace je

ordinalita kategorií nezávislé proměnné

religiozita) a

monotónnost vztahu závislé a nezávislé

proměnné.

(zde [Treiman 2009: 29-31] 28

Redukce efektu

vysvětlující proměnné po kontrole vlivu kontrolní proměnné (faktoru)

REDUKCE vlivem kontrolní proměnné (faktoru)

→ rozdíl hrubý (původní bez kontroly) a

čistý

(po převážení kontrolním faktorem)

pro krajní kategorie nezávislé proměnné (min a max):

(1 – (Čistý rozdíl / Hrubý rozdíl))*100

→ K jaké redukci vztahu mezi závislou a nezávislou proměnnou dochází díky vlivu kontrolní proměnné.

Pozor platí pouze pro ordinální znaky , tj. tam kde porovnáváme krajní kategorie a pro monotónní vztah

(tj. plynulá proměna hodnot závislé proměnné mezi kategoriemi nezávislé – ordinální proměnné).

29

Přímá standardizace pro kontrolu vlivu

dvou proměnných

• Kontrolovat můžeme souběžně i vliv dvou proměnných, např. vzájemný vztah vzdělání a kategorií věku • Váhy budou kombinací vzájemného podílu kontrolních proměnných (zde např. vzdělání a věk). Získáme je jejich vzájemnou kontingenční tabulkou, kde budou procenta z celku (% of total) 30

Příklad 3.

Vzdělanostní

aspirace žáků

8. 9.tříd ZŠ mezi dvěma

typy škol

, při

kontrole vlivu vzdělání rodičů

[Šafr, Kalný 2012] Data z výzkumu žáků 8. a 9 tříd ve školním roce 2010/11 z odlišného prostředí čtyř základních škol, z nichž dvě se nacházely v lokalitách „zasažených sociálním vyloučením“ a dvě v residenčních oblastech s „majoritní populací“.

Vzdělanostní aspirace žáku

podle typu ZŠ

a vzdělání rodičů Celkem Aspirace žáka max.

min.

Vyučení

SŠ-maturita

Typ školy (lokalita)

Sociálně vyloučená lokalita

42%

Majoritní populace

32%

58%

100%

68%

100% Celkem 36% 64% 100% Cramérovo V = 0,101

Na SŠ s maturitou aspiruje na školách v sociálně vyloučených lokalitách méně dětí naž na školách v lokalitách s majoritní populací.

→ bivariátní vztah, který nás zajímá Celkem Aspirace žáka max.

min.

Vyučení

SŠ-maturita

Vzdělání rodičů (vyšší)

ZŠ/VYUČ SŠ/VŠ

55%

45%

100% 30%

70%

100% Celkem Vliv vzdělání rodiny (CV= 0,21) je větší než v případě typu školy (CV=0,10).

35% 65% 100% Cramérovo V = 0,208

Na aspirace má také vliv vzdělání rodičů: ve vzdělanějších rodinách jsou aspirace dětí vyšší.

→ potencionálně intervenující faktor, jehož vliv chceme ověřit a kontrolovat 32

Zároveň ale …

Vzdělání rodičů max. Vyučení

min. SŠ-maturita

Celkem Cramérovo V = 0,148 Typ školy (lokalita)

Sociálně vyloučená lokalita

25%

75%

100%

Majoritní populace

14%

86%

100% Celkem 19% 81% 100% Na školy v sociálně vyloučených lokalitách chodí více dětí s nižším vzděláním rodičů.

Nejsou odlišné vzdělanostní aspirace na rozdílných typech škol způsobeny právě (pouze) odlišným vzdělanostním zázemím rodin žáků?

(a tudíž nikoliv sociálním/institucionálním prostředím školy) Pokud ano, do jaké míry?

(na základě poznatků teorie zde předpokládáme, že formativní vliv na aspirace má primárně rodina) → (1.) Třídění 3. stupně (kontingenční tabulka a asociační koeficienty) a (2.)

standardizace podle vzdělání rodiny

podílu aspirací (na min. SŠ-maturita) mezi dvěma typy škol (max. Vyučení / min. SŠ) 33

1. Třídění 3. stupně: Vzdělanostní aspirace žáků podle typu školy a vzdělání rodičů:

uspořádání tabulek Výstup z SPSS pro kontingenční tabulku 3. stupně vypadá takto (panely dle vzdělání rodičů jsou pod sebou → lze přehodit pomocí Pivoting Trays): Výstup z SPSS upravíme

(pomocí Pivoting Trays nebo v Excelu)

pro klasický formát, kde kontrolní proměnná (vzdělání rodičů) je v panelech

Aspirace žáka SŠ/VŠ ZŠ/VY Vzdělání rodičů ZŠ/VYUČ Soc.vylouč. Majoritní SŠ/VŠ Soc.vylouč. Majoritní lokalita populace lokalita populace

45%

55%

44%

56%

63%

37%

75%

25% Vzdělání rodičů je zde kontrolní proměnná, proto je v panelech tabulky Ideální je

úsporný 3-dimenzionální formát tabulky: (s ním dále pracujeme při vážení)

vynechána % pro aspirace na ZŠ/VY (tvoří dopočet do 100 %)

Otočeno o 90 st.

Podíl žáků aspirujících min. na maturitu podle typu školy a vzdělání rodičů

Typ školy Soc.

vylouč. lokalita Majoritní populace Vzdělání rodičů ZŠ/VY SŠ/VŠ 45% 63% 44% 75% Alternativně – úsporná 3-dimenzionální tabulka otočena o 90 st.

Vzdělání rodičů ZŠ/VYUČ SŠ/VŠ Typ školy (lokalita)

Sociálně vyloučená lokalita Majoritní populace

45% 63% 44% 75% pro rodiče se ZŠ/VY: Cramérovo V =

0,01

pro rodiče se SŠ/VŠ: Cramérovo V =

0,133

Celkem 45% 70%

Vzdělanostní aspirace žáků podle typu školy a vzdělání rodičů:

interpretace

Aspirace žáka SŠ/VŠ ZŠ/VY Cramérovo V ZŠ/VYUČ Soc.vylouč. Vzdělání rodičů Majoritní SŠ/VŠ Soc.vylouč. Majoritní lokalita populace lokalita populace

45%

55%

0,010 44%

56%

63%

37%

0,133 75%

25% • Rozdíl mezi vzděláním rodičů (s/bez maturity) → mezi panely tabulky: – ve školách ze sociálně vyloučených lokalit: 45 – 63 =

18 %

bodů – ve školách z lokalit s majoritní populací : 44 – 75 =

31 %

bodů •

Rozdíly mezi typy škol jsou v kategoriích vzdělání rodičů odlišné

(CrV=0,13).

: pro nižší vzdělání rodičů (ZŠ/VY) nezáleží na typu školy (koeficient asociace CrV=0), zatímco u vyššího vzdělání rodičů (SŠ/VŠ) je ve školách z lokalit s majoritní populací vyšší podíl zájmu o maturitní obory (SŠ/VŠ) • → –

interakční efekt vzdělání rodičů a typu školy

Možné sociologické interpretace: (byť relativně slabý): nejvyšší aspirace mají žáci z výše vzdělaných rodin a v prostředí škol z lokalit s majoritní populací.

Podmínkou nutnou k osvojení si aspirací je vzdělání rodičů, načež záleží na škole, kam děti rodiče pošlou (respektive v případě škol z lokalit se sociálně znevýhodněnými žáky se „nesnaží, aby tam jejich děti nezůstaly“).

– – Prostředí školy v lokalitách s majoritní populací se uplatňuje pouze v případě žáků z rodin s vyšším vzděláním: kvalita výuky a aspirace spolužáků (celková hladina ve třídě/škole) pravděpodobně zvyšuje jejich aspirace na maturitu.

35 Pozor ovšem,

neznáme mnoho okolností – podmínek, za kterých mechanismus působí

(zda žáci přímo bydlí / nebydlí v sociálně znevýhodněné lokalitě, zda rodiče školu vybírali nebo ne, jaká je forma výuky na školách atd.).

Standardizace –

převážení

aspirací na SŠ/VŠ v typech škol

podle vzdělání rodičů

Váhy: máme-li mikro-data získáme je z třídění 1. stupně

(Frequencies v SPSS), jinak je musíme spočítat z absolutních četností (viz předchozí příklad 2.) Vzdělání rodičů ZŠ/VYUČ SŠ/VŠ celkem Validní %

18,7 81,3

100%

VÁHY 0,187 0,813

1

Tabulka 3. stupně % aspirujících na maturitu podle typu školy a vzdělání rodičů s hrubým (neváženým) vztahem:

Typ školy Soc.

vylouč. lokalita Majoritní populace Vzdělání rodičů ZŠ/VY SŠ/VŠ 45% 44% 63% 75%

Standardizace (převážení dle vzdělání rodičů):

Typ školy Vzdělání rodičů ZŠ/VY SŠ/VŠ Soc.

vylouč. lokalita 0,187 * 45% + 0,813 * 63% = Majoritní populace 0,187 * 44% + 0,813 * 75% = rozdíl mezi typem škol: 9,82 % oproti 9,75 %, odpovídá

0,1 % rozdílu díky vlivu vzdělání rodičů

(=(1-(9,82/9,75)).

Lze tedy říci, že vzdělání rodiny k vysvětlení vztahu mezi typem školy a vzdělanostními aspiracemi

nic nepřidává

.

Zřejmě tedy prostředí školy působí nezávisle na rodině, tj. „navíc“nad vliv rodiny. Interpretace je to ale značně omezená, neznáme mnoho dalších podmínek.

Celkem

Vážený podíl 59,5% 69,3% 9,82%

Aspirace žáka max. Vyučení

min. SŠ-maturita Hrubý podíl

58,4% 68,2%

9,75%

Typ školy (lokalita)

Sociálně vyloučená lokalita Majoritní populace

42%

58%

100% 32%

68%

100% 36 Celkem 36% 64% 100%

Poznámky k příkladům 1, 2, 3

• Př. 1 – • Př. 2 – • Př. 1 –

Sebeúcta dětí Aspirace dětí

: závislý znak Sebeúcta je ordinální (má 3 kategorie), nezávislý Náboženská orientace rodiny je nominální a kontrolní faktor Vzdělání otce je ordinální (6 kategorií). Tabulka je uvedena v pravděpodobnostech (nikoliv %). Protože nezávislý znak je nominální, porovnáván je hrubý-čistý % rozsah vždy navzájem pro dvě kategorie (nábož. orient. rodiny: např. Katolíci-Židé, Katolíci-Protestanti …)

Militantnost afroameričanů

podílem zde není (-0,1%).

: závislý znak Militantnost je dichotomický (má 2 kategorie), nezávislý Náboženskost je ordinální a kontrolní faktor Vzdělání je ordinální (3 kategorie). Proto porovnání hrubého-čistého % rozsahu je provedeno pro krajní kategorie (Velmi silně věřící - Velmi slabě věřící/nevěřící).

Váhy pro vzdělání zde byly spočítány přímo z tabulky.

: závislý znak Vzdělanostní aspirace je dichotomický (má 2 kategorie), nezávislý Typ školy je nominální (2 kategorie) a kontrolní faktor Vzdělání rodiny je nominální (2 kategorie).K dispozici byla mikro-data (v SPSS), proto jsme váhu určili snadno pomocí třídění 1. stupně pro vzdělání rodičů. Porovnání % rozsahu ukazuje, že rozdíl mezi hrubým a čistým 37

Jak na to s tabulkami

z SPSS

:

úprava tabulek

třídění 3. stupně

A ještě jeden příklad (č. 4):

Chození do kina

podle

vzdělání

při

kontrole vlivu věku

→ a) kategoriální verze znaků

přímá standardizace v kont. tabulce

b) „číselná“ (ordinální/kardinální) verze znaků →

parciální korelace

Krok 1. bivariátní vztah: Chození do kina podle vzdělání

vzd3 Vzdělání (3k.)

ZŠ+VY SŠ VŠ

Total Kino Total 0 1

min.1x za měsíc

93,5%

6,5%

100,0% 85,2%

14,8%

100,0% 86,2%

13,8%

100,0% 89,7% 10,3% 100,0%

ordinální znak kategorie nezávislé

má smysl sledovat

pro krajní

proměnné (zde vzdělání)

hrubý % rozdíl

.

Zde ovšem

pozor, vztah není monotónní(!)

: SŠ a VŠ chodí stejně často.

U

nominálního

znaku porovnáváme jednotlivé kategorie mezi sebou (viz příklad se Sebeúctou dítěte podle náboženské orientace rodiny: protestantská/ židovská/katolická).

Hrubý rozdíl

v krajních kategoriích vzdělání: 6,5% – 13,8% =

7,3

% Poznámka: Původní ordinální proměnná Chození do kina

q1_b

min.1x za měsíc a 0 = méně často. byla nejprve dichotomizována na: 1= chodí 39 Zdroj: data ISSP 2007, ČR

2. krok. třídění 3.stupně

→ přidáme do panelu

kontrolní faktor (věk) V SPSS pro třídění 3.stupně

• dostaneme tuto tabulku: panely s kategoriemi kontrolní proměnné (zde věk) jsou pod sebou.

CROSSTABS Kino BY vzd3 BY vek3 /CEL COL.

Pro rychlý výpočet nám to stačí – označíme si pouze ty buňky, které použijeme pro vážení, pro standardní presentaci tabulky v textu ji ale musíme upravit.

40

Úprava tabulky tř. 3. st. v SPSS

• Chceme panely (s kontrolní proměnnou) vedle sebe. →

Pivoting trays

tak jak je chceme: původní stav (rozkliknout tabulku) → a poměrně dost složitě myší přetáhneme proměnné, • 1. vzdělaní v COLUMN o řádek dolů, • 2. pak nad něj přetáhneme věk naše úprava 41

Příprava tabulky třídění 3. st. z SPSS pro standardizaci

• Výsledkem je tato tabulka, kde je „panelizován„ kontrolní faktor (věk) – uvnitř něj sou kategorie nezávislé proměnné (vzdělání) • Tuto tabulku je vhodné ještě zjednodušit – promazat „negativní“ kategorie, tvoří dopočet do 100 % (zde 0 Nechodí do kina) A pak případně pootočit o 90 st.

42

A nebo jiné zadání pořadí proměnných v CROSSTABS rovnou pro standardizaci

• Musíme ale ještě

promazat „negativní“ kategorie

(0 – nechodí do kina) a nebo stačí příslušný řádek si označit a můžeme začít vážit 43

Rychle upravená předchozí tabulka z SPSS a samotné vážení-standardizace

• v Excelu upravená (promazaná) tabulka, ze které již můžeme snadno vážit-standardizovat podle věku: vek3

Váhy :

tř. 1.stupně pro věk – kontrolní faktor (% dělíme 100 → pravděpodobnost)

FREQ

vek3.

Vzdělání

ZŠ+VY SŠ VŠ

kino 1 kino 1 kino 1

19-29 30-49 50+ 33% 36% 31% 5% 2% 11% 5% 13% 9%

Celkem kino 1 34% 8% 3%

Vážíme-standardizujeme podle věku

. Váhy věku zde máme přímo spočítané % věku: 10-29let = 0,18 30-49 let = 0,30 50+let = 0,52 pro ZŠ+VY:

33

* 0,18 +

5

* 0,30 +

2

* 0,52 =

8,2

pro SŠ:

36

* 0,18 +

11

* 0,30 +

5

* 0,52 =

13,8

pro VŠ:

31

* 0,18 +

13

* 0,30 +

9

* 0,52 =

13,8

44 Čistý rozdíl (vážený podle věku) mezi krajními kategoriemi vzdělání: 8,2 – 13,8 =

5,6%

V Excelu …(výstup z SPSS)

kino * vzd3 Vzdělání (3k.) Crosstabulation % within vzd3 Vzdělání (3k.) vzd3 Vzdělání (3k.) 1 ZŠ+VY 2 SŠ 3 VŠ Total kino 0 93,50% 85,20% 86,20% 89,70% Total 1

6,50%

100,00%

14,80%

100,00%

13,80%

100,00% 10,30% 100,00% % within vzd3 Vzdělání (3k.) vek3 standardizace 1 19-29 pro věk

0,179

kino 2 30-49

0,3

Total kino 3 50+ Total kino

0,52

Total 0 1 0 1 0 1 kino * vzd3 Vzdělání (3k.) * vek3 Crosstabulation 1 ZŠ+VY 67,50%

32,50%

100,00% 95,20%

4,80%

100,00% 98,20%

1,80%

100,00% 1 ZŠ+VY 2 SŠ 3 VŠ

rozd 1a3 hrubý 6,50% 14,80% 13,80%

-7,30% rozdil

čistý 8,19% 13,84% -5,65% -1,65%

vzd3 Vzdělání (3k.) 2 SŠ 3 VŠ 63,90%

36,10%

69,20%

30,80%

100,00% 89,50%

10,50%

100,00% 94,90%

5,10%

100,00% 100,00% 87,50%

12,50%

100,00% 91,20%

8,80%

100,00% Total 65,60% 34,40% 100,00% 92,00% 8,00% 100,00% 96,80% 3,20% 100,00% 45

Velikost

redukce ve vztahu

(kino x vzdělání)

způsobená kontrolním faktorem

(věk)

• • Rozdíl mezi krajními kategoriemi vzdělání ZŠ+VY a VŠ: –

Čistý

(

vážený

podle věku) =

5,6 %

Hrubý

(

původní

bivariátní) =

7,3 %

– Rozdíl Hrubý – Čistý = (7,3 – 5,6) = 1,7 %

Redukce díky vlivu věku

(→ jaký podíl ve vztahu chození do kina a vzdělání jde na vrub věku): = (1 – (5,6 /7,3) = 0,233 =

23 %

• Lze tak říci, že věk „vysvětluje“ cca ¼ vztahu mezi chozením do kina a vzděláním. • Ale pozor: Předpokladem této interpretace je

monotónnost vztahu závislé a nezávislé

proměnné a tomu tak zde nebylo: prakticky totiž

chozením do kina u SŠ (14,8 %) a VŠ (13,8 %)

Výsledek tak zde platí spíše pro dichotomii vzdělání s/ bez maturity (ZŠ+VY vs. SŠ+VŠ).

není rozdíl mezi

.

46

Řešení b) pro

kardinální znaky kino

vzdělání

parciální korelace

při kontrole vlivu

věku

(původní

kardinální/ordinální verze

proměnných)

Původní

(bivariátní) korelace

Parciální

(+ kontrola věku) korelace

Rozložení závislé proměnné

je výrazně nesymetrické a odchyluje se od normálního rozložení.

Použití korelací je tak zde problematické

(a už vůbec nesprávné je použití Pearsonova R).

Původní korelace mezi chozením do kina a věkem R=0,24 zavedením kontroly vlivu věku klesá na R=0,18.

Po kontrole vlivu věku došlo k poklesu Pearsonova korelačního koeficientu R o

25,2 %

=(1-0,178/0,238).

A správně bychom měli ještě ověřit, zda je tento pokles statisticky významný (platný i v celé populaci), viz dále Z-test (nebo výpočet intervalů spolehlivosti).

PARTIAL CORR

q1_b

WITH

vzd4

BY

vek /STATISTICS CORR .

47 Zdroj: Data ISSP 2007 (Poznámka: proměnná q1_b má maximum 5=nikdy, proto je zde

vypočtená korelace záporná

.)

Parciální korelace

• Při výpočtu parciální korelace můžeme kontrolovat i vliv více proměnných souběžně.

• Krom běžného statistického testu „nenulovosti“ parciálního korelačního koeficientu v populaci (H0: R=0), viz předchozí výstup z SPSS, lze také testovat, zda skutečně k poklesu (nebo případně vzestupu) u parciální korelace došlo (Ra Rb), tj. platí, že rozdíl mezi Ra (původní bivariátní korelace) a Rb platí i v celé populaci (výpočet (parciální s kontrolou 3. proměnné) pomocí z-testu viz dále).

• Více o korelacích najdete v prezentaci (včetně výpočtu parciální korelace dosazením původních bivariátních korelací do vzorce, a to i pro neparametrické-pořadové korelace)

Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

http://metodykv.wz.cz/AKD2_korelace.ppt

• Úlohu lze také řešit pomocí vícerozměrné regresní analýzy, kde jsou možnosti mnohem bohatší. Viz presentaci

Regresní analýza, analýza rozptylu (úvod)

http://metodykv.wz.cz/AKD2_regrese.ppt

48

Parciální korelace:

z test statistické významnosti změny

korelačního koeficientu

po zavedení kontrolní proměnné

• Pokud chceme zobecnit výsledky parciální korelace, měli bychom ještě provést test, zda se parciální korelační koeficient (tj. s kontrolou vzdělání) statisticky významně lišší od původního bivariátního (zero-order) (pouze vztah kino-vzdělání). K tomu lze využít např. web-kalkulátor

Significance of the Difference Between Two Correlation Coefficients

http://

vassarstats.net/rdiff.html

(alternativně lze spočítat intervaly spolehlivosti pro Ra Rb) • H0: Ra = Rb → výsledek se zavedením kontroly pro třetí proměnnou nezměnil

Původní

(bivariátní)

Parciální

(+ kontrola věku) Vzhledem k tomu, že předpokládáme pokles korelace, testujeme

jednostrannou

alternativu hypotézy (one-tailed). Zde je tedy nulová hypotéza H0:

Ra > Rb

.

Hodnota

z

je

menší než 1,96

, tj. dosažená hladina významnosti

p

je

menší než 0,05

nulovou hypotézu nemůžeme zamítnout – platí tedy, že na zvolené hl. α 5% nelze tvrdit, že by došlo k poklesu korelace mezi chozením do kina a vzděláním, zavedením kontroly pro věk

. Nicméně zde je výsledek poměrně hraniční a z věcného hlediska pokles korelace lze smysluplně interpretovat.

Literatura

• • Rosenberg, M. 1962. „Test Factor Standardization as a Method of Interpretation .“

Social Forces

Rights Militancy Among Negroes?

“ 41(1): 53-61.

• Marx, G. T. 1967. „Religion: Opiate or Inspiration of Civil

American Sociological Review

vyloučením.“ in 32 (1): 64-72.

• Šafr, J., B. Kalný. 2012 (v recenzi). „Vzdělanostně– profesní aspirace žáků z rodin ohrožených sociálním

Sborník z 4. mezinárodní konference Dilemata sociální pedagogiky v postmoderním světě

, Institut mezioborových studií Brno, 19.–20. dubna 2012.

Treiman, Donald J. 2009. Quantitative data analysis: doing social research to test ideas. San Francisco: Jossey-Bass

.

50