Transcript Elaborace, standardizace/vážení
UK FHS Historická sociologie (LS 2013+)
Analýza kvantitativních dat II.
Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru
Jiří Šafr
jiri.safr(zavináč)seznam.cz
poslední
aktualizace 13.1. 2015
třetího stupně
OBSAH
• Připomenutí principu kontingenčních tabulek s tříděním • Princip přímé standardizace v kontingenční tabulce (převážení podle kontrolního faktoru) • Příklad 1: Sebeúcta dítěte podle náboženské orientace rodiny při kontrole vzdělání otce • Příklad 2: Militantnost v boji za lidská práva podle náboženskosti při kontrole vzdělání – Výpočet redukce vlivem kontrolní proměnné/ faktoru • Příklad 3: Vzdělanostní aspirace podle typu školy/čtvrti při kontrole vlivu vzdělání rodičů • Příklad 4 s ukázkou v SPSS: Chození do kina podle vzdělání s kontrolou vlivu věku, ve verzi: a) standardizace v konting. tab. (pro kategoriální znaky) b)
parciální korelace
(pro ordinální/kardinální znaky) 2
Nejprve připomenutí principu:
Tabulky třídění třetího stupně
Podrobněji viz http://metodykv.wz.cz/AKD1_kontg_tab3st_uvod.ppt
Testování/ kontrola vlivu dalšího faktoru
• Vytvořením
samostatných tabulek podle kategorií třetí proměnné
konstantní hodnotě.
je testovaný faktor (třetí proměnná) udržován na → souvislost mezi původními proměnnými je
očištěna od zkreslujícího vlivu
této další proměnné.
4
Testování vlivu dalšího faktoru
• Porovnáme intenzitu souvislosti v původní tabulce se souvislosti zjištěnou v nových tabulkách s kontrolou 3 faktoru . • Když v nových tabulkách
souvislost
původními daty
zmizí
/ je podstatně
oslabena
→
souvislost v původní tabulce je funkcí třetího faktoru
mezi 5
Třídění 3 st.: kontrola vlivu 3 proměnné: interpretace a uspořádání tabulky
Souvisí účast ve volbách s věkem,
i při kontrole vlivu vzdělání
?
Volil
Nevolil Základní vzdělání Střední vzdělání Vysokoškolské vzdělání < 39 let 40-59 > 60 let < 39 let 40-59 > 60 let < 39 let 40-59 > 60 let
18%
82
24%
76
32%
68
36%
64
34%
66
49%
51
40%
60
50%
50
70%
30 Celkem 100 % 100 % 100 % 100 % 100 % 100 % 100 % 100 % 100 % N (109) (202) (45) (97) (271) (139) (27) (62) (50) Rozdíly mezi krajními kategoriemi věku: Ptáme se:
14 % 13 % 30 %
Zatímco v případě ZŠ a SŠ jsou rozdíly mezi nejmladšími a nejstaršími stejné, tak u VŠ je rozdíl větší. → Vzdělání tedy do vztahu mezi volební účastí a věkem částečně intervenuje.
1. Nacházíme rozdíly v X (věk) a Y (volil)
uvnitř kategorií kontrolní proměnné Z
(vzdělání)? Porovnáme s tabulkou třídění 2. st. Pro X a Y. 2. Jsou
rozdíly mezi krajními kategoriemi X
kontrolní proměnné Z (vzdělání)
stejné
?
(věk) v rámci kategorií 6
Dalším krokem pak může být
Přímá standardizace vztahu
podle třetí proměnné
Přímá standardizace v kontingenční tabulce
• Navazujeme na elaboraci – kontrolu vlivu • Standardizace je metoda původně používaná v demografii, kdy jde o kontrolu proměny nějaké struktury (kontrolovanou proměnnou je tak vlastně čas – skrze vliv proměny struktury např. z hlediska věku) • Princip viz přednášku
Standardizace intenzitních údajů
http://metodykv.wz.cz/Standardizace.ppt
• Tento princip jde aplikovat i na kontingenční tabulku (nebo tabulku průměrů v podskupinách) • Ukazujeme tzv. čistý vztah dvou proměnných při kontrole vlivu třetí proměnné 8
Přímá standardizace v kontingenční tabulce
• Princip: převážení dle kategorií třetí proměnné, čímž kontrolujeme její vliv → ukazujeme vztah dvou kategoriálních proměnných, jako kdyby hodnoty třetí byly v celé populaci stejné • Porovnáme původní s hypotetickou - převáženou tabulkou (v níž je vztah X a Y jako kdyby v kategoriích X-nezávislá měla stejné rozložení v kategoriích Z) • Jde o analogický postup k parciálním korelacím v případě tří kardinálních (ordinálních) znaků.
9
Příklad1
Sebeúcta dítěte podle náboženské orientace rodiny (s kontrolou vlivu Vzdělání otce )
Rosenberg, M. 1962. „
Test Factor Standardization as a Method of Interpretation
.“
Social Forces
41(1): 53-61.
Text je dostupný na http://metodykv.wz.cz/SF1962_Rosenberg_Test_Factor_Standardization.pdf
Výsledek: Původní (hrubý) a Standardizovaný (čistý) vztah
→ tabulku původního vztahu X a Y parcializujeme pro kategorie faktoru M (kontrolní proměnné) → Standardizujme (převážíme) políčka dle struktury faktoru M (zde vzdělání otce) → Porovnáme hrubou a čistou míru X a Y 11 Zdroj: [Rosenberg 1962]
N áboženskost a Sebeúcta, kontrola vzdělání otce:
Standardizace/vážení
Váhy
(vzdělání otce)
Váhy
(podíl vzdělanostních kategorií → třídění 1.st.)
spočítáme z absolutních četností
pro katolíky (Vys. sebeúcta):
0,1579 Standardizace → převážení dle vzdělání otce váha
*
0,681
=
0,1075 hodnota v daném poli
12 Zdroj: [Rosenberg 1962]
Pokračování tabulky
• Tabulka má 6 panelů pro vzdělání Zdroj: [Rosenberg 1962] 13
Váhy: podíl (pravděpodobnost) vzdělanostních kategorií otce
8th Grade or Less Some High School High School Graduate Some College College Graduate Post-Graduate Celkem 0,1579 0,2488 0,2891 0,1019 0,1312 0,0712
1,000
14
Přímá standardizace: Vážený čistý procentní rozdíl
• Váhy získáme z tabulky → z absolutních četností (viz další příklad) Máme-li původní mikro-data, můžeme je rychle spočítat pomocí třídění 1. stupně.
• Ukazujeme
Vážený čistý procentní rozdíl a porovnáme ho s hrubým rozdílem
(původní vztah bez kontroly) • Redukce v pozorovaném vztahu dvou proměnných, způsobené zavedením 3 proměnné • Spočítáme váženou sumu % závislé proměnné (zde sebeúcty) napříč kategoriemi kontrolního faktoru (vzdělání otce) 15
Postup standardizace podle testového faktoru
•
Váhy
: spočítáme podíly v každé testové kategorii (zde vzdělání otce), = marginální součet / celkovým počtem případů (pro všechny pole platí součet 1 resp. 100%) Pro první pole (8th Grade): 360 + 39 + 193 = 592 tj. 15,79% resp. 0,1579 to je naše váha pro kat. vzdělání I.
• Násobíme každou kategorii v políčku odpovídajícím podílem testového faktoru, tj. váhou Pro první pole High Self-esteem: 0,1579 0,718 a 0,1579 * 0,648 a 0,1579 * 0,681 a * 0,258 atd.
0,1579 * Podobně pro všechna pole každého panelu tabulky.
• Parciální standardizované údaje sepíšeme do nové tabulky: Pro Jews (vysoká sebeúcta): 0,1134 + 0,157 + 2154 + 0,083 + 0,1153 + 0,589 =
75,8
atd. (viz další snímek) 16
+ pro další tři panely tabulky
17
V ážený podíl: pro High Self-Esteem
Vážený podíl
získáme jako součet převážených hodnot pro vzdělanostní kategorie v kategoriích náboženské orientace rodin:
pro High Self-Esteem
8th Grade or Less Some High School High School Graduate Some College College Graduate Post-Graduate celkem
Catholic
0,1075 0,1704 0,2073 0,0722 0,0886 0,0519
0,698 Jewish
0,1134 0,1757 0,2154 0,0803 0,1153 0,0519
0,752 Protestant
0,1023 0,1791 0,1659 0,0712 0,0926 0,0525
0,664
18
Příklad1: Sebeúcta
Porovnání hrubého a čistého % rozdílu mezi kategoriemi nezávislé proměnné
•
Hrubý
rozdíl (nevážený) mezi Katolíky a Židy je v nejvyšší úrovni sebeúcty
7,8%
(69,7 - 77,5) •
Čistý
(vážený pro vzdělání) je
6 %
(69,8 - 75,8) • To zde odpovídá 23 % redukci po kontrole vzdělání (1-(6/7,8)) 19
Příklad 2.
Religiozita a militantnost v boji za občanská práva
mezi afroameričany v USA (60. léta)
se standardizací podle vzdělání
[Treiman 2009: 30-33] Kapitola 2.
More on the tables
Text je dostupný na
http://metodykv.wz.cz/CrossTabs_Treiman2009_vybK2.pdf
Úloha a tabulky jsou z původního článku Gary T. Marxe [1967]. Religion: Opiate or Inspiration of Civil Rights Militancy Among Negroes?
Religiozita a militantnost - radikalita v boji za lidská práva (operacionalizace)
• •
Religiozita
měřena pomocí kombinace 3 otázek (frekvence návštěv bohoslužeb, ortodoxnosti přesvědčení, význam víry) sloučené do proměnné se 4 hodnotami.
Militantnost v otázce boje za lidská práva
měřena pomocí 7 otázek na protesty za občanská práva (názory, ochota účastnit se atd.) → index konvenční militantnosti, který byl posléze rekódován na 2 kategorie (militantní/nemilitantní) 21
Militantnost podle Religiozity
→ bivariátní vztah, který nás zajímá
Po s loučení kategorií „Not Very Religious“ a „Not at All Religious“
Very Religious Somew. Relig Not very Relig. + Not at All Relig.
Militant Nonmilitant Total N 27 73 100 % (230) 30 70 100 % (532)
48
52 100 % (231) Total 22 (993)
Militantnost podle vzdělání (třídění 2.stupně)
23
Militantnost podle religiozity a vzdělání:
základní tabulka třídění 3. stupně
s panely pro kontrolní proměnnou (zde vzdělání)
V
= Very religious,
S
= Somewhat religious,
N
= Not religious 24
Zjednodušená prezentace předchozí tabulky:
pouze % Militantních + otočeno o 90 st.
→ viz předchozí snímek Závislý znak je dichotomický, proto, u % Militantních dopočet do 100 = % nemilitantních.
→ úsporná forma prezentace v tabulce 25
Z ní získáme – spočteme váhy:
(protože nemáme původní mikro-data a nemůžeme počítat rovnou jen frekvenci vzdělání) Pokud by absolutní četnosti nebyly uvedeny u každé buňky, spočítáme si je nejprve na základě % z celkového N 1. Celkový počet případů = (108 + 96 + … + 49) =993 pro ZŠ (Grammar school) je počet (108 + 201 + 44) = 353 atd.
2. Určíme
váhy
(podíly ve vzdělanostních kategoriích) : – pro ZŠ (Grammar school): 353 / 993 =
0,356
– pro SŠ (High school): 504 / 993 =
0,508
– pro VŠ (College): 136 / 993 =
0,137
Součet pro váhy je 1 (po zaokrouhlení) .
26
A vážíme – standardizujeme:
V principu „rušíme“ kontrolní faktor → všichni jsou jako kdyby stejně vzdělaní Váhy (podíly vzdělání): ZŠ (Grammar School) 0,356 SŠ (High School) 0,508 VŠ (College) 0,137
Váhy: ZŠ SŠ VŠ
• pro Velmi silně věřící (very religious): 17 % * 0,356 + 34 %* 0,508 +38 % * 0,137 =
29 %
• pro Částečně věřící: 22 % * 0,356 + 32 %* 0,508 +48 % * 0,137 =
31 %
• pro Velmi slabě věřící a nevěřící: 32 % * 0,356 + 47 %* 0,508 +62 % * 0,137 =
45 % Standardizované – čisté podíly porovnáme s původními hrubými
27
Militantnost podle religiozity:
Hrubá míra, čistá standardizovaná a procentní rozsah mezi krajními kategoriemi nezávislého znaku REDUKCE vlivem kontrolní proměnné/ faktoru: (1 – (Čistý rozdíl / Hrubý rozdíl))*100 Pozor platí pouze pro ordinální znaky → porovnáváme krajní kategorie.
Hrubé (nevážené) četnosti Hrubý (nevážený) % rozdíl mezi krajními kategoriemi Vážený % rozdíl mezi krajními kategoriemi Rozsah procent mezi krajními kategoriemi
nezávislé proměnné pro vztah bez a s kontrolou faktoru (zde vzdělání):
21 % hrubý rozdíl
oproti
16 % čistému rozdílu
(s kontrolou vzdělání) odpovídá
24 % redukci díky vlivu
vzdělání (=(1-(16/21))*100). Lze tak říci, že vzdělání „vysvětluje“ cca ¼ vztahu mezi religiozitou a militantností. Ale pozor: Předpokladem této interpretace je
ordinalita kategorií nezávislé proměnné
religiozita) a
monotónnost vztahu závislé a nezávislé
proměnné.
(zde [Treiman 2009: 29-31] 28
Redukce efektu
vysvětlující proměnné po kontrole vlivu kontrolní proměnné (faktoru)
REDUKCE vlivem kontrolní proměnné (faktoru)
→ rozdíl hrubý (původní bez kontroly) a
čistý
(po převážení kontrolním faktorem)
pro krajní kategorie nezávislé proměnné (min a max):
•
(1 – (Čistý rozdíl / Hrubý rozdíl))*100
→ K jaké redukci vztahu mezi závislou a nezávislou proměnnou dochází díky vlivu kontrolní proměnné.
Pozor platí pouze pro ordinální znaky , tj. tam kde porovnáváme krajní kategorie a pro monotónní vztah
(tj. plynulá proměna hodnot závislé proměnné mezi kategoriemi nezávislé – ordinální proměnné).
29
Přímá standardizace pro kontrolu vlivu
dvou proměnných
• Kontrolovat můžeme souběžně i vliv dvou proměnných, např. vzájemný vztah vzdělání a kategorií věku • Váhy budou kombinací vzájemného podílu kontrolních proměnných (zde např. vzdělání a věk). Získáme je jejich vzájemnou kontingenční tabulkou, kde budou procenta z celku (% of total) 30
Příklad 3.
Vzdělanostní
aspirace žáků
8. 9.tříd ZŠ mezi dvěma
typy škol
, při
kontrole vlivu vzdělání rodičů
[Šafr, Kalný 2012] Data z výzkumu žáků 8. a 9 tříd ve školním roce 2010/11 z odlišného prostředí čtyř základních škol, z nichž dvě se nacházely v lokalitách „zasažených sociálním vyloučením“ a dvě v residenčních oblastech s „majoritní populací“.
Vzdělanostní aspirace žáku
podle typu ZŠ
a vzdělání rodičů Celkem Aspirace žáka max.
min.
Vyučení
SŠ-maturita
Typ školy (lokalita)
Sociálně vyloučená lokalita
42%
Majoritní populace
32%
58%
100%
68%
100% Celkem 36% 64% 100% Cramérovo V = 0,101
Na SŠ s maturitou aspiruje na školách v sociálně vyloučených lokalitách méně dětí naž na školách v lokalitách s majoritní populací.
→ bivariátní vztah, který nás zajímá Celkem Aspirace žáka max.
min.
Vyučení
SŠ-maturita
Vzdělání rodičů (vyšší)
ZŠ/VYUČ SŠ/VŠ
55%
45%
100% 30%
70%
100% Celkem Vliv vzdělání rodiny (CV= 0,21) je větší než v případě typu školy (CV=0,10).
35% 65% 100% Cramérovo V = 0,208
Na aspirace má také vliv vzdělání rodičů: ve vzdělanějších rodinách jsou aspirace dětí vyšší.
→ potencionálně intervenující faktor, jehož vliv chceme ověřit a kontrolovat 32
Zároveň ale …
Vzdělání rodičů max. Vyučení
min. SŠ-maturita
Celkem Cramérovo V = 0,148 Typ školy (lokalita)
Sociálně vyloučená lokalita
25%
75%
100%
Majoritní populace
14%
86%
100% Celkem 19% 81% 100% Na školy v sociálně vyloučených lokalitách chodí více dětí s nižším vzděláním rodičů.
→
Nejsou odlišné vzdělanostní aspirace na rozdílných typech škol způsobeny právě (pouze) odlišným vzdělanostním zázemím rodin žáků?
(a tudíž nikoliv sociálním/institucionálním prostředím školy) Pokud ano, do jaké míry?
(na základě poznatků teorie zde předpokládáme, že formativní vliv na aspirace má primárně rodina) → (1.) Třídění 3. stupně (kontingenční tabulka a asociační koeficienty) a (2.)
standardizace podle vzdělání rodiny
podílu aspirací (na min. SŠ-maturita) mezi dvěma typy škol (max. Vyučení / min. SŠ) 33
1. Třídění 3. stupně: Vzdělanostní aspirace žáků podle typu školy a vzdělání rodičů:
uspořádání tabulek Výstup z SPSS pro kontingenční tabulku 3. stupně vypadá takto (panely dle vzdělání rodičů jsou pod sebou → lze přehodit pomocí Pivoting Trays): Výstup z SPSS upravíme
(pomocí Pivoting Trays nebo v Excelu)
pro klasický formát, kde kontrolní proměnná (vzdělání rodičů) je v panelech
Aspirace žáka SŠ/VŠ ZŠ/VY Vzdělání rodičů ZŠ/VYUČ Soc.vylouč. Majoritní SŠ/VŠ Soc.vylouč. Majoritní lokalita populace lokalita populace
45%
55%
44%
56%
63%
37%
75%
25% Vzdělání rodičů je zde kontrolní proměnná, proto je v panelech tabulky Ideální je
úsporný 3-dimenzionální formát tabulky: (s ním dále pracujeme při vážení)
•
vynechána % pro aspirace na ZŠ/VY (tvoří dopočet do 100 %)
•
Otočeno o 90 st.
Podíl žáků aspirujících min. na maturitu podle typu školy a vzdělání rodičů
Typ školy Soc.
vylouč. lokalita Majoritní populace Vzdělání rodičů ZŠ/VY SŠ/VŠ 45% 63% 44% 75% Alternativně – úsporná 3-dimenzionální tabulka otočena o 90 st.
Vzdělání rodičů ZŠ/VYUČ SŠ/VŠ Typ školy (lokalita)
Sociálně vyloučená lokalita Majoritní populace
45% 63% 44% 75% pro rodiče se ZŠ/VY: Cramérovo V =
0,01
pro rodiče se SŠ/VŠ: Cramérovo V =
0,133
Celkem 45% 70%
Vzdělanostní aspirace žáků podle typu školy a vzdělání rodičů:
interpretace
Aspirace žáka SŠ/VŠ ZŠ/VY Cramérovo V ZŠ/VYUČ Soc.vylouč. Vzdělání rodičů Majoritní SŠ/VŠ Soc.vylouč. Majoritní lokalita populace lokalita populace
45%
55%
0,010 44%
56%
63%
37%
0,133 75%
25% • Rozdíl mezi vzděláním rodičů (s/bez maturity) → mezi panely tabulky: – ve školách ze sociálně vyloučených lokalit: 45 – 63 =
18 %
bodů – ve školách z lokalit s majoritní populací : 44 – 75 =
31 %
bodů •
Rozdíly mezi typy škol jsou v kategoriích vzdělání rodičů odlišné
(CrV=0,13).
: pro nižší vzdělání rodičů (ZŠ/VY) nezáleží na typu školy (koeficient asociace CrV=0), zatímco u vyššího vzdělání rodičů (SŠ/VŠ) je ve školách z lokalit s majoritní populací vyšší podíl zájmu o maturitní obory (SŠ/VŠ) • → –
interakční efekt vzdělání rodičů a typu školy
Možné sociologické interpretace: (byť relativně slabý): nejvyšší aspirace mají žáci z výše vzdělaných rodin a v prostředí škol z lokalit s majoritní populací.
Podmínkou nutnou k osvojení si aspirací je vzdělání rodičů, načež záleží na škole, kam děti rodiče pošlou (respektive v případě škol z lokalit se sociálně znevýhodněnými žáky se „nesnaží, aby tam jejich děti nezůstaly“).
– – Prostředí školy v lokalitách s majoritní populací se uplatňuje pouze v případě žáků z rodin s vyšším vzděláním: kvalita výuky a aspirace spolužáků (celková hladina ve třídě/škole) pravděpodobně zvyšuje jejich aspirace na maturitu.
35 Pozor ovšem,
neznáme mnoho okolností – podmínek, za kterých mechanismus působí
(zda žáci přímo bydlí / nebydlí v sociálně znevýhodněné lokalitě, zda rodiče školu vybírali nebo ne, jaká je forma výuky na školách atd.).
Standardizace –
převážení
aspirací na SŠ/VŠ v typech škol
podle vzdělání rodičů
Váhy: máme-li mikro-data získáme je z třídění 1. stupně
(Frequencies v SPSS), jinak je musíme spočítat z absolutních četností (viz předchozí příklad 2.) Vzdělání rodičů ZŠ/VYUČ SŠ/VŠ celkem Validní %
18,7 81,3
100%
VÁHY 0,187 0,813
1
Tabulka 3. stupně % aspirujících na maturitu podle typu školy a vzdělání rodičů s hrubým (neváženým) vztahem:
Typ školy Soc.
vylouč. lokalita Majoritní populace Vzdělání rodičů ZŠ/VY SŠ/VŠ 45% 44% 63% 75%
Standardizace (převážení dle vzdělání rodičů):
Typ školy Vzdělání rodičů ZŠ/VY SŠ/VŠ Soc.
vylouč. lokalita 0,187 * 45% + 0,813 * 63% = Majoritní populace 0,187 * 44% + 0,813 * 75% = rozdíl mezi typem škol: 9,82 % oproti 9,75 %, odpovídá
0,1 % rozdílu díky vlivu vzdělání rodičů
(=(1-(9,82/9,75)).
Lze tedy říci, že vzdělání rodiny k vysvětlení vztahu mezi typem školy a vzdělanostními aspiracemi
nic nepřidává
.
Zřejmě tedy prostředí školy působí nezávisle na rodině, tj. „navíc“nad vliv rodiny. Interpretace je to ale značně omezená, neznáme mnoho dalších podmínek.
Celkem
Vážený podíl 59,5% 69,3% 9,82%
Aspirace žáka max. Vyučení
min. SŠ-maturita Hrubý podíl
58,4% 68,2%
9,75%
Typ školy (lokalita)
Sociálně vyloučená lokalita Majoritní populace
42%
58%
100% 32%
68%
100% 36 Celkem 36% 64% 100%
Poznámky k příkladům 1, 2, 3
• Př. 1 – • Př. 2 – • Př. 1 –
Sebeúcta dětí Aspirace dětí
: závislý znak Sebeúcta je ordinální (má 3 kategorie), nezávislý Náboženská orientace rodiny je nominální a kontrolní faktor Vzdělání otce je ordinální (6 kategorií). Tabulka je uvedena v pravděpodobnostech (nikoliv %). Protože nezávislý znak je nominální, porovnáván je hrubý-čistý % rozsah vždy navzájem pro dvě kategorie (nábož. orient. rodiny: např. Katolíci-Židé, Katolíci-Protestanti …)
Militantnost afroameričanů
podílem zde není (-0,1%).
: závislý znak Militantnost je dichotomický (má 2 kategorie), nezávislý Náboženskost je ordinální a kontrolní faktor Vzdělání je ordinální (3 kategorie). Proto porovnání hrubého-čistého % rozsahu je provedeno pro krajní kategorie (Velmi silně věřící - Velmi slabě věřící/nevěřící).
Váhy pro vzdělání zde byly spočítány přímo z tabulky.
: závislý znak Vzdělanostní aspirace je dichotomický (má 2 kategorie), nezávislý Typ školy je nominální (2 kategorie) a kontrolní faktor Vzdělání rodiny je nominální (2 kategorie).K dispozici byla mikro-data (v SPSS), proto jsme váhu určili snadno pomocí třídění 1. stupně pro vzdělání rodičů. Porovnání % rozsahu ukazuje, že rozdíl mezi hrubým a čistým 37
Jak na to s tabulkami
z SPSS
:
úprava tabulek
třídění 3. stupně
A ještě jeden příklad (č. 4):
Chození do kina
podle
vzdělání
při
kontrole vlivu věku
→ a) kategoriální verze znaků
přímá standardizace v kont. tabulce
b) „číselná“ (ordinální/kardinální) verze znaků →
parciální korelace
Krok 1. bivariátní vztah: Chození do kina podle vzdělání
vzd3 Vzdělání (3k.)
ZŠ+VY SŠ VŠ
Total Kino Total 0 1
min.1x za měsíc
93,5%
6,5%
100,0% 85,2%
14,8%
100,0% 86,2%
13,8%
100,0% 89,7% 10,3% 100,0%
ordinální znak kategorie nezávislé
má smysl sledovat
pro krajní
proměnné (zde vzdělání)
hrubý % rozdíl
.
Zde ovšem
pozor, vztah není monotónní(!)
: SŠ a VŠ chodí stejně často.
U
nominálního
znaku porovnáváme jednotlivé kategorie mezi sebou (viz příklad se Sebeúctou dítěte podle náboženské orientace rodiny: protestantská/ židovská/katolická).
Hrubý rozdíl
v krajních kategoriích vzdělání: 6,5% – 13,8% =
7,3
% Poznámka: Původní ordinální proměnná Chození do kina
q1_b
min.1x za měsíc a 0 = méně často. byla nejprve dichotomizována na: 1= chodí 39 Zdroj: data ISSP 2007, ČR
2. krok. třídění 3.stupně
→ přidáme do panelu
kontrolní faktor (věk) V SPSS pro třídění 3.stupně
• dostaneme tuto tabulku: panely s kategoriemi kontrolní proměnné (zde věk) jsou pod sebou.
CROSSTABS Kino BY vzd3 BY vek3 /CEL COL.
Pro rychlý výpočet nám to stačí – označíme si pouze ty buňky, které použijeme pro vážení, pro standardní presentaci tabulky v textu ji ale musíme upravit.
40
Úprava tabulky tř. 3. st. v SPSS
• Chceme panely (s kontrolní proměnnou) vedle sebe. →
Pivoting trays
tak jak je chceme: původní stav (rozkliknout tabulku) → a poměrně dost složitě myší přetáhneme proměnné, • 1. vzdělaní v COLUMN o řádek dolů, • 2. pak nad něj přetáhneme věk naše úprava 41
Příprava tabulky třídění 3. st. z SPSS pro standardizaci
• Výsledkem je tato tabulka, kde je „panelizován„ kontrolní faktor (věk) – uvnitř něj sou kategorie nezávislé proměnné (vzdělání) • Tuto tabulku je vhodné ještě zjednodušit – promazat „negativní“ kategorie, tvoří dopočet do 100 % (zde 0 Nechodí do kina) A pak případně pootočit o 90 st.
42
A nebo jiné zadání pořadí proměnných v CROSSTABS rovnou pro standardizaci
• Musíme ale ještě
promazat „negativní“ kategorie
(0 – nechodí do kina) a nebo stačí příslušný řádek si označit a můžeme začít vážit 43
Rychle upravená předchozí tabulka z SPSS a samotné vážení-standardizace
• v Excelu upravená (promazaná) tabulka, ze které již můžeme snadno vážit-standardizovat podle věku: vek3
Váhy :
tř. 1.stupně pro věk – kontrolní faktor (% dělíme 100 → pravděpodobnost)
FREQ
vek3.
Vzdělání
ZŠ+VY SŠ VŠ
kino 1 kino 1 kino 1
19-29 30-49 50+ 33% 36% 31% 5% 2% 11% 5% 13% 9%
Celkem kino 1 34% 8% 3%
Vážíme-standardizujeme podle věku
. Váhy věku zde máme přímo spočítané % věku: 10-29let = 0,18 30-49 let = 0,30 50+let = 0,52 pro ZŠ+VY:
33
* 0,18 +
5
* 0,30 +
2
* 0,52 =
8,2
pro SŠ:
36
* 0,18 +
11
* 0,30 +
5
* 0,52 =
13,8
pro VŠ:
31
* 0,18 +
13
* 0,30 +
9
* 0,52 =
13,8
44 Čistý rozdíl (vážený podle věku) mezi krajními kategoriemi vzdělání: 8,2 – 13,8 =
5,6%
V Excelu …(výstup z SPSS)
kino * vzd3 Vzdělání (3k.) Crosstabulation % within vzd3 Vzdělání (3k.) vzd3 Vzdělání (3k.) 1 ZŠ+VY 2 SŠ 3 VŠ Total kino 0 93,50% 85,20% 86,20% 89,70% Total 1
6,50%
100,00%
14,80%
100,00%
13,80%
100,00% 10,30% 100,00% % within vzd3 Vzdělání (3k.) vek3 standardizace 1 19-29 pro věk
0,179
kino 2 30-49
0,3
Total kino 3 50+ Total kino
0,52
Total 0 1 0 1 0 1 kino * vzd3 Vzdělání (3k.) * vek3 Crosstabulation 1 ZŠ+VY 67,50%
32,50%
100,00% 95,20%
4,80%
100,00% 98,20%
1,80%
100,00% 1 ZŠ+VY 2 SŠ 3 VŠ
rozd 1a3 hrubý 6,50% 14,80% 13,80%
-7,30% rozdil
čistý 8,19% 13,84% -5,65% -1,65%
vzd3 Vzdělání (3k.) 2 SŠ 3 VŠ 63,90%
36,10%
69,20%
30,80%
100,00% 89,50%
10,50%
100,00% 94,90%
5,10%
100,00% 100,00% 87,50%
12,50%
100,00% 91,20%
8,80%
100,00% Total 65,60% 34,40% 100,00% 92,00% 8,00% 100,00% 96,80% 3,20% 100,00% 45
Velikost
redukce ve vztahu
(kino x vzdělání)
způsobená kontrolním faktorem
(věk)
• • Rozdíl mezi krajními kategoriemi vzdělání ZŠ+VY a VŠ: –
Čistý
(
vážený
podle věku) =
5,6 %
–
Hrubý
(
původní
bivariátní) =
7,3 %
– Rozdíl Hrubý – Čistý = (7,3 – 5,6) = 1,7 %
Redukce díky vlivu věku
(→ jaký podíl ve vztahu chození do kina a vzdělání jde na vrub věku): = (1 – (5,6 /7,3) = 0,233 =
23 %
• Lze tak říci, že věk „vysvětluje“ cca ¼ vztahu mezi chozením do kina a vzděláním. • Ale pozor: Předpokladem této interpretace je
monotónnost vztahu závislé a nezávislé
proměnné a tomu tak zde nebylo: prakticky totiž
chozením do kina u SŠ (14,8 %) a VŠ (13,8 %)
Výsledek tak zde platí spíše pro dichotomii vzdělání s/ bez maturity (ZŠ+VY vs. SŠ+VŠ).
není rozdíl mezi
.
46
Řešení b) pro
kardinální znaky kino
←
vzdělání
→
parciální korelace
při kontrole vlivu
věku
(původní
kardinální/ordinální verze
proměnných)
Původní
(bivariátní) korelace
Parciální
(+ kontrola věku) korelace
Rozložení závislé proměnné
je výrazně nesymetrické a odchyluje se od normálního rozložení.
Použití korelací je tak zde problematické
(a už vůbec nesprávné je použití Pearsonova R).
Původní korelace mezi chozením do kina a věkem R=0,24 zavedením kontroly vlivu věku klesá na R=0,18.
Po kontrole vlivu věku došlo k poklesu Pearsonova korelačního koeficientu R o
25,2 %
=(1-0,178/0,238).
A správně bychom měli ještě ověřit, zda je tento pokles statisticky významný (platný i v celé populaci), viz dále Z-test (nebo výpočet intervalů spolehlivosti).
PARTIAL CORR
q1_b
WITH
vzd4
BY
vek /STATISTICS CORR .
47 Zdroj: Data ISSP 2007 (Poznámka: proměnná q1_b má maximum 5=nikdy, proto je zde
vypočtená korelace záporná
.)
Parciální korelace
• Při výpočtu parciální korelace můžeme kontrolovat i vliv více proměnných souběžně.
• Krom běžného statistického testu „nenulovosti“ parciálního korelačního koeficientu v populaci (H0: R=0), viz předchozí výstup z SPSS, lze také testovat, zda skutečně k poklesu (nebo případně vzestupu) u parciální korelace došlo (Ra Rb), tj. platí, že rozdíl mezi Ra (původní bivariátní korelace) a Rb platí i v celé populaci (výpočet (parciální s kontrolou 3. proměnné) pomocí z-testu viz dále).
• Více o korelacích najdete v prezentaci (včetně výpočtu parciální korelace dosazením původních bivariátních korelací do vzorce, a to i pro neparametrické-pořadové korelace)
Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky
http://metodykv.wz.cz/AKD2_korelace.ppt
• Úlohu lze také řešit pomocí vícerozměrné regresní analýzy, kde jsou možnosti mnohem bohatší. Viz presentaci
Regresní analýza, analýza rozptylu (úvod)
http://metodykv.wz.cz/AKD2_regrese.ppt
48
Parciální korelace:
z test statistické významnosti změny
korelačního koeficientu
po zavedení kontrolní proměnné
• Pokud chceme zobecnit výsledky parciální korelace, měli bychom ještě provést test, zda se parciální korelační koeficient (tj. s kontrolou vzdělání) statisticky významně lišší od původního bivariátního (zero-order) (pouze vztah kino-vzdělání). K tomu lze využít např. web-kalkulátor
Significance of the Difference Between Two Correlation Coefficients
http://
vassarstats.net/rdiff.html
(alternativně lze spočítat intervaly spolehlivosti pro Ra Rb) • H0: Ra = Rb → výsledek se zavedením kontroly pro třetí proměnnou nezměnil
Původní
(bivariátní)
Parciální
(+ kontrola věku) Vzhledem k tomu, že předpokládáme pokles korelace, testujeme
jednostrannou
alternativu hypotézy (one-tailed). Zde je tedy nulová hypotéza H0:
Ra > Rb
.
Hodnota
z
je
menší než 1,96
, tj. dosažená hladina významnosti
p
je
menší než 0,05
→
nulovou hypotézu nemůžeme zamítnout – platí tedy, že na zvolené hl. α 5% nelze tvrdit, že by došlo k poklesu korelace mezi chozením do kina a vzděláním, zavedením kontroly pro věk
. Nicméně zde je výsledek poměrně hraniční a z věcného hlediska pokles korelace lze smysluplně interpretovat.
Literatura
• • Rosenberg, M. 1962. „Test Factor Standardization as a Method of Interpretation .“
Social Forces
Rights Militancy Among Negroes?
“ 41(1): 53-61.
• Marx, G. T. 1967. „Religion: Opiate or Inspiration of Civil
American Sociological Review
vyloučením.“ in 32 (1): 64-72.
• Šafr, J., B. Kalný. 2012 (v recenzi). „Vzdělanostně– profesní aspirace žáků z rodin ohrožených sociálním
Sborník z 4. mezinárodní konference Dilemata sociální pedagogiky v postmoderním světě
, Institut mezioborových studií Brno, 19.–20. dubna 2012.
Treiman, Donald J. 2009. Quantitative data analysis: doing social research to test ideas. San Francisco: Jossey-Bass
.
50