Regresní analýza (1) - Analýza kvantitativních dat

Download Report

Transcript Regresní analýza (1) - Analýza kvantitativních dat

UK FHS
Historická sociologie
(LS 2011-14+)
Analýza kvantitativních dat II a III.
Regresní analýza
mnohorozměrná lineární regrese
– metoda nejmenších čtverců (OLS)
Jiří Šafr
jiri.safr(zavináč)seznam.cz
poslední aktualizace 7.4. 2015, 13.5. 2014
Princip, cíle regresní analýzy
• Cílem je určit statistický vztah jedné nebo
několika nezávislých-vysvětlujících
kardinálních (číselných) proměnných [X1, X2,…]
(prediktor, regresor) k jedné kardinální (číselné)
závislé proměnné [Y].
• Predikce hodnot Y pomocí regresní rovnice
• Model explanace Y
• Testování hypotéz pomocí odlišných
„ne/zahnízděných“ modelů X
• Nejpoužívanější vícerozměrná metoda v
sociálních vědách
Mezigenerační vzdělanostní mobilita –
lineárně regresní přímka (metoda nejmenších čtverců)
vzdělání (roky)
14
Otec
12
Syn
4
10
8
13
9
4
13
6
6
11
10
syn
2
12
4
13
6
6
8
4
8
10
8
6
4
y = 3,38 + 0,69x
2
2
R = 0,5356
0
0
Zdroj: [Treiman 2009: 88]
2
4
6
otec
8
10
12
14
OLS: Chyba predikce (residual)
Zdroj: [Treiman 2009: 90]
DATA
pro předchozí příklad
http://metodykv.wz.cz/
VzdOtecSyn.xls
Lineární regrese
Metoda nejmenších čtverců (OLS)
Regresní koeficient
(slope)
Konstanta
(intercept)
OLS (Ordinary Least Squares)
y = a + b *x
Přímka minimalizuje součet ploch čtverců
vzdáleností naměřených hodnot od
predikované přímky.
Kritériem je nejmenší čtverec chyby odhadu.
Lineární regrese
Odhadujeme hodnotu závislého znaku (y) na základě znalosti jiných
veličin - nezávisle proměnných (x, ….).
y = a + bx
y = hodnota závislé proměnné,
a = konstanta (typická závislé při nejnižší hodnotě nezávislé proměnné),
b = regresní koeficient „o kolik vzroste Y, když se x změní o jednotku“,
x = hodnota nezávislé proměnné
Vícenásobná lineární regrese
• Třídimenzionální zobrazení: závislá
proměnná a dvě nezávislé-vysvětlující
Řešení pomocí OLS zde
představuje plocha, která
minimalizuje sumu kvadrátů
vertikálních vzdáleností mezi
jednotlivými pozorováními a
touto plochou.
Zdroj: James et al. 2015: 73
Vícenásobná lineární regrese
Y = α + γ1 x 1 + γ2 x 2 + … γn x n + ξ
y = a + b1 *x1 + b2 * x2 …
ξ – chyba, suma vlivu všech proměnných na Y
neobsažených v modelu
α či a – konstanta
γ1 či b1 – regresní koeficienty (parciální)
x1 – hodnoty nezávislých proměnných
R2 – koeficient determinace = mocnina vícenásobného
korelačního koeficientu.
R2 = Variabilita vysvětlená modelem / celková variabilita
Vyjadřuje podíl variance závislé proměnné vysvětlené
uvažovanými závislými proměnnými („jak dobře rovnice
vyjadřuje varianci v Y“).
Korelace a regrese
• Korelace je symetrická X ↔ Y
• Regrese je asymetrická X → Y
Vysvětlujeme závislost Y na X
• V jednoduché regresi s jednou nezávislou
proměnnou jsou standardizované regresní
koeficienty = korelační koeficienty
• Hodnoty koeficientu: kladný=pozitivní;
záporný=negativní vztah
Regresní koeficienty
• Nestandardizované B - metrické „o kolik se
změní hodnota závislé proměnné při jednotkové
změně nezávislé proměnné X“→ predikce
hodnot Y
• Standardizované β (Beta) = o kolik jednotek
standardních odchylek se změní závislá
proměnná Y při jednotkové změně standardní
odchylky nezávislé proměnné X
→ určujeme tak relativní sílu vlivu
jednotlivých proměnných X na proměnnou
závislou Y. Můžeme porovnávat jejich vliv i
pokud mají odlišnou metriku (jiné škály měření)
Ve vícerozměrné regresi platí, že regresní
koeficienty ukazují vliv proměnné nezávislé na
proměnnou závislou očištěnou od vlivu
působení ostatních nezávislých proměnných.
Lineární regresní analýza (OLS) v
SPSS
Závislá proměnná Y musí být kardinální (číselná)
s přibližně normálním rozložením
Nezávislé proměnné (X1, X2, …) jsou kardinální (číselné). V případě
kategoriálního znaku jej můžeme rozložit na sadu dichotomických
znaků (0/1) s jednou vynechanou – referenční kategorií (tzv. dummy
variables)
Závislá
VYSVĚTLOVÁ
proměnná (Y)
Nezávislé(á) –
VYSVĚTLUJÍCÍ
proměnné(á)
(X1, X2, …)
Lineární regresní analýza (OLS)
SYNTAX SPSS (základní zadání)
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT HDP
/METHOD=ENTER PracSila Kapital Cas.
Dva příklady pro HiSo:
uplatnění regresní analýzy v
historické komparativní analýze
kde máme
data za celou populaci
V příkladech jsou případy- pozorování:
1. roky (čas)
2. země LA
Vícerozměrná regresní analýza,
Příklad 1: HDP, 1929-55, USA
Rok
HDP
1929
1930
1931
1932
1933
1934
1935
1936
1937
1938
1939
1940
1941
1946
1947
1948
1949
1950
1951
1952
1953
1954
1955
142
127
118
98
94
102
116
128
140
131
143
157
182
209
214
225
221
243
257
265
276
271
291
Pracov.síla
(mil.človekrok)
47
43
39
34
34
36
38
41
42
37
40
42
47
51
53
53
50
52
54
54
55
52
54
Kapitál
(USD
mld.)
54
59
57
48
36
24
19
18
22
24
23
27
36
9
25
39
51
62
75
94
108
118
124
Čas
1
2
3
4
5
6
7
8
9
10
11
12
13
18
19
20
21
22
23
24
25
26
27
Zdroj: Goldberger 1964, in Jöreskog/Sörbom/SPSS Inc. 1989
•
•
Zde nemáme výběrová data (jako
v běžných sociologických
šetřeních) → testování statistické
významnosti regresních
koeficientů nedává smysl
Pozor, malý počet případů
→ citlivost na extrémní hodnoty
(outliers)
Vícerozměrná regresní analýza,
Příklad 1: HDP, 1929-55, USA
grafické znázornění v SEM
Nestandardizované regresní koef.
Standardizované regresní koef.
B → jednotkový přírůstek
Β (Beta) → porovnání vlivu X s
rozdílnými metrikami (škálami)
Odhad parametru (estimates)
1.00
LABOR
0.43
0.57
0.85
1.00
CAPITAL
0.16
0.50
0.59
1.00
TIME
Chi-Square= 0.00, df=0, P-value=1. 00000, RMSEA=0.000
GNP
0.0
Příklad 2 pro HiSo:
Latinskoamerické země a demokracie
country
Argentina
Bolivia
Brazil
Chile
Colombia
Costa Rica
Dominican
Republic
Ecuador
El Salvador
Guatemala
Honduras
Jamaica
Mexico
Nicaragua
Panama
Paraguay
Peru
Trinidad and
Tobago
Uruguay
Venezuela
Takeoff
Year
In Energy
Consumption
Per Capita
Literacy
(1965)
(1965)
Political
Democracy
(1965)
1924
1958
1946
1922
1953
1948
7,20
5,22
5,85
6,99
6,28
5,72
91,00
32,00
61,00
84,00
65,00
84,30
52,60
36,20
60,90
97,00
71,40
90,10
1958
1963
1960
1964
1968
1962
1934
1958
1950
1973
1950
5,27
5,36
5,12
5,20
5,02
6,79
6,88
5,46
7,16
4,84
6,38
64,50
67,00
49,00
38,00
45,00
85,00
65,00
49,60
73,00
68,00
61,00
38,80
44,60
72,10
39,50
50,00
90,10
74,50
55,40
76,90
44,70
87,00
1962
1938
1950
8,16
6,82
8,00
80,00
90,30
80,00
84,70
99,60
73,40
Data:
DemocLatAmer.sav
Zdroj: [Bollen, Stine 1990]
Příklad 2: Latinskoamerické země a demokracie
Hypotézy k otestování
• Hypotéza 1: Včasný politický převrat (takeoff) je
asociován s vyšší mírou společenské
industrializace (energy consumption).
• Hypotéza 2: Gramotnost (literacy) závisí na míře
industrializace (energy consumption).
• Hypotéza 3: Gramotnost (literacy) je podmínkou
politické demokracie.
Cvičení: Odhadněte odpovídající regresní modely
a určete míru vlivu při kontrole efektu ostatních
proměnných.
Příklad 2: Latinskoamerické země a demokracie
Příklad 2: Latinskoamerické země a demokracie
Příklad 2: Latinskoamerické země a demokracie
Výběrová data
a zobecnění modelu
na celou populaci
Statistická významnost regresního modelu
– platí pro výběrová data (náhodný vzorek z populace)
• Platnost modelu jako celku: Testujeme nulovou
hypotézu, že všechny γ jsou rovny 0. → F test
• Statistická významnost jednotlivých koeficientů γ
→ t-hodnoty, s.e., Sig.
• Dosažená signifikance p > 0,05 koeficient je statisticky
nevýznamný (tzn. v populaci je nulový)
→ v základním souboru vztah pravděpodobně není.
• t-hodnota = koef./SE hodnota > 1,96 odpovídá sig. < 0,05
pak je regresní koeficient statisticky významný na
hladině α 5% (viz odvození z-hodnot z normální rozložení).
• neboli aby byl regresní koeficient statist. signifikantní
musí být jeho standardizovaná chyba (Std.Error) cca
2x menší než jeho vlastní hodnota.
• Z SE lze spočítat Interval spolehlivosti (Confidence Interval pro
B) pro daný regresní koeficient → porovnání rozdílů
různých koeficientů (pokud se CfI nepřekrývají → rozdíl)
Poznámky k OLS
Pozor na:
• Nikdy nevstupujte do lineárně regresního modelu (OLS)
s nominálním znakem → u nezávislých znaků je možná
transformace na sérii „dummy“ proměnných.
• Pokud jde o ordinální, tak min 5 kategorií a přibližně
normální rozložení nebo alespoň symetrické → ověřit.
• Nezávislé proměnné spolu nesmí (silně) korelovat
(R > 0,8 → velký problém). Důsledkem tzv. multikolinearita
autokorelace může být deficit vydatnosti odhadu regresních parametrů
(model nebude mít nejmenší možný rozptyl), vychýlení standardních
chyb a nadhodnocení R2.
→ vybrat buď jen jednu nebo obě/všechny spojit do
latentní proměnné (např. sečtení nebo pokud nemají
stejnou metriku hl. komponenta v PCA) nebo jednu jako
kardinální a druhou jako dummy.
Předpoklady a problémy lineární regrese (OLS)
• Proměnné mají normální rozložení (pozor na extrémní
hodnoty) → vizuální kontrola v grafech (histogram, Q-Q,
bodový X-Y) Řešení: provést transformaci (sq, log)
• Jde o lineární souvislost, což ale nemusí být jediná forma
závislosti Y na X,
vliv X je konstantní pro všechny hodnoty Y
Řešení: sledovat nepřímo úměrné vztahy pomocí např. bodového X-Y
grafu a případně navrhnout modifikaci funkce (např. kvadrátový efekt).
•
•
•
•
•
Chyba ξ má konstantní rozptyl (Homoscedasticita)
Chyba ξ je normálně rozložená
Chyba ξ nesmí být korelována s žádným X
V datech nesmí být extrémní - odlehlé hodnoty (outliers)
Multikolinearita – nezávislé proměnné by neměly být
navzájem vysoce korelované, jinak jsou nestabilní a citlivé i
na malé změny v rozložení hodnot, které změní regresní
koeficienty i jejich standardní chyby. (→ koeficienty VIF)
• Model obsahuje všechny relevantní X (a naopak žádné
redundantní)
Vysvětlený podíl variance
v regresním modelu
• Koeficient determinace R2 = proporce variance
závislé proměnné, která je vysvětlena všemi
modelem uvažovanými závislými proměnnými.
• Smyslem analýzy v sociologii není vysoké R2
• Vždyť vysvětlit nekonečnou plastičnost sociální
reality je nereálné, navíc by to znamenalo, že
žijeme v „dokonale předpověditelném světě“ (což
si jistě nepřejeme).
• Spíše srovnáváme, zda/a jak se regresní rovnice
lišší v různých podskupinách populace a
modely (% variance) pro různé
společnosti/historická období…
Lineární regrese: postup budování modelu
• Je lineární kvantifikace dostatečně úsporným a
efektivním vyjádřením vztahu Y a X? → vizualizace v
bodovém X-Y grafu
Budování optimálního modelu:
• Přidávání vysvětlujících proměnných – porovnávání
modelů s odlišnou sadou proměnných → Cílem je
testování teorie nikoliv nahodilé testování–zkoušení
• Další přidané proměnné zvýší procento vysvětlené
variance jen potud, pokud nejsou již korelované se
zahrnutými proměnnými.
• S přidáváním proměnných do modelů opatrně!
Začít se základním modelem. A vždy testovat (změnu
Rsq) oproti jednoduššímu modelu.
• Nadřazený model má vždy lepší (nebo stejné) Rsq a
menší počet parametrů (vysvětlujících znaků X)
• Lze také testovat nelinearitu vlivu (parabolický vztah,
modely se „zalamující“ se křivkou (linear splines models) atd.)
Otázky na něž hledáme v modelu
vícenásobné regrese odpověď
• Existuje vztah mezi závislou Y a nezávislou/ými
proměnnou/ými?
Je alespoň jedna z nezávislých proměnných
(prediktorů X1, X2, Xn) užitečná při predikci
závislé proměnné?
• Napomáhají k vysvětlení Y všechny nezávislé
proměnné (prediktory) a nebo je užitečná jen
část z nich?
• Jak dobře model odpovídá datům?
• Given a set of predictor values, what response
value should we predict, and how accurate is
our prediction?
Zdroj: [James et al. 2015: 73]
Nepravý / zprostředkovaný vztah
• Nepravý / zprostředkovaný vztah → efekt jedné
proměnné je zprostředkován jinou proměnnou nebo
je způsoben společnou závislostí vysvětlované a
nezávislé proměnné na třetí proměnné.
→ odhadneme sérii regresních rovnic (modelů) a
zjistíme, jak se mění efekty (regresní koeficienty)
Příklad: vliv čtení knížek v dětství na příjem v
dospělosti – při mediaci vzděláním.
Očekáváme, že čtení zvyšuje vědění a tedy později i příjem (=uplatnění
na trhu práce). Ale není to proto, že ti kdo více četli knížky v dětství
získali vyšší vzdělání (které vede i tak k vyššímu příjmu)?
Model 1: čtení → příjem, Model 2: čtení a vzdělání → příjem
→ Došlo k redukci velikosti regres. koeficientu
mezi modely (u čtení)?
Pokud ano (a výrazně) pak je vztah zprostředkován.
• ISEI = a + b1*četl + b2*roky vzdělání
• ISEI = a + b1*četl
Kategoriální znaky → možná řešení
• Nezávislé „kategoriální“ proměnné → kategorie znaku
rozložíme na umělé - indikátorové proměnné (dummy
variables) (a jednu kategorii vynecháme) nebo použijeme
• analýzu rozptylu (ANOVA) - pouze pro kategoriální
nezávislé znaky, případně analýzu kovariance (ANCOVA)
kombinující OLS regresi a ANOVA;
Zastřešuje je tzv. Zobecněný lineární model General
linear model – GLM (v SPSS → GLM)
• Ale v OLS závislá proměnná Y vždy musí být kardinální
číselná (minimálně s 5 kategoriemi a min symetrické
rozložení)
• Co když není? V sociologii jde o poměrně běžný jev,
např.: postoje, rodinný stav, volba politické strany, stupeň
vzdělání. →
• Logistická regrese: bivariátní (0/1), polynomickáordinální (1/2/3), multinominální (F/P/K)
Na co si dát pozor
Ve vícerozměrné analýze obecně
Odlehlá pozorování (outliers)
R = 0,88
R = 0,08
Téměř všech rozptyl byl vnesen pouze jedním pozorováním.
Outliers mohou významně ovlivnit vztah dvou (a více) znaků!
Vždy nejprve zjistit odlehlá pozorování → Scatterplot
Konfigurace v datech na základě
podskupin
[Disman 1993: 210-211]