Transcript lekce3

VÍCENÁSOBNÁ REGRESE
Vícenásobná regrese
Datová matice X
X1
ANO
NE
NE
NE
ANO
.
.
ATD.
X2
204
180
178
187
192
X3
M
F
F
M
M
X4
1,2
4,3
2,3
3,8
2,6
ATD.
Vícenásobná regrese
Vektor y
Y
135
112
135
187
189
ATD.
Vícenásobná regrese
Vektor β
β0
β1
β2
β3
ATD.
Model vícenásobné lineární regrese
• Model vícenásobné lineární regrese
y = 0 + 1x1 + 2x2 + . . . + pxp + 
• Regresní rovnice
E(y) = 0 + 1x1 + 2x2 + . . . + pxp
• Odhad regresní rovnice
y = b 0 + b 1x 1 + b 2x 2 + . . . + b px p
Model vícenásobné lineární regrese
• Maticově vyjádřeno:
y = βX + ε
Vícenásobná lineární regrese-MNČ
b  ( X ´X )1 X ´ y
Co je za tímto vzorcem?
Trošku vektorové algebry nikomu neuškodí
Nebo ano
Vícenásobná regrese v SPSS
• výsledkem procedury v SPSS je regresní
rovnice roviny či nadroviny, otestování
významnosti regresního modelu a jednotlivých
parametrů včetně signalizace jednotlivých
problémů
• zadání pomocí nabídky-jednotlivé důležité
volby
Regrese v SPSS-syntax
zadání pomocí příkazu (pro stupňovitou
regresi a vybrané výstupy)
REGRESSION /MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Y
/METHOD= STEPWISE X1 X2 X3.
Regrese -výstupy
• ukázky použití regresní analýzy
• komentář k výstupům z procedury regresní analýzy
ANOVA,T-testy -vztah mezi nimi a co to značí, R,
R2, R2Adj.
• interpretace regresních koeficientů a konstanty ve
vícenásobné regresi aneb ceteris paribus ve
statistice (tedy proměnnou o jejíž vliv chci očistit
musím mít v modelu)
• beta koeficienty aneb posouzení individuálního vlivu
proměnných (vlastně regresní koeficienty pokud
bychom původní data standardizovali-co je to
standardizace? A jaké jsou možnosti
standardizace?)
Regrese v SPSS-výstupy
• typy metod výběru proměnných - forward, backward,
stepwise (základní principy)
• zejm. stepwise poměrně vhodná k nalezení
"nejlepšího" modelu-vysvětlení podstaty sekvenčních
F-testů a vazba k parciálním korelačním koeficientům
• predikce z regresního modelu
• rezidua a jejich ukládání
EXKURZ: REGRESE A EXCEL
MS EXCEL a statistika
• Co umíme v MS Excel ze statistiky?
• Co umí v MS Excel ze statistiky?
• Jak na regresi v MS Excel (aneb co dělat, když vyprší
licence SPSS)
MS EXCEL a regrese
• Základní funkce pro výpočet regrese
• Grafické možnosti regrese v Excelu
• Analytický modul aneb regrese jak z SPSS
• Více viz text Statistika v Excelu.doc
UMĚLÉ PROMĚNNÉ
Regrese-umělé proměnné
• jako vysvětlující proměnné lze použít i nominální či ordinální
proměnné převedením na umělé (dummy) proměnné - umělých
proměnných je poté o jednu méně než kategorií původní
proměnné Proč?
• "vynechaná proměnná" odpovídá kategorii vůči níž se budou
ostatní kategorie porovnávat-ukázka na proměnné vzdělání
(vytvořte 3umělé proměnné-SŠ bez vzdelSSB, SŠ s mat.
vzdelSS a VŠ vzdelVS z proměnné s02)
• Ukažme si smysl kódování na proměnné vzdel, vyuc, SS a VS
• Upozornění: Při metodě Stepwise může být zahrnuta jen
některá(é) z umělých proměnných, co to znamená z hlediska
interpretace? (př. Jen VŠ při závislé proměnné příjem v rovnici)
Jak lze toto řešit?
Regrese-umělé proměnné a
skupiny
• Dichotomie může dělit soubor na dvě skupiny (př.muži/ženy),
které by mělo smysl analyzovat samostatně, ale my je
analyzujeme dohromady-Co se v takovém případě může stát?
(grafické zobrazení 4 možných situací)
• Jak tuto situaci řešit?
• Analýzy provést zvlášť (TEMP nebo SPLIT FILE) a teprve poté
dohromady, je-li pro toto důvod (test o shodě hodnot regresních
koeficientů- v SPSS není obsažen)
• Lze užít i víceúrovňové/hierarchické modely
• Obecně je problém často složitější a skupin může být více a i zde
platí: Nejdříve zkoumejme, jak vypadá vztah v jednotlivých
skupinách a je-li podobný, lze analyzovat dohromady (Nikdy ale
neanalyzujme prvotně dohromady ČR+Chile+Austrálie, to je
naprosto neodůvodnitelné!!!!)
Umělé proměnné - závěr
• Princip umělých proměnných je obecně použitelný v
analýzách, kde se vyžadují jen dichotomie nebo
kardinální proměnné (např. logistická regrese v
pátek)
• Princip vynechávání poslední (první) kategorie se
zpravidla užívá v analýze kategoriálních dat
(loglineární modely, logitové modely apod.)
• Některé procedury utvoří umělé proměnné za nás
(vžd nutno číst manuály)
INTERAKCE
Regrese-Interakce
•
•
•
•
Kombinace hodnot vysvětlujících proměnných
Nutno si vytvořit v datech
K čemu je to dobré?
Řeší tyto situace:
A) spolupůsobení proměnných (synergické efekty)
B) Řeší problém skupin, resp. odlišností směrnic ve
skupinách
• Ukázka – interakce dvou proměnných, jedna
dichotomie
REGRESNÍ DIAGNOSTIKA
Regrese a její problémy
Regresní problémy
• Vlivná (influentials-pozor tato nejsou od P.F.L.) a
odlehlá pozorování (outliers-viz explorační analýza)
• heteroskedasticita - rozptyl náhodné složky není
konstantní, způsobuje problémy při testování
významnosti jednotlivých proměnných
• autokorelace -závislost mezi náhodnými složkami,
obvyklé v časových řadách, působí obdobné problémy
jako heteroskedasticita
Regrese a její problémy
• multikolinearita - závislost mezi vysvětlujícími
proměnnými, je téměř vždy přítomná, problémem je
škodlivá multikolinearita zejm. perfektní
multikolinearita - pak není možno odhadovat regresní
parametry metodou nejmenších čtverců,
• (Důvod: matice X’X je singulární a nelze k ní najít
inverzní-toto vyjádření je pro nestatistiky lehce
perverzní)
REZIDUA A JEJICH VÝZNAM
Rezidua - přehled
• Klasická rezidua
e  y  yˆ
Var (ei )  (1  hii ) 2
H  X ( X ´ X ) 1 ) X ´
hii  x i, ( X ´ X ) 1 xi
H = projekční matice yˆ  Hy
• Predikovaná rezidua
ei (  i )  yi  y
ˆ i ( i )
ei (  i )
ei

1  hii
Rezidua - přehled
• Normovaná rezidua
ei
eSi 
s(e) 1 hii
• Jackknife rezidua
eJi 
ei
s( i )(e) 1 hii
Vlivná pozorování
• Důležité jsou diagonální prvky projekční matice hii měří vzdálenost i-tého bodu od centra ostatních bodů.
• Pozorování s velkou hodnotou h prvku může nebo
nemusí mít velký vliv na regresní odhady.
• Vlivné body jsou takové, kdy jejich vynecháním
dochází k velké změně regresních parametrů (často
neobvyklá kombinace hodnot vysvětlujících
proměnných). Nutno diagnostikovat a případně
vyřadit.
Vlivná pozorování -diagnostika
• DFBETA(-i)=b-b(-i)
DFBETAj (  i )  b j  b j (  i ) 
c ji ei
1  hii
C  ( X ´ X ) 1 X ´
NDFBETAj (  i )  (b j  b j (  i ) ) / s(  i ) (e)a jj
A  ( X ´ X ) 1
Rule of thumb: Indikace problému NDFBETA>2/√n
Poznámka. Obdobný indikátor DFFIT a NDFFIT (Hebák, 2. díl, str. 101) ,
indikace problému NDFFIT>2/√(n/p)
Heteroskedasticita
• Předpokladem obyčejné regrese je konstantní
rozptyl chybové složky pro všechny hodnoty
nezávisle proměnných.
• Vizuálně lze prověřit: Graf reziduí oproti
hodnotám nezávisle proměnných
• Testy - Glejser, Goldfeld-Quandt
• Řešení: vážená MNČ, měření dáme váhu,
která je nepřímo úměrná odhadnutému
rozptylu chyb
Glejserův test
• Modeluje závislost velikosti reziduí na
nezávislé(-ých) proměnné (-ých) :
ei     j zij
Multikolinearita
• Odhad: b  ( X ´X ) 1 X ´ y
• Existují silné závislosti mezi nezávislými
proměnnými :
X´X je singulární matice nebo téměř singulární
Důsledky: standardní chyby odhadů beta jsou
veliké, nevíme, tedy jak prediktory vlastně
působí, na regresi mají pak také větší vliv
vychýlené hodnoty, nahodnocen součet čtverců
beta, nestabilita odhadů
Multikolinearita
Odhalení: Korelace Xj na ostatních Xs, tedy průzkum
korelační matice (měření škodlivé multikolinearity orientační kritérium alespoň jeden párový korelační
koeficient mezi vysvětlujícími proměnnými ve výši 0,8)
Další možnosti:
a) Tolerance (1-R2j)
b) VIF = 1/(1-R2j)
VIF jsou diagonální prvky R-1
c) poměr: max lambda/min lambda (v SPSS tzv.
Condition index) ROT*= nad 30 → problém
*ROT=Rules of thumb
Multikolinearita
Řešení
• Ignorovat
• Vypustit proměnnou
• Získat další data
• Použít FA (s rotací) a regrese s faktory
• Ridge regrese
Ridge regrese má zkreslené odhady ale menší
standardní chyby (změníme trochu diagonálu)
1
b*  ( X ´X  kI ) X ´ y
Poučky k regresi
• AIC, BIC atd. jsou dostupné jen přes syntax, v
nabídce je nenajdeme, lze zapsat za slovo
STATISTICS slovo SELECTION (výstup viz Model
Summary)
• Regrese na rozdíl od korelace umí modelovat i
nelineární vztah (tzv. nelineární regrese, viz později).
Vychází-li korelace nízká, může tedy být možné
budovat regresní model nelineární. Tvar modelu nám
může poradit grafické zobrazení dat (to platí vždy
aneb grafická analýza by měla být první)
• Poznámka: Nevíme-li o vztazích jakého jsou druhu
(lineární, kvadratické, logaritmické atd.) je rozumné
volit lineární vztahy jsou přípustným zjednodušením a
zároveň se nejlépe interpretují
Poučky k regresi
• Linearitu je také možno dosáhnout vhodnou
transformací dat, nesmíme pak ale zapomenout
„odtransformovat“ výsledky (viz dále)
• Nízký koeficient determinace neznamená nutně, že
proměnné v modelu nevysvětlují změny závislé
proměnné, ale důvodem může být chybná volba
modelu (lineárního místo kvadratického apod.)
• Pro „slušný“ výpočet regresní analýzy se vyžaduje mít
na každou proměnnou zařazenou v modelu cca 100
pozorování (rozhodně nikdy méně než 10 pozorování
na 1 proměnnou!!!). Pamatujme na to jak rychle
narůstá počet umělých proměnných u
nominálních/ordinálních proměnných
Exkurz: Transformace dat
•
•
•
•
•
Jaké známe transformace dat
Centrování
Standardizace
Co dalšího?
Linearizující transformace (viz např. příjem – původně
logaritmicko normální rozdělění)
• Základní transformace – logaritmická, odmocninná,
mocninná, exponenciální
Transformace dat a regrese
•
•
•
•
Jak postupovat?
Nejdříve transformujeme příslušnou proměnnou
Vypočítáme lineární regresi
vypočtené koeficienty musíme odtransformovat
• Upozornění: Při použití tohoto postupu nejsou již
nalezené odhady nezkreslené (ztrácíme tedy jednu z
výhod MNČ)
Nelineární regrese v SPSS
• Grafické řešení
• Výpočetní řešení
• Statistické složitosti
Nelineární regrese v Excelu
• Grafické řešení
• Výpočetní řešení v analytickém modulu