Lineáris regressziós modell

Download Report

Transcript Lineáris regressziós modell

Regresszióanalízis
10. gyakorlat
• Korrelációanalízisben a kérdés:
– milyen szoros és milyen irányú kapcsolat áll fenn a változók
között (szoros kapcsolat összefüggést jelez)
A két változó egyenrangú
• Regresszióanalízisben a kérdések:
– van-e összefüggés a változók között
– az egyik változó megváltozásával milyen irányba és mennyit
változik a másik változó
A változók viszonyát nem tekintjük egyenrangúak:
feltételezzük, hogy a valóságban oksági kapcsolat van
közöttük
Megjegyzendő, hogy a változók közötti tényleges oksági
kapcsolatot a regresszióanalízis önmagában nem
bizonyítja, az csupán az adataink közötti statisztikai
kapcsolat feltárására alkalmas.
• Y függő változó és
– X független vagy magyarázó változó → egyszerű
regressziós modell
– X1, X2,…,Xp független vagy magyarázó változók →
többszörös regressziós modell
• A regresszióanalízis feladata tehát egy
függvényszerű kapcsolat keresése egy függő és
egy vagy több folytonos magyarázó változó
között.
A lineáris regressziós modell
• egyszerű regressziós modell
Yi    X i   i
 ~ N (0, )
2
– Yi a függő változó értéke az i-dik mintavételi objektumon
– Xi a magyarázó változó értéke az i-dik mintavételi objektumon
– εi az i-dik objektumhoz tartozó véletlen eseti hiba, ún. reziduális
érték.
Az ε hibatag a modell szerint 0 várható értékű és szig2 szórású
normál eloszlást követ.
– α és β az alapsokaságbeli ismeretlen és fix értékűnek tekintett
paraméterek, vagy regressziós koefficiensek.
α jelentése: az alapsokaságra vonatkozó y tengely metszet;
megmutatja, hogy mekkora lenne Y értéke abban a hipotetikus esetben,
amikor X=0
β jelentése: az alapsokaságra vonatkozó meredekség; megmutatja,
hogy hányszorosára és milyen irányba változik Y ha X egy egységgel
nő
• többszörös regressziós modell
Yi    1 X1i  2 X 2i  ...  p XPi   i
 ~ N (0, )
– βj együtthatókat itt parciális regressziós
koefficienseknek hívjuk.
Egy adott j magyarázó változóhoz tartozó βj
együttható megmutatja, hogy hányszorosára és
milyen irányba változik Y ha az XJ magyarázó egy
egységgel nő, miközben a többi magyarázó változó
az átlagaiknak megfelelő konstans értéken van.
2
A modellkészítés folyamata
• Olykor bonyolult dolog, különösen többszörös
regresszió esetén; szakmai megfontolásokat és
tapasztalatot igényel. A főbb lépések:
– Alapsokaságból mintavétel → modellillesztés az
adatokra
– A modell validálása: annak ellenőrzése, hogy az
illesztett modell megfelel-e a lineáris regresszió
feltételezéseinek
– Ha a modellünk megfelel az alkalmazhatósági
feltételeknek, akkor teszteljük a modellt, hogy választ
kapjunk vajon van-e összefüggés a függő változó és
a magyarázó változó között
– Leírjuk a modellt függvényszerű formában
A paraméterek becslése
• Az ún. legkisebbb négyzetek módszerével
történik.
A lineáris regressziós modell
feltételezései – alkalmazhatósági
feltételek
• Normalitás:
minden egyes X értékre, a lehetséges Y értékek
megfigyelése normál eloszlású
• Homogenitás:
az egyes X értékekre a normál eloszlás azonos
varianciájú
• A magyarázó változó(k) értéke
determinisztikus (fixed X), azaz a kutató
állítja be, hogy milyen X értékek mellett
vizsgálja Y-t
• Függetlenség:
Egy adott Xi értékhez tartozó Yi érték
nagysága nem függ egy másik Xi értékhez
tartozó Y érték nagyságától (mintavételi
objektumok függetlensége)
Hipotézisvizsgálatok
• F-próba a magyarázott variabilitás
vizsgálatára – a modell általános tesztje
A függő változó eltérésnégyzet-összeggel (Sum of
Squares) kifejezett teljes variabilitása (SStotal) additív
felbontása:
n
SStotal  SSregression  SSerror
i 1
n
SSregression   ( yˆ i  y ) 2
i 1
n
SSerror   ( yi  yˆ i )
i 1
SStotal   ( yi  y ) 2
2
Az SSregression és SSerror tagból
képezhető F próbastatisztika, ami
(p, n-p-1) szabadsági fokok szerinti Feloszlást követ:
SSregression (n  p  1)
F

SSerror
p
H0 az egyszerű regressziós modellben:
nincs összefüggés Y és X között.
Grafikusan azt jelenti, hogy a pontokra illesztett
egyenes a vízszintes tengellyel párhuzamos:
béta = 0.
H1: beta != 0
------------------------------------------------------------H0 a többszörös regressziós modellben:
a függőváltozó egyik magyarázó változótól sem
függ, azaz betai = 0 minden i-re (i = 1, 2, …, p).
H1: van olyan magyarázó változó a modellben,
amely összefügg Y-al, vagyis betai != 0 legalább
egy i-re.
• t-próba a magyarázó változók vizsgálatára – a béta
együtthatók egyenkénti tesztelése
bi
Student-féle t-eloszlás
t
SE(bi ) (n-p-1) szabadsági fokkal
H0 az egyszerű regressziós modellben:
nincs összefüggés Y és X között.
a független változó regressziós együtthatója nulla, azaz
beta = 0
H1: a meredekség nem nulla, vagyis: beta != 0.
------------------------------------------------------------------H0 a többszörös regressziós modellben:
az adott magyarázó változó regressziós együtthatója
nulla: betai = 0 (i = 1,2,…,p)
H1: az adott magyarázó változó regressziós együtthatója
eltér nullától, azaz betai != 0 (i = 1,2,…,p).
• Egyszerű modellben (egy magyarázó
változó esetén) az F-próba és a
magyarázó változó meredekségére
vonatkozó t-próba azonos.