Meervoudige lineaire regressie Statistiek in de Praktijk. Hoofdstuk 9 pp. 533 - 553

Download Report

Transcript Meervoudige lineaire regressie Statistiek in de Praktijk. Hoofdstuk 9 pp. 533 - 553

Meervoudige
lineaire regressie
Statistiek in de Praktijk. Hoofdstuk 9
pp. 533 - 553
• Enkelvoudige lineaire regressie (vorig jaar):
– 2 kwantitatieve variabelen :
• X is een verklarende variabele
• Y is een te verklaren variabele
X
Y
• Meervoudige lineaire regressie :
– Meer dan 2 kwantitatieve variabelen waarbij
• Y is een te verklaren variabele
• Meerdere verklarende variabelen
X1
X2
Y
X3 …
A. Statistisch model voor
meervoudige regressie
•
•
µy = 0 + 1 x bij enkelvoudige
µy = 0 + 1 x1 + 2 x2 + 3 x3 + …+ p xp
bij meervoudige
Dit is de populatie-regressievergelijking, op
basis van steekproeven schatten
VOORBEELD : voorspellen van succes in 1e
kan informatica (y=totale score) op basis van
resultaten humaniore wiskunde (x1),
natuurwetenschappen (X2) en engels (X3).
X1
X2
X3
Y
µtotale score = 0 + 1 wiskunde + 2 natuurwet + 3 engels
De  - waarden worden geschat op basis
van de steekproef
b0, b1, b2, b3, ….., bp
Zijn schatters van de parameter
0 , 1 , 2 , 3 , ….., p
In dit voorbeeld zijn er voor elke
proefpersoon 4 waarden nodig
= 4 variabelen (kolommen) per
proefpersoon : 3 OV en 1 AV
• WAARNEMING = AANPASSING + RESIDU
– Op basis van kleinste kwadratenmethode de residuen zo
klein mogelijk maken
– RESIDU zijn de afwijkingen, de ruis, voorgesteld door
Epsilon () die maken dat de waargenomen waarden niet
op een rechte lijn liggen.
– Residu = waargenomen – voorspelde reactie
– De afwijkingen i worden verondersteld onafhankelijk te
zijn met verwachting 0 en st.dev. 
• H0 :  1 =  2 =  3 =  4 = …  p = 0
– Dan houden we in
µy = 0 + 1 x1 + 2 x2 + 3 x3 + …+ p xp
enkel µy = 0 over
– Dat betekent dat de verwachting van y niet
varieert met de verschillende xen, geen van de
verklarende variabelen x is een voorspeller van
y
• Ha : j  0 voor tenminste één j
– Dat betekent dat er ten minste één verklarende
variabele x bij is, die lineair samenhangt met de
te verklaren variabele y
• R2 is de meervoudige correlatiecoëfficiënt
of de fractie van de variatie in de verklaarde
variabele y die verklaard wordt door de
verklarende variabelen x1, x2, x3, …, xp in
een meervoudige lineaire regressie
• De wortel R van R2 is de correlatie tussen
de waarnemingen y en de voorspelde
waarden y (op basis van b0 + b1 x1 + b2 x2
+… )
Uitgewerkt voorbeeld :
Voorspellen van totaalscore 1e kan op basis van
de scores op wiskunde, wetenschap en engels
wiskunde
wetenschap
engels
Totaalscore
6.5
7.8
6.9
4.6
9.3
…
7.2
8.5
7.2
5.9
8.9
…
6.9
8.5
7.8
6.5
8.8
…
6.7
7.3
7.4
5.9
8.4
…
• Stap 1 :
– Descriptive statistiek van afzonderlijke variabelen
– Gemiddelde, stand.afw., minimum, maximum : zijn
er extreme waarden, zijn er uitbijters ???
– Niet elke variabele apart moet normaal verdeeld
zijn, wel de som
• Stap 2 :
– Relaties tussen elke twee variabelen
– Spreidingsdiagrammen en correlaties
– Zeer hoge correlaties tussen OV moeten vermeden
worden (wordt hetzelfde niet gemeten ?)
– Niet significante correlatie tussen OV en AV
betekent niet noodzakelijkerwijs dat deze OV geen
nuttige (en significante) voorspeller kan zijn van de
AV in een meervoudige regressie
• Stap 3 :
– Regressie berekenen via Regression > Linear >
dependent en indepent invullen
– We krijgen een ANOVA tabel, en informatie
over de schatting van de parameters
– De ANOVA tabel geeft een toets van
H0 : 1 = 2 = 3 = 4 = … p = 0
– Als F-waarde significant is : ten minste één van
de drie regressiecoëfficiënten is verschillend
van 0
F=19,7 p<0.001
– De waarde van R2 betekent het percentage van
de waargenomen variatie in y die verklaard
wordt door de lineaire regressie = .787
– Op basis van de parameter estimates kunnen we
de vergelijking weer opstellen :
Totaalscore = 3.189 + 0.522wiskunde –
0.121wetenschappen + 0.149 engels
– Deze aparte regressiecoëfficiënten worden
getoetst met t-waarden. Significante t-waarden
wijzen op predictoren die significant y
voorspellen
• In het voorbeeld enkel wiskunde die significant
voorspelt t=5.01 p<0.001
• Twee andere predictoren voorspellen niet, vooral
omwille van de hoge intercorrelatie met
wiskunde=overlapping van voorspellende waarde
• MAAR als we wiskunde weg laten : toch
voorspellende waarde van engels (p<0.05)
• Bij multiple regressie :
– Voorspellende waarde zeer sterk afhankelijk
van welke predictoren
– Weglaten van één of toevoegen geeft andere
waarden voor alle parameters
– Let op gemeenschappelijke variantie
– Hoe meer onafhankelijk de OV van elkaar zijn,
hoe meer ze elk op zich kunnen voorspellen
• Methoden van Multiple Regressie :
– Enter : alle OV tegelijk in 1 model
– Foreward : eerst OV met hoogste predictie
dan toevoegen die meest
– Backward : eerst alle OV in model
dan weglaten die minst
– Stepwise : analoog met Foreward
maar telkens evaluatie van geheel