College 11 zn

Download Report

Transcript College 11 zn

Beschrijvende en inferentiële
statistiek
College 11 – Anouk den Hamer –
Vervolg regressie
1
Responsiecollege
• Volgende week dinsdag 19 maart
• Vragen indienen op forum BB vóór vrijdag 15
maart 17.00 uur
2
NB formuleblad
• Formule conditionele standaarddeviatie:
sres
RSS

n  (k  1)
• Wordt op formuleblad “residu standaard
deviatie y” genoemd
3
4
5
6
Vandaag
• Uitwerking huiswerkopdracht
• Vervolg regressie
7
Oefening multipele regressie
• In de huiswerkopdracht van college 9 hebben jullie
onderzocht of tv kijken invloed heeft op tentamencijfer.
Onderzoek of naast tv kijken sporten (in dataset
exercising) en aantal uren studeren (studytime) ook
invloed heeft (je hebt dus 3 onafhankelijke variabelen en
1 afhankelijke).
• Voer de regressie uit en trek je conclusie.
8
Eerst correlatie
9
10
We weten nu dat hoe meer een student tv kijkt en hoe
meer hij/zij sport, hoe lager zijn/haar tentamencijfer (p <
.05).
Het aantal uren studeren bleek geen significante invloed op
tentamencijfer te hebben.
Tv kijken en sporten verklaart 19.8% van het tentamencijfer.
11
Tot nu toe
•
•
•
•
•
•
•
Enkelvoudige regressie: 1 X en 1 Y
Meervoudige regressie: > 1 X-en en 1 Y
Y voorspellen dmv X (regressieformule)
Residuals
Correlatie sterkte verband
R-square verklaarde variantie Y door X
Wijken slopes significant af van 0?
12
• RSS, TSS, MSS
MSS
RSS
TSS
13
14
15
16
17
18
19
20
Correlatie
• Correlatie: geeft sterkte van het verband
tussen X en Y aan
• Twee manieren om te berekenen:
– Met de R-square
– Met de slope en de standaarddeviaties
21
Correlatie
• Correlatie berekenen met de R-square:
• De correlatie wordt uitgedrukt in r.
• Dus de wortel van R-square is de correlatie:
r  r2
22
Correlatie
• Correlatie berekenen met de slope en de
standaarddeviaties van X en Y:
sx
r  ( )b
sy
23
24
• In een andere tabel (door een descriptives te draaien) zie
ik een standaarddeviatie van X 1.083 en van Y .650.
• De slope was .518.
sx
1.083
r  ( )b  (
) *.518  1.666*.518  .863
sy
.650
25
26
• Let op:
• De correlatie berekenen dmv de
standaarddeviaties en de slope kan alleen
maar als je 1 X hebt
• Als je meerdere X-en hebt dan geeft de
correlatie het verband tussen al die X-en en Y
aan
27
Theorie achter correlatie
28
Variantie en covariantie
Variantie: gemiddelde gekwadrateerde afstand tot het
gemiddelde
2


xi  x  xi  x 
x

x


i
2
s 

n 1
n 1
Covariantie: vergelijkbaar met variantie, maar dan voor 2
variabelen:
xi  x   yi  y 

covx, y  
n 1
Covariantie: meet hoeveel afstand tussen de
gemiddeldes van 2 variabelen met elkaar te
maken heeft.
29
Covariantie
x  x   y

covx, y  
i
i
 y
n 1
 38.407
Nadeel: is afhankelijk van
meeteenheden.
Voor inkomen in euros ipv dollars:
x  x   y

covx, y  
i
n 1
 25.707
i
 y
Individual Income Income Education
in $
in €
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
16
18
26
16
34
22
42
42
16
20
66
26
20
30
20
30
32
16
20
58
11.9
13.4
19.4
11.9
25.4
16.4
31.3
31.3
11.9
14.9
49.2
19.4
14.9
22.4
14.9
22.4
23.9
11.9
14.9
43.3
10
7
9
11
14
12
16
16
9
10
16
12
10
15
10
19
16
11
10
16
30
Covariantie and correlatie
In plaats van de variantie, gebruiken we de standaard
deviatie.
In plaats van de covariantie, gebruiken we de correlatie.
covx, y 
r
, waar :
sx s y
 x  x 
2
sx 
n 1
 y  y
2
sy 
n 1
In ons inkomen (in dollars) en opleiding voorbeeld:
covx, y 
r
 0.647
sx s y
31
Correlatie
Voordeel: is niet afhankelijk van meeteenheden.
Eigenschappen:
• -1 ≤ r ≤ 1.
• r=1: perfecte positieve correlatie.
• r=-1: perfecte negatieve correlatie.
• Grootte van r: sterkte van de associatie.
Gebruiken we vooral met interval/continue variabelen.
32
Correlatie en regressie
Correlatie: geen causaal onderscheid tussen X en Y.
Regressie: wel een causaal onderscheid tussen X en Y.
yˆ  a  b  x
Relatie tussen correlatie en
regressiecoëfficiënt:
 sx 
r   b
s 
 y
sx , s y : marginale(dus normale) standaarddeviaties
33
Correlatie en regressie
In ons voorbeeld:
 sx 
2.871


r
b 
 4.659  0.647
s 
20.673
 y
r
is ook de
gestandaardiseerde
coëfficiënt (alleen met 1 X)
34
Correlatie en regressie
b
1
sxb=rsy
sx
Eén s.d. omhoog in x resulteert in
r s.d.’s omhoog in y.
• Onafhankelijk van meeteenheid!
r (in dit geval de gestandardiseerde
coefficient): goede maat voor
sterkte!
35
Ter illustratie
Inkomen in dollars:
Inkomen in euros:
36
Gestandaardiseerde coëfficiënten
(beta’s)
Om de sterkte van de associatie te meten.
Mogelijk om verschillende coëfficiënten te
vergelijken:
• …van dezelfde variabelen tussen verschillende
regressies.
– Ook als de meeteenheid niet hetzelfde is.
• …van verschillende variabelen in dezelfde
(multivariate) regressie.
37
Verschil correlatie en regressielijn
Correlatie:
• Onafhankelijk van meeteenheden
• Geeft sterkte van associatie tussen X en Y aan in één getal
• Niet mogelijk om Y te voorspellen
• Geen causale richting tussen X en Y, simpelweg associatie
Regressielijn:
• Afhankelijk van meeteenheden
• Mogelijk om Y te voorspellen o.b.v. X
• Geeft richting: je kijkt of X Y voorspelt
38
Weten nu meer over
• RSS, TSS, MSS
• R-square
• Correlatie
39
40
Hebben het nu steeds over beschrijvende
statistiek
Nu inferentiële statistiek
41
Betrouwbaarheidsintervallen
Hypothesetests
• Ha: β > 0 of Ha: β < 0
42
We willen weten of de slope significant afwijkt
van 0 (0 is waarde nulhypothese)
Moeten eerst de test statistic (t-waarde) weten.
43
Want n – (1 + k)
44
Kritieke t-waarde bij df=8 met 95%
(tweezijdig)?
45
Kritieke t = 2.306
46
47
Betrouwbaarheidsinterval van de slope (95%)
•
•
•
•
b ± t(se)
b = .518
Kritieke t-waarde = 2.306
Se = 0.107
Dus: .518 ± 2.306(0.107)
We weten met 95% zekerheid dat de slope in de populatie
tussen de 0.27 en 0.76 ligt.
48
Als de 0 in het betrouwbaarheidsinterval van de slope ligt,
dan kunnen we de nulhypothese niet verwerpen.
Ligt de 0 niet in het betrouwbaarheidsinterval, dan kunnen
we de nulhypothese wel verwerpen: de slope wijkt
significant af van 0.
49
0.391 +- 1.96(0.028) = van 0.336 tot 0.446
50
Nu
• F-toets in ANOVA tabel
• De F-toets ziet of een van de X-en een
significante invloed op Y heeft
51
52
Mean squares
Hoe kleiner de gemiddelde residual sum of squares
(ofwel prediction errors) - de afwijkingen die we NIET
verklaren met het regressiemodel - ten opzichte van
de variatie die het regressiemodel WEL verklaart (de
gemiddelde regression sum of squares), hoe beter
het regressiemodel variantie y verklaart
53
De F-toets geeft de verhouding weer tussen het regressiemodel en de residuals.
54
• Hoe hoger de F-waarde, hoe groter de kans
dat één van de X-en een significante invloed
heeft op Y
• Zoeken kritieke F-waardes: Tabel D
55
Df1
Df2
56
57
Df1 = 1
Df2 = 754
Kritieke F-waarde = 3.84
58
Kritieke F-waarde = 3.84
59
F-test en t-test
• t-test
Test of één regressiecoëfficiënt 0 is.
H0: β1=0 (of β2=0 of β3=0).
• F-test
Test of ALLE regressiecoëfficiënten 0 zijn.
H0: β1=β2=β3=0.
Ha: in ieder geval één van β1,β2,β3 is niet nul.
– F-test toetst of in ieder geval één onafhankelijke variabele
enige variantie in de afhankelijke variabele verklaart.
– t-toets(en) vindt welk coëfficiënt dat doet.
60
Manieren om significantie X op Y te bepalen
• T-toets: toets per slope
• Betrouwbaarheidsinterval van de slopes
• F-toets: toets alle slopes tegelijk
61
62
Meervoudige regressie
63
Multipele regressie in SPSS
64
65
Df1 = 2
Df2 = 100
66
67
Waarom zoveel output?
• Zodat je alles snapt als je zelf onderzoek doet
68
Oefenen
69
Vraag 1
We voeren een enkelvoudige regressie uit en vinden een
model sum of squares (MSS) van 2163 en een total sum
of squares (TSS) van 8560.
Welke waarde heeft de residual sum of squares (RSS)?
A)
B)
C)
D)
MSS + TSS
MSS – TSS
TSS – MSS
Dat weten we niet obv bovenstaande
70
Output
MSS
RSS
TSS
•
MSS + RSS = TSS, dus 2318 + 854 = 3172
71
Vraag 2
We vinden een slope van X1 van .523 en een
standaard error van deze slope van .023.
Wat is de t-waarde?
A)
B)
C)
D)
Slope * se
Slope / se
Se / slope
Se + slope
72
73
Vraag 3
Bij een meervoudige regressie vind je een R-square
van .745.
Wat is de waarde van de correlatie?
A)
B)
C)
D)
Onbekend obv bovenstaande
R-square * 2
R-square / 2
Wortel R-square
74
75
Vraag 4
Een onderzoeker wil weten welke factoren van belang zijn
in het bepalen van de huurprijs. Hij onderzoekt de
effecten van grootte van de woning, wijk waarin de
woning gesitueerd is en hoeveel kamers de woning heeft.
Hij vindt een R-square van .31.
Dit betekent dat 31% van de variantie in huurprijs bepaald
wordt door grootte, wijk en aantal kamers.
A) Waar
B) Niet waar
76
Vraag 5
Dezelfde onderzoeker vindt voor grootte van de woning
een slope van .589, voor wijk een slope van .123 en
voor aantal kamers een slope van .988.
Welke X heeft de grootste invloed op huurprijs?
A)
B)
C)
D)
Grootte van de woning
Wijk waarin de woning gesitueerd is
Aantal kamers in de woning
Dat weet je niet obv bovenstaande
77
Inferentiële statistiek: overzicht
Aantal
variabelen
Soort variabele(n)
SPSS toets
1
Categorisch
Binomial
1
Kwantitatief
One-sample T test
Kwantitatief en 2
onafhankelijke groepen
Independent-samples T test
Kwantitatief en 2
afhankelijke groepen
Dependent-samples T test
Categorisch
Chi-kwadraat
Kwantitatief
T test en F test (regressie)
2 (of meer)
Betrouwbaarheid schaal
Reliability analysis
78
Morgen betrouwbaarheidsanalyse
Toegevoegd hoofdstuk Van de Bunt: reliability
analysis
79