Transcript 09_ancova

Kovarianzanalyse
Kovarianzanalyse
1.
2.
3.
4.
5.
6.
7.
Störvariablen
Veranschaulichung der Kovarianzanalyse
Quadratsummen und „modifizierte“ Quadratsummen
F-Test
Reduktion der Fehlervarianz
Voraussetzungen
Die Kovarianzanalyse in SPSS
09_ancova
1
Kovarianzanalyse
Kovarianzanalyse
• Die Kovarianzanalyse ist ein Verfahren, das eine Varianzanalyse
mit einer Regressionsanalyse kombiniert.
• Die Kovarianzanalyse wird eingesetzt, um die Fehlervarianz einer
ANOVA zu verringern und damit die Power zu erhöhen.
• Dazu wird der Einfluss einer zusätzlichen Variable aus der AV einer
Varianzanalyse „herauspartialisiert“.
• Beispiel: Vor dem Vergleich der Gedächtnisleistung (AV)
zwischen zwei Lernbedingungen (UV) wird der Einfluss des
Alters (Kovariate) heraus gerechnet.
09_ancova
2
Störvariablen
Statistische Kontrolle von Störvariablen
Beispiel: Untersuchung zum Therapieerfolg
• Faktor Geschlecht des Patienten (2-fach)
• Faktor Therapieform (3-fach)
 Es werden ungefähr 2 x 3 x 20 = 120 Vpn benötigt.
• Wenn das Alter (Störvariable) als dritter Faktor (z.B. drei Stufen)
berücksichtigt werden soll, braucht man schon 3 x 120 = 360 Vpn.
• Weil ein solches Vorgehen wenig ökonomisch wäre, ist eine
statistische Kontrolle des Alters vorzuziehen
 Kovarianzanalyse
09_ancova
3
Veranschaulichung der Kovarianzanalyse
Theoretisches Vorgehen bei der Kovarianzanalyse:
• Ziel: Statistische Kontrolle einer (Stör-) Variablen, die
möglicherweise die Daten der Untersuchung beeinflusst haben
könnte:
• Frage: Wie sähen die Ergebnisse aus, wenn die Kovariate in allen
Gruppen gleich gewesen wäre?
• (Theoretisches) Vorgehen:
1. Die Störvariable wird zusätzlich erhoben
2. Ihr Einfluss wird mit eine Kovarianzanalyse „neutralisiert“
09_ancova
4
Veranschaulichung der Kovarianzanalyse
Theoretisches Vorgehen bei der Kovarianzanalyse:
• Eine Regressionsanalyse „entfernt“ die Varianz der Kovariate aus
der abhängigen Variablen (AV).
• Dies geschieht, indem eine Regression der AV auf die Kovariate
berechnet wird.
• Die Regressionsresiduen beschreiben den Anteil der AV, der nicht
durch die Kovariate erklärt werden kann.
• Diese Residuen werden als neue AV in eine Varianzanalyse
gegeben
 Die nach der Regressionsanalyse verbleibende (nicht
erklärbare) Varianz mit der Hilfe einer ANOVA erklärt.
09_ancova
5
Veranschaulichung der Kovarianzanalyse
Regression
yˆi  a  xi  b
yi  a  xi  b  yres i
yi  yˆi  yres i
• Residuum = nicht durch Prädiktor (x) vorhersagbarer „Rest“ des
Kriteriums (y).
• Varianz der Residuen (Streuung der Datenpunkte um die
Regressionsgerade) = nicht vorhergesagte (erklärte) Varianz
09_ancova
6
Veranschaulichung der Kovarianzanalyse
Beispiel
• 20 Schüler lernen eine Programmiersprache.
– UV: 5 verschiedene Lernmethoden
– AV: Lernerfolg
– Kovariate: mathematische Vorkenntnisse
 Der Einfluss der Kovariate auf den Lernerfolg wird statistisch
kontrolliert.
 Der Effekt der Lehrmethode kann so auch zuverlässig bestimmt
werden, wenn zufällig in einer Gruppe viele Probanden mit
hohen Vorkenntnissen waren.
09_ancova
7
Veranschaulichung der Kovarianzanalyse
Daten
Training
1
2
3
4
5
VP
1
2
3
4
M
x
y
10 18
20 17
15 23
12 19
14 19.3
x
y
22 40
31 22
16 28
17 31
22 30.3
x
y
30 38
31 40
18 41
22 40
25 39.8
x
y
35 25
37 45
41 50
30 51
36 42.8
x
y
11 15
16 17
19 20
25 23
18 18.8
x: mathematisch-logische Fähigkeiten (Kovariate)
y: Lernerfolg (AV)
09_ancova
8
Veranschaulichung der Kovarianzanalyse
1. Schritt: Regression von y auf x
b y.x  rxy 
sx 
sy
a y.x  y - rxy 
sx
sy
sx
x
SSx
1578

 8.89
N
20
SS y
2671
 11.56
N
20
SPxy
1331
rxy 

 0.65
N  s x  s y 20  8.89 11.56
sy 
b y.x  rxy 

sy
sx
a y.x  y - rxy 
 0.65 
sy
sx
11.56
 0.85
8.89
 x  30.15  0.85  22.9  10.69
yˆ i  0.85  xi  10.69
09_ancova
9
Veranschaulichung der Kovarianzanalyse
x
y
y(reg)
y(res)
10
18
19.19
-1.19
20
17
27.69
-10.69
15
23
23.44
-0.44
12
19
20.89
-1.89
22
40
29.39
10.61
31
22
37.04
-15.04
16
28
24.29
3.71
17
31
25.14
5.86
30
38
36.19
1.81
31
40
37.04
2.96
18
41
25.99
15.01
22
40
29.39
10.61
35
25
40.44
-15.44
37
45
42.14
2.86
41
50
45.54
4.46
30
51
36.19
14.81
11
15
20.04
-5.04
16
17
24.29
-7.29
19
20
26.84
-6.84
25
23
31.94
-8.94
09_ancova
2. Schritt: Bestimmung der Residuen
yreg  a  x  b
yres  y  yreg
Wie kann man die Residuen interpretieren?
 Das Residuum gibt an wie gut eine Person im
Vergleich mit anderen Personen, die die gleichen
Vorkenntnisse hatten, abgeschnitten hat.
 Bsp. Vp 1: Die Person schneidet für ihre
Vorkenntnisse ungefähr durchschnittlich ab.
 Bsp. Vp 2: Die Person hat ein deutlich negatives
Residuum obwohl sie fast den gleichen Testwert
hatte: Für ihre guten Vorkenntnisse hat sie ein eher
schlechtes Ergebnis erreicht.
10
Veranschaulichung der Kovarianzanalyse
3. Schritt: ANOVA mit den Residuen
1
-1.19
-10.69
-0.44
-1.89
-3.55
2
10.61
-15.04
3.71
5.86
1.29
3
1.81
2.96
15.01
10.61
7.60
4
-15.44
2.86
4.46
14.81
1.67
5
-5.04
-7.29
-6.84
-8.94
-7.03
Die ANOVA wird wie immer berechnet:
•
•
•
•
09_ancova
Quadratsummen (between & within)
Mittlere Quadratsummen
F-Werte
…
11
Tatsächliche Berechnung der Kovarianzanalyse
• Tatsächlich erfolgt die Berechnung nicht genau wie das gerade
veranschaulicht wurde!
• Stattdessen wird die Varianz der Kovariate wird direkt aus den
Quadratsummen „entfernt“.
• Das mathematische Vorgehen ist folgendes:
1. Quadratsummenzerlegung beider Variablen
2. Produktsummenzerlegung
3. Entfernen der Varianz der Kovariate: Berechnen der
Modifizierten Quadratsummen
4. F-Test
09_ancova
12
Tatsächliche Berechnung der Kovarianzanalyse
1. Quadratsummen
• Quadratsummenzerlegung für die AV (y) und die Kovariate (x)
SStotal ( y )  SSbetween ( y )  SSwithin ( y )
 y
n
2
p
i 1 j 1
ij
2
2
 y   n y j  y     yij  y j 
p
j 1
n
p
i 1 j 1
SStotal ( x)  SSbetween ( x)  SSwithin ( x)
 x
n
p
i 1 j 1
09_ancova
ij
2
2
2
 x   nx j  x    xij  x j 
p
j 1
n
p
i 1 j 1
13
Tatsächliche Berechnung der Kovarianzanalyse
1. Quadratsummen
Training
VP
1
2
3
4
M
1
2
3
4
5
x
y
10 18
20 17
15 23
12 19
14 19.3
x
y
22 40
31 22
16 28
17 31
22 30.3
x
y
30 38
31 40
18 41
22 40
25 39.8
x
y
35 25
37 45
41 50
30 51
36 42.8
x
y
11 15
16 17
19 20
25 23
18 18.8
SStotal ( x)  1578
SStotal ( y)  2671
SSbetween( x)  1096
SSbetween( y)  1999
SSwithin ( x)  482
SSwithin ( y)  672
09_ancova
14
Tatsächliche Berechnung der Kovarianzanalyse
2. Produktsummen
p
n
SPxy   ( xij  x )( yij  y )
j 1 i 1
• Die „Produktsumme“ ist die Vorstufe zur Kovarianz (daher hat
die „Kovarianzanalyse“ ihren Namen)
p
covxy 
09_ancova
SPxy
N

n
 ( x
j 1 i 1
ij
 x )( yij  y )
N
15
Tatsächliche Berechnung der Kovarianzanalyse
Es gilt wie für die Quadratsummen:
SPtotal  SPbetween  SPwithin
p
n
SPtotal   ( xij  x )( yij  y )
j 1 i 1
p
SPbetween   n( x j  x )( y j  y )
j 1
p
n
SPwithin   ( xij  x j )( yij  y j )
j 1 i 1
09_ancova
16
Tatsächliche Berechnung der Kovarianzanalyse
Training
1
2
3
4
5
VP
1
2
3
4
M
x
y
10 18
20 17
15 23
12 19
14 19.3
x
y
22 40
31 22
16 28
17 31
22 30.3
x
y
30 38
31 40
18 41
22 40
25 39.8
x
y
35 25
37 45
41 50
30 51
36 42.8
x
y
11 15
16 17
19 20
25 23
18 18.8
p
n
SPtotal   ( xij  x )( yij  y )
j 1 i 1
p
SPbetween   n( x j  x )( y j  y )
j 1
p
n
SPwithin   ( xij  x j )( yij  y j )
j 1 i 1
x  22.90 y  30.15
SPtotal  (10  22.90)  (18  30.15)  ...  ( 25  22.90)  (23  30.15)  1331
SPbetween  4  (14.25  22.90)  (19.25  30.15)  ...  4  (17.75  22.90)  (18.75  30.15)  1349
SPwithin  (10  14.25)  (18  19.25)  ...  (25  17.75)  (23  18.75)  18
SPtotal  SPbetween  SPwithin
1331 1349 18
09_ancova
17
Tatsächliche Berechnung der Kovarianzanalyse
3. Modifizierte Quadratsummen (adjusted Sums of Squares)
 Die Varianz der Kovariate wird aus den Quadratsummen der AV
eliminiert.
2
SPtotal
SS´total ( y )  SStotal ( y ) 
SStotal ( x)
2
SPwithin
SS´within ( y )  SSwithin ( y ) 
SSwithin ( x)
2
within
2
total
SP
SP

SS´between ( y )  SSbetween ( y ) 
SSwithin ( x) SStotal ( x)
09_ancova
18
Tatsächliche Berechnung der Kovarianzanalyse
3. Modifizierte Quadratsummen (adjusted Sums of Squares)
2
SPtotal
SS´total ( y )  SStotal ( y ) 
SStotal ( x)
2
SPwithin
SS´within ( y )  SSwithin ( y ) 
SSwithin ( x)
2
2
SPwithin
SPtotal
SS´between ( y )  SSbetween ( y ) 

SSwithin ( x) SStotal ( x)
13312
SS´total ( y )  2671
 1547
1577
(18) 2
SS´within ( y )  672
 671
482
(18) 2 13312
SS´between( y )  1999

 876
482
1577
09_ancova
SStotal ( y)  2671
SSbetween( y)  1999
SSwithin ( y)  672
SStotal ( x)  1578
SSbetween( x)  1096
SSwithin ( x)  482
SPtotal  1331
SPbetween  1349
SPwithin  18
19
Tatsächliche Berechnung der Kovarianzanalyse
4. F-Test und Freiheitsgrade
SS´between
MS´between 
p 1
SS´within
MS´within 
N  p 1
MS´between
F p 1;N  p 1 
MS´within
876
 219
5 1
671
MS´within 
 47
20  5  1
219
F4,14  
 4.57
48
MS´between 
Fkrit = 3.11
 signifikanter Effekt der Lernmethode auf den Lernerfolg
 wenn gleichzeitig die mathematisch-logische Vorkenntnisse
kontrolliert werden.
09_ancova
20
Reduktion der Fehlervarianz
Hat die Kovarianzanalyse die Fehlervarianz reduziert?
• Eine Reduktion der Fehlervarianz erfolgt nur, wenn Kovariate und
AV korrelieren.
• Es muss die Korrelation zwischen der Kovariate und der AV
berechnet werden, die nicht auf die UV zurückgeführt werden
kann.“
rwithin 
SPwithin
SSwithin ( x)  SSwithin ( y )
 18

 0.03
482 672
rw2  (0.03)²  0.001
09_ancova
 Reduktion der Fehlervarianz um
nur 0.1%!
21
Voraussetzung der Kovarianzanalyse
Voraussetzung der Kovarianzanalyse
• Es gelten die normalen Voraussetzungen der ANOVA (Varianzhomogenität, Intervallskalenniveau, …)
• Zusätzlich die Bedingung der homogenen Regressionskoeffizienten erfüllt sein:
– Innerhalb jeder Gruppe wird eine Regressionsgerade bestimmt.
– Der Regressionskoeffizient (b) darf sich nicht zwischen den Gruppen
unterscheiden, d.h. die Koeffizienten in der Population (β) müssen gleich
sein.
– Statistische Überprüfung: siehe Bortz
09_ancova
22
Voraussetzung der Kovarianzanalyse
Voraussetzung der Kovarianzanalyse
• Es gelten die normalen Voraussetzungen der ANOVA (Varianzhomogenität, Intervallskalenniveau, …)
• Zusätzlich die Bedingung der homogenen Regressionskoeffizienten erfüllt sein:
– Innerhalb jeder Gruppe wird eine Regressionsgerade bestimmt.
– Der Regressionskoeffizient (b) darf sich nicht zwischen den Gruppen
unterscheiden, d.h. die Koeffizienten in der Population (β) müssen gleich
sein.
– Statistische Überprüfung: siehe Bortz
09_ancova
23
SPSS
09_ancova
24
SPSS
Syntax:
glm av by gruppe with kov.
09_ancova
25
SPSS
Adjustierte
Quadratsummen!
09_ancova
F-Test für den Einfluss
der UV auf die AV, bei
Kontrolle der Kovariate
26
SPSS
Vergleich: Ergebnis ohne Kovariate
09_ancova
27
Kovarianzanalyse
Zusammenfassung
• Die Kovarianzanalyse ist eine Varianzanalyse der
Regressionsresiduen
• Ziel: Statistische Kontrolle einer potentiellen Störvariablen.
• Berechnung:
– Zerlegung der Quadratsummen von Kovariate und AV
– Zerlegung der Produktsummen
– Berechnung der modifizierten Quadratsummen
– F-Test
– Ggf.: Kontrolle der Fehlervarianzreduktion
09_ancova
28