Transcript 06_anova2

Varianzanalyse II: Einzelvergleiche
Varianzanalyse II: Einzelvergleiche
1.
2.
3.
Tukey‘s HSD
Scheffé-Test
geplante Kontraste
06_anova2
1
Einzelvergleiche
Post-Hoc-Tests und Kontraste
• Die ANOVA ist ein overall-Test, d.h. es wird überprüft, ob es
mindestens einen Mittelwertsunterschied gibt.
• Von mehreren Gruppen unterscheiden sich also mindestens zwei
voneinander.
• Falls ein solcher Unterschied besteht, ist es natürlich interessant
zu wissen, welche Gruppen sich unterscheiden.
• Dazu dienen Post-Hoc-Tests und Kontraste.
06_anova2
2
Einzelvergleiche
Interpretation der H1 bei p>2
• Wenn Femp > Fkrit (bzw. p<α) wird die H0 verworfen und damit die
H1 angenommen.
• Es gilt also: μi ≠ μj, für mindestens ein Paar i, j
• Allerdings ist damit noch unklar, welche Mittelwerte sich
unterscheiden.
strukturell
bildhaft
emotional
M1=5
M2=10
M3=12
?
06_anova2
?
?
3
Einzelvergleiche
Einzelvergleiche
Vergleich der einzelnen Mittelwerte:
(a) Post-hoc-Tests
 Im Nachhinein Unterschiede finden
(b) Geplante Vergleiche (Kontraste)
 vorher festgelegte (a priori) Hypothesen testen
06_anova2
4
post-hoc Vergleiche
post-hoc Vergleiche
• (Nur) Bei einem signifikanten F-Wert erfolgt ein Vergleich aller
Gruppenmittelwerte.
• Es gibt verschieden Verfahren hierzu. Eine besonderes hohe
Teststärke haben:
• Tukey‘s HSD (Honestly Significant Differences)
• Scheffé-Test
06_anova2
5
post-hoc Vergleiche
Tukey´s HSD
• Tukey‘s HSD ist die Mittelwertsdistanz, die zwei Gruppen haben
müssen, damit die Unterschiede statistisch bedeutsam sind.
HSD  q  
MS
within
n
• qα hängt ab von
– Zahl der Gruppen
– dfwithin
– α-Niveau
Nachschlagen in einer Tabelle
bzw. HSD von SPSS berechnen lassen!
06_anova2
6
Tukey´s HSD
Tukey´s HSD
HSD  q  
HSD  4 . 20 
q   4 . 20
MS
within
n
MS
within
 3 . 17
n5
3 . 17
5
 3 . 34
Gruppendifferenzen von d>3.34 sind statistisch
bedeutsam!
06_anova2
7
Tukey´s HSD
strukturell
bildhaft
emotional
M1=5
M2=10
M3=12
d=5*
d=2
d=7*
* Signifikante Differenz (weil d > HSD)
HSD  3 . 34
06_anova2
8
Tukey´s HSD
06_anova2
9
Tukey´s HSD
06_anova2
10
Tukey´s HSD
Mehrfachvergleiche
mem
Tukey-HSD
(I) bed
1
2
3
(J) bed
2
95%
Konfidenzintervall
Mittlere
Differenz (I- Standardfeh
Untergrenz Obergrenz
ler
e
e
Signifikanz
J)
-5,0000*
1,12546
,002
-8,0026
-1,9974
3
-7,0000*
1,12546
,000
-10,0026
-3,9974
1
5,0000*
1,12546
,002
1,9974
8,0026
3
-2,0000
1,12546
,219
-5,0026
1,0026
1
7,0000*
1,12546
,000
3,9974
10,0026
,219
-1,0026
5,0026
2
2,0000
1,12546
Grundlage: beobachtete Mittelwerte.
Der Fehlerterm ist Mittel der Quadrate(Fehler) = 3.167
*. Die mittlere Differenz ist auf der Stufe 0.05 signifikant.
06_anova2
11
Tukey´s HSD
mem
Tukey-HSD
Untergruppe
1
2
5,0000
bed
1
N
5
2
5
10,0000
3
5
12,0000
Signifikanz
1,000
,219
Mittelwerte für Gruppen in homogenen
Untergruppen werden angezeigt.
Grundlage: beobachtete Mittelwerte.
Der Fehlerterm ist Mittel der Quadrate(Fehler)
= 3.167.
06_anova2
12
post-hoc Vergleiche
Der Scheffé-Test
• Scheffé-Tests beruhen auf Mittelwertsvergleichen.
• Es handelt sich um ebenfalls um post hoc Tests: Sie werden
eingesetzt, wenn keine Hypothesen a priori formuliert wurden.
• Der Scheffé-Test hat eine geringere Power als Tukey‘s HSD!
06_anova2
13
Der Scheffé-Test
06_anova2
14
Der Scheffé-Test
Mehrfachvergleiche
mem
Scheffé
95%
Konfidenzintervall
Mittlere
Differenz (I- Standardfeh
Untergren Obergrenz
ler
ze
e
(I) bed
(J) bed
Signifikanz
J)
*
1
2
-5,0000
1,12546
,003
-8,1373
-1,8627
3
-7,0000*
1,12546
,000
-10,1373 -3,8627
2
1
5,0000*
1,12546
,003
1,8627
8,1373
3
-2,0000
1,12546
,246
-5,1373
1,1373
*
3
1
7,0000
1,12546
,000
3,8627
10,1373
2
2,0000
1,12546
,246
-1,1373
5,1373
Grundlage: beobachtete Mittelwerte.
Der Fehlerterm ist Mittel der Quadrate(Fehler) = 3.167
*. Die mittlere Differenz ist auf der Stufe 0.05 signifikant.
06_anova2
15
Der Scheffé-Test
mem
Scheffé
Untergruppe
1
2
5,0000
bed
1
N
5
2
5
10,0000
3
5
12,0000
Signifikanz
1,000
,246
Mittelwerte für Gruppen in homogenen
Untergruppen werden angezeigt.
Grundlage: beobachtete Mittelwerte.
Der Fehlerterm ist Mittel der Quadrate(Fehler) =
3.167.
06_anova2
16
post-hoc Vergleiche
Geplante Kontraste
• Kontraste sind „geplante Mittelwertvergleiche“
(Gruppenvergleiche)
• Kontrast werden statt eines globalen Tests angewendet.
• Kontraste müssen immer vorher (a priori) festgelegt werden!
• Sie ermöglichen gezielte Vergleiche zwischen mehreren Gruppen
• Kontrast sind post-hoc Tests vorzuziehen, da sie eine höhere Power
haben!
06_anova2
17
Kontraste
Mögliche Kontraste
• Wenn eine ANOVA mit vier Gruppen (A, B, C, D) durchgeführt
wird, sind viele folgende Kontraste möglich:
 Einzelvergleiche: A mit B, A mit C, A mit D, B mit C, B mit D,
C mit D
 Mittelwert von [A & B] mit Mittelwert von [C & D]
 Mittelwert von [A, B & C] mit [D]
 …
06_anova2
18
Kontraste
Kontraste: Beispiel
• 4 Gruppen: Fußgänger (F), Radfahrer (R), Auto- (A) und
Motorradfahrer (M)
• AV: Stress auf dem Weg zur Arbeit
• Vergleiche:
– M(R) vs. M(F)
– M(R, F) vs. M(A, M)
– M(R, F, A) vs. M
06_anova2
19
Kontraste
Definition
• Ein Kontrast Ψ (Psi) ist die gewichtete Summe von p
Populationsmittelwerten μj.
p
c
 
j 1
j
j
ˆ 

p
c
j
yj
j 1
• Dabei ist mindestens ein Gewicht cj ungleich Null
• … und die Summe aller Gewichte ist gleich Null!
p
c
j
0
j 1
06_anova2
20
Kontraste
Kontraste sind Mittelwertvergleiche
• Kontrast 1: Fahrrad vs. Fußgänger
ˆ  1  y  (  1)  y  0  y  0  y

1
R
F
A
M
 yR  yF
 M ( Radfahrer
)  M ( Fußgänger )
• Es werden also die Mittelwerte von Fahrradfahrern und
Fußgängern verglichen!
06_anova2
21
Kontraste
Kontraste sind Mittelwertvergleiche
• Kontrast 2: [Fahrrad & Fußgänger] vs. [Auto & Motorrad]
ˆ   1   y   1   y    1   y    1   y

2
R
F
A
M
2
2
2
2
 
 





yR  yF
2

yA  yM
2
 M ( nicht motorisier
t )  M ( motorisier
t)
• Es werden die Mittelwerte von nicht-motorisierten und
motorisierten Verkehrsteilnehmern verglichen.
06_anova2
22
Kontraste
Kontraste sind Mittelwertvergleiche
• Kontrast 3: [Fahrrad & Fußgänger & Auto] vs. Motorrad
ˆ   1   y   1   y   1   y    1   y

3
R
F
A
M
3
3
3
 
 
 

yR  yF  yA
3
 M(nicht
 yM
Motorad)
- M(Motorad)
• Es werden die Mittelwerte von Verkehrsteilnehmern ohne und
mit Motorrad verglichen.
06_anova2
23
Kontraste
Signifikanz von Kontrasten
• Kontraste können mit einem t-Test auf Signifikanz überprüft
werden.
• Hypothesen:
– H0: Ψ = 0 (Der Kontrast ist gleich 0, bzw. die Mittelwerte unterscheiden
sich nicht)
– H1: Ψ ≠ 0 (Der Kontrast ist ungleich Null, bzw. die Mittelwerte
unterscheiden sich)
– Kontraste können auch mit gerichteten Hypothesen geprüft werden.
06_anova2
24
Kontraste
Signifikanz von Kontrasten
• Berechnung
t 
ˆ

estvar ( Ψˆ )
mit :
df  N  p
estvar
ˆ   MS
p
within

j 1
06_anova2
2
cj
nj
25
Kontraste
Unabhängigkeit von Kontrasten
• Alle geplanten Kontraste müssen paarweise unabhängig sein.
• Nur bei unabhängigen Kontrasten wird eine
α-Fehler Kumulierung verhindert.
• Zwei Kontraste sind unabhängig, wenn gilt:
p
c
j1
 c j2  0
j 1
06_anova2
26
Kontraste
Unabhängigkeit von Kontrasten 1
Kontrast
R
F
A
M
1. R vs. F
1
-1
0
0
2. R,F vs. A,M
1/2
1/2
-1/2
-1/2
3. R,F,A vs. M
0
0
1
-1
4
Kontrast 1 & 2:  c j1  c j 2
 1
2
j 1
4
Kontrast 1 & 3:  c j1  c j 3
 1
Kontrast 2 & 3:  c j 2  c j 3
j 1

06_anova2
1
6

1
6

1
3
j 1
4
1
   1 
1
 1
 1
 0     0     0
2
 2
 2
ok
   1 
1
ok
3
 0
1
 0  1  0
3
1 1 1 1  1 1  1
                1
2 3 2 3  2 3  2
1
6

1
2
X
 0 . 67
27
Kontraste
Unabhängigkeit von Kontrasten 2
Kontrast
R
F
A
M
1. R vs. F
1
-1
0
0
2. R,F vs. A,M
1/2
1/2
-1/2
-1/2
3. R,F,A vs. M
1/3
1/3
1/3
-1
Kontrast 1 & 2:
4

c j1  c j 2  1 
1
c j1  c j 3  1 
1
j 1
Kontrast 1 & 3:
4

j 1
Kontrast 2 & 3:
4

j 1
06_anova2
c j2  c j3 
1
2
2
3
 1
 1
 0     0     0
2
 2
 2
   1 
1
   1 
1
0 
3
 0
1
 0  1  0
3
 1
 1
 0      1        1  0
2
 2
 2
1
ok
ok
ok
28
Kontraste
Unabhängigkeit von Kontrasten 3
• Bei p Gruppen können p-1 unabhängige Kontraste gebildet
werden:
06_anova2
29
Beispiel: Therapiewirksamkeit
Beispiel: Therapiewirksamkeit (fiktive Daten)
• Es wird der Therapieerfolg zwischen 5 verschiedenen
Gruppen verglichen:
–
–
–
–
–
Verhaltenstherapie (VT)
Systemische Therapie (ST)
Psychoanalyse (PA)
Gesprächspsychotherapie (GT)
Kontrollgruppe (KG)
• AV: Symptomverbesserung (0 bis 10).
06_anova2
30
Beispiel: Therapiewirksamkeit
Hypothesen:
(1) Der Therapieerfolg ist in den 4 Therapie-Gruppen größer als in
der KG.
(2) Verhaltensorientierte Gruppen (VT+ST) unterscheiden sich von
gesprächsorientierten Gruppen (PA+GT)
(3) Der Therapieerfolg von VT ist größer als der von ST
(4) Es gibt einen Unterschied zwischen PA und GT
06_anova2
31
Beispiel: Therapiewirksamkeit
Hypothese 1: Die therapierten Gruppen unterscheiden
sich von der Kontrollgruppe:
( x1  x 2  x 3  x 4 )
ˆ
1 
 x5
4
1
1
1
1
ˆ
1   x1   x 2   x 3   x 4  (  1)  x 5
4
4
4
4
06_anova2
32
Beispiel: Therapiewirksamkeit
Hypothese 2: Verhaltensorientierte Gruppen (VT+ST)
unterscheiden sich von gesprächsorientierten Gruppen
(PA+GT)
x3  x 4
x1  x 2
ˆ
2 

2
2
1
1
 1
 1
ˆ
 2   x1   x 2      x 3      x 4  0  x 5
2
2
 2
 2
06_anova2
33
Beispiel: Therapiewirksamkeit
Hypothese 3: Es gibt einen Unterschied zwischen VT und
ST.
ˆ  x x

3
1
2
ˆ  1  x    1  x  0  x  0  x  0  x

3
1
2
3
4
5
06_anova2
34
Beispiel: Therapiewirksamkeit
Hypothese 4: Es gibt einen Unterschied zwischen PA und
GT.
ˆ  x x

4
3
4
ˆ  0  x  0  x  1  x  (  1)  x  0  x

4
1
2
3
4
5
06_anova2
35
Beispiel: Therapiewirksamkeit
Daten:
Vp
1
2
3
4
5
6
7
8
9
10
06_anova2
VT
8
9
8
7
8
9
7
8
6
7
ST
8
7
6
7
8
6
6
7
7
6
PA
5
4
4
2
4
3
4
5
4
4
GT
5
6
4
3
4
5
4
5
6
4
KG
2
1
0
2
3
1
2
0
0
5
36
Beispiel: Therapiewirksamkeit
Benutzerdefinierte Kontraste können nur über die Syntax
eingegeben werden!
glm symptom by gruppe
/contrast (gruppe) = special (
0.25 0.25 0.25 0.25 -1,
0.5 0.5 -0.5 -0.5 0,
1 -1 0 0 0,
0 0 1 -1 0).
06_anova2
37
Beispiel: Therapiewirksamkeit
Kontrast 1:
• Der Kontrast ist signifikant von Null verschieden!
 Die Therapien [VT, ST, PA, GT] unterscheiden sich von der [KG]
06_anova2
38
Beispiel: Therapiewirksamkeit
Kontrast 2:
• Der Kontrast ist signifikant von Null verschieden!
 [VT und ST] unterscheiden sich von [PA und GT]
06_anova2
39
Beispiel: Therapiewirksamkeit
Kontrast 3:
• Der Kontrast ist signifikant von Null verschieden. (weil die Hypothese gerichtet
formuliert war, darf p halbiert werden!)
 [VT] ist besser als [ST]
06_anova2
40
Beispiel: Therapiewirksamkeit
Kontrast 4:
• Der Kontrast ist nicht signifikant von Null verschieden!
 [PA] unterscheiden sich nicht bedeutsam von [GT]
06_anova2
41
Beispiel: Therapiewirksamkeit
Vergleich von Kontrasten und post-hoc Tests:
glm symptom by gruppe
/contrast (gruppe) = special (0.25 0.25 0.25 0.25 -1,
0.5 0.5 -0.5 -0.5 0, 1 -1 0 0 0, 0 0 1 -1 0)
/posthoc gruppe (tukey).
06_anova2
42
Beispiel: Therapiewirksamkeit
Tukey-HSD
(I) gruppe
1
2
3
4
5
06_anova2
95%
Konfidenzintervall
Mittlere
Differenz (I- Standardfeh
Untergrenz Obergrenz
ler
e
e
(J) gruppe
Signifikanz
J)
2
,9000
,47796
,341
-,4581
2,2581
*
3
3,8000
,47796
,000
2,4419
5,1581
*
4
3,1000
,47796
,000
1,7419
4,4581
*
5
6,1000
,47796
,000
4,7419
7,4581
1
-,9000
,47796
,341
-2,2581
,4581
*
3
2,9000
,47796
,000
1,5419
4,2581
*
4
2,2000
,47796
,000
,8419
3,5581
*
5
5,2000
,47796
,000
3,8419
6,5581
*
1
-3,8000
,47796
,000
-5,1581
-2,4419
*
2
-2,9000
,47796
,000
-4,2581
-1,5419
4
-,7000
,47796
,590
-2,0581
,6581
5
2,3000*
,47796
,000
,9419
3,6581
*
1
-3,1000
,47796
,000
-4,4581
-1,7419
2
-2,2000*
,47796
,000
-3,5581
-,8419
3
,7000
,47796
,590
-,6581
2,0581
5
3,0000*
,47796
,000
1,6419
4,3581
*
1
-6,1000
,47796
,000
-7,4581
-4,7419
*
2
-5,2000
,47796
,000
-6,5581
-3,8419
*
3
-2,3000
,47796
,000
-3,6581
-,9419
*
43
4
-3,0000
,47796
,000
-4,3581
-1,6419
Beispiel: Therapiewirksamkeit
symptom
Tukey-HSD
1
1,6000
Untergruppe
2
gruppe
5
N
10
3
3
10
3,9000
4
10
4,6000
2
10
6,8000
1
10
7,7000
Signifikanz
1,000
,590
,341
Mittelwerte für Gruppen in homogenen Untergruppen werden angezeigt.
Grundlage: beobachtete Mittelwerte.
Der Fehlerterm ist Mittel der Quadrate(Fehler) = 1.142.
06_anova2
44
Einzelvergleiche
Zusammenfassung
• Eine ANOVA prüft, ob sich mindestens 2 Gruppen unterscheiden.
• Bei einem signifikanten Ergebnis sollte überprüft werden, welche
Gruppen sich voneinander unterscheiden.
• Wenn a priori spezifische Hypothesen formuliert wurden, können
Kontraste gerechnet werden, sonst müssen post-hoc Vergleich
vorgenommen werden (Tukey oder Scheffé)
• Für die Teststärke (Power) gilt:
Kontraste > Tukey > Scheffé
• Daher sollte Tukey‘s HSD generell gegenüber dem Scheffé-Test
bevorzugt werden.
06_anova2
45