Transcript 06_anova2
Varianzanalyse II: Einzelvergleiche Varianzanalyse II: Einzelvergleiche 1. 2. 3. Tukey‘s HSD Scheffé-Test geplante Kontraste 06_anova2 1 Einzelvergleiche Post-Hoc-Tests und Kontraste • Die ANOVA ist ein overall-Test, d.h. es wird überprüft, ob es mindestens einen Mittelwertsunterschied gibt. • Von mehreren Gruppen unterscheiden sich also mindestens zwei voneinander. • Falls ein solcher Unterschied besteht, ist es natürlich interessant zu wissen, welche Gruppen sich unterscheiden. • Dazu dienen Post-Hoc-Tests und Kontraste. 06_anova2 2 Einzelvergleiche Interpretation der H1 bei p>2 • Wenn Femp > Fkrit (bzw. p<α) wird die H0 verworfen und damit die H1 angenommen. • Es gilt also: μi ≠ μj, für mindestens ein Paar i, j • Allerdings ist damit noch unklar, welche Mittelwerte sich unterscheiden. strukturell bildhaft emotional M1=5 M2=10 M3=12 ? 06_anova2 ? ? 3 Einzelvergleiche Einzelvergleiche Vergleich der einzelnen Mittelwerte: (a) Post-hoc-Tests Im Nachhinein Unterschiede finden (b) Geplante Vergleiche (Kontraste) vorher festgelegte (a priori) Hypothesen testen 06_anova2 4 post-hoc Vergleiche post-hoc Vergleiche • (Nur) Bei einem signifikanten F-Wert erfolgt ein Vergleich aller Gruppenmittelwerte. • Es gibt verschieden Verfahren hierzu. Eine besonderes hohe Teststärke haben: • Tukey‘s HSD (Honestly Significant Differences) • Scheffé-Test 06_anova2 5 post-hoc Vergleiche Tukey´s HSD • Tukey‘s HSD ist die Mittelwertsdistanz, die zwei Gruppen haben müssen, damit die Unterschiede statistisch bedeutsam sind. HSD q MS within n • qα hängt ab von – Zahl der Gruppen – dfwithin – α-Niveau Nachschlagen in einer Tabelle bzw. HSD von SPSS berechnen lassen! 06_anova2 6 Tukey´s HSD Tukey´s HSD HSD q HSD 4 . 20 q 4 . 20 MS within n MS within 3 . 17 n5 3 . 17 5 3 . 34 Gruppendifferenzen von d>3.34 sind statistisch bedeutsam! 06_anova2 7 Tukey´s HSD strukturell bildhaft emotional M1=5 M2=10 M3=12 d=5* d=2 d=7* * Signifikante Differenz (weil d > HSD) HSD 3 . 34 06_anova2 8 Tukey´s HSD 06_anova2 9 Tukey´s HSD 06_anova2 10 Tukey´s HSD Mehrfachvergleiche mem Tukey-HSD (I) bed 1 2 3 (J) bed 2 95% Konfidenzintervall Mittlere Differenz (I- Standardfeh Untergrenz Obergrenz ler e e Signifikanz J) -5,0000* 1,12546 ,002 -8,0026 -1,9974 3 -7,0000* 1,12546 ,000 -10,0026 -3,9974 1 5,0000* 1,12546 ,002 1,9974 8,0026 3 -2,0000 1,12546 ,219 -5,0026 1,0026 1 7,0000* 1,12546 ,000 3,9974 10,0026 ,219 -1,0026 5,0026 2 2,0000 1,12546 Grundlage: beobachtete Mittelwerte. Der Fehlerterm ist Mittel der Quadrate(Fehler) = 3.167 *. Die mittlere Differenz ist auf der Stufe 0.05 signifikant. 06_anova2 11 Tukey´s HSD mem Tukey-HSD Untergruppe 1 2 5,0000 bed 1 N 5 2 5 10,0000 3 5 12,0000 Signifikanz 1,000 ,219 Mittelwerte für Gruppen in homogenen Untergruppen werden angezeigt. Grundlage: beobachtete Mittelwerte. Der Fehlerterm ist Mittel der Quadrate(Fehler) = 3.167. 06_anova2 12 post-hoc Vergleiche Der Scheffé-Test • Scheffé-Tests beruhen auf Mittelwertsvergleichen. • Es handelt sich um ebenfalls um post hoc Tests: Sie werden eingesetzt, wenn keine Hypothesen a priori formuliert wurden. • Der Scheffé-Test hat eine geringere Power als Tukey‘s HSD! 06_anova2 13 Der Scheffé-Test 06_anova2 14 Der Scheffé-Test Mehrfachvergleiche mem Scheffé 95% Konfidenzintervall Mittlere Differenz (I- Standardfeh Untergren Obergrenz ler ze e (I) bed (J) bed Signifikanz J) * 1 2 -5,0000 1,12546 ,003 -8,1373 -1,8627 3 -7,0000* 1,12546 ,000 -10,1373 -3,8627 2 1 5,0000* 1,12546 ,003 1,8627 8,1373 3 -2,0000 1,12546 ,246 -5,1373 1,1373 * 3 1 7,0000 1,12546 ,000 3,8627 10,1373 2 2,0000 1,12546 ,246 -1,1373 5,1373 Grundlage: beobachtete Mittelwerte. Der Fehlerterm ist Mittel der Quadrate(Fehler) = 3.167 *. Die mittlere Differenz ist auf der Stufe 0.05 signifikant. 06_anova2 15 Der Scheffé-Test mem Scheffé Untergruppe 1 2 5,0000 bed 1 N 5 2 5 10,0000 3 5 12,0000 Signifikanz 1,000 ,246 Mittelwerte für Gruppen in homogenen Untergruppen werden angezeigt. Grundlage: beobachtete Mittelwerte. Der Fehlerterm ist Mittel der Quadrate(Fehler) = 3.167. 06_anova2 16 post-hoc Vergleiche Geplante Kontraste • Kontraste sind „geplante Mittelwertvergleiche“ (Gruppenvergleiche) • Kontrast werden statt eines globalen Tests angewendet. • Kontraste müssen immer vorher (a priori) festgelegt werden! • Sie ermöglichen gezielte Vergleiche zwischen mehreren Gruppen • Kontrast sind post-hoc Tests vorzuziehen, da sie eine höhere Power haben! 06_anova2 17 Kontraste Mögliche Kontraste • Wenn eine ANOVA mit vier Gruppen (A, B, C, D) durchgeführt wird, sind viele folgende Kontraste möglich: Einzelvergleiche: A mit B, A mit C, A mit D, B mit C, B mit D, C mit D Mittelwert von [A & B] mit Mittelwert von [C & D] Mittelwert von [A, B & C] mit [D] … 06_anova2 18 Kontraste Kontraste: Beispiel • 4 Gruppen: Fußgänger (F), Radfahrer (R), Auto- (A) und Motorradfahrer (M) • AV: Stress auf dem Weg zur Arbeit • Vergleiche: – M(R) vs. M(F) – M(R, F) vs. M(A, M) – M(R, F, A) vs. M 06_anova2 19 Kontraste Definition • Ein Kontrast Ψ (Psi) ist die gewichtete Summe von p Populationsmittelwerten μj. p c j 1 j j ˆ p c j yj j 1 • Dabei ist mindestens ein Gewicht cj ungleich Null • … und die Summe aller Gewichte ist gleich Null! p c j 0 j 1 06_anova2 20 Kontraste Kontraste sind Mittelwertvergleiche • Kontrast 1: Fahrrad vs. Fußgänger ˆ 1 y ( 1) y 0 y 0 y 1 R F A M yR yF M ( Radfahrer ) M ( Fußgänger ) • Es werden also die Mittelwerte von Fahrradfahrern und Fußgängern verglichen! 06_anova2 21 Kontraste Kontraste sind Mittelwertvergleiche • Kontrast 2: [Fahrrad & Fußgänger] vs. [Auto & Motorrad] ˆ 1 y 1 y 1 y 1 y 2 R F A M 2 2 2 2 yR yF 2 yA yM 2 M ( nicht motorisier t ) M ( motorisier t) • Es werden die Mittelwerte von nicht-motorisierten und motorisierten Verkehrsteilnehmern verglichen. 06_anova2 22 Kontraste Kontraste sind Mittelwertvergleiche • Kontrast 3: [Fahrrad & Fußgänger & Auto] vs. Motorrad ˆ 1 y 1 y 1 y 1 y 3 R F A M 3 3 3 yR yF yA 3 M(nicht yM Motorad) - M(Motorad) • Es werden die Mittelwerte von Verkehrsteilnehmern ohne und mit Motorrad verglichen. 06_anova2 23 Kontraste Signifikanz von Kontrasten • Kontraste können mit einem t-Test auf Signifikanz überprüft werden. • Hypothesen: – H0: Ψ = 0 (Der Kontrast ist gleich 0, bzw. die Mittelwerte unterscheiden sich nicht) – H1: Ψ ≠ 0 (Der Kontrast ist ungleich Null, bzw. die Mittelwerte unterscheiden sich) – Kontraste können auch mit gerichteten Hypothesen geprüft werden. 06_anova2 24 Kontraste Signifikanz von Kontrasten • Berechnung t ˆ estvar ( Ψˆ ) mit : df N p estvar ˆ MS p within j 1 06_anova2 2 cj nj 25 Kontraste Unabhängigkeit von Kontrasten • Alle geplanten Kontraste müssen paarweise unabhängig sein. • Nur bei unabhängigen Kontrasten wird eine α-Fehler Kumulierung verhindert. • Zwei Kontraste sind unabhängig, wenn gilt: p c j1 c j2 0 j 1 06_anova2 26 Kontraste Unabhängigkeit von Kontrasten 1 Kontrast R F A M 1. R vs. F 1 -1 0 0 2. R,F vs. A,M 1/2 1/2 -1/2 -1/2 3. R,F,A vs. M 0 0 1 -1 4 Kontrast 1 & 2: c j1 c j 2 1 2 j 1 4 Kontrast 1 & 3: c j1 c j 3 1 Kontrast 2 & 3: c j 2 c j 3 j 1 06_anova2 1 6 1 6 1 3 j 1 4 1 1 1 1 1 0 0 0 2 2 2 ok 1 1 ok 3 0 1 0 1 0 3 1 1 1 1 1 1 1 1 2 3 2 3 2 3 2 1 6 1 2 X 0 . 67 27 Kontraste Unabhängigkeit von Kontrasten 2 Kontrast R F A M 1. R vs. F 1 -1 0 0 2. R,F vs. A,M 1/2 1/2 -1/2 -1/2 3. R,F,A vs. M 1/3 1/3 1/3 -1 Kontrast 1 & 2: 4 c j1 c j 2 1 1 c j1 c j 3 1 1 j 1 Kontrast 1 & 3: 4 j 1 Kontrast 2 & 3: 4 j 1 06_anova2 c j2 c j3 1 2 2 3 1 1 0 0 0 2 2 2 1 1 1 1 0 3 0 1 0 1 0 3 1 1 0 1 1 0 2 2 2 1 ok ok ok 28 Kontraste Unabhängigkeit von Kontrasten 3 • Bei p Gruppen können p-1 unabhängige Kontraste gebildet werden: 06_anova2 29 Beispiel: Therapiewirksamkeit Beispiel: Therapiewirksamkeit (fiktive Daten) • Es wird der Therapieerfolg zwischen 5 verschiedenen Gruppen verglichen: – – – – – Verhaltenstherapie (VT) Systemische Therapie (ST) Psychoanalyse (PA) Gesprächspsychotherapie (GT) Kontrollgruppe (KG) • AV: Symptomverbesserung (0 bis 10). 06_anova2 30 Beispiel: Therapiewirksamkeit Hypothesen: (1) Der Therapieerfolg ist in den 4 Therapie-Gruppen größer als in der KG. (2) Verhaltensorientierte Gruppen (VT+ST) unterscheiden sich von gesprächsorientierten Gruppen (PA+GT) (3) Der Therapieerfolg von VT ist größer als der von ST (4) Es gibt einen Unterschied zwischen PA und GT 06_anova2 31 Beispiel: Therapiewirksamkeit Hypothese 1: Die therapierten Gruppen unterscheiden sich von der Kontrollgruppe: ( x1 x 2 x 3 x 4 ) ˆ 1 x5 4 1 1 1 1 ˆ 1 x1 x 2 x 3 x 4 ( 1) x 5 4 4 4 4 06_anova2 32 Beispiel: Therapiewirksamkeit Hypothese 2: Verhaltensorientierte Gruppen (VT+ST) unterscheiden sich von gesprächsorientierten Gruppen (PA+GT) x3 x 4 x1 x 2 ˆ 2 2 2 1 1 1 1 ˆ 2 x1 x 2 x 3 x 4 0 x 5 2 2 2 2 06_anova2 33 Beispiel: Therapiewirksamkeit Hypothese 3: Es gibt einen Unterschied zwischen VT und ST. ˆ x x 3 1 2 ˆ 1 x 1 x 0 x 0 x 0 x 3 1 2 3 4 5 06_anova2 34 Beispiel: Therapiewirksamkeit Hypothese 4: Es gibt einen Unterschied zwischen PA und GT. ˆ x x 4 3 4 ˆ 0 x 0 x 1 x ( 1) x 0 x 4 1 2 3 4 5 06_anova2 35 Beispiel: Therapiewirksamkeit Daten: Vp 1 2 3 4 5 6 7 8 9 10 06_anova2 VT 8 9 8 7 8 9 7 8 6 7 ST 8 7 6 7 8 6 6 7 7 6 PA 5 4 4 2 4 3 4 5 4 4 GT 5 6 4 3 4 5 4 5 6 4 KG 2 1 0 2 3 1 2 0 0 5 36 Beispiel: Therapiewirksamkeit Benutzerdefinierte Kontraste können nur über die Syntax eingegeben werden! glm symptom by gruppe /contrast (gruppe) = special ( 0.25 0.25 0.25 0.25 -1, 0.5 0.5 -0.5 -0.5 0, 1 -1 0 0 0, 0 0 1 -1 0). 06_anova2 37 Beispiel: Therapiewirksamkeit Kontrast 1: • Der Kontrast ist signifikant von Null verschieden! Die Therapien [VT, ST, PA, GT] unterscheiden sich von der [KG] 06_anova2 38 Beispiel: Therapiewirksamkeit Kontrast 2: • Der Kontrast ist signifikant von Null verschieden! [VT und ST] unterscheiden sich von [PA und GT] 06_anova2 39 Beispiel: Therapiewirksamkeit Kontrast 3: • Der Kontrast ist signifikant von Null verschieden. (weil die Hypothese gerichtet formuliert war, darf p halbiert werden!) [VT] ist besser als [ST] 06_anova2 40 Beispiel: Therapiewirksamkeit Kontrast 4: • Der Kontrast ist nicht signifikant von Null verschieden! [PA] unterscheiden sich nicht bedeutsam von [GT] 06_anova2 41 Beispiel: Therapiewirksamkeit Vergleich von Kontrasten und post-hoc Tests: glm symptom by gruppe /contrast (gruppe) = special (0.25 0.25 0.25 0.25 -1, 0.5 0.5 -0.5 -0.5 0, 1 -1 0 0 0, 0 0 1 -1 0) /posthoc gruppe (tukey). 06_anova2 42 Beispiel: Therapiewirksamkeit Tukey-HSD (I) gruppe 1 2 3 4 5 06_anova2 95% Konfidenzintervall Mittlere Differenz (I- Standardfeh Untergrenz Obergrenz ler e e (J) gruppe Signifikanz J) 2 ,9000 ,47796 ,341 -,4581 2,2581 * 3 3,8000 ,47796 ,000 2,4419 5,1581 * 4 3,1000 ,47796 ,000 1,7419 4,4581 * 5 6,1000 ,47796 ,000 4,7419 7,4581 1 -,9000 ,47796 ,341 -2,2581 ,4581 * 3 2,9000 ,47796 ,000 1,5419 4,2581 * 4 2,2000 ,47796 ,000 ,8419 3,5581 * 5 5,2000 ,47796 ,000 3,8419 6,5581 * 1 -3,8000 ,47796 ,000 -5,1581 -2,4419 * 2 -2,9000 ,47796 ,000 -4,2581 -1,5419 4 -,7000 ,47796 ,590 -2,0581 ,6581 5 2,3000* ,47796 ,000 ,9419 3,6581 * 1 -3,1000 ,47796 ,000 -4,4581 -1,7419 2 -2,2000* ,47796 ,000 -3,5581 -,8419 3 ,7000 ,47796 ,590 -,6581 2,0581 5 3,0000* ,47796 ,000 1,6419 4,3581 * 1 -6,1000 ,47796 ,000 -7,4581 -4,7419 * 2 -5,2000 ,47796 ,000 -6,5581 -3,8419 * 3 -2,3000 ,47796 ,000 -3,6581 -,9419 * 43 4 -3,0000 ,47796 ,000 -4,3581 -1,6419 Beispiel: Therapiewirksamkeit symptom Tukey-HSD 1 1,6000 Untergruppe 2 gruppe 5 N 10 3 3 10 3,9000 4 10 4,6000 2 10 6,8000 1 10 7,7000 Signifikanz 1,000 ,590 ,341 Mittelwerte für Gruppen in homogenen Untergruppen werden angezeigt. Grundlage: beobachtete Mittelwerte. Der Fehlerterm ist Mittel der Quadrate(Fehler) = 1.142. 06_anova2 44 Einzelvergleiche Zusammenfassung • Eine ANOVA prüft, ob sich mindestens 2 Gruppen unterscheiden. • Bei einem signifikanten Ergebnis sollte überprüft werden, welche Gruppen sich voneinander unterscheiden. • Wenn a priori spezifische Hypothesen formuliert wurden, können Kontraste gerechnet werden, sonst müssen post-hoc Vergleich vorgenommen werden (Tukey oder Scheffé) • Für die Teststärke (Power) gilt: Kontraste > Tukey > Scheffé • Daher sollte Tukey‘s HSD generell gegenüber dem Scheffé-Test bevorzugt werden. 06_anova2 45