Snímka 1 - Webnode

Download Report

Transcript Snímka 1 - Webnode

ANOVA
Iveta Waczulíková
Peter Slezák
Fakulta matematiky, fyziky
a informatiky UK
Ústav simulačného a
virtuálneho medicínskeho
vzdelávania LF UK
• „Dobré odpovede pochádzajú z
dobrých otázok a nie z ezoterickej
analýzy.“ H.M.Schoolman
• http://www.psych.utah.edu/stat/introstats/w
eb-text/1-ANOVA_indep/index.htm
Porovnávanie viacerých výberov
Výber štatistického testu
Viacnásobné porovnania
• Prečo nie viacej t-testov?
• α = 0,05 → tri porovnania α = (1-(0,95)3)
≈14%
→ analysis of variance (ANOVA)
Predpoklady:
Nezávislé merania (podľa dizajnu)
Normálne rozdelenie populácií
Homogenita variancií (homoskedasticita)
Analysis of Variance (ANOVA)
Základné pojmy: Faktor je kategorická premenná, ktorá môže nadobúdať niekoľko
úrovní, ktoré definujú/odlišujú skupiny.
Experiment má jedno-cestný (one-way), alebo completely randomized, dizajn ak
je študovaných niekoľko úrovní jedného faktora a subjekty/objekty sú náhodne
pridelené k jednotlivým úrovniam faktora.
– príklad: štúdium účinnosti štyroch rôznych antipiretík.
– Avšak vplyv pohlavia a rôznych antipiretík by bol už dvojcestný (two-way) dizajn.
- Zovšeobecnenie dvojvýberového (nepárového) t-testu
- Model One-way ANOVA sa používa na analýzu completely
randomized dizajnu.
One-way ANOVA model
1
• Hypotézy
– H0 : priemery všetkých skupín sú
rovnaké
– H1 : aspoň dva priemery sá
navzájom líšia
• Predpoklady:
– Približne normálne rozdelenie dát
– Homoskedasticita (približne rovnaké
variancie)
– Nezávislé pozorovania
• ANOVA - sú skupinové efekty ak
dôležité? t.j. – existujú rozdiely
medzi priemermi jednotlivých
skupín?
0.8
0.6
0.4
0.2
μ
0
-0.2
-0.4
A
B
Model:
C
D
E
Yik = μ +ak+εik
kde, y ik je ite pozorovani e v ktej skupine,
 k je efekt ktej skupiny,
 je celkový priemer a e ik je chyba.
ANOVA F-štatistika
F-štatistika porovnáva variabilitu, ktorú môžeme pripísať špecifickým zdrojom
(úrovniam faktora) s variabilitou medzi jednotlivcami, ktorý by mali byť približne
rovnaký (subjekty/objekty v rovnakej skupine).
𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡𝑎 𝑚𝑒𝑑𝑧𝑖 𝑠𝑘𝑢𝑝𝑖𝑛𝑜𝑣ý𝑚𝑖 𝑝𝑟𝑖𝑒𝑚𝑒𝑟𝑚𝑖
𝐹=
𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡𝑎 𝑚𝑒𝑑𝑧𝑖 𝑠𝑢𝑏𝑗𝑒𝑘𝑡𝑎𝑚𝑖 𝑣 𝑟á𝑚𝑐𝑖 𝑠𝑘𝑢𝑝í𝑛
Rozdiely v
priemeroch
relatívne
malé v
porovnaní s
celkovou
variabilitou
 F bude malé
 F bude veľké
Rozdiely v
priemeroch
relatívne
veľké v
porovnaní s
celkovou
variabilitou
ANOVA suma štvorcov (Sum of Squares)
Model:
Celková SS
Yik = μ +ak+εik
kde, y ik je ite pozorovani e v ktej skupine,
 k je efekt ktej skupiny,
 je celkový priemer a e ik je chyba.
μ
𝐹=
SS medzi
skupinami
𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡𝑎 𝑚𝑒𝑑𝑧𝑖 𝑠𝑘𝑢𝑝𝑖𝑛𝑜𝑣ý𝑚𝑖 𝑝𝑟𝑖𝑒𝑚𝑒𝑟𝑚𝑖
𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡𝑎 𝑚𝑒𝑑𝑧𝑖 𝑠𝑢𝑏𝑗𝑒𝑘𝑡𝑎𝑚𝑖 𝑣 𝑟á𝑚𝑐𝑖 𝑠𝑘𝑢𝑝í𝑛
SS v rámci skupín
(error)
ANOVA tabuľka
ANOVA
Source of Variation
Between Groups
Within Groups
SS
1,121
2,132
Total
3,253
Source of
Variation
df
4
30
Total
SS
df
SSA
+
SSE
MS
SSA
k-1
SSA/(k1)
SSE
N-k
SSE/(Nk)
SST
N-1
F 
SST =
F
P-value
3,945 0,0109
34
Between Groups
Within Groups
(error)
MS
0,280
0,071
MS
medzi _ skupinami
MS
v _ rámci _ skupín
F
F štatistika má Fisher-Snedecorovo F
rozdelenie s (k-1),(N-k) stupňami
rovnosti
Overenie predpokladov
•
Normalita rozdelenia
– Graficky
– Testy
– Popisná štatistika
• Homogenita rozptylov
–
Levene’s, Bartlett’s, Fliegner-Killeen’s test …
• Keď nie sú predpoklady splnené:
– Robustnosť testu
– Normalita
• Transformácia dát
• Kruskal-Wallis a ďalšie neparametrické testy
– Homogenita rozptylov
• Transformácia dát
• Welch’s ANOVA, Brown-Forsythe’s test
• reziduá
Obsah:
1.
2.
3.
4.
Štatistické testovanie hypotéz
Výber vhodného štatistického testu
ANOVA
Post-hoc testy, viacnásobné porovnania
Metódy viacnásobných porovnaní (MCP)
• Výsledok analýzy variancie – minimálne
dva priemery sa navzájom odlišujú. Z tejto
analýzy však nevieme povedať ktoré.
• Základné pojmy
– Chyba prvého druhu (chyba typu α) – je
definovaná ako pravdepodobnosť zamietnutia
nulovej hypotézy, keď je táto pravdivá.
– Type I error rate
Za predpokladu nezávislých porovnaní je
pravdepodobnosť výskytu aspoň jedného
významného výsledku (p < 0,05) pôsobením
náhody
100 (1.00 - 0.95N)
Kde N je celkový # porovnaní
α
IBM SPSS 20
Metódy viacnásobných
porovnávaní
• Bonferroniho, Dunnettova, Tukeyho HSD, (Tukey–
Krammer), Newman-Keulsova, Duncanova,
Fisherovo LSD, Scheffého...
• Treba rozdeliť chybu prvého druhu medzi všetky
vzájomné porovnania
• Čím menej porovnaní tým lepšie!
• Bonferroniho
• Modifikované t-testy
• α’ = α/c, kde c – počet porovnaní
t 
x1  x 2
Se  1
1 




df e  n 1
n 2 
Reziduálny rozptyl z ANOVA tabuľky
Type I error rate
Alternative
True
Null
True
∑
Called
Significant
S
V
R
Not Called
Significant
T
U
m-R
m-m0
m0
m
„Počítanie“ Chýb
Testujeme hypotézy H1, H2, ..., Hm
m0 = # pravdivých nulových hypotéz
R = # zamietnutých nulových
hypotéz
V = # chýb I typu (α) i.e. Error
rate
• Keď je v článku uvedené “p-values were adjusted for the number of
hypothesis tests performed (number of comparisons)” myslené je tým
kontrolovanie výskytu chyby I typu (Type I error rate - V)
• Aktívna oblasť štatistiky – veľké množstvo (aj nových) metód
• Viacej rozdielnych prístupov s rovnakým cieľom avšak dosahovaný
fundamentálne rôznym spôsobom
Kontrola výskytu chyby I typu (error rate)
• Comparisonwise error rate (CWER) – každé individuálne porovnanie
(hypotéza) je testované na dopredu stanovenej hladine významnosti α (= 0,05)
– Hlavne exploratívne štúdie a plánované porovnania
• Familywise (experimentwise) error rate (FWER) – celková
pravdepodobnosť chyby I typu pre všetky porovnania (rodinu) je rovná dopredu
stanovenej hladine významnosti α. Chyba I typu sa (v celej rodine porovnaní)
vyskytne najmenej jeden krát s pravdepodobnosťou α.
• Weak
• Strong
– Vhodné pri „konfirmatórnych“ štúdiách
• False discovery rate (FDR) – kontrolovaná je predpokladaná proporcia
chýb I typu medzi všetkými zamietnutými hypotézami. FDR je dizajnovaná na
kontrolu proporcie falošne pozitívnych výsledkov v skupine všetkých
pozitívnych výsledkov (zamietnutí nulovej hypotézy)
– Benjamini and Hochberg, 1995
# „chybne“
𝑽
– Hlavne exploratívne štúdie s veľkým
𝑭𝑫𝑹 =
signifikantných
Celkový
#
𝑹
počtom porovnaní (stovky, tisíce)
signifikantných
Metódy viacnásobných porovnaní po
one-way ANOVA delenie „z praktického
pohľadu“
Porovnávame k skupín s priemermi μ1, μ2, ..., μk
Typy viacnásobných porovnaní:
1. All-Contrast Comparisons - všetky možné kontrasty
2. All-Pairwise Comparisons - všetky párové porovnania
k(k - 1)/2
3. Multiple Comparisons with the Best – porovnanie všetkých skupín s
najlepšou skupinou (najvyšší/najnižší priemer)
4. Multiple Comparisons with the Control – porovnanie s kontrolnou
skupinou
Delenie z HSU, 1996
Kontrol
A
B
C
Metódy viacnásobných porovnaní po
one-way ANOVA delenie „z praktického
pohľadu“
Klasifikácia metód viacnásobného porovnania:
– Single-step (simultaneous)
• Rovnaká adjustácia na každú hodnotu pravdepodobnosti p (pvalue)
• umožňujú spočítať simultánne intervaly spoľahlivosti
– Stepwise procedures (sequential)
• Adjustácia je prispôsobená pre každú p hodnotu
• Vo všeobecnosti majú väčšiu silu
Post-hoc testy (delenie)
IBM SPSS 20
Single step
Stepwise
Porovnanie
skontrolou
IBM SPSS 20
Comparisonwise error rate - CWER
Familywise (experimentwise) error rate - FWER
(Familywise
week)
(experimentwise) error rate - FWER
(srong)
Pozn.: LSD môže byť buď FWER (week) alebo CWER podľa toho či sa použije len po významnom výsledku
ANOVA alebo bez ohľadu naň.
Niečo málo k ďalším metódam čo SPSS
neobsahuje
InVivoStat - http://invivostat.co.uk
Ďalšie metódy:
• Hsu’s multiple comparisons with best
(MCB)
• Holm (Shaffer, Hommel, Hochberg)
• Stepwise Dunnet
• FDR – False Discorery Rate (Benjamini,
Hochberg, 1995)
• ↑ sily FDR je za cenu ↑ počtu porovnaní, ktoré sú chybne prehlásené za
signifikantné. FDR zaisťuje, aby výskyt týchto chýb bol na vopred definovanej
úrovni
• FDR kontrola má zmysel pri nekonfirmatórnych/exploratívnych nastaveniach
ako sú generické pre-klinické štúdie, kde je určitá proporcia chýb
akceptovateľná
Benjamini and Hochberg. Controlling the False Discorery Rate: a Practical
and Powerful Approach to Multiple TestingJ R Stat Soc Series B, 57, 1995,
Benjamini a Hochberg FDR
• Pre kontrolu FDR na úrovni δ:
1. Usporiadajte neadjustované hodnoty p:
p1 ≤ p2 ≤ ... ≤ pm
2. Nájdite porovnanie/test s najvyšším poradím j, pre ktorý je p
hodnota, pj, rovná alebo menšia ako (j/m) x δ
3. Testy/porovnania s poradím 1, 2, ..., j prehláste za signifikantné
𝒋
𝒑 𝒋 ≤𝜹
𝒎
- Tento prístup sa používa na „analýzu“ súboru p hodnôt a nie je obmedzení na
použitie pri ANOVA
Holm (Bonferoni)
• Pre testovanie na hladine významnosti α (i.e. 5%):
1. Usporiadajte neadjustované hodnoty p od najmenšieho po najväčšie
2. Definujte číslo K rovné počtu porovnaní, ktoré plánujete spraviť
3. Začnite s najmenšou p hodnotou a položte i = k. Ak je táto p
hodnota
•
•
4.
väčšia ako α/i uzatvárame, že žiadne z analyzovaných k porovnaní nie
je štatisticky významné
menšia ako α/i uzatvárame, že porovnanie, ktorému odpovedá táto p
hodnota je štatisticky významné a pokračujeme.
Pokračujeme s druhou najmenšou p hodnotou. Položíme i = k-1 a
pokračuje ako v predošlom bode až pokým nenájdeme porovnanie,
ktoré nie je štatisticky významné
- Tento prístup sa používa na „analýzu“ súboru p hodnôt a nie je obmedzení na
použitie pri ANOVA
Holm, S. (1979). A simple sequentially rejective multiple test procedure. Scand J
Záver
Misconception:
• používanie párových porovnaní len po významnom výsledku ANOVA
Ktoré metódy používať:
• Neexistuje jedna „najlepšia“ metóda
– Potrebujeme simultánne intervaly spoľahlivosti (Tukey HSD, Dunnet)
– Nepotrebujeme CI – strong FWER stepwise metódy
•
•
•
•
•
•
Protected (t-test) LSD (pre 3 skupiny)
REGW-., Holm (alebo podobné)
Stepwise Dunnet
FDR – pri veľkom počte porovnaní (stovky, tisíce)
Kontrasty pre plánované hypotézy
Metódy pre prípad nerovnakých rozptylov
• Výsledky ANOVA (F-test) a MCP nemusia súhlasiť
Ďalšie modely analýzy variancie
•
•
•
•
•
Two-way (multi-way) ANOVA
Hierarchický dizajn (fully nested) ANOVA
Faktoriálový dizajn
Dizajn s opakovanými meraniami
Latin squares
Two-way ANOVA
• V istom zmysle zovšeobecnenie párového t-testu
• Model: yij = μ + ai + bj + (γij) + εij
• Pevný efekt – je nenáhodný, volí ho experimentátor, dáta sú
väčšinou zbierané pri všetkých možných kategóriách tohto
faktora - nezávislej premennej, (napr.: BHR, SHR,
normotenzné)
• Náhodný efekt – väčšinou ich určuje príroda, tvoria
nekonečne veľký súbor (napr.: vrhy mláďat)
Tabuľka: Two-way ANOVA
Interakcie
- keď sú prítomné
viac ako dva
faktory
- sťažujú
interpretáciu
výsledkov
Neparametrické metódy analýzy variancie
• Kruskal-Wallisov test (jednofaktorová ANOVA)
• Zovšeobecnenie Mann-Whitney testu
• H0 : v každom z pozorovaných súborov je rovnaké rozdelenie
vyšetrovanej náhodnej veličiny
• Test založený na poradí dát (rovnako ako Mann-Whitey)
• Test je citlivý voči posunutiu (zmena strednej hodnoty)
• Predpoklady:
- Náhodné výbery z populácií
- Nezávislosť meraní v každom výbere a vzájomná nezávislosť
medzi výbermi
- Mierka dát minimálne ordinálna
• Neparametrické metódy viacnásobných porovnaní
• Friedmanov test (dvojfaktorová ANOVA)
Čo nebolo spomenuté:
•
•
•
•
•
Fixed, random, mixed effekty
Zložitejšie dizajny a modely (nested, latin squares, factorial ...)
GLM: Vzťah t-test, ANOVA, OLS regresia
Kontrasty (ortogonálne, variance partitioning)
plánované vs. neplánované porovnania