Transcript Varianciaanalízis
Varianciaanalízis
12. gyakorlat
• ANOVA: ANalysis Of VAriance • Neve félrevezető: nem varianciák, hanem átlagok összevetésére dolgozták ki • Lényegében a kétmintás t-próba kiterjesztése kettőnél több alapsokaság ismeretlen várható értékének az összehasonlítására.
• Mit vizsgálunk az ANOVA-val: egy folytonos változónak vajon eltérőek-e a várható értékei egy nominális változó különböző kategóriáiban, avagy több nominális változó kategóriáiból képezhető kategória-kombinációkban.
B faktor A faktor
A csop 1 A csop 2 B csop 1 A1B1 A2B1 B csop 2 A1B2 A2B2 B csop 3 A1B3 A2B3 Folytonos változó: függő változó Nominális változó(k): magyarázó változók Faktor (tényező), a kategóriák csoportok.
• A faktorok számától függően beszélhetünk – egyfaktoros (egytényezős, egy szempontos, egy utas,
one-way ANOVA
) – többfaktoros (többtényezős, több szempontos, több utas,
multi-way ANOVA
) varianciaelemzésről. • A csoportokban levő mintavételi objektumok száma ha – azonos minden csoportban → kiegyensúlyozott (
balanced
) elrendezésű ANOVA – eltérő a csoportokban → kiegyensúlyozatlan (
unbalanced
) elrendezésű ANOVA
• A varianciaanalízis munkamenete: – megvizsgáljuk, hogy van-e hatása a faktoroknak (F próba) – ellenőrizzük, hogy az adatainkra illesztett ANOVA modell teljesíti-e az alkalmazhatósági feltételeket – ha a modellünk megfelel a feltételeknek, akkor ún. post-hoc teszteket alkalmazva megvizsgáljuk azt, hogy mely csoportok átlagai különböznek egymástól.
Egyfaktoros ANOVA kiegyensúlyozott elrendezéssel
• A módszer alapgondolata: – A függő változó teljes varianciája additív módon felbontható két részre: • csoportok közötti varianciára (
between group variance
összevont Y adatok átlaga (ún. főátlag) körüli variációja; ) a csoportátlagoknak az a magyarázó változó hatását foglalja magába • csoporton belüli varianciára (
within group variance
) - az egyedi yi megfigyeléseknek az adott csoportjuk átlaga körüli ingadozásából eredő variáció; a véletlen eseti hibát foglalja magába.
y Cl
• Ha a faktornak van hatása Y-ra: – a csoportok közötti variancia rész nagyobb, mint a csoporton belüli variancia. • Ha nincs hatása Y-ra: – a csoportok közötti variancia megegyezik a csoporton belüli varianciával – ez azt jelenti, hogy Y értékét nem befolyásolja az, hogy egy megfigyelés a faktor melyik csoportjába tartozik, az Y értékei között tapasztalt különbségek a véletlen ingadozásnak tudhatók be.
• Az egyes varianciafrakciók számszerűsítése eltérés-négyzetösszegekkel történik • A teljes eltérés-négyzetösszeg (SS total ) a csoportok közötti (SS between ) és csoporton belüli (SS within ) eltérés-négyzetöszeg összege:
SS total
SS between
SS within
• A lineáris regressszóhoz hasonlítva: a csoportok közötti eltérés-négyzetösszeg a regressziós, míg a csoporton belüli pedig a hiba eltérés-négyzetösszegnek felel meg.
• A függő változó teljes varianciája:
SS total
i
n
1 (
y i
Y
) 2 • A csoportok közötti variancia:
SS between
j k
1 (
y j
Y
) 2 • A csoporton belüli variancia:
SS within
j
1
l m k
1 (
y jl
y j
) 2
A faktor hatásának szignifikanciatesztje
• Próbastatisztika: A csoportok közötti és a csoporton belüli eltérés négyzetösszeget osztva a szabadsági fokaikkal:
közepes eltérés-négyzetösszegeket (Mean of Sum of squares).
A csoportok közötti és a csoporton belüli közepes eltérés-négyzetösszeg hányadosa az F próbastatisztika (ld. a köv. dián!) • H0: a csoportok alapsokaságbeli átlagai azonosak: µ 1 = µ 2 = … = µ k • H1: van legalább két olyan csoport, melyeknek különbözik az alapsokaságbeli átlaga. (egyoldali hipotézis!)
A variancia felbontás és az F-próba eredménye - ANOVA-táblázat Variancia forrása Csoportok közötti (between groups) Csoporton belüli (within groups) Teljes (total) Szabad sági fok (df) k-1 k×m-1 Eltérés négyzeösszeg SS (Sum of Squares) SS between közepes eltérés négyzetösszeg MS (Mean Sum of Squares) MS between = SS between /k-1 k(m-1) SS within SS total MS SS MS within within total = /k(m-1) =SS total /k×m-1 Próbastatisztika (F-value) F= MS betwen /MS within p-érték p
• Alkalmazhatósági feltételek: – függetlenség: a mintavételi objektumok függetlenek egymástól – normalitás: a csoportokon belül a függő változó normál eloszlású – homogenitás: a csoportokban a függő változó szórása azonos, vagyis nincs összefüggés Y csoportbeli szórása és a csoport várható értéke között • Az alkalmazhatósági feltételek ellenőrzése Az ANOVA modell feltételeinek ellenőrzése a regresszióelemzéshez hasonlóan a reziduálisok vizsgálatával történik