Varianciaanalízis

Download Report

Transcript Varianciaanalízis

Varianciaanalízis

12. gyakorlat

• ANOVA: ANalysis Of VAriance • Neve félrevezető: nem varianciák, hanem átlagok összevetésére dolgozták ki • Lényegében a kétmintás t-próba kiterjesztése kettőnél több alapsokaság ismeretlen várható értékének az összehasonlítására.

• Mit vizsgálunk az ANOVA-val: egy folytonos változónak vajon eltérőek-e a várható értékei egy nominális változó különböző kategóriáiban, avagy több nominális változó kategóriáiból képezhető kategória-kombinációkban.

B faktor A faktor

A csop 1 A csop 2 B csop 1 A1B1 A2B1 B csop 2 A1B2 A2B2 B csop 3 A1B3 A2B3 Folytonos változó: függő változó Nominális változó(k): magyarázó változók Faktor (tényező), a kategóriák csoportok.

• A faktorok számától függően beszélhetünk – egyfaktoros (egytényezős, egy szempontos, egy utas,

one-way ANOVA

) – többfaktoros (többtényezős, több szempontos, több utas,

multi-way ANOVA

) varianciaelemzésről. • A csoportokban levő mintavételi objektumok száma ha – azonos minden csoportban → kiegyensúlyozott (

balanced

) elrendezésű ANOVA – eltérő a csoportokban → kiegyensúlyozatlan (

unbalanced

) elrendezésű ANOVA

• A varianciaanalízis munkamenete: – megvizsgáljuk, hogy van-e hatása a faktoroknak (F próba) – ellenőrizzük, hogy az adatainkra illesztett ANOVA modell teljesíti-e az alkalmazhatósági feltételeket – ha a modellünk megfelel a feltételeknek, akkor ún. post-hoc teszteket alkalmazva megvizsgáljuk azt, hogy mely csoportok átlagai különböznek egymástól.

Egyfaktoros ANOVA kiegyensúlyozott elrendezéssel

• A módszer alapgondolata: – A függő változó teljes varianciája additív módon felbontható két részre: • csoportok közötti varianciára (

between group variance

összevont Y adatok átlaga (ún. főátlag) körüli variációja; ) a csoportátlagoknak az a magyarázó változó hatását foglalja magába • csoporton belüli varianciára (

within group variance

) - az egyedi yi megfigyeléseknek az adott csoportjuk átlaga körüli ingadozásából eredő variáció; a véletlen eseti hibát foglalja magába.

y Cl

• Ha a faktornak van hatása Y-ra: – a csoportok közötti variancia rész nagyobb, mint a csoporton belüli variancia. • Ha nincs hatása Y-ra: – a csoportok közötti variancia megegyezik a csoporton belüli varianciával – ez azt jelenti, hogy Y értékét nem befolyásolja az, hogy egy megfigyelés a faktor melyik csoportjába tartozik, az Y értékei között tapasztalt különbségek a véletlen ingadozásnak tudhatók be.

• Az egyes varianciafrakciók számszerűsítése eltérés-négyzetösszegekkel történik • A teljes eltérés-négyzetösszeg (SS total ) a csoportok közötti (SS between ) és csoporton belüli (SS within ) eltérés-négyzetöszeg összege:

SS total

SS between

SS within

• A lineáris regressszóhoz hasonlítva: a csoportok közötti eltérés-négyzetösszeg a regressziós, míg a csoporton belüli pedig a hiba eltérés-négyzetösszegnek felel meg.

• A függő változó teljes varianciája:

SS total

i

 

n

1 (

y i

Y

) 2 • A csoportok közötti variancia:

SS between

j k

  1 (

y j

Y

) 2 • A csoporton belüli variancia:

SS within

j

1

l m k

   1 (

y jl

y j

) 2

A faktor hatásának szignifikanciatesztje

• Próbastatisztika: A csoportok közötti és a csoporton belüli eltérés négyzetösszeget osztva a szabadsági fokaikkal:

közepes eltérés-négyzetösszegeket (Mean of Sum of squares).

A csoportok közötti és a csoporton belüli közepes eltérés-négyzetösszeg hányadosa az F próbastatisztika (ld. a köv. dián!) • H0: a csoportok alapsokaságbeli átlagai azonosak: µ 1 = µ 2 = … = µ k • H1: van legalább két olyan csoport, melyeknek különbözik az alapsokaságbeli átlaga. (egyoldali hipotézis!)

A variancia felbontás és az F-próba eredménye - ANOVA-táblázat Variancia forrása Csoportok közötti (between groups) Csoporton belüli (within groups) Teljes (total) Szabad sági fok (df) k-1 k×m-1 Eltérés négyzeösszeg SS (Sum of Squares) SS between közepes eltérés négyzetösszeg MS (Mean Sum of Squares) MS between = SS between /k-1 k(m-1) SS within SS total MS SS MS within within total = /k(m-1) =SS total /k×m-1 Próbastatisztika (F-value) F= MS betwen /MS within p-érték p

• Alkalmazhatósági feltételek: – függetlenség: a mintavételi objektumok függetlenek egymástól – normalitás: a csoportokon belül a függő változó normál eloszlású – homogenitás: a csoportokban a függő változó szórása azonos, vagyis nincs összefüggés Y csoportbeli szórása és a csoport várható értéke között • Az alkalmazhatósági feltételek ellenőrzése Az ANOVA modell feltételeinek ellenőrzése a regresszióelemzéshez hasonlóan a reziduálisok vizsgálatával történik