ANALÝZA ROZPTYLU prof.Ing. Zlata Sojková,CSc. Analýza rozptylu • V praxi často je potrebné porovnávať väčší počet nezávislých náhodných výberov z hľadiska úrovne, t.
Download ReportTranscript ANALÝZA ROZPTYLU prof.Ing. Zlata Sojková,CSc. Analýza rozptylu • V praxi často je potrebné porovnávať väčší počet nezávislých náhodných výberov z hľadiska úrovne, t.
ANALÝZA ROZPTYLU prof.Ing. Zlata Sojková,CSc. 1 Analýza rozptylu • V praxi často je potrebné porovnávať väčší počet nezávislých náhodných výberov z hľadiska úrovne, t. zn. zaujíma nás hypotéza: H 0 : 1 2 3 ...i ... m H 1 : i pre aspoň jeno i (i = 1, 2,…m) pre m > 2, kde i , i =1, 2, …m sú stredné hodnoty z normálne rozdelených základných súborov s rovnakým rozptylom 2 , t.j. N(, 2) • K overeniu tejto hypotézy sa používa dôležitá štatistická metóda, nazývaná Analýza rozptylu, skrátene ANOVA (resp. AR) prof.Ing. Zlata Sojková,CSc. 2 • V praxi sa AR používa vtedy, ak skúmame vplyv jedného resp. viacerých faktorov (ošetrení) na skúmaný štatistický znak • Faktory budeme označovať A, B,…a v AR ich budeme zohľadňovať len ako kvalitatívne znaky s rôznymi obmenami - úrovňami faktora • výsledný štatistický znak bude kvantitatívny a označíme ho Y • najčastejšie sa AR používa pri vyhodnocovaní biologických experimentov • Všimneme si najjednoduchší prípad AR s jedným faktorom, ktorú nazývame jednofaktorová AR prof.Ing. Zlata Sojková,CSc. 3 • Úrovňou faktora budeme označovať: – určité množstvo kvantitatívneho faktora, napr. množstvo dávok čistých živín pri hnojení, rôzne príjmové skupiny domácností, – určitý druh kvalitatívneho faktora, napr. rôzne odrody tej istej plodiny, spôsoby umiestnenia výrobkov v predajni, • AR je zovšeobecnením Studentovho t-testu pre nezávislé výbery • AR zároveň skúma vplyv kvalitatívneho faktora (faktorov) na výsledný kvantitatívny znak - teda analyzuje vzťahy medzi znakmi prof.Ing. Zlata Sojková,CSc. 4 Schéma jednofaktorového experimentu “vyvážený pokus” opakovania Úrovne faktora A 1 2 … i … m 1 y11 y21 yi1 ym1 2… j… y12 y1j y22 y2j ……….. yi2 yij ……….. ym2 ymj Celkový súčet prof.Ing. Zlata Sojková,CSc. riadkový súčet riadkový priemer n y1n y2n Yi . Y1. Y2. yi . y1. y2. yin Yi. yi. ymn Ym. ym. Y.. y.. celkový priemer 5 riadkový súčet: Yi . celkový súčet: n y j 1 Y .. ij m n y i 1 j 1 ij riadkový priemer: n 1 1 yi . yij Yi . n j 1 n celkový priemer: m 1 y.. N i 1 n y j 1 prof.Ing. Zlata Sojková,CSc. ij , N m .n 6 Model pre výslednú napozorovanú hodnotu: yij μ αi eij kde i = 1, 2,…, m j = 1,2,…, n Kde - očakávaná hodnota pre všetky úrovne faktora a napozorované hodnoty, i - efekt i-tej úrovne faktora A eij - náhodná chyba, ktorým je každé meranie zaťažené, resp. výsledok vplyv náhodných činiteľov prof.Ing. Zlata Sojková,CSc. 7 yij μ α i eij alebo yij μ i eij Nulovú hypotézu potom môžme formulovať aj nasledovne: Ho : 1 = 2 =… i = m = 0 t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H1: i 0 pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly prof.Ing. Zlata Sojková,CSc. 8 Odhadmi jednotlivých parametrov sú nasledovné výberové charakteristiky: est y.. esti yi . est i yi . - y.. est eij yij - yi . yij μ αi eij yij μ αi eij čo môžme prepísať: ( yij - y..) (yi . - y..) (yij yi .) prof.Ing. Zlata Sojková,CSc. 9 Porovnanie dvoch experimentov s tromi úrovňami faktora y .. y1 y3 y2 y3 y1 y .. y2 1 2 3 1 prof.Ing. Zlata Sojková,CSc. 2 3 10 Princíp Analýzy rozptylu Podstata analýzy rozptylu spočíva v rozklade celkovej variability výsledného skúmaného znaku m n m m n 2 2 2 ( y y ) n ( y y ) ( y y ) ij .. i. .. ij i. i 1 j 1 i 1 Sc Celková variabilita S1 Variabilita medzi úrovňamifaktora, spôsobená pôsobením faktora A, “variabilita medzi triedami, riadkami” prof.Ing. Zlata Sojková,CSc. i 1 j 1 Sr Variabilita náhodná, reziduálna, “vo vnútri tried 11 prof.Ing. Zlata Sojková,CSc. 12 3 2 1 Súčet štvorcov Stupne Priemerný voľnosti štvorec odchýlok (1/2) ANOVA Variabilita Variabilita medzi triedami Reziduálna variabilta n ( yi . y.. ) 2 i 1 n i 1 j 1 m-1 s12 m.n - m sr2 S1 ( y m Celková variabilita 2 m m 4 F-krité rium ij yi . ) 2 s1 F 2 sr Sr n 2 ( y y ) ij .. i 1 j 1 Sc N-1= m .n-1 prof.Ing. Zlata Sojková,CSc. 13 Testovacie kritérium možno pre jednofoktorovú AR - vyvážený pokus zapísať podrobne vzťahom: m n ( yi . y ..) 2 i 1 2 s1 F 2 sr m 1 m n (y i 1 j 1 ij yi . ) 2 N m Hodnotu F testovacieho kritéria porovonáme s príslušnou tabuľkovou hodnotou F-rozdelenia: F , pre stupne voľnosti (m-1) a (m.n - m) prof.Ing. Zlata Sojková,CSc. 14 Rozhodnutie o výsledku testu: • Ak F vyp F. ((m-1,(N-m)) Ho zamietame, v takom prípade je aspoň efekt jednej úrovne faktora preukazný, teda priemerna úroveň ukazovateľa sa štatisticky významne líši od ostatných. Resp. aspoň jeden efekt i je štatisticky významne odlišný od nuly. Ak F vyp F Ho nezamietame Obor nezamietnutia Ho prof.Ing. Zlata Sojková,CSc. F kritický obor, obor zatnutia H0 15 Ak nulovú hypotézu zamietame: • Zistili sme len, že je preukazný vplyv faktora na skúmaný znak, • ďalej je potrebné skúmať medzi ktorými úrovňami faktora je a medzi ktorými nie je preukazný rozdiel - k tomúto účelu sa používajú testy kontrastov • Medzi testy kontrastov patria: Duncanov test, Scheffeho test, Tuckey test a iné….. prof.Ing. Zlata Sojková,CSc. 16 Podmienky použitia AR: • Výbery pochádzajú z normálnych rozdelení, narušenie tohto predpokladu nemá podstatnejší vplyv na výsledky AR • štatistická nezávislosť náhodných chýb eij • zhodné reziduálne rozptyly 12 = 22 = …. = 2 , t.j. D(eij) = 2 pre všetky i = 1,2…., m, j=1,2, …n tento predpoklad je závažnejší a možno ho overovať Cochranovým, resp. Bartlettovým testom prof.Ing. Zlata Sojková,CSc. 17 Schéma jednofaktorového experimentu “nevyvážený pokus” Úrovne faktora Rôzny počet opakovaní A 1 2… j … 1 y11 y12 y1j ... 2 y21 y22 y2j ... … ……….. i yi1 yi2 yij ... … ……….. m ym1 ym2 ymj ... riadkový riadkový súčet priemer ni n1 n2 Yi . Y1. Y2. yi . y1. y2. ni Yi. yi. nm Ym. ym. Y.. y.. m Kde N ni i 1 prof.Ing. Zlata Sojková,CSc. celkový priemer 18 3 2 1 Súčet štvorcov Stupne Priemerný voľnosti štvorec odchýlok (1/2) ANOVA Variabilita Variabilita medzi triedami Reziduálna variabilta n ( y m i y.. ) 2 i. m-1 s12 N-m sr2 S1 ni ( y i 1 j 1 m Celková variabilita 2 m i 1 4 F-krité rium ij yi . ) 2 Sr ni 2 ( y y ) ij .. i 1 j 1 s1 F 2 sr N-1 S m N ni i 1 prof.Ing. Zlata Sojková,CSc. 19 prof.Ing. Zlata Sojková,CSc. 20 Dvojfaktorová analýza rozptylu bez opakovania • Uvažujme vplyv faktora A, ktorý skúmame na m úrovniach, i = 1,2,….,m • ďalej uvažujme faktor B, ktorý sledujeme na n úrovniach , j = 1,2, …, n • na každej i-tej úrovni faktora A a j-tej úrovni faktora B máme len jedno pozorovanie (opakovanie) yij • overujeme tak vplyv dvoch nulových hypotéz prof.Ing. Zlata Sojková,CSc. 21 Schéma dvojfaktorového experimentu s jedným pozorovaním v každej podtriede DAR riadkové súčty n-úrovní faktora B B m-úrovní faktora A A 1 2 … i … m Stĺpcové súčty stĺpcové priemery 1 y11 y21 yi1 ym1 Y.1 y.1 2 … j … y12 y1j y22 y2j ……….. yi2 yij ……….. ym2 ymj n y1n y2n yi . Y1. y2. Riadkové priemery yin Yi. yi. ymn Ym. ym. Y.2 ... Y.j ... Y.1 y.2 ... y.j ... y.1 prof.Ing. Zlata Sojková,CSc. Yi . Y1. Y2. Y.. celkový priemer y.. 22 Model pre skúmaný znak môžme zapísať yij μ α i j eij Overujeme platnosť dvoch nulových hypotéz Hypotéza pre faktor A: Ho 1: 1 = 2 =… i = m = 0 t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H11 : i 0 pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly prof.Ing. Zlata Sojková,CSc. 23 Hypotéza pre faktor B: Ho 2: 1 = 2 =… j = n = 0 t.j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H12 : j 0 pre aspoň jedno j (j = 1,2…m) efekt j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly prof.Ing. Zlata Sojková,CSc. 24 DAR Variabilita Variabilita medzi riadkami 1 Súčet štvorcov odchýlok 2 Stupne voľnosti 3 Priem. štvorec (1/2) 4 F-krité rium 2 S1 m-1 s12 n-1 s22 Variabilita medzi stĺpcami S2 Reziduálna variabilta Sr (m-1)(n-1) Celková variabilita Sc m.n -1 prof.Ing. Zlata Sojková,CSc. s1 F1 2 sr 2 s2 F2 2 sr sr2 25 Rozklad celkovej variability skúmaného znaku: Sc= S1 + S2 + S r m S1 n ( yi . y ..) 2 Variabilita medzi riadkami, vplyv faktora A i 1 n S 2 m ( y . j y ..) 2 j 1 m Variabilita medzi stĺpcami, vplyv faktora B n S r ( yij yi . y . j y ..) 2 i 1 j 1 m ni Sc ( yij y ..) 2 Reziduálna variabilita Celková variabilita i 1 j 1 prof.Ing. Zlata Sojková,CSc. 26 Dvojfaktorová analýza rozptylu s opakovaním • Uvažujme vplyv dvoch faktorov: faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m a faktora B, ktorý sledujeme na n - úrovniach , j = 1,2, …, n • Skúmame nielen individuálny vplyv daných faktorov, ale aj ich vzájomné pôsobenie (interakciu) • Pre každú kombináciu úrovní máme viac pozorovaní (opakovaní) yij • Overujeme tak vplyv troch nulových hypotéz prof.Ing. Zlata Sojková,CSc. 27 Schéma dvojfaktorového experimentu s interkaciou B1 Faktor A Faktor B B2 ... Bn A1 yijk Priemer A1B1 Priemer A1B2 Priemer A1Bn Priemer A1 Priemer A2B1 Priemer A2B2 Priemer A2Bn Priemer A2 Priemer AmB1 Priemer AmB2 Priemer AmBn Priemer B1 Priemer B2 Priemer Am Celkový priemer A2 . . . Am prof.Ing. Zlata Sojková,CSc. ... Priemer Bn 28 prof.Ing. Zlata Sojková,CSc. 29 Testy kontrastov • v prípade, že H0 zamietame, zaujíma nás, medzi ktorými strednými hodnotami existujú štatisticky významné rozdiely • existuje široká škála testov zameraná na viacnásobné porovnanie výberových priemerov • je možné vytvoriť m*(m-1)/2 kontrastov prof.Ing. Zlata Sojková,CSc. 30 Testy kontrastov 1. 2. 3. 4. 5. Fischerov LSD test Duncanov test Student-Newman-Keulsov test Tukeyho test Scheffeho test prof.Ing. Zlata Sojková,CSc. 31 Fischerov LSD test • LSD = Least Significant Difference • je založený na t-teste • štatisticky významný rozdiel je potvrdený, ak platí vzťah: y i. y j. t , m( n 1) 2s 2r n • kde: t , m( n 1) kritická hodnota t rozdelenia pri m(n-1) stupňoch voľnosti prof.Ing. Zlata Sojková,CSc. 32 Duncanov test • štatisticky významný rozdiel je potvrdený, ak platí vzťah: y i. y j. D 2 sr n • kde: D tabuľovaná hodnota Duncanovho testu pre daný počet rozdielov a pri reziduálnom stupni voľnosti prof.Ing. Zlata Sojková,CSc. 33 Student-Newman-Keulsov test • štatisticky významný rozdiel je potvrdený, ak platí vzťah: y i. y j. g 2 sr n • kde: g tabuľovaná hodnota StudentNeumannovho - Keulsovho testu pre daný počet porovnávaných rozdielov a pri reziduálnom stupni voľnosti prof.Ing. Zlata Sojková,CSc. 34 Tukeyho test • štatisticky významný rozdiel je potvrdený, ak platí vzťah: s 2r y i. y j. q , m, m ( n 1) . n • kde: q , m, m(n 1) tabuľovaná hodnota Tukeyho testu. prof.Ing. Zlata Sojková,CSc. 35 Scheffeho test • štatisticky významný rozdiel je potvrdený, ak platí vzťah: 1 1 y i. y j. .( m 1).s 2r .F,( m 1),m ( n 1) ni n j • kde: F, (m1),m(n 1)kritická hodnota F rozdelenia pri (m-1) a m(n-1) stupňoch voľnosti prof.Ing. Zlata Sojková,CSc. 36 Ktorý test použiť? Test Sila testu (1-β) LSD najvyššia Duncan StudentNewman-Keuls Tukey Scheffe viac konzervatívny,, menej pravdepodobné, že bude objavený skutočný rozdiel najnižšia prof.Ing. Zlata Sojková,CSc. Chyba I. druhu (α) najvyššia viac pravdepodobné,, že bude určený nesprávny rozdiel najnižšia 37 Ktorý test použiť? • závisí, ktorý typ chyby je akceptovateľnejší z hľadiska analýzy daného problému, t.j. neurčenie rozdielu, ak skutočne existuje, resp. určenie rozdielu, ktorý neexistuje. prof.Ing. Zlata Sojková,CSc. 38 prof.Ing. Zlata Sojková,CSc. 39 Testy kontrastov - Statgraphics • Multiple Range Tests Method: 95,0 percent LSD Count Col_4 5 Col_3 5 Col_1 5 Col_2 5 Mean 303,8 337,0 344,2 349,8 Homogeneous Groups X XX X X Contrast Sig. Difference +/- Limits Col_1 - Col_2 -5,6 38,7085 Col_1 - Col_3 7,2 38,7085 Col_1 - Col_4 * 40,4 38,7085 Col_2 - Col_3 12,8 38,7085 Col_2 - Col_4 * 46,0 38,7085 Col_3 - Col_4 33,2 38,7085 * denotes a statistically significant difference. prof.Ing. Zlata Sojková,CSc. 40 Testy kontrastov - Statgraphics Means and 95,0 Percent LSD Intervals 380 Mean 360 340 320 300 280 Col_1 Col_2 Col_3 prof.Ing. Zlata Sojková,CSc. Col_4 41 Overenie zhody variability • predpokladáme, že skúmané výberové súbory majú približne normálne rozdelenie a rozdiely rozptylov medzi testovanými skupinami sú nepreukazné. • H0: 2 1 22 .... 2m 2 • Testy: – Cochranov test – Hartleyov test – Bartlettov test prof.Ing. Zlata Sojková,CSc. 42 Cochranov test • je ho vhodné použiť, ak u skúmaných výberových súborov sú značné rozdiely medzi rozptylmi • testovacia charakteristika: max(s112 , s122 ,..., s12m ) G 2 2 2 s11 s12 ... s1m • ak G ≥ Gα, m, n-1 → H0 zamietame • Gα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch voľnosti prof.Ing. Zlata Sojková,CSc. 43 Bartlettov test • spočíva v porovnávaní aritmetického a geometrického priemeru rozptylov. Ak sú rozptyly rovnaké, potom aj priemery sú rovnaké. • testovacia charakteristika: 2 M C m m 2 M 2,3026 ki .log s ki .log s12i i 1 i 1 m s2 s i 1 m 2 1i .ki k i 1 m – počet výberových súborov ni – rozsah i-teho výberového súboru i 1 m 1 1 m C 1 3(m 1) i 1 ki ki i 1 ki = ni-1 Ak χ2χ2(m-1), potom H0 zamietame prof.Ing. Zlata Sojková,CSc. 44 prof.Ing. Zlata Sojková,CSc. 45