ANALÝZA ROZPTYLU prof.Ing. Zlata Sojková,CSc. Analýza rozptylu • V praxi často je potrebné porovnávať väčší počet nezávislých náhodných výberov z hľadiska úrovne, t.

Download Report

Transcript ANALÝZA ROZPTYLU prof.Ing. Zlata Sojková,CSc. Analýza rozptylu • V praxi často je potrebné porovnávať väčší počet nezávislých náhodných výberov z hľadiska úrovne, t.

ANALÝZA ROZPTYLU
prof.Ing. Zlata Sojková,CSc.
1
Analýza rozptylu
• V praxi často je potrebné porovnávať väčší počet
nezávislých náhodných výberov z hľadiska úrovne,
t. zn. zaujíma nás hypotéza:
H 0 : 1   2  3  ...i  ... m  
H 1 : i   pre aspoň jeno i (i = 1, 2,…m)
pre m > 2, kde i , i =1, 2, …m sú stredné hodnoty z
normálne rozdelených základných súborov s
rovnakým rozptylom 2 , t.j. N(, 2)
• K overeniu tejto hypotézy sa používa dôležitá
štatistická metóda, nazývaná Analýza rozptylu,
skrátene ANOVA (resp. AR)
prof.Ing. Zlata Sojková,CSc.
2
• V praxi sa AR používa vtedy, ak skúmame vplyv
jedného resp. viacerých faktorov (ošetrení) na
skúmaný štatistický znak
• Faktory budeme označovať A, B,…a v AR ich
budeme zohľadňovať len ako kvalitatívne znaky s
rôznymi obmenami - úrovňami faktora
• výsledný štatistický znak bude kvantitatívny a
označíme ho Y
• najčastejšie sa AR používa pri vyhodnocovaní
biologických experimentov
• Všimneme si najjednoduchší prípad AR s jedným
faktorom, ktorú nazývame jednofaktorová AR
prof.Ing. Zlata Sojková,CSc.
3
• Úrovňou faktora budeme označovať:
– určité množstvo kvantitatívneho faktora,
napr. množstvo dávok čistých živín pri
hnojení, rôzne príjmové skupiny domácností,
– určitý druh kvalitatívneho faktora, napr.
rôzne odrody tej istej plodiny, spôsoby
umiestnenia výrobkov v predajni,
• AR je zovšeobecnením Studentovho t-testu pre
nezávislé výbery
• AR zároveň skúma vplyv kvalitatívneho faktora
(faktorov) na výsledný kvantitatívny znak - teda
analyzuje vzťahy medzi znakmi
prof.Ing. Zlata Sojková,CSc.
4
Schéma jednofaktorového experimentu
“vyvážený pokus”
opakovania
Úrovne
faktora
A
1
2
…
i
…
m
1
y11
y21
yi1
ym1
2… j…
y12 y1j
y22 y2j
………..
yi2
yij
………..
ym2 ymj
Celkový súčet
prof.Ing. Zlata Sojková,CSc.
riadkový
súčet riadkový
priemer
n
y1n
y2n
Yi .
Y1.
Y2.
yi .
y1.
y2.
yin
Yi.
yi.
ymn
Ym.
ym.
Y..
y..
celkový
priemer
5
riadkový súčet:
Yi . 
celkový súčet:
n
y
j 1
Y .. 
ij
m
n
 y
i 1
j 1
ij
riadkový priemer:
n
1
1
yi .   yij  Yi .
n j 1
n
celkový priemer:
m
1
y.. 

N i 1
n
y
j 1
prof.Ing. Zlata Sojková,CSc.
ij
, N  m .n
6
Model pre výslednú napozorovanú hodnotu:
yij  μ  αi  eij
kde i = 1, 2,…, m
j = 1,2,…, n
Kde
 - očakávaná hodnota pre všetky úrovne faktora a
napozorované hodnoty,
i - efekt i-tej úrovne faktora A
eij - náhodná chyba, ktorým je každé meranie zaťažené,
resp. výsledok vplyv náhodných činiteľov
prof.Ing. Zlata Sojková,CSc.
7
yij  μ  α i  eij
alebo
yij  μ i  eij
Nulovú hypotézu potom môžme formulovať aj nasledovne:
Ho : 1 = 2 =… i = m = 0
t.j. že efekty všetkých úrovni faktora A sú nulové, teda
nepreukazné, oproti alternatívnej hypotéze
H1: i  0 pre aspoň jedno i (i = 1,2…m)
efekt i aspoň jednej i - úrovne faktora je preukazný,
významne odlišný od nuly
prof.Ing. Zlata Sojková,CSc.
8
Odhadmi jednotlivých parametrov sú nasledovné
výberové charakteristiky:
est  y..
esti  yi .
est i  yi . - y.. est eij  yij - yi .
yij  μ  αi  eij
yij  μ  αi  eij
čo môžme prepísať:
( yij - y..)  (yi . - y..)  (yij  yi .)
prof.Ing. Zlata Sojková,CSc.
9
Porovnanie dvoch experimentov s tromi úrovňami
faktora
y ..
y1
y3
y2
y3
y1
y ..
y2
1
2
3
1
prof.Ing. Zlata Sojková,CSc.
2
3
10
Princíp Analýzy rozptylu
Podstata analýzy rozptylu spočíva v rozklade celkovej
variability výsledného skúmaného znaku
m
n
m
m
n
2
2
2
(
y

y
)

n
(
y

y
)

(
y

y
)
 ij ..
 i. ..  ij i.
i 1 j 1
i 1
Sc
Celková
variabilita
S1
Variabilita medzi
úrovňamifaktora,
spôsobená pôsobením
faktora A,
“variabilita medzi
triedami, riadkami”
prof.Ing. Zlata Sojková,CSc.
i 1 j 1
Sr
Variabilita
náhodná,
reziduálna,
“vo vnútri
tried
11
prof.Ing. Zlata Sojková,CSc.
12
3
2
1
Súčet štvorcov Stupne Priemerný
voľnosti štvorec
odchýlok
(1/2)
ANOVA
Variabilita
Variabilita
medzi
triedami
Reziduálna
variabilta
n ( yi .  y.. )
2
i 1
n
i 1 j 1
m-1
s12
m.n - m
sr2
S1
( y
m
Celková
variabilita
2
m
m
4
F-krité
rium
ij
 yi . )
2
s1
F 2
sr
Sr
n
2
(
y

y
)
 ij ..
i 1 j 1
Sc
N-1=
m .n-1
prof.Ing. Zlata Sojková,CSc.
13
Testovacie kritérium možno pre jednofoktorovú AR
- vyvážený pokus zapísať podrobne vzťahom:
m
n ( yi .  y ..)
2
i 1
2
s1
F 2 
sr
m 1
m
n
 (y
i 1 j 1
ij
 yi . )
2
N m
Hodnotu F testovacieho kritéria porovonáme s príslušnou
tabuľkovou hodnotou F-rozdelenia:
F , pre stupne voľnosti (m-1) a (m.n - m)
prof.Ing. Zlata Sojková,CSc.
14
Rozhodnutie o výsledku testu:
• Ak F vyp  F. ((m-1,(N-m)) Ho zamietame,
v takom prípade je aspoň efekt jednej úrovne faktora
preukazný, teda priemerna úroveň ukazovateľa sa
štatisticky významne líši od ostatných. Resp. aspoň
jeden efekt i
je štatisticky významne
odlišný
od nuly.
Ak
F vyp  F
Ho nezamietame
Obor nezamietnutia
Ho
prof.Ing. Zlata Sojková,CSc.
F kritický obor,
obor zatnutia H0
15
Ak nulovú hypotézu zamietame:
• Zistili sme len, že je preukazný vplyv faktora na
skúmaný znak,
• ďalej je potrebné skúmať medzi ktorými úrovňami
faktora je a medzi ktorými nie je preukazný rozdiel
- k tomúto účelu sa používajú testy kontrastov
• Medzi testy kontrastov patria: Duncanov test,
Scheffeho test, Tuckey test a iné…..
prof.Ing. Zlata Sojková,CSc.
16
Podmienky použitia AR:
• Výbery pochádzajú z normálnych rozdelení,
narušenie tohto predpokladu nemá podstatnejší
vplyv na výsledky AR
• štatistická nezávislosť náhodných chýb eij
• zhodné reziduálne rozptyly
12 = 22 = …. = 2 , t.j. D(eij) = 2
pre všetky i = 1,2…., m, j=1,2, …n
tento predpoklad je závažnejší a možno ho overovať
Cochranovým, resp. Bartlettovým testom
prof.Ing. Zlata Sojková,CSc.
17
Schéma jednofaktorového experimentu
“nevyvážený pokus”
Úrovne
faktora
Rôzny počet opakovaní
A
1
2… j …
1
y11
y12 y1j ...
2
y21 y22 y2j ...
…
………..
i
yi1
yi2
yij ...
…
………..
m
ym1 ym2 ymj ...
riadkový riadkový
súčet priemer
ni
n1
n2
Yi .
Y1.
Y2.
yi .
y1.
y2.
ni
Yi.
yi.
nm
Ym.
ym.
Y..
y..
m
Kde
N   ni
i 1
prof.Ing. Zlata Sojková,CSc.
celkový
priemer
18
3
2
1
Súčet štvorcov Stupne Priemerný
voľnosti štvorec
odchýlok
(1/2)
ANOVA
Variabilita
Variabilita
medzi
triedami
Reziduálna
variabilta
n ( y
m
i
 y.. )
2
i.
m-1
s12
N-m
sr2
S1
ni
( y
i 1 j 1
m
Celková
variabilita
2
m
i 1
4
F-krité
rium
ij
 yi . )
2
Sr
ni
2
(
y

y
)
 ij ..
i 1 j 1
s1
F 2
sr
N-1
S
m
N   ni
i 1
prof.Ing. Zlata Sojková,CSc.
19
prof.Ing. Zlata Sojková,CSc.
20
Dvojfaktorová analýza rozptylu bez opakovania
• Uvažujme vplyv faktora A, ktorý skúmame na m úrovniach, i = 1,2,….,m
• ďalej uvažujme faktor B, ktorý sledujeme na n úrovniach , j = 1,2, …, n
• na každej i-tej úrovni faktora A a j-tej úrovni
faktora B máme len jedno pozorovanie
(opakovanie) yij
• overujeme tak vplyv dvoch nulových hypotéz
prof.Ing. Zlata Sojková,CSc.
21
Schéma dvojfaktorového experimentu s jedným
pozorovaním v každej podtriede DAR
riadkové
súčty
n-úrovní faktora B
B
m-úrovní
faktora A
A
1
2
…
i
…
m
Stĺpcové súčty
stĺpcové priemery
1
y11
y21
yi1
ym1
Y.1
y.1
2 … j …
y12 y1j
y22 y2j
………..
yi2
yij
………..
ym2 ymj
n
y1n
y2n
yi .
Y1.
y2.
Riadkové
priemery
yin
Yi.
yi.
ymn
Ym.
ym.
Y.2 ... Y.j ... Y.1
y.2 ... y.j ... y.1
prof.Ing. Zlata Sojková,CSc.
Yi .
Y1.
Y2.
Y..
celkový
priemer
y..
22
Model pre skúmaný znak môžme zapísať
yij  μ  α i   j  eij
Overujeme platnosť dvoch nulových hypotéz
Hypotéza pre faktor A:
Ho 1: 1 = 2 =… i = m = 0
t.j. že efekty všetkých úrovni faktora A sú nulové,
teda nepreukazné, oproti alternatívnej hypotéze
H11 : i  0 pre aspoň jedno i (i = 1,2…m)
efekt i aspoň jednej i - úrovne faktora je preukazný,
významne odlišný od nuly
prof.Ing. Zlata Sojková,CSc.
23
Hypotéza pre faktor B:
Ho 2:  1 =  2 =…  j =  n = 0
t.j. že efekty všetkých úrovni faktora B sú nulové,
teda nepreukazné, oproti alternatívnej hypotéze
H12 :  j  0 pre aspoň jedno j (j = 1,2…m)
efekt  j aspoň jednej j - úrovne faktora B je preukazný,
významne odlišný od nuly
prof.Ing. Zlata Sojková,CSc.
24
DAR
Variabilita
Variabilita
medzi
riadkami
1
Súčet štvorcov
odchýlok
2
Stupne
voľnosti
3
Priem.
štvorec
(1/2)
4
F-krité
rium
2
S1
m-1
s12
n-1
s22
Variabilita
medzi
stĺpcami
S2
Reziduálna
variabilta
Sr
(m-1)(n-1)
Celková
variabilita
Sc
m.n -1
prof.Ing. Zlata Sojková,CSc.
s1
F1  2
sr
2
s2
F2  2
sr
sr2
25
Rozklad celkovej variability skúmaného znaku:
Sc= S1 + S2 + S r
m
S1  n ( yi .  y ..)
2
Variabilita medzi riadkami,
vplyv faktora A
i 1
n
S 2  m ( y . j  y ..)
2
j 1
m
Variabilita medzi stĺpcami,
vplyv faktora B
n
S r   ( yij  yi .  y . j  y ..)
2
i 1 j 1
m ni
Sc   ( yij  y ..)
2
Reziduálna
variabilita
Celková variabilita
i 1 j 1
prof.Ing. Zlata Sojková,CSc.
26
Dvojfaktorová analýza rozptylu s opakovaním
• Uvažujme vplyv dvoch faktorov: faktora A, ktorý
skúmame na m - úrovniach, i = 1,2,….,m a
faktora B, ktorý sledujeme na n - úrovniach , j =
1,2, …, n
• Skúmame nielen individuálny vplyv daných
faktorov, ale aj ich vzájomné pôsobenie
(interakciu)
• Pre každú kombináciu úrovní máme viac
pozorovaní (opakovaní) yij
• Overujeme tak vplyv troch nulových hypotéz
prof.Ing. Zlata Sojková,CSc.
27
Schéma dvojfaktorového experimentu s
interkaciou
B1
Faktor A
Faktor B
B2
...
Bn
A1
yijk
Priemer
A1B1
Priemer
A1B2
Priemer
A1Bn
Priemer
A1
Priemer
A2B1
Priemer
A2B2
Priemer
A2Bn
Priemer
A2
Priemer
AmB1
Priemer
AmB2
Priemer
AmBn
Priemer
B1
Priemer
B2
Priemer
Am
Celkový
priemer
A2
.
.
.
Am
prof.Ing. Zlata Sojková,CSc.
...
Priemer
Bn
28
prof.Ing. Zlata Sojková,CSc.
29
Testy kontrastov
• v prípade, že H0 zamietame, zaujíma nás,
medzi ktorými strednými hodnotami existujú
štatisticky významné rozdiely
• existuje široká škála testov zameraná na
viacnásobné porovnanie výberových
priemerov
• je možné vytvoriť m*(m-1)/2 kontrastov
prof.Ing. Zlata Sojková,CSc.
30
Testy kontrastov
1.
2.
3.
4.
5.
Fischerov LSD test
Duncanov test
Student-Newman-Keulsov test
Tukeyho test
Scheffeho test
prof.Ing. Zlata Sojková,CSc.
31
Fischerov LSD test
• LSD = Least Significant Difference
• je založený na t-teste
• štatisticky významný rozdiel je potvrdený, ak platí
vzťah:
y i.  y j.  t , m( n 1)
2s 2r
n
• kde: t , m( n 1) kritická hodnota t rozdelenia pri
m(n-1) stupňoch voľnosti
prof.Ing. Zlata Sojková,CSc.
32
Duncanov test
• štatisticky významný rozdiel je potvrdený, ak platí
vzťah:
y i.  y j.  D 
2
sr
n
• kde: D  tabuľovaná hodnota Duncanovho testu
pre daný počet rozdielov a pri reziduálnom stupni
voľnosti
prof.Ing. Zlata Sojková,CSc.
33
Student-Newman-Keulsov test
• štatisticky významný rozdiel je potvrdený, ak platí
vzťah:
y i.  y j.  g 
2
sr
n
• kde: g  tabuľovaná hodnota StudentNeumannovho - Keulsovho testu pre daný počet
porovnávaných rozdielov a pri reziduálnom stupni
voľnosti
prof.Ing. Zlata Sojková,CSc.
34
Tukeyho test
• štatisticky významný rozdiel je potvrdený, ak platí
vzťah:
s 2r
y i.  y j.  q , m, m ( n 1) .
n
• kde:
q , m, m(n 1) tabuľovaná
hodnota Tukeyho testu.
prof.Ing. Zlata Sojková,CSc.
35
Scheffeho test
• štatisticky významný rozdiel je potvrdený, ak platí
vzťah:
 1

1
y i.  y j.    .( m  1).s 2r .F,( m 1),m ( n 1)
 ni n j 


• kde: F, (m1),m(n 1)kritická hodnota F rozdelenia pri
(m-1) a m(n-1) stupňoch voľnosti
prof.Ing. Zlata Sojková,CSc.
36
Ktorý test použiť?
Test
Sila testu (1-β)
LSD
najvyššia
Duncan
StudentNewman-Keuls
Tukey
Scheffe
viac
konzervatívny,,
menej
pravdepodobné,
že bude
objavený
skutočný rozdiel
najnižšia
prof.Ing. Zlata Sojková,CSc.
Chyba I. druhu
(α)
najvyššia
viac
pravdepodobné,, že
bude určený
nesprávny
rozdiel
najnižšia
37
Ktorý test použiť?
• závisí, ktorý typ chyby je akceptovateľnejší z
hľadiska analýzy daného problému, t.j.
neurčenie rozdielu, ak skutočne existuje, resp.
určenie rozdielu, ktorý neexistuje.
prof.Ing. Zlata Sojková,CSc.
38
prof.Ing. Zlata Sojková,CSc.
39
Testy kontrastov - Statgraphics
•
Multiple Range Tests
Method: 95,0 percent LSD
Count
Col_4
5
Col_3
5
Col_1
5
Col_2
5
Mean
303,8
337,0
344,2
349,8
Homogeneous Groups
X
XX
X
X
Contrast
Sig.
Difference +/- Limits
Col_1 - Col_2
-5,6
38,7085
Col_1 - Col_3
7,2
38,7085
Col_1 - Col_4
*
40,4
38,7085
Col_2 - Col_3
12,8
38,7085
Col_2 - Col_4
*
46,0
38,7085
Col_3 - Col_4
33,2
38,7085
* denotes a statistically significant difference.
prof.Ing. Zlata Sojková,CSc.
40
Testy kontrastov - Statgraphics
Means and 95,0 Percent LSD Intervals
380
Mean
360
340
320
300
280
Col_1
Col_2
Col_3
prof.Ing. Zlata Sojková,CSc.
Col_4
41
Overenie zhody variability
• predpokladáme, že skúmané výberové súbory majú
približne normálne rozdelenie a rozdiely rozptylov
medzi testovanými skupinami sú nepreukazné.
• H0: 2
1  22  ....  2m  2
• Testy:
– Cochranov test
– Hartleyov test
– Bartlettov test
prof.Ing. Zlata Sojková,CSc.
42
Cochranov test
• je ho vhodné použiť, ak u skúmaných výberových
súborov sú značné rozdiely medzi rozptylmi
• testovacia charakteristika:
max(s112 , s122 ,..., s12m )
G 2
2
2
s11  s12  ...  s1m
• ak G ≥ Gα, m, n-1 → H0 zamietame
• Gα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch
voľnosti
prof.Ing. Zlata Sojková,CSc.
43
Bartlettov test
• spočíva v porovnávaní aritmetického a geometrického
priemeru rozptylov. Ak sú rozptyly rovnaké, potom aj
priemery sú rovnaké.
• testovacia charakteristika:
2 
M
C
m
m

2
M  2,3026   ki .log s   ki .log s12i 
i 1
 i 1

m
s2 
s
i 1
m
2
1i
.ki
k
i 1






m – počet výberových
súborov
ni – rozsah i-teho
výberového súboru
i

1  m 1
1
  m
C  1
3(m  1)  i 1 ki
ki


i 1

ki = ni-1
Ak χ2χ2(m-1), potom H0
zamietame
prof.Ing. Zlata Sojková,CSc.
44
prof.Ing. Zlata Sojková,CSc.
45