Transcript Stat5

Metoda
analizy wariancji
1
Analiza wariancji
Metoda analizy wariancji została opracowana w latach
dwudziestych przez R. Fishera, znajdując najpierw
zastosowanie w doświadczalnictwie rolniczym.
Uogólniając, analiza wariancji jest techniką badania, czy
określone czynniki wywierają wpływ na analizowaną cechę.
Rozpatrzmy pewną populację generalną , w której
obserwujemy zmienną losową .
Y ~ N ( m;  e )
2
Analiza wariancji (c.d.)
Załóżmy dalej, że istnieje pewien czynnik oddziaływujący
na wartości tej zmiennej i pozwalający na wydzielenie a
podpopulacji (co najmniej dwóch podpopulacji):
1
2
Y1 ~ N ( m1 ;  e ) Y2 ~ N ( m 2 ;  e )
.... a
Ya ~ N ( m a ;  e )
Celem analizy wariancji jest zweryfikowanie hipotezy o
równości średnich generalnych w podpopulacjach:
H 0 : m1  m 2      m a
3
Analiza wariancji - czynnik badany
Czynnik oddziaływujący na wartości zmiennej losowej
dość często nazywany jest czynnikiem badanym lub
klasyfikacyjnym.
Czynnik ten może mieć charakter zarówno ilościowy, jak i
jakościowy. W doświadczalnictwie rolniczym przykładem
czynnika o charakterze ilościowym może być choćby
nawożenie mineralne NPK, a czynnikiem jakościowym np.
odmiany pszenicy.
4
Poziomy czynnika badanego
Przez poziomy czynnika badanego rozumiemy konkretne
jego wartości wpływające na sposób sklasyfikowania wartości
zmiennej losowej. W przypadku wspomnianego nawożenia NPK
poziomami tego czynnika są konkretne dawki, np. 120, 180 i
240 kg NPK. W przypadku czynnika jakościowego (np. odmiany
pszenicy), będą to konkretne odmiany.
W sytuacji podanej wyżej rozpatrywane są konkretne
poziomy czynnika, dlatego tego typu czynnik nazywamy
stałym.
Można jednak poziomy czynnika traktować jako
reprezentację wszystkich możliwych jego poziomów (np.
dawek NPK czy odmian). Tak traktowany czynnik ma charakter
czynnika losowego.
5
Jedno i wieloczynnikowa analiza
wariancji
Można rozważać takie eksperymenty, że na daną zmienną
losową oddziaływuje tylko jeden czynnik, mamy wtedy do
czynienia z jednoczynnikową analizą wariancji.
W sytuacjach, gdy czynników klasyfikujących jest więcej,
mówimy o wieloczynnikowej analizie wariancji.
Analizie wariancji można poddać pojedynczą cechę,
mówimy wtedy o jednozmiennej analizie wariancji
oznaczanej symbolicznie jako ANOVA.
Analiza wariancji może dotyczyć wielu cech
jednocześnie, mówimy wtedy o wielozmiennej analizie
wariancji - MANOVA.
6
Jednoczynnikowa analiza wariancji
Weryfikacja hipotezy zerowej o jednoczesnej równości
średnich generalnych w podpopulacjach:
H 0 : m1  m 2      m a
wymaga pobrania próby losowej (z reguły w wyniku
odpowiednio zaplanowanego eksperymentu) o liczebnościach
odpowiednio n1 , n 2 , ... , n a .
Oznaczmy wyniki próby przez y ij , gdzie i  1, 2 , ... , a
jest wskaźnikiem poziomów czynnika badanego (klasyfikacyjnego), a j  1, 2 , ... n i jest wskaźnikiem powtórzeń
(replikacji).
7
ANOVA 1 (c.d.)
Każdą obserwację można zapisać jako sumę wspólnej
średniej generalnej m, efektu i-tego poziomu czynnika
badanego (klasyfikacyjnego) ai oraz efektu czynnika
losowego eij:
y ij  m  a i  eij
(1)
O efektach losowych zakładamy, że mają rozkład N ( 0;  e )
i są niezależne.
Z modelu (1) wynika, że wartość oczekiwana w i-tej grupie
jest równa:
(2)
E y i  mi  m  a i
8
ANOVA 1 (c.d.)
Z wzoru (2) wynika, że efekt ai jest odchyleniem średniej w
danej grupie od średniej ogólnej:
(3)
a i  mi  m
Tym samym hipotezę o jednoczesnej równości średnich
generalnych możemy zapisać w postaci:
H 0 : a1  a 2      a k  0
(4)
Procedura weryfikacyjna powyższej hipotezy opiera się na
udziale zróżnicowania między średnimi w grupach w
stosunku do ogólnego zróżnicowania danej cechy.
9
ANOVA 1 (c.d.)
Na podstawie wyników próby losowej rozdzielimy ogólną
zmienność na dwa niezależne składniki (zgodnie z modelem 1):
 zmienność między grupami mierzącą wpływ czynnika
badanego (klasyfikującego).
 zmienność wewnątrz grup będącą miarą zróżnicowania
przypadkowego.
W kolejnym kroku ocenimy wkład obu zmienności w ogólną
zmienność badanej cechy i na tej podstawie będziemy
wnioskować o prawdziwości hipotezy zerowej.
10
ANOVA 1 (c.d.)
Tabela analizy wariancji
Źródło
Stopnie
zmienności swobody
Czynnik
vA
Błąd
vE
Całkowita
vT
gdzie:
Suma kw.
odchyleń
SSA
SSE
SST
Średni kw.
odchyleń
MSA
MSE
Femp
FA
F
F , v A , v E
a
vT 
n
i
1
vA  a  1
v E  vT  v A
i 1
11
Obliczenia analizy wariancji
Dalsze wzory analizy wariancji:
a
SS T 
ni

a
P  y
y  P
2
ij
i 1
i 1 j 1
a
SS A 


y ij
j 1
ni
yi yi.  P
yi. 
i 1
MSA 
ni

y ij
j 1
SS A
vA
MSE 
SS E
vE
FA 
SS E  SS T  SS A
MSA
MSE
12
Wnioskowanie w analizie wariancji
Przy prawdziwości
FA 
H 0 : a1  a 2      a a  0
statystyka
MSA
MSE
ma rozkład F-Fishera z liczbami stopni swobody vA i vE.
Jeżeli więc F A  F ,v ,v , to H0 odrzucamy jako zbyt
mało prawdopodobną. Merytorycznie formułujemy wniosek,
że czynnik klasyfikacyjny istotnie wpływa na wartości
badanej cechy.
Oznacza to jednocześnie, że co najmniej jedna średnia
grupowa (obiektowa) różni się od pozostałych.
A
E
13
Wnioskowanie w analizie wariancji
(c.d.)
W dalszej części zajmiemy się sposobami szczegółowego
porównania średnich grupowych w takiej sytuacji.
W sytuacji, gdy F A  F ,v ,v
(lub krytyczny poziom
istotności jest większy od przyjętego ) nie mamy podstaw
do odrzucenia hipotezy zerowej i tym samym badanie
statystyczne wpływu czynnika klasyfikacyjnego jest
zakończone. Oznacza to, że ewentualne różnice między
średnimi grupowymi (w próbie) mają tylko charakter
A
E
losowy.
14
Porównania szczegółowe
W przypadku odrzucenia hipotezy zerowej wiemy, że co
najmniej jedna średnia grupowa różni się od pozostałych.
Problemem pozostaje rozdzielenie średnich na tzw. grupy
jednorodne.
Pod pojęciem grupy jednorodnej będziemy rozumieć taki
zestaw średnich w populacjach, w którym dla każdej pary
średnich próbkowych zachodzi związek:
y i  y i '  N IR
15
Porównania szczegółowe (c.d.)
Najmniejsza istotna różnica może być skonstruowana z
użyciem różnych statystyk (najczęściej):
 t-Studenta (LSD)
 t studentyzowanego rozstępu (NIR Tukey’a -HSD,
Newmana-Keulsa)
 F (NIR Scheffego)
Ogólnie NIR będziemy wyznaczać wg wzoru:
N IR  K   S r
gdzie K 
jest wartością tablicową odpowiedniej statystyki,
a Sr błędem różnicy średnich.
16
Porównania szczegółowe (c.d.)
W sytuacji, gdy w próbie losowej w każdej podgrupie mamy
taką samą liczbę obserwacji (powiedzmy równą n) błąd
różnicy średnich wyznaczamy z wzoru:
Sr 
2 MSE
n
W tych przypadkach, gdy liczba obserwacji w podgrupach
a
jest różna, można skorzystać z wzoru:
Sr 
n
2 MSE
n0

a
i 1
gdzie
n0 
i

2
ni
i 1
a
n
i
i 1
a 1
17
Przykład liczbowy
W celu porównania oceny ogólnej 5 wybranych produktów
spożywczych zaplanowano odpowiedni eksperyment, w
wyniku którego uzyskano poniższe wyniki:
P1
P2
P3
P4
P5
1
8
8
7
7
7
2
7
9
7
9
6
3
7
8
8
7
7
4
8
9
7
8
6
Dane powyższe zostaną opracowane zgodnie z modelem
liniowym jednoczynnikowej analizy wariancji:
y ij  m  a i  eij
18
Przykład liczbowy (c.d.)
Obliczamy odpowiednie sumy i średnie:
P1
P2
P3
P4
1
8
8
7
7
2
7
9
7
9
3
7
8
8
7
4
8
9
7
8
Sumy
30
34
29
31
średnie
7.50
8.50 7.25 7.75
P5
7
6
7
6
26
6.50
37
38
37
38
150
7.50
Obliczamy dalej:
Poprawka = 150*7.50 = 1125
SST = (82 + 72 + ... + 62) - P = 1140 - 1125 = 15
SSA = (30*7.50 + ... + 26*6.50) - P = 1133.50 - 1125 = 8.5
19
Przykład liczbowy (c.d.)
Pozostałe obliczenia zestawiamy już w tabeli analizy
wariancji.
Zmienność St. sw.
S.S
M.S
Femp.
Produkt
Błąd
Całkowita
8.5
6.5
15
2.125
0.43
4.904*
4
15
19
F0.05
3.06
Wnioskowanie:
Ponieważ Femp .  4 .904  F0 .05 , 4 ,15  3.06 hipotezę o braku
zróżnicowania między produktami odrzucamy. Oznacza to
jednocześnie, że istnieją co najmniej 2 grupy jednorodne.
20
Przykład liczbowy, szczegółowe porównania
Obliczamy
Sr 
2  0 .43
 0 .4654
i dalej NIR Tukey’a
4
NIR  2 .88  0.4654  1.34
Poniżej mamy uporządkowane średnie dla produktów i ich
podział na grupy jednorodne.
P2
8.50
a
P4
7.75 0.75
ab
P1
7.50 1.00 0.25 ab
P3
7.25 1.25 0.50 ab
P5
6.50 2.00 1.25 b
21
Analizy wieloczynnikowe
Wieloczynnikowe analizy wariancji rozpatrzymy na
przykładzie dwuczynnikowej analizy. Model liniowy tego
typu analizy może mieć postać:
y ijk  m  a i  b j  abij  eijk
(5)
W modelu tym, poza efektami głównymi czynników
badanych A i B pojawia się efekt współdziałania (interakcji)
tych czynników: abij .
Pod pojęciem interakcji będziemy rozumieć wzajemny
wpływ poziomów jednego czynnika na poziomy drugiego z
nich. Badanie interakcji dostarcza informacji na pytanie, czy
analizowana cecha reaguje tak samo na zmiany poziomów
jednego czynnika na tle zmian poziomów drugiego z nich.
22
Analizy wieloczynnikowe (c.d.)
Tabela analizy wariancji modelu (5)
Źródło
Stopnie
zmienności swobody
Czynnik A
vA
Czynnik B
vB
Inter. AB
vAB
Błąd
vE
Całkowita
vT
Suma kw.
odchyleń
SSA
SSB
SSAB
SSE
SST
Średni kw.
odchyleń
MSA
MSB
MSAB
MSE
Femp
FA
FB
FAB
F
F , v A , v E
F , v B , v E
F , v AB , v E
Analiza wykona wg tego modelu pozwala na zweryfikowanie trzech
hipotez zerowych:
H 0 A :  ai  0
i
H0B: bj  0
j
H 0 AB :  abij  0
i, j
23
Analizy wieloczynnikowe
Szczegółowe porównania
W przypadku stwierdzenia istotności wpływu czynnika A,
czy czynnika B przeprowadzamy szczegółowe porównanie
odpowiednich średnich obiektowych stosując standardową
procedurę porównań.
Błędy różnicy średnich, niezbędne do wyznaczenia
odpowiednich NIR-ów wyznaczamy wg wzorów:
sr ( A ) 
2 MSE
sr ( B ) 
2 MSE
nb
na
24
Szczegółowe porównania (c.d.)
W przypadku istotności interakcji powinniśmy wyznaczyć
dwa NIR-y: jeden dla porównań poziomów czynnika A przy
ustalonych poziomach czynnika B oraz drugi dla porównań
poziomów czynnika B przy ustalonych poziomach czynnika
A. W przypadku analizy wariancji zgodnie z modelem (5)
NIR-y te będą się tylko różniły wartościami krytycznymi
odpowiednich statystyk (jeżeli czynniki A i B mają różną
liczbę poziomów). Błąd różnicy średnich znajdujemy z
wzoru:
sr ( A B ) 
2 MSE
n
25
Interpretacja graficzna interakcji
Wygodną formą prezentacji interakcji jest przygotowanie
odpowiedniego wykresu. Poniżej pokazana jest interakcja
(istotna) dwóch czynników (doświadczenia x produkty).
8 .5
8
7 .5
P1
7
P2
6 .5
P3
6
P4
5 .5
P5
5
4 .5
D 12
D 11
D 10
D9
D8
D7
D6
D5
D4
D3
D2
D1
4
26
Planowanie i analiza doświadczeń
wieloczynnikowych
Przedstawiony w modelu (5) schemat analizy dwuczynnikowej
był jednym z najprostszych przykładów eksperymentu z
krzyżową klasyfikacją czynników. W eksperymentach tego
typu każdy poziom czynnika A występuje z każdym poziomem
czynnika B.
Możliwe jest także takie zaplanowanie eksperymentu, gdzie
poziomy jednego czynnika występują tylko z niektórymi
poziomami drugiego czynnnika. W takiej sytuacji mówimy o
klasyfikacji hierarchicznej.
27
Planowanie i analiza doświadczeń
wieloczynnikowych
Doświadczenie dwuczynikowe może być także zaplanowane w
taki sposób, że najpierw rozmieszczmy poziomy pierwszego
czynnika, a dopiero wewnątrz nich rozmieszczamy poziomy
drugiego czynnika.
Doświadczenia planowane zgodnie z takim schematem noszą
nazwę układów zależnych (albo split-plot), a analiza
wykonywana jest zgodnie z modelem:
y ijk  m  a i  e ik  b j  a bij  e ijk
1
2
(6)
28
Weryfikacja założeń w analizie wariancji
Metoda analizy wariancji zakłada, że analizowana cecha
pochodzi z populacji o rozkładzie normalnym oraz że wariancje
tej cechy są takie same we wszystkich podpopulacjach.
y ij  m  a i  eij
y ij ~ N ( m i ;  e )
Wymaga to weryfikacji hipotezy zerowej postaci:
2
2
2
H 0 : 1   2       a
wobec alternatywy H 1 :  i2   2l
dla co najmniej jednej pary wskaźników i, l.
Tak sformułowana hipoteza zerowa może być weryfikowana
testami Bartletta, Cochrana lub Hartleya.
29
Weryfikacja założeń - test Bartletta
Test Bartleta wykorzystuje statystykę:
 
M  ln 10
 a
1
1 
1



3 ( a  1)  i  1 ( n i  1) n  a 
1
gdzie
a
M  ( n  a ) lo g M S E 

( n i  1) lo g S i
2
i 1
a S i2 jest średnim kwadratem odchyleń (wariancją w
próbie) w i-tej grupie.
30
Test Bartletta (c.d.)
Jeżeli spełnione jest założenie o normalności rozkładu i
hipoteza H0 jest prawdziwa, to statystyka  ma rozkład 2 z
liczbą stopni swobody v = a - 1.
    ;v
2
Jeżeli więc
, to H0 musimy odrzucić na korzyść
hipotezy alternatywnej. Tym samym analiza wariancji nie
może być wykonywana (przynajmniej bezpośrednio na
danych oryginalnych).
Test Bartletta może być stosowany praktycznie we
wszystkich sytuacjach, jeżeli chodzi o liczbę replikacji w
podklasach.
31
Przekształcenia danych oryginalnych
W przypadku niespełnienia założenia o jednorodności wariancji
można podjąć próbę jej stabilizacji poprzez np. logarytmowanie
wartości próby. Działania takie noszą nazwę transformacji
danych.
Transormacja danych wyjściowych może być także stosowana
w tych sytuacjach, gdy cecha w populacji nie ma rozkładu
normalnego. Celem transformacji będzie wtedy sprowadzenie
rozkładu tej cechy do co najmniej symetrycznego. Jedną z
możliwych transformacji jest wykorzystanie średnich w miejsce
danych oryginalnych.
32