Analiza wariancji jednoczynnikowa Dr hab. inż. Dariusz Piwczyński Zastosowanie Porównanie większej niż 2 liczby grup (k>2)  Zmienna zależna – skala przedziałowa  Zmienna niezależna –

Download Report

Transcript Analiza wariancji jednoczynnikowa Dr hab. inż. Dariusz Piwczyński Zastosowanie Porównanie większej niż 2 liczby grup (k>2)  Zmienna zależna – skala przedziałowa  Zmienna niezależna –

Analiza wariancji jednoczynnikowa
Dr hab. inż. Dariusz Piwczyński
1
Zastosowanie
Porównanie większej niż 2 liczby grup
(k>2)
 Zmienna zależna – skala przedziałowa
 Zmienna niezależna – skala nominalna
lub porządkowa

2
Ronald Fisher (angielski biolog i genetyk)

Istota teorii analizy wariancji opiera się
na podziale zmienności głównej na
pewne frakcje i na analizowaniu tych
poszczególnych zmienności.
3
Rodzaje zmienności
zmienność ogólna
 zmienność międzygrupowa
 zmienność wewnątrzgrupowa

4
Zmienność ogólna

wyraża się zróżnicowaniem poszczególnych wartości
zmiennej w stosunku do ogólnej średniej (obliczonej
dla całej zbiorowości).
SS T   yij  y 
k
ni
2
k 1 j1
5
Zmienność międzygrupowa
występuje na skutek różnic powstałych między
grupami doświadczalnymi, wywołana jest
działaniem czynnika doświadczalnego na
poszczególne grupy doświadczalne,
 wyraża się zróżnicowaniem średnich
poszczególnych grup doświadczalnych
w stosunku do ogólnej średniej.

k
ni
SS G   yi  y 
2
k 1 j1
6
Zmienność wewnątrzgrupowa
istnieje między poszczególnymi zmiennymi
wewnątrz każdej grupy,
 wywołana jest czynnikami osobniczymi czyli
indywidualnymi cechami poszczególnych
osobników,
 wyraża się zróżnicowaniem poszczególnych
wartości zmiennej wewnątrz każdej grupy
w stosunku do średniej dla tej grupy.

k
ni
SS G   yi  y 
2
k 1 j1
7
Założenia analizy wariancji:
Niezależność zmiennych objaśniających
(czynników)
 Homogeniczność wariancji (test Levene)
 Normalność rozkładu

8
Normalność rozkładu
Rozkład cechy w każdej z grup winien być
normalny.
 W praktyce często badamy czy czynnik
losowy, tj. eij posiada rozkład normalny.
 W celu sprawdzenia tego założenia, od
każdego pomiaru odejmujemy średnią wartość
grupy, z której ten pomiar pochodzi,
a następnie badamy rozkład tychże różnic.
 Jeśli reszty nie mają rozkładu normalnego, to
zaleca się transformacje zmiennych.

9
Reszty
10
Normalność rozkładu sprawdzamy za
pomocą:
testów Shapiro-Wilk oraz KolmogorovSmirnoff
Ocena graficzna: histogram
Teoretycznie, rozkład powinien być
oceniany oddzielnie dla każdej
porównywanej grupy.
W praktyce rozkład jest oceniany dla całej
objętej badaniami populacji.
11
Homogeniczność wariancji (równość
wariancji)
Porównywane grupy nie powinny różnić
się między sobą pod względem
zmienności.
 Jeśli nie ma homogeniczności, to
możliwe są logarytmiczne transformacje
zmiennych lub też usunięcie grupy, która
pod względem zmienności wyraźnie
odstaje od pozostałych.

12
Homogeniczność wariancji

wariancje odnoszące się do
porównywanych grup powinny być takie
same:
σ  σ  σ  ...  σ
2
1
2
2
2
3
2
k

Test Bartlett wykonujemy w odniesieniu do
zmiennych o rozkładzie normalnym
 Test Brown i Forsythe
 Test Levene
13
Założenie dotyczące homogeniczności nie
są spełnione!
Transformacje zmiennej zależnej w celu
zmiany rozkłady zmiennych i
skorygowania nierównych wariancji.
 Test Welch (Analiza wariancji Welch)
 Nieparametryczna analiza wariancji
(rozkład jest silnie skośny lub występują
wartości skrajnie odbiegające od
pozostałych)

14
Transformacje zmiennych
Transformacje zmiennych z reguły
wpływają jednocześnie na
homogeniczność wariancji i rozkład!
 Oznacza to, że transformacje mające na
celu poprawę „normalności rozkładu”
mogą powodować problemy z
homogenicznością wariancji i odwrotnie.

Ln(Y)
1
Y
1
Y
Y
15
Rozkład F

Jeśli z populacji o rozkładzie normalnym
wybieralibyśmy losowo po dwie próby i
badalibyśmy wzajemne relacje ich
wariancji (iloraz), to ten stosunek miałby
rozkład zgodny z rozkładem F.
16
Rozkład F
stosunek kwadratów odchyleń
międzygrupowych do wewnątrzgrupowych
kształtuje się według określonego rozkładu
(rozkład F) lub inaczej
 stosunek zmienności międzygrupowej do
wewnątrzgrupowej kształtuje się według
określonego rozkładu (rozkład F)

17
Rozkład F
18
Hipoteza zerowa
 H0:
Wszystkie średnie są równe,
tzn.
H0: 1= 2= 3= 4 = 5= 6...
19
Hipoteza zerowa – krety

Zakładamy, że
masa ciała samic
gatunku kret jest
taka sama we
wszystkich porach
roku
20
Hipoteza alternatywna
H1: Istnieje co najmniej jedna para
średnich, które różnią się ze sobą.
 H1: 12 lub 1  3 lub 2  3 itd....

21
Kolejność obliczeń
22
Liczba stopni swobody



Ogólna: N  1 (N – liczebność
populacji)
Międzygrupowa: k – 1 (k – liczba grup
doświadczalnych)
Wewnątrzgrupowa: N – k
23
Sumy kwadratów odchyleń


Zmienność ogólna

So   x
2
N
Zmienność międzygrupowa
 x   x   x 



2
Sm
 x

2
2
1
n1
2
2
n2
3
n3
 x   x 
 ... 

2
2
i
ni
N
Zmienność wewnątrzgrupowa:
Sw = So - Sm
24
Średnie kwadraty odchyleń
Zmienność międzygrupowa:
Sm2 = Sm / (k – 1)
 Zmienność wewnątrzgrupowa:
Sw2 = Sw / (N – k)

25
Statystyka F
Femp
Sm2
 2
Sw
wartość krytyczna
26
Interpretacja

Obliczoną wartość statystyki F (tzw. F empiryczne Femp.) odnosimy do wartości krytycznej z rozkładu F
dla założonego poziomu istotności () i określonej
liczby stopni swobody (1=k-1 oraz 2=N-k) (F
tabelaryczne - Ftab.). Jeżeli Femp.  Ftab. – to mamy
podstawę do odrzucenie hipotezy zerowej i
stwierdzenia, iż istnieje co najmniej jedna para
średnich, które różnią się ze sobą. Zatem czynnik
doświadczalny wpływa statystycznie na cechę.
W przeciwnym przypadku, nie mamy podstaw do
odrzucenia H0.
27
ANOVA za pomocą MS EXCEL
Badamy wpływ pory roku, w
której zostały odłowione
zwierzęta na ich masę
ciała!
Czy masa ciała jest
uzależniona od pory roku?
28
Obliczamy średnie w zakresie masy ciała –
tabela przestawna
29
Wyniki, g
30
a co z rozkładem? (Analiza danych)
31
Przygotowanie danych
Poukładać dane w
kolumnach!
Każda kolumna to inna pora
roku!
32
Analiza wariancji
33
Wyniki analizy wariancji
34
I to samo w SAS EG
35
Wyniki


Decyzję o odrzuceniu H0 podejmujemy na podstawie kolumny P r> F na
wysokości nazwy czynnika, tj. PoraRoku.
p jest mniejsze aniżeli 0,0001 (0,05) zatem mamy podstawę do odrzucenia H0!
36
Homogeniczność wariancji
37