Analiza wariancji jednoczynnikowa Dr hab. inż. Dariusz Piwczyński Zastosowanie Porównanie większej niż 2 liczby grup (k>2) Zmienna zależna – skala przedziałowa Zmienna niezależna –
Download
Report
Transcript Analiza wariancji jednoczynnikowa Dr hab. inż. Dariusz Piwczyński Zastosowanie Porównanie większej niż 2 liczby grup (k>2) Zmienna zależna – skala przedziałowa Zmienna niezależna –
Analiza wariancji jednoczynnikowa
Dr hab. inż. Dariusz Piwczyński
1
Zastosowanie
Porównanie większej niż 2 liczby grup
(k>2)
Zmienna zależna – skala przedziałowa
Zmienna niezależna – skala nominalna
lub porządkowa
2
Ronald Fisher (angielski biolog i genetyk)
Istota teorii analizy wariancji opiera się
na podziale zmienności głównej na
pewne frakcje i na analizowaniu tych
poszczególnych zmienności.
3
Rodzaje zmienności
zmienność ogólna
zmienność międzygrupowa
zmienność wewnątrzgrupowa
4
Zmienność ogólna
wyraża się zróżnicowaniem poszczególnych wartości
zmiennej w stosunku do ogólnej średniej (obliczonej
dla całej zbiorowości).
SS T yij y
k
ni
2
k 1 j1
5
Zmienność międzygrupowa
występuje na skutek różnic powstałych między
grupami doświadczalnymi, wywołana jest
działaniem czynnika doświadczalnego na
poszczególne grupy doświadczalne,
wyraża się zróżnicowaniem średnich
poszczególnych grup doświadczalnych
w stosunku do ogólnej średniej.
k
ni
SS G yi y
2
k 1 j1
6
Zmienność wewnątrzgrupowa
istnieje między poszczególnymi zmiennymi
wewnątrz każdej grupy,
wywołana jest czynnikami osobniczymi czyli
indywidualnymi cechami poszczególnych
osobników,
wyraża się zróżnicowaniem poszczególnych
wartości zmiennej wewnątrz każdej grupy
w stosunku do średniej dla tej grupy.
k
ni
SS G yi y
2
k 1 j1
7
Założenia analizy wariancji:
Niezależność zmiennych objaśniających
(czynników)
Homogeniczność wariancji (test Levene)
Normalność rozkładu
8
Normalność rozkładu
Rozkład cechy w każdej z grup winien być
normalny.
W praktyce często badamy czy czynnik
losowy, tj. eij posiada rozkład normalny.
W celu sprawdzenia tego założenia, od
każdego pomiaru odejmujemy średnią wartość
grupy, z której ten pomiar pochodzi,
a następnie badamy rozkład tychże różnic.
Jeśli reszty nie mają rozkładu normalnego, to
zaleca się transformacje zmiennych.
9
Reszty
10
Normalność rozkładu sprawdzamy za
pomocą:
testów Shapiro-Wilk oraz KolmogorovSmirnoff
Ocena graficzna: histogram
Teoretycznie, rozkład powinien być
oceniany oddzielnie dla każdej
porównywanej grupy.
W praktyce rozkład jest oceniany dla całej
objętej badaniami populacji.
11
Homogeniczność wariancji (równość
wariancji)
Porównywane grupy nie powinny różnić
się między sobą pod względem
zmienności.
Jeśli nie ma homogeniczności, to
możliwe są logarytmiczne transformacje
zmiennych lub też usunięcie grupy, która
pod względem zmienności wyraźnie
odstaje od pozostałych.
12
Homogeniczność wariancji
wariancje odnoszące się do
porównywanych grup powinny być takie
same:
σ σ σ ... σ
2
1
2
2
2
3
2
k
Test Bartlett wykonujemy w odniesieniu do
zmiennych o rozkładzie normalnym
Test Brown i Forsythe
Test Levene
13
Założenie dotyczące homogeniczności nie
są spełnione!
Transformacje zmiennej zależnej w celu
zmiany rozkłady zmiennych i
skorygowania nierównych wariancji.
Test Welch (Analiza wariancji Welch)
Nieparametryczna analiza wariancji
(rozkład jest silnie skośny lub występują
wartości skrajnie odbiegające od
pozostałych)
14
Transformacje zmiennych
Transformacje zmiennych z reguły
wpływają jednocześnie na
homogeniczność wariancji i rozkład!
Oznacza to, że transformacje mające na
celu poprawę „normalności rozkładu”
mogą powodować problemy z
homogenicznością wariancji i odwrotnie.
Ln(Y)
1
Y
1
Y
Y
15
Rozkład F
Jeśli z populacji o rozkładzie normalnym
wybieralibyśmy losowo po dwie próby i
badalibyśmy wzajemne relacje ich
wariancji (iloraz), to ten stosunek miałby
rozkład zgodny z rozkładem F.
16
Rozkład F
stosunek kwadratów odchyleń
międzygrupowych do wewnątrzgrupowych
kształtuje się według określonego rozkładu
(rozkład F) lub inaczej
stosunek zmienności międzygrupowej do
wewnątrzgrupowej kształtuje się według
określonego rozkładu (rozkład F)
17
Rozkład F
18
Hipoteza zerowa
H0:
Wszystkie średnie są równe,
tzn.
H0: 1= 2= 3= 4 = 5= 6...
19
Hipoteza zerowa – krety
Zakładamy, że
masa ciała samic
gatunku kret jest
taka sama we
wszystkich porach
roku
20
Hipoteza alternatywna
H1: Istnieje co najmniej jedna para
średnich, które różnią się ze sobą.
H1: 12 lub 1 3 lub 2 3 itd....
21
Kolejność obliczeń
22
Liczba stopni swobody
Ogólna: N 1 (N – liczebność
populacji)
Międzygrupowa: k – 1 (k – liczba grup
doświadczalnych)
Wewnątrzgrupowa: N – k
23
Sumy kwadratów odchyleń
Zmienność ogólna
So x
2
N
Zmienność międzygrupowa
x x x
2
Sm
x
2
2
1
n1
2
2
n2
3
n3
x x
...
2
2
i
ni
N
Zmienność wewnątrzgrupowa:
Sw = So - Sm
24
Średnie kwadraty odchyleń
Zmienność międzygrupowa:
Sm2 = Sm / (k – 1)
Zmienność wewnątrzgrupowa:
Sw2 = Sw / (N – k)
25
Statystyka F
Femp
Sm2
2
Sw
wartość krytyczna
26
Interpretacja
Obliczoną wartość statystyki F (tzw. F empiryczne Femp.) odnosimy do wartości krytycznej z rozkładu F
dla założonego poziomu istotności () i określonej
liczby stopni swobody (1=k-1 oraz 2=N-k) (F
tabelaryczne - Ftab.). Jeżeli Femp. Ftab. – to mamy
podstawę do odrzucenie hipotezy zerowej i
stwierdzenia, iż istnieje co najmniej jedna para
średnich, które różnią się ze sobą. Zatem czynnik
doświadczalny wpływa statystycznie na cechę.
W przeciwnym przypadku, nie mamy podstaw do
odrzucenia H0.
27
ANOVA za pomocą MS EXCEL
Badamy wpływ pory roku, w
której zostały odłowione
zwierzęta na ich masę
ciała!
Czy masa ciała jest
uzależniona od pory roku?
28
Obliczamy średnie w zakresie masy ciała –
tabela przestawna
29
Wyniki, g
30
a co z rozkładem? (Analiza danych)
31
Przygotowanie danych
Poukładać dane w
kolumnach!
Każda kolumna to inna pora
roku!
32
Analiza wariancji
33
Wyniki analizy wariancji
34
I to samo w SAS EG
35
Wyniki
Decyzję o odrzuceniu H0 podejmujemy na podstawie kolumny P r> F na
wysokości nazwy czynnika, tj. PoraRoku.
p jest mniejsze aniżeli 0,0001 (0,05) zatem mamy podstawę do odrzucenia H0!
36
Homogeniczność wariancji
37