Transcript KS (totaal)

F-toets
Variantieanalyse
Vandaag
F-Toets: varianties vergelijken
Anova [analysis of variance]:
Kwadraatsommen vergelijken
Eén-factor modellen (one-way layout)
Simultane toetsing
Volgende keer
Twee-factor modellen (two-way layout)
Twee-factor modellen zonder replica’s
De F - verdeling
Neem twee steekproeven met groottes n1 en n2 uit eenzelfde
normale verdeling. Dan heeft
F := s12 / s 22
een F-verdeling met vrijheidsgraden
ν1 = n 1 - 1 en ν2 = n 2 - 1.
Je kan met de F-verdeling bijvoorbeeld toetsen of
twee normaal verdeelde populaties A en B dezelfde
variantie hebben
Ho : σA2 = σB2,
H1 : σA2 ≠ σB2
Toetsingsgrootheid is
F = sA2/sB2
met vrijheidsgraden n1 - 1, n2 - 1
Buijs p. 322, voorbeeld 11.9
> qf(0.025, 9, 11)
[1] 0.2556189
# kritische grens bij α = 0.025 eenzijdig
> pf(5.27, 9, 11, lower.tail=F)
[1] 0.006081249 # overschrijdingskans voor F=5.27, vg = 9, 11
Toetsen gebaseerd op de F-verdeling worden veel
gebruikt in
• variantieanalyse (ANOVA) [dit college],
• in statistisch modelleren [Statistiek 2], en
• in multipele regressies [Statistiek 2].
Deze toetsen kunnen gebruikt worden als de
verwachtingswaarden/gemiddeldes van meer dan 2
groepen worden vergeleken / onderzocht op
verschillen.
Anova: Wanneer ...?
n
Als de verklarende variabele x discreet is, en de
afhankelijke variabele y continue kwantitatief
[afmeting, gewicht, temperatuur, volume, etc...] is
en op een ratio- of interval schaal gemeten.
Plot
600
550
450
500
biomassa
650
700
Hoeveel procent van de
variatie in y [biomassa] laat
zich verklaren uit de
variatie in variabele x
[clipping] ?
Hoeveel van de variatie in
biomassa laat zich
plot(clipping,biomass, toeschrijven aan de indeling
xlab='clipping',
in factoren [var x]?
ylab='biomass')
Variantie-analyse
control
n25
n50
clipping
r10
r5
Anova: voorbeeld
Vergelijking van haemoglobine bij patienten die lijden aan
drie ziekten
Voor iedere groep zijn er verschillende waarnemingen, dit
zijn de replicaties.
Vraag:
Is het gemiddeld gehalte aan haemoglobine gelijk voor de
drie ziekten ? H0: µa = µb = µc
Methodologie
De totale variabiliteit wordt gesplitst in twee delen:
• de variabiliteit van de metingen voor eenzelfde ziekte
(intra = within)
• de variabiliteit tussen ziekten (inter = between)
Kwadraatsommen
16
Een maat voor de totale variabiliteit
wordt gegeven door:
14
●
●
12
●
●
10
y
●
●
●
●
●
8
●
●
6
●
2
KS(totaal) = totale kwadratensom
4
6
8
10
●
12
volgorde
KS(totaal) = 1394 - (130 * 130) / 13 = 1394 - 1300 = 94
Kwadraatsommen
KS(totaal) wordt gesplitst in twee delen
- deel 1: KS(factor)
komt overeen met INTER variabiliteit
- deel 2: KS(residu) (of fout)
komt overeen met INTRA variabiliteit
KS(factor)
KS(factor) = kwadraatsom-deel te wijten aan ziekte
nj = aantal metingen voor ziekte j
xj = gemiddelde voor ziekte j
Cj = som van de metingen voor ziekte j
In het voorbeeld:
KS(ziekte) = (532/4) + (502/5) + (272/4) - (1302/13)
= 1384.5 - 1300 = 84.5
KS(residu)
16
KS(residu) = kwadraatsom-deel te wijten aan de
variabiliteit binnen elke ziekte
14
●
●
12
●
●
10
y
●
●
●
6
8
●
In het voorbeeld:
6
8
●
2
KS(residu) =
=
KS (totaal) =
94
=
4
1394 - 1384,5
9,5
KS (factor) + KS (residu)
84,5
+ 9,5
volgorde
10
12
Vrijheidsgraden
Voor iedere term wordt de variantie geschat door de
kwadraatsom te delen door het aantal vrijheidsgraden
KS(totaal) -> VG(totaal) = n - 1
KS(ziekte) -> VG(ziekte) = k - 1
KS(residu) -> VG(residu) = (n1-1) + (n2-1) + (n3-1)
= (n - 1) - (k - 1) = n - k
Variantie-analyse tabel
In de laatste kolom komen de gemiddelde
kwadraatsommen:
GK = KS / VG
Variantie-analyse tabel
De nulhypothese wordt getoetst door middel van een Ftoets. Hiervoor moeten de volgende voorwaarden worden
voldaan:
• Normale verdeling van de residuën
• Gelijke variantie in de verschillende groepen
• Onafhankelijkheid van de waarnemingen
Toets: µa = µb = µc
F = GK (factor) / GK (residu)
= INTER / INTRA (= tussen / binnen)
In het voorbeeld:
F = 42.25 / 0.95 = 44.47 (df = 2,10)
kritische grens: 5.46 (tabel C8, Buijs)
> pf(44.47, 2, 10, lower.tail=F)
[1] 1.054728e-05
# overschrijdingskans
> qf(0.025, 2, 10, lower.tail=F)
[1] 5.456396
# kritische waarde
Conclusie
Men verwerpt de nulhypothese omdat:
• de berekende F-waarde groter is dan de kritische
grens,
• de overschrijdingskans veel kleiner is dan het
afgesproken significantie-niveau.
De GK (ziekte) is veel groter dan de GK (residu):
Het besluit is dat het gemiddeld haemoglobine niveau
verschillend is voor patienten met de drie aandoeningen.
In R
> data<-read.table("haemo.txt", header=T)
> attach(data)
> names(data)
[1] "haemo" "ziekte"
> anova(aov(haemo ~ ziekte, data))
Analysis of Variance Table
Response: haemo
Df Sum Sq Mean Sq F value Pr(>F)
ziekte
2 84.50
42.25
44.474 1.054e-05
Residuals 10 9.50
0.95
Simultane Toetsing
> TukeyHSD(aov(haemo ~ ziekte, ziek))
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = haemo ~ ziekte, data = ziek)
$ziekte
diff
B-A -3.25
lwr
-5.042354
upr
-1.457646
p adj
0.0014748
C-A -6.50
-8.389307
-4.610693
0.0000074
C-B -3.25
-5.042354
-1.457646
0.0014748