1  (Y i .)

Download Report

Transcript 1  (Y i .)

ANALISIS DE VARIANZA
Mario Briones L.
MV, MSc
2005
Herramienta mediante la cual la variación total
presente en un conjunto de datos se distribuye en
varios componentes. Asociada con cada uno de estos
componentes hay una fuente específica de variación,
de modo que en el análisis es posible averiguar la
magnitud de las contribuciones de cada una de
estas fuentes a la variación total.
La base del ANDEVA radica en la partición de las varianzas
En el siguiente cuadro observe:
grupo 1
2
La diferencia entre los promedios
3
1
promedio
2
suma
6
2
suma de cuadrados (Sx i)
media general
suma total de cuadrados
2
2
2
2
grupo 2
6
7
5
6
18
2
4
28
La base del ANDEVA radica en la partición de las varianzas
En el siguiente cuadro observe:
grupo 1
La similitud de la suma de cuadrados 2
al interior de cada grupo
3
1
promedio
2
suma
6
2
suma de cuadrados (Sx i)
media general
suma total de cuadrados
2
2
2
2
grupo 2
6
7
5
6
18
2
4
28
La base del ANDEVA radica en la partición de las varianzas
En el siguiente cuadro observe:
El contraste con la magnitud
de la suma total de cuadrados
promedio
suma
2
suma de cuadrados (Sx i)
media general
suma total de cuadrados
grupo 1
2
3
1
2
6
2
2
2
2
grupo 2
6
7
5
6
18
2
4
28
La base del ANDEVA radica en la partición de las varianzas
En el siguiente cuadro observe:
La diferencia se debe a la
diferencia entre los promedios
promedio
suma
2
suma de cuadrados (Sx i)
media general
suma total de cuadrados
grupo 1
2
3
1
2
6
2
2
2
2
grupo 2
6
7
5
6
18
2
4
28
DEP VAR:
VALOR
N:
6
MULTIPLE R: 0.926
SQUARED MULTIPLE R: 0.857
ANALYSIS OF VARIANCE
SOURCE
SUM-OF-SQUARES
DF
MEAN-SQUARE
GRUPO
24.000
1
24.000
ERROR
4.000
4
1.000
F-RATIO
24.000
P
0.008
Se observa que la suma total de cuadrados (28) fue dividida
en una variabilidad dentro de grupo (2+2=4) y una variabilidad
debida a las diferencias entre promedios (28-(2+2)=24).
Suma de cuadrados del error (SCError) y
Suma de cuadrados de efectos (SCEfecto)
La suma de cuadrados dentro de grupos también se le
llama Varianza del Error. Denota el hecho de que es
una fracción de la varianza que no podemos explicar
con el diseño elegido.
Podemos explicar la fracción de varianza en la SCEfecto.
PRUEBAS DE SIGNIFICANCIA
En el análisis de varianza, la realización de pruebas de
significancia se basa en una comparación de la varianza
debida a la variabilidad ENTRE GRUPOS (CMEfecto)
y a la variabilidad DENTRO DE GRUPOS (CMError).
Bajo la hipótesis nula, aún puede haber pequeñas
fluctuaciones en la media de dos grupos, especialmente
si las muestras son pequeñas, por lo tanto, de acuerdo
con esta hipótesis, la variabilidad en ambas fuentes
debería ser más o menos la misma.
La prueba de F, evalúa la tasa de las estimaciones de
ambas varianzas para determinar si es significativamente
mayor que uno.
1. Modelo. El modelo consiste en una representación
simbólica de un valor típico tomado de los
datos que se están analizando.
2. Supuestos. Se especificarán las suposiciones que
fundamentan el modelo.
3. Hipótesis. Se indicarán las hipótesis que pueden
probarse de acuerdo al modelo.
4. Cálculos. Cálculos aritméticos apropiados.
5. Tabla de ANDEVA. Resumen de los cálculos
aritméticos
6. Decisión. Decisión estadística acerca del rechazo
o aceptación de la hipótesis nula.
Peso final
m
2
s
Yi Yi
Yi
Yi
Yi
Yi Yi Yi Yi
Y
Yi Yi i
Yi Yi
Yij Yij
Yij
Yij
Yij
Yij Yij Yij Yij
Y
Yij Yij ij
Yij Yij
Modelo lineal de explicación de los
componentes de varianza.
Yij= m + ai +eij
Yij: observación individual
m: media general
ai: efecto del i ésimo grupo (i=1,2)
e: error residual inexplicado
Una representación diagramática del
Análisis de varianza
Media del
grupo A2
A2
A1
m
Media
general
A3
Desviación
individual
Efectos fijos versus efectos aleatorios
Efectos fijos
Efectos aleatorios
escogidos
específicamente
por el experimentador.
En este caso los tratamientos
son una muestra al azar de
una población mayor de
tratamientos posibles.
Para probar hipótesis
acerca de los promedios
de los grupos.
Las conclusiones se
aplican
sólo a los niveles del
factor
considerado en el análisis
y no a tratamientos
similares
que no fueron
considerados
En esta situación interesa
extender las conclusiones
a todos los tratamientos
posibles, hayan sido
considerados explícitamente
o no.
Análisis de varianza de un factor (efectos fijos)
Datos:
observaciones
Media
Grupo 1 Y11 Y12 .... Y1n
m + A1
Grupo 2 Y21 Y22 .... Y2n
m+ A2
.
.
.
.
.
Grupo k Yk1 Yk2 .... Ykn
m + Ak
Modelo Lineal
Yij= mAi + eij
i=1,...k; j=1,...n
donde
Yij= observaciones
m= media general
Ai = desviaciones del i-ésimo
grupo desde la media
general
eij =
error residual inexplicado
Hipótesis= H0: no hay diferencia entre las medias, Ai= 0
H1: existen diferencias entre medias de grupos
Notación
n
Yi.=SYij = suma de los observaciones individuales j dentro
j=1
de cada grupo, desde j=1 hasta n (el total de
cada grupo)
n k
Y..=SSYij
j=1 i=1
= gran total, suma de observaciones, primero
dentro de grupos y luego a través de grupos,
desde i=1 hasta k (total de grupos)
Calculo de ANDEVA simplificado (efectos fijos)
Fuente de
Variación
grados de
libertad
k
entre
grupos
k-1
dentro de
grupos
(residual)
N-k
Total
suma de
cuadrados
N-1
Si=1
(Yi.)2
(Y..)2
n
N
Y2.. -
(
N
SCG
k-1
SCR
N- k
por diferencia
(Y..)2
cuadrado
medio
)
N= nk
SCG= suma de cuadrados de grupos
SCR= suma de cuadrados residual
CMG/CMR= cuadrado medio grupos/cuadrado medio residual
F
CMG
CMR
Suponga que 30 pollitos de un día fueron asignados al azar a tres
grupos, en cada uno de ellos se adicionó un antibiótico promotor del
crecimiento diferente, A, B, y C. Al termino de la recría los pesos de
los pollitos fueron los siguientes (en gramos):
ANTIBIOTICO
Promedio
A
B
C
72
70
74
73
73
71
73
71
75
70
78
76
73
75
74
74
75
76
70
75
85
83
80
79
80
82
89
76
79
83
72.2
74.6
81.6
Hipótesis nula: no hay diferencias entre los promedios
de los grupos, equivalente a: los efectos de los grupos
son iguales a cero.
(Y..)2
N
= 173888.53
A
B
C
72
70
74
73
73
71
73
71
75
70
78
76
73
75
74
74
75
76
70
75
85
83
80
79
80
82
89
76
79
83
Yi.
722
Y2i. 52154
746
55692
816
66706
Y.. = 2284
Y2.. = 174552
Suma de cuadrados Totales= Suma de Cuadrados + Suma de Cuadrados
de tratamientos
del error
El total de la varianza está representado por la suma de cuadrados totales,
que se divide o reparte en las causas de variación identificadas en el
diseño: variación entre tratamientos o grupos y variación dentro de grupos.
Calculo de ANDEVA simplificado (efectos fijos)
Fuente de
Variación
grados de
libertad
entre
grupos
2
dentro de
grupos
(residual)
27
Total
29
suma de
cuadrados
cuadrado
medio
F
238.5
174365.6-173888.53 477.07 6.91
2
477.07
238.5 34.5
por diferencia
186.4
186.6
27 6.91
174552 - 173888.53
663.47
N= nk
SCG= suma de cuadrados de grupos
SCR= suma de cuadrados residual
CMG/CMR= cuadrado medio grupos/cuadrado medio residual
Si los promedios son
diferentes
Comparaciones pareadas: comprobar H0: mA-mB  0
t
x A  xB
 1
1 
s   
 n A nB 
2
Donde A y B son los grupos comparados, dentro del experimento
y s2 es el cuadrado medio residual
La comparación se efectúa con los grados de libertad del término
de error o residual en la tabla de t
En el ejemplo
grupo
A
B
C
promedio
72,2
74,6
81,6
comparación
A-B
A-C
B-C
diferencia
valor de t calculado
-2,4
-2,042
-9,4
-7,996
-7
-5,954
s2
valor crítico t
(alfa=0.05) gl=
27
6,91
2,05
significancia
no significativo
significativo
significativo
Otras pruebas
Tukey
 Duncan
 Scheffé
 Diferencia mínima significativa (LSD)
 Bonferroni
 Student Newman Keuls

ANALISIS DE VARIANZA DE UN FACTOR CON EFECTOS
ALEATORIOS.
MODELO
Yij= m + Ai + eij
i= 1,... k; j= 1,.....n
j= 1,....ni (distinto n)
Donde Yij= observaciones individuales
m= media general
eij= error residual, y eij: NID (0,s2)
A diferencia del análisis de varianza con efectos fijos,
la hipótesis nula en este caso es:
H0= s2A= 0 además, normalmente k es de gran tamaño
Calculo de ANDEVA simplificado (efectos aleatorios)
Fuente de grados de
Variación
libertad
k
entre
grupos
k-1
dentro de
grupos
(residual)
k(n-1)
Total
suma de
cuadrados
nk - 1
S
i=1
(Yi.)2
(Y..)2
n
N
Y2.. -
(
N
F
SCG
k-1
CMG
CMR
SCR
k(n-1)
por diferencia
(Y..)2
cuadrado
medio
)
N= nk
SCG= suma de cuadrados de grupos
SCR= suma de cuadrados residual
CMG/CMR= cuadrado medio grupos/cuadrado medio residual
Ejemplo: Análisis de Varianza con más de un factor
Dos razas de ovejas, Suffolk y Scottish Blackface, son ubicadas en dos
diferentes ambientes, A: llanura regada y B: montaña. Durante la
crianza de los corderos se controla el peso de destete de un grupo de
120 corderos de cada raza (60 en cada ambiente)
1. H0: no hay diferencias en los pesos de destete entre las dos razas
HA: existe diferencia en los pesos de destete de las dos razas.
2. H0: no hay diferencias entre los dos ambientes para el peso al destete
HA: el peso de destete es diferente en los dos ambientes.
Las sumatorias de los datos son las siguientes:
SX
SX2
Raza
Suffolk
SBFace
1962
1970
64680
66526
Predio
valle
montaña
1899
2033
61115
70091
Calculo de ANDEVA asumiendo sólo efecto de la raza
Fuente de
Variación
entre
razas
dentro de
razas
(residual)
Total
grados de
libertad
1
suma de
cuadrados
128839.1-128838.5
0.56
118
119
por diferencia
2366.84
cuadrado
medio
0.56
1
0.56
F
0.56
20
0.028
2366.8
11820
131206-128838.5
2367.4
Modelo: Yij= m + Ri + eij
Yij: observación individual
m: media general
Ri: efecto de la iésima raza
e : error residual
Calculo de ANDEVA asumiendo sólo efecto del predio
Fuente de
Variación
entre
predios
dentro de
predios
(residual)
Total
grados de
libertad
1
suma de
cuadrados
128988.1-128838.5
150
118
119
por diferencia
2217.9
cuadrado
medio
150
1
150
F
150
18
8.3
2217.9
11818
131206-128838
2368
Modelo: Yij= m + Pi + eij
Yij: observación individual
m: media general
Pi: efecto del iésimo predio
e : error residual
ANALISIS DE VARIANZA DE DOS FACTORES CON EFECTOS
FIJOS.
MODELO
Yijk= m + Pi + Rj + eijk
eijk: NID (0,s2)
s
S Pi= 0
i=1
i= 1,..s; j=1,...t; k= 1,...n
Yijk: observación individual
m: media general
Pi: efecto del iésimo predio
Rj: efecto de la iésima raza
eijk: error residual inexplicado
t
S R i= 0
j=1
Ejemplo: dos o más razas de ovejas son evaluadas en su productividad
en dos o más predios (o regiones).
Calculo de ANDEVA dos factores (efectos fijos, igual
número de observaciones por nivel)
Fuente de grados de
Variación libertad
entre
predios
suma de
cuadrados
s
s-1
S
i=1
t
entre
razas
t -1
Residual
nst-s-t+1
Sj=1
cuadrado F
medio
(Yi..)2
(Y...)2
tn
N
(Y.j.)2
(Y...)2
sn
N
CM
SCpredios predios
CM res
s-1
CM
SCrazas
razas
CM res
t-1
SCresidual
Por diferencia
nst-s-t+1
Total
nst - 1
Fpredios= Fs-1, nst-s-t+1
Frazas= Ft-1, nst-s-t+1
Y2... -
(
(Y...)2
N
)
Calculo de ANDEVA dos factores (efectos fijos, igual
número de observaciones por nivel)
Fuente de grados de
Variación libertad
suma de
cuadrados
128988.1-128838.5
entre
predios
1
entre
razas
1
Residual
117
2216.8
Total
119
131206-128838
cuadrado F
medio
150
150
128839.1-128838.5
0.56
2368
Fpredios= Fs-1, nst-s-t+1
Frazas= Ft-1, nst-s-t+1
0.56
9
16.6
Grados de libertad según fuente de variación:
Total de predios: s= 2 (Yi..)
Total de razas: t= 2 (Y.j.)
Total de observaciones por nivel: n= 60
Según el valor de F para 1 grado de libertad de razas y 117 para error
y 95% de probabilidad (aprox 3.92), se acepta la primera hipótesis nula
Según el valor de F para 1 grado de libertad de predios y 117 para error
1 95 % de probabilidad (3.92), se rechaza la segunda hipótesis nula.
Estarán identificadas ahora todas las causas de
variación en el modelo?
Variable
Efecto B
1
Efecto B
2
Efecto A
Variable
Efecto B
Efecto B
1
2
Efecto A
Variable
Efecto B
INTERACCION
Efecto B
1
2
Efecto A
Variable
Efecto B
INTERACCION
Efecto B
1
2
Efecto A
Cálculo de ANDEVA dos factores con interacción
(efectos fijos)
Fuente de
Variación
entre
predios
entre
razas
interacción
Residual
Total
grados de
libertad
s-1
suma de
cuadrados
128988.1-128838.5
150
128839.1-128838.5
t -1
(s-1)(t-1)
resta
nst - 1
0.56
resta
(Yij.)2
Y2... - SS n
cuadrado
medio
F
CM
SCpredios predios
CM res
s-1
CM
SCrazas
razas
CM res
t-1
SCinterac CM
interac
(s-1)(t-1) CM res
SCresidual
nst-s-t+1
131206-128838
2368
Fpredios= Fs-1, nst-s-t+1 F
interacción= F(s-1)(t-1), residual
Frazas= Ft-1, nst-s-t+1
1. H0: no hay diferencias en los pesos de destete entre las dos razas
HA: existe diferencia en los pesos de destete de las dos razas.
2. H0: no hay diferencias entre los dos ambientes para el peso al destete
HA: el peso de destete es diferente en los dos ambientes.
3. H0: no hay efecto combinado del predio y la raza.
HA: existe efecto combinado del predio y la raza
SYi..
Predio 1 raza 1
Predio 1 raza 2
Predio 2 raza 1
Predio 2 raza 2
1034
928
865
1105
Y
34.47
30.93
28.83
36.83
Cálculo de ANDEVA dos factores con interacción
(efectos fijos)
Fuente de
Variación
entre
predios
entre
razas
interacción
Residual
Total
grados de
libertad
suma de
cuadrados
s
1
S
i=1
t
1
(s-1)(t-1)
resta
119
Sj=1
cuadrado
medio
(Yi..)2
(Y...)2
tn
N
(Y.j.)2
(Y...)2
sn
N
CM
SCpredios predios
CM res
s-1
CM
SCrazas
razas
CM res
t-1
SCinterac CM
interac
(s-1)(t-1) CM res
resta
(Yij.)2
Y2... - SS n
Y2... -
F
(
(Y...)2
N
SCresidual
nst-s-t+1
)
Fpredios= Fs-1, nst-s-t+1 F
interacción= F(s-1)(t-1), residual
F
=F
Cálculo de ANDEVA dos factores con interacción
(efectos fijos)
Fuente de
Variación
entre
predios
entre
razas
interacción
Residual
Total
grados de
libertad
s-1
suma de
cuadrados
128988.1-128838.5
150
128839.1-128838.5
t -1
(s-1)(t-1)
resta
nst - 1
0.56
resta
(Yij.)2
Y2... - SS n
cuadrado
medio
F
CM
SCpredios predios
CM res
s-1
CM
SCrazas
razas
CM res
t-1
SCinterac CM
interac
(s-1)(t-1) CM res
SCresidual
nst-s-t+1
131206-128838
2368
Fpredios= Fs-1, nst-s-t+1 F
interacción= F(s-1)(t-1), residual
F
=F