Transcript Modelos Lineales
El modelo lineal
-10 -5 0 x 5 10 -10 -5 0 x 5 10 100 Z 0 -100 -200 10 5 X 0 -5 -10 10 5 -10 -5 0 Y
El modelo lineal
y i
0 1
x i
1 2
x i
2
p
1
x
1
i
El modelo lineal
y
1 0
y
2 0
p
1
x p
1 1
p
1
x p
1 2
y n
0 1
x n
1 2
x n
2
p
1
x
1
n
Modelo lineal de efectos fijos
y
X
y
X
y
y y
y
X
q q
0 0 (
x
(
x
1 2 ) )
q
0 (
x
n
)
q
1 (
x
1 )
q
1 (
x
2 )
q
1 (
x
n
)
q q q p p p
1 ( 1 ( 1 (
x
1 )
x x
2
n
) )
β
0 1
p
1
ε
ε
~
N n
0
, 2 I
y
~
N n
X β
, 2 I
y
Modelo de efectos mixtos
X
u
~
N q
ε
~
N n
y
~
N n
X
,
Modelo lineal de efectos fijos
Estimación máximo verosímil
Estimación máximo verosímil
Consiste en encontrar los valores de los parámetros que maximizan la función de verosimilitud.
Ejemplo
Y
~
U i
) 1 I [0, ] (
y i
) 1
,
2
,...,
Y n
La función de densidad conjunta: La función de verosimilitud:
f
i n
1 1 I [0, ] (
y i
)
L
y
i n
1 1 I [0, ] (
y i
)
L
y
i n
1 1 I [0, ] (
y i
)
L
y
es decreciente en
se anula Luego para que L
y
sea máxima
y y
1 2 ,...,
y n
)
Modelo lineal de efectos fijos Estimación máximo verosímil
1
,
2
,...,
Y n
y
~
N n
X β
, 2 I
Densidad normal multivariada
f
y
2
n
/ 2
n
/ 2
e
2 1 2
Verosimilitud normal multivariada
L
β
, 2 :
y
n
/2
n
/2
e
1 2 2 max
β
, 2
L
β
, 2 :
y
max
β
, 2
n
/ 2
n
/ 2
e
1 2 2
Log(Verosimilitud normal multivariada)
ln
L
β
, 2 :
y
n
2
n
2
n
2 ln
n
2 ln 1 2 2 1 2 2
Recordar:
Ax x
A
x
A
2
Ax
(Ver Timm pag. 96-108)
n
2
n
2 ln 1 2 2 ln
L
β
, 2 2 :
y
n
2 1 2 1 2 4
y
X β
ln
L
β
,
β
2 :
y
1 2 2 2 2
β
ln
L
β
, 2 2 :
y
n
2 1 2 1 2 4
y
X β
n
2 1 2 1 2 4
β
n
2 2
y
X
ˆ
n
ln
L
β
,
β
2 :
y
1 2 2 2 2
β
1 2 2 2 2
β
Ecuaciones Normales
1 2
y
X
ˆ
n
Ejemplo para el modelo de posición
y i
0
i
y
1 1 1
X β
ε ε
~
N
0, 2 I
ˆ 0 1 ˆ 0 1
n
1
i n
1
y i
y
2
y
I 1
n
1
n n
2
y
I 1
n
1
n n n
i n
1
y i
2
n
1
i n
1
y i n i n
1
y i i n
1
y i
y
2
y
I 1
n
1
n n n
i n
1
y i
2
n
1
i n
1
y i n i n
1
y i i n
1
y i
y
i n
1
y i
2
n
1
i n
1
y i n
2
S
2
mv
Propiedades de los estimadores máximo-verosímiles
Esperanza
E
E
1 1
X
E
I 1
E
E
y
X
ˆ
n
ˆ
y
1
n
y
1
E
y
I
n
1
E
μ
V
E
traza
E
y
I
n
1
Traza
n
1 I 1
X
2 I
n
1 I 1 2
n
n
p
El estimador máximo-verosimil de la varianza de los errores es sesgada
ˆ 2 (
n n
2
p
) ˆ 2
y
I
n
p
1
En el modelo de posición…
ˆ 2
y
I 1
n
1
i n
1
y i
2
n
1
i n
1
y i n i n
1 1
y i i n
1
y i
y
i n
1
y i
2 1
n n
1
i n
1
y i
2
S
2
Matrices de proyección
Supongamos … Un vector
y
en R 3 .
Ese vector es una observación distorsionada por
error
de un vector que
vive en el subespacio
-plano- generado por los vectores
x
1 y
x
2 (Gen{
x
1 ,
x
2 }).
El vector candidato como “
vector original
” -no observado- es aquel que, en el plano Gen{
x
1 ,
x
2 } está más cerca (en métrica Euclídea) de
y.
Este vector se conoce como
proyección ortonogal
de
y
en el subespacio Gen{
x
1 ,
x
2 }.
Si definimos la matriz
X
=[
x
1 ,
x
2 ], entonces
X(X’X) -1 X’
es la matriz que, premultiplicando a
y
, lo proyecta ortogonalmente en Gen{
x
1 ,
x
2 }
X(X’X) -1 X’
es la matriz de proyección ortogonal en el plano Gen{
x
1 ,
x
2 }
1
X
y
1
y
X
1
X
y
Si el vector
y
no reside en Gen{
x
1 ,
x
2 }, el “
vector que falta
” para completar a
y
, es: I 1
X
y
Esta es la proyección en el complemento ortogonal de Gen{
x
1 ,
x
2 }. Es fácil ver que 1
X
I-
X
X
X
1
X
y
y
1
X
y
1
y
X
1
X
y
• es la norma cuadrada del vector y proyectado en Gen{x 1 ,x 2 } • es una medida del tamaño de la proyección
y
I 1
X
y
• Es una medida de lo que le falta al vector proyectado para alcanzar el tamaño del vector original
y
y
y
1
y
1
y
1 1
1
y
1
Propiedades de los estimadores máximo-verosímiles
Independencia de y
ˆ 2
2 1
X
I I 1
X
I 1
X
1
X
2 2 1
X
1
X
Ï 1 1
X
1
X
0
Aunque el estimador de la varianza residual es estadísticamente independiente del estimador de los parámetros fijos, esto no implica que la estimación de la varianza residual no se vea afectada por la especificación de la parte fija del modelo.
y
X
2
β β
ε
X X
1
n p
1
X
2
n
1
β
es p
dimensional
β
1
β
2
es p
1 dimensional 1 dimensional
ε
~
N
n
0
, 2 I
Si modelamos
y
como
y
X
1
θ
con los errores supuestamente
~
N n
0
,
2 I Estaríamos ante un problema de
especificación incorrecta
, en particular ante una
sub especificación del modelo.
Los estimadores de este modelo mal especificados serán: 1 1 1
E
1 1 1
X
1
E
1 1 1 1 2
β β
1
β
1 1 1 1
Sesgo
1
El estimador de la varianza de este modelo mal especificado será: ˆ 2
y
I
n
p
1 1 1
Los estimadores de este modelo mal especificados serán: ˆ 2
y
I
n
p
1 1 1
E
tr
2 I 1
P
1 1 1
X
1 /
n
p
1
β
1
β
2
X
1
X
2 I
P
1
n
p
1
X
1
X
2
β β
1 2
n n
p
1
p
1
β
1
β
2
X
1
X
2 I
P
1
n n
p
1
p
1
X
1
Sesgo
X
2
β β
1 2 2 2 2
n
2
p
1
Sesgo
2 1 2
Propiedades de los estimadores del modelo lineal Distribución de
ˆ 2
Distribución con
y
~
N
A
idempotente
A, simétrica ~ 2 1 2
ˆ 2
y
I
n
p
1 ˆ 2
n
2
p
y
I 2 1
y
~
N
X β
, 2 I ~ 2 Demostrar que ˆ 2
n
2
p
~ 2 Encontrar la varianza de ˆ 2
Aunque no vamos a demostrarlo, diremos que y ˆ 2 son estimadores
suficientes
y
completos
, lo que, conjuntamente con la condición de que
Y
sigue una distribución de la familia exponencial, asegura que los estimadores son UMVU (
uniform minimum variance unbiased
), esto es,
uniformemente insesgados y estimadores de mínima varianza
Ejemplo para el modelo de regresión lineal simple
y i
0 1
x i
i
y
1 1 1
X
x
1
x x
2
n
β
ε ε
~
N
0, 2 I
1
x
1 1
x
2
X'X
1
x n
1 1 1
x
1
x x
2
n
1 1
x
1 1
x
2
X
1
x n
y
y
y
n x i
x i x i
2
y i i
n
x i
2 1
x i
2 /
n
x x i i
2
x i n
y i i
1
n
x i
2 1
x i
2
n
x i
2 1
x i
2 /
n
x i
2
x i
x i n
y i i
y i
/
n
/
n
n
x i
2
i
x i
2
y i
/ /
n
n
i
0
n
x i
2 1
x i
2 /
n
n
x i
2 1
x i
2 /
n
x i
2
x i
x i n
y i i
y i
i
x i
2
y i
/
n
x i
2
y i
/
n
x i
2
x n
i
2 /
x i
2
n
x i
2 /
n
i
x i
y i
/
n
y i n
x i n
ˆ 1
ˆ 2
n
1 2
y
I 1
n
1 2
y i
2 ˆ
n
1 2
y i
2
y y
n
1 2
y i
2 suma de cuadrados total no corregida
y
ˆ
i
2 suma de cuadrados explicada por el modelo
Var
primer elemento diagonal de
Var 2
x i
2
n
x i x i
2 2 /
n
1
multiplicado por
x i
2 /
n
x i
2 /
n
2 2 1
n
x i
2
x
2
x i
2 /
n
Var
segundo elemento diagonal de
Var 1
multiplicado por
2 2
n
x i
2
n
x i
2 /
n
x i
2 2
x i
2 /
n
Valor esperado y residuo
Valor esperado
y
ˆ
i
x
i
X
ˆ 1
Hat matrix
N n N n
X
,
X β
, 2 1
X
2 1
X
N n
1
Xβ
,
X
2
H
at
2 1
x
i
2
h ii
Residuo
e i
y i
y
ˆ
i
e
Hat
1
e
~
N n
I
H
at
X β
, I
H
at
H
at
y
2 I
H
at
N n
0, 2 I
H
at
Var(
e i
) 2 1 1
x
i
2 1
h ii
Residuo Estudentizado
r i
2
e i
1
h ii
Covarianza entre residuos y valores esperados
Cov(
H
at
y
,( I
H
at
Cov(
H
at
y
,( I
H
at
H
at
I
H
at
)
Cov(
H
at
y
,( I
H
at
H
at
I
H
at
) 2
H
at
( I
H
at
)
0
Covarianza entre residuos y valores observados
Cov
y
,( I
H
at
)
y
I
H
at
)
2
(
I
H
at
)
La covarianza NO es cero
Varianza de los valores esperados Modelo regresión lineal simple con ordenada al origen
Var(
y
ˆ
i
)
n
x
2
j
2
x j
2 /
n
x
i
x x j
2
j scx
x j
x
i n
2
n scx
x
2
j
2
x i
x j
nx i
2 2
n scx
x
2
j
x i
x j
x j
nx i
x
i
2
n scx
x
2
j
x i
x j
x i
x j
nx i
2
Sumando y restando
x j
2 /
n
a 2
n scx
tenemos:
x
2
j
x i
x j
x i
x j
nx i
2
n
2
s c x
x
2
j
2
x i
x j
nx i
2
x j
2 /
n
x j
2 /
n
2
n scx
x
2
j
x j
2 /
n
2
nx i
2
nx
2 2
n scx
x j
2
x j
2 /
n
n
2
x i
2
x
2 2
scx
n
n x i
scx x
2 2 1
n
x i
scx x
2
Leverage o palanca
X
ˆ 1
Hat matrix tr
y
ˆ
i
i
i
2
i
1
X
tr
1
X
1
tr
2
p n n
p
Contraste de hipótesis en modelos lineales
Prueba del cociente de verosimilitudes
H
y
0 1
x
1 0
H
0 1 1
b
H
0 1 ~
N
0, 2
h
h
y
0 1 2
p
1 0
p
1
x p
1
H
p
p
0 1 0 0 0 1 0 0 0 0 0 1
h
p
1 0 0 0
y
0
p
1
x p
1
H
p
p
0 1 0 0 0 1 0 0 0 0 0 1
h
p
1 0 0 0
y
0
p
1
x p
1 1 2
H
p
p
0 1 0 1 0 1 1 0 0 1 0 0 0 0 1
p
1
h
p
1 0 0 0
Prueba del cociente de verosimilitudes
M m w W
V
) 2ln( ) ~ 2
Dim Dim
w
¿Qué forma tiene la prueba del cociente de verosimilitudes bajo el modelo lineal con errores normales?
En el denominador tenemos que encontrar el máximo de la función de verosimilitud moviendo y 2 . Pero esto es ni mas ni memos que evaluar la función de verosimilitud en los estimadores máximo-verosímiles de y 2 .
)
n
/ 2
n
/ 2
n
/ 2
e
1/ 2 1
y
1
n
I 1 1
n
/ 2
e
1/ 2
y
I
n
1 1
X
y
I I 1 1
n
/ 2
n
/ 2
e
n
/ 2
La complicación aparece cuando queremos encontrar el máximo de la función de verosimilitud restringida por la hipótesis. El método consiste en introducir la restricción impuesta por la hipótesis nula en la función de verosimilitud y maximizarla sujeta a esta restricción. Para hacer esto introduciremos la restricción en el modelo .
Sea
H
G
de rango
q
p
de rango es el complemento ortogonal de
H
es decir
HG
0
H G
pxp
H
1
H
1
H
G
G
1 1
H H
I
p
y
y
X
1
H H
XH H
XG G
y
XG G
L
β
2 )
n
/ 2
n
/ 2
e
1/ 2 2
z y
L
θ
,
B
XG
XG G
z
B
n
/ 2
n
/ 2
e
2 1 2
max 2
L
n
/ 2
n
/ 2
e
n
2
V
n
/ 2
n
/ 2
n
/ 2
e
n
2
n
/ 2
e
n
2
n n
/ 2 / 2
H
2 2
n
/ 2
La expresión es una función de un cociente de varianzas. La construcción de una prueba estadística para la hipótesis nula usando la distribución de V no es simple ya que V no tiene distribución conocida. Buscaremos una función de V
w
V
2
n
1
n
q p
w
n
q p
2
H
2 2
n
p q
z
I
y
1 I
y
I 1 1
y
I
z
1
z
I
y
1 I
P
1
X
z
z
P
y
X
X
1 I
0
w
n
q p
z
I
z
I 1
B
1 1
X
z
w
n
q p
z
I 1
X
1 1
z
~
N n
X
, 2 I
Tenemos el cociente de dos formas vector normal multivariado.
cuadráticas de un Si podemos mostrar que el numerador y denominador son
Chi-cuadrado
independientes divididas por sus grados de libertad, entonces W tiene, bajo H 0 distribución F con los grados de libertad del numerador y denominador respectivamente.
Primeramente tenemos que probar que el numerador y denominador de tiene distribución Chi-cuadrado.
Para ello debemos probar que las matrices de estas formas cuadráticas son simétricas y que multiplicadas por la matriz de covarianza de son idempotentes.
1
X
1
X
1
B
1
B
2 I
Numerador
¿es simétrica?
no es idempotente 1
X
1
B
1 2 2 I
se propone como matriz de la forma cuadrática
1
X
1
B
1 2 2 I
¿es idempotente?
Numerador
Probemos que esta matriz es idempotente 1
X
1
X
1
B
1
X
1
X
1
X
1
B
1
B
1
X
1
X
I 1
B
1
X
1
B
1
B
1
X
XG
B
1
X
X G
I
B
1
X
2 1 1
B
B
1
X
1 1 1
B
1
B
I
B
B
1
B
I 1
X
1
X
1
B
1
B
Numerador
Entonces la forma cuadrática del numerador es una
Chi-cuadrado
con grados de libertad igual al parámetro de no centralidad
rango
1
X
1
B
p
q
q
1 2 2
X
1 1
I 1
X
2
Denominador
¿es simétrica?
Sidividimoslamatriz dela formapor 2 , debemosdemostrar laidempotencia de
entonces
I 1
X
I 1
X
I 1
X
1
X
1
X
X
1
X
1
X
2 1
X
1
X
I 1
X
rango
I 1
X
p
Denominador
1 2 2
X
Parámetro de no centralidad I 1
X
X
1 2 2
X
1 2 2
X
X
I 1
X
Xβ
X
I 1
X
X
0
X β
X H
h
Ahora deberíamos probar que numerador y denominador de W son independientes para ello basta mostrar que: 1
X
1
B
I 1
X
0
1
X
1
B
I 1
X
1
X
B
1
B
X
1
X
1
X
1
B
1
B
I
B
1
X
-
1
B
1
B
B
B
B
1
B
0
w
n
q p
z
I 1
X
1 1 Es el cociente de dos variables Chi-cuadrado independientes, divididas por sus grados de libertad y con parámetros de no centralidad y 0 respectivamente. Luego:
w
~
F
,
Para ver con mayor facilidad la forma del parámetro de no centralidad del numerador, es conveniente escribir al estadístico w en una forma equivalente:
w
n
q p
H
ˆ
y
' I 1
H
1 1 ˆ
La forma cuadrática del numerador:
H
ˆ 2 1
H
1 tiene distribución Chi-cuadrado con q grados de libertad y parámetro de no centralidad 1 2 2
H
1
H
1 Este parámetro vale cero cuando la hipótesis nula es cierta.
Ejemplificación
Regresión lineal simple
y
0 1
x
~
N
0 0 1 0
H
1 0
H
0 1
h
h
w
n
q p
0 1 1 0 0 1 1
y
I
x i
2
x i
1
x i n
0 1 0 1 1 0
n
2 1 1
y
I
n
1 1 1
n
2 1 1 2
scx
SCresidual
Ejemplo Un caso especial
Una hipótesis que aparece frecuentemente y es contrastada por defecto por algunos paquetes estadísticos es
H
vs rango
p
y
XH H
y
H
0
y
X
ε z
w
n
p p
I
ε
1 1
y
I 1 1
1
Es la suma de cuadrados del modelo (completo)
Ejemplo Otro caso especial
H
p
p
0 1 0 0 0 1 0 0 0
G
1 0 0 0 0 1
0
I p-1
G
1 1 0
B
XG
1 1 1
B
1 J
n n
W
z
I 1
X
1
n
1 J n
z
n p
p
1
n
1 J n
z Es la suma de cuadrados del modelo corregida por la constante z
z Es la suma de cuadrados explicada por la constante
Sumas de Cuadrados
Aunque hemos mostrado cómo se construyen las pruebas de hipótesis a partir de la prueba del cociente de verosimilitudes, existe una jerga, costumbres y práctica arraigada de construir estas pruebas a partir de lo que se llama una partición de la suma de cuadrados.
Los resultados son enteramente consistentes con los obtenidos por verosimilitud.
Supongamos un vector
y
en R 3 .
Que ese vector es una observación distorsionada por
error
de un vector que
vive en el subespacio
-plano- generado por los vectores
x
1 y
x
2 (Gen{
x
1 ,
x
2 }).
El vector candidato como “
vector original
” -no observado- se propone aquel que, en el plano Gen{
x
1 ,
x
2 } está más cerca (en métrica Euclídea) de
y.
Este vector se conoce como
proyección ortonogal
de
y
en el subespacio Gen{
x
1 ,
x
2 }.
Si definimos la matriz
X
=[
x
1 ,
x
2 ], entonces
X(X’X) -1 X’
es la matriz que, premultiplicando a
y
, lo proyecta ortogonalmente en Gen{
x
1 ,
x
2 }
X(X’X) -1 X’
es la matriz de proyección ortogonal en el plano Gen{
x
1 ,
x
2 }
1
X
y
1
y
X
1
X
y
es la norma cuadrada del vector
y
proyectado en Gen{
x
1 ,
x
2 } y es una medida del tamaño de la proyección Si el vector
y
no reside en Gen{
x
1 ,
x
2 }, el “
vector que falta
” para completar a
y
, es: I 1
X
y
Esta es la proyección en el complemento ortogonal de Gen{
x
1 ,
x
2 }. Es fácil ver que 1
X
I-
X
X
X
1
X
y
y
Se dice que
y’y
, es la
suma de cuadrado
total -no corregida-
de
y
. Podemos descomponer la
suma de cuadrado total
-no corregida- en:
Una suma de cuadrados del modelo:
atribuible a la proyección sobre el subespacio definido por las columnas de
X
, y Una
suma de cuadrados residual
correspondiente a la suma norma cuadrada de la proyección sobre su complemento ortogonal del espacio generado por las columnas de
X
.
y
I 1
X
sc total 1
X
y
y
I sc residual 1
X
y
y
1
X
y
sc explicada por el modelo
Usualmente los modelos incluyen una ordenada al origen o constante No es de mayor interés práctico confundir lo que explica la ordenada (o en su defecto la media general en los modelos de clasificación) con lo que explica el resto del modelo. Por ejemplo si uno trabaja con tensiones arteriales, no está interesado en saber si la media de la tensión arterial es mayor que cero.
X
1 X
*
y
I sc residual
P
x
P
1 1
X
1
1
1
j
n n
x
n
1
J
n
n
1
J
n
y
sc explicada por el modelo
y
I sc residual
x
n
1
J
n
y
y
sc explicada corregida por la constante
J
n
y
sc explicada por la constante
Ejemplificar con R