Modelos Lineales

Download Report

Transcript Modelos Lineales

El modelo lineal

-10 -5 0 x 5 10 -10 -5 0 x 5 10 100 Z 0 -100 -200 10 5 X 0 -5 -10 10 5 -10 -5 0 Y

El modelo lineal

y i

  0   1

x i

1   2

x i

2  

p

 1

x

 1   

i

El modelo lineal

y

1   0  

y

2   0        

p

 1

x p

 1    1  

p

 1

x p

 1    2

y n

  0   1

x n

1   2

x n

2  

p

 1

x

 1   

n

Modelo lineal de efectos fijos

y

X

y

X

y

y y

   

y

X

 

q q

0 0 (

x

(

x

1 2 ) )   

q

0 (

x

n

)

q

1 (

x

1 )

q

1 (

x

2 )

q

1 (

x

n

)

q q q p p p

 1 (  1 (  1 (

x

1 )

x x

2

n

) )       

β

           0 1

p

 1       

ε

     

ε

~

N n

0

,  2 I 

y

~

N n

X β

,  2 I 

y

Modelo de efectos mixtos

X

 

u

~

N q

 

ε

~

N n

 

y

~

N n

X

,   

Modelo lineal de efectos fijos

Estimación máximo verosímil

Estimación máximo verosímil

 Consiste en encontrar los valores de los parámetros que maximizan la función de verosimilitud.

Ejemplo

Y

~

U i

)  1  I [0, ] (

y i

)  1

,

2

,...,

Y n

 La función de densidad conjunta: La función de verosimilitud:

f

 

i n

  1 1  I [0, ] (

y i

)

L

y

i n

  1 1  I [0, ] (

y i

)

L

y

i n

  1 1  I [0, ] (

y i

)

L

y

es decreciente en

se anula Luego para que L

y

sea máxima

 

y y

1 2 ,...,

y n

)

Modelo lineal de efectos fijos Estimación máximo verosímil

 1

,

2

,...,

Y n

y

~

N n

X β

,  2 I 

Densidad normal multivariada

f

y

 2     

n

/ 2 

n

/ 2

e

 2  1 2      

Verosimilitud normal multivariada

L

β

,  2 :

y

    

n

/2   

n

/2

e

 1 2  2       max

β

,  2

L

β

,  2 :

y

 max

β

,  2     

n

/ 2 

n

/ 2

e

 1 2  2        

Log(Verosimilitud normal multivariada)

ln 

L

β

,  2 :

y

   

n

2  

n

2 

n

2 ln 

n

2 ln  1 2  2      1 2  2           

Recordar:  

Ax x

A

  

x

 

A

     2

Ax

(Ver Timm pag. 96-108)

 

n

2 

n

2 ln  1 2  2            ln 

L

β

,   2 2 :

y

   

n

2 1  2  1 2  4 

y

X β

    ln 

L

β

,  

β

2 :

y

    1 2  2   2  2 

β

 

 ln 

L

β

,   2 2 :

y

   

n

2 1  2  1 2  4 

y

X β

    

n

2 1  2  1 2  4  

β

         

n

 2  2  

y

X

ˆ   

n

 

 ln 

L

β

,  

β

2 :

y

    1 2  2   2  2 

β

  1 2  2   2  2 

β

   

Ecuaciones Normales

 

    1  2  

y

X

ˆ   

n

 

Ejemplo para el modelo de posición

y i

  0  

i

y

 1 1     1

X β

     

ε ε

~

N

 0,  2 I 

 ˆ 0     1  ˆ 0     1 

n

1

i n

  1

y i

y

 2 

y

  I     1

n

   1

n n

 2 

y

  I     1

n

   1

n n n

 

i n

  1

y i

2

n

1 

i n

  1

y i n i n

  1

y i i n

  1

y i

  

y

 2 

y

  I     1

n

   1

n n n

 

i n

  1

y i

2

n

1 

i n

  1

y i n i n

  1

y i i n

  1

y i

  

y

i n

  1

y i

2

n

1 

i n

  1

y i n

   2 

S

2

mv

Propiedades de los estimadores máximo-verosímiles

Esperanza

E

  

E

    1       1

X

E

   I   1  

E

E

  

y

X

ˆ 

n

ˆ           

y

    1

n

  

y

    1      

E

 

y

  I  

n

  1    

E

μ

V

 

E

  

traza

E

 

y

  I  

n

  1     

Traza

 

n

1  I     1

X

   2 I   

n

1  I     1    2

n

n

p

El estimador máximo-verosimil de la varianza de los errores es sesgada

 ˆ 2  (

n n

 2 

p

)  ˆ 2 

y

  I  

n

p

  1 

En el modelo de posición…

 ˆ 2 

y

  I     1

n

 1    

i n

  1

y i

2

n

1 

i n

  1

y i n i n

  1  1

y i i n

  1

y i

 

y

i n

  1

y i

2 1

n n

  1

i n

  1

y i

  2 

S

2

Matrices de proyección

Supongamos …  Un vector

y

en R 3 .

 Ese vector es una observación distorsionada por

error

de un vector que

vive en el subespacio

-plano- generado por los vectores

x

1 y

x

2 (Gen{

x

1 ,

x

2 }).

 El vector candidato como “

vector original

” -no observado- es aquel que, en el plano Gen{

x

1 ,

x

2 } está más cerca (en métrica Euclídea) de

y.

 Este vector se conoce como

proyección ortonogal

de

y

en el subespacio Gen{

x

1 ,

x

2 }.

 Si definimos la matriz

X

=[

x

1 ,

x

2 ], entonces

X(X’X) -1 X’

es la matriz que, premultiplicando a

y

, lo proyecta ortogonalmente en Gen{

x

1 ,

x

2 } 

X(X’X) -1 X’

es la matriz de proyección ortogonal en el plano Gen{

x

1 ,

x

2 }

    1

X

y

      1  

y

 

X

   1

X

 

y

 Si el vector

y

no reside en Gen{

x

1 ,

x

2 }, el “

vector que falta

” para completar a

y

, es:  I     1

X

 

y

 Esta es la proyección en el complemento ortogonal de Gen{

x

1 ,

x

2 }.  Es fácil ver que      1

X

    I-

X

X

X

  1

X

  

y

y

    1

X

y

      1  

y

 

X

   1

X

 

y

• es la norma cuadrada del vector y proyectado en Gen{x 1 ,x 2 } • es una medida del tamaño de la proyección

y

  I     1

X

 

y

• Es una medida de lo que le falta al vector proyectado para alcanzar el tamaño del vector original

y

y

y

   1

y

   1

y

      1     1

    1

y

       1 

Propiedades de los estimadores máximo-verosímiles

Independencia de y

 ˆ 2

    2     1

X

   I  I     1

X

   I     1

X

     1

X

     2      2     1

X

     1

X

   Ï   1     1

X

      1

X

  

0

Aunque el estimador de la varianza residual es estadísticamente independiente del estimador de los parámetros fijos, esto no implica que la estimación de la varianza residual no se vea afectada por la especificación de la parte fija del modelo.

y

X

   2 

β β

ε

X X

1

n p

1

X

2

n

 1 

β

es p

dimensional

β

1

β

2

es p

1  dimensional 1  dimensional

ε

~

N

n

0

,  2 I 

Si modelamos

y

como

y

X

1

θ

  con los errores supuestamente 

~

N n

0

,

 2 I  Estaríamos ante un problema de

especificación incorrecta

, en particular ante una

sub especificación del modelo.

Los estimadores de este modelo mal especificados serán:    1 1   1

E

    1  1   1

X

 1

E

   1  1   1  1  2 

β β

1  

β

1   1  1   1

Sesgo

 1

El estimador de la varianza de este modelo mal especificado será:  ˆ 2 

y

  I  

n

p

1 1   1 

Los estimadores de este modelo mal especificados serán:  ˆ 2 

y

  I  

n

p

1 1   1 

E

tr

    2     I    1

P

1 1   1

X

 1    / 

n

p

1       

β

 1

β

 2   

X

 1

X

 2    I 

P

1

n

p

1  

X

1

X

2 

β β

1    2  

n n

 

p

1

p

1    

β

 1

β

 2   

X

 1

X

 2    I 

P

1 

n n

 

p

1 

p

1  

X

1

Sesgo

X

2 

β β

1   2   2   2   2

n

   2

p

1  

Sesgo

 2 1  2

Propiedades de los estimadores del modelo lineal Distribución de

 ˆ 2

Distribución con

y

~

N

A

idempotente

A, simétrica ~  2  1 2 

 ˆ 2 

y

  I  

n

p

  1   ˆ 2 

n

 2 

p

 

y

  I    2   1

y

~

N

X β

,  2 I   ~  2 Demostrar que  ˆ 2 

n

 2 

p

 ~  2 Encontrar la varianza de  ˆ 2

Aunque no vamos a demostrarlo, diremos que y  ˆ 2 son estimadores

suficientes

y

completos

, lo que, conjuntamente con la condición de que

Y

sigue una distribución de la familia exponencial, asegura que los estimadores son UMVU (

uniform minimum variance unbiased

), esto es,

uniformemente insesgados y estimadores de mínima varianza

Ejemplo para el modelo de regresión lineal simple

y i

  0   1

x i

 

i

y

    1  1   1

X

x

1

x x

2

n

       

β

       

ε ε

~

N

 0,  2 I 

         1

x

1 1

x

2

X'X

1

x n

        1 1 1

x

1

x x

2

n

             1   1

x

1 1

x

2

X

1

x n

 

y

     

y

y

   

n x i

 

x i x i

2      

y i i

    

n

 

x i

2  1  

x i

 2 /

n

     

x x i i

2  

x i n

     

y i i

  

 1 

n

 

x i

2  1  

x i

 2 

n

 

x i

2  1  

x i

 2 /

n

     

x i

2

x i

 

x i n

     

y i i

  

y i

/

n

  /

n

n

      

x i

2

i

   

x i

 2

y i

/ /

n

n

i

 0 

n

 

x i

2  1  

x i

 2 /

n

 

n

 

x i

2  1  

x i

 2 /

n

      

x i

2

x i

 

x i n

     

y i i

  

y i

i

  

x i

 2 

y i

/

n

  

x i

 2 

y i

/

n

  

x i

2   

x n

i

 2  /

x i

2

n

    

x i

  2 /

n

i

 

x i

y i

/

n

  

y i n

 

x i n

 ˆ 1

 ˆ 2 

n

1  2

y

  I     1  

n

1  2  

y i

2   ˆ   

n

1  2  

y i

2 

y y

 

n

1  2         

y i

2 suma de cuadrados total no corregida  

y

ˆ

i

2 suma de cuadrados explicada por el modelo        

Var 

primer elemento diagonal de

Var   2  

x i

2

n

    

x i x i

2   2  / 

n

  1 

multiplicado por

x i

   2 / 

n

x i

 2 /

n

  2   2     1

n

  

x i

2

x

2   

x i

 2 /

n

     Var 

segundo elemento diagonal de

 Var   1

multiplicado por

 2   2

n

 

x i

2 

n

 

x i

 2 /

n

    

x i

2    2 

x i

 2 /

n

Valor esperado y residuo

Valor esperado

y

ˆ

i

x

i

 

X

ˆ      1

Hat matrix

N n N n

X

,   

X β

,  2    1

X

  2   1

X

   

N n

  1 

, 

X

   2

H

at

   2    1

x

i

  2

h ii

Residuo

e i

y i

y

ˆ

i

e

Hat

  1

e

~

N n

  I 

H

at

X β

,  I 

H

at

H

at

y

2 I 

H

at

    

N n

 0,  2  I 

H

at

  Var(

e i

)   2  1     1

x

i

   2  1 

h ii

Residuo Estudentizado

r i

  2

e i

 1 

h ii

Covarianza entre residuos y valores esperados

  Cov(

H

at

y

,( I 

H

at

 Cov(

H

at

y

,( I 

H

at

H

at

 I 

H

at

)   

 Cov(

H

at

y

,( I 

H

at

H

at

 I 

H

at

)      2

H

at

( I 

H

at

) 

0

Covarianza entre residuos y valores observados

  Cov 

y

,( I 

H

at

)

y

   I 

H

at

)

   2

(

I 

H

at

)

La covarianza NO es cero

Varianza de los valores esperados Modelo regresión lineal simple con ordenada al origen

Var(

y

ˆ

i

) 

n

 

x

2

j

  2  

x j

 2 /

n

x

i

    

x x j

2

j scx

 

x j

 

x

i n

    2

n scx

 

x

2

j

 2

x i

x j

nx i

2     2

n scx

  

x

2

j

x i

x j

    

x j

nx i

x

i

    2

n scx

 

x

2

j

x i

x j

x i

x j

nx i

2 

Sumando y restando  

x j

 2 /

n

a   2

n scx

 tenemos: 

x

2

j

x i

x j

x i

x j

nx i

2 

n

  2

s c x

   

x

2

j

 2

x i

x j

nx i

2   

x j

 2 /

n

  

x j

 2 /

n

      2

n scx

   

x

2

j

  

x j

 2 /

n

 2 

nx i

2 

nx

2       2

n scx

    

x j

2   

x j

 2 /

n

 

n

  2 

x i

2 

x

2       2   

scx

  

n

n x i

 

scx x

  2     2   1

n

 

x i

 

scx x

  2  

Leverage o palanca

X

ˆ      1

Hat matrix tr

 

y

ˆ

i

i

i

2  

i

    1

X

  

tr

   1

X

     1  

tr

2

p n n

p

Contraste de hipótesis en modelos lineales

Prueba del cociente de verosimilitudes

H

y

  0   1

x

   1  0

H

  0 1   1 

b

H

  0 1   ~

N

 0,  2 

h

h

y

  0    1   2      

p

 1  0  

p

 1

x p

 1  

H

p

p

     0 1 0 0 0 1 0 0 0 0 0     1 

h

p

 1   0 0 0  

y

  0       

p

 1

x p

 1  

H

p

p

     0 1 0 0 0 1 0 0 0 0 0     1 

h

p

 1   0 0 0  

y

  0       

p

 1

x p

 1    1   2 

H

p

p

    0 1  0 1  0 1  1 0 0  1 0 0 0 0  1       

p

 1

h

p

 1   0 0 0  

Prueba del cociente de verosimilitudes

M m w W

V

 )  2ln( ) ~  2

Dim Dim

w

¿Qué forma tiene la prueba del cociente de verosimilitudes bajo el modelo lineal con errores normales?

 En el denominador tenemos que encontrar el máximo de la función de verosimilitud moviendo  y  2 .  Pero esto es ni mas ni memos que evaluar la función de verosimilitud en los estimadores máximo-verosímiles de  y  2 .

 )  

n

/ 2 

n

/ 2   

n

/ 2

e

 1/ 2      1

y

 1

n

 I         1     1   

n

/ 2

e

 1/ 2

y

  I  

n

1   1

X

   

y

  I   I    1     1   

n

/ 2 

n

/ 2

e

n

/ 2

 La complicación aparece cuando queremos encontrar el máximo de la función de verosimilitud restringida por la hipótesis.  El método consiste en introducir la restricción impuesta por la hipótesis nula en la función de verosimilitud y maximizarla sujeta a esta restricción.  Para hacer esto introduciremos la restricción en el modelo .

Sea

H

G

 de rango

q

p

de rango   es el complemento ortogonal de

H

es decir

HG

 

0

H G

pxp

H

      1

H

   1  

H

G

G

      1  1

H H

          I

p

y

y

X

 1

H H

       

XH H

  

XG G

y

 

XG G

L

β

 2 )  

n

/ 2 

n

/ 2

e

 1/ 2  2        

z y

L

θ

, 

B

XG

 

XG G

z

B

    

n

/ 2   

n

/ 2

e

 2  1 2       

max 2

L

 

n

/ 2 

n

/ 2

e

n

2

V

 

n

/ 2 

n

/ 2 

n

/ 2

e

n

2 

n

/ 2

e

n

2       

n n

/ 2 / 2  

H

2  2    

n

/ 2

 La expresión es una función de un cociente de varianzas.  La construcción de una prueba estadística para la hipótesis nula usando la distribución de V no es simple ya que V no tiene distribución conocida.  Buscaremos una función de V

w

   

V

 2

n

 1  

n

q p

 

w

  

n

q p

   2

H

  2  2  

n

p q

 

z

  I  

y

    1 I    

y

  I   1      1 

y

  I  

z

  1  

z

  I   

y

     1    I  

P

  1

X

  

z

  

z

  

P

y

    

X

X

  1 I

0

 

w

n

q p

 

z

   I  

z

  I   1

B

       1     1

X

  

z

w

n

q p

   

z

  I     1

X

      1    1 

z

~

N n

X

 ,  2 I 

 Tenemos el cociente de dos formas vector normal multivariado.

cuadráticas de un  Si podemos mostrar que el numerador y denominador son

Chi-cuadrado

independientes divididas por sus grados de libertad, entonces W tiene, bajo H 0 distribución F con los grados de libertad del numerador y denominador respectivamente.

 Primeramente tenemos que probar que el numerador y denominador de tiene distribución Chi-cuadrado.

 Para ello debemos probar que las matrices de estas formas cuadráticas son simétricas y  que multiplicadas por la matriz de covarianza de son idempotentes.

      1

X

    1

X

      1

B

    1

B

   2 I

Numerador

¿es simétrica?

no es idempotente     1

X

     1

B

   1 2  2 I

se propone como matriz de la forma cuadrática

    1

X

     1

B

  1  2  2 I

¿es idempotente?

Numerador

      Probemos que esta matriz es idempotente    1

X

    1

X

     1

B

     1

X

      1

X

    1

X

     1

B

     1

B

    1

X

   1

X

  I        1

B

    1

X

     1

B

    1

B

    1

X

XG

 

B

  1

X

X G

  I 

B

    1

X

   2   1   1 

B

B

      1

X

       1  1   1

B

      1

B

 I

B

     

B

    1

B

 I    1

X

   1

X

       1

B

   1

B

Numerador

Entonces la forma cuadrática del numerador es una

Chi-cuadrado

con grados de libertad igual al   parámetro de no centralidad 

rango

    1

X

     1

B

  

p

q

 

q

  1 2  2 

X

       1      1     

 I     1

X

   2 

Denominador

¿es simétrica?

Sidividimoslamatriz dela formapor  2 , debemosdemostrar laidempotencia de 

entonces

I     1

X

   I     1

X

   I     1

X

      1

X

     1

X

  

X

  1

X

     1

X

 2    1

X

     1

X

  I   1

X

rango

 I     1

X

 

p

Denominador

1 2  2 

X

 Parámetro de no centralidad    I     1

X

  

X

    1 2  2 

X

  1 2  2  

X

X

   I   1

X

X

 I   1

X

   

X

0

X β

X H

h

  

 Ahora deberíamos probar que numerador y denominador de W son independientes para ello basta mostrar que:     1

X

     1

B

   I     1

X

  

0

    1

X

     1

B

   I     1

X

      1

X

   

B

  1

B

 

X

   1

X

     1

X

    1

B

     1

B

   I

B

  1

X

-

   1

B

       1

B

 

B

B

B

  1

B

 

0

w

   

n

q p

   

z

   I    1

X

      1    1   Es el cociente de dos variables Chi-cuadrado independientes, divididas por sus grados de libertad y con parámetros de no centralidad  y 0 respectivamente. Luego:

w

~

F

, 

 Para ver con mayor facilidad la forma del parámetro de no centralidad del numerador, es conveniente escribir al estadístico w en una forma equivalente:

w

n

q p

  

H

ˆ   

y

' I         1

H

   1   1   ˆ 

La forma cuadrática del numerador: 

H

ˆ       2   1

H

   1    tiene distribución Chi-cuadrado con q grados de libertad y parámetro de no centralidad   1 2  2 

H

     1

H

   1   Este parámetro vale cero cuando la hipótesis nula es cierta.

Ejemplificación

Regresión lineal simple

y

  0   1

x

   ~

N

 0  0  1  0

H

  1 0 

H

  0 1 

h

h

w

  

n

q p

    0 1    1  0      0 1   1

y

  I         

x i

2

x i

   1  

x i n

    0       1   0 1    1  0   

n

 2 1  1  

y

  I  

n

    1  1   1  

n

 2 1  1 2 

scx

SCresidual

Ejemplo Un caso especial

Una hipótesis que aparece frecuentemente y es contrastada por defecto por algunos paquetes estadísticos es

H

vs rango

p

y

XH H

y

H

0 

y

X

 

ε z

w

  

n

p p

   I  

ε

     1   1   

y

  I        1   1  

     1 

Es la suma de cuadrados del modelo (completo)

Ejemplo Otro caso especial

H

p

p

     0 1 0 0 0 1 0 0 0

G

  1 0 0  0 0   1  

0

I p-1

G

      1  1 0    

B

XG

  1 1        1

B

  1 J

n n

W

 

z

     I    1

X

    1

n

1 J n  

z

 

n p

p

 1        

n

1 J n 

z Es la suma de cuadrados del modelo corregida por la constante z

z Es la suma de cuadrados explicada por la constante

Sumas de Cuadrados

 Aunque hemos mostrado cómo se construyen las pruebas de hipótesis a partir de la prueba del cociente de verosimilitudes, existe una jerga, costumbres y práctica arraigada de construir estas pruebas a partir de lo que se llama una partición de la suma de cuadrados.

 Los resultados son enteramente consistentes con los obtenidos por verosimilitud.

 Supongamos un vector

y

en R 3 .

 Que ese vector es una observación distorsionada por

error

de un vector que

vive en el subespacio

-plano- generado por los vectores

x

1 y

x

2 (Gen{

x

1 ,

x

2 }).

 El vector candidato como “

vector original

” -no observado- se propone aquel que, en el plano Gen{

x

1 ,

x

2 } está más cerca (en métrica Euclídea) de

y.

 Este vector se conoce como

proyección ortonogal

de

y

en el subespacio Gen{

x

1 ,

x

2 }.

 Si definimos la matriz

X

=[

x

1 ,

x

2 ], entonces

X(X’X) -1 X’

es la matriz que, premultiplicando a

y

, lo proyecta ortogonalmente en Gen{

x

1 ,

x

2 } 

X(X’X) -1 X’

es la matriz de proyección ortogonal en el plano Gen{

x

1 ,

x

2 }

    1

X

y

      1  

y

 

X

   1

X

 

y

 es la norma cuadrada del vector

y

proyectado en Gen{

x

1 ,

x

2 } y es una medida del tamaño de la proyección  Si el vector

y

no reside en Gen{

x

1 ,

x

2 }, el “

vector que falta

” para completar a

y

, es:  I     1

X

 

y

  Esta es la proyección en el complemento ortogonal de Gen{

x

1 ,

x

2 }. Es fácil ver que      1

X

    I-

X

X

X

  1

X

  

y

y

 Se dice que

y’y

, es la

suma de cuadrado

total -no corregida-

de

y

.  Podemos descomponer la

suma de cuadrado total

-no corregida- en: 

Una suma de cuadrados del modelo:

atribuible a la proyección sobre el subespacio definido por las columnas de

X

, y  Una

suma de cuadrados residual

correspondiente a la suma norma cuadrada de la proyección sobre su complemento ortogonal del espacio generado por las columnas de

X

.

y

  I     1

X

  sc total    1

X

 

y

y

  I   sc residual   1

X

 

y

y

     1

X

 

y

sc explicada por el modelo

 Usualmente los modelos incluyen una ordenada al origen o constante  No es de mayor interés práctico confundir lo que explica la ordenada (o en su defecto la media general en los modelos de clasificación) con lo que explica el resto del modelo.  Por ejemplo si uno trabaja con tensiones arteriales, no está interesado en saber si la media de la tensión arterial es mayor que cero.

X

 

1 X

* 

y

  I  sc residual 

P

x

P

1     1

X

    1

1

  1

j

n n

x

n

1

J

n

n

1

J

n

y

 sc explicada por el modelo 

y

  I  sc residual  

x

n

1

J

n

y

y

 sc explicada corregida por la constante

J

n

y

sc explicada por la constante

Ejemplificar con R