Aula 9 - IME-USP

Download Report

Transcript Aula 9 - IME-USP

Aula 9. Regressão Linear Simples.
2
Qualidade de modelo 𝑅
1. C.Dougherty “Introduction to Econometrics”
2. Capítulo 16. Bussab&Morettin “Estatística Básica” 7ª Edição
amostra
x1
população
,
y1
x2
y2
,,
xn
yn
Modelo – relação entre
variável x e y
y = F(x) ?
termo de perturbação
– parte aleatória do modelo
y



x


Modelo: F(x) é simples linear
parte não aleatória
termo de perturbação
– omissão de variável explicative
– agregação de variáveis
– espicificação incorreta do modelo
– espicificação incorreta de dependência funcional
– erros de medição
Estimação de parâmetros. Método de mínimos quadrados
y
x1
y1
,
x2
,,
xn
yn
y2
observações
y1
objeto de estudo,
por exemplo
x é renda familiar
y é gasto em alimentos
y2
y
?
x2
x1
x
?
y    x
mas parâmetros são desconhecidos
x
Estimação de parâmetros. Método de mínimos quadrados
verdadeiro
estimação
como?
y    x
ˆ  a  bx
y
y
ˆ  a  bx
y
yi
e i  y i  yˆ i  y i  ( a  bx i )
yˆ i
desvio (erro)
ideia – minimirar soma total dos erros
realizamos – minimizar soma total de quadrados dos erros
n
xi

x
n
e
2
i
i 1


2
( y i  yˆ i ) 
i 1
n


i 1
( y i  ( a  bx i ))
2
 SS ( a , b )  min
Estimação de parâmetros. Método de mínimos quadrados
SS ( a , b )  min
achar a e b tais que SS(a, b) possue o valor minimo possível
( a , b )  arg min SS ( a , b )
( a ,b )
  SS ( a , b )
 0

a

 SS ( a , b )

 0
b

n
SS ( a , b ) 
n

 2  ( y i  ( a  bx i ))  0


i 1

n
  2  x i ( y i  ( a  bx i ))  0

i 1

n
n

y i  na  b  x i



i 1
i 1
 n
n
n
  x i y i  a  x i  b  x i2

i 1
i 1
 i 1
 (y
i
 ( a  bx i ))
2
i 1
 n
( y i  ( a  bx i ))  0


 i 1
 n
  x i ( y i  ( a  bx i ))  0

 i 1
y  a  bx
n
b 

xi yi  n x y
i 1
n

i 1
xi  n x
2
2
Estimação de parâmetros. Método de mínimos quadrados
y  a  bx
n
b 

xi yi  n x y
i 1
n

xi  n x
2
2
i 1
Cov ( x , y ) 
1
n

n
x i y i  x y  xy  x  y
i 1
Var ( x ) 
1
n
n

x
2
i
 nx
2
 x
2

n 1
n
i 1
a  y  bx
b 
 x
2
Cov ( x , y )
Var ( x )
s
2
Estimação de parâmetros. Método de mínimos quadrados
Media de x e a média de y estão na reta de regressão:
y
yˆ  a  bx
a  bx  ( y  bx )  bx  y
y
x
x
Interpretação de equação de regressão
verdadeiro
y    x
estimação
ˆ  a  bx
y
FOOD = 53.044 + 0.097 DPI
FOODnew = 53.044 + 0.097 (DPI+1) = FOOD + 0.097 literalmente, o coeficiente de
Inclinação significa que se x aumenta em uma unidade então y aumenta em 0.097
As duas variável são em $billion, por isso se a renda aumenta em 1$billion então gasto
em alimentos aumenta em média em 97$milhões. Em outras palavras, para cada
aumento da renda em 1$ o gasto em alimentos aumenta em 9.7 cents.
Constante? Literalmente, ela mostra o valor do y quando x = 0. As vezes isso pode
levar a alguma interpretação adequada, mas não nesse caso.
Modelo estatístico
y    x  
parte aleatória do modelo
Gauss-Markov conditions
1. 𝐸[𝜀𝑖] = 0 para todos os 𝑖 = 1, … , 𝑛
2. 𝐷[𝜀𝑖 ] = 𝜎2 para todos os 𝑖 = 1, … , 𝑛 (homoscedasticidade)
3. 𝜀𝑖 são independentes 𝑐𝑜𝑣(𝜀𝑖 , 𝜀𝑗) = 0 para todos os 𝑖 ≠ 𝑗
4. 𝜀𝑖 não depende do 𝑥𝑖 são independentes – termo de perturbação não depende
de variáveis explicativas
OBS: em curso vamos considerar 𝑥 como constante
5. 𝜀𝑖 tem distribuição normal
1. 𝜀𝑖 são i.i.d. 𝜀𝑖 ≈ 𝑁(0, 𝜎2)
2. 𝜀 e 𝑥 são independentes
Propriedades estatísticas de coeficientes
𝑎 e 𝑏 são não viesados:
Cov ( x ,    x   )
Cov ( x ,  )  Cov ( x ,  x )  Cov ( x ,  )
Cov ( x , y )


b 
Var ( x )
Var ( x )
Var ( x )
Cov ( x ,  )  0

 Var ( x )  Cov ( x ,  )
Var ( x )
Cov ( x ,  x )   Cov ( x , x )   Var ( x )
  
Cov ( x ,  )
Var ( x )

 Cov ( x ,  ) 
Cov ( x ,  ) 
E [ Cov ( x ,  )]
E [b ]  E   
 
    E
   
Var ( x ) 
Var ( x )

 Var ( x ) 
 n

1
E [ Cov ( x ,  )]  E   x i  i  n x   
n  i 1
n

1
EX.DOMÉSTICO: provar que a não viesado
n
 x E [
i
i 1
i
]  n x E [ ]  0
Propriedades estatísticas de coeficientes
2
 

D[a ] 
1 

n 
Var ( x ) 
x
2

2
D [b ] 
nVar ( x )
como estimar a variância de termo de perturbação?
e  ( e1 , e 2 ,  , e n ) e i  y i  yˆ i  y i  ( a  bx i )
um candidato para estimar e é
1 n
1
2
Var ( e )   ( e i  e ) 
n i 1
n
e 
1
n
e

n
i 1
i

1

2
ei
i 1
n
(y

n
i
 a  bx i )  y  a  b x  y  ( y  b x )  b x  0
i 1
n2
Mas Var(e) é viesado: E [Var ( e )] 
n
se 
2
s .e .( a ) 
n
n
n2

Var ( e )
2
2

s 
x
1



n 
Var ( x ) 
2
sub-estima a variação verdareira
não viesado
2
s .e .( b ) 
s
nVar ( x )
Propriedades estatísticas de coeficientes
2
 

D[a ] 
1 

n 
Var ( x ) 
s .e .( a ) 
x
2
2
2

s 
x
1 

n 
Var ( x ) 

2
D [b ] 
nVar ( x )
2
s .e .( b ) 
menor σ2 →
menor variação de b
maior Var(x) →
menor variação de b
s
nVar ( x )
Propriedades estatísticas de coeficientes
a 
s .e .( a )
 tn2
b
s .e.( b )
 tn2
Teste de hipótese
FOOD = 53.044 + 0.097 DPI
(s.e.) (3.48) (0.0043)
𝑎 e 𝑏 são estatisticamente significados?
H0 :  0
A :  0
estatística do teste é
t 
b
s .e .( a )
graus de liberdade 𝑛 – 2 = 25 – 2 = 23
valor critico de 5% bilateral é 2.069

b
s .e .( b )

0 . 097
0 . 0043
 22 . 6
Teste de hipótese
saida do programa R
www.r-project.org
Call:
lm(formula = x$FOOD ~ x$DPI)
Residuals:
Min
1Q
Median 3Q
Max
-8.2976 -1.3975 0.3045 0.9550 10.1591
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 53.043771 3.481715 15.23 1.65e-13 ***
x$DPI
0.097104 0.004381 22.16 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.061 on 23 degrees of freedom
Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533
F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
Teste de hipótese
 depende da taxa percentual
Supomos que taxa percentual da inflação de preços p
 de accordo com o modelo linear:
da inflação salarial w
    w
  
p
Nos podemos supor tambem que na realidade a taxa pecentual da inflação de
preços é igual à taxa percentual da inflação salarial.
H0 : 1
A : 1
Em estudo longo de 20 anos (20 observações) o modelo de regressão obtida é


p
( s .e .)
 1 . 21

( 0 . 05 )

0 . 82 w
( 0 . 10 )
estatística do teste correspondente nesse caso é
t 
b
s .e.( a )

0 . 82  1 . 00
  1 .8
0 . 10
graus de liberade n – 2 = 20 – 2 = 18 e o valor crítico é 2.101
população
 x1   x 2 

 , 
 ,  ,
 y1   y 2 
ESTIMAÇÂO
 xn 


 yn 
DE MODELO
yˆ  a  bx
MODELO
y    x  
qualidade de modelo é a significância de coeficientes a e b
qualidade de modelo “inteiro” em “total” ?
podemos analizar variação de dados
– se o modelo explica bem a variação total de dados
ANOVA e qualidade de ajuste (goodness of fit) R2
ANOVA, e qualidade de ajuste (goodness of fit) R2
variação total:
n
SS Total 

( yi  y )
2
SS Total
i 1

variação de dados ajustados:
n
SS
R eg


( yˆ i  y )
SS
2

i 1
variação “não explicada”, erro:
n
SS
Erro
e

SS Total 
 (y
2
i
i
 y)

 (y
i
 yˆ i )
i 1
 ( y
 (y
 (y
i
2
 yˆ i  yˆ i  y )
i 1
i
2
2
 yˆ i )  ( yˆ i  y )  2 ( y i  yˆ i )( yˆ i  y )
i 1
n


Erro
2
n
2
i 1
n

SS
n
i 1
n
?
R eg
n
 yˆ i ) 
2
i
i 1
 ( yˆ
n
i
i 1
n
 SS Erro  SS
R eg
 y)
2
 2  ( y i  yˆ i )( yˆ i  y )
i 1
 2  ( y i  yˆ i )( yˆ i  y )
i 1

ANOVA, e qualidade de ajuste (goodness of fit) R2
n
1
(y

n
i
 yˆ i )( yˆ i  y )  Cov ( e , yˆ )
i 1
n
 (y
n
i
 yˆ i )( yˆ i  y ) 
i 1
e
e
i
yˆ i 
xi 
i 1
 (y

i 1
n
n
i
( a  bx i ) 
 a  bx i ) x i 

i 1
n
i
 e a  b e
i
n
yˆ i  y  e i
i 1
n
i
i 1
x i  b  ei x i
i 1
n
yi xi  a  xi  b  xi
2
i 1
n
yi xi  ( y  b x ) xi  b  x
i 1
n
e
n
i 1
n
i

n
i 1
i 1
i 1
n

e
n
i
( yˆ i  y )
n
i 1
n
i
i 1
n

e
n
n
2
i

i 1

i 1
i 1
n
y i xi  y x n  b x n  b  xi
2
2
i 1


2
2
y
x

y
x
n

b
x

x
n

  nCov ( y , x )  bnVar ( x )
 i i
 i
i 1
 i 1



Cov ( y , x )
Var ( x )   0
 n Cov ( y , x )  bVar ( x )   n  Cov ( y , x ) 
Var ( x )



n
 (y
i 1
i
 yˆ i )( yˆ i  y )  0
ou
Cov ( e , yˆ )  0
ANOVA, e qualidade de ajuste (goodness of fit) R2
n número de observações
Tabela ANOVA para modelo de regressão
k numero de parâmtros
causas de graus de
soma
variação liberades quadrados
quadrados
médios
F-estatística
nível
descritivo
MSSReg
MSSErro
p
Regressão
k -1
SSReg
MSSReg=SSReg/(k-1)
Resíduo
n-k
SSErro
MSSErro=SSErro/(n - k)
Total
n -1
SSTotal
MSS
R eg
MSS
Erro
 F k 1 , n  k
Tabela ANOVA para modelo de regressão caso k=2
causas de graus de
soma
variação liberades quadrados
Regressão
1
SSReg
Resíduo
n-2
SSErro
Total
n -1
SSTotal
quadrados
médios
MSSReg=SSReg
SSErro/(n - 2)=s2e
F-estatística
SSReg
s2e
nível
descritivo
p
ANOVA, e qualidade de ajuste (goodness of fit) R2
Tambem podemos medir o lucro relativo que se ganha ao introduzir o modelo,
usando a estatística que chama se coeficiente de determinação (coefficient of determination)
R

2
SS R eg
SS Total
F estatistica de análise de variância pode ser representada em modo alternativo
MSS R eg
SS R eg /( k  1)
( SS R eg / SS Total ) /( k  1)

F 

( SS Erro / SS Total ) /( n  k )
MSS Erro
SS Erro /( n  k )
F 
R
2
/( k  1)
(1  R ) /( n  k )
2
 F k 1, n  k
em caso k = 2
F 
R
2
(1  R ) /( n  2 )
2
 F1 , n  2
ANOVA, e qualidade de ajuste (goodness of fit) R2
saida do programa R
www.r-project.org
Call:
lm(formula = x$FOOD ~ x$DPI)
Residuals:
Min
1Q
Median 3Q
Max
-8.2976 -1.3975 0.3045 0.9550 10.1591
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 53.043771 3.481715 15.23 1.65e-13 ***
x$DPI
0.097104 0.004381 22.16 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.061 on 23 degrees of freedom
Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533
F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
F=23*R2/(1-R2)=23*0.9553/(1-0.9553)=491.5414
R-squared: 0.9552744
F=23*R2/(1-R2)=23*0.9552744/(1-0.9552744)=491.2469
Teste de hipóteses
Qual hipótese testa
F-estatística (ANOVA)?
t-estatística?
H0 :  0
H0 :  0
A:   0
A:   0
testes tem que ser equivalentes
F  t
2
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 53.043771 3.481715 15.23 1.65e-13 ***
x$DPI
0.097104 0.004381 22.16 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.061 on 23 degrees of freedom
Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533
F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
22.162=491.1
Modelos não lineares que podem ser estimados atraves de regressão linear
Transformação básica:
y    f ( x)  
y    z  
z  f ( x)
consumo anual de bananas (y)
salario anual (x) foram oservadas 10 familias
y = 5.09 + 0.73 x
(s.e.) (1.23) (0.20)
R2 = 0.64
coeficiente estao significantes
construimos gráfico:
Modelos não lineares que podem ser estimados atraves de regressão linear
z=1/x
y = 5.09 + 0.73 x
(s.e.) (1.23) (0.20)
R2 = 0.64
y = 12.08 - 10.08 z
(s.e.) (0.04) (0.12)
R2 = 0.9989
Modelos não lineares que podem ser estimados atraves de regressão linear
Transformação logaritmica.
ln y  ln    ln x  ln 

y x 
y   ln y
x ´ ln x
y ´  ´  x´ 
  ln   N ( 0 ,  2 )
se a elasticidade de y ao respeito de x é constante, entao usaremos a função
potência.
Elasticidade de y ao respeito da variável x é, pela definição,
incremento proporcional de y pelo dado incremento proporcional de x
Elast . 
dy / y
dx / x

dy / dx
y/x

 x   1
y/x

 ( y / x)
y/x
 
Modelos não lineares que podem ser estimados atraves de regressão linear
Transformação logaritmica.
para o periodo 1959-1983 in EU a curva de Engel foi aplicada para gastos em
alimentos (y) em relação ao salario (x). A regressão realizada é
ln y = 1.20 + 0.55 ln x
transformando pela função potência temos
y = e1.20 x0.55 = 3.32 x0.55
esse resultado sugere que elasticidade de demanda de alimentos em relacão
ao salario é 0.55, o que significa que aumento em 1% de salario leva ao aumento
de demanda de alimentos em 0.55%.
Fator multiplicativo 3.32 não tem a interpretação direta. Esse valor ajuda prever
o valor de y quando valor do x é dado
Modelos não lineares que podem ser estimados atraves de regressão linear
Trend exponencial.
x
y e 
ln y  ln   rt  ln 
y e 
rt
y ´  ´ rt  
Incremento absoluto em y pela unidade de tempo é dada por
dy
  re
rt
 ry
dt
Incremento proporcional em y pela unidade de tempo é dada por
dy / dt
y

ry
 r
y
Incremento proporcional em y pela unidade de tempo (taxa) é constante
Modelos não lineares que podem ser estimados atraves de regressão linear
Trend exponencial.
para o periodo 1959-1983 in EU a curva de trendo exponencial foi aplicada para
gastos em alimentos (y). A regressão realizada é
ln y = 4.58 + 0.02 T
transformando pela função potência temos
y = e4.58 e0.02 T = 97.5 e0.02 T
esse resultado sugere que os gastos em alimentos cresce com a taxa de 2% ao ano
desta vez constante pode ter interpretação: ela mostra quanto foi gasto em alimentos
em ano calendario 1958 (o que corresponde T = 0) que deu $97.5 bilhões.
Referencias:
C.Dougherty’s course internet access:
http://econ.lse.ac.uk/courses/ec220/G/ieppt/series2/