Aula 9 - IME-USP
Download
Report
Transcript Aula 9 - IME-USP
Aula 9. Regressão Linear Simples.
2
Qualidade de modelo 𝑅
1. C.Dougherty “Introduction to Econometrics”
2. Capítulo 16. Bussab&Morettin “Estatística Básica” 7ª Edição
amostra
x1
população
,
y1
x2
y2
,,
xn
yn
Modelo – relação entre
variável x e y
y = F(x) ?
termo de perturbação
– parte aleatória do modelo
y
x
Modelo: F(x) é simples linear
parte não aleatória
termo de perturbação
– omissão de variável explicative
– agregação de variáveis
– espicificação incorreta do modelo
– espicificação incorreta de dependência funcional
– erros de medição
Estimação de parâmetros. Método de mínimos quadrados
y
x1
y1
,
x2
,,
xn
yn
y2
observações
y1
objeto de estudo,
por exemplo
x é renda familiar
y é gasto em alimentos
y2
y
?
x2
x1
x
?
y x
mas parâmetros são desconhecidos
x
Estimação de parâmetros. Método de mínimos quadrados
verdadeiro
estimação
como?
y x
ˆ a bx
y
y
ˆ a bx
y
yi
e i y i yˆ i y i ( a bx i )
yˆ i
desvio (erro)
ideia – minimirar soma total dos erros
realizamos – minimizar soma total de quadrados dos erros
n
xi
x
n
e
2
i
i 1
2
( y i yˆ i )
i 1
n
i 1
( y i ( a bx i ))
2
SS ( a , b ) min
Estimação de parâmetros. Método de mínimos quadrados
SS ( a , b ) min
achar a e b tais que SS(a, b) possue o valor minimo possível
( a , b ) arg min SS ( a , b )
( a ,b )
SS ( a , b )
0
a
SS ( a , b )
0
b
n
SS ( a , b )
n
2 ( y i ( a bx i )) 0
i 1
n
2 x i ( y i ( a bx i )) 0
i 1
n
n
y i na b x i
i 1
i 1
n
n
n
x i y i a x i b x i2
i 1
i 1
i 1
(y
i
( a bx i ))
2
i 1
n
( y i ( a bx i )) 0
i 1
n
x i ( y i ( a bx i )) 0
i 1
y a bx
n
b
xi yi n x y
i 1
n
i 1
xi n x
2
2
Estimação de parâmetros. Método de mínimos quadrados
y a bx
n
b
xi yi n x y
i 1
n
xi n x
2
2
i 1
Cov ( x , y )
1
n
n
x i y i x y xy x y
i 1
Var ( x )
1
n
n
x
2
i
nx
2
x
2
n 1
n
i 1
a y bx
b
x
2
Cov ( x , y )
Var ( x )
s
2
Estimação de parâmetros. Método de mínimos quadrados
Media de x e a média de y estão na reta de regressão:
y
yˆ a bx
a bx ( y bx ) bx y
y
x
x
Interpretação de equação de regressão
verdadeiro
y x
estimação
ˆ a bx
y
FOOD = 53.044 + 0.097 DPI
FOODnew = 53.044 + 0.097 (DPI+1) = FOOD + 0.097 literalmente, o coeficiente de
Inclinação significa que se x aumenta em uma unidade então y aumenta em 0.097
As duas variável são em $billion, por isso se a renda aumenta em 1$billion então gasto
em alimentos aumenta em média em 97$milhões. Em outras palavras, para cada
aumento da renda em 1$ o gasto em alimentos aumenta em 9.7 cents.
Constante? Literalmente, ela mostra o valor do y quando x = 0. As vezes isso pode
levar a alguma interpretação adequada, mas não nesse caso.
Modelo estatístico
y x
parte aleatória do modelo
Gauss-Markov conditions
1. 𝐸[𝜀𝑖] = 0 para todos os 𝑖 = 1, … , 𝑛
2. 𝐷[𝜀𝑖 ] = 𝜎2 para todos os 𝑖 = 1, … , 𝑛 (homoscedasticidade)
3. 𝜀𝑖 são independentes 𝑐𝑜𝑣(𝜀𝑖 , 𝜀𝑗) = 0 para todos os 𝑖 ≠ 𝑗
4. 𝜀𝑖 não depende do 𝑥𝑖 são independentes – termo de perturbação não depende
de variáveis explicativas
OBS: em curso vamos considerar 𝑥 como constante
5. 𝜀𝑖 tem distribuição normal
1. 𝜀𝑖 são i.i.d. 𝜀𝑖 ≈ 𝑁(0, 𝜎2)
2. 𝜀 e 𝑥 são independentes
Propriedades estatísticas de coeficientes
𝑎 e 𝑏 são não viesados:
Cov ( x , x )
Cov ( x , ) Cov ( x , x ) Cov ( x , )
Cov ( x , y )
b
Var ( x )
Var ( x )
Var ( x )
Cov ( x , ) 0
Var ( x ) Cov ( x , )
Var ( x )
Cov ( x , x ) Cov ( x , x ) Var ( x )
Cov ( x , )
Var ( x )
Cov ( x , )
Cov ( x , )
E [ Cov ( x , )]
E [b ] E
E
Var ( x )
Var ( x )
Var ( x )
n
1
E [ Cov ( x , )] E x i i n x
n i 1
n
1
EX.DOMÉSTICO: provar que a não viesado
n
x E [
i
i 1
i
] n x E [ ] 0
Propriedades estatísticas de coeficientes
2
D[a ]
1
n
Var ( x )
x
2
2
D [b ]
nVar ( x )
como estimar a variância de termo de perturbação?
e ( e1 , e 2 , , e n ) e i y i yˆ i y i ( a bx i )
um candidato para estimar e é
1 n
1
2
Var ( e ) ( e i e )
n i 1
n
e
1
n
e
n
i 1
i
1
2
ei
i 1
n
(y
n
i
a bx i ) y a b x y ( y b x ) b x 0
i 1
n2
Mas Var(e) é viesado: E [Var ( e )]
n
se
2
s .e .( a )
n
n
n2
Var ( e )
2
2
s
x
1
n
Var ( x )
2
sub-estima a variação verdareira
não viesado
2
s .e .( b )
s
nVar ( x )
Propriedades estatísticas de coeficientes
2
D[a ]
1
n
Var ( x )
s .e .( a )
x
2
2
2
s
x
1
n
Var ( x )
2
D [b ]
nVar ( x )
2
s .e .( b )
menor σ2 →
menor variação de b
maior Var(x) →
menor variação de b
s
nVar ( x )
Propriedades estatísticas de coeficientes
a
s .e .( a )
tn2
b
s .e.( b )
tn2
Teste de hipótese
FOOD = 53.044 + 0.097 DPI
(s.e.) (3.48) (0.0043)
𝑎 e 𝑏 são estatisticamente significados?
H0 : 0
A : 0
estatística do teste é
t
b
s .e .( a )
graus de liberdade 𝑛 – 2 = 25 – 2 = 23
valor critico de 5% bilateral é 2.069
b
s .e .( b )
0 . 097
0 . 0043
22 . 6
Teste de hipótese
saida do programa R
www.r-project.org
Call:
lm(formula = x$FOOD ~ x$DPI)
Residuals:
Min
1Q
Median 3Q
Max
-8.2976 -1.3975 0.3045 0.9550 10.1591
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 53.043771 3.481715 15.23 1.65e-13 ***
x$DPI
0.097104 0.004381 22.16 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.061 on 23 degrees of freedom
Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533
F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
Teste de hipótese
depende da taxa percentual
Supomos que taxa percentual da inflação de preços p
de accordo com o modelo linear:
da inflação salarial w
w
p
Nos podemos supor tambem que na realidade a taxa pecentual da inflação de
preços é igual à taxa percentual da inflação salarial.
H0 : 1
A : 1
Em estudo longo de 20 anos (20 observações) o modelo de regressão obtida é
p
( s .e .)
1 . 21
( 0 . 05 )
0 . 82 w
( 0 . 10 )
estatística do teste correspondente nesse caso é
t
b
s .e.( a )
0 . 82 1 . 00
1 .8
0 . 10
graus de liberade n – 2 = 20 – 2 = 18 e o valor crítico é 2.101
população
x1 x 2
,
, ,
y1 y 2
ESTIMAÇÂO
xn
yn
DE MODELO
yˆ a bx
MODELO
y x
qualidade de modelo é a significância de coeficientes a e b
qualidade de modelo “inteiro” em “total” ?
podemos analizar variação de dados
– se o modelo explica bem a variação total de dados
ANOVA e qualidade de ajuste (goodness of fit) R2
ANOVA, e qualidade de ajuste (goodness of fit) R2
variação total:
n
SS Total
( yi y )
2
SS Total
i 1
variação de dados ajustados:
n
SS
R eg
( yˆ i y )
SS
2
i 1
variação “não explicada”, erro:
n
SS
Erro
e
SS Total
(y
2
i
i
y)
(y
i
yˆ i )
i 1
( y
(y
(y
i
2
yˆ i yˆ i y )
i 1
i
2
2
yˆ i ) ( yˆ i y ) 2 ( y i yˆ i )( yˆ i y )
i 1
n
Erro
2
n
2
i 1
n
SS
n
i 1
n
?
R eg
n
yˆ i )
2
i
i 1
( yˆ
n
i
i 1
n
SS Erro SS
R eg
y)
2
2 ( y i yˆ i )( yˆ i y )
i 1
2 ( y i yˆ i )( yˆ i y )
i 1
ANOVA, e qualidade de ajuste (goodness of fit) R2
n
1
(y
n
i
yˆ i )( yˆ i y ) Cov ( e , yˆ )
i 1
n
(y
n
i
yˆ i )( yˆ i y )
i 1
e
e
i
yˆ i
xi
i 1
(y
i 1
n
n
i
( a bx i )
a bx i ) x i
i 1
n
i
e a b e
i
n
yˆ i y e i
i 1
n
i
i 1
x i b ei x i
i 1
n
yi xi a xi b xi
2
i 1
n
yi xi ( y b x ) xi b x
i 1
n
e
n
i 1
n
i
n
i 1
i 1
i 1
n
e
n
i
( yˆ i y )
n
i 1
n
i
i 1
n
e
n
n
2
i
i 1
i 1
i 1
n
y i xi y x n b x n b xi
2
2
i 1
2
2
y
x
y
x
n
b
x
x
n
nCov ( y , x ) bnVar ( x )
i i
i
i 1
i 1
Cov ( y , x )
Var ( x ) 0
n Cov ( y , x ) bVar ( x ) n Cov ( y , x )
Var ( x )
n
(y
i 1
i
yˆ i )( yˆ i y ) 0
ou
Cov ( e , yˆ ) 0
ANOVA, e qualidade de ajuste (goodness of fit) R2
n número de observações
Tabela ANOVA para modelo de regressão
k numero de parâmtros
causas de graus de
soma
variação liberades quadrados
quadrados
médios
F-estatística
nível
descritivo
MSSReg
MSSErro
p
Regressão
k -1
SSReg
MSSReg=SSReg/(k-1)
Resíduo
n-k
SSErro
MSSErro=SSErro/(n - k)
Total
n -1
SSTotal
MSS
R eg
MSS
Erro
F k 1 , n k
Tabela ANOVA para modelo de regressão caso k=2
causas de graus de
soma
variação liberades quadrados
Regressão
1
SSReg
Resíduo
n-2
SSErro
Total
n -1
SSTotal
quadrados
médios
MSSReg=SSReg
SSErro/(n - 2)=s2e
F-estatística
SSReg
s2e
nível
descritivo
p
ANOVA, e qualidade de ajuste (goodness of fit) R2
Tambem podemos medir o lucro relativo que se ganha ao introduzir o modelo,
usando a estatística que chama se coeficiente de determinação (coefficient of determination)
R
2
SS R eg
SS Total
F estatistica de análise de variância pode ser representada em modo alternativo
MSS R eg
SS R eg /( k 1)
( SS R eg / SS Total ) /( k 1)
F
( SS Erro / SS Total ) /( n k )
MSS Erro
SS Erro /( n k )
F
R
2
/( k 1)
(1 R ) /( n k )
2
F k 1, n k
em caso k = 2
F
R
2
(1 R ) /( n 2 )
2
F1 , n 2
ANOVA, e qualidade de ajuste (goodness of fit) R2
saida do programa R
www.r-project.org
Call:
lm(formula = x$FOOD ~ x$DPI)
Residuals:
Min
1Q
Median 3Q
Max
-8.2976 -1.3975 0.3045 0.9550 10.1591
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 53.043771 3.481715 15.23 1.65e-13 ***
x$DPI
0.097104 0.004381 22.16 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.061 on 23 degrees of freedom
Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533
F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
F=23*R2/(1-R2)=23*0.9553/(1-0.9553)=491.5414
R-squared: 0.9552744
F=23*R2/(1-R2)=23*0.9552744/(1-0.9552744)=491.2469
Teste de hipóteses
Qual hipótese testa
F-estatística (ANOVA)?
t-estatística?
H0 : 0
H0 : 0
A: 0
A: 0
testes tem que ser equivalentes
F t
2
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 53.043771 3.481715 15.23 1.65e-13 ***
x$DPI
0.097104 0.004381 22.16 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.061 on 23 degrees of freedom
Multiple R-squared: 0.9553, Adjusted R-squared: 0.9533
F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
22.162=491.1
Modelos não lineares que podem ser estimados atraves de regressão linear
Transformação básica:
y f ( x)
y z
z f ( x)
consumo anual de bananas (y)
salario anual (x) foram oservadas 10 familias
y = 5.09 + 0.73 x
(s.e.) (1.23) (0.20)
R2 = 0.64
coeficiente estao significantes
construimos gráfico:
Modelos não lineares que podem ser estimados atraves de regressão linear
z=1/x
y = 5.09 + 0.73 x
(s.e.) (1.23) (0.20)
R2 = 0.64
y = 12.08 - 10.08 z
(s.e.) (0.04) (0.12)
R2 = 0.9989
Modelos não lineares que podem ser estimados atraves de regressão linear
Transformação logaritmica.
ln y ln ln x ln
y x
y ln y
x ´ ln x
y ´ ´ x´
ln N ( 0 , 2 )
se a elasticidade de y ao respeito de x é constante, entao usaremos a função
potência.
Elasticidade de y ao respeito da variável x é, pela definição,
incremento proporcional de y pelo dado incremento proporcional de x
Elast .
dy / y
dx / x
dy / dx
y/x
x 1
y/x
( y / x)
y/x
Modelos não lineares que podem ser estimados atraves de regressão linear
Transformação logaritmica.
para o periodo 1959-1983 in EU a curva de Engel foi aplicada para gastos em
alimentos (y) em relação ao salario (x). A regressão realizada é
ln y = 1.20 + 0.55 ln x
transformando pela função potência temos
y = e1.20 x0.55 = 3.32 x0.55
esse resultado sugere que elasticidade de demanda de alimentos em relacão
ao salario é 0.55, o que significa que aumento em 1% de salario leva ao aumento
de demanda de alimentos em 0.55%.
Fator multiplicativo 3.32 não tem a interpretação direta. Esse valor ajuda prever
o valor de y quando valor do x é dado
Modelos não lineares que podem ser estimados atraves de regressão linear
Trend exponencial.
x
y e
ln y ln rt ln
y e
rt
y ´ ´ rt
Incremento absoluto em y pela unidade de tempo é dada por
dy
re
rt
ry
dt
Incremento proporcional em y pela unidade de tempo é dada por
dy / dt
y
ry
r
y
Incremento proporcional em y pela unidade de tempo (taxa) é constante
Modelos não lineares que podem ser estimados atraves de regressão linear
Trend exponencial.
para o periodo 1959-1983 in EU a curva de trendo exponencial foi aplicada para
gastos em alimentos (y). A regressão realizada é
ln y = 4.58 + 0.02 T
transformando pela função potência temos
y = e4.58 e0.02 T = 97.5 e0.02 T
esse resultado sugere que os gastos em alimentos cresce com a taxa de 2% ao ano
desta vez constante pode ter interpretação: ela mostra quanto foi gasto em alimentos
em ano calendario 1958 (o que corresponde T = 0) que deu $97.5 bilhões.
Referencias:
C.Dougherty’s course internet access:
http://econ.lse.ac.uk/courses/ec220/G/ieppt/series2/