MÔ HÌNH HỒI QUY HAI BIẾN

download report

Transcript MÔ HÌNH HỒI QUY HAI BIẾN

MÔ HÌNH HỒI QUY HAI BIẾN
Thế nào là hồi quy?
Thế nào là tuyến tính?
Mô hình hồi quy tuyến tính là như thế
nào?
Hồi quy được Francis Galton đưa ra
lần đầu tiên và bài viết của Ông rất
nổi tiến
 Xu hướng bố mẹ cao đẻ con cao
 Bố mẹ thấp đẻ con thấp
Chiều cao trung bình của trẻ em do
những ông bố bà mẹ cùng chiều cao
sinh ra có xu hướng tiến tới hay “Hồi
quy” ở chiều cao trung bình của dân
số.
Theo cách nói của Galton, đó là “Hồi
quy về trung bình” (regression to
mediocrity)
Phân tích hồi quy là nghiên cứu sự
phụ thuộc của một biến, biến phụ
thuộc, vào một hay nhiều biến khác,
các biến giải thích;
Với ý tưởng ước lượng hay dự
đoán giá trị bình quân hay trung
bình (tổng thể) của biến phụ thuộc
trên cơ sở các giá trị biết trước hay
cố định (trong mẫu lặp lại) của các
biến giải tích.
Hồi quy tuyến tính
Tuyến tính theo các biến số
Tuyến tính theo các tham số
Hồi quy tuyến tính là một hồi quy theo
các thông số (các thông số chỉ có lũy
thừa bằng 1 mà thôi); nó có thể có
tuyến tính hoặc có thể không tuyến tính
theo các biế giải thích (các giá trị X)
Phân tích hồi quy giải quyết các
vấn đề
1. Ước lượng giá trị trung bình của biến
phụ thuộc với giá trị đã cho của biến
độc lập.
2. Kiểm định giả thuyết cơ bản về bản
chất của sự phụ thuộc.
3. Dự đoán giá trị trung bình của biến
phụ thuộc khi biết giá trị của biến độc
lập.
4. Kết hợp các vấn đề trên.
MỐI QUAN HỆ CỦA HỒI QUY
QUAN HỆ THỐNG KÊ VÀ QUAN HỆ
HÀM SỐ, QUAN HỆ TẤT ĐỊNH
HỒI QUY VỚI QUAN HỆ NHÂN QUẢ
HỒI QUY VỚI TƯƠNG QUAN


Phân tích tương quan là tính sức mạnh
hay mức độ liên kết tuyến tính giữa hai
biến
Nhưng trong phân tích tương quan không
có sự phân biệt giữa các biến
CÁC LOẠI SỐ LIỆU
Số liệu theo thời gian






Hàng ngày: giá vàng, USD trên thị trường
Hàng tuần: giá cà phê
Hàng tháng: Chỉ số giá Hàng quí: GDP
Hàng năm: GDP, ngân sách chính phủ
5 năm: tổng điều tra ngành công nghiệp
chế tạo
10 năm: tổng điều tra dân số.
CÁC LOẠI SỐ LIỆU
Số liệu chéo
Là số liệu về một hoặc nhiều biến được
thu thập tại cùng một thời điểm tại nhiều
địa phương, đơn vị khác nhau
Số liệu tổng hợp
Bao gồm cả số liệu chuỗi thời gian và số
liệu chéo
ví dụ: Số liệu về giá vàng, đôla hàng ngay
ở Hà Nội, TPHCM
NGUỒN SỐ LIỆU
Cơ quan nhà nước (Bộ TM, Bộ NN &
PTNT)
Cơ quan Quốc tế (WR, IMF, UNDP…)
Công ty tư nhân
Cá nhân thu thập
..............
Tính chính xác của số liệu
Mặc dù có nhiều số liệu phục vụ cho nghiên
cứu kinh tế, chất lượng của số liệu thường
không đủ tốt.
Do những nguyên nhân gì?






Sai số trong quan sát, bỏ sót hay phạm sai lầm
Gần đúng hay làm tròn số
Thiên lệch về lựa chọn
Phương pháp chọn mẫu
Các số liệu kinh tế thường ở mức rất tổng hợp
Ngoài ra còn có những số liệu bảo mật
MÔ HÌNH HỒI QUY TỔNG THỂ
X : Thu nhập gia đình hàng tuần ($)
Y : Chi tiêu gia đình hàng
tuần ($)
Cộng
80 100 120 140 160 180 200
55 65 79 82 102 110 120
60 70 84 93 107 115 136
65 79 90 95 110 120 140
220
135
137
140
240
137
145
155
260
150
152
175
70
75
-
80
85
88
152 165
157 175
160 189
178
180
185
-
-
162
191
94 103 116 130 144
98 108 118 135 145
- 113 125 140
- 115
-
-
-
-
325 467 445 709 678 750 685 1043 966 1211
Xác suất có điều kiện P(Y|Xi) của
dữ liệu
X: Thu nhập gia đình hàng tuần
Xác xuất có điều kiện
P(Y/Xi)
E(Y/Xi)
80 100
1/5 1/6
1/5 1/6
120 140 160 180 200 220 240 260
1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
1/5
1/5
1/5
-
1/6
1/6
1/6
1/6
1/5
1/5
1/5
-
1/7
1/7
1/7
1/7
1/6
1/6
1/6
1/6
1/6
1/6
1/6
1/6
1/5
1/5
1/5
-
1/7
1/7
1/7
1/7
1/6
1/6
1/6
1/6
1/7
1/7
1/7
1/7
-
-
-
1/7
-
-
-
1/7
-
1/7
65
78
89 101 113 125 137 149 161 173
Chi tiêu gia đình hàng tuần ($)
BIỂU ĐỒ
Thu nhập gia đình hàng tuần ($)
ĐẶC TRƯNG NGẪU NHIÊN CỦA
PRF
E(Y | X i )  1   2 X i   i
E (Y | X i )  55  1   2 .80  1
………………………………….
E (Y | X i )  75  1   2 .80  1
E (Y | X i )  E (Y | X i )  E (1 | X i )
E (1 | X i )  0
KN biến phụ thuộc và biến giải thích
Biến phụ thuộc
Biến giải thích
Biến được giải thích
Biến độc lập
Biến được dự báo
Biến dự báo
Biến được H.quy
Biến hồi quy
Phản ứng
Biến tác nhân hay
biến kiểm soát
Nội sinh
Ngoại sinh
Biến phụ thuộc (Dependent Variable) Y; Biến
giải thích (Explanatory Variable) Xs
1. Y = Son’s Height; X = Father’s Height
2. Y = Height of boys; X = Age of boys
3. Y = Personal Consumption Expenditure
X = Personal Disposable Income
4. Y = Demand; X = Price
5. Y = Rate of Change of Wages
X = Unemployment Rate
6. Y = Money/Income; X = Inflation Rate
7. Y = % Change in Demand; X = % Change in
the advertising budget
8. Y = Crop yield; Xs = temperature, rainfall,
sunshine, fertilizer
The Sample Regression Function (SRF)
A random sample Another random sample
from the population
from the population
Y
X
-----------------70 80
65 100
90 120
95 140
110 160
115 180
120 200
140 220
155 240
150 260
------------------
Y
X
------------------55
80
88 100
90 120
80 140
118 160
120 180
145 200
135 220
145 240
175 260
--------------------
Weekly Consumption
Expenditure (Y)
SRF1
SRF2
Weekly Income (X)
The Sample Regression Function (SRF)
SRF1 and SRF 2
Y^i = α ^ + ^Xi
Y^i = estimator of E(YXi)
α^ = estimator of α
^= estimator of 
Estimate = A particular numerical value
obtained by the estimator in an application
SRF in stochastic form: Yi= ^1 + ^2Xi + ε ^i
or Yi= Y^i + ε^i
Phương trình hồi quy tổng thể
Yi    X i   i
Trong đó:
Yi : Biến phụ thuộc, biến ngẫu nhiên
Xi: Biến độc lập, biến không ngẫu nhiên
εi: Sai số
α,β: Hệ số hồi quy
Các giả thiết hồi quy
1. Mối quan hệ Y và X là tuyến tính
2. Các giá trị X là biến số không ngẫu nhiên,
có giá trị cố định
3. a. Kỳ vọng sai số bằng không và phương
sai là một hằng số
b. Các biến số ngẫu nhiên εi độc lập về
mặt thống kê
c. Số hạng sai số có phân phối chuẩn
ƯỚC LƯỢNG THAM SỐ HỒI QUY
Thông số thử nghiệm hàm SRF (Sample
regression function).
Yi X i
Total
4
5
7
12
1
4
5
6
28
16
Yˆ1i
ˆ1i
2,929 1,071
7,00
-2
8,357 -1,357
9,714 2,286
ˆ
2
1i
1,147
4
1,841
5,226
12,214
2
ˆ
ˆ
Y2i  2i ˆ2i
4
7
8
9
0
-2
-1
3
0
4
1
9
14
Yˆ1i  1,572  1,357 X i
ˆ
Y2i  3,0  1,0 X i
ˆ
ˆ
1i  Yi  Y1i
ˆ
ˆ
 2i  Yi  Y2i
ƯỚC LƯỢNG THAM SỐ HỒI QUY
- Best Linear unbiased Estimator (BLUE)
- Ordinary Linear Square (OLS)
- Đính lý Gauss-Markov:
Với các giả định i, ii, iiia và iiib, các ước
lượng α(hat) và β(hat) là những ước
lượng không chệch tốt nhất của α và β
(và hiệu quả nhất) có nghĩa là chúng có
phương sai nhỏ nhất trong số tất cả các
ước lượng tuyến tính không chệch.
Ước lượng
X Y   X  X Y

ˆ 
n X  ( X )
2
i
i
2
i
i
i i
2
 Y  ˆX
i
n X iYi   X i  Yi
(
X

X
)(
Y

Y
)

ˆ 

n X  ( X )
(X  X )
xy
xY
X y






 x  X  nX  X  nX
2
i
i i
2
i
i
i
2
2
i
2
i
i
i i
i i
2
2
i
2
Với:
xi  X i  X
yi  Yi  Y
Kiểm định và ước lượng
khoảng
Kiểm định t:
t N 2 
ˆ   0
s ˆ
Ước lượng khoảng:
ˆ  t c sˆ
ˆ
  tc sˆ
Tính S ˆ :
S  ˆ 
2
s 
2
ˆ
2
s
ˆ


2
i
N 2
2
x
2
i
ˆX 
ˆ

Y






2
i
i
N 2
ˆ

1

2
sˆ 

 x ( N  2)
2
i
2
i
Tính Sˆ :

X

2
sˆ  s
 N x

2
i
2
i




Decision Rule for t-test of significance
Type of
Hypothesi
s
H0
H1
Reject H0
if
Two-tail
 = *
 # *
|t| > t/2,df
Right-tail
  *
 > *
t > t,df
Left-tail
  *
 < *
t < - t,df
VD: Giả sử bạn phụ trách cơ quan tiền
tệ trung ương trong một quốc gia
tưởng tượng. Bạn được cho số liệu
quá khứ sau đây về lượng tiền và thu
nhập quốc dân (tính theo triệu dollar)
N
81
82
83
84
85
L.tiền TNQD N
2.0
2.5
3.2
3.6
3.3
5.0
5.5
6.0
7.0
7.2
86
87
88
89
90
L.tiền TNQD
4.0
4.2
4.6
4.8
5.0
7.7
8.4
9.0
9.7
10.0
a. Hãy chấm những điểm này trên đồ thị. Sau
đó ước lượng hồi quy thu nhập quốc dân Y
trên lượng tiền tệ X và vẽ đường này trên đồ
thị.
b. Bạn giải thích như thế nào về tung độ gốc và
độ dốc của đường hồi quy.
c. Nếu bạn là người duy nhất kiểm soát sự
cung ứng tiền tệ và mong đạt được mức thu
nhập quốc dân là 12.0 trong năm 1991, thì
bạn sẽ cung ứng tiền tệ ở mức nào. Giải
thích
ˆ
Y  1,17 1,72X i
Ví dụ:
Y: Bushels per acre of corn
X: Fertilizer
1. Hãy ước lượng các
tham số hồi quy
2. Biểu diễn các cặp giá
trị lên biểu đồ
3. Vẽ đường hồi quy lên
biểu đồ
ˆ
Yi  27,125  1,66 X i
Giải thích phương trình hồi quy?
PHÂN TÍCH PHƯƠNG SAI
●-------
Yˆ  ˆ  ˆX
(Y●i  Yˆi )
●
●
(Yˆi  Y )
●
Y
( X ,Y )
●
●
●
●
X
(Yi  Y )


ˆ
ˆ
Yi  Y  Yi  Y  Y  Y

ˆ
ˆ
ˆ
ˆ









Y

Y

Y

Y

Y

Y

2
Y

Y
Y
Y 




2
2
i
i
2
i
i
 Y  Y 

ˆ


Y

Y

TSS

ESS
2
i
2
i
i
i


i
i
ˆ

Y
 Y 
2
i
RSS
Hệ số xác định:
ESS RSS
R  1

TSS TSS
2
x
ˆ
y

RSS

2
2
ˆ
R 


2
TSS  y
 yi
2
i
2
i
2
i
Hoặc
R
2
ˆ

 1
y
2
i
2
i
Hệ số tương quan:
r R
r

2
x y
( x )( y
n X Y  ( X )( Y )
[n X  ( X ) ][n Y  ( Y ) ]
i i
2
i
2
i
i i
2
i
i
i
2
i
2
i
2
i
Ví dụ:
Y: Lượng cầu
X: Giá của một loại hàng hóa
Cặp số: 1
Y: 8
X: 2
2
7
3
3
6
3
4
5
4
5
5
5
6
4
6
7
4
8
Yêu cầu:
1. Biểu diễn các cặp giá trị Y và X lên biểu
đồ
2. Trước khi ước lượng hàm hồi quy, hãy
dự đoán dấu của β (dương hay âm).
Hãy giải thích ngắn gọn.
3. Ước lượng phương trình hồi quy
4. Cho biết ý nghĩa của độ dốc hồi quy
5. Kiểm định giả thuyết Ho: β 1 = 0, β2 = 1
6. Tính và giải thích hệ số xác định, hệ số
tương quan của phương trình hồi quy.
7. Dự báo cầu của loại hàng hóa khi giá tăng
lên tại X = 12.
X Line Fit Plot
Y
10
y = -0.65x + 8.45
R2 = 0.7922
5
0
0 1 2 3 4 5 6 7 8 9
X
VD2:
1. Hãy hoàn chỉnh bảng phân tích phương sai hồi
qui sau và cho biết ý nghĩa của kiểm định F. Xác
định giá trị t để kiểm định ý nghĩa thống kê của
độ dốc đường hồi qui:
ANOVA
Source
Regression
Error
Total
DF SS
3
?
8 112.95
11
229.6
MS F
?
?
P
? 0.021