BAI 7B. HOI QUY BOI

Download Report

Transcript BAI 7B. HOI QUY BOI

BÀI 7B: HỒI QUY BỘI
1. Mô hình :
Mô hình hồi qui tuyến tính k biến (PRF) :
E(Y/X2i,…,Xki) = 1+ 2X2i +…+ kXki
Yi = 1+ 2X2i + …+ kXki + Ui
Trong đó :
Y - biến phụ thuộc
X2,…,Xk - các biến độc lập
1 là hệ số tự do
j là các hệ số hồi qui riêng,
j cho biết khi Xj tăng 1 đvị thì trung bình
của Y sẽ thay đổi j đvị trong trường
hợp các yếu tố khác không đổi
(j=2,…,k).
Khi k = 3 thì ta có mô hình hồi qui tuyến
tính ba biến :
E(Y/X2, X3) = 1+ 2X2 + 3X3 (PRF)
Yi = 1+ 2X2i + 3X3i + Ui
2. Các giả thiết của mô hình
• Giả thiết 1: Các biến độc lập phi ngẫu
nhiên, giá trị được xác định trước.
• Giả thiết 2 :
E(Ui) = 0
i
• Giả thiết 3 :
Var(Ui) =2
i
• Giả thiết 4 :
Cov(Ui, Uj) = 0 i j
• Giả thiết 5 :
Cov(Xi, Ui) = 0 i
• Giả thiết 6 :
Ui ~ N (0, 2) i
• Giả thiết 7 : Không có hiện tượng cộng
tuyến giữa các biến độc lập.
3. Ước lượng các tham số
a. Mô hình hồi qui ba biến :
Yi = 1+ 2X2i + 3X3i + Ui
(PRF)
Hàm hồi qui mẫu :
Yi  Ŷi  ei  βˆ1  βˆ2 X2i  βˆ3 X3i  ei
Giả sử có một mẫu gồm n quan sát các giá
trị (Yi, X2i, X3i). Theo phương pháp OLS,
βˆj (j= 1,2,3) phải thoả mãn :
e
2
i
 min
Tức là :
   ei2
0

 βˆ1
 2( Yi  βˆ1  βˆ2 X 2i  βˆ3 X 3i )( 1)  0


2

e
  i

ˆ
ˆ
ˆ

0

2
(
Y

β

β
X

β
 ˆ
 i 1 2 2i 3 X 3i )(  X 2i )  0
 β 2

  e2
 2( Yi  βˆ1  βˆ2 X 2i  βˆ3 X 3i )(  X 3i )  0
  i 0
 βˆ3
Do ei  Yi  βˆ1  βˆ2X2i  βˆ3 X3i
Giải hệ ta có :
βˆ2
βˆ3
x y x  x x x


x x  ( x x )
x y x  x x x


x x  ( x x )
2
3i
2i i
2
2i
2i 3i
2
3i
2
2i
3i i
2
2i
2
2i 3i
2i 3i
2
3i
βˆ1  Y  βˆ2 X 2  βˆ3 X 3
y
3i i
2
2i 3i
y
2i i
* Phương sai của các hệ số ước lượng


1

X
x

X
x

2 3i
3 2i
2
ˆ

Var( β1 )   
σ
2
2
2
 n  x 2i  x 3i  (  x 2i x 3i ) 
2
x

3i
2
ˆ
Var( β 2 ) 
σ
2
2
2
 x 2i  x 3i  (  x 2i x 3i )
Var( βˆ3 ) 
x x
2
2i
x
2
3i
2
2
2i
 (  x 2i x 3i )
2
σ
2
Trong đó : 2 = Var(Ui)
2 chưa biết nên dùng ước lượng của nó là :
σˆ
2
e


2
i
n3
Với :
2
2
ˆ
ˆ
e

TSS

ESS

y

β
x
y

β
 i
 i 2  2i i 3  x 3i y i
b. Mô hình hồi qui tuyến tính k biến
Yi = 1+ 2X2i + …+ kXki+ Ui (PRF)
(i = 1,…, n)
Hàm hồi qui mẫu :
Yi  Ŷi  ei  βˆ1  βˆ2X2i  ...  βˆk Xki  ei
Theo phương pháp OLS,
βˆj (j= 1,2,…,k) phải thoả mãn :
e
2
i
 min
Tức là :
   ei2
 ˆ 0 
ˆ
ˆ
ˆ
2
(
Y

β

β
X

...

β

β

i
1
2 2i
k X ki )( 1)  0
 1


 
 

  e2
ˆ
ˆ
ˆ
2
(
Y

β

β
X

...

β
X
)(

X
)

0


i
1
2
2
i
k
ki
ki

i

0 
 βˆk



T
ˆ
Viết hệ dưới dạng ma trận : X X β  X Y

 βˆ  X X
T
T
 X Y 
1
T
 βˆ1 
 
ˆ
β

βˆ  2

 
 βˆk 
 n

X 2i

T

X X


  X ki
  Yi 


X
Y

2
i
i
T

X Y
  


  X kiYi 
X
X
2i
2
2i

X
X X
3i
...
2 i 3i
...

X X X X
ki 2i
ki 3i
...
X
X X


2i ki 

2 
 Xki 
ki
4. Hệ số xác định
ESS
RSS
R 
1
1
TSS
TSS
2
e
2
i
2
e
 i
2
y
i
 RSS  TSS  ESS
  y i2  βˆ2  x 2i y i  ...  βˆk  x ki y i
* Chú ý : Khi tăng số biến độc lập trong
mô hình thì R2 cũng tăng cho dù các
biến độc lập thêm vào có ảnh hưởng mô
hình hay không . Do đó không thể dùng
R2 để quyết định có hay không nên thêm
biến vào mô hình mà thay vào đó có thể sử
dụng hệ số xác định được hiệu chỉnh :
R
Hay:
2
e /(n  k )

1
2
 y i /(n  1)
2
i
n 1
R  1  (1  R )
nk
2
2
Tính chất của R 2 :
- Khi k > 1, R 2  R 2  1
- R 2 có thể âm, trong trường hợp âm, ta coi
giá trị của nó bằng 0.
2
* Cách sử dụng R để quyết định đưa
thêm biến vào mô hình :
Mô hình ba biến
Mô hình hai biến
Ŷi  βˆ1  βˆ2X2i (1) Ŷi  βˆ1  βˆ2 X2i  βˆ3 X3i (2)
R 12
R 22
2
1
R
R
2
1
2
2
2
2
- Nếu R  R thì chọn mô hình (1) ,
tức là không cần đưa thêm biến X3 vào
mô hình. Ngược lại, ta chọn mô hình (2).
• So sánh hai giá trị R2 :
Nguyên tắc so sánh :
- Cùng cỡ mẫu n .
- Cùng các biến độc lập.
- Biến phụ thuộc phải ở dạng giống
nhau. Biến độc lập có thể ở bất cứ dạng
nào.
Ví dụ :
5. Ma trận tương quan
Xét mô hình : Ŷi  βˆ1  βˆ2X2i  ...  βˆk Xki
Gọi rtj là hệ số tương quan tuyến tính
giữa biến thứ t và thứ j. Trong đó Y
được xem là biến thứ 1.
Ma trận tương quan tuyến tính có dạng :
1
r
 21
 ...

rk 1
r12
1
rk 2
... r1k 

... r2k


...

... 1 
6. Ma trận hiệp phương sai
 var( βˆ1 )
cov( βˆ1 , βˆ2 )

ˆ
ˆ
ˆ
cov(
β
,
β
)
var(
β

2
1
2)
ˆ
cov( β ) 

...

cov( βˆk , βˆ1 ) cov( βˆk , βˆ2 )
... cov( βˆ1 , βˆk )

... cov( βˆ2 , βˆk )

...

... var( βˆk ) 
Để tính ma trận hiệp phương sai của các hệ
số, áp dụng công thức :
cov(βˆ)  (X X) σ
T
1
2
RSS
với σˆ 
nk
2
Trong đó, k là số tham số trong mô hình.
7. Khoảng tin cậy của các hệ số hồi qui
Khoảng tin cậy của j (j =1,2, …, k) là :
βˆj  sê( βˆj )t α / 2 (n  k )
Trong đó, k là số tham số trong mô hình.
8. Kiểm định giả thiết
a. Kiểm định H0 : j = a (=const)
( j = 1, 2, …, k)
Phần này hoàn toàn tương tự như ở mô
hình hồi qui hai biến, khác duy nhất ở chỗ
bậc tự do của thống kê t là (n-k).
b. Kiểm định giả thiết đồng thời :
H0 : 2 = 3 =…= k = 0  H0 : R2 = 0
H1:  j  0 (2  j  k)  H1 : R2  0
Cách kiểm định :
2
R /(k  1)
-Tính
F
2
(1  R ) /(n  k )
Nếu p(F* > F)  
 bác bỏ H0,
Nếu F > F(k-1, n-k)
Tức là các hệ số hồi qui không đồng thời
bằng 0 hay hàm hồi qui phù hợp.
c. Kiểm định Wald
Xét mô hình (U) sau đây :
Yi = 1+ 2X2i + 3X3i+ 4X4i+ 5X5i+ Ui
(U) được xem là mô hình không hạn chế.
Ví dụ 1 : Với mô hình (U), cần kiểm định
H0 : 3= 5= 0
Áp đặt giả thiết H0 lên mô hình (U), ta có
mô hình hạn chế (R) như sau :
Yi = 1+ 2X2i + 4X4i+ Ui
(R)
Để kiểm định H0, ta dùng kiểm định Wald.
Các bước kiểm định Wald :
- Hồi qui mô hình (U)  thu được RSSU.
- Hồi qui mô hình (R)  thu được RSSR.
- Tính
(RSSR  RSSu ) /(dfR  dfU )
F
RSSU / dfU
dfU : bậc tự do của (U)
dfR : bậc tự do của (R)
- Nếu p (F* > F)  
 bác bỏ H0,
Nếu F > F(dfR- dfU, dfU)
Ví dụ 2 : VớI mô hình (U), kiểm định
H0 : 2= 3= 4
Áp đặt H0 lên (U), ta có mô hình (R):
Yi = 1+ 2X2i + 2X3i+ 2X4i+ 5X5i+ Ui
hay
Yi = 1+ 2(X2i+X3i+X4i) + 5X5i+ Ui
Đến đây, áp dụng các bước kiểm định Wald
cho giả thiết H0.
Ví dụ 3 : VớI mô hình (U), kiểm định
H0 : 2+ 3= 1
Thực hiện tương tự như các ví dụ trên, bằng
các áp đặt H0 lên (U), ta có mô hình hạn
chế (R) :
Yi= 1+ 2X2i+(1- 2)X3i+ 4X4i+ 5X5i+Ui
(Yi - X3i) = 1+ 2(X2i -X3i)+ 4X4i+ 5X5i+Ui
* Chú ý : Trong Eviews, thủ tục kiểm định
Wald được viết sẵn, bạn chỉ cần gõ vào giả
thiết bạn muốn kiểm định rồi đọc kết quả.
9. Dự báo :
a. Dự báo giá trị trung bình
Cho X20, X30, …, Xk0. Dự báo E(Y).
- Dự báo điểm của E(Y) là :
0
0
ˆ
ˆ
ˆ
Ŷ0  β1  β 2 X2  ...  β k Xk
- Dự báo khoảng của E(Y) :
[Ŷ0  sê( Ŷ0 )tα / 2 (n  k ) ; Ŷ0  sê( Ŷ0 )tα / 2 (n  k )]
Trong đó :
Var( Ŷ0) = X0T(XTX)-1X0 2
1
X0 
2
0

X 
 
 0
Xk 
b. Dự báo giá trị cá biệt của Y khi X=X0.
[Ŷ0  sê( Y0  Ŷ0 )tα / 2 (n  k ) ; Ŷ0  sê( Y0  Ŷ0 )tα / 2 (n  k )]
Trong đó :
Var( Y0  Ŷ0 )  Var( Ŷ0 )  σ
2
Đa cộng tuyến
I. Bản chất của đa cộng tuyến
Đa cộng tuyến là tồn tại mối quan hệ
tuyến tính giữa một số hoặc tất cả
các biến độc lập trong mô hình.
Xét hàm hồi qui k biến :
Yi = 1+ 2X2i + …+ kXki + Ui
- Nếu tồn tại các số 2, 3,…,k không
đồng thời bằng 0 sao cho :
2X2i + 3X3i +…+ kXki + a = 0
(a : hằng số)
Thì giữa các biến độc lập xảy ra hiện
tượng đa cộng tuyến hoàn hảo.
- Nếu tồn tại các số 2, 3,…,k không
đồng thời bằng 0 sao cho :
2X2i + 3X3i +…+ kXki + Vi = 0
(Vi : sai số ngẫu nhiên)
Thì giữa các biến độc lập xảy ra hiện
tượng đa cộng tuyến không hoàn hảo.
Ví dụ : Yi = 1+2X2i+3X3i+ 4X4i + Ui
Với số liệu của các biến độc lập :
X2
X3
X4
10
50
52
15
75
75
18
90
97
24
120
129
30
150
152
Ta có : X3i = 5X2i có hiện tượng cộng
tuyến hoàn hảo giữa X2 và X3 và r23 =1
X4i = 5X2i + Vi  có hiện tượng
cộng tuyến không hoàn hảo giữa X2 và
X3 , có thể tính được r24 = 0.9959.
Hậu quả của đa cộng tuyến
1. Phương sai và hiệp phương sai của các ước lượng
OLS lớn.
2. Khoảng tin cậy rộng hơn
3. Thống kê t nhỏ nên tăng khả năng các hệ số ước
lượng không có ý nghĩa
4. R2 cao nhưng thống kê t nhỏ.
5. Dấu của các ước lượng có thể sai.
6. Các ước lượng OLS và sai số chuẩn của chúng trở
nên rất nhạy với những thay đổi nhỏ trong dữ
liệu.
7. Thêm vào hay bớt đi các biến cộng tuyến với các
biến khác, mô hình sẽ thay đổi về dấu hoặc độ
lớn của các ước lượng.
Dấu hiệu nhận dạng đa cộng tuyến
1. Hệ số R2 lớn nhưng thống kê t nhỏ.
2. Tương quan cặp giữa các biến giải thích
(độc lập) cao. Tuy nhiên điều ngược lại
không đúng, nếu các r nhỏ thì chưa biết
có đa cộng tuyến hay không.
3. Sử dụng mô hình hồi qui phụ (hồi quy
từng cặp biến độc lập)
4. Sử dụng nhân tử phóng đại phương sai
1
VIFj 
2
1  Rj
2
j
R là hệ số xác định của mô hình hồi qui
phụ Xj theo các biến độc lập khác.
Nếu có đa cộng tuyến thì VIF lớn.
VIFj > 5 thì Xj có đa cộng tuyến cao với
các biến khác.
1
* Với mô hình 3 biến thì VIF 
2
1  r23
Phương sai thay đổi
Phương sai có điều kiện của Ui không
giống nhau ở mọi quan sát.
Var (Ui) = σ i2
(i=1,2,…,n)
Nguyên nhân :
- Do bản chất của các mối quan hệ trong
kinh tế chứa đựng hiện tượng này.
- Do kỹ thuật thu thập số liệu được cải
tiến, sai lầm phạm phải càng ít hơn.
- Do con người học được hành vi trong
quá khứ.
- Do trong mẫu có các giá trị bất thường
(hoặc rất lớn hoặc rất nhỏ so với các
giá trị khác).
Hiện tượng phương sai không đồng đều
thường gặp đối với số liệu chéo.
Hậu quả của phương sai thay đổi
1. Các ước lượng OLS vẫn là các ước
lượng tuyến tính, không chệch nhưng
không còn hiệu quả nữa.
2. Ước lượng phương sai của các ước
lượng OLS bị chệch nên các kiểm định
t và F không còn đáng tin cậy nữa.
3. Kết quả dự báo không hiệu quả khi sử
dụng các ước lượng OLS.
Dấu hiệu nhận dạng phương sai thay đổi
1. Phương pháp đồ thị
Xét mô hình : Yi = 1+ 2Xi +Ui(1)
- Hồi qui (1)  thu được các phần dư ei.
- Vẽ đồ thị phân tán của e theo X.
- Nếu độ rộng của biểu đồ rải tăng hoặc giảm khi X
tăng thì mô hình (1) có thể có hiện tượng phương
sai thay đổi.
• Chú ý : Với mô hình hồi qui bội, cần vẽ đồ thị
phần dư theo từng biến độc lập hoặc theo Ŷ
2. Kiểm định Park
3. Kiểm định Glejser
4. Kiểm định White
Tự tương quan
Tự tương quan: Là sự tương quan giữa
các thành phần của chuỗi các quan
sát theo thời gian hay không gian.
Nếu có tự tương quan giữa các sai số
ngẫu nhiên thì :
Cov(Ui, Uj)  0
(i  j)
Hậu quả của việc sử dụng phương
pháp OLS khi có tự tương quan
1. Các ước lượng OLS vẫn là các ước lượng
tuyến tính, không chệch nhưng không
còn hiệu quả nữa.
2. Ước lượng của các phương sai bị chệch
(thường thấp hơn giá trị thực) nên các
kiểm định t và F không còn hiệu lực nữa.
3. Thường R2 được ước lượng quá cao so với
giá trị thực.
4. Sai số chuẩn của các giá trị dự báo không
còn tin cậy nữa.
Dấu hiệu nhận dạng tự tương quan
1. Phương pháp đồ thị
- Hồi qui mô hình gốc  thu phần dư et.
- Vẽ đồ thị phần dư et theo thời gian.
- Nếu phần dư phân bố ngẫu nhiên xung quanh
trung bình của chúng, không biểu thị một kiểu
mẫu nào khi thời gian tăng  mô hình gốc không
có tự tương quan.
2. Kiểm định d của Durbin-Watson
3. Kiểm định Breusch-Godfrey (BG)
Hồi qui với biến giả (xét mô hình hồi
qui có biến định lượng và biến định tính)
Ví dụ : Lập mô hình quan hệ giữa chi tiêu cá nhân với
thu nhập và giới tính của cá nhân đó.
Yi = 1+ Xi + 3Zi + Ui
(1)
Y – chi tiêu (triệu/tháng)
X – thu nhập (triệu/tháng)
Zi = 1 : nam giới
0 : nữ giới.
• Mở rộng mô hình : Với mô hình trên, khi thu nhập
cá nhân tăng 1 triệu đồng thì chi tiêu tăng  triệu
đồng bất kể là nam hay nữ.
Nhưng với giả thiết cho rằng nếu thu nhập
tăng 1 triệu đồng thì mức chi tiêu tăng
thêm của nam và nữ khác nhau thì  phải là
 = 2+ 4Zi
Lúc này mô hình (1) được viết :
Yi = 1+ (2+ 4Zi)Xi + 3Zi + Ui
Hay :
Yi = 1+ 2 Xi + 3Zi + 4XiZi + Ui (2)
Trong đó : XiZi được gọi là biến tương tác
giữa X và Z.
- Khi Zi =1 : Yi = (1 +3) + (2+ 4)Xi +Ui
Đây là hồi qui chi tiêu-thu nhập của nam.
- Khi Zi =0 : Yi = 1+ 2 Xi +Ui
Đây là hồi qui chi tiêu-thu nhập của nữ.
Ý nghĩa của các hệ số :
- 1: Khi không có thu nhập thì chi tiêu
trung bình của một người nữ là 1 triệu.
- 2: Khi thu nhập của một người nữ tăng
1 triệu đồng thì chi tiêu của họ tăng 2
triệu đồng.
- 3: Khi không có thu nhập thì chi tiêu trung
bình của một người nam chênh lệch so với
của một người nữ là 3 triệu (hay chênh
lệch về hệ số tung độ gốc giữa hàm hồi qui
cho nam và hàm hồi qui cho nữ).
- 4: Khi thu nhập của một người nam tăng 1
triệu đồng thì chi tiêu của họ tăng nhiều
hơn của nữ 4 triệu đồng (nếu 4 > 0) hay
tăng ít hơn của nữ 4 triệu đồng (nếu 4< 0)
(Hay chênh lệch về hệ số độ dốc giữa hàm
hồi qui cho nam và hàm hồi qui cho nữ).
- 3: Khi không có thu nhập thì chi tiêu trung
bình của một người nam chênh lệch so với
của một người nữ là 3 triệu (hay chênh
lệch về hệ số tung độ gốc giữa hàm hồi qui
cho nam và hàm hồi qui cho nữ).
- 4: Khi thu nhập của một người nam tăng 1
triệu đồng thì chi tiêu của họ tăng nhiều
hơn của nữ 4 triệu đồng (nếu 4 > 0) hay
tăng ít hơn của nữ 4 triệu đồng (nếu 4< 0)
(Hay chênh lệch về hệ số độ dốc giữa hàm
hồi qui cho nam và hàm hồi qui cho nữ).
Chọn mô hình và kiểm định
việc chọn mô hình
I. Các thuộc tính của một mô hình tốt
1. Tính tiết kiệm
2. Tính đồng nhất
3. Tính thích hợp
4. Tính bền vững về mặt lý thuyết
5. Có khả năng dự báo tốt
Các sai lầm thường gặp khi chọn mô hình
• Bỏ sót biến thích hợp
2. Đưa vào mô hình các biến không
thích hợp (mô hình thừa biến)
3. Chọn dạng hàm không đúng
Phát hiện những sai lầm
1. Phát hiện sự có mặt của biến không cần thiết:Nếu lý
thuyết cho rằng tất cả biến độc lập trên đều quyết
định Y thì phải giữ chúng trong mô hình dù hệ số của
chúng không có ý nghĩa thống kê.
2. Kiểm định các biến bị bỏ sót
3. Kiểm định phân phối chuẩn của U