Chương 6: Đa cộng tuyến

Download Report

Transcript Chương 6: Đa cộng tuyến

Chương 6: Đa cộng tuyến
1. Bản chất và nguyên nhân
2. Hậu quả
3. Cách phát hiện
4. Cách khắc phục
1. Bản chất và nguyên nhân
Ví dụ:
 Năng suất cây trồng chịu sự ảnh hưởng của
Lượng phân bón và Công lao động. Hai biến
giải thích này có quan hệ đồng biến với nhau
 Chi phí bảo trì xe chịu sự ảnh hưởng của số
dặm xe đã chạy và số năm của chiếc xe. Có
sự tương quan giữa số dặm và số năm.
 Có 2 dạng đa cộng tuyến
 Đa cộng tuyến hoàn hảo:
1X1  2 X 2  ...K X K  0
 Đa cộng tuyến không hoàn hảo:
1X i1  2 X i 2  ......X K X iK  i  0
Với vi là sai số ngẫu nhiên
Ví dụ: dữ liệu giả định cho các biến
X1
10
15
18
24
30
Ta thấy:
X2
50
75
90
120
150
X2*
52
75
97
129
152
V
2
0
7
9
2
X2 = 5X1
nên có đa cộng tuyến hoàn hảo giữa X1 và X2.
X2* = 5X1 + V
nên có đa cộng tuyến không hoàn hảo giữa X1, X2*
 Nguyên nhân:
 Mẫu không đặc trưng cho tổng thể
 Do bản chất mối quan hệ giữa các biến
Ví dụ:
Hồi quy lượng điện năng tiêu thụ theo thu nhập
và diện tích nhà ở. Trong mối quan hệ này ẩn
chứa đa cộng tuyến vì những gia đình có thu nhập
cao thường có nhà rộng hơn.
2. Hậu quả
 Các ước lượng vẫn BLUE
 Mô hình không thể ước lượng được nếu các
biến độc lập quan hệ hoàn hảo.
 Gia tăng sai số chuẩn => giảm trị thống kê t
=> giảm ý nghĩa của các hệ số
 Trị thống kê t thấp nhưng R2 có thể rất cao
 Không thể hiện được tác động riêng lẻ của
từng biến giải thích
 Không gây ảnh hưởng xấu đến việc thực
hiện dự báo giá trị của biến phụ thuộc
Ví dụ: Mối quan hệ giữa Cost, Age và Miles
obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
cost
11
16
55
66
76
83
135
160
163
211
258
322
374
408
478
489
536
590
604
704
age
5
12
30
40
42
53
66
73
79
101
114
129
150
180
195
196
204
212
224
227
miles
0.8
3
4.9
7.1
7.6
10.1
12
12.8
13.9
18.6
21.1
23.2
25.3
28.7
30.5
30.6
31.4
32.9
35.3
35.3
obs
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
cost
985
1021
1030
1096
1114
1134
1157
1176
1182
1182
1231
1244
1257
1260
1342
1356
1467
1518
1557
1565
age
232
235
239
249
260
271
272
273.5
276
279
281
313
326
328
329
336.5
338
342.5
344.5
351
miles
36.6
37
38.1
39.5
40.7
43
43.1
43.2
43.4
43.7
44.3
47.6
48.9
49.1
49.2
50
50.1
50.6
50.8
51.6
obs
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
cost
1583
1609
2825
2893
2918
3011
3077
3095
3154
3162
3217
3274
3320
3329
3401
3412
3425
age
366
384
388
402
432
433
436
446
456
463.5
465
478
485
498.5
526
527
538
miles
53.2
55.7
56
57.3
60.2
60.3
60.6
63
63.7
63.9
65.1
65.8
67.7
72.1
72.1
73.6
74.4
 Xét 3 mô hình:
 Mô hình A: Costt   1   2 Aget  u1t
 Mô hình B: Cost     Miles  u
t
1
t
2
2t
 Mô hình C: Costt  1   2 Aget   3 Miles t  u3t
Trong đó:  ,  ,  , 
2
2
2
3
0
Why?
 Bảng các tham số ước lượng
Biến
Hằng số
Age
Miles
df
R2 hiệu chỉnh
Hệ số tương quan
Mô hình A Mô hình B Mô hình C
-625.94
-796.07
22.19
-6.01
-5.91
0.23
7.34
28.02
22.28
10.09
53.45
-154.63
18.27
-7.47
56
56
55
0.9
0.86
0.95
0.996
 Nhận xét:
 Mô hình A, B: hệ số ước lượng đúng với
dấu kỳ vọng và có ý nghĩa về mặt thống kê.
 Mô hình C: hệ số ước lượng của Miles
không đúng với dấu kỳ vọng và trị thống kê
t giảm đáng kể, R2 cao.
 Hệ số tương quan giữa Age và Miles cao
3. Cách phát hiện
 Giá trị R2 cao và trị thống kê t thấp
 Hệ số tương quan cặp giữa các biến giải thích
cao (theo kinh nghiệm > 0.8 thì có đa cộng
tuyến). Tuy nhiên kinh nghiệm này không
chính xác.
 Hệ số hồi quy thay đổi khi thêm hay bớt biến
giải thích.
 Xét mô hình hồi quy phụ
 Xây dựng mô hình hồi quy phụ giữa các
biến X
 Xác định R2 của từng mô hình hồi quy phụ
 Nếu R2 phụ > R2 gốc thì có đa cộng tuyến
4. Cách khắc phục
 Chung sống với lũ: khi ta ít (hoặc không quan
tâm) đến việc diễn dịch từng hệ số hồi quy riêng lẻ
mà chỉ chú ý đến việc dự báo.
 Loại bỏ bớt những biến có trị thống kê t thấp để
cải thiện mức ý nghĩa của các biến còn lại.
 Tăng kích thước mẫu
 Sử dụng thông tin tiên nghiệm
Ví dụ: Nghiên cứu tỷ lệ nghèo và các yếu
tố ảnh hưởng
 Povrate(tỷ lệ nghèo): tỷ lệ hộ nghèo (%)
 Urb: tỷ lệ dân thành thị (%)
 Famsize: Số người trong một hộ ga đình
 Unemp: Tỷ lệ thất nghiệp (%)
 Highschl: tỷ lệ dân số có trình độ trung học (%)
 College: tỷ lệ dân số có trình độ cao đẳng trở
lên (%)
 Medinc: Thu nhập hộ gia đình(1000USD/hộ)
Povrate     Urb   Famsize   Unemp   Highschl   College   Medinc
1
2
3
4
5
Kỳ vọng: β3, β4 > 0, β2, β5 , β6, β7 < 0
6
7
 Kết xuất Eview
 Nhận xét
• R2adj: khá cao nhưng có nhiều hệ số ước lượng
trong mô hình không có ý nghĩa thống kê
(Pvalue > 5%)
• Hệ số
ˆ
4
 0, ˆ  0
6
không đúng với kỳ vọng
=> có hiện tượng đa cộng tuyến trong mô hình
Loại bỏ biến Unemp (pvalue = 0.92 >5%)
Loại bỏ biến Urb (pvalue = 0.2 >5%)
 Nhận xét:
• ˆ
0
4
: không đúng với dấu kỳ vọng
• Sự ảnh hưởng của biến Medinc đến tỷ lệ
nghèo có thể được giải thích thông qua biến
Highschl và biến College
=> khi ước lượng mô hình có thể loại bỏ biến
Medinc
 Nhận xét:
• Hệ số ước lượng của biến Highschl và
College có ý nghĩa thống kê và đúng với dấu
kỳ vọng
• Hệ số ước lượng của Famsize nghịch với
dấu kỳ vọng
• Giá trị R2adj giảm đáng kể
medinc = f(famsize, unemp, highschl, college)
 Nhận xét
• Tất cả các hệ số đều rất có ý nghĩa và có dấu
như kỳ vọng
• R2adj: có giá trị cao
=> Đa cộng tuyến là lý do về dấu không như
kỳ vọng của biến College trong mô hình tỷ lệ
nghèo.
Loại bỏ biến College