Chuong 5_Bien gia

Download Report

Transcript Chuong 5_Bien gia

CHƯƠNG 5
BIẾN GIẢ TRONG PHÂN TÍCH HỒI QUY
BIẾN GIẢ
1.
MỤC
TIÊU
Biết
cách
đặt
biến
giả
2. Nắm phương pháp sử dụng
biến giả trong phân tích hồi quy
2
NỘI DUNG
1
Khái niệm biến giả
2
Sử dụng biến giả trong mô hình hồi quy
3
Kỹ thuật sử dụng biến giả
5.1 KHÁI NIỆM
• Biến định lượng: các giá trị quan sát được thể
hệ bằng con số
• Biến định tính: thể hiện một số tính chất nào
đó
• Để đưa những thuộc tính của biến định tính
vào mô hình hồi quy, cần lượng hóa chúng =>
sử dụng biến giả (dummy variables)
4
Chi tiêu của hộ = α + β1* quy mô hộ + β2*trình độ văn hóa của
chủ hộ+ β3* tuổi của chủ hộ + β4* giới tính của chủ hộ β5* nơi
sinh sống của hộ
Mã hộ
38820
38818
38817
38816
38815
38813
11212
11211
11209
11208
11207
11206
Quy
mô hộ
4
6
8
3
9
4
7
3
3
4
2
4
Chi tiêu của hộ
10097.37
14695.2
11733.34
7087.489
22809.3
9554.563
69258.09
13680.91
27651.65
32102.67
11464.6
17199.63
Trình độ
văn hóa
của chủ
hộ
3
8
4
0
6
2
9
0
13
8
7
5
Tuổi
của
chủ
hộ
48
42
37
21
48
76
42
77
32
47
38
93
Giới
tính
chủ hộ
Nam
Nữ
Nữ
Nữ
Nữ
Nữ
Nữ
Nữ
Nữ
Nữ
Nam
Nam
Nơi sinh sống
Nông thôn
Nông thôn
Nông thôn
Nông thôn
Nông thôn
Nông thôn
Thành thị
Thành thị
Thành thị
Thành thị
Thành thị
Thành thị
5
Ví dụ
• Có hai biến độc lập định tính là giới tính của chủ
hộ và nơi sinh sống của hộ. Để phân tích hồi quy
cần phải lượng hóa hai biến định tính này.
• Thực hiện: Giới tính gồm hai biểu hiện là nam và
nữ và mã hóa như sau: Nam=1, Nữ=0.
• Nơi sinh sống của hộ gồm thành thị và nông thôn
nên mã hóa như sau: Thành thị=1, Nông thôn=0.
(Việc chọn số mã hóa tùy nhà phân tích).
6
Dữ liệu đã mã hóa
Mã hộ Quy mô hộ
38820
4
38818
6
38817
8
38816
3
38815
9
38813
4
11212
7
11211
3
11209
3
11208
4
11207
2
11206
4
Trình độ văn
Chi tiêu của hóa của chủ Tuổi của Giới tính Nơi sinh
hộ
hộ
chủ hộ chủ hộ sống
10097.37
3
48
1
0
14695.2
8
42
0
0
11733.34
4
37
0
0
7087.489
0
21
0
0
22809.3
6
48
0
0
9554.563
2
76
0
0
69258.09
9
42
0
1
13680.91
0
77
0
1
27651.65
13
32
0
1
32102.67
8
47
0
1
11464.6
7
38
1
1
17199.63
5
93
1
1
7
Ví dụ
Mã hộ
Quy mô hộ
38820
38818
38817
38816
38815
38813
11212
11211
11209
11208
11207
11206
4
6
8
3
9
4
7
3
3
4
2
4
Chi tiêu
Trình độ văn Tuổi của
của hộ
hóa của chủ hộ chủ hộ
10097.37
3
14695.2
8
11733.34
4
7087.489
0
22809.3
6
9554.563
2
69258.09
9
13680.91
0
27651.65
13
32102.67
8
11464.6
7
17199.63
5
48
42
37
21
48
76
42
77
32
47
38
93
Nghề nghiệp
chủ hộ
Bác sĩ
Giáo viên
Nông dân
Bác sĩ
Giáo viên
Nông dân
Bác sĩ
Giáo viên
Nông dân
Bác sĩ
Giáo viên
Nông dân
8
Ví dụ
1. Nghề nghiệp có 3 nghề (3 phạm trù)
2. Chọn 1 nghề làm phạm trù cơ sở
Ví dụ: chọn bác sĩ
3. Hai nghề còn lại là hai biến mới
Vậy số biến mới = số phạm trù -1
4. Biến Giáo viên nhận 2 giá trị: 1 nếu là
giáo viên; 0 nếu không phải là giáo viên
5. Biến Nông dân nhận 2 giá trị: 1 nếu là
nông dân; 0 nếu không phải là nông dân
9
Trình
độ văn
Quy
hóa
Nghề
mô Chi tiêu của Tuổi của nghiệp chủ
Mã hộ hộ của hộ chủ hộ chủ hộ
hộ
Giáo viên
###
4 ###
3
48
Bác sĩ 0
###
6 ###
8
42 Giáo viên 1
###
8 ###
4
37 Nông dân 0
###
3 ###
0
21
Bác sĩ 0
###
9 ###
6
48 Giáo viên 1
###
4 ###
2
76 Nông dân
###
7 ###
9
42
Bác sĩ
###
3 ###
0
77 Giáo viên
###
3 ###
13
32 Nông dân
###
4 ###
8
47
Bác sĩ
###
2 ###
7
38 Giáo viên
###
4 ###
5
93 Nông dân
Nông
dân
0
0
1
0
0
10
Câu hỏi
• Nếu có thêm nghề kế toán thì sao?
11
HỒI QUY VỚI BiẾN ĐỊNH TÍNH
Quy tắc: Nếu biến định tính có m biểu hiện thì
sử dụng m-1 biến.
Ví dụ: Tổng chi tiêu của hộ phụ thuộc vào
(1) Giới tính của chủ hộ
(2) Số thành viên trong hộ
(3) Vùng nơi hộ sinh sống (có 8 vùng)
Biến định tính là biến nào?
12
5.2 Sử dụng biến giả trong mô hình hồi quy
Ví dụ 5.1: Xét mô hình Yi = 1 + 2Xi + 3Di + Ui
với
Y
Tiền lương (triệu đồng/tháng)
X
Bậc thợ
D=1 nếu công nhân làm trong khu vực tư nhân
D=0 nếu công nhân làm trong khu vực nhà nước
D được gọi là biến giả trong mô hình
13
5.2 Sử dụng biến giả trong mô hình hồi quy
Y (thu nhập)
X (số năm)
4
3
D (nơi làm
việc)
1
5
5
0
3
3
0
6
4
1
7
5
1
14
5.2 Sử dụng biến giả trong mô hình hồi quy
E(Y/X,D) = 1 + 2Xi + 3Di
(5.1)
E(Y/X,D=0) = 1 + 2Xi
(5.2)
E(Y/X,D=1) = 1 + 2Xi + 3
(5.3)
(5.2): tiền lương trung bình của công nhân làm
việc trong khu vực quốc doanh với bậc thợ là X
(5.3): tiền lương trung bình của công nhân làm
việc trong khu vực tư nhân với bậc thợ là X
15
5.2 Sử dụng biến giả trong mô hình hồi quy
2
tốc độ tăng lương theo bậc thợ
3
chênh lệch tiền lương trung bình của công
nhân làm việc ở hai khu vực và cùng bậc thợ
(Giả thiết của mô hình: tốc độ tăng lương theo
bậc thợ ở hai khu vực giống nhau)
16
E(Y/X,Z) = 1 + 2Xi + 3Di
Y
ˆ1  ˆ3
ˆ3
ˆ1
X
Hình 5.1 mức thu nhập bình quân tháng của người lao động tại
KVQD và KVTN khi có bậc thợ là X
17
5.2 Sử dụng biến giả trong mô hình hồi quy
Ví dụ 5.2: Xét sự phụ thuộc của thu nhập (Y)
(triệu đồng/tháng) vào thời gian công tác (X)
(năm) và nơi làm việc của người lao động
(DNNN, DNTN và DNLD)
Dùng 2 biến giả Z1 và Z2 với
Z1i =1
nơi làm việc tại DNNN
Z1i =0
nơi làm việc tại nơi khác
Z2i =1
nơi làm việc tại DNTN
Z2i =0
nơi làm việc tại nơi khác
Z1i = 0 và Z2i = 0
phạm trù cơ sở
18
5.2 Sử dụng biến giả trong mô hình hồi quy
Y (thu
X (số
nhập)
năm)
4
3
Nơi làm
Z1
việc
DNNN
1
Z2
0
5
5
DNTN
0
1
3
3
DNLD
0
0
6
4
DNTN
1
7
5
DNNN
1
19
5.2 Sử dụng biến giả trong mô hình hồi quy
E(Y/X,Z1,Z2) = 1 + 2Xi + 3Z1i + 4Z2i
E(Y/X,Z1=0,Z2=0) = 1 + 2Xi
E(Y/X,Z1=1,Z2=0) = 1 + 2Xi + 3
E(Y/X,Z1=0,Z2=1) = 1 + 2Xi + 4
• 3 chênh lệch thu nhập trung bình của nhân
viên làm việc tại DNNN và DNLD khi có cùng
thời gian làm việc X năm
• 4 chênh lệch thu nhập trung bình của nhân
viên làm việc tại DNTN và DNLD khi có cùng thời
gian làm việc X năm
20
5.2 Sử dụng biến giả trong mô hình hồi quy
Ví dụ 5.3. thu nhập còn phụ thuộc vào trình độ
người lao động (từ đại học trở lên, cao đẳng và
khác)
1: nếu trình độ từ đại học trở lên
0: trường hợp khác
1: nếu trình độ cao đẳng
D2i =
0: trường hợp khác
Một chỉ tiêu chất lượng có n phạm trù (thuộc
tính) khác nhau thì dùng n-1 biến giả
D1i =
21
5.2 Sử dụng biến giả trong mô hình hồi quy
Giả sử Y, X là biến định lượng, Z là biến giả (định tính)
TH1: Y= 1 + 2Z + 3X + U
TH2: Y= 1 + 2X + 3(ZX) + U
TH3: Y= 1 + 2Z + 3X + 4(ZX)+ U
22
5.2 Sử dụng biến giả trong mô hình hồi quy
VD 5.4: Khảo sát lương của nhân viên theo
số năm kinh nghiệm và giới tính
TH1: Y= 1 + 2Z + 3X + U
TH2: Y= 1 + 2X + 3(ZX) + U
TH3: Y= 1 + 2Z + 3X + 4(ZX)+ U
Trong đó
Y
lương
X
số năm kinh nghiệm
Z
giới tính với Z=1: nam; Z=0: nữ
23
5.2 Sử dụng biến giả trong mô hình hồi quy
TH1: Lương khởi điểm của nv nam và nữ
khác nhau nhưng tốc độ tăng lương theo số
năm kinh nghiệm như nhau
TH2: Lương khởi điểm như nhau nhưng
tốc độ tăng lương khác nhau
TH3: Lương khởi điểm và tốc độ tăng
lương khác nhau
24
5.2 Sử dụng biến giả trong mô hình hồi quy
TH1: Lương khởi điểm của nv nam và nữ
khác nhau nhưng tốc độ tăng lương theo số
năm kinh nghiệm như nhau
Hàm PRF: Y= 1 + 2Z + 3X + U
Hàm SRF ứng với nữ (Z=0) :
Yˆ  ˆ1  ˆ3 X
Hàm SRF ứng với nam (Z=1) :
Yˆ  ˆ1  ˆ2  ˆ3 X
25
5.2 Sử dụng biến giả trong mô hình hồi quy
Y
Yˆ  ˆ1  ˆ2  ˆ3 X
Yˆ  ˆ1  ˆ3 X
ˆ1  ˆ2
ˆ1 , ˆ2 , ˆ3  0
ˆ1
0
X
Hình 5.2 Lương khởi điểm của nv nam và nữ khác nhau
26
5.2 Sử dụng biến giả trong mô hình hồi quy
TH2: Lương khởi điểm như nhau nhưng
tốc độ tăng lương khác nhau
Hàm PRF:
Y= 1 + 2X + 3(ZX) + U
Với ZX gọi là biến tương tác
Hàm SRF ứng với nữ (Z=0) :
Yˆ  ˆ1  ˆ2 X
Hàm SRF ứng với nam (Z=1) :
Yˆ  ˆ1  ˆ2 X  ˆ3 X  ˆ1  (ˆ2  ˆ3 ) X
27
5.2 Sử dụng biến giả trong mô hình hồi quy
Y
Yˆ  ˆ1  (ˆ2  ˆ3 ) X
Yˆ  ˆ1  ˆ2 X
ˆ1 , ˆ2 , ˆ3  0
ˆ1
0
X
Hình 5.3 Mức tăng lương theo số năm kinh nghiệm của nv nam và nữ khác
nhau
28
5.2 Sử dụng biến giả trong mô hình hồi quy
TH3: Lương khởi điểm và tốc độ tăng lương
khác nhau
Hàm PRF: Y= 1 + 2Z + 3X + 4(ZX)+ U
Hàm SRF ứng với nữ (Z=0) :
Yˆ  ˆ1  ˆ3 X
Hàm SRF ứng với nam (Z=1) :
Yˆ  ˆ1  ˆ2  ˆ3 X  ˆ4 X  (ˆ1  ˆ2 )  (ˆ3  ˆ4 ) X
29
5.2 Sử dụng biến giả trong mô hình hồi quy
Y
Yˆ  (ˆ1  ˆ2 )  (ˆ3  ˆ4 ) X
Yˆ  ˆ1  ˆ3 X
ˆ1  ˆ2
ˆ1
0
ˆ1 , ˆ2 , ˆ3 , ˆ4  0
X
Hình 5.4 Lương khởi điểm và mức tăng lương của nv nam và nữ khác nhau
30
5.3 Ứng dụng sử dụng biến giả
5.3.1 Sử dụng biến giả trong phân tích mùa
Y
chi tiêu cho tiêu dùng
X
thu nhập
Z = 1 nếu quan sát trong mùa (tháng 1-6)
Z = 0 nếu quan sát không nằm trong mùa (tháng 7-12)
TH1: Nếu yếu tố mùa chỉ
ảnh hưởng đến hệ số
chặn
Yˆi  ˆ1  ˆ2 X i  ˆ3Zi
TH2: Nếu yếu tố mùa có
ảnh hưởng đến hệ số
góc
Yˆi  ˆ1  ˆ2 X i  ˆ3Zi  ˆ4 X i Zi (*)
Mô hình * có tính tổng quát hơn. Qua việc kiểm định
giả thiết để biết được hệ số góc nào có ý nghĩa.
31
Ví dụ
Có bảng số liệu sau về doanh số bán từng quý
(triệu đồng). Hãy sắp xếp lại số liệu, sử dụng biến
giả và viết mô hình hồi quy.
Năm
1970
1970
1970
1970
1971
1971
1971
Quý
1
2
3
4
1
2
3
Doanh số
992.7
1077.6
1185.9
1326.4
1434.2
1549.2
1718
Năm
1971
1972
1972
1972
1972
1973
1973
Quý
4
1
2
3
4
1
2
Doanh số
1918.3
2163.9
2417.8
2631.7
2957.8
3069.3
3304.8
32
Ví dụ
Năm
1970
1970
1970
1970
1971
1971
1971
1971
1972
1972
1972
1972
1973
1973
Quý
1
2
3
4
1
2
3
4
1
2
3
4
1
2
Doanh số
992.7
1077.6
1185.9
1326.4
1434.2
1549.2
1718
1918.3
2163.9
2417.8
2631.7
2957.8
3069.3
3304.8
D2
0
1
0
0
0
1
0
0
0
1
0
0
0
1
D3
0
0
1
0
0
0
1
0
0
0
1
0
0
0
D4
0
0
0
1
0
0
0
1
0
0
0
1
0
0
33
Viết mô hình hồi quy mẫu và ý nghĩa các hệ số
34
5.3 Ứng dụng sử dụng biến giả
5.3.2 Kiểm định tính ổn định cấu trúc của các mô hình hồi quy
Ví dụ 5.5. Số liệu tiết kiệm (Y) và thu nhập cá nhân (X) ở nước
Anh từ 1946-63 (triệu pounds)
TK I
1946
1947
1948
1949
1950
1951
1952
1953
1954
Tiết kiệm Thu nhập TK II
Tiết kiệm Thu nhập
0.36
8.8
1955
0.59
15.5
0.21
9.4
1956
0.9
16.7
0.08
10
1957
0.95
17.7
0.2
10.6
1958
0.82
18.6
0.1
11
1959
1.04
19.7
0.12
11.9
1960
1.53
21.1
0.41
12.7
1961
1.94
22.8
0.5
13.5
1962
1.75
23.9
0.43
14.3
1963
1.99
25.2
35
5.3 Ứng dụng sử dụng biến giả
Mục tiêu: Kiểm tra hàm tiết kiệm có thay đổi cấu
trúc giữa 2 thời kỳ hay không.
Cách 1 Lập hai mô hình tiết kiệm ở 2 thời kỳ
Thời kỳ tái thiết: 1946-54
(5.3.1)
Yi  1   2 X i  U1i
Thời kỳ hậu tái thiết: 1955-63
Yi  1  2 X i  U 2i
Và kiểm định các trường hợp sau
1  1
 2  2
1  1
 2  2
1  1
 2  2
(5.3.2)
1  1
 2  2
36
Kiểm định Chow
Giả thiết: H0: Hai hàm (5.3.1) và (5.3.2) giống nhau
B1: Gộp hai nhóm quan sát n=n1+n2 và tính RSS
có bậc tự do df= n1+n2-k từ mô hình hồi quy
Yi  1  2 X i  U 2i
B2: Ước lượng (5.3.1) và (5.3.2) và thu được
RSS1 có df = n1-k, RSS2 có df = n2-k. Đặt
RSS*=RSS1+RSS2
*
B3: Tính
RSS  RSS / k
F


RSS* /(n1  n2  2k )
B4: Nếu F > Fα(k, n1+n2-2k): bác bỏ H0
37
38
39
40
5.3 Ứng dụng sử dụng biến giả
Cách 2 Sử dụng biến giả
B1. Lập hàm tiết kiệm tổng quát của cả 2 thời kỳ
Yi  ˆ1  ˆ2 X i  ˆ3Zi  ˆ4 X i Zi  ei
Với n = n1 + n2
Z=1
quan sát thuộc thời kỳ tái thiết
Z=0
quan sát thuộc thời kỳ hậu tái thiết
B2. Kiểm định giả thiết H0: 3=0
Nếu chấp nhận H0: loại bỏ Z ra khỏi mô hình
B3. Kiểm định giả thiết H0: 4=0
Nếu chấp nhận H0: loại bỏ ZiXi ra khỏi mô hình
41
42
5.3 Ứng dụng sử dụng biến giả
Kết quả hồi quy theo mô hình như sau
Yi  1,75  0,15045X i  1,4839Zi  0,1034X i Zi  ei
t = (-5,27) (9,238)
p = (0,000) (0,000)
(3,155)
(0,007)
(-3,109)
(0,008)
Nhận xét
•Tung độ gốc chênh lệch và hệ số góc chênh lệch
có ý nghĩa thống kê
•Các hồi quy trong hai thời kỳ là khác nhau
43
5.3 Ứng dụng sử dụng biến giả
Thời kỳ tái thiết: Z = 1
Yˆi  1,75  0,15045X i  1,4839 0,1034X i
Yˆi  0,2661 0,0475X i
Thời kỳ hậu tái thiết: Z = 0
Yˆi  1,75  0,15045X i
44
5.3 Ứng dụng sử dụng biến giả
Tiết kiệm
Thời kỳ hậu tái thiết
Yˆi  1,75  0,15045X i
Yˆi  0,2661 0,0475X i
Thời kỳ tái thiết
Thu nhập
-0.27
-1.75
Hình 5.6 Mô hình hồi quy cho 2 thời kỳ
45
5.3 Ứng dụng sử dụng biến giả
5.3.3. Hàm tuyến tính từng khúc
Ví dụ 5.6: Doanh thu dưới X* thì tiền hoa hồng
sẽ khác với khi doanh thu trên X*.
Hàm hồi quy có dạng
Yi  1  2 X i  3 ( X i  X )Zi  ui
*
Y
X
X*
Zi
Zi
Tiền hoa hồng
Doanh thu
Giá trị ngưỡng sản lượng
=1 nếu Xi > X*
=0 nếu Xi ≤ X*
46
5.3 Ứng dụng sử dụng biến giả
Y
X
X
*
Hình 5.7 Hàm tuyến tính từng khúc
•Kiểm định giả thiết H0: 3=0
Nếu bác bỏ H0: hàm hồi quy thay đổi cấu trúc
47
5.3 Ứng dụng sử dụng biến giả
Ví dụ: Sản lượng dưới X*, thì chi phí hoa hồng
sẽ khác với khi sản lượng trên X*.
Hàm hồi quy sẽ có dạng:
Yi  1  2 X i  3 ( X i  X )Zi  ui
*
Y: Chi phí; X: sản lượng;
X*=5.500 tấn: giá trị ngưỡng sản lượng
*

1
:
X

X

i
Z1i  
*

0 : X i  X
48
5.3 Ứng dụng sử dụng biến giả
CP
SL
CP
SL
256
1000
1839
6000
414
2000
2081
7000
634
3000
2423
8000
778
4000
2734
9000
1003
5000
2914
10000
Ta có kết quả hồi quy như sau:
Yi  145,717 0,279X i  0,095( X i  X )Zi  ei
*
t =
R2 =
(-0,824)
0,9737
(6,607)
X* = 5500
(1,145)
49