Các giả thiết cổ điển của mô hình hồi qui tuyến tính

Download Report

Transcript Các giả thiết cổ điển của mô hình hồi qui tuyến tính

BÀI 7: HỒI QUY HAI BIẾN

Khái niệm

 Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc) vào một hay nhiều biến khác (biến độc lập), nhằm mục đích ước lượng (hay dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị biết trước của các biến độc lập.

 Phân tích tương quan là đo mức độ quan hệ tuyến tính giữa hai biến; không có sự phân biệt giữa các biến; các biến có tính chất đối xứng.

• • •

1.

Mô hình hồi quy Mô hình hồi quy tổng thể (PRF)

Y i =  1 +  2 X i + U i  1  2 : là hệ số chặn – tung độ gốc : hệ số góc - hệ số đo độ dốc đường hồi quy Ui:sai số ngẫu nhiên của tổng thể ứng với quan sát thứ i Với một mẫu n quan sát (Y i , X i ). Cần ước lượng (PRF).

Mô hình hồi quy mẫu (SRF)

Mô hình hồi quy mẫu: ˆ

i

  ˆ 1   ˆ 2

X

i

Trong đó  ˆ 1  ˆ 2

Y

ˆ

i

: ước lượng cho  1 .

: Ước lượng cho  2 .

: Ước lượng cho E(Y/Xi) = Yi Mô hình hồi quy mẫu ngẫu nhiên

Y i

  ˆ 1   ˆ 2

X i

e i

Theo phương pháp OLS, để Yˆ i càng gần với Y i Suy ra            n  i   1 β ˆ 1 n  i i   1 β ˆ 2 n   1 e e β i 2 i 2 e 1 i 2   ,  i i β n  n  i  1  1 n   1 2 ( 2 ( 2 ( Y i thì  β β ˆ 1 1  , β β ˆ 2 2 X i cần thỏa mãn : ) 2 cần thỏa mãn : Y i Y i   β ˆ 1 β ˆ 1   β ˆ 2 β ˆ 2 X X i i )( )(   X min  1 ) i )   0 0

giải hệ, ta có : β ˆ 2  i n   n 1 i   1 X i Y i X i 2   n X Y n ( X ) 2 β ˆ 1  Y  β ˆ 2 X

Ví dụ 1

: Giả sử cần nghiên cứu chi tiêu tiêu dùng của hộ gia đình phụ thuộc thế nào vào thu nhập của họ, người ta tiến hành điều tra, thu được một mẫu gồm 10 hộ gia đình với số liệu như sau :

Y X 70 80 65 90 95 110 115 120 140 155 150 100 120 140 160 180 200 220 240 260

Trong đó : Y – chi tiêu hộ gia đình (USD/tuần) X – thu nhập hộ gia đình (USD/tuần) Giả sử Y và X có quan hệ tuyến tính. Hãy ước lượng mô hình hồi qui của Y theo X.

160 Y Y i =  1 +  2 X i + u i 140 120 Tiêu dùng, 100 Y 80 Y i =  1 +  2 Xi+u i E(Y/X i )=  1 +  2 X i u i  2 Y = E(Y/X i ) 60 40 50  1 100 150 Thu nhập khả dụng, X Y i 200 250 X

2. Các giả thiết cổ điển của mô hình hồi qui tuyến tính

• •

Giả thiết 1

: Biến độc lập X được xác định trước.

i là phi ngẫu nhiên, các giá trị của chúng phải

Giả thiết 2

: Kỳ vọng có điều kiện của sai số ngẫu nhiên bằng 0 : E (U i / X i ) = 0  i

• • •

Giả thiết 3

: (Phương sai thuần nhất ) Các sai số ngẫu nhiên có phương sai bằng nhau : Var (U i / X i ) =  2  i

Giả thiết 4

: Không có hiện tượng tương quan giữa các sai số ngẫu nhiên : Cov (U i , U j ) = 0  i  j

Giả thiết 5

: Không có hiện tượng tương quan giữa biến độc lập X i và sai số ngẫu nhiên U i : Cov (X i , U i ) = 0  i

Định lý Gauss – Markov

là các ước lượng : Với các giả thiết từ 1 đến 5 của mô hình hồi qui tuyến tính cổ điển, các ước lượng OLS

tuyến tính, không chệch

chệch.

và có

phương sai bé nhất

trong lớp các ước lượng tuyến tính, không

3. Phương sai và sai số chuẩn của các ước lượng

Sai số chuẩn s 2  ˆ 1 Phương sai  n   X  2 X  2 n(X) 2  s e 2   1 s 2  ˆ 1 s 2  ˆ 2  Trong đó :   X 2 s e 2  1  n(X) 2  n   e 2 i 2  s e 2  s  ˆ 2  (Y i n   2 ^ Y ) i 2   s 2  ˆ 2 RSS n  2

4. Hệ số xác định và hệ số tương quan

a. Heä soá xaùc ñònh  Moâ hình hoài qui tuyeán tính ñöôïc xaây döïng nhaèm ñeå giaûi thích söï bieán thieân cuûa bieán phuï thuoäc Y vaøo bieán ñoäc laäp X nhöng lieäu moâ hình naøy ñaõ theå hieän moät caùch toát nhaát moái lieân heä giöõa X vaø Y chöa?   Bao nhieâu phaàn traêm bieán thieân cuûa Y coù theå giaûi thích bôûi söï phuï thuoäc tuyeán tính cuûa Y vaøo X? Heä soá xaùc ñònh ñieàu naøy R2 seõ giuùp traû lôøi

Hệ số xác định

R 2 dn  ESS TSS  1  RSS TSS Trong đó : TSS = ESS + RSS TSS  n  (Y i  Y) 2 ESS  n  ˆ i  Y) 2 RSS  n  (Y i  ˆ i 2

y

y i y y i

y

     

y i

   

y

ˆ

i

   ( ,

i i

)  

y

ˆ

i

 

y

  x

Miền xác định của R 2 : 0  R 2  1 R 2  1 : hàm hồi qui càng phù hợp.

R 2  0 : hàm hồi qui càng ít phù hợp Ví dụ : …

b. Hệ số tương quan (Pearson):

giữa X và Y.

Là số đo mức độ chặt chẽ của quan hệ tuyến tính r    (X (X i i  X) X)(Y i 2  (Y i Y)  Y) 2    X 2   XY nX 2   nXY  Y 2  nY 2  Chứng minh được : r β ˆ 2  R 2 Và dấu của r trùng với dấu của hệ số của X trong hàm hồi qui ( ).

r

 

r

> 0,8 : = 0,4 - 0,8 : töông quan maïnh töông quan trung bình

r

 

r

chaët caøng lôùn thì töông quan giöõa X vaø Y caøng 0 < r Y

) < 0,4 :

töông quan yeáu 1 goïi laø töông quan tuyeán tính thuaän (X

, -1

r < 0 goïi laø töông quan tuyeán tính nghòch (X

, Y

) r = 0 : giöõa X vaø Y khoâng coù lieân heä tuyeán tính

Tính chất của hệ số tương quan

: 1. Miền giá trị của r : -1  r  1 | r|  1 : quan hệ tuyến tính giữa X và Y càng chặt chẽ.

2. r có tính đối xứng : r XY = r YX 3. Nếu X, Y độc lập thì r = 0. Điều ngược lại không đúng.

Heä soá töông quan haïng Spearman • • • Ñöôïc tính döïa treân haïng cuûa döõ lieäu chöù khoâng döïa vaøo giaù trò thöïc cuûa quan saùt Tröôùc tieân, ta xeáp haïng trò quan saùt x i , y i R X , R Y caùc giaù theo thöù töï taêng daàn töø 1 trôû ñi, (neáu coù caùc giaù trò quan saùt baèng nhau, thì ñöôïc xeáp ñoàng haïng vaø haïng seõ laø haïng trung bình).

Heä soá töông quan haïng Spearman laø heä soá töông quan r giöõa caùc haïng cuûa x i vaø y i thöùc tính r ñeå tính r s , trong ñoù, thay baèng caùc haïng cuûa chuùng.

r s x chính , töùc laø vaãn duøng coâng i , y i

löu yù : neáu khoâng xaûy ra tröôøng hôïp caùc giaù trò x khoâng xaûy ra tröôøng hôïp ñoàng haïng, coù theå ñöôïc tính baèng coâng thöùc ñôn giaûn hôn: n 2 6 i hay  d i y i baèng nhau, töùc laø r s r s 2  1 ) c caë i , y i )

d i

R x i

R y i

haïng cuû i y i

5. Phân phối xác suất của các ước lượng Giả thiết 6

: U i có phân phối N (0,  2 ), Với giả thiết 6, các ước lượng có thêm các tính chất sau : 1. Khi số quan sát đủ lớn thì các ước lượng xấp xỉ với giá trị thực của phân phối : β ˆ 1    β 1 , β ˆ 2    β 2

2 .

β ˆ 1 ~ N ( β 1 , σ 2 β 1 ) β ˆ 2 ~ N ( β 2 , σ 2 β ˆ 2 )  Z   Z  β ˆ 1 σ  β ˆ 1 β 1 β ˆ 2 σ  β ˆ 2 β 2 ~ N ( 0 , 1 ) ~ N ( 0 , 1 ) 3 .

( n  σ 2 ) σ ˆ 2 2 ~ χ 2 ( n  2 ) 4.

Y

i

~ N (

1

+

2

X

i

,

2

)

6. Khoảng tin cậy của các hệ số hồi qui

• Sử dụng phân phối của thống kê t :   j  j t  ~ t(n  2) s  ˆ j Ta có khoảng tin cậy của  1  ˆ 1  s t 1  / 2   1 ˆ 1 : s t 1  Ta có khoảng tin cậy của  2  ˆ 2  s t 2  / 2  2   2 : s t 2  / 2 / 2

7. Kiểm định giả thiết về các hệ số hồi qui

• Giả sử H H 0 1 :  2 = a ( a = const) :  2  a Có 2 cách kiểm định : 1. Dùng khoảng tin cậy : Khoảng tin cậy của  2 - Nếu a  - Nếu a  [  ,  ]  [  ,  ]  là [  bác bỏ H , 0  ] chấp nhận H 0 2. Dùng kiểm định t : Thống kê sử dụng : t   ˆ 2  a ~ t(n s  ˆ 2  2)

Có hai cách đọc kết quả kiểm định t : Cách 1 : dùng giá trị tới hạn.

- Tính t   ˆ 2  s  ˆ 2 a - Tra bảng t tìm t  /2 (n-2) - Nếu | t| > t  /2 (n-2)  - Nếu | t|  t  /2 (n-2)  bác bỏ H 0 .

chấp nhận H 0 .

f(t)

/2

-4 -3 -2 -t

/2

-1 t 0 1 t

/2

2

/2

3 4

Cách 2 : Dùng p-value (mức ý nghĩa chính xác) p = P(| T| > t a ) với t a = t   ˆ 2  a s  ˆ 2 - Nếu p    bác bỏ H 0.

- Nếu p >   chấp nhận H 0.

8. Kiểm định sự phù hợp của hàm hồi qui. Phân tích hồi qui và phân tích phương sai

• Giả thiết H 0 :  2 = 0 ( hàm hồi qui không phù hợp) H 1 :  2  0 (hàm hồi qui phù hợp) Sử dụng phân phối của thống kê F : F  (  β ˆ 2   β e i 2 2 ) 2 /( n   x i 2 2 )  / 1 ~ F ( 1 , n  2 )

Khi  2 = 0 , F có thể viết : F  ESS/1  2 R /1  2  (*) Nên có thể dùng qui tắc kiểm định sau : - Tính F  ( 1  R 2 R 2 ) / 1 /( n  2 ) - Nếu F > F   (1, n-2)  hàm hồi qui phù hợp.

bác bỏ H 0

F Thống kê F  = 0,05 Miền chấp nhận Miền bác bỏ F  (1,n-2 )

Mặt khác, cũng từ (*) cho thấy : Phân tích phương sai cho phép đưa ra các phán đoán thống kê về độ thích hợp của hồi qui ( xem bảng phân tích phương sai).

* Một số chú ý khi kiểm định giả thiết

- Khi nói “chấp nhận giả thiết H 0 ”, không có nghĩa H 0 đúng.

- Lựa chọn mức ý nghĩa  : 1%, 5%, nhiều nhất là 10%.

 có thể tùy chọn, thường người ta chọn mức :

9. Dự báo

a. Dự báo giá trị trung bình : Cho X =X 0 , tìm E(Y/X 0 ).

Dự báo điểm của E(Y/X

0

) là

Yˆ 0  β ˆ 1  β ˆ 2 X 0 :

Dự báo khoảng của E(Y/X

0

) là

: E(Y / X ) 0  ˆ 0  s t e  / 2 1 n   (X 0 X 2   X) 2 nX 2

b. Dự báo giá trị cá biệt : Cho X =X 0 , tìm Y 0.

Y 0  ˆ 0  s t e  / 2 1 n (X 0  X 2   X) nX 2 2

Y dải tin cậy của giá trị cá biệt dải tin cậy của giá trị trung bình X * Đặc điểm của dự báo khoảng X

10. Trình bày kết quả hồi qui

ˆ i  β 1 β ˆ 1  β 2 X β ˆ i 2

R 2 = t = t 1 t 2 F = Trong đó : p = p(>t 1 ) p(>t 2 )

t 1  β ˆ 1 s eˆ (  β ˆ 1 0 ) t 2 

p(> F) =

β ˆ 2  s eˆ ( β ˆ 2 0 ) Yˆ i

= 24,4545 + 0,5091 X i se = (6,4138) (0,0357) t p = (3,813) = (0,005) (14,243) (0,000) R 2 = 0,9621 n = 10 F = 202,87 p = (0,000)

11. Đánh giá kết quả của phân tích hồi qui

• Dấu của các hệ số hồi qui ước lượng được phù hợp với lý thuyết hay tiên nghiệm không.

• Các hệ số hồi qui ước lượng được có ý nghĩa về mặt thống kê hay không.

• Mức độ phù hợp của mô hình (R 2 ).

• Kiểm tra xem mô hình có thỏa mãn các giả thiết của mô hình hồi qui tuyến tính cổ điển hay không.

• Ví duï : coù soá lieäu veà thôøi gian quaûng caùo treân truyeàn hình vaø luôïng saûn phaåm tieâu thuï ôû moät coâng ty saûn xuaát ñoà chôi treû em nhö sau: 28 37 44 36 47 35 26 29 33 32 31 28 41 32 49 42 38 33 27 24 35 30 34 25