Phân tích hồi quy tuyến tính

Download Report

Transcript Phân tích hồi quy tuyến tính

Giới thiệu Phân tích hồi quy tuyến tính

Dr. Tuan V. Nguyen

Garvan Institute of Medical Research Sydney

Nếu cho một người ba loại vũ khí – tương quan, hồi quy và cây bút, hắn sẽ dùng cả ba (Anon, 1978)

Tuổi và nồng độ cholesterol của 18 người đo được như sau 13 14 15 16 17 18 ID 1 2 3 4 5 6 7 8 9 10 11 12

Ví d ụ

22 63 40 48 28 49 25 28 36 22 43 57 33 Age Chol (mg/ml) 46 3.5

20 52 30 57 1.9

4.0

2.6

4.5

3.0

2.9

3.8

2.1

3.8

4.1

3.0

2.5

4.6

3.2

4.2

2.3

4.0

Nhập số liệu vào R

id <- seq(1:18) age <- c(46, 20, 52, 30, 57, 25, 28, 36, 22, 43, 57, 33, 22, 63, 40, 48, 28, 49) chol <- c(3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1, 3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0) plot(chol ~ age, pch=16) # Ve bieu do tan xa

T ương quan giữa tuổi và nồng độ cholesterol

20 30 40 age 50 60

Câu hỏi nghiên cứu

• Mối tương quan giữa tuổi và nồng độ cholesterol • Mức độ tương quan • Tiên đoán nồng độ cholesterol ứng với mỗi lứa tuổi Phân tích tương quan và hồi quy

Phương sai và hiệp phương sai: Đại số

• Coi

x

y

là hai biến ngẫu nhiên rút ra từ một mẫu quan sát n đối tượng.

• Đo lượng độ dao động giứa

x

y:

phương sai

var 

i n

  1 

x i n

x

 1  2 var 

i n

  1 

y i n

y

 1  2 • Hiệp phương sai giữa

x

y

var(

x + y

) = var(

x

) + var(

y

) var(

x + y

) = var(

x

) + var(

y

) + 2cov(

x,y

) Trong đó: cov   

n

1  1

i n

  1 

x i

x



y i

y

Phương sai và Hiệp phương sai: Hình học

• Tính độc lập và phụ thuộc giữa

x

diễn bằng hình học: và

y

có thể biểu

y h x h

2 =

x

2 +

y

2

h y H x h

2 =

x

2 +

y

2

2

xy

cos(

H

)

Ý nghĩa của Phương sai và Hiệp phương sai

• Phương sai luôn luôn là số dương • Nếu hiệp phương sai = 0,

x

y

độc lập với nhau.

• Hiệp phương sai là một tổng của một tích chéo: do đó có thể âm và cũng có thể dương.

• Hiệp phương sai âm = lệch pha giữa hai phân phối theo hướng ngược chiều nhau.

• Hiệp phương sai dương = lệch pha giữa hai phân phối theo hướng cùng chiều nhau.

• Hiệp phương sai = đo lường cường độ tương quan.

Hiệp phương sai và tương quan

• • Hiệp phương sai là một đơn vị phụ thuộc. • Hệ số tương quan (

r

) giữa

x và y

là một hiệp phương sai được chuẩn hoá.

r

được xác định bằng:

r

 cov var      , var  cov  

SD x

SD y

T

ương quan thuận và nghịch

r

= 0.9

r

= -0.9

8 10 12 x 14 16 8 10 12 x 14 16

Kiểm định giả thuyết tương quan

• Giả thuyết: H o :

r =

0 ngược với H o :

r

không bằng 0.

• Sai số chuẩn (Standard error) của

r

• The t-statistic:

t

r

1

n

 

r

2 2 :

SE

 1 

r

2

n

 2 • Thống kê này có phân phối

t

với

n –

2 bậc tự do.

• Fisher’s z-transformation:

z

 1 2 ln  1 1  

r r

• Standard error of z:

SE

n

1  3 • Do vậy 95% CI của z có thể tính bằng:

z

n

1  3

Minh hoạ phân tích tương quan

ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 33 22 63 40 16 17 18 48 28 49

Mean 38.83

SD 13.60

57 25 28 36 22 43 57 Age Cholesterol (

x

) (

y

; mg/100ml) 46 3.5

20 52 30 1.9

4.0

2.6

4.5

3.0

2.9

3.8

2.1

3.8

4.1

3.0

2.5

4.6

3.2

4.2

2.3

4.0

3.33

0.84

Cov(

x

,

y

) = 10.68

r

 cov  

SD x

SD y

 10 .

68 13 .

60  0 .

84  0 .

94

z

 1 2 ln   1 1   0 .

94 0 .

94

SE

n

1  3   0 .

56 1 15  0 .

26 t-statistic = 0.56 / 0.26 = 2.17

Critical t-value with 17 df and alpha = 5% is 2.11

Kết luận: Giữa tuổi và nồng độ cholesterol có một mối tương quan có ý nghĩa thống kê..

Phân tích hồi quy tuyến tính đơn

• Ch ỉ khảo sát có hai biến : m ột là biến đáp ứng (

response variable) và m ột là biến dự đoán ( predictor variable)

• Không có điều chỉnh cho yếu tố nhiễu hoặc các hiệp biến khác • Đánh giá: – Lượng hoá mối tương quan giữa hai biến.

• D ự đoán – Xây dựng mô hình dự đoán và đánh giá • Ki ểm soát – Điều chỉnh yếu tố nhiễu (trường hợp phân tích đa biến)

T ương quan giữa tuổi và nồng độ cholesterol

20 30 40 age 50 60

Mô hình hồi quy tuyến tính

• •

Y

: biến ngẫu nhiên, là một biến đáp ứng (

response)

X

: biến ngẫu nhiên, là biến dự đoán, hay yếu tố nguy cơ (predictor, risk factor) – Cả

Y

X

có thể là số liệu nhóm (e.g., yes / no) hoặc biến liên tục (e.g., age). – Nếu Y là biến phân nhóm thì sử dụng mô hình

hồi quy tuyến tính đơn

.

logistic regression; nếu Y là biến liên tục thì sử dụng mô hình

• Mô hình:

Y =

a

+

b

X +

e a b e : intercept : slope / gradient : random error (mức độ dao động giữa các đối tượng trong số y sự kiện nếu x không đổi (ví dụ biến đổi cholesterol trong một nhóm cùng lứa tuổi)

Các giả định của mô hình tuyến tính

• Các thông số có mối tương quan tuyến tính (đường thẳng) với nhau; •

X đo lường không có sai số

; • Các giá trị (ví dụ

Y

1

Y

tương ứng là độc lập với nhau không có mối tương quan với

Y

2 ) ; • Sai số ngẫu nhiên ( e ) có phân phối chuẩn với trung bình =0 và phương sai cố định.

Giá trị kỳ vọng và phương sai

• Nếu các giả định thoả mãn: • Giá trị kỳ vọng của

Y

là:

E

(

Y

• Phương sai của

Y

|

x

) = a + b

x

là: var(

Y

) = var( e ) = s 2

Ước lượng các thông số của mô hình hồi quy tuyến tính

y

Cho hai điểm này.

A

(

x

1 ,

y

1 ) và

B

(

x

2 ,

y

2 ) trong một mặt phẳng 2 chiều, chúng ta có thể có một phương trình đường thẳng nối hai điểm

B

(

x

2 ,

y

2 ) Góc l ệch :

m

dy dx

y

2

x

2  

y x

1 1

a

0

A

(

x

1 ,

y

1 )

dx x dy

Ph ương trình :

y

=

mx

+

a

V ậy nếu chúng ta có hơn 2 điểm thì sao?

Ước tính

a

b • Có một loạt cặp đôi: (

x

1 ,

y

1 ), (

x

2 ,

y

2 ), (

x

3 ,

y

3 ), …, (

x

n ,

y

n ) • Cho

a

b

là các ước số của các thông số a và b, • Chúng ta có phương trình của mẫu nghiên cứu:

Y * = a + bx

• Mục đích: tìm các giá trị của

a

tối thiểu. và

b

sao cho (

Y

Y

* ) là • Cho SSE = tổng của (

Y

i –

a

bx

i ) 2 .

• Các giá trị

a

b

có thể làm SSE đạt giá trị nhỏ nhất gọi là các ước số bình phương tối thiểu (

least square estimates).

Chol

Tiêu chuẩn ước tính

y

i ˆ

i

a

bx i d i

y i

 ˆ

i

Age Mục đích của ước số bình phương tối thiểu là để tìm được các giá trị a và b sao cho tổng của

d

2 có giá trị nhỏ nhất.

Ước tính

a

b • Sau một số bước tính toán, chúng ta có:

a

y

b x

• Trong đó :

b

S xy S xx S xx S xy

 

i n

  1 

x i i n

  1 

x i

 

x

 2

x



y i

y

Nếu các giả định của hồi quy là hợp lý, các ước số của

a

b

sẽ:

– –

Không sai lệch Phương sai tối thiểu (nghĩa là hiệu quả)

Goodness-of-fit

• Bây giờ chúng ta có phương trình:

Y = a + bX + e

• Câu hỏi: Phương trình này có thể mô tả dữ liệu tốt cỡ nào? • Trả lời: hệ số xác định (R biến thiên trong nhóm

X.

2 ): mức độ biến thiên trong Y có thể giải thích bằng mức độ

Tách nhóm biến thiên: khái niệm

• SST = tổng của các mức độ khác biệt bình phương giữa từng giá trị

y

i và trị số trung bình của

y

. • SSR = tổng của các mức độ khác biệt bình phương giữa giá trị dự đoán của

y

và trị số trung bình của

y

. • SSE = tổng của các mức độ khác biệt bình phương giữa các giá trị quan sát và giá trị dự đoán của

y

. SST = SSR + SSE Khi đó hệ số xác định là: R 2 = SSR / SST

Tách nhóm biến thiên: minh hoạ hình học

SSE SST Chol (

Y

) SSR mean Age (

X

)

Tách nhóm biến thiên: đại số

• Some statistics: • Total variation: • Attributed to the model: • Residual sum of square: •

SST = SSR + SSE

SSR = SST – SSE SST

i n

  1 

y i

y

 2

SSR

i n

  1  ˆ

i

y

 2

SSE

i n

  1 

y i

y

ˆ

i

 2

Phân tích phương sai

• SS tăng lên theo tỷ lệ với cỡ mẫu (

n

) • Trung bình bình phương (Mean squares, MS): được chuẩn hoá cho bậc tự do (df) – – –

MSR = SSR / p

( p = số bậc tự do)

MSE = SSE / (n – p – MST = SST / (n –

1

)

1

)

Bảng tóm tăt phân tích phương sai ( An alysis o f va riance, ANOVA): Nguồn d.f.

F-test Regression Residual Total

p N

p

–1

n –

1 Sum of squares (SS) SSR SSE SST Mean squares (MS) MSR MSE MSR/MSE

Kiểm định giả thuyết trong các phân tích hồi quy

• Bây giờ chúng ta có: Số liệu mẫu nghiên cứu:

Y = a + bX + e

Quần thể:

Y =

a

+

b

X +

e • H o : b = 0. Không có mối tương quan tuyến tính nào giữa kết cục và biến dự đoán (yếu tố nguy cơ) cả.

• Ngôn ngữ thông thường: “Với điều kiện mẫu nghiên cứu đã cho kết quả thu được đó, vậy xác suất để cho có được một mẫu quan sát mà không nhất quán với giả thuyết không, tức là không có mối tương quan nào, là bao nhiêu phần trăm?”

Diễn dịch về độ dốc (thông số

b

)

• Ghi nhớ rằng e được coi là một phân phối chuẩn với trung bình 0 và phương sai v = s 2 . • Ước tính s 2 bằng MSE (or

s

2 ) • Cũng có thể cho thấy rằng – GIá trị kỳ vọng của

b

là b , i.e. E(

b

) = b, – Sai số chuẩn (standard errors) của

b SE

  

s

/

S xx

là: • Vậy kiểm định liêu b = 0 sẽ là:

t = b / SE(b)

theo luật phân phối t với bậc tự do là n-1.

sẽ tuân

K hoảng tin cậy xung quanh giá trị dự đoán

• Giá trị quan sát là

Y i

. • Giá trị được dự đoán là:

Y i

ˆ 

a

bx i

• Sai số chuẩn (standard error) của giá trị được dự đoán là:

SE

 

i

s

1  1

n

 

x i S

xx x

 2 • Ước tính khoảng cho các giá trị

Y i Y

ˆ

i

SE

 

i

t

n

p

 1 , 1  a / 2  :

Ki ểm tra các giả định

• Phương sai hằng định • Phân phối chuẩn • Mô hình đúng • Mô hình ổn định • Tất cả đều có thể biểu diễn bằng biểu đồ. Phần tồn dư (residuals) của mô hình luôn đóng vai trò quan trọng trong tất cả các bước tiến hành phân tích một mô hình chẩn đoán.

Ki ểm tra các giả định

• Phương sai hằng định – Vẽ đường số liệu tồn dư chuẩn hoá theo phương pháp student (studentized residuals) tương ứng với các giá trị được dự đoán (predicted values). Kiểm tra xem sự biến thiên giữa các giá trị tồn dư liệu có tương đối hằng định qua suốt hết các dãy giá trị đã được xử lý không (fitted values).

• Phân phối chuẩn – Vẽ đường số liệu tồn dư tương ứng với các giá trị kỳ vọng (expected valué), hay còn gọi là vẽ đường xác suất chuẩn (Normal probability plot). N ếu các giá trị tồn dư này tuân theo luật phân ohuẩn thì nó phải nằm trên con đường xiên 45 o .

• Xây dựng công thức đúng? – V ẽ đường giá trị tồn dư tương ứng với giá trị đã xử lý ( fitted values). Ki ểm tra xem liệu biểu đồ của các giá trị tồn dư có cho thấy xu hướng không tuyến tính của chúng qua các dãy số liệu đã xử lý không (fitted values).

• Mô hình ổn định – Ki ểm tra xem liệu có một hay nhiều giá trị quan sát bị tác động . S ử dụng khoảng cách Cook.

Checking assumptions (tt)

• •

Khoảng cách Cook

(D) là môt đơn vị đo lường mức độ biến đổi của các giá trị đã xử lý trong mô hình hồi quy nếu loại bỏ một giá trị thứ ith ra khỏi bộ dữ liệu phân tích.

Leverage

(tác động đòn bẩy) để đo mức độ giá trị cực trị

x i

tương quan với các giá trị

x

còn lại. • Giá trị tồn dư student hoá (

Studentized residual)

để đo mức độ giá trị cực trị quan với các giá trị

y

còn lại.

y i

tương

Đo lường chỉnh lý

• Phương sai không hằng định – Hoán chuyển giá trị đáp ứng (

y

) sang một thang đơn vị khác (ví dụ logarithm) thường hữu ích.

– Nếu đã hoán chuyển rồi mà không giải quyết được tình trạng phương sai không hằng định, sử dụng một ước số khác mạnh hơn, như là bình phương tối thiểu có cân đối tương tác (

iterative weighted least squares).

• Không tuân theo phân phối chuẩn – Phân phối không chuẩn và phương sai không hằng định thường đi đôi với nhau.

• Giá trị ngoại lệ (Outliers) – Kiểm tra xem số liệu có chính xác không – Sử dụng phương pháp ước tính phụ trợ

Phân tích hồi quy sử dụng R

id <- seq(1:18) age <- c(46, 20, 52, 30, 57, 25, 28, 36, 22, 43, 57, 33, 22, 63, 40, 48, 28, 49) chol <- c(3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1, 3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0) #Fit linear regression model reg <- lm(chol ~ age)

Phân tích hồi quy

summary(reg) Call: lm(formula = chol ~ age) Residuals: Min 1Q Median 3Q Max -0.40729 -0.24133 -0.04522 0.17939 0.63040 Coefficients: -- ' 1 Estimate Std. Error t value Pr(>|t|) (Intercept) 1.089218 0.221466 4.918 0.000154 *** age 0.057788 0.005399 10.704 1.06e-08 *** Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' Residual standard error: 0.3027 on 16 degrees of freedom Multiple R-Squared: 0.8775, Adjusted R-squared: 0.8698 F-statistic: 114.6 on 1 and 16 DF, p-value: 1.058e-08

ANOVA

anova(reg) Analysis of Variance Table Response: chol -- Df Sum Sq Mean Sq F value Pr(>F) age 1 10.4944 10.4944 114.57 1.058e-08 *** Residuals 16 1.4656 0.0916 Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Ch ẩn đoán : ảnh hưởng của số liệu

p<- par(mfrow=c(2,2)) plot(reg) par(p)

6 Residuals vs Fitted 8 Normal Q-Q 6 8 17 2.5

3.0

3.5

Fitted values 4.0

4.5

6 17 Scale-Location 8 -2 17 -1 0 Theoretical Quantiles 1 2 Residuals vs Leverage 8 6 1 0.5

2.5

3.0

3.5

Fitted values 4.0

4.5

0.00

Cook's distance 0.05

0.10

0.15

Leverage 2 0.20

0.5

0.25

Một minh hoạ không tuyến tính: BMI và mức độ hấp dẫn tính dục

– Nghiên cứu trên 44 sinh viên đại học – Đo chỉ số trọng lượng cơ thể (BMI) – Cho điểm hấp dẫn tính dục (SA)

id <- seq(1:44) bmi <- c(11.00, 12.00, 12.50, 14.00, 14.00, 14.00, 14.00, 14.00, 14.00, 14.80, 15.00, 15.00, 15.50, 16.00, 16.50, 17.00, 17.00, 18.00, 18.00, 19.00, 19.00, 20.00, 20.00, 20.00, 20.50, 22.00, 23.00, 23.00, 24.00, 24.50, 25.00, 25.00, 26.00, 26.00, 26.50, 28.00, 29.00, 31.00, 32.00, 33.00, 34.00, 35.50, 36.00, 36.00) sa <- c(2.0, 2.8, 1.8, 1.8, 2.0, 2.8, 3.2, 3.1, 4.0, 1.5, 3.2, 3.7, 5.5, 5.2, 5.1, 5.7, 5.6, 4.8, 5.4, 6.3, 6.5, 4.9, 5.0, 5.3, 5.0, 4.2, 4.1, 4.7, 3.5, 3.7, 3.5, 4.0, 3.7, 3.6, 3.4, 3.3, 2.9, 2.1, 2.0, 2.1, 2.1, 2.0, 1.8, 1.7)

Phân tích hồi quy tuyến tính giữa BMI và SA

reg <- lm (sa ~ bmi) summary(reg) Residuals: Min 1Q Median 3Q Max -2.54204 -0.97584 0.05082 1.16160 2.70856 Coefficients: -- Estimate Std. Error t value Pr(>|t|) (Intercept) 4.92512 0.64489 7.637 1.81e-09 *** bmi -0.05967 0.02862 -2.084 0.0432 * Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 1.354 on 42 degrees of freedom Multiple R-Squared: 0.09376, Adjusted R-squared: 0.07218 F-statistic: 4.345 on 1 and 42 DF, p-value: 0.04323

BMI và SA: phân tích các giá trị tồn dư

plot(reg)

Residuals vs Fitted Normal Q-Q 20 21 3.0

3.5

Fitted values 10 4.0

Scale-Location 21 20 10 10 -2 -1 0 1 Theoretical Quantiles 2 Residuals vs Leverage 3.0

3.5

Fitted values 4.0

10 3 Cook's distance 1 0.00

0.02

0.04

0.06

0.08

0.10

0.12

Leverage

BMI and SA: bi

ểu đồ tán xạ

reg <- lm(sa ~ bmi) plot(sa ~ bmi, pch=16) abline(reg)

10 15 20 bmi 25 30 35

Phân tích lại số liệu này

# Fit 3 regression models linear <- lm(sa ~ bmi) quad <- lm(sa ~ poly(bmi, 2)) cubic <- lm(sa ~ poly(bmi, 3)) # Make new BMI axis bmi.new <- 10:40 # Get predicted values quad.pred <- predict(quad,data.frame(bmi=bmi.new)) cubic.pred <- predict(cubic,data.frame(bmi=bmi.new)) # Plot predicted values abline(reg) lines(bmi.new, quad.pred, col="blue",lwd=3) lines(bmi.new, cubic.pred, col="red",lwd=3)

10 15 20 bmi 25 30 35

Một số nhận xét:

Di ễn dịch mối tương quan

• Giá trị tương quan nằm giữa khoảng –1 và +1. Một hệ số tương quan rất nhỏ không có nghĩa rằng không có mối tương quan giữa hai biến. Mối tương quan này có thể là phi tuyến tính.

• Đối với các tương quan cong, sử dụng hệ số tương phân phân loại (rank correlation) tốt hơn tương quan Pearson (Pearson’s correlation).

• Một hệ số tương quan thấp (vd: 0.1) có thể có ý nghĩa thống kê nhưng không có ý nghĩa lâm sàng.

• R 2 là một chỉ số đo lường mức độ tương quan.

r =

0.7 trông có vẻ hấp dẫn nhưng thực chât R 2 chỉ có 0.49!

• Có tương quan không đồng nghĩa là có quan hệ nhân quả.

Một số nhận xét:

Di ễn dịch mối tương quan

• Cần cẩn thận với đa tương quan. Đối với số biến là

p

, sẽ có

p

(

p

– 1)/2 các cặp tương quan, và khi đó sẽ đối mặt với vấn đề dương tính giả (có tương quan giả).

• Tương quan không thể suy diễn được từ các mối quan hệ.

– r(age, weight) = 0.05; r(weight, fat) = 0.03; không có nghĩa rằng r(age, fat) là gần zero. – Nhưng trên thực tế r(age, fat) = 0.79.

Một số nhận xét:

Di ễn dịch mối tương quan

• Đường biểu diến tương quan (hồi quy) chỉ là một tương quan ước lượng giữa các biến này trong quần thể mà thôi.

• Có một độ bất định liên quan với các thông số được ước tính.

• Đường hồi quy không thể dùng để ước tính các giá trị x nằm ngoài vùng giá trị quan sát (ngoại suy).

• Một mô hình thống kê là một mô hình xấp xỉ; tương quan thực có thể lại là phi tuyến tính, nhưng tương quan tuyến tính là một tương quan xấp xỉ tương đối phù hợp nhất.

Một số nhận xét:

Báo cáo k ết quả

• Kết quả phân tích tương quan hồi quy cần được mô tả đầy đủ: bản chất của biến đáp ứng (kết cục), các biến dự đoán (yếu tố nguy cơ); bất kỳ một cách hoán chuyển; kiểm tra các giả định...

• Các hệ số hồi quy (

a

,

b

), cùng với các sai số chuẩn tương ứng, và R 2 cũng cần thiết.

Vài nhận xét cuối cùng

• Phương trình là cột mốc để cho các ý tưởng khoa học bám trụ và thăng hoa.

• Các phương trình đẹp như những bài thơ, nhưng cũng thậm chí là những củ hành. • Vì vậy mà phải hết sức cảnh giác và cẩn tắc khi xây dựng phương trình!

Lời Cảm tạ

• Chúng tôi xin chân thành cám ơn Công ty Dược phẩm Bridge Healthcare, Australia đã tài trợ cho chuyến đi.