Phân tích mô tả với biến số không liên tục

Download Report

Transcript Phân tích mô tả với biến số không liên tục

Phân tích mô tả
biến không liên tục
Nguyễn Văn Tuấn
Viện nghiên cứu Y khoa Garvan
Sydney, Australia
Nội dung
• Ước tính tỉ lệ và khoảng tin cậy 95%
• Phân tích khác biệt giữa hai tỉ lệ
– Kiểm định z
– Odds ratio và relative risk
Phân tích một tỉ lệ
Ước tính tỉ lệ từ nghiên cứu một thời điểm
•
Ví dụ 1: Một nghiên cứu cắt ngang gồm 700 phụ nữ người Việt tuổi 60+,
có 148 phụ nữ được chẩn đoán loãng xương.
• Phân tích: Ở đây chúng ta muốn ước tính prevalence (tỉ lệ hiện
hành). Gọi tỉ lệ loãng xương trong quần thể là p, và trong mẫu
nghiên cứu là p.
Chúng ta không biết p, nhưng biết rằng p = 148/700 = 0.211.
Chúng ta muốn biết khoảng tin cậy 95% của p.
• Lí thuyết: Theo luật phân phối chuẩn (normal distribution), khoảng
tin cậy 95% của p là: p + 1.96xSE.
SE 
•
p 1  p 
n

0.2111  0.211
700
 0.015
Theo đó, khoảng tin cậy 95% của p là:
0.211 – 1.96x0.015 = 0.18 đến 0.211 + 1.96x0.015 = 0.24
Trình bày kết quả prevalence
• Tỉ lệ loãng xương được ghi nhận là 21.1% với khoảng tin cậy
95% từ 18% đến 24%.
Chỉ số
Tỉ lệ loãng xương
Tỉ lệ abc
Số trường hợp /
tổng số mẫu
Tỉ lệ và khoảng tin
cậy 95%
148 / 700
0.21 (0.18 – 0.24)
XXX / XXX
0.XX (0.XX – 0.XX)
Ước tính tỉ lệ mang tính thời gian
• Ví dụ 2: công trình Women’s Health Initiative nghiên cứu nguy cơ
ung thư vú ở những phụ nữ sử dụng thay thế hormone (hormone
replacement therapy, HRT). Có 8506 phụ nữ tham gia, họ được
theo dõi trung bình 62.2 tháng. Trong thời gian này có 166 người bị
ung thư vú.
• Phân tích: Ở đây chúng ta muốn ước tính incidence (tỉ lệ phát sinh).
Gọi tỉ lệ này là I (ước số của p). Vấn đề là thời gian!
Trung bình mỗi người được theo dõi 5.18 năm (tức 62.2 / 12). Như
vậy tổng số năm-người (person-years) là: 5.18 x 8506 = 44089.
Tỉ lệ ung thư trên mỗi năm-người là:
I = 166 / 44089 = 0.00376
Tỉ lệ ung thư trên mỗi 1000 năm-người là:
I = 166 / 44089 x 1000 = 3.76
Ước tính khoảng tin cậy 95% cho tỉ lệ phát sinh
• Sai số chuẩn (standard error) của I: tùy thuộc vào số trường hợp
(x) và số năm-người (N).
x
166
SE 

 0.000292
N 44089
• Khoảng tin cậy 95% của p:
I + 1.96xSE
0.00376 – 1.96x0.000292 đến 0.00376 + 1.96x0.000292
0.00318 đến 0.00433
Hay 3.18 đến 4.33 cho mỗi 1000 năm-người
Trình bày kết quả incidence
• Tỉ lệ phát sinh ung thư vú trong nhóm được điều trị bằng HRT là
3.8 trên 1000 năm-người với khoảng tin cậy 95% dao động từ
3.2 % đến 4.3.
Chỉ số
Tỉ lệ phát sinh ung
thư vú
Số trường hợp / tổng
số mẫu
Tỉ lệ và khoảng tin
cậy 95% (tính trên
1000 năm-người)
166 / 44089
3.8 (3.2 – 4.3)
Phân tích hai tỉ lệ
So sánh 2 tỉ lệ hiện hành (prevalence) với kiểm định z
•
Ví dụ 3: so sánh tỉ lệ loãng xương giữa Úc và Việt Nam ở phụ nữ trên 60
tuổi. 700 phụ nữ Việt Nam, có 148 loãng xương. Trong nhóm 1287 phụ
nữ Úc, có 345 người loãng xương. Hai tỉ lệ này khác nhau?
•
Phân tích: Trong trường hợp này, chúng ta muốn tìm hiểu độ khác biệt giữa
hai nhóm. Gọi tỉ lệ trong quần thể (mà chúng ta không biết) của hai nhóm là:
pv và pa. Thông số khác biệt là
 = pv – pa
Gọi tỉ lệ quan sát được từ mẫu của hai nhóm là pv và pa. Độ khác biệt quan
sát là:
D = pv – pa
•
Chỉ số
Việt Nam
Australia
N
700
1287
Loãng xương
148
345
Tỉ lệ
pv = 0.211
pa = 0.268
Khoảng tin cậy 95%
0.18 – 0.24
0.24 – 0.29
So sánh 2 tỉ lệ với kiểm định z
Chỉ số
Việt Nam
Australia
N
700
1287
Loãng xương
148
345
Tỉ lệ
pv = 0.211
pa = 0.268
Khoảng tin cậy 95%
0.18 – 0.24
0.24 – 0.29
•
•
Phân tích: Ước số (estimate) của độ khác biệt do đó:
D = 0.268 – 0.211 = 0.057
Sai số chuẩn (standard error) của D (kí hiệu SE) là:
SE  SEv  SEa 
SE 
pv 1  pv 
nv
0.2111  0.211
700


pa 1  pa 
na
0.258 1  0.258
1287
 0.0197
So sánh 2 tỉ lệ với kiểm định z
•
•
Phân tích: Ước số (estimate) của độ khác biệt do đó:
D = 0.268 – 0.211 = 0.057
Sai số chuẩn (standard error) của D (kí hiệu SE) là:
SE 
•
0.2111  0.211
700

0.258 1  0.258
1287
 0.0197
Kiểm định z
Z = D / SE = 0.057 / 0.0197 = 2.89
Vì z > 1.96, chúng ta có bằng chứng để phát biểu rằng độ khác biệt về tỉ lệ
LX giữa hai nhóm có ý nghĩa thống kê (statistically significant).
Ước tính khoảng tin cậy 95% của 2 tỉ lệ
•
Phân tích: Ước số (estimate) của độ khác biệt do đó:
D = 0.268 – 0.211 = 0.057
•
Sai số chuẩn: SE = 0.0197
•
Khoảng tin cậy 95% của :
0.057 + 1.96x0.0197
0.018 đến 0.095
hay 1.8% đến 9.5%
Trình bày kết quả kiểm định 2 tỉ lệ
Chỉ số
Tỉ lệ loãng
xương
Việt Nam
Australia
Khác biệt
0.211
(0.18 – 0.24)
0.268
(0.24 – 0.29)
0.057
(0.018 - 0.095)
xxx
Tỉ lệ hiện hành loãng xương ở phụ nữ Việt Nam là 21.1% (với
khoảng tin cậy 95% 18% đến 24%); tỉ lệ này thấp hơn so với phụ nữ
Úc cùng độ tuổi 6% (KTC95%: 2% đền 10%)
Phân tích hai tỉ lệ phát sinh (incidence)
• Ví dụ 4: công trình nghiên cứu Women’s Health Initiative nghiên
cứu nguy cơ ung thư vú ở những phụ nữ sử dụng thay thế hormone
(hormone replacement therapy, HRT) và placebo (giả dược). Số
liệui của hai nhóm có thể tóm lược như sau:
HRT
Placebo
Số đối tượng
8506
8102
Thời gian theo dõi (tháng)
62.2
61.2
Số phụ nữ bị ung thư vú
166
124
•
Phân tích: Trong trường hợp này, chúng ta muốn tìm hiểu độ khác biệt giữa
hai tỉ lệ phát sinh. Gọi tỉ lệ của hai nhóm HRT và placebo lần lược là I1 và I2.
Chúng ta có thể ước tính độ khác biệt qua:
D = I1 – I2
Phân tích hai tỉ lệ phát sinh (incidence)
HRT
Placebo
Số đối tượng
8506
8102
Thời gian theo dõi (tháng)
62.2
61.2
Số phụ nữ bị ung thư vú
166
124
(8506 x 62.2/12)
44089
(8102 x 61.2/2)
41320
166/44089
0.00377
124 / 41320
0.00300
Số năm-người (person-years)
Tỉ lệ phát sinh tính trên năm-người
•
Phân tích: Độ khác biệt giữa hai nhóm:
D = 0.00377 – 0.003 = 0.00076
•
Sai số chuẩn của D:
SE 
x1
x2


2
2
N1 N 2
166
 44089 
2

124
 41320 
2
 0.000397
Phân tích hai tỉ lệ phát sinh (incidence)
HRT
Placebo
Số đối tượng
8506
8102
Thời gian theo dõi (tháng)
62.2
61.2
Số phụ nữ bị ung thư vú
166
124
(8506 x 62.2/12)
44089
(8102 x 61.2/2)
41320
166/44089
0.00377
124 / 41320
0.00300
Số năm-người (person-years)
Tỉ lệ phát sinh tính trên năm-người
•
Phân tích: Độ khác biệt giữa hai nhóm:
D = 0.00377 – 0.003 = 0.00076
•
Sai số chuẩn của D: SE = 0.000397
•
Kiểm định Z
Z = D / SE
Z = 0.00076 / 0.000397 = 1.92
Vì Z < 1.96, chúng ta kết luận rằng độ khác biệt về tỉ lệ phát sinh giữa hai nhóm
không có ý nghĩa thống kê
Ước tính khoảng tin cậy 95% cho hai tỉ lệ phát sinh
HRT
Placebo
Số đối tượng
8506
8102
Thời gian theo dõi (tháng)
62.2
61.2
Số phụ nữ bị ung thư vú
166
124
(8506 x 62.2/12)
44089
(8102 x 61.2/2)
41320
166/44089
0.00377
124 / 41320
0.00300
Số năm-người (person-years)
Tỉ lệ phát sinh tính trên năm-người
•
Phân tích: Độ khác biệt giữa hai nhóm:
D = 0.00377 – 0.003 = 0.00076
•
Sai số chuẩn của D: SE = 0.000397
•
KTC95%: 0.00076 + 1.96x0.000397 =
-0.00002 đến 0.00154
Tức khác biệt khoảng 0.01 đến 1.5 trên 1000 năm-người
Phân tích hai tỉ lệ
Giới thiệu odds và odds ratio
Nghiên cứu bệnh chứng
•
Ví dụ 5: Hút thuốc lá và ung thư phổi (Doll et al 1950). Một nghiên cứu bệnh
chứng (case-control study) gồm 2 nhóm đối tượng: nhóm 1 gồm 60 bệnh nhân
ung thư phổi và nhóm 2 gồm 60 đối tượng không ung thư. Số liệu tóm lược như
sau:
Ung thư phổi (K)
Control (C)
Hút thuốc lá
41
28
Không hút thuốc lá
19
32
•
Trong nhóm K, có 68% (41/60) người hút thuốc lá; trong nhóm C tỉ lệ này là 47%
(28/60).
•
Câu hỏi: Số liệu này có đủ bằng chứng để phát biểu rằng có mối liên hệ giữa cắt
ống tinh và ung thư tiền liệt tuyến
Giới thiệu odd
• Odd = một danh từ không có trong tiếng Việt và Latin!
• Odd phản ảnh khả năng của hai sự kiện. Nếu p là xác suất
ung thư, thì 1 – p là xác suất không bị ung thư.
Odd = p / (1 – p)
• Nếu odd = 1, nguy cơ mắc ung thư bằng nguy cơ không mắc
bệnh ung thư;
• Nếu odd < 1, nguy cơ mắc ung thư thấp hơn nguy cơ không
mắc bệnh ung thư;
• Nếu odd > 1, nguy cơ mắc ung thư cao hơn nguy cơ không
mắc bệnh ung thư.
Ví dụ về odd
•
Ví dụ 5 (tiếp tục)
Ung thư phổi (K)
Control (C)
Hút thuốc lá
41
28
Không hút thuốc lá
19
32
2.16
(41 / 19)
0.88
(28 / 32)
Odd hút thuốc lá
Giới thiệu odds ratio
• Odds ratio (OR) là tỉ số của hai odds
Ung thư phổi (K)
Control (C)
Hút thuốc lá
41
28
Không hút thuốc lá
19
32
2.16
(41 / 19)
0.88
(28 / 32)
Odd hút thuốc lá
Gọi O1 là odd hút thuốc lá trong nhóm K, và O2 là odd hút thuốc trong
nhóm C. OR được định nghĩa như sau:
OR 
O1
O2
2.16  41 32 
OR 

  2.47
0.88  28 19 
Odd mắc ung thư phổi trong nhóm hút thuốc lá cao gấp 2.5 lần so
với nhóm không hút thuốc lá.
Vấn đề là: OR này có ý nghĩa thống kê hay không ?
Tính khoảng tin cậy 95% của OR
• Rất khó tính sai số chuẩn (SE) của một tỉ lệ hay tỉ số.
• Do đó, chúng ta phải sử dụng một thuật toán gián tiếp (mẹo!)
– Thay vì tính SE cho OR, chúng ta tính SE cho logarithmic OR.
Bệnh
Chứng
Phơi nhiễm
a
b
Không phơi nhiễm
c
d
OR 
ad
bc
L  log OR
1 1 1 1
SE  L  
  
a b c d
Khoảng tin cậy 95% của L = L + 1.96 x SE(L)
Khoảng tin cậy 95% của OR = exp[L + 1.96 x SE(L)]
Tính khoảng tin cậy 95% của OR
• Ví dụ 5 (tiếp tục):
Ung thư phổi (K)
Control (C)
Hút thuốc lá
41
28
Không hút thuốc lá
19
32
2.16
0.88
Odd hút thuốc lá
OR 
2.16  41 32 

  2.47
0.88  28 19 
L  log  2.47  0.9027
SE  L  
1 1 1 1
  
 0.3795
41 28 19 32
Khoảng tin cậy 95% của L = 0.9027 + 1.96 x 0.3795
= 0.159 đến 1.646
Khoảng tin cậy 95% của OR = exp(0.159) đến (exp(1.646)
= 1.17 đến 5.19
Trình bày kết quả odds ratio
Yếu tố nguy cơ
Odds ratio
95% CI
Hút thuốc lá
2.47
1.17 – 5.19
Thiếu vận động
x.Xx
x.xx – x.xx
Odd mắc bệnh ung thư phổi trong nhóm hút thuốc lá cao gấp 2.5 lần so
với odd trong nhóm không hút thuốc lá, và độ khác biệt này có ý nghĩa
thống kê vì khoảng tin cậy 95% không hàm chứa 1 (KTC95%: 1.2 đến
5.2)
Tỉ số nguy cơ
Relative risk)
Tỉ số nguy cơ (ví dụ 4 tt)
HRT
Placebo
Số đối tượng
8506
8102
Thời gian theo dõi (tháng)
62.2
61.2
Số phụ nữ bị ung thư vú
166
124
44089
41320
0.00377
0.00300
Số năm-người (person-years)
Tỉ lệ phát sinh tính trên năm-người
•
Tỉ lệ phát sinh (incidence) là một “đo lường” về nguy cơ
•
Nguy cơ ung thư ở nhóm HRT là 0.00377 và nhóm giả dược 0.003
•
RR – relative risk – chỉ đơn giản là tỉ số của hai nguy cơ
0.00377
RR 
 1.254
0.00300
Nguy cơ ung thư vú ở nhóm HRT cao hơn nhóm giả dược 25.4%.
Câu hỏi: tỉ số nguy cơ này có ý nghĩa thống kê hay không ?
Ước tính khoảng tin cậy 95% cho RR
• Không thể trực tiếp ước tính sai số chuẩn (SE) cho RR
• Phải tính gián tiếp:
– Hoán chuyển RR sang L = log(RR)
– Tính sai số chuẩn cho L
– Tính KTC95% cho L
– Hoán chuyển ngược lại KTC95% cho RR
Ước tính khoảng tin cậy 95% cho RR
HRT
Placebo
Số đối tượng
8506
8102
Thời gian theo dõi (tháng)
62.2
61.2
Số phụ nữ bị ung thư vú
166
124
44089
41320
0.00377
0.00300
Số năm-người (person-years)
Tỉ lệ phát sinh tính trên năm-người
RR 
0.00377
 1.254
0.00300
L  log  RR  log 1.254  0.2268
SE  L  
1 1
1
1



 0.1187
x1 x2
166 124
Khoảng tin cậy 95% của L = 0.2268 + 1.96 x 0.1187
= -0.0058 đến 0.4595
Khoảng tin cậy 95% của OR = exp(-0.0058) đến (exp(0.4595)
= 0.99 đến 1.58
Trình bày kết quả relative risk
Yếu tố nguy cơ
RR
95% CI
Sử dụng HRT
1.25
1.00 – 1.58
Yếu tố 2
x.Xx
x.xx – x.xx
Nguy cơ mắc bệnh ung thư vú trong nhóm HRT tăng 25% so với nguy
cơ trong nhóm chứng, và độ khác biệt này có thể ý nghĩa thống kê
(KTC95%: 1.0 đến 1.58)
So sánh odds ratio và relative risk
So sánh RR và OR: ví dụ 4 (tt)
HRT
Placebo
Số đối tượng
8506
8102
Số phụ nữ bị ung thư vú
166
124
Số phụ nữ không bị ung thư vú
8340
7978
Phân tích bằng OR
Phân tích bằng RR (không tính đến thời gian)
OR = (166 x 7978) / (124 x 8340) = 1.28
RR = (166 / 8506) / (124 / 8102) = 1.275
L = log(OR) = 0.247
L = log(OR) = 0.243
SE = 0.1197
SE = 0.118
KTC95% của L: 0.01267 đến 0.482
KTC95% của L: 0.0124 đến 0.4736
KTC95% của OR: 1.01 đến 1.62
KTC95% của OR: 1.01 đến 1.60
Kết luận: có ý nghĩa thống kê
Kết luận: có ý nghĩa thống kê
Cẩn thận:
khác biệt giữa OR và RR
Vài khác biệt giữa OR và RR
•
•
•
•
•
•
•
OR là tỉ số giữa hai odds (không
phải nguy cơ)
Khó diễn dịch
OR có thể ước tính cho bất cứ
mô hình nghiên cứu nào
OR là ước số của RR
Khi tỉ lệ bệnh thấp (<0.10), OR
rất gần với RR.
Khi tỉ lệ bệnh > 0.10, OR overestimate RR
Nếu OR = 2, không thể phát
biểu rằng “nguy cơ mắc bệnh
tăng gấp 2 lần” (chỉ có thể nói
“odd mắc bệnh tăng gấp 2 lần).
•
•
•
RR là tỉ số giữa hai tỉ lệ hay hai
nguy cơ
Dễ diễn dịch
RR chỉ có thể ước tính cho
nghiên cứu xuôi thời gian
(longitudinal study)
Cẩn thận khi diễn dịch OR
Số bác sĩ đề nghị
thông tim
Số bác sĩ không đề
nghị thông tim
w - Bệnh nhân da
trắng
652
68
b - Bệnh nhân da đen
610
110
Nhóm
Phân tích bằng OR:
Phân tích bằng RR:
Odd thông tim
nhóm da trắng : ow = 652/68 = 9.59
nhóm da đen: ob = 610/110 = 5.545
Tỉ lệ thông tim
nhóm da trắng: p1 = 652/720 = 0.906
nhóm da đen: p2 = 610/720 = 0.847
Odds ratio:
OR = 9.59 / 5.545 = 1.72
Tỉ số nguy cơ:
RR = 0.906 / 0.847 = 1.07
Tác giả cho rằng tỉ lệ thông tim ở bệnh
nhân da trắng cao hơn bệnh nhân da
đen 72%!
Thật ra, mức độ khác biệt chỉ 7%!
Tóm lược
• Ước tính tỉ lệ lưu hành hay tỉ lệ phát sinh và KTC95:
dựa vào luật phân phối chuẩn.
• So sánh hai nhóm:
– Kiểm định Z
– Odds ratio và relative risk
– RR chỉ sử dụng cho các nghiên cứu xuôi thời gian; OR sử
dụng cho bất cứ mô hình nghiên cứu nào
• Cẩn thận về khác biệt (ý nghĩa) giữa OR và RR!