版本B9调查设计与资料分析

Download Report

Transcript 版本B9调查设计与资料分析

第九章 调查设计与资料分析
(Survey Design)
观察研究的概念
• 研究者只是客观的记录研究对象某些指
标(如年龄、性别、病情、疾病的归
转) ,对研究对象未施加任何干预措施,
这种研究方法称为调查(survey)或观
察性研究。
观察研究目的和任务
• 调查研究可分为描述性研究和分析性研究。
• 描述性研究的主要特点和任务:
• 是了解研究对象某特征(如疾病、健康状
态等)在人群中的分布和发生强度的描述。
为进一步研究提供依据和线索。
• 分析性研究的主要特点和任务:
• 通过对照研究,探索病因和验证病因假说。
第一节、观察研究设计的内容
•
•
•
•
•
一.确定研究的目的及意义
二、确定调查的方法
1.方法:现况调查或队列调查或病例对照
2.方式:抽样或普查
三、确定调查对象(样本例数)、调查的指标、
调查的范围
• 四、制定调查表(调查工具)
• 五、调查的组织工作(调查员的培训、质量控制
方法、各自的职责等)
• 六、时间进度的安排
• 注意因果关系在统计分析上的偏倚
混杂因素在分析结果的偏倚
• 例5:某人探讨肝胆病人术后感染与危险因素的关系,
作者记录了病人的年龄、手术时间、术后引流时间等
6个因素,分别用6个2×2分类表,计算各因素与感染
的X2检验。作者结论:6个因素都与术后感染有关。
•
•
感染与引流时间的关系
• 病人
>3小时
≤3小时 合计
• 有感染
90
50
140
• 无感染
120
140
260
•
OR= 2.1
χ2=12
P<0.01
按年龄分层后引流时间与感染
的关系
≤60岁
>60岁
病人 >3小时 ≤3小时
有感染 75
无感染 80
OR=0.9 χ2=0.3
20
20
病人
有感染
无感染
OR=1
>3小时
≤3小时
15
40
30
120
χ2=1.2
影响因素间相互有关系,成为
结果的混杂因素
•
有感染
•
>60岁 ≤60岁
• >3小时 75
15
• ≤3小时 20
30
• 合计
95
45
•
OR=7.5
无感染
>60岁
≤60岁
80
40
20
120
100
160
OR=12
• 本例资料较好的统计处理方法是采用分层方法
2
计算Mantel-Haenszel 的
和Logistic回归方
 MH
法,调整危险因素的相互干扰对结果的影响,
找出引起感染的危险因素。
• Logistic回归的结果
•
•
•
•
•
变量
B
年龄 1.134
引流 0 .161
时间
Wald
19.375
.392
Sig.
.000
.531
Exp(B)
3.107
1.175
第二节、现况调查
• 现况调查属描述性研究。
• 又称横断面研究(cross-sectional study)。
常采用普查或抽样调查的方法获取资料。
• 现况调查:是指在特定时间对某一范围
内(总体或样本)的观察对象的某事物
(如疾病患病、卫生服务)存在的现况
进行调查 。
•
•
•
•
•
•
•
•
•
•
一、现况调查研究的几个概念
(155页)
1.总体的规定
根据研究目的,确定调查对象的总体。
例:某区40岁以上人群高血压患病率情况
2.总体轮廓的了解
研究对象总数、性别、年龄、职业等因素的构成情况
3.获取资料的方式:抽样调查或普查(取决总体大小)
如抽样调查采用什么抽样方法、样本例数估计
4.观察单位和抽样单位是什么?
观察单位:调查的“个体” ,例讲义
抽样单位和抽样框:抽样单位不一定等于观察单位
二、现况研究中常用的
抽样方法(156页)
•
•
•
•
•
•
•
•
•
•
抽样原则:使样本对总体有代表性
进行抽样时,抽样例数n已确定 :具体见讲义152页
样本例数估计(略)
抽样方法:
(一)概率抽样
1.简单随机抽样
2.系统抽样(等间距抽样):N/n=间距
3.整群抽样
4.分层抽样
(二)非概率抽样(略)
• 例1:简单随机抽样:在N=10,设n=5 , 随机抽样,
规定随机数秩=1-5为抽样对象,首先将全部对象编号,
• 对象编号 1 2
3
4
5
6
7 8 9 10
• 随机号 64 92 17 42 9 35 22 81 54 26
• 秩
2
1
5
3
4
•
•
•
•
例2:系统抽样(等间隔抽样)
如N=100 ,抽样n=10 ,将全部对象编号,
确定样本的间隔数:间隔数=N/n=10,
取0-9的随机数中取一个,如随机数=4,第1间隔抽4
号,第2间隔中抽第1间隔随机数+10,即4+10=14
• 第3间隔中抽第2间隔随机数+10,即14+10=24
• 第4间隔中抽第3间隔随机数+10,即24+10=34
• 类推
• 例3:整群抽样:
• 将总体分为Ni群并编号,采用随机抽样方
法抽取n群,对抽到群的对象全部调查。
• 例4:分层抽样;
• 如某因素(城乡人数)在总体中比例差别
大,总体按某因素分层(城市层、农村
层),在各层中抽样的方法为分层抽样
(层内可选择整群、简单随机、系统抽样
的方法)。
三、现况调查(患病率调查)模式
•
•
•
•
•
•
•
研究模式 时间:某年某时点
对象获
总体 取方法
检查某疾病 计算
普查
有
某人群 或抽样 对象
患病率
无
(阳性率)
现况调查表示某年时点疾病的水平
现况调查
某因素与疾病关联及患病率调查模式
•
•
• 总体
抽样
• 某人群
•
•
某因素 检查某疾病
有
有
无
研究对象
无
有
无
调查时点(期)
6月
7月
例:现况研究实例
•
•
•
•
•
•
•
•
•
•
•
某企业某次体检不同年龄、性别高血压患病情况
年龄
男
女
岁 检查 病例 患病 检查 病例 患病
人数
数 率% 人数
数
率%
20333 5
1.5
712
4
0.6
30301 4
1.3
142
9
6.3
40517 64 12.4
185
27
14.6
50576 93 16.1
61
9
14.8
60以上 12 10 83.3
合计 1739 176 10.1
1100
49
4.4
某企业不同血脂水平与高血压患病关系
(现况调查)
•
•
•
•
•
•
•
•
高血压
血脂
检查
病例 患病
水平
人数
数
率%
低
634
9
1.42
高
1093
157
14.36
合计
1727
166
9.61
现况调查:暴露与疾病的因果时序关系不清楚
(一般在病因的推论上说服力不强)。
第三节、队列研究设计与分析
(cohort study )
• 一、基本概念:
• 将被观察人群,按是否接触可能的致病因素或措施
自然分成两个群体,随访后比较各群体新发生例数
(发病率)或效应的差别。
• 应用范围:用于研究可能的致病因素(暴露因素)
或措施对固定人群的影响。主要用于病因学研究、
疗效观察、影响疾病预后的因素分析。
队列研究模式:
是由因推断果的研究
将来(研究
结束)
研究开始
研究
人群
按研究暴
露因素自
然分组
追踪观察
结果(某
疾病)
有(a)
无研究某
病的人群
或无某结
果病人
有暴露组
无暴露组
无(b)
有(c)
无(d)
二、队列研究类型
1.回顾性
队列研究
2.前瞻性
队列研究
开始观
察时间
开始观
察时间
过去
检测方法、诊断、
结果判断、调查记
录项目等因素事前
组间统一。
现在
纳入
病例
将来
前瞻性
随访结果
研究结束
纳入
病例
回顾
随访结果
研究结束
三、研究对象的选择
• 资料来源:人群资料、 医院资料
• 原则:
• 1.暴露组的对象:暴露因素为可疑(原因)与结
果(疾病)有关的因素(如吸烟),具有某暴露
因素的人群。
• 2.非暴露对象(对照组):无该暴露因素(或有
暴露低剂量)的同总体人群。
• 3.暴露与非暴露人群最好来自同一研究人群(例:
某工厂、社区、某疾病人群)
• 4.被调查的对象要有足够的观察时间,使危险
因素的结果表现出来。
• 5.暴露与对照要有一定的观察例数,队列人数
的失访,会影响研究结果(样本例数估计见讲
义,略)。
例:最著名的队列研究(Richard Doll 爵士)
吸烟与各种死亡的关系
•
•
•
•
•
•
•
比较组 观察人数 死亡
不吸烟
轻度吸烟
中度吸烟
重度吸烟
合计
40000
追踪观察20-40年
生存
死亡率%
例、队列研究
• 糖尿病的并发症研究(美国印地安人视网膜发病率的
研究)
• 开始对象
检查12个
10-16年 观察视网膜
•
可疑指标 (随访)
病情况
• 无视网膜
糖尿病时间
有
• 病的糖尿病 年龄、性别
无
• 病人
血压、胆固醇
•
禁食葡萄糖等
• 暴露因素:血压:高、低
• 对照组:为内对照方式。
胆固醇:高、低
例:队列研究的实例
• 某医院从1966-70年开始对卒中病人进行正规抗
凝治疗,了解该法一年生存率是否优于非正规
抗凝疗效。
• 对象
暴露因素
结果
•
(比较组)
活
• 卒中病人
正规治疗
死
• (1966-70年)
• 卒中病人 非正规治疗
活
• (1961-65年)
死
研究开始
研究结束
死亡
死亡
生存
失访
生存
死亡
1980年
1990年
肿瘤随访期间病例的生存时间(发病)情况
五、队列研究资料的分析
• 统计方法:
• 1.单因素分析:
• 计数数据:计算各组死亡率、发病率、
RR(相对危险度)、AR值和 X2检验
• 计量数据:均数、标准差,t、F检验等
• 2.多因素分析:
• 多元回归和Logistic回归、COX回归(略)
队列研究资料单个暴露因素数据统计分析
•
•
•
•
•
数据整理为四格表
暴露因素 研究的疾病
有
无
有
a
b
无
c
d
合计
a+b
c+d
发病率
a/a+b
c/c+d
• 评价暴露因素与疾病关系的统计指标:
• 1.计算暴露因素有和无两组发病率或死亡率
• 2.计算暴露与疾病的联系程度指标:RR、AR
队列研究资料
• 描述暴露(Exposure)因素与疾病结果关联强度
的统计指标:RR、AR
• 1.相对危险度(relative risk,RR)
有暴露因素组的发病率 PE
•
RR 

无暴露因素组的发病率 P0
• RR表示有暴露因素的人患某疾病是无暴露因素人也患
该病的相对危险性倍数。
成组设计的数据及RR计算**
例 追踪血清中儿茶酚胺水平与冠心病关系
•
•
•
•
•
•
•
儿茶酚
冠心病结果
冠心病
胺水平 有
无
合计 发病率%
高
27(a) 95(b) 122
22.13
低
44(c) 443(d) 487
9.03
合计
71
538
609
1)RR计算
a / a  b 27 / 122
RR 

 2.45
c / c  d 44 / 487
RR的意义**
• RR与暴露的关系评价
• RR值>1即危险性增加,暴露因素与疾病有关联.
• RR值<1,表示暴露因素与疾病有关联.有暴露因素的患疾
病的相对危险性减少(暴露有保护作用)。
• RR值=1,意味无论暴露出现与否,与疾病关系不大.
• 注:1)一般总是暴露因素的高水平/低水平,
• 暴露与疾病关联程度取决RR的值,RR值越大,暴露对
疾病的作用越大。
2)RR的统计检验和可信区间
•
•
•
•
样本RR统计检验方法:
Mantel-Haenszel的X2检验
H0:RR=1(理论上暴露与疾病无关系)
H1:RR1 (暴露与疾病有关系)
2
2
(
ad

bc
)
(
N

1
)
(
27

443

95

44
)
(609  1)
2
 

 16.22
n1n0 m1m0
71 538  487 122
  16.22 
2
2
0.01,1
 6.63, p  0.01
结论:本例的暴露与疾病有关系(P<0.01),儿
茶酚胺高水平患冠心病是低水平的2.45倍。
3)总体RR的可信区间估计
• 总体RR的95%的可信区间估计(165页)
(1
1.96
2
RR
 2.45
)
1.96
(1
)
16.22
 2.45
0.5133
 2.45
1.4867
 1.58  3.79
• 结论:血清中儿不同茶酚胺水平与冠心病发病有关
系,高水平组冠心病的发病率为低水平组的
RR=2.45,RR的95%可信区间估计为1.58-3.79倍。
2、归因危险度(Attributable Risk,AR)
•
•
•
•
1)AR的计算:
AR=暴露组的发病率–非暴露组的发病率
例:AR=22.1%-9.0%=13.1%
AR意义:反映扣除非暴露因素的作用,归因于由暴露
因素引起的发病率,本例为13.1%。
• 2)相对归因危险度(AR%)
PE  P0 0.221 0.09
AR% 

 52.28%
PE
0.221
• 反映归因暴露因素的发病率所占的相对比例。即暴露
组的发病率22.1%中,有59.28%由暴露因素引起。
六、队列研究的优缺点(161页)
• 优点:
• 1.对病因的研究为前瞻研究,其因果关系时
序明确,结果说服力强。
• 2.可估计某暴露因素的发病率、死亡率。
• 缺点:
• 例数多(考虑失访),研究所花时间长。
• 费用大(人力、物力,财力),指人群研究。
.第四节、病例对照研究
(case-control study)
• 一、基本概念
• 是一种回顾性具有对照的调查研究。调查
和比较患有某病的病例组和不患有某病的
对照组在暴露于某些特征上(特征可能是
病因或是与疾病有关的因素,通称为暴露
因素)的对比,从而说明暴露因素与疾病
的联系。为病因提供重要线索。
研究模式:是由果
•
•
•
•
•
•
•
•
•
•
•
•
调查方向
研究
人群
到因的模式
现在
回顾过去
某病(果) 暴露因素
人数
自然分组 (可能原因)
有某结果
在某社区 ( 病例组)
有
a
无
b
或医院
抽样
无某结果
(对照组)
有
c
无
d
二、病例和对照的选择
•
•
•
•
•
•
•
数据的来源:
1.病例与对照均来自同医院(数据容易获取)
病例组:某病病人(或某疾病的结局,如死亡)
对照组:非某病病人(同疾病的结局,不死亡)
回顾分析,阐述结局的原因
病例
对照
例:妊娠期母亲抽烟与胎儿先天畸形关系(畸形、非畸
形
• 妊娠期使用庆大霉素与先天聋哑的关系
• 心肌梗死部位与心律失常的关系(失常,不失常)
• (病例和对照组均为心肌梗死病人)
• 2.病例和对照组均来自人群(数据获取较麻
烦)
• 原则:病例组的病例(果)有严格诊断标准
• 困难:对照组的选择(见讲义167页)
• 数据收集:可按成组设计和配对(病例与对
照1:1或1:2)设计收集数据。
• 三、病例对照研究的样本例数估计
(略)
病例和对照均来自医院
•
•
•
•
•
•
•
•
比较组
暴露因素(E-吸烟)
有
无
a
b
a+b
病例组
(肺癌)
对照组
c
d
c+d
(非肺癌
其他病人)
原则:对照组病人不应有与暴露因素有
关的疾病,如慢支病人。
四、病例对照资料结果单因素统计分析**
病例对照资料的四格表
• 比较组
•
• 病例组
• 对照组
•
某暴露因素(吸烟)
有(E1)
无(E0)
a(40)
b(60)
c(20)
d(80)
a+c
b+d
合计
a+b=100
c+d=100
• 该设计无法计算各组发病率,常计算暴露与疾病的
关联指标OR值、2。说明暴露对疾病的影响。
ad
OR 
bc
OR值(odds ratio)的计算和含义
P(病例/ E1)/ P(对照/ E1) odds1
OR 

P(病例/ E0)/ P(对照/ E0) odds0
(
a
/
a

c
)
/(
c
/
a

c
)
a
/
c
ad
• OR 


(b / b  d ) /(d / b  d ) b / d bd
• OR含义:有暴露(风险)因素时病例与
对照的优势比(odds1)与无暴露因素的
优势比(odds0)的比值。
• 或:OR:病例组中有某暴露因素比例是对照
组中有该因素比例的比值或优势比
• 例:有人观察100例冠心病的男性患者,
发现其中有60人抽烟,即冠心病人抽烟
比例60%,
• 作者认为冠心病的发生与抽烟有关系。
OR值的意义**
• OR值>1表示有暴露因素的人患某疾病的机会或优
势增加.
• OR值<1,表示有暴露因素的人患疾病的机会(或优
势)减少
• OR值=1,意味无论暴露出现与否,与疾病关系不大.
• 暴露因素对疾病的影响大小,取决OR值大小
• 注:样本计算的OR有无意义,用卡方做检验,如
P<0.05, OR 有统计意义,表明暴露与疾病有关系。
• 讲义表9-2 缺铁性贫血与儿童智力的病
例对照研究
•
智力低下
• 缺铁性贫血 有
无
合计
•
有
110
25
135
•
无
140
225
365
• 合计
250
250
500
ad 110  225
OR 

 7.07
bc
25  140
• 样本OR的Mantel-Haeszel X2检验
• H0: 总体的OR=1,缺铁性贫血与儿童智
力低下无关联
• H1:总体的 OR≠1,有关联
(ad  bc) ( N  1)
 
n1 n0 m1 m0
2
2
(110  225  25  140) (500  1)

 73.17
250  250  135  365
2
73.17  02.005,1  7.88, p0.005
• 3.总体OR的95%的可信区间估计
(11.96 /  m2 h )
OR
(11.96 / 73.17
 7.07
 4.52  11.07
• 4.结论:经500例的病例对照研究,缺铁性贫血
与儿童智力的正常与否有关联,其OR=7.07,
p<0.005,即有缺铁性贫血的儿童患有智力低
下的机会是无贫血儿童的7倍,95%的CI为
4.52-11.07。
例: 母亲怀孕期间服用反应停与胎儿
肢体缺陷的关系
• 比较组
•
• 畸形组
• 对照组
服用反应停史(X)
有
无
12(a) 38(b)
2 (c) 88(d)
ad 12  88
OR 

 13 .89
bc 38  2
H0:OR=1,暴露与疾病无关系
a+b
c+d
公式14-18
  13.5, p0.01
2
H1:OR1,暴露与疾病有关系
95%可信区间
(11.96 / 13.5 )
OR
 3.4  56.5
五、病例对照研究设计优缺点
• 优点:资料(病例和对照)获取容易,
工作量(人力、物力、财力)小、研究
周期短,出结果快。
• 缺点:由于调查对象在回顾暴露(暴露
因素可能不真实,即暴露的偏倚)或对
照的选择(选择的偏倚)的影响,结果
(暴露因素危险度的估计:OR)可信度
低于队列研究。