医学统计基础

Download Report

Transcript 医学统计基础

医学统计基础
张桢
统计学与医学统计学

统计学是一门处理数据中变异性的科学与
艺术,目的是求得可靠的结果。

将统计学的思维方法引入医学实践,已经
渗透到医学研究和卫生决策之中。

目前医学研究者们对其越加重视,这正是
统计学经200年发展并与医学磨合的结果。
经典例子


Louis(1787-1827)医师曾在伤寒研究收
集了1822-1827年5年的患者资料。为了研
究放血治疗伤寒的可靠性,其观察了52例
重病员,88例恢复期病员。结果表明:放
血者平均病期32天,不放血者31天。
Louis还研究了放血治疗咽颊炎、肺炎,发
现其无效。另外,其对传统手术与碎石术
的对比告诉人们,前者死亡率21.6%,后者
2.3%。
得到的启示

由于人类记忆的谬误,医生总是倾向于较
多地记住成功的案例,而忘记不成功的。

因此,“用事实说话”是非常重要的!!

用数据表达疗效、说明问题和“或多或
少”、“罕见”、“频繁”之类用词的区
别是有巨大区别的!
史上案例1

美国于1954年实施了人类历史上最大规模、
花费最多的一次临床试验,旨在评价索尔
克(Salk)疫苗预防小儿麻痹或死于脊髓
灰质炎的效果。当时脊灰的年发病率约
1/2000。有180万儿童参与,直接花费超过
500万元。开始遇到许多阻力,最后有约
1/4儿童得到随机化,证实了Salk疫苗的效
果。
史上案例2

上世纪60年代初,药物“反应停”(酞胺
哌啶酮)曾引起一次胎儿畸形的暴发。
FDA发现有1267名医生共开处方给19822
名患者,服用了250余万片药片。FDA的专
业性受到了公众的质疑,国会与总统通过
了1962药物修正案。这项法律把FDA推
上了医疗领域中的有效性的最终仲裁者。
从此,FDA制定了一整套制度,使之成
为药物疗效的标准办法。德国的生产厂家
因此向世界赔付大量金钱,终致破产。
统计学的重要性

经过以上几个颇有代表意义的例子,我们
知道了:医学统计学就是如何用统计的眼
光与思维去采取医学手段的一门学科。其
目的是采取有价值的、正确的治疗方法,
得到最好的医疗实践。

医学统计学已经深入到了医疗卫生实践当
中,甚至自觉不自觉地被我们应用着。
具体举例
1、发表论文的要求
 2、技术进步的要求
 3、科学研究的要求
 4、临床带教的要求

早期的统计学

方差的公式之一:
S2=Σ(X-X) 2
n-1

这是看起来不算复杂的一个公式。事实上,
比这长上数倍的公式相当多见。所以,对
统计学,许多医师都是望而生畏。
日常工作的统计学



远离高深的高等数学困扰(统计学涉及高
等数学的每个学科:代数、几何、微积分、
解析几何、概率论、拓扑数学、模糊数学
等等),但日常我们接触到的统计学符号
不外这些:
检验、分组、随机、卡方、t、p、显著性差
异、率,等等。
今天让我们一起复习一下这些符号。
小问题
当我们看到一份血常规报告单,第一行:
WBC:6.2 109/L (4-10)
这表示什么?如果是16.2*109/L,又提示什么?

为什么要这样想?
这名患者一定不正常吗? 10.2*109/L呢?
4000~10000是怎么来的?
临床资料的分类




一类来说,临床资料(变量)可以分为定
性与定量两种。
定性变量应以考虑为“没有单位”。这其
中又包括分类(名义)变量与有序变量。
举例:
定量变量可以想成“有单位”。分为:离
散型变量与连续型变量。
定性资料(计数资料)与定量资料(计量
资料)的认识方法与分析方法是不同的。
定量资料的描述与分析




强调定量资料的特征。
举例说明:我院外剥内扎术后患者的住院
天数。考察一个月,得到一组数据。
如何去认识?怎样去描述?
直观地看图:
0
11
图解





图上连成曲线的是一个一个的点,对应着一个个
的数据。
这些点所在的位置,称为“分布”。
研究这些分布内在规律、相互联系的学问就是统
计学。
统计学中阐述这些“分布”情况的内容,称为
“统计描述”。
上图是统计描述中最重要的一种分布:正态分布。
图解


正态分布的特点:与样本量的关系非常密
切。样本量越大,越接近理想的、标准的
正态分布。
在实际中,我们常常通过抽样去了解整体。
这就是为什么我们要做统计分析的原因:
抽样的情况不可避免地带来误差。如何减
小抽样误差是重要的研究内容,也是统计
学的重要意义所在。
图解




无论是红线或白线,都属于正态分布。所不同的
是哪个更接近标准正态分布而已。
但白线与红线总是不同的。我们怎样去形容、衡
量其间的区别?这就需要了解“参数”。
参数可以通过数学的办法进行推演。记录一个正
态分布,一般通过两方面来进行,即集中趋势与
离散趋势。
集中趋势包括均数、分位数、中间数、众数等;
离散趋势包括极差、间距、方差、标准差、变异
系数等。
对正态分布最重要的参数



1、均数。这是集中趋势的指标,反映数
据的一般状态,确定波峰“地理位置” 。
2、标准差。这是离散趋势指标,反映数
据的可信状态,是方差的平方根。(方差
的计算方法)
一般来讲,描述一个计量资料(基本符合
正态分布),常常用均数加减一个标准差
来表示,记为X± S。如12.33 ±5.23天。
回忆一下这一张幻灯
当我们看到一份血常规报告单,第一行:
WBC:6.2 109/L (4-10)
这表示什么?如果是16.2*109/L,又提示什么?

为什么要这样想?
这名患者一定不正常吗? 10.2*109/L呢?
4000~10000是怎么来的?
现在,这个问题已经能得到基本的解答了。
检验
但是,我们的想法正确吗?经得起检
验吗?这就要交给检验来处理了。
 检验是采用统计学方法得出结论的过
程。不同的资料要采用不同的检验方
法进行分析。我们在撰写论文时最常
采用的检验大法称为“假设检验”。

假设检验

直白地说,假设检验就是通过假定一个理想化的
模型去进行推理。这就存在着两种可能:
1、推到后来发现这样推出来的结果是正确的
概率(可能性)很大,说明需要检验的数据与理
想化的模型基本没有差别,可以接受理论模型。
(通常我们称为H0)
2、发现推出来的结果是正确的概率很小(常
选择5%,即发生了小概率事件),说明不能接受
理论模型(原假设),而要选择相信不同情况。
(通常我们称为H1)
假设检验的举例说明



某商家宣称他的一批鸡蛋“坏蛋率为1%”。
为了对这批蛋的质量做出判断(1%?还是
高于1%?),我们从中随机抽取5个做检
查,结果:4个好蛋,1个坏蛋。
根据这个结果,我们会怎么想?
对他的话产生怀疑。因为在“坏蛋率为1%”
的前提下,5个蛋样品中出现1个坏蛋的机
会是很小的(0.049)。这种小概率事件的
发生,使我们对商家的话(前提条件)产
生质疑,得到“他的话不可信”的结论。
继续讲述



这一逻辑思维上升到统计理论,就是“小
概率事件在一次随机试验中不(大)可能
发生”的推断原理。
虽然这样推断也可能会错,因为在“坏蛋
率1%”的前提下,毕竟还有4.9%的可能性
真的就抽5个出1个、甚至更多的可能性。
但我们一般会认为这个可能很小,从而选
择与前提条件相反的结论。
这就是对未知事物进行判断、决策的规则。
假设检验


我们常常在专业期刊的论文中看到“p<0.05”
这样一个描述。现在我们可以解答他了: p
是“概率”的代号,这个符号是指我们要检
验的数据与原条件相符合的可能性是不足5%,
是小概率事件。
提示我们选择宁可相信其不同,得到统计学
支持。这个检验结果,我们常将其描述为
“有统计学意义”。有时我们会看到有人将
其描述为“有显著性差异”,这是不科学、
不正规的:这仅仅是统计学上的一次结论而
已。
假设检验下的常见检验方法


假设检验只为我们提供了一种思维的方法,
却并未涉及具体的操作步骤。
对待不同的数据类型,采用的具体检验步
骤不同。统计学家们为这些步骤起了不同
的名字,如t检验、 χ 2(卡方)检验、秩
和检验、Ridit分析等,而每种检验又分为
许多不同的使用标准,如配对t检验、独立
样本t检验; 校正χ 2 检验、Fisher精确概
率法,等等
最重要的两类检验法



最常见、最重要的两类方法是t检验与 χ 2
检验。这是对待临床中最多见的两类资料
而采用的方法。
其中t检验是针对满足方差齐性、正态分布
的计量资料的检验方法。
而χ 2检验则是满足计数资料的检验方法,
用在RxC行列表中,最多见的是2 x 2联表,
也称为“四格表”。
两种统计方法的比较



在当今有优秀的统计软件存在的情况下,
许多复杂的计算过程都被省略。我们要做
的就是选择正确的统计方法,不要犯错误。
因为χ 2检验的计算较简单,所以最多见
的错误也就出在这里。 χ 2检验不是万能
检验,就算是对满足使用要求的资料也要
计算理论频数,并非想象的那么简单。
有些投机的做法把t检验资料转变为χ 2检
验资料,看似灵巧,也是不可取的。
回顾



刚才提到的内容中,强调了正态分布的重
要性。这是因为一切类型的数据,无论计
数的还是计量的,在样本无限大的情况下,
都向正态分布逼近。
同样,具体的方法也就是从这些相同中的
不同里找出规律,加以总结,得出的结论。
不能把“假设检验”与“具体的检验方法”
相混淆。
生理正常值的来历:置信区间



均数确定后,按标准正态分布的规律,我
们可能估计两侧的范围区间。许多医学检
验的指标值,都是这么计算出来的。这个
区间,统计学称之为“置信区间”。
一般来讲,置信区间表示一种“把握性”,
而假设检验的p值表示一种“可能性”。举
例说明:
置信区间越可信,精确度就越低。这在我
们日常生活中,是怎么体现的?
休息:另一些注意点



统计学的表格要有规矩的,称为“三线
表”。其具体要求是不能有斜线与竖线。
比较数据分为直接数据与间接数据两种。
这两种数据的运用与侧重点是有区别的。
我们常常在“率”这个字眼儿上犯错误。
医学中的“率”字许多情况下是作为强度
单位出现的,如“发病率”。我们常说的
“率”,许多时候只能叫作“构成比”。
关于统计的一点思考



统计的思想,我们在日常生活中也不自觉
地在运用着。要上升到理论,学会使用,
还需要多思考,多复习。
医学统计学不是数学,不在乎算,只讲会
用。医学统计学也不是医学,不用背,也
不能替代治疗,只能对我们的日常工作做
指导、帮我们下决策。
某种意义上,其正起到“哲学”的作用。
结束语


统计是让人又恨又爱的一门重要学科。
学生才疏学浅,只想与老师们一同探研这
其中的乐趣。