医学统计基础

Transcript 医学统计基础

医学统计基础
张桢
统计学与医学统计学

统计学是一门处理数据中变异性的科学与
艺术，目的是求得可靠的结果。

将统计学的思维方法引入医学实践，已经
渗透到医学研究和卫生决策之中。

目前医学研究者们对其越加重视，这正是
统计学经200年发展并与医学磨合的结果。
经典例子


Louis（1787-1827）医师曾在伤寒研究收
集了1822-1827年5年的患者资料。为了研
究放血治疗伤寒的可靠性，其观察了52例
重病员，88例恢复期病员。结果表明：放
血者平均病期32天，不放血者31天。
Louis还研究了放血治疗咽颊炎、肺炎，发
现其无效。另外，其对传统手术与碎石术
的对比告诉人们，前者死亡率21.6%，后者
2.3%。
得到的启示

由于人类记忆的谬误，医生总是倾向于较
多地记住成功的案例，而忘记不成功的。

因此，“用事实说话”是非常重要的！！

用数据表达疗效、说明问题和“或多或
少”、“罕见”、“频繁”之类用词的区
别是有巨大区别的！
史上案例1

美国于1954年实施了人类历史上最大规模、
花费最多的一次临床试验，旨在评价索尔
克（Salk）疫苗预防小儿麻痹或死于脊髓
灰质炎的效果。当时脊灰的年发病率约
1/2000。有180万儿童参与，直接花费超过
500万元。开始遇到许多阻力，最后有约
1/4儿童得到随机化，证实了Salk疫苗的效
果。
史上案例2

上世纪60年代初，药物“反应停”（酞胺
哌啶酮）曾引起一次胎儿畸形的暴发。
FDA发现有1267名医生共开处方给19822
名患者，服用了250余万片药片。FDA的专
业性受到了公众的质疑，国会与总统通过
了1962药物修正案。这项法律把ＦＤＡ推
上了医疗领域中的有效性的最终仲裁者。
从此，ＦＤＡ制定了一整套制度，使之成
为药物疗效的标准办法。德国的生产厂家
因此向世界赔付大量金钱，终致破产。
统计学的重要性

经过以上几个颇有代表意义的例子，我们
知道了：医学统计学就是如何用统计的眼
光与思维去采取医学手段的一门学科。其
目的是采取有价值的、正确的治疗方法，
得到最好的医疗实践。

医学统计学已经深入到了医疗卫生实践当
中，甚至自觉不自觉地被我们应用着。
具体举例
１、发表论文的要求
 ２、技术进步的要求
 ３、科学研究的要求
 ４、临床带教的要求

早期的统计学

方差的公式之一：
Ｓ2=Σ(X-X) 2
n－１

这是看起来不算复杂的一个公式。事实上，
比这长上数倍的公式相当多见。所以，对
统计学，许多医师都是望而生畏。
日常工作的统计学



远离高深的高等数学困扰（统计学涉及高
等数学的每个学科：代数、几何、微积分、
解析几何、概率论、拓扑数学、模糊数学
等等），但日常我们接触到的统计学符号
不外这些：
检验、分组、随机、卡方、t、p、显著性差
异、率，等等。
今天让我们一起复习一下这些符号。
小问题
当我们看到一份血常规报告单，第一行：
WBC:6.2 109/L （４－１０）
这表示什么？如果是16.2*109/L，又提示什么？

为什么要这样想？
这名患者一定不正常吗？ 1０.2*109/L呢？
4000~10000是怎么来的？
临床资料的分类




一类来说，临床资料（变量）可以分为定
性与定量两种。
定性变量应以考虑为“没有单位”。这其
中又包括分类（名义）变量与有序变量。
举例：
定量变量可以想成“有单位”。分为：离
散型变量与连续型变量。
定性资料（计数资料）与定量资料（计量
资料）的认识方法与分析方法是不同的。
定量资料的描述与分析




强调定量资料的特征。
举例说明：我院外剥内扎术后患者的住院
天数。考察一个月，得到一组数据。
如何去认识？怎样去描述？
直观地看图：
０
11
图解





图上连成曲线的是一个一个的点，对应着一个个
的数据。
这些点所在的位置，称为“分布”。
研究这些分布内在规律、相互联系的学问就是统
计学。
统计学中阐述这些“分布”情况的内容，称为
“统计描述”。
上图是统计描述中最重要的一种分布：正态分布。
图解


正态分布的特点：与样本量的关系非常密
切。样本量越大，越接近理想的、标准的
正态分布。
在实际中，我们常常通过抽样去了解整体。
这就是为什么我们要做统计分析的原因：
抽样的情况不可避免地带来误差。如何减
小抽样误差是重要的研究内容，也是统计
学的重要意义所在。
图解




无论是红线或白线，都属于正态分布。所不同的
是哪个更接近标准正态分布而已。
但白线与红线总是不同的。我们怎样去形容、衡
量其间的区别？这就需要了解“参数”。
参数可以通过数学的办法进行推演。记录一个正
态分布，一般通过两方面来进行，即集中趋势与
离散趋势。
集中趋势包括均数、分位数、中间数、众数等；
离散趋势包括极差、间距、方差、标准差、变异
系数等。
对正态分布最重要的参数



１、均数。这是集中趋势的指标，反映数
据的一般状态，确定波峰“地理位置” 。
２、标准差。这是离散趋势指标，反映数
据的可信状态，是方差的平方根。（方差
的计算方法）
一般来讲，描述一个计量资料（基本符合
正态分布），常常用均数加减一个标准差
来表示，记为Ｘ± Ｓ。如12.33 ±5.23天。
回忆一下这一张幻灯
当我们看到一份血常规报告单，第一行：
WBC:6.2 109/L （４－１０）
这表示什么？如果是16.2*109/L，又提示什么？

为什么要这样想？
这名患者一定不正常吗？ 1０.2*109/L呢？
4000~10000是怎么来的？
现在，这个问题已经能得到基本的解答了。
检验
但是，我们的想法正确吗？经得起检
验吗？这就要交给检验来处理了。
 检验是采用统计学方法得出结论的过
程。不同的资料要采用不同的检验方
法进行分析。我们在撰写论文时最常
采用的检验大法称为“假设检验”。

假设检验

直白地说，假设检验就是通过假定一个理想化的
模型去进行推理。这就存在着两种可能：
１、推到后来发现这样推出来的结果是正确的
概率（可能性）很大，说明需要检验的数据与理
想化的模型基本没有差别，可以接受理论模型。
（通常我们称为Ｈ0)
2、发现推出来的结果是正确的概率很小（常
选择5%，即发生了小概率事件），说明不能接受
理论模型（原假设），而要选择相信不同情况。
（通常我们称为Ｈ１)
假设检验的举例说明



某商家宣称他的一批鸡蛋“坏蛋率为1%”。
为了对这批蛋的质量做出判断（1%?还是
高于1%?），我们从中随机抽取５个做检
查，结果：４个好蛋，１个坏蛋。
根据这个结果，我们会怎么想？
对他的话产生怀疑。因为在“坏蛋率为1%”
的前提下，5个蛋样品中出现1个坏蛋的机
会是很小的（0.049）。这种小概率事件的
发生，使我们对商家的话（前提条件）产
生质疑，得到“他的话不可信”的结论。
继续讲述



这一逻辑思维上升到统计理论，就是“小
概率事件在一次随机试验中不（大）可能
发生”的推断原理。
虽然这样推断也可能会错，因为在“坏蛋
率1%”的前提下，毕竟还有4.9%的可能性
真的就抽5个出1个、甚至更多的可能性。
但我们一般会认为这个可能很小，从而选
择与前提条件相反的结论。
这就是对未知事物进行判断、决策的规则。
假设检验


我们常常在专业期刊的论文中看到“p<0.05”
这样一个描述。现在我们可以解答他了： p
是“概率”的代号，这个符号是指我们要检
验的数据与原条件相符合的可能性是不足5%，
是小概率事件。
提示我们选择宁可相信其不同，得到统计学
支持。这个检验结果，我们常将其描述为
“有统计学意义”。有时我们会看到有人将
其描述为“有显著性差异”，这是不科学、
不正规的：这仅仅是统计学上的一次结论而
已。
假设检验下的常见检验方法


假设检验只为我们提供了一种思维的方法，
却并未涉及具体的操作步骤。
对待不同的数据类型，采用的具体检验步
骤不同。统计学家们为这些步骤起了不同
的名字，如t检验、 χ ２（卡方）检验、秩
和检验、Ｒidit分析等，而每种检验又分为
许多不同的使用标准，如配对t检验、独立
样本t检验；校正χ ２检验、Fisher精确概
率法，等等
最重要的两类检验法



最常见、最重要的两类方法是t检验与 χ ２
检验。这是对待临床中最多见的两类资料
而采用的方法。
其中t检验是针对满足方差齐性、正态分布
的计量资料的检验方法。
而χ ２检验则是满足计数资料的检验方法，
用在ＲxＣ行列表中，最多见的是2 x 2联表，
也称为“四格表”。
两种统计方法的比较



在当今有优秀的统计软件存在的情况下，
许多复杂的计算过程都被省略。我们要做
的就是选择正确的统计方法，不要犯错误。
因为χ ２检验的计算较简单，所以最多见
的错误也就出在这里。 χ ２检验不是万能
检验，就算是对满足使用要求的资料也要
计算理论频数，并非想象的那么简单。
有些投机的做法把t检验资料转变为χ ２检
验资料，看似灵巧，也是不可取的。
回顾



刚才提到的内容中，强调了正态分布的重
要性。这是因为一切类型的数据，无论计
数的还是计量的，在样本无限大的情况下，
都向正态分布逼近。
同样，具体的方法也就是从这些相同中的
不同里找出规律，加以总结，得出的结论。
不能把“假设检验”与“具体的检验方法”
相混淆。
生理正常值的来历：置信区间



均数确定后，按标准正态分布的规律，我
们可能估计两侧的范围区间。许多医学检
验的指标值，都是这么计算出来的。这个
区间，统计学称之为“置信区间”。
一般来讲，置信区间表示一种“把握性”，
而假设检验的p值表示一种“可能性”。举
例说明：
置信区间越可信，精确度就越低。这在我
们日常生活中，是怎么体现的？
休息：另一些注意点



统计学的表格要有规矩的，称为“三线
表”。其具体要求是不能有斜线与竖线。
比较数据分为直接数据与间接数据两种。
这两种数据的运用与侧重点是有区别的。
我们常常在“率”这个字眼儿上犯错误。
医学中的“率”字许多情况下是作为强度
单位出现的，如“发病率”。我们常说的
“率”，许多时候只能叫作“构成比”。
关于统计的一点思考



统计的思想，我们在日常生活中也不自觉
地在运用着。要上升到理论，学会使用，
还需要多思考，多复习。
医学统计学不是数学，不在乎算，只讲会
用。医学统计学也不是医学，不用背，也
不能替代治疗，只能对我们的日常工作做
指导、帮我们下决策。
某种意义上，其正起到“哲学”的作用。
结束语


统计是让人又恨又爱的一门重要学科。
学生才疏学浅，只想与老师们一同探研这
其中的乐趣。

医学统计基础

Transcript 医学统计基础

Directory