Transcript 医学统计基础
医学统计基础 张桢 统计学与医学统计学 统计学是一门处理数据中变异性的科学与 艺术,目的是求得可靠的结果。 将统计学的思维方法引入医学实践,已经 渗透到医学研究和卫生决策之中。 目前医学研究者们对其越加重视,这正是 统计学经200年发展并与医学磨合的结果。 经典例子 Louis(1787-1827)医师曾在伤寒研究收 集了1822-1827年5年的患者资料。为了研 究放血治疗伤寒的可靠性,其观察了52例 重病员,88例恢复期病员。结果表明:放 血者平均病期32天,不放血者31天。 Louis还研究了放血治疗咽颊炎、肺炎,发 现其无效。另外,其对传统手术与碎石术 的对比告诉人们,前者死亡率21.6%,后者 2.3%。 得到的启示 由于人类记忆的谬误,医生总是倾向于较 多地记住成功的案例,而忘记不成功的。 因此,“用事实说话”是非常重要的!! 用数据表达疗效、说明问题和“或多或 少”、“罕见”、“频繁”之类用词的区 别是有巨大区别的! 史上案例1 美国于1954年实施了人类历史上最大规模、 花费最多的一次临床试验,旨在评价索尔 克(Salk)疫苗预防小儿麻痹或死于脊髓 灰质炎的效果。当时脊灰的年发病率约 1/2000。有180万儿童参与,直接花费超过 500万元。开始遇到许多阻力,最后有约 1/4儿童得到随机化,证实了Salk疫苗的效 果。 史上案例2 上世纪60年代初,药物“反应停”(酞胺 哌啶酮)曾引起一次胎儿畸形的暴发。 FDA发现有1267名医生共开处方给19822 名患者,服用了250余万片药片。FDA的专 业性受到了公众的质疑,国会与总统通过 了1962药物修正案。这项法律把FDA推 上了医疗领域中的有效性的最终仲裁者。 从此,FDA制定了一整套制度,使之成 为药物疗效的标准办法。德国的生产厂家 因此向世界赔付大量金钱,终致破产。 统计学的重要性 经过以上几个颇有代表意义的例子,我们 知道了:医学统计学就是如何用统计的眼 光与思维去采取医学手段的一门学科。其 目的是采取有价值的、正确的治疗方法, 得到最好的医疗实践。 医学统计学已经深入到了医疗卫生实践当 中,甚至自觉不自觉地被我们应用着。 具体举例 1、发表论文的要求 2、技术进步的要求 3、科学研究的要求 4、临床带教的要求 早期的统计学 方差的公式之一: S2=Σ(X-X) 2 n-1 这是看起来不算复杂的一个公式。事实上, 比这长上数倍的公式相当多见。所以,对 统计学,许多医师都是望而生畏。 日常工作的统计学 远离高深的高等数学困扰(统计学涉及高 等数学的每个学科:代数、几何、微积分、 解析几何、概率论、拓扑数学、模糊数学 等等),但日常我们接触到的统计学符号 不外这些: 检验、分组、随机、卡方、t、p、显著性差 异、率,等等。 今天让我们一起复习一下这些符号。 小问题 当我们看到一份血常规报告单,第一行: WBC:6.2 109/L (4-10) 这表示什么?如果是16.2*109/L,又提示什么? 为什么要这样想? 这名患者一定不正常吗? 10.2*109/L呢? 4000~10000是怎么来的? 临床资料的分类 一类来说,临床资料(变量)可以分为定 性与定量两种。 定性变量应以考虑为“没有单位”。这其 中又包括分类(名义)变量与有序变量。 举例: 定量变量可以想成“有单位”。分为:离 散型变量与连续型变量。 定性资料(计数资料)与定量资料(计量 资料)的认识方法与分析方法是不同的。 定量资料的描述与分析 强调定量资料的特征。 举例说明:我院外剥内扎术后患者的住院 天数。考察一个月,得到一组数据。 如何去认识?怎样去描述? 直观地看图: 0 11 图解 图上连成曲线的是一个一个的点,对应着一个个 的数据。 这些点所在的位置,称为“分布”。 研究这些分布内在规律、相互联系的学问就是统 计学。 统计学中阐述这些“分布”情况的内容,称为 “统计描述”。 上图是统计描述中最重要的一种分布:正态分布。 图解 正态分布的特点:与样本量的关系非常密 切。样本量越大,越接近理想的、标准的 正态分布。 在实际中,我们常常通过抽样去了解整体。 这就是为什么我们要做统计分析的原因: 抽样的情况不可避免地带来误差。如何减 小抽样误差是重要的研究内容,也是统计 学的重要意义所在。 图解 无论是红线或白线,都属于正态分布。所不同的 是哪个更接近标准正态分布而已。 但白线与红线总是不同的。我们怎样去形容、衡 量其间的区别?这就需要了解“参数”。 参数可以通过数学的办法进行推演。记录一个正 态分布,一般通过两方面来进行,即集中趋势与 离散趋势。 集中趋势包括均数、分位数、中间数、众数等; 离散趋势包括极差、间距、方差、标准差、变异 系数等。 对正态分布最重要的参数 1、均数。这是集中趋势的指标,反映数 据的一般状态,确定波峰“地理位置” 。 2、标准差。这是离散趋势指标,反映数 据的可信状态,是方差的平方根。(方差 的计算方法) 一般来讲,描述一个计量资料(基本符合 正态分布),常常用均数加减一个标准差 来表示,记为X± S。如12.33 ±5.23天。 回忆一下这一张幻灯 当我们看到一份血常规报告单,第一行: WBC:6.2 109/L (4-10) 这表示什么?如果是16.2*109/L,又提示什么? 为什么要这样想? 这名患者一定不正常吗? 10.2*109/L呢? 4000~10000是怎么来的? 现在,这个问题已经能得到基本的解答了。 检验 但是,我们的想法正确吗?经得起检 验吗?这就要交给检验来处理了。 检验是采用统计学方法得出结论的过 程。不同的资料要采用不同的检验方 法进行分析。我们在撰写论文时最常 采用的检验大法称为“假设检验”。 假设检验 直白地说,假设检验就是通过假定一个理想化的 模型去进行推理。这就存在着两种可能: 1、推到后来发现这样推出来的结果是正确的 概率(可能性)很大,说明需要检验的数据与理 想化的模型基本没有差别,可以接受理论模型。 (通常我们称为H0) 2、发现推出来的结果是正确的概率很小(常 选择5%,即发生了小概率事件),说明不能接受 理论模型(原假设),而要选择相信不同情况。 (通常我们称为H1) 假设检验的举例说明 某商家宣称他的一批鸡蛋“坏蛋率为1%”。 为了对这批蛋的质量做出判断(1%?还是 高于1%?),我们从中随机抽取5个做检 查,结果:4个好蛋,1个坏蛋。 根据这个结果,我们会怎么想? 对他的话产生怀疑。因为在“坏蛋率为1%” 的前提下,5个蛋样品中出现1个坏蛋的机 会是很小的(0.049)。这种小概率事件的 发生,使我们对商家的话(前提条件)产 生质疑,得到“他的话不可信”的结论。 继续讲述 这一逻辑思维上升到统计理论,就是“小 概率事件在一次随机试验中不(大)可能 发生”的推断原理。 虽然这样推断也可能会错,因为在“坏蛋 率1%”的前提下,毕竟还有4.9%的可能性 真的就抽5个出1个、甚至更多的可能性。 但我们一般会认为这个可能很小,从而选 择与前提条件相反的结论。 这就是对未知事物进行判断、决策的规则。 假设检验 我们常常在专业期刊的论文中看到“p<0.05” 这样一个描述。现在我们可以解答他了: p 是“概率”的代号,这个符号是指我们要检 验的数据与原条件相符合的可能性是不足5%, 是小概率事件。 提示我们选择宁可相信其不同,得到统计学 支持。这个检验结果,我们常将其描述为 “有统计学意义”。有时我们会看到有人将 其描述为“有显著性差异”,这是不科学、 不正规的:这仅仅是统计学上的一次结论而 已。 假设检验下的常见检验方法 假设检验只为我们提供了一种思维的方法, 却并未涉及具体的操作步骤。 对待不同的数据类型,采用的具体检验步 骤不同。统计学家们为这些步骤起了不同 的名字,如t检验、 χ 2(卡方)检验、秩 和检验、Ridit分析等,而每种检验又分为 许多不同的使用标准,如配对t检验、独立 样本t检验; 校正χ 2 检验、Fisher精确概 率法,等等 最重要的两类检验法 最常见、最重要的两类方法是t检验与 χ 2 检验。这是对待临床中最多见的两类资料 而采用的方法。 其中t检验是针对满足方差齐性、正态分布 的计量资料的检验方法。 而χ 2检验则是满足计数资料的检验方法, 用在RxC行列表中,最多见的是2 x 2联表, 也称为“四格表”。 两种统计方法的比较 在当今有优秀的统计软件存在的情况下, 许多复杂的计算过程都被省略。我们要做 的就是选择正确的统计方法,不要犯错误。 因为χ 2检验的计算较简单,所以最多见 的错误也就出在这里。 χ 2检验不是万能 检验,就算是对满足使用要求的资料也要 计算理论频数,并非想象的那么简单。 有些投机的做法把t检验资料转变为χ 2检 验资料,看似灵巧,也是不可取的。 回顾 刚才提到的内容中,强调了正态分布的重 要性。这是因为一切类型的数据,无论计 数的还是计量的,在样本无限大的情况下, 都向正态分布逼近。 同样,具体的方法也就是从这些相同中的 不同里找出规律,加以总结,得出的结论。 不能把“假设检验”与“具体的检验方法” 相混淆。 生理正常值的来历:置信区间 均数确定后,按标准正态分布的规律,我 们可能估计两侧的范围区间。许多医学检 验的指标值,都是这么计算出来的。这个 区间,统计学称之为“置信区间”。 一般来讲,置信区间表示一种“把握性”, 而假设检验的p值表示一种“可能性”。举 例说明: 置信区间越可信,精确度就越低。这在我 们日常生活中,是怎么体现的? 休息:另一些注意点 统计学的表格要有规矩的,称为“三线 表”。其具体要求是不能有斜线与竖线。 比较数据分为直接数据与间接数据两种。 这两种数据的运用与侧重点是有区别的。 我们常常在“率”这个字眼儿上犯错误。 医学中的“率”字许多情况下是作为强度 单位出现的,如“发病率”。我们常说的 “率”,许多时候只能叫作“构成比”。 关于统计的一点思考 统计的思想,我们在日常生活中也不自觉 地在运用着。要上升到理论,学会使用, 还需要多思考,多复习。 医学统计学不是数学,不在乎算,只讲会 用。医学统计学也不是医学,不用背,也 不能替代治疗,只能对我们的日常工作做 指导、帮我们下决策。 某种意义上,其正起到“哲学”的作用。 结束语 统计是让人又恨又爱的一门重要学科。 学生才疏学浅,只想与老师们一同探研这 其中的乐趣。