点击下载

Download Report

Transcript 点击下载

挺有意思的统计学
吴天双
什么是统计学?
• 韦伯斯特词典:数学的一个分支,用于收集、分析、解释和表现
数据的一门科学。
• 起源:源于拉丁语Status
• 分支:概率论,数理统计,生物统计,物理统计,计量经济学,
因果推断,等等等等
• 应用:小到家庭记账,中到企业规划,大到国家预算,统计学无
处不在。
第一章:解释一些我们耳熟能详的名词
• 随机变量(Random variable):在(Ω,H ,P) 的度量空间内对于H 可测的方程。
呵呵,炫吧
你可以理解为,一种实验,他有有限或无限种可能的结果。
• 数学期望(Expectation):在(Ω,H ,P)度量空间内,某个随机变量的某个方
程关于他对应的有限测度的积分。
• 方差(Variance):在此空间内某随机变量中心化后的平方在他对应的有限
测度下的积分。
呵呵,酷吧
你可以理解为,如果同样的实验无数次发生,他们的平均值就是他的数学期
望。(请注意,期望值可能不等于任何可能的取值)他们距离平均值的平均
距离的平方就是他的方差。
• 概率(Probability): 某示性函数关于某个有限测度的积分。
呵呵,Der吧
你可以理解为,如果同样的实验无数次发生,发生某个特定事件的频率。
(所以取值在0和1之间)
关于概率和期望的大众误解
• 只按照可能性,均匀分配(反正结果就是成和不成,一半对一半)
• 搞不清统计的对象(飞机和火车谁安全?加速过十字路口么?)
• 愚蠢的统计学教授带炸弹上飞机的问题:如何解释他错在哪。
• 概率和期望只在渐进意义下有决定性作用,否则,只是指导性作
用。(例子:买彩票和赌博,当然,这里也有很多经济学因素)
• 概率和期望是对未发生事件的刻画,因此只对未来的事情有指导
性。对于已经发生但是仅仅你不知道结果的事件,很多时候没有
指导性。
条件期望与条件概率
• 如果 (Ω,H ,P) 是概率空间,F 是 H 的一个西格玛子代数,X是
一个H可测的随机变量,则称已知 F下f(X)的条件期望,为f(X)在H
对于F投影空间的期望。条件概率同理。
碉堡了!
• 你可以理解为,如果同样的实验无数次发生,去掉那些不符合已
知事件的实验后,某种事件的平均值或频率。
独立与不相关
• 如果对于任意方程f,都有:f(X)在已知Y的条件期望等于f(X)的条件
期望,则称变量X与Y独立。
• 你可以理解为,Y的信息对于刻画X没有任何帮助。
• 例子:我扔的骰子的结果与你扔的骰子的结果。
• 如果XY的期望等于X的期望乘以Y的期望,则称X于Y(线性)不相
关。
• 你可以理解为,总体上,Y对于X没有影响。
• 例子:风向与跑步
条件独立(Conditional Independence)
• 例1:甲乙各扔一枚硬币,显然二人硬币的结果独立。
• 例2:甲乙先后扔同一枚硬币,若不确定硬币正反面等概率出现,
则此时二人硬币结果不独立。
• 例3: 假设另一变量C为硬币向上的概率。此时,如果已知C,则
二人硬币结果关于C条件独立。
关于独立性的笑话
• 本来是不相关的,你非去搞条件概率(福利彩票的历史走势图)
• 本来都不是随机变量,非得去算概率
• 本来是相关的,你非去当做独立事件(屌丝连续表白)
• 右代宫缘寿选蛋糕问题(你让小学生去搞条件概率么)
随机变量简介,离散篇
• 均匀分布:两点(硬币),多点(骰子,俄罗斯轮盘)
• 泊松分布:刻画某段时间内某独立事件发生的次数
• 几何分布:独立事件成功需要的次数
• 二项分布:多次两点分布的总和
• 习题:主持人换羊问题,四张扑克选两张同色异色问题,邮票收
集问题
随机变量简介:连续篇
• 均匀分布:区间上随便戳一个点
• 指数分布:一台电扇的寿命(无记忆性?)
• 正态分布:钟形曲线,统计学里最重要的分布,又称高斯分布
• 威沙特分布,伽马分布,贝塔分布,等等等等
重要定理
• 大数律:同样的、独立的实验不断重复,结果
的均值一定存在极限,而且这个极限就是这个
实验的数学期望。(应用:蒙特卡罗法,布丰
投针)
• 中心极限定理:同样的、独立的实验不断重复,结果的均值减去
实验的数学期望,再乘以试验次数的平方根,趋近于一个正态分
布。(应用:渐进置信区间估计)
第二章:统计的应用
• 估计(Estimation)
• 点估计(Point Estimator):骰子正面的概率,全中国人的平均身
高,某品牌电灯泡的平均寿命。
• 方法:最小二乘(Least Square),最大似然(Maximum
Likelihood)。
• 区间估计(Interval Estimation):以上参数(parameter)的可信
取值范围。
• 所谓置信区间(Confidence Interval)如何去理解?
• 频率论者(Frequentist)Vs贝叶斯派(Bayesian)
• 假设检验(Hypothesis Testing)
• 一种在某种置信程度上判别一个论断(Statement)是否正确的方
法。
• 构成:原假设(Null Hypothesis),备选假设(Alternative
Hypothesis),统计量(Statistics),置信等级(Confidence Level,
最常选取的值是0.05)。
• 流程:如果原假设正确,则所选统计量服从某分布,在这个分布
下,统计量实际的取值是否在“合理”的范围。
• 衍生:p-value,你可以理解为,在原假设正确的前提下,统计量
出现比观测值更“歪”的概率。
假设检验的例子
• 有人给你一袋球共一千个。已知其中不是红色就是白色。此人声
称里面红白各五百个。你为了验证,有放回地取了十次,结果是
九次红球,一次白球。问:此人的声称靠谱么?
• 每次取出的球的颜色可以视为两点分布,假设取到红球的概率为
p,则取到白球的概率为1-p。
• 原假设:p=0.5;备选假设: p≠0.5。统计量:十次球里红色球的数
量N。在原假设下,N服从参数为(p,10)的二项分布。取到比观测
值更“歪”的情况有四种,总概率p≈0.02。
• 结论:在95%置信等级下,我们拒绝原假设。
• 不要滥用(多次假设检验找显著)
方差分析(ANOVA)
• 目的:用来鉴别来自不同组的数据是否有本质区别
• 举例:五种饲料,每种喂100只鸡。半年后得到这500只鸡的体重。
我们希望知道这五种饲料的效果是不是一样的,以及如果不一样,
哪种更好。
• 原假设:所有的鸡的体重的期望相同。备选假设:不同组的鸡的
体重的期望不同。
• 基本思想:检查组间方差(between group variance)与组内方差
(within group variance)的比值。
线性回归 (Linear Regression)
• 应用十分广泛,每当你不确定用什么模型的时候,就用线性模型
吧。(All models are wrong, some are useful —— Cox)
• 模型假设因变量Y与一些自变量是线性关系
• 𝑌 = 𝛽0 + 𝛽1 𝑥1 +…+𝛽𝑁 𝑥𝑁 +𝜀
• 可以用来解释和预测
• 即使原模型不是线性的,很多时候也可以通过变换转变成线性模
型
• 大家试试 𝑌 = 𝑎𝑒 𝑏𝑥1 +𝑐𝑥2
实验设计
• 目的:找到与感兴趣目标关联最大的变量
• 举例:为了科学养鸡,牛厂长采用了一系列新措施:科学鸡饲料,
科学鸡舍,健美体操等。为了辨别哪个有用哪个仅仅是他的恶趣
味而已,对于鸡们采取随机分组。
• 基本思想:比较实验组(Case)和对照组(Control)的结果。
统计学里最大最普遍的错误:偏差(Bias)
• 收集数据的Bias:数据有时不具有代表性(用抽样的2000个北京
市人口的身高和收入去估计全国人民的身高和收入),健身计划
后只调查坚持下来的人。
• 分析数据的Bias:缺失值的处理,单向缺失值的处理
• 解释数据的Bias:用“巧妙”的方法去扭曲数据的特性(蝾螈法)
第三章:因果推断(Causal Inference)
• 相关不等于因果关系:Correlation doesn’t mean causality
• 因果推断在相关性研究的基础上,注重研究哪个变量如何导致另
一个变量的分布改变。
• 举例:多吃水果和好皮肤是正相关,你可以通过多吃水果来改善
皮肤,但是你不能通过改善皮肤来使自己吃更多的水果。
• 优点:你永远有Topic可以研究
• 缺点:即使很显著,很多人不信,你也没招。
• 举例:吸烟对于肺癌的影响,至今没有定论,尽管吸烟人群里肺
癌发病率三十倍于非烟民。为毛呢?请看下一页
因果推断大招:混杂(confounder)
• 一个未观测的变量同时影响着两个变量,使得这两个变量看上去
是相关的,但是相互没有因果关系,这个未观测的变量就叫混杂。
• 举例:很可能有一种未观测到的东西(比如某种基因)同时导致
了人喜欢吸烟和容易得肺癌。如果是这样,那么即使戒烟,也不
能减小得肺癌的概率。
• 类似例子:某商场的冰淇淋销量和泳装销量明显呈正相关。但冰
淇淋卖的多显然不是泳装卖的多的原因。
• 原因:夏天来了是二者销量增加的共同原因。
• 所有观测性实验(Observational Study)都可能有混杂。
最好的检验因果的方法:随机实验
(Randomized Trail)
• 为了检验X对于Y是否有影响,随机让一半的人取X=0,另一半取
X=1。最后检查这两组的区别。
• 为了减少误差,一般采取双盲(Double Blind)。
• 最大的问题:伦理(Ethic),你也不想当731吧。
• 很显然,为了研究吸烟对于肺癌的危害,你不能强迫不吸烟的人
去吸烟。
• 关于吸烟,比较好的方法是找同卵双生的双胞胎若干对,一个抽
一个不抽,去对比。但也会伴随其他问题。
• 其他实验设计:半随机实验,观测性实验,各有优缺点。
• 举例:养宠物对于老年人降血压的影响
• 下面请看一组抵制吃面包的统计数据,大家看看每条有啥问题:
• 一、98%的犯罪者吃过面包。
• 二、平时吃面包的儿童,有大概一半人成绩在平均分以下。
• 三、90%的暴力犯罪,都是在当事人吃完面包24小时内发生的。
• 四、面包会引起成瘾的中毒症状。
美国科学家给100名罪犯吃面包、喝水一周之后,再喂水两天,
100名罪犯都表现出对面包强烈的渴求欲望。
• 五、给婴儿喂面包,婴儿会表现的喉部很痛苦。
• 六、18世纪的英国,家家户户都会做面包 那时候平均寿命只有55
岁。
• 七、吃面包的美国人中,几乎没有人发表过什么重大的科研成果。
• 八、给100名实验对象每人发一个面包,让他们共同生活两个月,
只有一个人生存了下来。
辛普森悖论
• 即使仅仅是相关性研究,也要注意此悖论。
• 举例:孙文博和牛帅比较Dota水平,各找
不同人打100场中单。孙文博先和20个高手
单挑,赢1场;再和80个庸手单挑,赢40场。
牛帅先和80个高手单挑赢8场;再和20个庸手单挑全胜。
总胜率:孙文博41%,牛帅28%
谁更牛逼呢?
辛普森悖论原因:不同人群比例不同
• 类似于上一页的Dota比赛,我们假设现在的实验是考虑吸烟与肺
病的关系。下图m/n表示n个人里m个人得肺病。
男
女
肺病比例
吸烟
8/80
20/20
28%
不吸烟
1/20
40/80
41%
• 吸烟人群里的肺病比例更少耶!大家抽个痛!
• 解决方法:对于占总体少数比例的样本加以更高的权重,也就是
“逆概加权”(Inverse probability weighting)
• 依旧是上面吸烟的例子,对于每个子群体加权,权重为该子群体
在总群体里出现的概率的倒数。
加权前
男
女
肺病比例
吸烟
8/80
20/20
28%
不吸烟
1/20
40/80
41%
加权后
男
女
吸烟
8/80
80/80
55%
不吸烟
4/80
40/80
27.5%
肺病比例
•
谢谢大家