Transcript Document
描述性数据分析
假设检验
主成分分析
线性回归模型
直方图、条形图
概括统计量(平均数、中位数、众数、百
分位数和四分位数、方差和标准差、极值
与四分位间距、变异系数、相关系数、学
生氏化)
例. 在相同的发射条件下,测量10分钟内
某种型号火箭引擎的推动力
(单位:105 N), 现观测到如下30个数据:
999.1 1003.2 1002.1 999.2 989.7 1006.7 1012.3 996.4
1000.2 995.3 1008.7 993.4 998.1 997.9 1003.1 1002.6
1001.8 996.5 992.8 1006.5 1004.5 1000.3 1014.5 998.6
989.4 1002.9 999.3 994.7 1007.6 1000.9
序号 j
1
2
3
4
5
6
7
8
9
10
组 (a j 1, a j ]
(987,990]
(990,993]
(993,996]
(996,999]
(999,1002]
(1002,1005]
(1005,1008]
(1008,1011]
(1011,1014]
(1014,1017]
频数 n j
2
1
3
5
7
6
3
1
1
1
频率 f j
0.067
0.038
0.100
0.167
0.233
0.200
0.100
0.033
0.033
0.033
接收
其
17
14
11
08
05
02
9
6
3
0
7
他
10
10
10
10
10
10
99
99
99
99
98
频数
直方图
8
7
6
5
4
频率
3
2
1
0
例:一分钟内碰撞某宇宙
装置的宇宙粒子,连续
记录40分钟,得如右数
据:
宇宙粒
子个数 j
频数
频率
nj
fj
0
13
0.325
1
13
0.325
2
8
0.200
3
5
0.125
4
1
0.025
13
13
8
5
1
0
1
2
3
4
设(X 1 ,
, X n )是取自总体X 的一个样本.
样本均值:
1 n
X Xi;
n i 1
样本方差:
1
2
S
n 1
n
2
(
X
X
)
;
i
i 1
它反映了总体
方差的信息
样本标准差:
1 n
2
S
(
X
X
)
.
i
n 1 i 1
它反映了
总体均值
的信息
样本k阶原点矩 :
1 n k
Ak X i
n i 1
它反映了总体k
阶矩的信息
样本k阶中心矩 :
1 n
M k ( X i X )k
n i 1
它反映了总体k 阶
中心矩的信息
X 为样本1阶原点矩A1 ,样本二阶中心矩M 2记为
1
2
Sn =
n
n
2
(
X
X
)
,
i
i 1
1 n
Sn = ( X i X )2
n i 1
上述量的观测值
1 n
x xi
n i 1
;
n
1
2
2
s
( xi x )
n 1 i 1
1 n k
ak xi
n i 1
1 n
2
s
( xi x ) ;
n 1 i 1
k 1,2,
1 n
m k ( xi x ) k
n i 1
n
1
sn2 ( xi x ) 2 ,
n i 1
k 1,2,
1 n
sn = ( xi x ) 2
n i 1
在正态分布中σ代表标准差,μ代表均值x=μ即
为图像的对称轴
三σ原则即为
数值分布在(μ—σ,μ+σ)中的概率为0.6826
数值分布在(μ—2σ,μ+2σ)中的概率为0.9544
数值分布在(μ—3σ,μ+3σ)中的概率为0.9974
如果在一组数据中,数值落在样本均值的
三倍标准差以外,我们认为该数据是异常
值,需要剔除。如今年的全国赛A题
H 0 : 0
H1 : 0
H 0 : 原假设(零假设)
H1 : 备择假设(对立假设)
希望通过样本 ( X 1 , , X n ) 给出一种决策(接受 H 0 还
是拒绝 H 0 ),寻找 H 0 拒绝域 W1
( W0 ---接受域)
当 H 0 成立时,最终结果为拒绝 H 0 ,犯第一类错
误(弃真);
当 H 0 不成立时,最终结果为接受 H 0 ,犯第二类
错误(取伪);
控制犯第一类错误的概率 ( 显著性水
平);
希 望 通 过 ( X 1 ,, X n ) 给 出 一 种 决 策
P (( X 1 , , X n ) W1 H 0 成立)
根据样本观测值所得的结论
检验带来的后果
当 ( x1 , , x n ) W1 ,接受 H 0
当 ( x1 , , x n ) W1 ,拒绝 H 0
H 0 成立
总体分布
的实际情
况(未知) H 0 不成立
判断正确
犯第 I 类错误
犯第 II 类错误
判断正确
断言:在座的各位平均身高是170cm。
要检验这句话正确与否,我们可以采用单
正态总体的均值检验。
设总体 X ~ N ( , 2 ) ,( X 1 , X 2 , , X n )为取自
该总体的一组样本
(1) X ~ N ( ,
2
n
) ,即
X
n ~ t (n 1)
(2)
S
X
n ~ N (0,1)
H0 : 0 170
X 0
X 170
n
n ~ t (n 1)
则
S
S
如果观测到的 X 过大或者过小,则认为不满足原假设,
X 170
准则:若 |
n | t (n 1) ,则拒绝原假设
1
S
2
列联表独立性检验是卡方拟合优度检验
的一个特例,人们将两个或多个特征分类
数据即交叉分类数据以表格形式列出即列
联表,从而利用这些数据用来研究两种或
多种分类之间是否有某种联系。
1976-1977 年美国佛罗里达州29 个地区发
生凶杀案中被告人判死刑的情况,白人参
与凶杀案中被判死刑的比例要比黑人参与
凶杀案中被判死刑的比例要高,那是不是
在美国社会就不存在凶杀案判罚上的种族
问题呢?
在凶杀案的判罚上,不仅仅要看被告人的肤
色,还要看被害人的肤色。我们把情况分为四
种情况:分别为白人杀害黑人,黑人杀害黑人,
白人杀害白人,黑人杀害白人,一般来说后两
种情况被告人被判死刑的概率要比前两种情况
大得多,这是美国社会的种族歧视在其中所起
的作用。
被害人\判刑结果 死刑
非死刑
白人
30
184
黑人
6
106
那么被害人的肤色的不同对死刑的判罚有
没有影响呢?
主要用于变量降维,主成分分析经常用减少数
据集的维数,同时保持数据集的对方差贡献最
大的特征。这是通过保留低阶主成分,忽略高
阶主成分做到的。
PCA的数学定义是:一个正交化线性变换,把
数据变换到一个新的坐标系统中,使得这一数
据的任何投影的第一大方差在第一个坐标(称
为第一主成分)上,第二大方差在第二个坐标
(第二主成分)上,依次类推
函数关系表达的是变量之间数量上
的确定性关系,设x为自变量,y为因变
量,则x与y之间的函数关系为:
y f ( x)
例 1:某保险公司承保汽车 x 万辆,每辆保费
为 1000 元,如果记保险公司的承保总收入为
y ,则 y 与 x 之间表现为一种确定性的关系:
y 1000 x
变量之间具有密切关联
而又不能由一个或某一些变
量唯一确定另外一个变量的
关系称为变量之间的相关关
系.
y
y
y f ( x)
Y f (X )
x
0
x
0
(b) 统计关系
例 2 城镇居民的收入与消费支出之间有很大的关
联,居民的收入提高了,消费也随之潇洒,但居民的
收入不能完全确定消费,人们的消费支出受到不同年
龄段的消费习惯的影响,也受到不同消费理念的影响。
因此居民的收入 x 与消费支出 y 就呈现出某种不确定
性。
我们将上海市城镇居民可支配收入与支出的数据
(1985 年~2002 年)用散点图表示,可以发现居民的
收入 x 与消费支出 y 基本上呈现线性关系,但并不完
全在一条直线上。
附数据与图形。
年份
总平均
人均消费性支出
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000 2001
1075.2 1293.24 1436.88 1723.44 1975.2 2181.6 2485.56 3009.12 4277.4 5868.48 7171.91 8158.74 8438.89 8773.1 10931.6 11718.01 12883
991.8 1170.24 1282.08 1648.44 1811.88 1936.2 2166.96 2509.44 3530.04 4668.96 5828.12 6763.12 6819.94 6866.41 8247.69 8868.19 9336
上海市市居民家庭人均可支配收入
10000
9000
8000
人均消费性收入
7000
6000
5000
系列1
4000
3000
2000
1000
0
0
2000
4000
6000
8000
总平均
10000
12000
14000
年份
总平均
人均消费性支出
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000 2001
1075.2 1293.24 1436.88 1723.44 1975.2 2181.6 2485.56 3009.12 4277.4 5868.48 7171.91 8158.74 8438.89 8773.1 10931.6 11718.01 12883
991.8 1170.24 1282.08 1648.44 1811.88 1936.2 2166.96 2509.44 3530.04 4668.96 5828.12 6763.12 6819.94 6866.41 8247.69 8868.19 9336
一元线性回归方程为:
y 0.73 x 356
“回归”名称的由来,统计史上一
般归功于英国生物学家兼统计学家
F.高尔顿(F.Galton,1822-1911)及他的
学生现代统计学家的奠基者之一K.
皮尔逊(K.Pearson).
他们在研究父母身高与其子女身高的遗传
问题时,观察了1078对夫妇,以每对夫妇的平均
身高作为x,而取他们的一个成年儿子的身高作
为y,将结果在平面直角坐标系上给出散点图,发
现趋势近于一直线,并计算得回归直线
yˆ 33.73 0.516x
这1078对夫妇平均身高为
子代平均身高 y 69英寸
(单位:英寸)
x 68 英寸,而
尽管“回归”这个名称的由来具有其
特定的含义,人们在研究大量的问题中变
量 x 与 y 之间的关系并不总是具有“回归”
的含义,但用这个名词来研究 x 与 y 之间
的统计关系也是对高尔顿这位伟大的统计
学家的纪念。
回归方程的假设检验包含两个内容:
(一)检验变量之间的总体线性关系是否显
著,即检验自变量与应变量之间的关系能
否用一个适当的回归模型来表示。
(二)检验回归参数,即检验回归模型中每
一自变量对因变量对影响程度是否显著。
这两种检验在次序上不能颠倒的,因
为只有当回归模型所代表的变量之间的线
性关系通过检验后,进一步检验模型中的
个别回归参数才有意义。如果某个回归模
型本身是个错误的模型,那就没有必要再
去检验该模型中的各个回归参数了。
虽然这两种检验在一元回归分析中是
等价的,但在多元分析里却有不同的意义,
应注意区别。
F-检验
t检验
相关系数检验
后期将做详细介绍