Transcript 附件:点击下载
第5章 统计数据的描述性分析
第一节 度量集中趋势的指标
第二节 度量离散程度的指标
第三节 度量偏斜程度的指标
第一节 度量集中趋势的指标
常用来度量集中趋势的指标包括:平均数、中位数、
众数。
平均数是说明社会经济现象、传播现象等一般水平
的统计指标,反映标志值分布的集中趋势。
学习目标
了解集中趋势的量数
计算一组数据的均值
计算一组数据的众数和中位数
选择一种集中趋势度量数
一. 平均数
——是根据总体各单位所有标志值计算出的平均数。
(一). 算术平均数
平均数的基本公式
总体单位标志总量
算术平均数
总体单位总数
总体标志总量-----是指总体各单位标志值的总和
2.算术平均数的计算
(1)简单算术平均数
简单算术平均数主要用于未分组资料,用总体各单位标
志值简单加总得到的标志总量除以单位总量而得。计算公式:
n
x1 x2 xn
x
n
x
i 1
i
n
n —总体单位总数;xi —第 i 个单位的标志值。
我国电视观众调查
(2)加权算术平均数
加权算术平均数主要用于原始资料已经分组,并得出
次数分布的条件。计算公式:
x1 f1 x2 f 2 xn f n
x
f1 f 2 f n
n
x
i
i 1
n
f
i 1
xi —第 i 组的代表值(组中值或该组变量值);
f i —第 i 组的频数。
fi
i
例:2006年1月比特啤酒公司销售点销售量
60个销售点的啤酒销售量 (单位:桶)
48 71 52 53 36 41 69 58 47
60
53
29
41
72
81
37
43
58
68
42
73
62
59
44
51
53
47
66
59
52
34
49
73
29
47
16
39
58
43
29
46
52
38
46
80
58
51
67
54
57
58
63
49
40
54
61
58
66
47
50
比特啤酒公司每个销售点月销售量?
销售量(桶)
销售点数量(频数)
频率(%)
10~19
20~29
30~39
40~49
50~59
60~69
70~79
80~89
合计
1
3
5
16
20
9
4
2
60
1.7
5.0
8.3
26.7
33.3
15.0
6.7
3.3
100
权数的意义和作用
权数:各组次数(频数)的大小所对应的标志值对平均数
的影响具有权衡轻重的作用。
当各组的次数都相同时,即当f1=f2=f3=…=fn时:
加权算术平均数就等于简单算术平均数。
n
x
x
i
i 1
fi
n
f
i 1
i
n
f x
i 1
nf
n
x
i 1
n
使用 SPSS求算术平均数
利用Analyze==>Descriptive
Statistics==>Descriptives菜单算术平均数
二.中位数(Median)
将总体各单位标志值按由小到大的顺序排列后处于中间位置
的标志值称为中位数,记为Me。
中位数是描述分布中心趋势的另一种典型的度量。中位数是
“最中间的数”,一半的观测值比它小,一半比它大。
中位数是是根据总体标志值所处的特殊位置确定的一类平均
指标-位置平均数,不受极端数据的影响。当统计资料中含
有异常的或极端的数据时,中位数比算术平均数更具有代表
性。
一种比如有 5 笔付款:9元,10元,10元,11元,60元
付款的均值为 20 元,显然这并不是一个很好的代表值,而
中位数 M = 10 元则更能代表平均每笔的付款数。
观测变量为定序变量、定距变量或定比率变量时,中位数
都是有意义的;但是不适于定类变量。
寻找中位数的步骤
·将所有n个观测值按由小到大的顺序排列;
·如果观测值的个数为奇数
me x n1
2
·如果观测值的个数为偶数,中位数就是排序后最中间的
两个观测值的平均。
me
xn xn
2
2
2
1
三、众数( Mode)
——是总体中出现次数最多的标志值,记为M 0。
众数明确反映了数据分布的集中趋势,也是一种位
置平均数,不受极端数据的影响。但并非所有数据
集合都有众数,也可能存在多个众数。
在某些情况下,众数是一个较好的代表值。
例如在服装行业中,生产商、批发商和零售商在进
行生产和存货决策时,更感兴趣的是最普遍的尺寸
而不是平均尺寸。
又如,当要了解大多数家庭的收入状况时,也要用
到众数。
平均数、中位数、众数间的关系
1.频数分布呈完全对称
的单峰分布,算术平均
数、中位数和众数三者
相同。
2.频数分布为右偏态
时,众数小于中位数,
算术平均数大于中位数。
3.频数分布为左偏态
时,众数大于中位数,
算术平均数小于中位数。
f
0
X (Me,M0) x
f
0
M0 Me X
x
f
0
X Me M0
x
在偏斜分布中,中位数和平均数可能相差很远。
例如有关收入、广告投入等的分布,出于有少数人的收入非
常高,或有个别几家企业投入了天文数字的广告费用,致使
分布的右边尾巴很长。这个长尾巴会将平均数拉高,这时再
采用平均数来描述分布的中心就没有什么实际意义
不管这些巨额广告投入有多大,对中位数的值不会有什么影
响,因为它们只不过是“中间点”右边的个别点而已。
因此,对于分布中有少数极端值存在、或分布严重偏斜致使
一边拖着很长尾巴的情况下,最好采用中位数而不是平均数
来描述分布的中心,以免造成误会。
当分布比较有规律时,采用平均数则优于中位数
当次数分配呈右偏(正偏)时:算术平均数受极大
值的影响
当次数分配呈左偏(负偏)时,算术平均数受极小
值的影响
中位数则总是介于众数和平均数之间。
x Me Mo
Mo Me x
均值和中位数的关系
均值是一系列数值的中间点。
中位数是一系列个体的中间点
中位数关注的是有多少个个体,而不是有多少个
数值,极值(奇异值)就不会对中位数产生影响。
练习:
1.假定你是快餐厅的经理,向老板汇报每天的特惠食品的
经营情况,写一个简短的报告:
特惠食品
售出数量 价格(美元)
Huge Burger
20
2.95
Baby Burger
18
1.49
Chicken Littles 25
3.50
Porker Burger 19
2.95
Yummy Burger
17
1.99
Con Dog
20
1.99
售出总数
119
2。在什么情况下使用平均数而不是均做为集中趋势的量
数?为什么?并举例说明。
如果仅有平均指标而没有描述分布的伸展程度的统
计量来配合,对观测数据的描述不仅是不完整的,
还有可能造成误导。
例如北京市01年某行业的家庭平均月收入调查,平
均数和中位数分别是观l000和1271元,但是如果
只给出这两个数或只给出其中的一个,就掩盖了其
中有2.5%的家庭月收入低于300元、有1.8%的
家庭月收入高于20000元的事实。
为此还需要有关分布伸展程度或数据的散布程度的
统计量.
第二节 度量离散程度的指标
要分析总体的分布规律,仅了解中心趋势指标是不够的,还
需要了解数据的离散程度或差异状况。几个总体可以有相同
的均值,但取值情况却可以相差很大。
频
数
x
x
度量离散程度的指标主要有:极差、四分位数差、平均
差、 方差和标准差。变异指标反映总体内部的离中趋势或
变异状况。变异指标值越大,表明总体各单位标志的变异程
度越大。
对变异性的理解
7,6,3,3,1
3,4,4,5,4
4,4,4,4,4
一.极差(Range)
描述分布的伸展程度的最简单的方法之一, 找出观测数据的
最大值和最小值,这两个数表示了数据的分布范围,称它们
的差为极差(也称全距),通常记为R 。
极差R=最大值-最小值
显然,一组数据的差异越大,其极差也越大。
极差是最简单的变异指标,表明总体中标志值变动的范围。
广泛应用于产品质量管理中控制质量的差异,一旦发现超过
控制范围,就采取措施加以纠正,以保证产品质量的稳定。
但极差有很大的局限性,它仅考虑了两个极端的数据,没有
利用其余数据分布的信息,不能反映大部分数据的分布范围。
而且最大值和最小值也有可能是远离其他观测值的奇异值,
因而是一种比较粗糙的变异指标。
二. 四分位数差(Inter-Quartile Range)
将全部数据由小到大排序,用三个数把数据分成四部分,
每一部分都包含25%的数据,这三个数分别叫第一四分位
数、第二四分位数和第三四分位数,用Q1、Q2、和Q3。
Q2就是中位数M。有25%的数据小于Q1;有25%的数据
大于Q3;Q1和Q3给出了中间一半数据的范围,四分位数
差(IQR) 为Q1和Q3之间的距离:
IQR=Q3-Q1
利用找中位数的方法,就可以计算四分位数QI和Q3
·将数据按从小到大的顺序排列,找出中位数M,即Q2;
·找出中位数左边所有观测值的中位数,得到Q1;
·找出中位数右边所有观测值的中位数,得到Q3。
二. 四分位数差(Inter-Quartile Range)
将全部数据由小到大排序,用三个数把数据分成四部分,
每一部分都包含25%的数据,这三个数分别叫第一四分位
数、第二四分位数和第三四分位数,用Q1、Q2、和Q3。
Q2就是中位数M。有25%的数据小于Q1;有25%的数据
大于Q3;Q1和Q3给出了中间一半数据的范围,四分位数
差(IQR) 为Q1和Q3之间的距离:
IQR=Q3-Q1
利用找中位数的方法,就可以计算四分位数QI和Q3
·将数据按从小到大的顺序排列,找出中位数M,即Q2;
·找出中位数左边所有观测值的中位数,得到Q1;
·找出中位数右边所有观测值的中位数,得到Q3。
三.五数综合
描述一组观测值分布伸展程度的最简易可行的方法是同时采
用五个数,叫五数综合:
最小值、第一四分位数、中位数、第三四分位数、最大值
用符号表示:Min、Q1、M 、Q3 、Max
根据分布的五数综合,可画出盒型图(box plot)。
图形的两端是最小值和最大值,中间的“盒型”部分的两端
位于两个四分位数,盒型里面的直线段标出中位数的位置。
盒型图不能像直方图那样给出分布的具体形状,因此盒型图
不适于描述单个的分布,可用于做比较研究。
例:
根据1998年的一次受众调查,某省电视台以新闻类、体育
类和电影类节目为主的三个频道观众的日收看时间 (分钟)
的五数综合分别为:
新闻频道A
15
30
45
50
120
体育频道B
15
40
60
90
300
电影频道C
10
60
90
120
300
试做出这三个频道观众日收看时间长度的盒型图并做出简要
的说明。
观众日收看时间长度的盒型图
从三个盒型图可以清楚地看到,电影频道观
众的收看时间最长,其中半数观众的收看时
间都在1至2个小时之间;
体育频道(B)观众的收看时间虽然短于电影频
道,但是约有1/4的观众日收看时间都超过
了1个半小时,其中最长者也达到了5小时;
而新闻频道(A)观众的收看时间则相对少得多、
也集中得多。
新闻工作者年龄(n=30)
电视广告与广播广告效果比较
例:
根据1998年的一次受众调查,某省电视台以新闻类、体育
类和电影类节目为主的三个频道观众的日收看时间 (分钟)
的五数综合分别为:
新闻频道A
15
30
45
50
120
体育频道B
15
40
60
90
300
电影频道C
10
60
90
120
300
试做出这三个频道观众日收看时间长度的盒型图并做出简要
的说明。
不同时段播出的电视广告效果比较
对变异性的理解
7,6,3,3,1
3,4,4,5,4
4,4,4,4,4
变异性可看做是不同数值之间的差异性的测量,
即每个数值与特定值的差异程度。
特定数值是均值。
变异性成为测量数据组与均值的差异的量数。
四.平均差
平均差是各数据与其均值离差绝对值的算术平均数,
通常记为A.D。
1
A.D | X i X |
N
平均差越大,反映数据间的差异越大。
但由于使用了绝对值,其数学性质很差,因而很
少使用。
五.方差和标准差
描述分布的最常用的统计量是平均数加上标准差,
前者描述分布的中心;后者描述分布的伸展程度或
离散程度。
标准差标准化了与某个值的偏差。
标准差每个值与均值的平均距离;
方差是标准差的平方。
方差和标准差计算公式:
1. 总体标准差
总体标准差记为。
1
2
(Xi X )
N
2、总体方差:
总体方差是各总体数据与其均值离差平方的均值,记为
2,
1
( X i X )2
N
2
2.样本方差与样本标准差
样本标准差记为 S,样本方差记为 S 2,在推断统计
中,它们分别是总体方差和标准差的优良估计。
其中:n 为样本容量,Xi 为样本观察值
X 为样本均值。
标准差是数据组每一个数值与均值偏差的平均数
为什么要计算偏差的平方?是为了消除负号。
计算标准差:
5,8,5,4,6,7,8,8,3,6
对于分组数据方差:
式中的X表示各组观测值的组中点即组中值;f为落入各组的频
数,为了简化起见,省略了对应的上下标。式中的n为观测值的个
数即样本量。
注意,如果上式中的分母是n—1而不是n,那么其意义就是所有观
测值与其平均数的偏差之平方的平均值,叫“平均平方偏差” 简称
“均方差”。当然,均方差可以很好地描述样本观测值的分布;
但是,如果用样本来推断总体时,可以从理论上证明,方差是更为
合适的统计量。
标准差的大小体现了观测值伸展的扁平程度:标准差越大,分布就
越扁平;反之,分市就越集中。
例:试计算观众日收看电视时间X的平均数和标准差
方差和标准差的计算
方差和标准差的手工计算非常烦琐,一般
依托软件,如SPSS。
使用SPSS->数据分析->统计功能->
返回所有参数中数据的样本方差、标准差。
注意:
标准差作为偏均值的平均距离计算的,先计算平均数
标准差越大,数值分布越广,数据之间的差异越大
和均值一样,标准差对极值极为敏感,如存在极差,
需要数据报告时加以说明
如果S=0,则数据没有差异性。
第三节 度量偏斜程度的指标
除了描述分布的中心和分布的伸展程度外,对于定比或
定距变量的观测数据的分布.还常常需要考虑它们分布的形
状,是否对称的?是“瘦高的”还是“矮胖的”?
1.斜度(skewed)
斜度也叫做偏度。一个分布如果是不对称的,
即一端的观测值个数多于另一端时,则称该分布
为偏斜的。斜度描述分布的偏斜程度和方向:
如果分布是对称的,斜度为零;
如果长尾巴指向大的值,则称正偏,斜度为正值;
如果长尾巴指向小的值,则称负偏,斜度为负值;
分布的斜度示意图:
斜度的绝对值越大,偏斜程度也越大。斜度衡量
频数分配不对称程度,或偏斜程度的指标。用于估计
分布的伸展程度的一个准确性度量。
2.峰度(kurtosis)
峰度描述观测值聚集在中心的程度,是分布形状
的另一特征。
如果观测值的中心聚集度与正态分布相同,或分
布的形状与正态曲线的形状相同,则峰度为零;
如果聚集度大于正态分布,即分布比正态曲线更
陡峭或冒尖,峰度为正;
如果聚集度小于正态分布即分布比正态曲线更平
缓或扁平,峰度为负。
正峰度和负峰度的示意图
峰度-用以衡量频数分配的集中程度,即分布曲线的
尖峭程度的指标。
峰度指标β=0,分布为正态峰度,当峰度指标β>0时,表示
频数分布比正态分布更集中,分布呈尖峰状态,β<0时表示
频数分布比正态分布更分散,分布呈平坦峰。如图所示:
Ⅱ(β>0)
Ⅰ(β=0)
Ⅲ (β<0)
左偏分布
100
80
60
人数(人)
40
20
0
4
9
10
11
12
13
14
日
产
量
(件)
右偏分布
100
80
人数(人)
60
40
20
0
10
11
12
13
14
15
19
日
产
量
(件)