附件:点击下载

Download Report

Transcript 附件:点击下载

第5章 统计数据的描述性分析
第一节 度量集中趋势的指标
第二节 度量离散程度的指标
第三节 度量偏斜程度的指标
第一节 度量集中趋势的指标
常用来度量集中趋势的指标包括:平均数、中位数、
众数。
平均数是说明社会经济现象、传播现象等一般水平
的统计指标,反映标志值分布的集中趋势。

学习目标
 了解集中趋势的量数
 计算一组数据的均值
 计算一组数据的众数和中位数
 选择一种集中趋势度量数
一. 平均数
——是根据总体各单位所有标志值计算出的平均数。
(一). 算术平均数
 平均数的基本公式
总体单位标志总量
算术平均数
总体单位总数
总体标志总量-----是指总体各单位标志值的总和
2.算术平均数的计算

(1)简单算术平均数

简单算术平均数主要用于未分组资料,用总体各单位标
志值简单加总得到的标志总量除以单位总量而得。计算公式:
n
x1  x2    xn
x

n


x
i 1
i
n
n —总体单位总数;xi —第 i 个单位的标志值。
我国电视观众调查
(2)加权算术平均数
 加权算术平均数主要用于原始资料已经分组,并得出
次数分布的条件。计算公式:
x1 f1  x2 f 2    xn f n
x

f1 f 2    f n
n
x
i
i 1
n
f
i 1
xi —第 i 组的代表值(组中值或该组变量值);
f i —第 i 组的频数。
 fi
i
例:2006年1月比特啤酒公司销售点销售量
 60个销售点的啤酒销售量 (单位:桶)
48 71 52 53 36 41 69 58 47
60
53
29
41
72
81
37
43
58
68
42
73
62
59
44
51
53
47
66
59
52
34
49
73
29
47
16
39
58
43
29
46
52
38
46
80
58
51
67
54
57
58
63
49
40
54
61
58
66
47
50
比特啤酒公司每个销售点月销售量?
销售量(桶)
销售点数量(频数)
频率(%)
10~19
20~29
30~39
40~49
50~59
60~69
70~79
80~89
合计
1
3
5
16
20
9
4
2
60
1.7
5.0
8.3
26.7
33.3
15.0
6.7
3.3
100
权数的意义和作用
权数:各组次数(频数)的大小所对应的标志值对平均数
的影响具有权衡轻重的作用。
当各组的次数都相同时,即当f1=f2=f3=…=fn时:
加权算术平均数就等于简单算术平均数。
n
x
x
i
i 1
 fi
n
f
i 1
i
n

f x
i 1
nf
n

x
i 1
n
使用 SPSS求算术平均数
利用Analyze==>Descriptive
Statistics==>Descriptives菜单算术平均数

二.中位数(Median)
 将总体各单位标志值按由小到大的顺序排列后处于中间位置
的标志值称为中位数,记为Me。
 中位数是描述分布中心趋势的另一种典型的度量。中位数是
“最中间的数”,一半的观测值比它小,一半比它大。
 中位数是是根据总体标志值所处的特殊位置确定的一类平均
指标-位置平均数,不受极端数据的影响。当统计资料中含
有异常的或极端的数据时,中位数比算术平均数更具有代表
性。
 一种比如有 5 笔付款:9元,10元,10元,11元,60元
 付款的均值为 20 元,显然这并不是一个很好的代表值,而
中位数 M = 10 元则更能代表平均每笔的付款数。
 观测变量为定序变量、定距变量或定比率变量时,中位数
都是有意义的;但是不适于定类变量。
寻找中位数的步骤
 ·将所有n个观测值按由小到大的顺序排列;
 ·如果观测值的个数为奇数
me  x n1
2
 ·如果观测值的个数为偶数,中位数就是排序后最中间的
两个观测值的平均。
me 
xn  xn
2
2
2
1
三、众数( Mode)
——是总体中出现次数最多的标志值,记为M 0。
众数明确反映了数据分布的集中趋势,也是一种位
置平均数,不受极端数据的影响。但并非所有数据
集合都有众数,也可能存在多个众数。
在某些情况下,众数是一个较好的代表值。
例如在服装行业中,生产商、批发商和零售商在进
行生产和存货决策时,更感兴趣的是最普遍的尺寸
而不是平均尺寸。
又如,当要了解大多数家庭的收入状况时,也要用
到众数。

平均数、中位数、众数间的关系
 1.频数分布呈完全对称
的单峰分布,算术平均
数、中位数和众数三者
相同。
2.频数分布为右偏态
时,众数小于中位数,
算术平均数大于中位数。
3.频数分布为左偏态
时,众数大于中位数,
算术平均数小于中位数。
f
0
X (Me,M0) x
f
0
M0 Me X
x
f
0
X Me M0
x
 在偏斜分布中,中位数和平均数可能相差很远。
 例如有关收入、广告投入等的分布,出于有少数人的收入非
常高,或有个别几家企业投入了天文数字的广告费用,致使
分布的右边尾巴很长。这个长尾巴会将平均数拉高,这时再
采用平均数来描述分布的中心就没有什么实际意义
 不管这些巨额广告投入有多大,对中位数的值不会有什么影
响,因为它们只不过是“中间点”右边的个别点而已。
 因此,对于分布中有少数极端值存在、或分布严重偏斜致使
一边拖着很长尾巴的情况下,最好采用中位数而不是平均数
来描述分布的中心,以免造成误会。
 当分布比较有规律时,采用平均数则优于中位数
 当次数分配呈右偏(正偏)时:算术平均数受极大
值的影响
 当次数分配呈左偏(负偏)时,算术平均数受极小
值的影响
 中位数则总是介于众数和平均数之间。
x  Me  Mo
Mo  Me  x
均值和中位数的关系
 均值是一系列数值的中间点。
 中位数是一系列个体的中间点
 中位数关注的是有多少个个体,而不是有多少个
数值,极值(奇异值)就不会对中位数产生影响。
练习:
 1.假定你是快餐厅的经理,向老板汇报每天的特惠食品的
经营情况,写一个简短的报告:
 特惠食品
售出数量 价格(美元)
 Huge Burger
20
2.95
 Baby Burger
18
1.49
 Chicken Littles 25
3.50
 Porker Burger 19
2.95
 Yummy Burger
17
1.99
 Con Dog
20
1.99
 售出总数
119
2。在什么情况下使用平均数而不是均做为集中趋势的量
数?为什么?并举例说明。
如果仅有平均指标而没有描述分布的伸展程度的统
计量来配合,对观测数据的描述不仅是不完整的,
还有可能造成误导。
例如北京市01年某行业的家庭平均月收入调查,平
均数和中位数分别是观l000和1271元,但是如果
只给出这两个数或只给出其中的一个,就掩盖了其
中有2.5%的家庭月收入低于300元、有1.8%的
家庭月收入高于20000元的事实。
为此还需要有关分布伸展程度或数据的散布程度的
统计量.
第二节 度量离散程度的指标
 要分析总体的分布规律,仅了解中心趋势指标是不够的,还
需要了解数据的离散程度或差异状况。几个总体可以有相同
的均值,但取值情况却可以相差很大。
频
数
x
x
度量离散程度的指标主要有:极差、四分位数差、平均
差、 方差和标准差。变异指标反映总体内部的离中趋势或
变异状况。变异指标值越大,表明总体各单位标志的变异程
度越大。
对变异性的理解
7,6,3,3,1
3,4,4,5,4
4,4,4,4,4
一.极差(Range)
 描述分布的伸展程度的最简单的方法之一, 找出观测数据的
最大值和最小值,这两个数表示了数据的分布范围,称它们
的差为极差(也称全距),通常记为R 。
 极差R=最大值-最小值
 显然,一组数据的差异越大,其极差也越大。
 极差是最简单的变异指标,表明总体中标志值变动的范围。
广泛应用于产品质量管理中控制质量的差异,一旦发现超过
控制范围,就采取措施加以纠正,以保证产品质量的稳定。
 但极差有很大的局限性,它仅考虑了两个极端的数据,没有
利用其余数据分布的信息,不能反映大部分数据的分布范围。
而且最大值和最小值也有可能是远离其他观测值的奇异值,
因而是一种比较粗糙的变异指标。
二. 四分位数差(Inter-Quartile Range)
 将全部数据由小到大排序,用三个数把数据分成四部分,
每一部分都包含25%的数据,这三个数分别叫第一四分位
数、第二四分位数和第三四分位数,用Q1、Q2、和Q3。
 Q2就是中位数M。有25%的数据小于Q1;有25%的数据
大于Q3;Q1和Q3给出了中间一半数据的范围,四分位数
差(IQR) 为Q1和Q3之间的距离:
 IQR=Q3-Q1
 利用找中位数的方法,就可以计算四分位数QI和Q3
 ·将数据按从小到大的顺序排列,找出中位数M,即Q2;
 ·找出中位数左边所有观测值的中位数,得到Q1;
 ·找出中位数右边所有观测值的中位数,得到Q3。
二. 四分位数差(Inter-Quartile Range)
 将全部数据由小到大排序,用三个数把数据分成四部分,
每一部分都包含25%的数据,这三个数分别叫第一四分位
数、第二四分位数和第三四分位数,用Q1、Q2、和Q3。
 Q2就是中位数M。有25%的数据小于Q1;有25%的数据
大于Q3;Q1和Q3给出了中间一半数据的范围,四分位数
差(IQR) 为Q1和Q3之间的距离:
 IQR=Q3-Q1
 利用找中位数的方法,就可以计算四分位数QI和Q3
 ·将数据按从小到大的顺序排列,找出中位数M,即Q2;
 ·找出中位数左边所有观测值的中位数,得到Q1;
 ·找出中位数右边所有观测值的中位数,得到Q3。
三.五数综合
 描述一组观测值分布伸展程度的最简易可行的方法是同时采
用五个数,叫五数综合:
 最小值、第一四分位数、中位数、第三四分位数、最大值
 用符号表示:Min、Q1、M 、Q3 、Max
 根据分布的五数综合,可画出盒型图(box plot)。
 图形的两端是最小值和最大值,中间的“盒型”部分的两端
位于两个四分位数,盒型里面的直线段标出中位数的位置。
 盒型图不能像直方图那样给出分布的具体形状,因此盒型图
不适于描述单个的分布,可用于做比较研究。
例:
 根据1998年的一次受众调查,某省电视台以新闻类、体育
类和电影类节目为主的三个频道观众的日收看时间 (分钟)
的五数综合分别为:

新闻频道A
15
30
45
50
120

体育频道B
15
40
60
90
300

电影频道C
10
60
90
120
300
 试做出这三个频道观众日收看时间长度的盒型图并做出简要
的说明。
观众日收看时间长度的盒型图
从三个盒型图可以清楚地看到,电影频道观
众的收看时间最长,其中半数观众的收看时
间都在1至2个小时之间;
体育频道(B)观众的收看时间虽然短于电影频
道,但是约有1/4的观众日收看时间都超过
了1个半小时,其中最长者也达到了5小时;
而新闻频道(A)观众的收看时间则相对少得多、
也集中得多。
新闻工作者年龄(n=30)
电视广告与广播广告效果比较
例:
 根据1998年的一次受众调查,某省电视台以新闻类、体育
类和电影类节目为主的三个频道观众的日收看时间 (分钟)
的五数综合分别为:

新闻频道A
15
30
45
50
120

体育频道B
15
40
60
90
300

电影频道C
10
60
90
120
300
 试做出这三个频道观众日收看时间长度的盒型图并做出简要
的说明。
不同时段播出的电视广告效果比较
对变异性的理解
7,6,3,3,1
3,4,4,5,4
4,4,4,4,4
变异性可看做是不同数值之间的差异性的测量,
即每个数值与特定值的差异程度。
特定数值是均值。
变异性成为测量数据组与均值的差异的量数。
四.平均差
平均差是各数据与其均值离差绝对值的算术平均数,
通常记为A.D。
1
A.D   | X i  X |
N
平均差越大,反映数据间的差异越大。
但由于使用了绝对值,其数学性质很差,因而很
少使用。
五.方差和标准差
 描述分布的最常用的统计量是平均数加上标准差,
前者描述分布的中心;后者描述分布的伸展程度或
离散程度。
标准差标准化了与某个值的偏差。
标准差每个值与均值的平均距离;
方差是标准差的平方。
方差和标准差计算公式:

1. 总体标准差
总体标准差记为。
1
2
(Xi  X )
N

2、总体方差:
总体方差是各总体数据与其均值离差平方的均值,记为
 2,
1
   ( X i  X )2
N
2
2.样本方差与样本标准差
样本标准差记为 S,样本方差记为 S 2,在推断统计
中,它们分别是总体方差和标准差的优良估计。
其中:n 为样本容量,Xi 为样本观察值
X 为样本均值。
标准差是数据组每一个数值与均值偏差的平均数
为什么要计算偏差的平方?是为了消除负号。
计算标准差:
5,8,5,4,6,7,8,8,3,6
对于分组数据方差:
式中的X表示各组观测值的组中点即组中值;f为落入各组的频
数,为了简化起见,省略了对应的上下标。式中的n为观测值的个
数即样本量。
注意,如果上式中的分母是n—1而不是n,那么其意义就是所有观
测值与其平均数的偏差之平方的平均值,叫“平均平方偏差” 简称
“均方差”。当然,均方差可以很好地描述样本观测值的分布;
但是,如果用样本来推断总体时,可以从理论上证明,方差是更为
合适的统计量。
标准差的大小体现了观测值伸展的扁平程度:标准差越大,分布就
越扁平;反之,分市就越集中。
例:试计算观众日收看电视时间X的平均数和标准差
方差和标准差的计算

方差和标准差的手工计算非常烦琐,一般
依托软件,如SPSS。
 使用SPSS->数据分析->统计功能->
返回所有参数中数据的样本方差、标准差。

注意:
 标准差作为偏均值的平均距离计算的,先计算平均数
 标准差越大,数值分布越广,数据之间的差异越大
和均值一样,标准差对极值极为敏感,如存在极差,
需要数据报告时加以说明
 如果S=0,则数据没有差异性。
第三节 度量偏斜程度的指标

除了描述分布的中心和分布的伸展程度外,对于定比或
定距变量的观测数据的分布.还常常需要考虑它们分布的形
状,是否对称的?是“瘦高的”还是“矮胖的”?
1.斜度(skewed)

斜度也叫做偏度。一个分布如果是不对称的,
即一端的观测值个数多于另一端时,则称该分布
为偏斜的。斜度描述分布的偏斜程度和方向:
如果分布是对称的,斜度为零;
如果长尾巴指向大的值,则称正偏,斜度为正值;
如果长尾巴指向小的值,则称负偏,斜度为负值;
分布的斜度示意图:
斜度的绝对值越大,偏斜程度也越大。斜度衡量
频数分配不对称程度,或偏斜程度的指标。用于估计
分布的伸展程度的一个准确性度量。
2.峰度(kurtosis)
峰度描述观测值聚集在中心的程度,是分布形状
的另一特征。
如果观测值的中心聚集度与正态分布相同,或分
布的形状与正态曲线的形状相同,则峰度为零;
如果聚集度大于正态分布,即分布比正态曲线更
陡峭或冒尖,峰度为正;
如果聚集度小于正态分布即分布比正态曲线更平
缓或扁平,峰度为负。
正峰度和负峰度的示意图
峰度-用以衡量频数分配的集中程度,即分布曲线的
尖峭程度的指标。

 峰度指标β=0,分布为正态峰度,当峰度指标β>0时,表示
频数分布比正态分布更集中,分布呈尖峰状态,β<0时表示
频数分布比正态分布更分散,分布呈平坦峰。如图所示:
Ⅱ(β>0)
Ⅰ(β=0)
Ⅲ (β<0)
左偏分布
100
80
60
人数(人)
40
20
0
4
9
10
11
12
13
14
日
产
量
(件)
右偏分布
100
80
人数(人)
60
40
20
0
10
11
12
13
14
15
19
日
产
量
(件)