Transcript 管理定量分析2
管理定量分析
主讲人:赵丽
政治与公共事务管理学院
[email protected]
管理定量分析
调查与统计分析
教学目标与要求:
掌握搜集资料的基本方法
学会基本的数据分析方法
认识中心趋势分析以及离散分析。
管理定量分析
调查与统计分析
第一节 搜集资料
管理定量分析
调查与统计分析
量化分析的过程就是从搜集
信息开始,进行信息加工处
理——整理、分类、分析,
最后得到结论的过程。
管理定量分析
调查与统计分析
一、搜集信息的方法
调查是搜集信息的主要手段,分全面调查和非全
面调查(普查和抽样调查)两大类。
1、全面调查——普查
根据要求,对所涉及的全部对象一个不漏地进行
调查。
管理定量分析
调查与统计分析
遵循“统一”原则:
统一调查目的、要求、调查对象;
统一调查时间;
统一编号,所涉及的各个项目及其可能的选择
给予互不相同的编号;
统一调查项目并给予正确的解释,制定栏目、
格式完全一致的调查问卷;
统一调查方式,如“人口普查”中派“调查员”
入户询问、等级问卷;
管理定量分析
调查与统计分析
按统一标准培训;
统一数据汇总原则和方式;
统一数据处理方法(如采用同一软件);
统一调查结果的汇总、上报方式和时间;
统一解释权归属;
其他需要统一的内容。
管理定量分析
调查与统计分析
2、非全面调查
典型调查:根据调查目的,选择在同类对象
中最具典型性的单位或个人进行调查;
重点调查:根据调查目的,选择最具代表性
的对象进行调查。
管理定量分析
随机抽样调查:根据
调查目的,在调查对
象中随机抽取调查对
象,获取资料,进行
分析。
调查与统计分析
管理定量分析
调查与统计分析
普查、抽样调查的比较
普
查
抽 样 调 查
对
象
被调查对象全体,一个不漏
部分被调查对象,随机—机会均等
要
求
准确无误,必须一次成功
有代表性
投
入
巨大的人力物力等资源投入
较小的资源投入
耗
时
从准备到完成耗时很长
耗时较少
程序方法
大体相同
两次调查间隔 数年以上
例
结
全国人口普查
果
按需要随时可进行
人口素质调查
“4050”就业情况调查
全局意义,但是可能有误差; 是样板,对全局有参照意义,可能
误差比抽样调查小
有误差
管理定量分析
调查与统计分析
二、调查误差
1、误差的类型
工作误差:由调查工作本身造成的。
代表性误差:用样本推断总体而引起的。
管理定量分析
调查与统计分析
2、误差产生的原因
调查方案设计的问题,如指标含义不清、调查口径
不一致,调查方法不完善;
资料重复或者遗漏;
被调查对象提供的信息不准确(故意、无意——记
忆差错等);
管理定量分析
调查员工作疏忽大意;
个别参与调查的人员弄虚作假;
测量工具不准确;
输入汇总资料时产生差错;
其他。
调查与统计分析
管理定量分析
调查与统计分析
3、如何控制误差
调查方案设计力求完善,涉及的术语有唯一准
确的定义;计算方法要简洁。
组建具有一定权威的调查机构,选用责任心强、
专业、训练有素的调查员。
管理定量分析
调查与统计分析
做好被调查对象的宣传、解释工作。
小范围、小规模的模拟调查,事先发现问题,
尽早纠正差错。这对普查尤其重要。
严格采样、汇总、处理数据的方法和步骤。
及时抽查,及时纠正问题。
必要的奖惩措施。
管理定量分析
调查与统计分析
4、注意事项
目标明确,概念界定清楚,程序和日程安排明白
无误,组织严谨,参与调查的人员训练有素。
在保证目标的基础上,问卷设计简洁合理,设问
有内在联系,可相互佐证。
搜集、整理、加工信息的方法科学、实用。
调查误差虽然不可避免,但可以通过努力降至最
小。
管理定量分析
调查与统计分析
三、调查步骤
以问卷调查为例,大致需要经过如下步骤:
1、首先,确定问题,明确调查的主题——围绕什么中
心搜集资料。
管理定量分析
调查与统计分析
2、其次,列出大纲,将主题“细化”,设计好
问卷。内容包括:
基本调查项目,这类项目在资料分析时往往作“自
变量”:
被调查对象是单位:名称、性质、成立时间、地
理位置、职工人数……
被调查对象是个人:姓名(若属匿名调查,则不
登记姓名)、性别、年龄、职业、文化程度……
管理定量分析
调查与统计分析
管理定量分析
调查与统计分析
态度、看法。
行为取向。
理由:采取某种行为、态度的理由或动机。
其他需要说明的问题。
3、确定样本(问卷发放)数量、范围(被调查
对象的条件,选择被调查对象的原则)。
4、有指导地发放、填写问卷。
5、回收问卷。
管理定量分析
调查与统计分析
6、初步分析整理问卷,在整理数据之前,对资
料(数据)的有效性进行初步分析:
(1)资料来源是否存在偏见?由这些资料得出的结
论是否比别的资料更有价值?
(2)资料的论据是否充分?与实际情况是否一致?
有没有出乎意料的矛盾?
管理定量分析
调查与统计分析
(3)调查(观察)的对象和数量是否具有代表性?
(4)整理后的资料是否合乎逻辑?初步结论是否可
信?相近结论是否相互印证?
7、资料归类、初步数据整理。
8、清点样本总数,输入事先设计的计算机表格。
管理定量分析
调查与统计分析
管理定量分析
第二节
调查与统计分析
数列的频率分析
管理定量分析
调查与统计分析
原始资料是未经处理输入计算机的数据表格。
输入汇总的资料(数据)怎样排列与直觉判
断关系密切。
通常在排序前先要选定数据归类法,从而确
定统计的“标志列”及相应变量。
例如被调查对象的职业,被调查对象的年龄,被
调查单位的性质(国营企业?集体企业?民营企
业?个体工商户?)等都可以作标志列。
管理定量分析
调查与统计分析
在做统计分析时,
标志列的元素常被
当作“自变量”使用
管理定量分析
调查与统计分析
一、数据(观察值)整理排序法
升序:由小到大。
降序:由大到小。
二、频率法
频率法:就是计算出观察数据落在各数据段中
的频数或频率。
按照下列步骤编制“定距数列”的频率分布表:
管理定量分析
调查与统计分析
第一步:确定分组标志和分组数目。
需要明确每一个的上限和下限,可以按等距离分
组,也可以采取不等距离分组。
个别组可以是开口组。
通常分组数由分组间隔大小和数据总数决定。
管理定量分析
调查与统计分析
如果先决定分组数,再采取等距离分段,用下列
公式计算组间距:
组距=(最大值 - 最小值+1)/分组数
其中的“1”表示一个观察值单位
如将1 -100分成10组,组距=(100-1+1)/10=10
管理定量分析
调查与统计分析
第二步:把数据归入各组,计算各组的观察
值的个数,并填入相应方格。如果采用频率
法,可用下列公式计算每组观察值的频率。
频率 = 该组数据数 / 数据总数
第三步:制作统计表格。
第四步:需要时绘制曲线图。
管理定量分析
调查与统计分析
第三节 频率分布的概率度量法
管理定量分析
调查与统计分析
一、算术平均
需要推断几个样本是否取自同一个总体,要使用
算术平均值。
1、n个数a1,a2,…,an的算术平均值:
n
∑ ai
a = i=1
n
管理定量分析
调查与统计分析
EXCEL中的计算函数是AVERAGE
为了计算各个反映中心趋势的量,对分段统计
的数据先要计算“组中值”——每一个分段数
据的“中值”,计算公式:
组中值=(本组下限+本组上限)÷2
对于用定距法分段统计数据的资料,可利用
相应的组中值计算算术平均值。
关于切尾均值(TRIMMEAN)
管理定量分析
调查与统计分析
切尾均值是从全部数据中去掉指定比率的较
大与较小数值,然后再计算算术平均数。
如果算术平均数和切尾均值差异不十分明显,
表明算术平均数没有受到极端值的显著影响,
可以粗略地认为数据中不存在显著的极端值。
例如,比赛或者评委打分的去掉一个最高分,
去掉一个最低分
管理定量分析
调查与统计分析
管理定量分析
调查与统计分析
管理定量分析
调查与统计分析
2、优点
第一,通俗、直观、易懂。
第二,是一个可计算的“单值量”,任何一
组数据都有且仅有一个相应的算术平均数。
如平均收入、人均GDP等。
第三,在计算算术平均数时,所有的数据都
要参加运算,不能用概率推算,因此它是一
个可靠的、具有代表性的度量中心趋势的量。
管理定量分析
调查与统计分析
3、缺点
第一,算术平均数会受到资料中那些没有代
表性的、特殊的数据影响。对于这类观察值,
算术平均值并不具备代表性。
第二,存在无下限或无上限的“开口组”时,
无法计算组中值,也就无法计算平均值。
管理定量分析
调查与统计分析
二、加权平均值
在数理统计中,加权平均值又称数学期望。
算术平均法只考虑参与平均的数,而没有考虑
每个数的频率。
加权平均法考虑了频率分布的情况,使数量大
的数据在计算平均值时占比较大的比重;数量
小的数据在计算平均值时占比较小的比重。
管理定量分析
调查与统计分析
衡量数量多少的标准取决于有关数据在总体
资料中所占比重的大小,即频率。一般情况
下,用频率作为权重。也可以直接使用观察
值的个数。加权算术平均值计算公式:
权重总和为1:
n
a = ∑ ai × ωi
i=1
权重总和不为1:(直接用每段数据作为权重)
n
k
a = ∑ ai × i
i=1
n
管理定量分析
调查与统计分析
三、几何平均值
计算公式:
几何平均值和算术平均值很接近,前者往往
更接近实际情况。
EXCEL中的计算函数是GEOMEAN。
管理定量分析
调查与统计分析
四、中位数
1、中位数Me:一个位于一组观察值的中心位置
的参数。
大于它和小于它的参数相等。对于按序排列的奇数个
观察值中位数就是最中间的那个数,偶数个观察值的
数列的中位数是中间两位数的平均值。中位数对应的
足标:第(n+1)/2项
EXCEL中的计算函数是MEDIAN。
管理定量分析
调查与统计分析
奇数:5 9 11 13 19 25 33
偶数:1 5 9 11 13 19 25 33
足标(8+1)/2=4.5
中位数(11+13)/2=12
2、优点
(1)不会受到特殊数据的影响;
(2)无论是分组资料还是不分组资料都可以计算中
位数,且直观、易懂。
管理定量分析
调查与统计分析
组中值(闭口组)=(上限+下限)/2
组中值(只有上限)=上限-相邻组的组距/2
组中值(只有下限)=下限+相邻组的组距/2
组距=(最大值-最小值)/组数
组距=全距/组数
管理定量分析
调查与统计分析
五、众数
众数Mo:资料中重复出现次数最多的数,即频
率最高的数。
7 15
6 13 7 9 23
7 43 8 6 32
对于一个定序数列, EXCEL中的计算函数是
MODE。
管理定量分析
调查与统计分析
定距数列的众数计算方法:
Mo = L + d1 /(d1+d2) *ω
L为众数组的下限;
d1为众数组的频率与下邻组的频率差;
d2为众数组的频率与上邻组的频率差;
ω为众数组的组距宽。
众数可以用来测定品质资料的中心位置。
管理定量分析
调查与统计分析
六、平均数、中位数、众数的适用性比较
1、比较
名
称
平均数
算术平均
加权平均
中位数
几何平均
适 定类
用
定序
○
○
◎
定距
◎
○
不 适 用
备
注
开
口
求平均增长比
组
其它情况
众
数
◎
○
开口组或变量间
差异较大
1、适用分类以观察值汇总方法为准。
2、三者相比“最好”用◎标志的参数,“可以”用○标志的参数
管理定量分析
调查与统计分析
2、平均数、中位数、众数三者的关系
三个参数大小关系不同,反映观察值的分布特点。
三个参数关系与分布特点
对称分布
平均数=中位数=众数
向左倾斜
平均数≤中位数≤众数
向右倾斜
平均数≥中位数≥众数
管理定量分析
调查与统计分析
三种典型的分布图:(单峰值情况)
对称分布
向左倾斜
向右倾斜
管理定量分析
调查与统计分析
观察值对称分布:平均数、中位数、众数是
同一个数;
观察值向左倾斜:平均数在最左边,中位数
居中,众数在最右边;
观察值向右倾斜:众数在最左边,中位数居
中,平均数在最右边。
结论:当总体分布是向右倾斜或向左倾斜时,
以中位数度量中心为好。
管理定量分析
具有双峰的分布曲线
调查与统计分析
管理定量分析
第四节
调查与统计分析
变量的特性分析
管理定量分析
调查与统计分析
观察值的分布不仅取决于“中心趋势”,还
取决于“离心趋势”。描述观察值与中心趋
势之间存在什么样的关系。也叫“离散趋
势”、“离中趋势”。
离散趋势:观察值关于中心的分散程度。可
以帮助我们了解中心趋势的可靠性。
描述离散趋势的量有极差、平均偏差、四分
位内标准差等。
管理定量分析
调查与统计分析
一、极差
极差:又称全距,是一组观察值中最大值与最小
值的差。
极差=最大观察值 - 最小观察值
用途:衡量一组观察值的极端差距。
极差并不能反映一组观察值内在的特性。离
散程度差别很大的两组观察资料,可能有相
同的极差。
管理定量分析
调查与统计分析
即使从同一组观察值抽取两组不同的样本,
可能极差相去甚远。一般样本数越大,得到
异常值的机会也越大,极差也越大。因此,
极差对样本数过于敏感。
存在极端值问题
当有开口组时,无法计算极差
MAX-MIN
管理定量分析
调查与统计分析
二、四分位数
反映中间50%数据的离散程度,测度中位数
的代表程度
中位数是二分位数。
四分位内距(四分位差):将一组数据四等
分,得到三个数,设Q1为其第一分位数,
Q2为中分位数,Q3为第三分位数,第三和
第一分位点之间的距离为四分位内距。计算
公式:
R= Q3-Q1
管理定量分析
四分位点的离差:
调查与统计分析
DR=( Q3-Q1) / 2
四分位差小,中间部分数据分布集中,中位
数代表程度较高
四分位差大,中间部分数据离散程度大,中
位数代表程度较低
EXCEL中的QUARTILE函数
四分位内距在定性分析的德尔斐法中得到广
泛应用。
管理定量分析
调查与统计分析
三、平均偏差
反映平均偏差的指标有两个:方差和标准差。了
解这二者之前首先认识一下绝对偏差。计算函数:
AVEDEV
平均绝对偏差= ∑ x- μ
(适用于总体)
N
平均绝对偏差= ∑ x- x
(适用于样本)
n
其中:x为观察值;N、n分别为总体和样本的容量;
μ为总体平均值;x 为样本平均值。
管理定量分析
调查与统计分析
均值±平均绝对偏差
可作图检查观察值落入均值±平均绝对偏差
所夹区域的点数和落在区域外的点数,进而
判断观察值偏离中心(平均值)的程度
·
·
·
·
·
·
·
·
管理定量分析
调查与统计分析
四、方差和标准差
刻画离散趋势常用指标
标准差越大,数据距均值的平均离散程度就越高
方差是标准差的平方
方差和标准差都能衡量观察值的分散程度。
EXCEL 中 的 计 算 函 数 : 方 差 VARP ; 标 准 差
STDEVP
对正态分布,用标准差能精确地确定落在平均数
两侧某个范围内的频率分布是多大。
管理定量分析
调查与统计分析
五、变异系数和偏态系数
1、变异系数
有两组观察值的平均值相同,从平均差或标准差
的计算结果可以看出这两组值的变动差异程度;
两个平均值不相等,就难以比较它们之间的变动
差异程度,为此引进计算变动度的指标——变异
系数。
管理定量分析
调查与统计分析
变异系数:反映数列变动的相对程度,是标
准差与平均值的比。
V = s / x
由于变异系数反映了数组的相对离散程度,
从而可以比较平均值不同的两组数列的离散
程度。
管理定量分析
调查与统计分析
在EXCEL中,
计 算 AVERAGE ,
再 计 算 STDEVP ,
最后计算二者比值
(标准差/均值)即
为变异系数
管理定量分析
调查与统计分析
2、偏态系数(Skewness)
平均值描述了频率分布的集中趋势和离散趋势,
偏态系数SK描述频率分布的偏斜方向:
SK=
3( x-Me)
s
偏态系数测度数据分布的偏斜方向和程度,系数
绝对值越大,分布的偏斜程度就越大。
管理定量分析
调查与统计分析
SK>0,分布向右倾斜,存在偏大的极端值,
有一条长尾拖在右边;
SK<0,分布向左倾斜,存在偏小的极端值,
有一条长尾拖在左边;
SK=0,分布是对称的。
EXCEL中的SKEW函数
管理定量分析
调查与统计分析
3、峰度系数(Kurtosis)
测度数据分布是陡峭或平缓的指标
KU=0
与正态分布相同
KU>0 尖峰分布,比正态分布陡
KU<0 平峰分布,比正态分布缓
EXCEL中的KURT函数
管理定量分析
调查与统计分析
如果测度数据分布比标准正态分布更瘦、更高、更
陡峭,则称为尖峰分布。
如果测度数据分布比标准正态分布更扁平,则称为
平峰分布。
峰度系数用来度量数据在中心聚集程度。正的峰度
系数说明观察量更集中,有比正态分布更长的尾部;
负的峰度系数说明观测量不那么集中,有比正态分
布更短的尾部,类似于矩形的均匀分布。
管理定量分析
调查与统计分析
俄国数学家契比雪夫证明:
无论是什么形状的分布,至少有75%的数据落在
平均数加减2个标准差的范围内;至少有89%的
数据落在加减3个标准差的范围内。
对于正态分布的曲线,有68%的观察值落在平均
数μ加减1个σ的范围内,95%的观察值落在平均
值μ加减2个σ的范围内,99%的观察值落在平均
值μ加减3个σ的范围内。
管理定量分析
调查与统计分析
按年龄分组(不等距)
0-6岁
7-12岁
13-18岁
19-28岁
29-55岁
55-
开口组
管理定量分析
调查与统计分析
假设有A、B两种股票,已知一个月的交易日
收盘价的均值与标准差,试比较两者的波动
幅度
xA=15.3元
sA=5.8元
xB=21.2元
sB=7.5元
VA=0.379085
VB=0.353774
管理定量分析
调查与统计分析
已知 某良 种 猪场 长 白成 年 母猪平均体重为
190kg,标准差为10.5kg,而大约克成年母
猪平均体重为196kg,标准差为8.5kg,试问
两个品种的成年母猪,哪一个体重变异程度
大。
此例观测值虽然都是体重,单位相同,但它
们的平均数不相同,只能用变异系数来比较
其变异程度的大小。
管理定量分析
调查与统计分析
由于,长白成年母猪体重的变异系数:
10.5
C V
100% 5.53%
190
大约克成年母猪体重的变异系数:
8.5
C V
100% 4.34%
196
所以,长白成年母猪体重的变异程度大于大
约克成年母猪。