管理定量分析2

Download Report

Transcript 管理定量分析2

管理定量分析
主讲人:赵丽
政治与公共事务管理学院
[email protected]
管理定量分析
调查与统计分析
 教学目标与要求:
掌握搜集资料的基本方法
学会基本的数据分析方法
认识中心趋势分析以及离散分析。
管理定量分析
调查与统计分析
第一节 搜集资料
管理定量分析
调查与统计分析
量化分析的过程就是从搜集
信息开始,进行信息加工处
理——整理、分类、分析,
最后得到结论的过程。
管理定量分析
调查与统计分析
 一、搜集信息的方法
 调查是搜集信息的主要手段,分全面调查和非全
面调查(普查和抽样调查)两大类。
1、全面调查——普查
 根据要求,对所涉及的全部对象一个不漏地进行
调查。
管理定量分析
调查与统计分析
 遵循“统一”原则:
统一调查目的、要求、调查对象;
统一调查时间;
统一编号,所涉及的各个项目及其可能的选择
给予互不相同的编号;
统一调查项目并给予正确的解释,制定栏目、
格式完全一致的调查问卷;
统一调查方式,如“人口普查”中派“调查员”
入户询问、等级问卷;
管理定量分析
调查与统计分析
按统一标准培训;
统一数据汇总原则和方式;
统一数据处理方法(如采用同一软件);
统一调查结果的汇总、上报方式和时间;
统一解释权归属;
其他需要统一的内容。
管理定量分析
调查与统计分析
 2、非全面调查
典型调查:根据调查目的,选择在同类对象
中最具典型性的单位或个人进行调查;
重点调查:根据调查目的,选择最具代表性
的对象进行调查。
管理定量分析
随机抽样调查:根据
调查目的,在调查对
象中随机抽取调查对
象,获取资料,进行
分析。
调查与统计分析
管理定量分析
调查与统计分析
普查、抽样调查的比较
普
查
抽 样 调 查
对
象
被调查对象全体,一个不漏
部分被调查对象,随机—机会均等
要
求
准确无误,必须一次成功
有代表性
投
入
巨大的人力物力等资源投入
较小的资源投入
耗
时
从准备到完成耗时很长
耗时较少
程序方法
大体相同
两次调查间隔 数年以上
例
结
全国人口普查
果
按需要随时可进行
人口素质调查
“4050”就业情况调查
全局意义,但是可能有误差; 是样板,对全局有参照意义,可能
误差比抽样调查小
有误差
管理定量分析
调查与统计分析
 二、调查误差
 1、误差的类型
 工作误差:由调查工作本身造成的。
 代表性误差:用样本推断总体而引起的。
管理定量分析
调查与统计分析
2、误差产生的原因
 调查方案设计的问题,如指标含义不清、调查口径
不一致,调查方法不完善;
 资料重复或者遗漏;
 被调查对象提供的信息不准确(故意、无意——记
忆差错等);
管理定量分析
 调查员工作疏忽大意;
 个别参与调查的人员弄虚作假;
 测量工具不准确;
 输入汇总资料时产生差错;
 其他。
调查与统计分析
管理定量分析
调查与统计分析
 3、如何控制误差
调查方案设计力求完善,涉及的术语有唯一准
确的定义;计算方法要简洁。
组建具有一定权威的调查机构,选用责任心强、
专业、训练有素的调查员。
管理定量分析
调查与统计分析
做好被调查对象的宣传、解释工作。
小范围、小规模的模拟调查,事先发现问题,
尽早纠正差错。这对普查尤其重要。
严格采样、汇总、处理数据的方法和步骤。
及时抽查,及时纠正问题。
必要的奖惩措施。
管理定量分析
调查与统计分析
 4、注意事项
目标明确,概念界定清楚,程序和日程安排明白
无误,组织严谨,参与调查的人员训练有素。
在保证目标的基础上,问卷设计简洁合理,设问
有内在联系,可相互佐证。
搜集、整理、加工信息的方法科学、实用。
调查误差虽然不可避免,但可以通过努力降至最
小。
管理定量分析
调查与统计分析
 三、调查步骤
以问卷调查为例,大致需要经过如下步骤:
 1、首先,确定问题,明确调查的主题——围绕什么中
心搜集资料。
管理定量分析
调查与统计分析
2、其次,列出大纲,将主题“细化”,设计好
问卷。内容包括:
 基本调查项目,这类项目在资料分析时往往作“自
变量”:
被调查对象是单位:名称、性质、成立时间、地
理位置、职工人数……
被调查对象是个人:姓名(若属匿名调查,则不
登记姓名)、性别、年龄、职业、文化程度……
管理定量分析
调查与统计分析
管理定量分析
调查与统计分析
 态度、看法。
 行为取向。
 理由:采取某种行为、态度的理由或动机。
 其他需要说明的问题。
3、确定样本(问卷发放)数量、范围(被调查
对象的条件,选择被调查对象的原则)。
4、有指导地发放、填写问卷。
5、回收问卷。
管理定量分析
调查与统计分析
6、初步分析整理问卷,在整理数据之前,对资
料(数据)的有效性进行初步分析:
 (1)资料来源是否存在偏见?由这些资料得出的结
论是否比别的资料更有价值?
 (2)资料的论据是否充分?与实际情况是否一致?
有没有出乎意料的矛盾?
管理定量分析
调查与统计分析
 (3)调查(观察)的对象和数量是否具有代表性?
 (4)整理后的资料是否合乎逻辑?初步结论是否可
信?相近结论是否相互印证?
7、资料归类、初步数据整理。
8、清点样本总数,输入事先设计的计算机表格。
管理定量分析
调查与统计分析
管理定量分析
第二节
调查与统计分析
数列的频率分析
管理定量分析
调查与统计分析
 原始资料是未经处理输入计算机的数据表格。
输入汇总的资料(数据)怎样排列与直觉判
断关系密切。
 通常在排序前先要选定数据归类法,从而确
定统计的“标志列”及相应变量。
例如被调查对象的职业,被调查对象的年龄,被
调查单位的性质(国营企业?集体企业?民营企
业?个体工商户?)等都可以作标志列。
管理定量分析
调查与统计分析
在做统计分析时,
标志列的元素常被
当作“自变量”使用
管理定量分析
调查与统计分析
 一、数据(观察值)整理排序法
升序:由小到大。
降序:由大到小。
 二、频率法
频率法:就是计算出观察数据落在各数据段中
的频数或频率。
 按照下列步骤编制“定距数列”的频率分布表:
管理定量分析
调查与统计分析
 第一步:确定分组标志和分组数目。
需要明确每一个的上限和下限,可以按等距离分
组,也可以采取不等距离分组。
个别组可以是开口组。
通常分组数由分组间隔大小和数据总数决定。
管理定量分析
调查与统计分析
如果先决定分组数,再采取等距离分段,用下列
公式计算组间距:
 组距=(最大值 - 最小值+1)/分组数
 其中的“1”表示一个观察值单位
 如将1 -100分成10组,组距=(100-1+1)/10=10
管理定量分析
调查与统计分析
 第二步:把数据归入各组,计算各组的观察
值的个数,并填入相应方格。如果采用频率
法,可用下列公式计算每组观察值的频率。
频率 = 该组数据数 / 数据总数
 第三步:制作统计表格。
 第四步:需要时绘制曲线图。
管理定量分析
调查与统计分析
第三节 频率分布的概率度量法
管理定量分析
调查与统计分析
 一、算术平均
需要推断几个样本是否取自同一个总体,要使用
算术平均值。
 1、n个数a1,a2,…,an的算术平均值:
n
∑ ai
a = i=1
n
管理定量分析
调查与统计分析
 EXCEL中的计算函数是AVERAGE
为了计算各个反映中心趋势的量,对分段统计
的数据先要计算“组中值”——每一个分段数
据的“中值”,计算公式:
 组中值=(本组下限+本组上限)÷2
 对于用定距法分段统计数据的资料,可利用
相应的组中值计算算术平均值。
 关于切尾均值(TRIMMEAN)
管理定量分析
调查与统计分析
 切尾均值是从全部数据中去掉指定比率的较
大与较小数值,然后再计算算术平均数。
 如果算术平均数和切尾均值差异不十分明显,
表明算术平均数没有受到极端值的显著影响,
可以粗略地认为数据中不存在显著的极端值。
 例如,比赛或者评委打分的去掉一个最高分,
去掉一个最低分
管理定量分析
调查与统计分析
管理定量分析
调查与统计分析
管理定量分析
调查与统计分析
 2、优点
第一,通俗、直观、易懂。
第二,是一个可计算的“单值量”,任何一
组数据都有且仅有一个相应的算术平均数。
如平均收入、人均GDP等。
第三,在计算算术平均数时,所有的数据都
要参加运算,不能用概率推算,因此它是一
个可靠的、具有代表性的度量中心趋势的量。
管理定量分析
调查与统计分析
 3、缺点
第一,算术平均数会受到资料中那些没有代
表性的、特殊的数据影响。对于这类观察值,
算术平均值并不具备代表性。
第二,存在无下限或无上限的“开口组”时,
无法计算组中值,也就无法计算平均值。
管理定量分析
调查与统计分析
 二、加权平均值
在数理统计中,加权平均值又称数学期望。
算术平均法只考虑参与平均的数,而没有考虑
每个数的频率。
加权平均法考虑了频率分布的情况,使数量大
的数据在计算平均值时占比较大的比重;数量
小的数据在计算平均值时占比较小的比重。
管理定量分析
调查与统计分析
 衡量数量多少的标准取决于有关数据在总体
资料中所占比重的大小,即频率。一般情况
下,用频率作为权重。也可以直接使用观察
值的个数。加权算术平均值计算公式:
权重总和为1:
n
a = ∑ ai × ωi
i=1
权重总和不为1:(直接用每段数据作为权重)
n
k
a = ∑ ai × i
i=1
n
管理定量分析
调查与统计分析
 三、几何平均值
 计算公式:
 几何平均值和算术平均值很接近,前者往往
更接近实际情况。
 EXCEL中的计算函数是GEOMEAN。
管理定量分析
调查与统计分析
 四、中位数
1、中位数Me:一个位于一组观察值的中心位置
的参数。
 大于它和小于它的参数相等。对于按序排列的奇数个
观察值中位数就是最中间的那个数,偶数个观察值的
数列的中位数是中间两位数的平均值。中位数对应的
足标:第(n+1)/2项
 EXCEL中的计算函数是MEDIAN。
管理定量分析
调查与统计分析
奇数:5 9 11 13 19 25 33
偶数:1 5 9 11 13 19 25 33
 足标(8+1)/2=4.5
中位数(11+13)/2=12
2、优点
 (1)不会受到特殊数据的影响;
 (2)无论是分组资料还是不分组资料都可以计算中
位数,且直观、易懂。
管理定量分析
调查与统计分析
 组中值(闭口组)=(上限+下限)/2
 组中值(只有上限)=上限-相邻组的组距/2
 组中值(只有下限)=下限+相邻组的组距/2
 组距=(最大值-最小值)/组数
 组距=全距/组数
管理定量分析
调查与统计分析
 五、众数
众数Mo:资料中重复出现次数最多的数,即频
率最高的数。
 7 15
6 13 7 9 23
7 43 8 6 32
对于一个定序数列, EXCEL中的计算函数是
MODE。
管理定量分析
调查与统计分析
定距数列的众数计算方法:
 Mo = L + d1 /(d1+d2) *ω
L为众数组的下限;
d1为众数组的频率与下邻组的频率差;
d2为众数组的频率与上邻组的频率差;
ω为众数组的组距宽。
众数可以用来测定品质资料的中心位置。
管理定量分析
调查与统计分析
 六、平均数、中位数、众数的适用性比较
 1、比较
名
称
平均数
算术平均
加权平均
中位数
几何平均
适 定类
用
定序
○
○
◎
定距
◎
○
不 适 用
备
注
开
口
求平均增长比
组
其它情况
众
数
◎
○
开口组或变量间
差异较大
1、适用分类以观察值汇总方法为准。
2、三者相比“最好”用◎标志的参数,“可以”用○标志的参数
管理定量分析
调查与统计分析
 2、平均数、中位数、众数三者的关系
 三个参数大小关系不同,反映观察值的分布特点。
三个参数关系与分布特点
对称分布
平均数=中位数=众数
向左倾斜
平均数≤中位数≤众数
向右倾斜
平均数≥中位数≥众数
管理定量分析
调查与统计分析
三种典型的分布图:(单峰值情况)
对称分布
向左倾斜
向右倾斜
管理定量分析
调查与统计分析
 观察值对称分布:平均数、中位数、众数是
同一个数;
 观察值向左倾斜:平均数在最左边,中位数
居中,众数在最右边;
 观察值向右倾斜:众数在最左边,中位数居
中,平均数在最右边。
 结论:当总体分布是向右倾斜或向左倾斜时,
以中位数度量中心为好。
管理定量分析
具有双峰的分布曲线
调查与统计分析
管理定量分析
第四节
调查与统计分析
变量的特性分析
管理定量分析
调查与统计分析
 观察值的分布不仅取决于“中心趋势”,还
取决于“离心趋势”。描述观察值与中心趋
势之间存在什么样的关系。也叫“离散趋
势”、“离中趋势”。
 离散趋势:观察值关于中心的分散程度。可
以帮助我们了解中心趋势的可靠性。
 描述离散趋势的量有极差、平均偏差、四分
位内标准差等。
管理定量分析
调查与统计分析
 一、极差
极差:又称全距,是一组观察值中最大值与最小
值的差。
 极差=最大观察值 - 最小观察值
 用途:衡量一组观察值的极端差距。
 极差并不能反映一组观察值内在的特性。离
散程度差别很大的两组观察资料,可能有相
同的极差。
管理定量分析
调查与统计分析
 即使从同一组观察值抽取两组不同的样本,
可能极差相去甚远。一般样本数越大,得到
异常值的机会也越大,极差也越大。因此,
极差对样本数过于敏感。
 存在极端值问题
 当有开口组时,无法计算极差
 MAX-MIN
管理定量分析
调查与统计分析
 二、四分位数
 反映中间50%数据的离散程度,测度中位数
的代表程度
中位数是二分位数。
 四分位内距(四分位差):将一组数据四等
分,得到三个数,设Q1为其第一分位数,
Q2为中分位数,Q3为第三分位数,第三和
第一分位点之间的距离为四分位内距。计算
公式:
R= Q3-Q1
管理定量分析
四分位点的离差:
调查与统计分析
DR=( Q3-Q1) / 2
 四分位差小,中间部分数据分布集中,中位
数代表程度较高
 四分位差大,中间部分数据离散程度大,中
位数代表程度较低
 EXCEL中的QUARTILE函数
 四分位内距在定性分析的德尔斐法中得到广
泛应用。
管理定量分析
调查与统计分析
 三、平均偏差
反映平均偏差的指标有两个:方差和标准差。了
解这二者之前首先认识一下绝对偏差。计算函数:
AVEDEV
平均绝对偏差= ∑ x- μ
(适用于总体)
N
平均绝对偏差= ∑ x- x
(适用于样本)
n
 其中:x为观察值;N、n分别为总体和样本的容量;
 μ为总体平均值;x 为样本平均值。
管理定量分析
调查与统计分析
 均值±平均绝对偏差
 可作图检查观察值落入均值±平均绝对偏差
所夹区域的点数和落在区域外的点数,进而
判断观察值偏离中心(平均值)的程度
·
·
·
·
·
·
·
·
管理定量分析
调查与统计分析
 四、方差和标准差
刻画离散趋势常用指标
标准差越大,数据距均值的平均离散程度就越高
方差是标准差的平方
方差和标准差都能衡量观察值的分散程度。
EXCEL 中 的 计 算 函 数 : 方 差 VARP ; 标 准 差
STDEVP
对正态分布,用标准差能精确地确定落在平均数
两侧某个范围内的频率分布是多大。
管理定量分析
调查与统计分析
 五、变异系数和偏态系数
 1、变异系数
有两组观察值的平均值相同,从平均差或标准差
的计算结果可以看出这两组值的变动差异程度;
两个平均值不相等,就难以比较它们之间的变动
差异程度,为此引进计算变动度的指标——变异
系数。
管理定量分析
调查与统计分析
 变异系数:反映数列变动的相对程度,是标
准差与平均值的比。
V = s / x
 由于变异系数反映了数组的相对离散程度,
从而可以比较平均值不同的两组数列的离散
程度。
管理定量分析
调查与统计分析
在EXCEL中,
计 算 AVERAGE ,
再 计 算 STDEVP ,
最后计算二者比值
(标准差/均值)即
为变异系数
管理定量分析
调查与统计分析
 2、偏态系数(Skewness)
平均值描述了频率分布的集中趋势和离散趋势,
偏态系数SK描述频率分布的偏斜方向:
 SK=
3( x-Me)
s
偏态系数测度数据分布的偏斜方向和程度,系数
绝对值越大,分布的偏斜程度就越大。
管理定量分析
调查与统计分析
 SK>0,分布向右倾斜,存在偏大的极端值,
有一条长尾拖在右边;
 SK<0,分布向左倾斜,存在偏小的极端值,
有一条长尾拖在左边;
 SK=0,分布是对称的。
 EXCEL中的SKEW函数
管理定量分析
调查与统计分析
 3、峰度系数(Kurtosis)
测度数据分布是陡峭或平缓的指标
 KU=0
与正态分布相同
 KU>0 尖峰分布,比正态分布陡
 KU<0 平峰分布,比正态分布缓
 EXCEL中的KURT函数
管理定量分析
调查与统计分析
 如果测度数据分布比标准正态分布更瘦、更高、更
陡峭,则称为尖峰分布。
 如果测度数据分布比标准正态分布更扁平,则称为
平峰分布。
 峰度系数用来度量数据在中心聚集程度。正的峰度
系数说明观察量更集中,有比正态分布更长的尾部;
负的峰度系数说明观测量不那么集中,有比正态分
布更短的尾部,类似于矩形的均匀分布。
管理定量分析
调查与统计分析
 俄国数学家契比雪夫证明:
无论是什么形状的分布,至少有75%的数据落在
平均数加减2个标准差的范围内;至少有89%的
数据落在加减3个标准差的范围内。
对于正态分布的曲线,有68%的观察值落在平均
数μ加减1个σ的范围内,95%的观察值落在平均
值μ加减2个σ的范围内,99%的观察值落在平均
值μ加减3个σ的范围内。
管理定量分析
调查与统计分析
 按年龄分组(不等距)
 0-6岁
 7-12岁
 13-18岁
 19-28岁
 29-55岁
 55-
开口组
管理定量分析
调查与统计分析
 假设有A、B两种股票,已知一个月的交易日
收盘价的均值与标准差,试比较两者的波动
幅度
 xA=15.3元
sA=5.8元
 xB=21.2元
sB=7.5元
 VA=0.379085
 VB=0.353774
管理定量分析
调查与统计分析
 已知 某良 种 猪场 长 白成 年 母猪平均体重为
190kg,标准差为10.5kg,而大约克成年母
猪平均体重为196kg,标准差为8.5kg,试问
两个品种的成年母猪,哪一个体重变异程度
大。
 此例观测值虽然都是体重,单位相同,但它
们的平均数不相同,只能用变异系数来比较
其变异程度的大小。
管理定量分析
调查与统计分析
 由于,长白成年母猪体重的变异系数:
10.5
C V 
100%  5.53%
190
 大约克成年母猪体重的变异系数:
8.5
C V 
100%  4.34%
196
 所以,长白成年母猪体重的变异程度大于大
约克成年母猪。