Transcript 第一章导论
统计学原理
目录
第一章 导论
第二章 统计数据的调查与收集
第三章 统计数据的整理
第 四 章 数据分布特征的描述
第五章 时间序列分析
第六章统计指数
第七章抽样与抽样估计
第一章 导论
学习目的及重难点提示
本章学习目的
了解统计理论和实践活动的产生和发展。
领会统计的三层含义、统计学的分科。
理解和掌握统计学中的几个基本范畴。
章节地位及重难点提示
本章介绍统计学及相关概念,勾勒了本课
程的框架结构——描述统计学和推断统计
学。
重点是统计的三层含义,总体、样本及指标
等概念。
第一节
统计学的产生和发展
一、统计的三层含义及相互关系*
(一)统计工作(统计的基本含义)
即统计实践活动,是人们对客观事物的数据资料进
行搜集、整理、分析的工作活动的总称。
(二)统计资料
是统计工作的成果,包括各种统计报表、统计图形
及文字资料等。
(三)统计学
是一门收集、整理、描述、显示和分析统计数据的
方法论的科学,其目的是探索事物的内在数量规律性,
以达到对客观事物的科学认识。
(四)三者关系
二、统计实践活动的产生与发展*
(一)统计的起源
1.起源于原始社会末期。
2.人类社会早期的统计实践活动。
(二)统计的发展
1.资本主义社会里统计实践活动得到较快
的发展。
2.1853年在比利时首都布鲁塞尔召开了第一
届国际统计会议。
3.1995年8月在北京召开了第50届国际统计
年会。
三、统计科学的发展
(一)古典统计学时期(17世纪中后期~
18世纪中后期)
1.政治算术学派:代表人物威廉·配第(政治经
济学之父),首次运用数量对比分析法,又称
“有名无实”的统计学。
2.记述学派/国势学派:“统计学是研究一国
或多国的显著事项之学”,以文字描述为主,
又称“有实无名”的统计学。
3.图表学派:用统计图和统计表表现和保存
统计资料。
三、统计科学的发展
(二)近代统计学时期(18世纪末~19世
纪末)
1.数理统计学派:创始人阿道夫·凯特勒,
第一次将概率论引入社会经济现象的研究中,
被誉为“近代统计学之父”。
2.社会统计学派:代表人物恩格尔,采
用大量观察法研究社会经济现象总体。
三、统计科学的发展
(三)现代统计学时期(20世纪初至今)
1.主要成果:在随机抽样基础上建立了推
断统计学。
2.数理统计学的发展特点与趋势
(1)数学方法的广泛应用。
(2)边缘统计学的形成。
(3)借助计算机手段,统计学的应用日益
广泛和深入。
第二节 统计学的分科
一、从统计方法的构成角度分*
(一)描述统计学(descriptive statistics)
研究如何取得、整理和表现数据资料,进而通过综
合、概括与分析反映客观现象的数量特征。包括数据的
收集与整理、数据的显示方法、数据分布特征的描述与
分析方法等。
(二)推断统计学(inferential statistics)
研究如何根据样本数据去推断总体数量特征的方
法。包括抽样估计、假设检验、方差分析及相关和回归
分析等。
(三)描述统计学和推断统计学的关系
描述统计学是统计学的基础和统计研究工作的前提,
推断统计学则是现代统计学的核心和统计工作的关键。
二、从统计方法的研究和应用角度分
(一)理论统计学(theoretical statistics)
利用数学原理研究统计学的一般理论和方
法的统计学,如概率论与数理统计
(二)应用统计学(applied statistics)*
研究如何应用统计方法解决实际问题,大
多是以数理统计为基础形成的边缘学科。如
自然科学领域的生物统计学、社会科学领域
的社会经济统计学等。
三、统计学与其他学科的关系
(一)统计学与哲学的关系
哲学为统计学提供世界观和方法论的指导。
(二)统计学与数学的关系
1.区别
(1)研究对象不同:数学研究抽象的量,
统计研究具体的量。
(2)研究方法不同:数学是演绎,统计是归纳和演
绎的结合。
2.联系
数学为统计研究提供数学公式、模型和分析方法。
三、统计学与其他学科的关系
(三)统计学与其他学科的关系
统计几乎与所有学科都有联系,本书侧重介
绍统计与管理学和经济学的关系。
本教材的篇章结构
第一章 导论
第一篇 统计基础篇
第二章 统计数据的调查与收集
表格与图形法——
第二篇 描述统计篇 静态数据描述法——
第三章 统计
数据的整理
第四章 数据分
布特征的描述
第五章 时间序列
动态数据描述法 分析
第六章 统计指数
第七章 抽样与抽样估计
第三篇 推断统计篇 第八章 假设检验与方差分析
第九章 相关与回归分析
第四篇 统计常识篇——第十章 常用国民经济核算指标
与分析
本章小结
一、统计的三层含义:统计工作、统计资料和
统计学。
二、统计学的分科
(一)从统计方法的构成看,分为描述统计学和
推断统计学。
(二)从统计方法的研究和应用看,分为理论统
计学和应用统计学。
四、统计学中的基本概念
(一)总体、总体单位和样本。
(二)指标和指标体系。
END
第二章
统计数据的调查与收集
学习目的及重难点提示
本章学习目的
了解统计调查的概念和分类。
领会统计数据的计量尺度、数据和变量的类型。
明确统计调查方案的设计内容。
掌握统计数据的来源、统计调查组织方式。
本章重难点提示
重点:数据的计量尺度、数据和变量的类型,
普查、抽样调查等统计调查组织形式。
难点:数据的计量尺度、数据和计量尺度之间
的关系。
第一节
数据的计量与类型
一、数据的计量尺度**
(一)定类尺度(nominal scale)
1.概念:又称列名尺度或类别尺度,是按照研究对象
的某种属性将其划分为若干组或类的一种测度。
2.举例:
人的性别 、籍贯、民族、职称;
企业的所有制性质、行业隶属。
3.特征
(1)只能区分事物的类别,无法比较优劣或大小。
(2)对事物的区分必须遵循穷尽和互斥的原则。
(3)对定类尺度计量分析的统计量主要是频数和频
率。
**应用:想一想生活中还有哪些常见的定类尺度?
一、数据的计量尺度
(二)定序尺度(ordinal scale)
1.概念:又称顺序尺度,它是对事物之间等级或顺序
差别的一种测度。
2.举例:教师的职称、学历,商品的质量等级等。
3.特征
(1)对事物可以分类、比较优劣和大小。
(2)对事物的分类要求穷尽和互斥。
(3)对定序尺度计量分析的统计量除频数和频率
外,还有累计频数和累计频率。
**应用:想一想生活中还有哪些常见的定序尺度?
一、数据的计量尺度
(三)定距尺度(interval scale)
1.概念:又称间隔尺度,是对事物类别或次序之间
的间隔进行的一种测度。
2.举例:学生的考试成绩、人的身高、温度等。
3.特征
(1)能分类、排序、比较大小,计量差距。
(2)没有绝对零点,“0”表示“0”水平,不表示
“没有”或“不存在”。
**应用:还有哪些常见的定距尺度?
一、数据的计量尺度
(四)定比尺度(ratio scale)
1.概念:也称比率尺度,是对事物之间比值的一
种测度。
2.举例:人的收入支出、企业的产值利润、某地
区的人口总数、失业人数等
3.特征
(1)分类、排序、比较大小、求出差异、计算两
个数值之间的比率。
(2)具有绝对零点,即数字“0”表示“没有”或
“不存在”。
**应用:举一现实生活中的例子说明定比尺度的
两个特征。
表2-1 四种计量尺度的比较
数学特征
定类
尺度
分类(=,≠)
可以
排序(>,<)
间距(+,-)
比值(×,÷)
定序
尺度
定距
尺度
定比
尺度
可以
可以
可以
可以
可以
可以
可以
可以
可以
二、数据的类型
(一)数据的类型和表现形式
1.定性数据(品质数据)
(1)概念:说明事物的品质特征,不能以数值表
示,只能以文字表述,由定类和定序尺度计量形
成。
(2)举例:高校教师职称有助教、讲师、教授等。
2.定量数据 (数量数据)
(1)概念:说明现象的数量特征,以数值表示。由
定距和定比尺度计量形成。
(2)举例:考试成绩80分、95分、100分,身高
1.73米、1.80米等。
**应用:举例说明还有哪些常见的定性数据和定量
数据。
(二)变量及其类型
1.变量的含义
说明现象某种属性或数量特征的概念称为变量。统
计数据就是变量的具体表现。
2.变量的类型
(1) 品质变量:反映事物品质特征的名称,表现为定性
数据。如教师职称。
(2)数值变量:反映事物数量特征的名称,表现为定量
数据。如人的身高。
3.数值变量的分类
(1)离散变量:只能间断计数的变量。如人口数、设备
台数等。
(2) 连续变量:可以连续计数的变量。如产值、利润、
收入、年龄等。
第二节
数据的直接来源——统计调查
一、统计调查的概念和分类
(一)概念
根据统计的目的和任务,运用科学的调查
方法,有计划、有组织地向客观实际搜集和登
记统计数据的过程。
(二)分类
1.按调查对象包括的范围不同
(1)全面调查:对调查对象的全部个体一一
调查登记,如普查。
(2)非全面调查:对调查对象的部分个体调
查登记,如抽样调查。
统计调查的分类
2.按照调查组织方式不同
(1)统计报表:经常性制度化的调查,是搜
集国民经济统计数据的主要方式。
(2)专门调查:为研究一些特殊问题专门组
织的统计调查。
3.按照调查登记的时间是否连续
(1)经常性调查/连续性调查:适用于时期
现象的调查。
(2)一次性调查/间断性调查:适用于时点
现象的调查。
二、统计调查方法
(一)直接观察法
(二)报告法:如我国的统计报表制度。
(三)采访法:具体分为个别口头询问、被调
查者填表、开调查会等形式。
(四)通讯法:通过邮寄调查问卷、被调查者
填表获取信息。
(五)电话访问
(六)网上调查法
三、对统计调查数据的基本要求
(一)准确性
(二)及时性
(三)系统性
(四)完整性
(五)经济性
总体要求:以准确为前提,准中求快,力争以
较少的投入取得完整、系统的数据资料。
四、统计调查方案的设计*
(一)确定调查的目的和任务(为什么调查)
这是设计方案的首要问题。
(二)确定调查对象和调查单位(向谁调查)
1.调查对象:需要进行调查的某一社会经济
现象的总体。对应于统计总体。
2.调查单位:调查对象中需要调查的具体单
位。对应于总体单位。
四、统计调查方案的设计
(三)确定调查项目(调查什么)
(四)设计调查表(调查问卷如何设计)
(五)确定调查时间**
调查数据资料所属的时间
两层含义
调查时限,调查工作的起讫时间
(六)制定调查组织实施计划
五、统计调查的组织方式
(一)普查
1.概念:是专门组织的、一次性的全面调查。
2.意义及原则
**相关链接——我国的普查制度
每逢末尾数字为“0”的年份进行人口普查。
每逢末尾数字为“1”或“6”的年份进行基本统计单
位普查。
每逢末尾数字为“3”的年份进行第三产业普查。
每逢末尾数字为“5”的年份进行工业普查。
每逢末尾数字为“7”的年份进行农业普查。
五、统计调查的组织方式
(二)统计报表
1.概念:我国的统计报表制度是依照《中华人民共和
国统计法》的规定,自上而下统一布置,自下而上逐级
提供基本统计数据的一种调查方式。
2.意义:是搜集国民经济和社会发展状况统计数据的
主要方式。
3.局限性:
五、统计调查的组织方式
(三)抽样调查**
1.概念:是专门组织的非全面调查。它是按照随机原
则从总体中抽取部分单位组成样本,以样本数据推断总
体数量特征。
2. 意义:是相对最科学、应用最广的调查方式。
3. 特点:(1)经济性高。
(2)时效性强。
(3)适应面广。
(4)准确度高。
五、统计调查的组织方式
(三)抽样调查**
4.抽样调查的作用(应用场合)
(1)不可能或很难进行全面调查的现象,必须采取
抽样调查方法。
(2)没必要进行全面调查的社会现象,也可采用抽样
调查。
(3)其他作用:如对生产过程的质量控制及对全面调
查结果的检验修正。
**思考题:对河水水质进行检测、推断种子的发芽
率、推断食品的保质期应采用什么调查方式?为什么?
五、统计调查的组织方式
(四)重点调查**
1.概念:在调查对象中选择一部分重点单位所进行的
非全面调查。
2.重点单位:是指在总体中虽然个数不多,但它们的
数据总量在总体数据总量中占绝大部分比重。
**相关链接:我国银行业中的重点单位
截至2004年底,工、农、中、建四家国有商业银行
各项贷款近13万亿元,占我国银行业贷款总额的72%,
存款近25万亿元,占银行业存款总额的77%。从统计学
的角度,四大国有商业银行就是重点调查中的重点单
位。
五、统计调查的组织方式
(五)典型调查*
1.概念:在对调查对象全面分析的基础上,有意识地
选择若干有典型意义或有代表性的单位进行深入、细致
调查的一种非全面调查方式。
2.特点(1)调查范围小,调查单位少,可对某些复
杂的专门问题进行深入、细致的调查。
(2)调查单位是有意识选择的有代表性和典
型性的单位。
3.典型调查的关键:选择典型单位。
第三节
统计数据的间接来源
一、公开的统计出版物
(一)我国官方的统计公开出版物
如中国统计出版社出版:《中国统计年鉴》、《中
国统计摘要》、《中国社会统计年鉴》、《中国工业统
计年鉴》、《中国农村统计年鉴》、《中国人口统计年
鉴》、《中国市场统计年鉴》等。
(二)外文出版物
世界银行各年度的《世界发展报告》、联合国的
《联合国统计年鉴》、联合国粮农组织《生产年鉴》、
国际货币基金组织的《国际金融统计月报》、亚太经合
组织的《亚太统计数字》等。
二、其他渠道
各种报纸、杂志、图书、广播、电视传
媒、网络等
本章小结
复习小结
一、统计数据的计量尺度
(一)定类尺度
(二)定序尺度
(三)定距尺度
(四)定比尺度
二、统计数据的类型
(一)定性数据:由定类和定序尺度计量而成,
反映事物的品质特征。
(二)定量数据:由定距和定比尺度计量而成,
反映事物的数量特征。
复习小结
三、统计数据的来源
(一)直接来源:统计调查和科学试验。
(二)间接来源:引用他人调查或试验的数据。
四、统计调查(数据最主要的直接来源)
(一)统计调查的种类和方法
(二)统计调查方案的设计
(三)统计调查的组织方式:有普查、统计报表、抽样
调查等,其中重点调查是最常用的最科学的调查方法。
五、统计数据的间接来源
包括公开的统计出版物和其他渠道。
END
第三章 统计数据的整理
学习目的及重难点提示
本章学习目的
了解数据整理在统计活动中的地位、数据整理的内容、
数据审核与汇总的技术。
领会统计分组的概念、关键、统计分组体系及次数分
布的类型和特征。
明确统计数据的表现形式——统计表和统计图的基本
内容。
掌握统计分组、分配数列和统计图表的编绘制方法。
本章重难点提示
本章重点:统计分组、变量数列的编制、统计数据的
显示方法——统计表和统计图。
本章难点:统计分组、变量数列的编制、次数分布图
的绘制。
第一节
数据整理的一般问题
一、数据整理的概念和作用
(一)概念
对统计调查所搜集到的数据进行分类和汇总,使
其系统化、条理化、科学化,以得出反映事物总体综
合特征的资料的工作过程。
(二)作用
统计数据整理,是统计调查的继续,也是统计分
析的前提,承前启后,在整个统计工作中具有重要的
作用。
二、数据整理的程序
数据整理方案的设计
数据的审核与检查
数据的排序
数据分组
数据的显示——统计图表
数据的积累与保管
第二节 数据分组
第二节 数据分组
一、数据分组的概念
根据统计研究目的和客观现象的内在特点,
按照选定的某个或几个标志,将被研究的总体
数据分成若干部分的科学分类。
二、数据分组的作用
(1)区分现象的类型。
(2)反映总体的内部结构。
(3)揭示现象之间的依存关系。
(4)反映事物的数量特征和发展规律。
第二节 数据分组
三、数据分组的关键**
选择分组标志和分组划分各组界限(针对数值
型变量)。
四、选择分组标志的原则**
1.根据研究任务和目的选择分组标志。
2.选择能反映事物本质特征或重要特征的标
志。
3.结合现象所处的历史条件和社会经济条件
选择分组标志。
五、统计分组的种类
(一)根据分组变量(标志)的性质不同
按品质变量分组
按数值变量分组
(二)根据采用的分组标志的个数多
少
简单分组:只按一个标志分组
复合分组:按两个或以上的标志分组
第 三 节
分配数列和次数分布
一、分配数列
(一)概念
将总体按分组标志分组后形成的总体单位在各
组的分布,又称次数分布数列或频数分布数列。
(二)分配数列的要素
组别
次数(频数):分布在各组的总体单位数。各组的
次数(频数)之和等于总体单位总数。
频率(比重):各组次数占总次数的比重。各组比
重之和等于100%(或1)。
分配数列实例
表3-1
我国土地状况分组表
按海拔分组
(米)
面
积
(万平方公里)
占总面积比重
(%)
500 以下
500~1000
1000~2000
2000~3000
3000 以上
241.7
162.5
239.9
67.6
248.3
25.18
16.93
24.99
7.04
25.86
合计
960.0
100.00
(三)分配数列的种类
1.按分组标志的性质不同
品质变量数列:按品质变量分组形成
数值变量数列:按数值变量分组形成
2.数值变量数列又可分为:
单项数列:每组只有一个变量值的变量数列
组距数列:每组变量值是一段区间的变量数列
连续变量数列:按连续变量分组形成的数列
离散变量数列:按离散变量分组形成的数列
品质变量分配数列实例
表3-2
某高校在校生性别状况分组表
性别
人数(人)
比重(%)
男生
4500
55.56
女生
3600
44.44
合计
8100
100.00
数值变量分配数列实例
表3-3
营业额(万元)
10 万元以下
某市餐饮业按营业额分组
餐饮企业个数(家)
比重(%)
1350
58.70
10- 50
650
28.25
50-100
180
7.83
100-500
85
3.70
500 万元以上
35
1.52
2300
100.00
合 计
单项式变量数列实例
表3-4
家庭人口数(人)
1
2
3
4
5
6
合 计
某市居民家庭按家庭人口数分组
家庭数(千户)
9.8
27.5
94.6
19.2
10.9
8.0
170.0
比重(%)
5.76
16.18
55.65
11.29
6.41
4.71
100.00
组距式变量数列实例
表3-5
某车间工人按月工资分组
月工资(元)
工人数(人)
比重(%)
500 元以下
16
8.00
500-600
28
14.00
600-700
34
17.00
700-800
56
28.00
800-900
38
19.00
900-1000
18
9.00
1000 元以上
10
5.00
200
100.00
合
计
(四)分配数列的编制
1.概念术语
(1)全距(R)=数列中最大变量值-最小变量值
(2)组限:每一组的最大变量值与最小变量值
上限:每一组的最大变量值
下限:每一组的最小变量值
(3)组距(d):每一组的最大变量值与最小变量值之差
组距=上限—下限
(4)组数:数列中的分组个数。
组数和组距的关系
定性关系:全距一定的情况下,组数和组距呈
反方向变动。
定量关系:
组数=全距/组距=R/d
组距=R/(1+3.322lgN)
式二为确定组距的经验公式,其中N代表组数。
(四)分配数列的编制
1.概念术语
(5)频数(次数)与频率(比重)
(6)品质数列与变量数列
(7)等距数列与异距数列
(8)次数密度:单位组距内分布的总体单位数。
公式:
次数密度=各组次数 / 各组组距
1.概念术语
(9)
开口组:缺上限或缺下限的组
闭口组:上下限齐全的组
(10)组中值及计算**
①闭口组
临近组组限重合时:组中值=(上限+下限)/ 2
临近组组限间断时:组中值=(下限+下组下限)/2
②开口组
缺上限时: 组中值=下限+邻组组距/ 2
缺下限时: 组中值=上限 -邻组组距/ 2
(四)分配数列的编制
2.注意事项
(1)组距最好为5或10的倍数。
(2)最小组的下限略低于最小变量值,最大组的
上限略高于最大变量值。
(3)离散型变量分组,相邻组的组限可以间断,
也可以重叠;连续型变量分组,相邻组的组限必须重
叠。
(4)组限重叠时,临界点的总体单位按“上限不
在内”的原则归组。
(四)分配数列的编制
3.简单次数分布数列的编制步骤
数据排序并计算全距
确定变量数列的形式(单项式或组距式)
确定组数和组距
确定组限
计算各组次数和频率
绘制表格
简单次数分布数列的编制实例
[例3-1]数据资料
某车间40名工人日产零件如下:
65 72
84 66
78 86
66
59
94
57
67
64
90
70
77
86
79
74
83
51
76
68
81
96
75
54
62
98
71 79
84
65 72
89
75
85
简单次数分布数列的编制实例
编制步骤之一——数据排序并确定全距
将数据从低到高排列,形成如下变量序列:
51 54 57 59 62 64 65 65 66 66
67 68 70 71 72 72 74 75 75 76
76 77 78 78 79 81 83 84 84 84
85 86 86 88 89 90 93 94 96 98
计算全距=98-51=47
编制步骤之二——确定变量数列的形式
因变量值较多、变动幅度较大,适宜采用组
距式数列。
简单次数分布数列的编制实例
编制步骤之三——确定组数和组距
[分析] 全距为47,分为5组,组距为10。
编制步骤之四——确定组限
[分析] 离散型变量分组,相邻组的组限可以重叠,也
可间断,本例选择重叠。
编制步骤之五——计算各组的频数和频率
[分析] 根据排序后的变量序列清点各数据区间的频数
并计算比重,也可利用Excel统计软件进行。
简单次数分布数列的编制实例
编制步骤之六——绘制表格
表3-6
某车间工人日产零件分组表
日产零件数量(件)
工人数(人)
比重(%)
50-60
4
10.00
60-70
70-80
8
13
20.00
32.50
80-90
10
25.00
90-100
5
12.50
合计
40
100.00
4.累计次数分布表(图)的编制
(1)累计次数和累计频率
反映总体单位分布特征的指标,用以说
明总体中在某一变量值水平上下总共包含的
总体单位次数和频率。
(2)累计次数和频率的计算方法
向上累计:是将各组的次数和频率,由变量
值低的组向高的组累计。说明各组上限以下
包含的总体单位数和比率。
向下累计:是将各组的次数和频率,由变量
值高的组向低的组累计。说明各组下限以上
包含的总体单位数和比率。
累计次数分布数列的编制实例
[例3-2] 根据例3-1编制的累计次数分布表如下:
表3-7
某车间工人日产零件累计分组表
日产零件 工人数 比重
数量(件) (人) (%)
50-60
4
10.00
向上累计
次数
频数
4
10.00
向下累计
次数
频数
40
100.00
60-70
70-80
8
13
20.00
32.50
12
25
30.00
62.50
36
28
90.00
70.00
80-90
10
25.00
35
87.50
15
37.50
90-100
5
12.50
40
100.00
5
12.50
合计
40
100.00
--
--
--
--
二、次数分布
社会经济现象的分布主要有以下三种类型:
(一)钟形分布/丘形分布
1.含义: 特点是“两头小,中间大”,即越靠近中间的变量值分
布次数愈多;愈远离变量值中点分布的次数愈少,形态如钟或
山丘。
正态分布:左右两侧对称分布
2.种类
左偏分布:存在极小变量值时曲线向左偏的
偏态分布
非对称分布
右偏分布:存在极大变量值时曲线向右偏的
非对称分布
正态分布
左偏分布
右偏分布
二、次数分布
(二)U形分布:是指较大和较小的变量值出现的次数多,而中间变
量值出现的次数少,特点是“两头大,中间小” 。
(三)J形分布:J形分布的特征是“一边大,一边小”。即次数随着
变量值的变化大多数集中在某一端的分布。其曲线形如英文字母
的“J”字,具体有正J形分布和反J形分布两种类型。
U形分布
正J形分布
反J形分布
**思考题:以下现象的次数分布符合哪种分布的特征?
A 人群中身高、体重的分布
B 学生考试成绩的分布
C 按人口年龄分布的死亡率
D 餐饮企业销售额的分布
第四节 统计图表
一、统计表
(一)统计表的概念
(二)统计表的结构
1.从形式上看:分为总标题、横行标题、纵栏标题
和统计数值。
2.从内容上看:分为主词和宾词。
(三)统计表的种类
简单表:主词未做任何分组。
简单分组表:主词按一个标志分组。
复合分组表:主词按两个或以上的标志分组。
(四)统计表的编制规则
二、统计图
(一)概念
(二)种类
条形图
直方图和折线图
圆形图
统计表示例
某居民小区家庭按月收入简单分组表
家庭月收入
800-1000
1000-1200
1200-1400
1400-1600
1600-1800
1800-2000
2000-2200
2200-2400
合计
户数
5
7
10
13
8
6
3
2
54
比率
9.26%
12.96%
18.52%
24.07%
14.81%
11.11%
5.56%
3.70%
100.00%
统计图示例
条形图——用长短或高矮来显示数值的大小
家庭人均生活费收入次数分布图
13
14
户数
12
10
10
7
8
6
8
6
5
3
4
2
0
月收入
2
800-1000
1000-1200
1200-1400
1400-1600
1600-1800
1800-2000
2000-2200
2200-2400
统计图示例
折线图——将直方图的各条形中点用线连接起来而得到。
户数
13
10
户数
6
00
00
-
22
00
20
00
-
14
18
00
3
16
12
00
-
10
0-
80
8
7
5
00
户数
14
12
10
8
6
4
2
0
月收入
2
统计图示例
圆形图/饼图:是以圆形的分割来表示总体的分组及结构。
(某居民小区家庭按月收入分组情况)
11.11%
5.56%
14.81%
3.70%
9.26%
24.07%
18.52%
12.96%
800-1000
1000-1200
1200-1400
1400-1600
1600-1800
1800-2000
2000-2200
2200-2400
本章小结
一、统计数据整理
统计数据整理是统计数据调查的继续和数据分析
的前提,是感性认识上升到理性认识的连接点。数据
整理的前提是审核,分组汇总是核心。按品质变量分
组的关键是界定各类型组的性质差异,按数值变量分
组的关键是正确确定各组的数量界限,即组数与组限。
二、统计分组
统计分组必须遵循穷尽性和互斥性两个原则。数值
变量分组有单项式和组距式两种。组距式分组又有离
散型与连续型、等距与异距分组之分,对于组距式分
组要计算组距、组数、组中值。
本章小结
三、分配数列/次数分布数列
由两个要素构成,一是组别,二是各组次数或频率。
根据需要,可以编制简单次数分布表和累计次数分布
表。
四、次数分布
主要有钟形分布、U形分布和J形分布。
五、统计表和统计图
统计表和统计图是显示统计数据的两种重要形式。
统计表的结构从形式看可分为总标题、横表目、纵标
目和指标数值;从内容上看可分为主词和宾词两部分。
统计图主要有条形图、直方图、圆形图等。
END
第四章
数据分布特征的描述
学习目的和重难点提示
本章学习目的
领会数据分布的各种特征:集中趋势、离散趋势、偏
斜程度和峰度。
掌握数据分布特征各测定值的计算方法、特点及其应
用场合。
本章重难点提示
数据分布特征的描述方法,如何使用一些统计量来对
数据进行概括性测定。
数据分布特征各测定值的计算方法、特点及其应用场
合。
第一节
数据分布集中趋势的测定
一、均值 (平均数、数值平均数,
mean)
(一)概念
均值是反映数据分布集中趋势十分重要的数
据,代表总体单位某一标志值的一般水平。
(二)特征
1.具有抽象性。
2.具有代表性。
3.反映总体分布的集中趋势。
(三)举例
1.某市中学生每周平均上网时间为2.8小时。
2.某农贸市场2月份牛肉的平均价格为16元/千
克。
3.某地区“十五”期间经济平均增长率为
9.6%。
(四)均值的种类及计算
1.算术平均数**
(1)概念
算术平均数又称平均值,是用一组数据中所有值之和
除以该组数据的个数。
(2)基本公式
总体标志总量
算术平均数
总体单位总量
算术平均数的计算
**简单算术平均数:
N
总体平均数
X
i 1
X1 X 2
N
i
N
XN
n
样本平均数
X
X
i 1
n
i
X1 X 2
n
Xn
算术平均数的计算
**加权算术平均数
概念:是对每个数据都根据其在全组中的重要程度赋
予一定权重后得到的算术平均数。
计算公式:
(1)未分组数据
X 或X w
wX
w
其中,w表示各组的标志总量,而不是各组变量值出
现的次数,总体和样本加权算术平均数的公式是相同。
[例4-1]根据某公司四个品牌数码相机的销
售资料计算平均利润率。
表4-1
品牌
四个品牌数码相机的利润率和销售额资料
利润率 X (%)
销售额, w(万元)
利润额 wX (万元)
A
5.2
300
1 560
B
6.5
200
1 300
C
8.4
50
420
D
11.1
40
444
n
合计
--
w 590
i 1
i
n
w X
i 1
i
i
37.24
利润总额
因为: 商品销售利润率
销售总额
所以,四个品牌数码相机的平均销售利润率为:
n
Xw
w X
i 1
n
i
w
i 1
i
i
3724
6.3%
590
**加权算术平均数
⑵ 分组的加权平均数:根据分组数据计算均值。
样本均值的计算公式:
k
M i fi
M1 f1 M 2 f 2 ... M k f k
X
i 1
f1 f 2 ... f k
n
总体均值的计算公式:
k
M 1 f1 M 2 f 2 ... M k f k
f1 f 2 ... f k
M
i 1
i
fi
N
其中,M i 表示各组的变量值(组距式数列的组中值);
fi
表示各组变量值出现的频数(即权数)。
[例4-2]根据某电脑公司在各市场上销售量的
分组数据,计算电脑销售量的均值。
按销售量分组(台)
组中值(Mi)
140~150
150~160
160~170
170~180
180~190
190~200
200~210
210~220
220~230
230~240
145
155
165
175
185
195
205
215
225
235
合
—
计
市场个数(fi)
4
9
16
27
20
17
10
8
4
5
∑fi= 120
k
X
M
i 1
n
i
fi
22 200
185(台)
120
Mi fi
580
1395
2640
4725
3700
3315
2050
1720
900
1175
∑Mi fi =22200
2.调和平均数
(1)概念:
调和平均数又称倒数平均数,是各个变量值倒
数的算术平均数的倒数。
(2)计算
简单调和平均数:针对未分组资料。
计算公式为:
Xh
n
n
i 1
1
Xi
2.调和平均数
加权调和平均数:针对分组资料。
计算公式为:
n
Xh
w
i 1
n
i 1
i
wi
Xi
n
X
i 1
n
i 1
n
i
fi
fi
i 1
n
i 1
fi
fi
Xi
其中:
wi
是一种特殊权数,它不是各组变量值出现的
次数,表示各组标志总量。
wi xi fi
wi
即 fi
xi
[例4-3]根据某商场职工月工资资料计算月平
均工资。
表4-3某商场职工月工资资料
按月工资分组
(元) xi
800
900
1000
1100
1200
合
计
各组工资总额
(元)w(=
xi ·f i )
i
各组工人数
(人)
6400
9000
18000
11000
4800
8
10
18
10
4
wi 39200
w
月平均工资
w
x
i
i
i
wi
= fi
xi
wi
x
∑ f i =50
i
39200
784(元)
50
3.几何平均数
(1)概念:几何平均数(geometric mean)又称对称平均
数,它是各变量值乘积的n次方根。
(2)计算
基本公式:
X G n X1 X 2
n
Xn n Xi
i 1
对数公式: 在实际工作中,由于变量个数较多,通
常要应用对数来进行计算。即
1
lg X G lg X 1 lg X 2
n
X G arc lg X G
1 n
lg X n lg X i
n i 1
(3)几何平均数的应用及特点
①应用条件
a.变量值是相对数据,如比率或发展速度。
b.变量值的连乘积等于总比率或总发展速度。
②特点
a.如果数列中有一个标志值等于零或负值,则无法计
算。
b.受极端值影响较小,故较稳健。
几何平均数的计算示例
[例4-4] 某电器销售公司2000~2005年销售量的环
比增长率分别为:7.6%、2.5%、0.6%、2.7%和2.2%。
求这期间销售量的平均增长速度。
表4-4
销售量平均发展速度计算表
年 份
环比发展速度(X)
2000
2001
2002
2003
2004
2005
合计
—
107.6
102.5
100.6
102.7
102.2
-
环比发展速度的对数 lg X
-
2.0319
2.0107
2.0025
2.0115
2.0094
10.0660
几何平均数的计算示例
1.采用基本公式计算的销售量平均发展速度为:
XG
n
n
X
i 1
i
5 107.6% 102.5% 100.6% 102.7% 102.2%
5 1.16454 103.1%
2.采用对数公式计算的销售量平均发展速度为:
lg X G
lg X
n
X G arc lg X G
fi
10.0660
2.0133
5
arc 2.0133 103.1%
所以,销售量的平均增长速度=103.1%-1=3.1%
二、位置平均数
(一)中位数(median)
1.概念
中位数是将一组数据项按照数值大小升序或者降序排
列后位于中间位置的那个数据,符号为 M 。
e
2.中位数的计算方法
(1)未分组数据的中位数
将变量值按升序或降序排列,找中间位置的变量值。
(2)单项数列的中位数
计算各组的累计频数(向上累计或向下累计);根据中
位数位置确定中位数。
n
fi
中位数的位置=
i 1
2
fi
[例4-5] 计算某公司销售人员月销售冰箱中位数
表4-5 某公司销售人员月销售冰箱中位数计算
按月销售冰箱分组
(台)
销售人员数(人)
向上累计频数
向下累计频数
25
30
32
34
36
39
3
10
14
27
18
8
3
13
27
54
72
80
80
77
67
53
26
8
合 计
80
-
-
n
中位数的位置
i 1
2
fi
80
40
2
即中位数在累计频数为40的那一组内(向上累计或向
下累计均可得出),则 M e 34(台) 。
2.中位数的计算方法
(3)组距数列的中位数:由下列公式近似计算
下限公式
Me
其中:
n
Fi
Li 2
h
fi
Li 为中位数组的下限;
n 为总体单位总数;
Fi 为中位数组以下的累计频数;
f i 为中位数组的频数;
h 为中位数组的组距;
[例4-6] 求以下组距数列的中位数。
表4-6 某地区家庭收入分组
按家庭收入分组(元)
5 000以下
5 000~10 000
10 000~15 000
15 000~20 000
20 000以上
合
计
家庭数(户)
21
45
14
6
6
向上累计频率
21
66
80
86
92
92
-
中位数的位置在第46(92/2)位,应在第二组
92
21
中位数的近似值为:
M e 5 000 2
5 000 7 777.8(元)
45
中位数的特点
⑴ 是一种位置平均数,不受极端值及开口组的影响。
⑵ 对于分配不对称的数据,中位数比平均值更适合当集
中趋势的代表值。
⑶ 对某些不具有数字特征或不能用数字测定的现象,可
用中位数表示其一般水平。
例如,对众多的消费者购买数码相机时,分别对价
格、外观、品质的注重程度排序后,可以求出消费者在
乎的中位数因素。
二、位置平均数
(二)众数
1.概念
众数(mode)是指在一组数中出现次数最多的那个数
值,符号为 M o 。
2.数据数列的众数分布情况
fi
无众数
如数据数列: 13
7
9 12
6
8
一个众数
如数据数列:
5
9
6
6
多个众数
如数据数列: 22 35 27 35 27 36
6
8
3.众数的计算方法
**品质变量的众数——观察次数,出现次数最多
的变量值就是众数。
例如:企业的所有制结构分布、人口的城乡分布。
**数值变量的众数
未分组资料——观察次数,出现次数最多的数据
就是众数。
分组资料
(1)单项式数列——直接观察,次数最多的组的变
量值即为众数。
fi
[例4-7]单项式变量数列确定众数实例
表4-7 某市居民家庭按家庭人口数分组
家庭人口数(人)
1
2
3
4
5
6
合 计
家庭数(千户)
9.8
27.5
94.6
19.2
10.9
8.0
170.0
比重(%)
5.76
16.18
55.65
11.29
6.41
4.71
100.00
由上表可以看出,家庭人口数为3人的家庭数最多,
因此本例中家庭人口数的众数为3人。
3.众数的计算方法
组距数列计算众数:由下列公式近似计算:
d1
M o Li
h
d1 d 2
其中
Li 为众数组的下限;
d1 为众数组与前一组频数之差;
d2 为众数组与后一组频数之差;
h 为众数组的组距。
[例4-8] 组距式数列计算众数示例
表4-8 某地区的人均月收入调查数据
收入组别
人均收入(元)
频数(人)
1
2
3
4
5
6
2 000元以下
2 000~4 000元
4 000~6 000元
6 000~8 000元
8 000~10 000元
10 000以上
23
43
68
32
24
10
-
200
合
计
其众数的近似值为:
68 43
M o 4 000
2 000 4 819.67(元)
68 43 68 32
三、均值、中位数和众数的比较
(一)均值、中位数和众数的数量关系
1.当数据呈对称分布时,三者合而为一。
2.当数据呈左偏分布时,说明数据存在极小值,必然拉
动均值向极小值一方靠,则从左至右依次是均值、中位
数和众数。
3.当数据呈右偏分布时,说明数据存在极大值,必然拉
动均值向极大值一方靠,则从左至右依次是众数、中位
数和均值。
三、均值、中位数和众数的比较
(二) 均值、众数和中位数的特点及应用场合
**均值是对数值型数据的计算,利用了全部数据信息,
具有优良的数学性质,是实际中应用最广泛的集中趋势
测度值。
**中位数是一组数据中间位置上的代表值,其特点
是不受数据极端值的影响,主要适合于作为顺序数据的
集中趋势测度值。
**众数是一组数据分布的峰值,它也是一种位置代表
值,不受极端值的影响,主要适合于作为分类数据的集
中趋势测度值。
第三节
数据分布离散程度的测定
一、极差
(一)概念:又称全距,是数据中最大值和最小值之
差。记为 R 。
(二)计算
1.未分组数据的极差为: R H
其中: H 表示数据的最大值;
L
表示数据的最小值。
2.分组数据的极差
L
极差=最大组的上限-最小组的下限
若存在开口组,则:
最大组的上限=前一组的上限+组距
最小组的下限=下一组的下限-组距
(三)修正极差
1.概念:修正极差(modified range)是去掉极端值后
的极差,又称四分位全距(IQR,inter quartile
range ),是中间50%的数据的间距,即数据分布中第25
个和第75个百分位数的间距,也即第1个和第3个四分位
数的间距。
2.公式:
IQR Q3 Q1
其中,Q3表示第3个四分位数,即第75个百分位数;
Q1表示第1个四分位数,即第25百分位数。
Q3 X 75 N
Q1 X
100
12
25 N 100 12
二、平均差
(一)概念
平均差(mean absolute deviation,MAD)是各数据对
平均数的离差绝对值的平均数。
(二)样本平均差的计算公式
1.未分组数据:
n
MAD
i 1
Xi Xi
n
2.分组数据:
n
MAD
i 1
Mi X
n
i 1
fi
fi
三、方差和标准差
(一)概念
方差(variance)是各变量值与其均值离差平方的平
均数。标准差(standard deviation)是方差的平方根,
又称“均方差”。
(二)比较与评价
1.其内涵与平均差相似,均为各个数据对其平均数
的平均离差。但平均差采用求绝对值消除正负离差,
标准差采用平方法消除正负离差,在数学处理上标准
差比平均差更为科学合理。
2.方差和标准差是测度数值型数据离散程度的最主
要的指标。
(三)总体方差和标准差计算示例
[例4-9]某电脑公司销售量分组数据如表4-7,
计算销售量的方差和标准差
表4-7某电脑公司销售量分组数据
按销售量
分组(台)
5~10
10~15
15~20
20~25
25~30
合 计
组中值
频数
( Mi )
( fi )
7.5
12.5
17.5
22.5
27.5
-
30
70
100
50
10
260
Mi
8.85
3.85
1.15
6.15
11.15
-
M i fi
2
2 349.675
1 037.575
132.250
1 891.125
1 243.225
6 653.850
总体方差和标准差计算示例
根据公式计算可知总体均值为:
M f
f
i
i
16.35
i
总体方差为:
6 653.850
25.59
260
2
总体标准差为:
fi
25.59 5.06
[例4-10] 根据以下资料,计算企业职工平均工资的
标准差。(已知平均工资为760元)
表4-9 某企业职工工资分组数据表
月工资(元)
工人数(人)f
组中值 x
x- x
(x- x ) 2
(x- x ) 2 f
500 元以下
10
450
-310
96100
961,000
500~600
20
550
-210
44100
882,000
600~700
30
650
-110
12100
363,000
700~800
60
750
-10
100
6,000
800~900
50
850
+90
8100
405,000
900~1000
20
950
+190
36100
722,000
1000 元以上
10
1050
+290
84100
841,000
---
---
合
计
∑f= 200
4180,000
总体方差和标准差计算示例
总体方差为:
4,180 ,000
20900
200
2
总体标准差为:
20900 145(元)
fi
(四)样本方差和标准差
1.说明
在大多数统计应用中,都针对样本数据来分析总体
数量特征。因此通常用样本方差来估计总体方差,用样
本标准差来估计总体标准差。
2.符号
样本容量用n 表示;
样本方差用S2 表示;
样本标准差用S 表示。
3.计算公式
与总体方差和标准差公式类似,区别在于分母除以n-1。
四、离散系数
(一)概念:离散系数(coefficient of variation)
也称变异系数,是一组数据的离散指标的绝对数与其相
应的均值之比,是离散指标的相对数形式。
(二)表现形式
有全距系数、平均差系数和标准差系数。最常用的是
标准差系数。
(三)计算公式
总体标准差系数
v
样本标准差系数
s
vs
x
四、离散系数
(四)应用:用于比较不同总体数据分布的离散程度。
[例题4-11] 甲乙企业职工的年均收入分别为20 000
元和50 000元,收入的标准差分别为3 000和5 000元,
哪家企业职工的收入差距小一些?
[分析] 不同企业的年均收入不同,不能直接比较标准
差,只能比较标准差系数。
甲企业标准差系数
甲 3000
v甲
15%
甲 20000
乙企业标准差系数
乙
5000
10%
乙 50000
v乙
[结论] 乙企业职工收入差距小于甲企业。
END
第五章
时间序列分析
学习目的及重难点提示
本章学习目的
了解时间序列的概念、种类、因素构成和编制原则。
掌握水平指标和速度指标的计算方法、应用条件及指标
间的相互关系。
掌握长期趋势的分析测定方法。
本章重难点提示
重点:时间序列水平指标和速度指标的计算、最小平方
法预测长期趋势。
难点:季节比率法分析季节变动、最小平方法预测长期
趋势。
第一节
时间序列概述
一、时间序列的概念及构成要素
(一)定义
现象在不同时间上的一系列指标值按时间先后排列形
成的数列,又称动态数列。
(二)构成要素
现象所属的时间
指标数值
(三)与分配数列的区别
时间序列示例
表5-1 1985~1991年我国原煤产量
单位:亿吨
年 份
1985
1986
1987
1988
1989
1990
1991
原煤
产量
8.72
8.94
9.28
9.80
10.54
10.80
10.62
二、时间序列的种类
(一)绝对数时间序列:由绝对指标排列形成。
1.时期数列:由时期指标排列形成。
特点:
(1)时期数列中各指标值可以相加。
(2)时期数列中各指标值大小与时间间隔正相关。
(3)时期数列通过连续登记获取数据。
2.时点数列:由时点指标排列形成。
特点:
(1)时点数列中各指标值不能相加。
(2)时点数列中各指标值大小与时间间隔无关。
(3)时点数列通过间断登记获取数据。
二、时间序列的种类
(二)相对数时间序列:由相对指标排列形成。
特点:
1.由两个绝对数数列相比形成。
2.不同时期的相对指标数值不可直接相加。
(三)平均数时间序列:由平均指标排列形成。
特点:不同时期的平均指标数值不可直接相加。
三、时间序列的编制原则
基本原则——可比性原则
具体原则
1.时间长短应当一致。
2.总体范围保持一致。
3.指标的经济内容保持一致。
4.指标的计算方法和计量单位保持一致。
第二节
时间序列的水平分析
一、发展水平
(一)概念:时间序列中各项具体的指标数值。
字母表示: a0,a1, a2 ,an-1, …,an
相关概念:
最初水平:动态数列中的第一项指标数值
最末水平:动态数列中最后一项指标数值
报告期水平:要研究的那一时期的指标值
基期水平:作为对比的基础时期的指标值
(二)意义:是计算其他水平指标和速度指标的基础。
二、平均发展水平
(一)概念
又称序时平均数或动态平均数,是将不同时期的发展
水平加以平均得到的平均值。
(二)序时平均数与一般平均数的区别
1.计算依据不同:序时平均数依据动态数列,一般平均数
依据变量数列。
2.说明问题不同:序时平均数从动态上说明现象在不同
时间上某一数值的一般水平,一般平均数从静态上说明
总体某个数量标志的一般水平。
(三)平均发展水平的计算
1.绝对数时间序列的序时平均数
(1)时期数列的序时平均数(简单算术平均法)。
a1 a 2 a n
a
n
a
n
(2) 时点数列的序时平均数
①连续时点数列:逐日登记。
未分组资料:逐日登记,每日都有数据(简单算术平
均法)。
a1 a 2 a n
a
n
a
n
分组资料:逐日登记,非每日都有数据(加权算术平
均法)。
a1 f1 a2 f 2 an f n
a
f1 f 2 f n
其中,权数 f 代表间隔日数。
af
f
(2) 时点数列的序时平均数
②间断时点数列:资料不是逐日记录逐日排列,而是有
一定间隔的期初或期末的资料。
时间间隔相等时:首末折半法。
an
a1
a 2 a3 a n 1
2
a 2
n 1
时间间隔不等时:加权平均法。
a 2 a3
a1 a 2
f
1
2
2
a
a n 1 a n
f
2
f n 1
2
f
式中f1,f2,…,fn-1:相邻时点指标间隔的月(季)数。
序时平均数计算示例
[例5-1]根据表5-2计算4月下旬商店营业员平均人数
表5-2 某商店4月下旬营业员人数
单位:人
日 期
21
22
23
24
25
26
27
28
29
30
人数
76
79
80
78
80
77
81
84
83
82
[分析] 属于连续时点数列且每日都有数据,采用简单算
术平均法计算。
a 76 79 80 78 82
a
80
(人)
n
10
序时平均数计算示例
[例5-2]根据表5-3计算4月份钢材平均库存量。
表5-3
时 间
库存量
某企业4月份钢材库存量
1日
150
3日
130
9日
85
单位:万吨
17 日
48
27 日
24
[分析] 属于连续时点数列,但非每日都有数据,应采用加
权算术平均法计算。
af 150 2 130 6 85 8 4810 24 4
a
f
30
77.87(万吨)
序时平均数计算示例
[例5-3]根据表5-4资料计算企业上半年平均职工人数及
平均固定资产额。
表5-4
月
份
月初工人数
(人)
月初固定资产
额(万元)
某企业2005年上半年统计资料
一月
124
二月
126
三月
124
四月
122
五月
126
六月
128
七月
124
600
600
610
640
640
700
700
例5-3答案
[分析] 属于时间间隔相等的间断时点数列,采用首末折
半法计算。
上半年平均职工人数为:
124
124
126 124 122 126 128
2 125
a 2
7 1
上半年平均固定资产额为:
60
70
60 61 64 64 70
2 64(万元)
b 2
7 -1
序时平均数计算示例
[例5-4]根据表计5-5算2001年的平均职工人数。
表5-5
时 间
职工人数
某企业2001年职工人数资料 单位:人
1月1日
500
4月1日
560
7 月 31 日
580
12 月 31 日
600
[分析] 属于时间间隔不等的间断时点数列,采用加权
算术平均法计算。
500 560
560 580
580 600
3
4
5
2
2
2
a
3 45
568(人)
2.相对数时间序列的序时平均数
相对数时间序列的序时平均数不能直接计算,
而应根据分子数列的序时平均数除以分母数列的
序时平均数计算,用公式表示为:
a
c
b
2.相对数时间序列的序时平均数
(1)时期数列/时期数列形成的相对数时间序列。
分子分母数列均简单平均:
a
c
b
a
b
2.相对数时间序列的序时平均数
(2)时点数列/时点数列形成的相对数时间序列。
在时间间隔相等时,分子分母均首末折半:
a0
an
a1 an 1
a
2
c
2
b0
bn
b
b1 bn 1
2
2
三、增长水平(增长量)
(一)概念:报告期水平与基期水平之差。
(二)分类
(1)逐期增长量=报告期水平-前一期水平
a1-a0 ,a2-a1 , … ,an-an-1
(2)累计增长量=报告期水平-某固定基期水平
a1-a0 ,a2-a0 , … ,an-a0
**两者关系
(1)累计增长量=各逐期增长量之和
(2)逐期增长量=相邻两个累计增长量之差
四、平均增长水平(平均增长量)
(一)概念:表明时间序列每期平均增长的情况。
(二)公式
逐期增长量之和
平均增长量=
逐期增长量个数
累计增长量
平均增长量
时间序列项数- 1
[例5-5]根据表5-6我国电风扇产量资料计
算增长量和平均增长量。
表5-6 我国1985~1990年电风扇产量
年
单位:万台
份
1985
1986
1987
1988
1989
1990
产 量
逐期增长量
累计增长量
3175
---
3529
354
354
3661
132
486
4496
835
1321
4992
496
1817
5799
807
2624
354 132 835 496 807
平均增长量
5
2624
524.8(万台)
5
第 三 节
时 间 序 列 的 速 度 分 析
一、发 展 速 度
(一)概念
发展速度是用报告期水平与基期水平进行对比得
到的动态相对数。
(二)基本公式
报告期水平
发展速度
100%
基期水平
一、发 展 速 度
(三)分类
1.环比发展速度:报告期水平与前一期水平之比。各
期的环比发展速度如下:
a3
an
a1
a2
;
;
; ;
a0
a1
a2
a n 1
2.定基发展速度:报告期水平与固定基期水平之比。
各期的定基发展速度如下:
a3
an
a1
a2
;
;
; ;
a0
a0
a0
a0
(四)环比和定基发展速度的关系
1.环比发展速度的连乘积等于相应时期的
定基发展速度。如:
a3
an
an
a1
a2
a0
a1
a2
a n 1
a0
2.相邻两个定基发展速度之商等于相应时
期环比发展速度。如:
an
a0
a n 1
a0
an
a n 1
(五)平均发展速度
1.概念
平均发展速度是各环比发展速度的序时平均数。
2.计算方法(以水平法为例)
水平法:侧重考察最末一年所达到的水平,采用几
何平均法计算。
(1)已知各期环比发展速度时,其计算公式为:
x
n
x1 x2 x3 xn x
n
水平法
(2)已知最初水平和最末水平时,公式为:
x
n
an
a0
(3)已知整个时期内的定基发展速度即总速度时,
公式为:
x R
n
二、增长速度
(一)概念
是反映社会经济现象增长程度的动态相对数,用增长
量除以基期水平计算。
(二)公式
增长量
增长速度
100%
基期水平
增长速度 发展速度- 1
二、增长 速 度
(三)分类
1.环比增长速度:逐期增长量与前一期水平之比,等于
环比发展速度-1。各期的环比增长速度如下:
a1 a0 a2 a1 a3 a2
a an 1
;
;
; ; n
a0
a1
a2
an 1
2.定基增长速度:累计增长量与固定基期水平之比,等
于定基发展速度-1。各期的定基增长速度如下:
a1 a0 a2 a0 a3 a0
an a0
;
;
; ;
a0
a0
a0
a0
表5-7 某钢铁厂1995~2001年钢产量资料
年 份
1995
1996
1997
1998
1999
2000
a0
a1
a2
a3
a4
a5
200
240
300
340
360
378
环比发展速度(%)
-
120
125
定基发展速度(%)
-
120
150
170
180
环比增长速度(%)
-
20
25
13.33
5.88
5
定基增长速度(%)
-
20
50
70
80
89
a153042
符 号
钢产量(万吨)
113.33 105.88
105
189
三、平均增长速度
(一)概念
是时间序列中各期环比增长速度的序时平均数,反
映现象在较长时间内平均每期增长的程度。
(二)公式
平均增长速度 平均发展速度-1
**注意:不能直接根据各期环比增长速度计算
平均增长速度。
四、增长1%的绝对值
(一)概念
是将时间序列的水平分析和速度分析结合的指标,
反映速度每增长1%增加的绝对数量。
(二)公式
前期水平
报告期水平
增长1%的绝对值
100
环比发展速度100
第 四 节
时间序列的影响因素分析
一、时间序列的影响因素
(一)长期趋势(T)
现象在较长时期内受某种根本的、决定性因素的影
响呈现出的上升或下降的趋势。
(二)季节变动(S)
由于季节原因引起的规律性变动。
(三)循环变动(C)
由于周期性原因引起的周而复始的变动。
(四)不规则变动(I)
由于偶然、突发原因引起的非规律性变动。
二、时间序列的分析模型
(一)加法模型:各影响因素相互独立时。
Y=T+S+C+I
(二)乘法模型:各影响因素互相影响、互不独立时。
Y=T×S×C×I
说明:加法模型中,四变量均为绝对数。
乘法模型中,T为绝对数,其余为相对数。
三、长期趋势分析
长期趋势的测定方法
(一)时距扩大法:只能对数列修匀,不能预测。
(二)移动平均法:可以对数列修匀或预测,但有时滞效
应。
(三)数学模型法
1.直线模型法:重点介绍最小平方法配合直线模型。**
2.曲线模型
最小平方法配合的直线模型**
**解题思路
1.建模:建立时间序列各观测值和时间之间的直线模型。
yt a b t
2.求参数a和b:
令
t 0
a
可得到参数a和b的表达式:
b
Y
n
tY
t
2
3.预测:将预测期的t值带入模型中,预测长期趋势值。
最小乘方法配合直线方程预测长期趋势示例
[例5-6] 某企业各年产量资料如表5-8,采用最小二
乘法确定趋势直线方程并预测2004、2005年的产量。
表5-8某企业各年产量资料
ty
t2
-7
-2100
49
10
-5
-1550
25
321
11
-3
-963
9
1997
331
10
-1
-331
1
1998
340
9
1
340
1
1999
350
10
3
1050
9
2000
361
11
5
1805
25
2001
371
10
7
2597
49
合计
2 684
--
--
848
168
年份
产量 y
逐期增减量 y
1994
300
--
1995
310
1996
时间序号 t
解题思路
yt a b t
1.建模:
y 2684
2.求参数a和b:
a
335 .5
n
8
b
t
ty
t 2
848
5.05
168
代入直线趋势方程,得: yc 335.5 5.05t
3.预测:将预测期的t值代入模型中,预测长期趋势值
2004年在t序列中取值为13,将t=13代入直线方程,可
求出2004年的产量趋势值=335.5+5.05×13=401.15(万件)
同理2005年的产量预测值=335.5+5.05×15=411.25(万件)
三、季节变动分析
一、含义
客观现象由于受自然因素和生产或生活条件的
影响,在一年内随着季节的更换而引起的比较有规
律的变动。
二、测定方法:按月(季)平均法。
通过计算季节比率来反映现象季节变动的周期
性规律。季节比率可以按月计算,也可以按季计算。
其计算公式为:
同季(月)平均数
季节比率(%)
季(月)总平均水平
本章小结
一、时间序列的概念、种类和编制原则
按时间序列中指标的性质不同,时间序列
可分为时期序列和时点序列。
二、时间序列的水平分析指标有发展水平、增长
水平、平均发展水平和平均增长水平。
三、时间序列的速度分析指标有发展速度、增长
速度、平均发展速度和平均增长速度。
四、时间序列影响因素主要有长期趋势、季节变
动、循环变动和不规则变动,本章重点介绍长
期趋势和季节变动的分析方法。
END
第 六 章 统 计 指 数
学习目的及重难点提示
本章学习目的
•了解统计指数的含义及种类、统计指数在我国的应用。
•掌握综合指数、平均数指数的编制原则和方法。
•掌握指数体系的含义、指数间的相互关系及因素分析法。
本章重难点提示
•指数的编制原则和方法。
•同度量因素时期的确定。
•指数体系及因素分析法。
第一节 统计指数概述
一、统计指数的概念和作用
(一)概念:统计指数(statistical index)是分
析现象数量变动的一种对比性指标,有两层含义:
广义指数:一切反映现象数量变动或对比的相对
数,说明某种具体产品的产量、成本、价格等的动态变
化。
如发展速度、计划完成百分比、成本降低百分比等。
狭义指数:表明不能直接相加或对比的现象综合
变动的相对数。
如多种商品价格指数、多种产品产量指数等。
(二)统计指数的作用
综合反映不能直接相加或对比的复杂现象总
体的变动方向和程度。
用指标体系分析受多因素影响的现象总体变
动中各个因素变动的影响方向和程度。
通过编制指数数列,反映现象变化的长期趋
势。
二、统计指数的种类
个体指数——反映个别现象数量变动的相
按反映现
象的范围
不同
对数,如单位产品产量指数
总指数——说明现象总体变动的相对数,
如多种商品价格综合指数
质量指标指数——说明质量指标数量变动
按指数的
性质不同
的相对数,如价格指数、单位成本指数
数量指标指数——说明数量指标变动的相对
数,如销售量指数、产量指数
综合指数——在确定同度量因素的基础上,
按编制方
法的不同
通过先综合后对比的方法计算得出的指数,
反映现象总体的综合变动情况
平均数指数——是综合指数的代数变形,它
是所研究现象的个体指数的加权平均数
定基指数——在指数数列中都以某一固定时
按指数数
列选择的
基期不同
期的水平作为对比基准编制的指数
环比指数——在指数数列中都以前一期的水
平作为对比的基准编制的指数
第二节 综合指数
一、综合指数(composite index)的概念
是根据先综合、后对比的方法把不能直接相加的现
象转化为可以同度量后再进行对比,以反映多种现象综
合变动的相对数。
举例:
•多种商品的价格综合指数。
•多种产品的产量综合指数。
二、综合指数的编制原则和步骤**
(一)确定指数化因素:要研究其数量变化的因素。
例如,产量综合指数中,产量为指数化因素。
(二)确定同度量因素:将不能直接相加的因素转化
为可以相加的因素(同度量作用和权数作用)。
例如,产量综合指数中,价格为同度量因素。
(三)确定同度量因素的时期
原则如下:
编制质量指标指数时,以报告期的数量指标为同度量
因素。
编制数量指标指数时,以基期的质量指标为同度量因
素。
三、综合指数的编制方法
(一)数量指标指数的编制(以产量指数为例)
基本公式:
KQ
其中, K Q
PQ
PQ
0
1
0
0
100%
为产量综合指数;
Q0
为基期产量;
Q1
为报告期产量;
P0
为基期价格。
数量指标指数的编制示例
[例6-1] 根据表6-1资料编制三种产品的产量指数。
表6-1
产
产品 计量
名称 单位
量
某公司商品销售量和商品价格
出厂价格(元)
产
值(万元)
基期
报告期
基期
报告期
基期
报告期
假定期
Q0
Q1
P0
P1
P0Q0
P1Q1
P0Q 1
5 000
6 000
50
70
25
42
30
甲
千克
乙
支
30 000 30 600
20
20
60
61.2
61.2
丙
件
8 000
6 000
110
100
88
60
66
合计
—
—
—
—
—
173
163.2
157.2
解题步骤
(一)计算三种产品的个体产量指数
甲产品的个体产量指数
Q1
6 000
KQ
120%
Q0
5000
乙产品的个体产量指数
KQ
Q1
30600
102%
Q0
30000
丙产品的个体产量指数
KQ
Q1
6000
75%
Q0
8000
(二)编制产量综合指数
产量综合指数为:
KQ
PQ
PQ
0
1
0
0
157.2
90.87%
173
差额为:
PQ PQ
0
1
0
0
157.2 173 15.8(万元)
(三)计算结果的分析
以上计算的结果表明:
1.从单位产品产量指数看,三种产品的产量报告期比
基期有增有减。
2.从产量综合指数(相对数)看,三种产品产量综合下
降了9.13%(90.87%-100%);也可以说由于产量的下降使
总产值下降了9.13%。
3.从绝对差额(绝对数)看,由于产量的下降使总产值
减少了15.8万元。
三、综合指数的编制方法
(二)质量指标指数的编制(以价格指数为例)
基本公式:
KP
其中, K P
PQ
100%
PQ
1
1
0
1
为价格综合指数;
P0
为基期价格;
P1
为报告期价格;
Q1
为报告期产量。
质量指标指数的编制示例
[例6-2] 仍根据表6-1资料编制三种产品的价格指数
表6-1
产
产品 计量
名称 单位
量
某公司商品销售量和商品价格
出厂价格(元)
产
值(万元)
基期
报告期
基期
报告期
基期
报告期
假定期
Q0
Q1
P0
P1
P0Q0
P1Q1
P0Q 1
5 000
6 000
50
70
25
42
30
甲
千克
乙
支
30 000 30 600
20
20
60
61.2
61.2
丙
件
8 000
6 000
110
100
88
60
66
合计
—
—
—
—
—
173
163.2
157.2
解题步骤
(一)三种产品的个体价格指数
甲产品的个体价格指数:
P1 70
KP
140.00%
P0 50
乙产品的个体价格指数:
P1 20
KP
100.00%
P0 20
丙产品的个体价格指数:
P1 100
KP
90.91%
P0 110
(二)编制价格综合指数
价格综合指数为:
KP
PQ
P Q
1
1
0
1
163.2
103.82%
157.2
差额为:
6
PQ P Q 163.2 157.2 (万元)
1 1
0 1
(三)计算结果的分析
以上计算的结果表明:
1.从单位产品价格指数看,三种产品的价格报告期比
基期有升有降。
2.从价格综合指数(相对数)看,三种产品的价格报告
期比基期综合上涨了3.82%;或者说由于价格上涨使总
产值增加了3.82%。
3.从绝对差额(绝对数)看,由于价格的上涨使总产值
增加了6万元。
**价格综合指数的优点
不仅说明多种产品价格综合变动的相对程
度,而且还从绝对量上说明了由于价格的变动
对总产值产生的影响。
第三节 平均数指数
一、平均数指数的概念
(一)概念
平均数指数是总指数的一种重要形式,是综合指数
的变形,是个体指数的加权平均数。
(二) 具体形式
1.加权算术平均数指数
2.加权调和平均数指数
(三) 适用情况**
当计算综合指数需要的数据资料不全时。
二、平均数指数的编制方法
(一)加权算术平均数指数
[例6-3] 根据表6-2资料计算三种产品的产量综合指数。
表6-2 某公司产品产值及产量资料
产品
名称
基期实际产值
单位
P0Q0
产量个体指数 报告期假定产值
K Q Q1 / Q0
K Q P0 Q0
甲
千克
25
120
30
乙
支
60
102
61.2
丙
件
88
75
66
合计
—
173
—
157.2
解题思路与步骤
[分析]根据资料和产量综合指数公式
KQ
PQ
PQ
0
1
0
0
100%
可知,三种产品的产量总指数可以以个体产量指数为
变量、基期产值为权数通过加权算术平均法计算。
KQ
K PQ
P Q
Q
0
0
0
0
157.2
90.87%
173
(二)加权调和平均数指数
[例6-4] 根据表6-3计算三种产品的价格指数。
表6-3 某公司产品产值和价格资料
产 品
名 称
单位
甲
千克
乙
报告期实际产值 个体价格指数
基期假定产值
P1Q1
K P P1 / P0
P1Q1 / K P
42
140
30
支
61.2
100
61.2
丙
件
60
合计
—
163.2
90.91
66
—
157.2
解题思路与步骤
[分析]根据资料和价格综合指数公式
KP
PQ
PQ
1
1
0
1
100%
可知,三种产品的价格总指数可以以个体价格指数
为变量、报告期产值为权数通过加权调和平均法计算。
KP
PQ
1
K PQ
1
1
1
P
1
202.8
103.58%
195.8
三、平均数指数和综合指数的关系
(一)联系:本质相同,平均数指数是综合指数的变形。
以基期指标(P0Q0)加权计算的数量指标的算术平均
数指数和以报告期指标(P1Q1)加权计算的质量指标的
调和平均数指数是综合指数的变形。
(二)区别
掌握资料不同:综合指数的编制需要全面资料,平均数
指数的编制可以使用非全面资料。
权数选择不同:综合指数一般以实际资料为权数编制,
平均数指数可以以实际资料为权数,也可主观确定权数
或使用过去的权数。
第 四 节
指数体系与因素分析
一、指数体系的概念与作用
(一)指数体系(index system)的概念
指数体系是由反映现象总体综合变动的指数以及
总体中各因素指数所形成的相互联系的整体。
(二)指数体系的作用
1.利用指数体系,可以分析各个因素对于现象总
体变动的作用方向和影响程度。
2.利用指数体系还可以进行指数之间的相互推算。
二、指数体系的因素分析
(一)概念
利用指数体系对现象的综合变动从绝对数和相对
数两方面分析其受各因素影响的方向和程度的一种
方法。
(二)要点和步骤**
1.构建指数体系,将总指数分解为因素指数的连乘积
2.假定其他因素不变,测定某一因素的影响方向和
程度。
3.相对数分析:现象总变动指数等于因素指数的连乘
积。
4.绝对数分析:现象总变动额等于各因素影响额之和。
四、指数体系因素分析方法
(一)总量指标的两因素分析(以销售额
指数为例)
相对数分析:
销售额指数=销售量指数×价格指数
q1 p0 p1q1
p1q1
p0 q0
q0 p0 p0 q1
绝对数分析:
销售额增减额=销售量变动影响额+价格变动
影响额
p1q1 p0 q0 (q1 p0 q0 p0 ) (p1q1 p0 q1 )
两因素分析示例
[例6-5] 根据表6-4资料,通过出口量和出口价
格对出口额的影响说明两因素分析法。
表6-4 某公司商品出口数量和价格资料
出口数量
产品
名称
单
位
出口价格
出口额
基期
q0
报告期
q1
基期
p0
报告期
p1
p0q0
p0q1
p1q1
(1)
(2)
(3)
(4)
(5)=(1)×
(3)
(6)=(2)×
(3)
(7)=(2)×
(4)
甲
吨
1000
2000
8
7
8 000
16 000
14 000
乙
箱
3000
4000
6
5
18 000
24 000
20 000
丙
个
5000
6000
10
9
50 000
60 000
54 000
合计
—
——
——
——
——
76 000
10 0000
88 000
计算过程
(1)三 种商品的出口额指数(现象总变动指数)
出口总额指数K pq
pq
p q
1 1
0 0
p q p q
1 1
0
0
88 000
115.79%
76 000
88 000 76 000 12 000
(2)三种商品的出口价格指数(因素指数)
出口价格指数K p
pq
p q
1 1
0 1
p q p q
1 1
0 1
88 000
88%
100 000
88 000 100 000 12 000
(3)三种商品的出口量指数(因素指数)
出口数量指数K q
pq
p q
0 1
0 0
p q p q
0 1
0 0
100 000
131.58%
76 000
100 000 76 000 24 000(元)
(4)验证
①出口额总指数=出口量指数×出口价格指数
即:115.79%= 131.58% ×88%
②出口额增减额=出口量变动影响额+价格变
动影响额
即:12 000元 = 24 000元+(-12 000元)
计算结果分析
三种商品的出口价格综合下降了12%,使出口
额减少了12 000美元。
三种商品出口量综合增加了31.58%,使出口
额增加了24 000美元。
两因素共同作用的结果,使得三种商品的出
口总额增加了15.79%,绝对额增加了12 000美
元。
2.总量指标的三因素分析法
总量指标三因素分析法的要点***
综合指数中的各因素要合理排序:排列原则是数量指标
在前,质量指标在后;主要指标在前,次要指标在后;
所有相邻两因素的乘积必须具有明确的经济意义。
三因素分析要遵循连环代替法的原则:分析一个因素变
动的影响时,假定其他因素不变。
三因素分析法必须逐项确定同度量因素:已分析过的因
素固定在报告期,未分析过的因素固定在基期。
例题:以表6-5、6-6的资料为例,说明总量指标的三因
素分析法。
表6-5
某公司三种产品的产量和单耗资料
产量(台)
产
品
名
称
基期
甲
50
60
乙
50
丙
150
q0
材
料
名
报告期 称
q1
原材料单耗
(公斤)
基期 报告期
原材料单价
(元)
基期
报告期
m0
m1
p0
p1
A
150
145
3
3.2
50
B
62
65
1.5
1.8
200
C
90
90
0.5
0.85
表6-6
某公司三种产品支出总额资料
原材料支出总额(元)
产品名称
q0m0p0
q1m0p0
q1m1p0
q1m1p1
甲
22 500
27 000
26 100
27 840
乙
4 650
4 650
4 875
5 850
丙
10 800
9 000
9 000
15 300
合计
37 950
40 650
39 975
48 990
计算过程
1.计算原材料支出总额指数:
qm p
q m p
I qmp
1
1
1
0
0
0
48990
129.09%
37950
原材料支出总差额:
q m p q m p
1
1 1
0
0
0
48990 37950 11040(元)
说明:
该厂报告期原材料支出总额比基期增长29.09%,增加
的绝对额为11040元。
2.计算产量总指数:
IP
qm p
q m p
1
0
0
0
0
0
40650
107.11%
37950
产量影响差额:
q m p q m p
1
0
0
0
0
0
40650 37950 2700
说明:
由于产量增加使原材料支出额增长7.11%,多支出
的绝对额为2 700元。
3.计算产品单耗指数:
Im
qm p
q m p
1
1
0
1
0
0
39975
98.34%
40650
产品单耗影响差额:
q m p q m p
1
1
0
1
0
0
39975 46050 675
说明:
由于单位产品原材料消耗量的降低使原材料支出额
下降1.66%,少支出的绝对额为675元。
4.计算原材料价格指数:
qm p
q m p
Im
1
1
1
1
1
0
48990
122.55%
39975
原材料价格影响差额:
q m p q m p
1
1 1
1
1
0
48990 39975 9015
说明:
由于原材料价格提高,使原材料成本报告期比基
期增加了22.55%,绝对额增加9 015元。
5.验证
(1)相对数分析——总指数和各因素指数之
间的关系
原材料成本总指数=产量指数×原材料单耗
指数×原材料价格指数
即:129.09% =107.11%×98.34%×122.55%
(2)绝对数分析——绝对差额之间的关系
原材料支出总差额=各因素的影响额之和
即:1 104 = 2 700+( – 675) + 9 015
计算结果分析
由于产量增加使原材料支出额增长7.11%,
多支出2 700元。
由于原材料单耗的降低使原材料支出额下
降1.66%,少支出675元。
由于原材料价格提高,使原材料支出额增
加22.55%,增加的绝对额为9 015元。
三因素的共同影响,使得原材料支出总额
增加了29.09%,增加的绝对额为11 040元。
第五节 统计指数的应用
一、工业生产指数
(一)概念:工业生产指数(industrial production
index)概括反映一个国家或地区各种工业产品产量的
综合变动情况,是反映工业生产发展速度的重要指标之
一。
(二)性质:数量指标指数。
(三)编制方法:
西方国家采用平均数指数的编制方法。
我国采用固定加权综合指数的形式。
二、居民消费价格指数
概念: 居民消费价格指数(consumer price index,
CPI)是反映一定时期内城乡居民所购买的生活消费品
价格和服务项目价格变动趋势和程度的相对数。
类型:城市居民消费价格指数;
农村居民消费价格指数;
全社会居民消费价格指数。
性质:质量指标指数。
编制:将消费品价格和服务项目价格进行加权平均。
Ip
kW
W
三、社会商品零售价格指数
社会商品零售价格指数(retail price index)是反映乡
商品零售价格变动趋势的一种经济指数。
四、农副产品收购价格指数
农副产品收购价格指数是反映有关部门以各种不同价
格形式收购农、副产品的价格综合变动趋势和程度的相
对数。
五、股票价格指数
股票价格指数(stock price index)是反映某一
股票市场上多种股票价格变动趋势的一种相对数,简称
股价指数,其单位一般以“点”(point)表示,即将
基期指数作为100,每上升或下降一个单位称为“1
点” 。一般以发行量为权数进行加权综合。计算公式
为:
六、产品成本指数
产品成本指数(production cost index)
概括反映生产各种产品的单位成本水平的综合
变动程度,它是企业或部门内部进行成本管理
的一个有用工具。通常以报告期产量为权数加
权平均计算。
本章小结
一、统计指数的概念和种类
二、综合指数的编制原则和步骤**
1.数量指标指数:以基期质量指标为同度量因素。
2.质量指标指数:以报告期数量指标为同度量因素。
三、平均数指数是综合指数的变形,在掌握非全
面资料时有独特的优点,具体编制有两种情况:
1.加权算术平均数指数:用以编制数量指标指数,
以基期价值额为权数算术平均。
2.加权调和平均数指数:用以编制质量指标指数,
以报告期价值额为权数调和平均。
本章小结
四、指数体系与因素分析
(一)指数体系的作用与建立
(二)指数体系的因素分析法:从相对数和绝对数两方面进
行分析。
1.总量指标的两因素分析法
2.总量指标的三因素分析法
五、统计指数在我国的应用(了解)
如工业生产指数、消费价格指数、股票价格指数等。
END
第七章
抽样与抽样估计
学习目的及重难点提示
本章学习目的
了解抽样估计的概念和特征、抽样调查的组织方式。
领会抽样估计中的相关概念。
掌握抽样估计中常用的统计量(均值、方差、标准差、
成数)。
掌握正态分布总体参数的估计方法(点估计、区间估
计)。
本章重难点提示
本章重点:抽样估计的相关概念、抽样分布、样本统
计量、区间估计方法。
本章难点:抽样误差的相关概念、不同已知条件下的区
间估计方法。
第 一 节
抽样和抽样估计中的基本概念
一、抽样估计的概念和特征
(一)抽样及抽样估计的概念
1.抽样即抽样调查,是指在总体中选取部分单位组
成样本并收集样本单位的数据资料的过程。
2.抽样估计 是在抽样调查的基础上,利用样本的
数据资料计算样本指标,以样本特征值对总体特征
值做出具有一定可靠程度的估计和判断。
(二)抽样估计的特征
1.抽样估计是由部分推断总体的一种认识方法。
2.抽样估计建立在随机取样的基础上。
3.抽样估计运用的是不确定的概率估计方法。
4.抽样估计的误差可以事先计算并加以控制。
二、抽样及抽样估计中的相关概念
(一)全及总体和样本
1.全及总体 : 是由被调查对象的全部单位所构成的集
合体,简称总体。
总体容量:总体中的单位数,用N表示。
2.样本:样本是从总体中抽取的进行调查的部分单位的
集合体,又称抽样总体。
样本容量:样本中的单位数,用n表示。
大样本和小样本: n≥30时称大样本,n<30称小样
本。
**应用:在班级40名学生中随机选取15人进行健康状况
调查,说明其中的总体、样本及容量。
二、抽样及抽样估计中的相关概念
(二)概率抽样与非概率抽样
1.概率抽样:又称随机抽样,是按随机原则抽取样本单位。
本章所指的均为概率抽样。
2.非概率抽样:又称非随机抽样,是指从研究的目的和
需要出发,根据调查者的经验或判断,从总体中有意识
地抽取部分单位构成样本。
**应用举例:重点调查、典型调查应为非概率抽样。
二、抽样及抽样估计中的相关概念
(三)重复抽样和不重复抽样
1.重复抽样:又称有放回的抽样,从总体中抽取样本时,
每次被抽中的单位都再被放回总体中参与下一次抽样。
2.不重复抽样:又称无放回的抽样,总体中随机抽选的
单位经观察后不放回到总体中,即不再参加下次抽样。
**思考与讨论
从容量为N的总体中随机抽取容量为 n的样本,根据
概率论与数理统计知识,讨论重复抽样和不重复抽样中
各单位依次被抽中的概率,并比较在同等条件下,哪种
抽样的代表性好。
二、抽样及抽样估计中的相关概念
(四)抽样框
1.概念:抽样框是包括全部抽样单位的名单框架。
2.形式
名单抽样框:如学生名单、职工名单、企业名单等。
区域抽样框:如将一个城市按行政区划分为若干区、街
道、居委会等。
时间抽样框:如对流水线上的产品每隔一定时间抽取
一定单位。
二、抽样及抽样估计中的相关概念
(五)总体参数和样本统计量
1.总体参数:是反映总体数量特征的数值。在抽样推断
中,参数是未知的、待估计的确定值。
2.样本统计量:是根据样本资料计算的反映样本数量特
征的变量,它的值随着样本的不同而变化,因此是一
个随机变量。
表7-1
总体参数和样本统计量符号
总体指标符号
总体容量: N
总体平均数:
总体成数: P
总体方差: 2
总体标准差:
样本指标符号
样本容量: n
样本平均数: x
样本成数: p
样本方差: S 2
样本标准差: S
(六)抽样误差
1.抽样误差
抽样误差是指不包括登记性误差和系统性误差在内
的随机误差,它衡量了抽样估计的精确度。
2.与抽样误差有关的三个概念
(1)抽样实际误差:指某一次具体抽样中,样本指标
值与总体参数真实值之间的偏差。
(2)抽样平均误差:是指所有可能的样本指标与总体
指标之间的平均差异程度,即样本估计值的标准差。
(3)抽样极限/允许误差:又称置信区间,是指一定概
率下抽样误差的可能范围,说明样本估计量在总体参数
周围变动的范围,记作Δ。
抽样平均误差
①抽样平均数的平均误差
概念:就是抽样平均数的标准差,反映抽样平均数的所
有可能值对总体平均数的平均离散程度,记作 (x) 。
定义公式:
( x)
其中,
( xi )
m
2
xi :为各个可能样本的平均数
:为总体平均数
m :为重复抽样条件下所有可能的样本数
抽样平均误差
实际抽样推断中采用的公式
2
重复简单随机抽样: ( x)
不重复简单随机抽样: ( x)
其中,
2
n
2 N n
n
(
N 1
)
为总体方差;
N n
N 1 为不重复抽样的修正因子。
抽样平均误差
②样本成数(比例)的抽样平均误差
总体中具有某种特征的单位占全部总体单位数的比例称为总体
比例,记作 P ,样本中具有此种特征的单位占全部样本单位数的
比例称为样本比例,记作 p 。
重复抽样条件下:
( p)
P(1 P)
n
不重复抽样条件下:
( p)
P(1 P)
n
(1 )
n
N
抽样极限误差
①样本平均数的抽样极限误差:以绝对值形
式表示的样本平均数的抽样误差的可能范围,用
符号表示为:
x
x
即:
x x x
抽样极限/允许误差
②样本比例的抽样极限误差:以绝对值形式表示
的样本比例的抽样误差的可能范围,用符号表示为:
p P p
即:
P p p P p
第二节 抽样分布
一、抽样分布的概念和种类
(一)概念
抽样分布是样本统计量的概率分布。从一个总体中
随机抽取容量相等的样本,根据样本资料计算某一统计
量所有可能的概率分布,称为这个统计量的抽样分布。
精确分布/小样本分布:大多数是在正态
分布总体条件下得到的,但应用不广
(二)种类
渐近分布/大样本分布:样本容量无限增
大时统计量的极限分布,可看作是抽
样分布的一种近似
常见的抽样分布
(一)正态分布
1.正态分布:如果随机变量的概率密度函数为:
1
f ( x)
e
2π
2
x
2 2
-∞< x<+∞
其中, 、 为常数且 >0,则称 X 服从参数为 、
2) 。
的正态分布,记作 X ~ N ( ,
*正态分布是最常见的抽样分布。
常见的抽样分布
2.标准正态分布:在正态分布中,当参数 =0, =1时,
则称 X 服从标准正态分布,记作 X ~ N (0 ,1)。
标准正态分布的分布密度 (x) 和分布函数 (x) 的性质如下:
(1) (x) 是偶函数,即 ( x) = (x)
(2)( x) =1- (x )
(3)如果 X ~ N ( , 2 ) ,则 X 的分布函数为
F ( x) (
x
)
上述公式称为正态分布函数的标准化公式。
常见的抽样分布
2
(二) 分布
设 x1 , x2 ,, xn 是独立同分布的随机变量,且每
个随机变量都服从标准正态分布,即 x i ~N(0,1),
则随机变量
=
2
n
x
i 1
n
2
i
的分布称为自由度为 n的 2分布,记作
2
n)。
(
2
2
当 n ∞时, 分布趋近于正态分布,即 ( n)
~N(n ,2 n )。
常见的抽样分布
(三)t 分布
设随机变量 X 与 Y 相互独立,X ~(0,1),
X
Y ~ 2( n),则称随机变量
t
Y /n
服从自由度为 n 的
t 分布,记作 t ( n)。
当 n ∞时, t分布趋近于标准正态分布。实
际应用中,当 n >30时, t 分布可用标准正态
分布近似。
常见的抽样分布
(四)F 分布
1.设随机变量 X 与 Y 相互独立,且分别服从
自由度为 n1 、n2 的 2 分布,则称随机变量
X / n1
F
服从第一自由度为 n1 、第二自由度
Y / n2
为 n2 的
F
分布,记作F ~ F ( n1 ,n2 )。
2. F 分布对于两个总体的方差比的统计推断
问题十分重要,是方差分析等统计推断方法的
基础。与前两种分布不同的是 F 分布不以正态
分布为其极限分布,它总是一个正偏分布。
二、样本平均数的抽样分布
2
(一)总体方差 已知时,样本平均数 x 的抽样
分布
2
X
~
N
(
,
) ,( x1 , x2 ,, xn )是
[定理7-1] 设总体
一个简单随机样本,则有: x ~ N( , 2 / n)
E(x)
V ( x) 2 / n
将样本平均数标准化,即有:
Z
x
x
~N(0,1)
( x) / n
上述定理说明:样本平均数的数学期望值等于总体平
均数,样本平均数的方差等于总体方差除以样本容量,
同时也说明了样本平均数抽样分布具有的基本性质。
二、样本平均数的抽样分布
2
(一)总体方差 已知时,样本平均数 x 的抽样分布
[定理7-2]中心极限定理:设 X 是具有期望值 ,方差 2 的
任意总体,则样本平均数的抽样分布将随 n 的增大而趋于总
体平均数为 ,标准差为 X
n
的正态分布,即 x 渐近服
从 N ( , 2 / n )。 将这一正态随机变量进行标准化,则有:
Z
x
/ n
~ N ( 0,1)
**说明:样本无论抽自正态或非正态总体,只要样本容
量足够大,在总体平均数 和方差 2已知和有限的条件下,
样本平均数 x 的抽样分布就会趋于正态分布。一般认为样本
容量 n ≥30时,即可用定理7-2作为推断的依据。
二、样本平均数的抽样分布
(二)总体方差 2未知时,样本平均数 x 的抽样分布
2
当总体方差 未知时,可以用样本方差 S 2 代替总体方
2
差 ,或用样本标准差 S 代替总体标准差 ,则有:
2
X
~
N
(
[定理7-3] 设总体
, ),( x1 , x2 ,, xn)是
其一个简单随机样本,样本平均数为 x ,样本标准差 S ,
则统计量
t
x
S/ n
~
t(
n 1)。
**即当总体方差未知时,样本平均数服从自由度为 n 1
的 t 分布。
三、样本比例(成数)的抽样分布
当从总体中抽取一个容量为 n 的样本时,样本中具有某
种特征的单位数 x 服从二项分布,即有 x ~ B(n ,P ),且
有 E ( X ) nP, V ( X ) nP(1 P) 。
因此样本比例 p x / n 也服从二项分布,且有:
x
1
E ( p) E ( ) E ( x) P
n
n
x
1
1
V ( p) V ( ) 2 V ( x) P(1 P)
n
n
n
根据中心极限定理,当 n ∞时,二项分布趋近于正态
分布。所以,在大样本下,若 nP 和 n(1 P) 均大于5,样本
1
P
~
N
P
,
P
(
1
P
)
比例近似服从正态分布:
n
第三节
抽样估计的基本方法
一、点估计
(一)概念
1.点估计
设总体随机变量的分布函数已知,但它的一个或多
个参数未知,若从总体中抽取一组样本观察值,以该
组数据来估计总体参数,就称为参数的点估计。
2.矩估计
矩估计法是用样本的矩去估计总体的矩,从而获
得总体有关参数的估计量的方法。矩是指以期望值为
基础定义的数字特征,如数学期望、方差、协方差等。
一、点估计
(二)矩估计法的评价
优点:
1. 计算简便直观,一般不考虑抽样误差和可靠程度。
2.适用于对估计准确与可靠程度要求不高的情况。
局限性:
3.它要求总体矩存在。
4.不能充分利用估计时已掌握的有关总体分布的信息。
二、区间估计
(一)区间估计的概念
根据样本统计量以一定的可靠程度去估计总体参数
值所在的范围或区间,是抽样估计的主要方法。
(二)抽样估计的置信度与精确度
1.置信度:表示区间估计的可靠程度或把握程度,
也即所估计的区间包含总体参数真实值的可能性大小,
一般以1- 表示。其中 表示显著性水平,即某一小
概率事件发生的临界水平。
置信度通常采用三个标准:
(1)显著性水平=0.05,即1- =0.95
(2)显著性水平=0.01,即1- =0.99
(3)显著性水平=0.001,即1- =0.999
(二)抽样估计的置信度与精确度**
2.抽样估计的精确度:用置信区间的大小即抽样极
限/允许误差来表示。
3.抽样估计的置信度与精确度的矛盾关系。
在样本容量和其他条件一定的情况下,
若希望抽样估计有较高的可靠度,则必须扩大置信区
间,即必须降低估计的精确度;
若希望抽样估计有较高的精确度,即置信区间范围缩
小,则必须降低估计的把握度。
即:抽样估计要求的把握度越高,则抽样允许误差越
大,精确度越低;反之则相反。
区间估计的应用
(一)总体均值的区间估计
1.总体方差已知时
当 X ~ N ( , 2 )时,来自该总体的简单随机样本 x1 , x2 ,, xn
的样本均值服从数学期望为 、方差 2为的正态分布,将样本均值统计量
x 标准化,得到 Z 统计量:
Z
x
/ n
~ N (0,1)
根据区间估计的定义,在给定的显著性水平 下,总体均值 在
1— 的置信度下的置信区间为:
(
x Z / 2
其中,
x Z / 2
,
n
n
n
),即
x x x x
(x) 即抽样平均误差 ,Z / 2
n
x
即抽样允许误差。
1.总体方差已知时总体均值的区间估计
例题应用
[例7-1] 某厂生产的零件长度服从正态分布,从该厂生产的
零件中随机抽取25件,测得它们的平均长度为30.2厘米。已
知总体标准差 =0.45厘米。
要求:(1)计算抽样平均误差和抽样允许误差。
(2)估计零件平均长度的可能范围( =0.05)。
已知: X ~ N ( ,0.452 ),
1- =0.95,
x =30.2,n =25,
解题过程
(1)抽样平均误差 ( x)
n
0.45
25
0.09
查标准正态分布表可知在 =0.05时,Z / 2 =1.96,所以,
抽样允许误差 x Z / 2
n
1.96 0.09 0.1764
(2)总体均值的置信区间为:
( x Z / 2
n
,x Z / 2
(x x , x x )
)=
n
30.2 0.1764 )= (30.02,30.38)
=( 30.2 0.1764 ,
即我们可以以95%的概率保证该厂零件平均长度在
30.02厘米到30.38厘米之间。
2.总体方差未知时总体均值的区间估计
**总体方差 2 未知,可以以样本方差S 2 代替,但新的统计
量不服从标准正态分布,而是服从自由度为 n -1的t
分布。
**给定置信度1-,可查 t 分布表确定临界值t / 2 (n 1)
从而总体均值的置信区间为:
( x t
S n 1
其中,
/2
n
,x t / 2
S n1
( x) 即为抽样平均误差;
n
S n 1
t / 2
S n1
n
x
上式也可表示为:
即为抽样允许误差。
x x x x
n
)
例题应用
[例7-2] 从某市高中生中按不重复抽样方法随机抽取25名调查
每周收看电视的时间,分组资料见表7-2。
表7-2 每周看电视时间
每周看电视时间(小时)
2 以下
2~4
4~6
6~8
8~10
合计
学生人数(人)
2
6
8
8
1
25
要求:(1)计算抽样平均误差和抽样允许误差;
(2)估计该市全体高中生每周平均看电视时间的置信区
间(给定的显著性水平为0.05)。
解题过程(一)
已知:
n =25, =0.05
样本均值
样本方差
x
1 2 3 6 5 8 7 8 9 1
5(小时 )
25
(1- 5)2 2 (3 - 5) 2 6 (5 - 5) 2 8 (7 - 5) 2 8 (9 - 5)2 1
s
24
=4.33
2
查 t 分布表知 =0.05时,临界值 t / 2 (n 1) = t0.025 (251)
=2.0639,因此,
抽样平均误差 ( x)
抽样允许误差
S n1
n
x t / 2
4.33
0.416
25
S n 1
2.0639 0.416 0.859
n
解题过程(二)
(2)总体均值置信度为95%的置信区间为:
( x t / 2
S n 1
n
, x t / 2
S n 1
)
n
= (x x , x x )
=(5-0.859,5+0.859)
=(4.14,5.86)
即我们可以以95%的把握保证该市高中生每周平
均看电视时间在4.14到5.86小时之间。
(二)总体比例的区间估计
**在大样本下,样本比例的分布趋近于均值为 P 、方差
为 P (1 P )
n
的正态分布。因此,给定置信度1- ,查正态分布
表得 Z / 2 ,则样本比例的抽样极限误差为:
p Z / 2 ( p)
所以,总体比例的置信度为1- 的置信区间为:
p p P p p
例题分析
[例7-3] 某厂对一批产成品按不重复抽样方法随机抽选
200件进行质量检测,其中一等品160件,试以90%的概
率估计一等品率的范围。
已知:p 160 80 % ,1- =90%, n =200
200
查表知: Z / 2 =1.645
计算得样本比例的抽样平均误差为:
( p)
p(1 p)
n
80% (1 80%)
2.83%
200
抽样极限误差为: p Z / 2 ( p) 1.645 2.83% 4.655%
所以,该批产品的一等品比例的置信区间为:
80% 4.655 % P 80% 4.655 %
即这批产品的一等品率在75.35% 到84.66% 之间。
(三)总体方差的区间估计*
1.大样本情况下,样本标准差 S 的分布近似服从正态分
布 N ( , 2 / 2n) ,所以,总体标准差 的置信度为1-
的置信区间近似为:
( S Z / 2
S
2n
, S Z / 2
S
)
2n
2.小样本情况下,若总体呈正态分布且其均值和方差未
知,则总体方差 2 的置信区间可由如下统计量的分布
来确定:
2
(n 1) S 2
2
~ 2 (n 1)
总体方差的置信度为1- 的置信区间为:
(n 1) S 2
( 2 (n 1) ,
/2
(n 1) S 2
12 / 2 (n 1) )
例题应用
[例7-4] 从某班学生中随机抽取16人,计算得语文平
均成绩为75分,方差为25分。假定学生成绩服从正态
分布,试求总体方差及标准差的置信区间(给定的显
著性水平为0.05)。
2
解:已知 n =25, =0.05,,查 分布表确定两个临
界值:
21 / 2 (n 1) = 2 0.975 (16 1) 6.262
2 / 2 (n 1) = 2 0.025 (16 1) 27.488
将临界值数字带入上述公式中,总体方差 2和标准差
的置信度为1- 的置信区间分别为:
(16 1) 25
(16 1) 25
( 27 .488 ,
),即为(13.64,
6.262
59.89);
(
13.64
, 59.89 ),即为(3.69,7.74)。
(四)两个总体均值之差的区间估计
**设两个正态总体为
, )、
, ),
2
X
~
N
(
X 2 ~ N ( 2 2 2
12 2 2
方差1
、1 已知,从两个总体中分别抽取容量为
1
n1 n2
和 的大样本,则样本均值之差服从正态分布,均值
1 2
为
,方差为
12 22
n1
即
n2
x1 x2 ~ N ( 1 2 ,
12
n1
22
n2
)
从而可以构造 1 2 在置信度为1- 水平下的置信区
间:
2
2
1
2
( x1 x 2 ) Z / 2
n1
n 2
(五)两个总体比例之差的区间估计
**设两个总体的比例分别为 P1 和 P2 ,分别从两个总体中
随机抽取容量为 n1和 n2 的大样本,并计算样本比例 p1
和 p2 ,可以证明,当n1和 n2 都很大,从而 np >5和n(1 p)
>5时,p1 - p2的分布近似服从正态分布,且:
P1 P2
( p)
P1 (1 P1 ) P2 (1 P2 )
n1
n2
因此 p1 - p 2 的置信度为1- 的置信区间为:
( p1 p 2 ) Z / 2
P1 (1 P1 ) P2 (1 P2 )
n1
n2
由于总体比例未知,以样本比例来代替,上述置信区
间为:
( p1 p 2 ) Z / 2
p1 (1 p1 ) p 2 (1 p 2 )
n1
n2
第 四 节
抽样调查的组织方式
一、简单随机抽样
(一)概念
又称纯随机抽样,是对总体单位不做任何分类或排
队,直接从总体中按随机原则抽取样本单位的调查方式
(二)评价:简单易行,最符合随机原则,是抽样调查
的基本形式。
(三)适用情况:当总体单位数不多且分布比较均匀,
或总体单位之间数量特征值差异较小,或总体单位有现
成的编号时,采用这种方式比较适宜。
二、类型抽样
(一)概念
又称分层抽样或分类抽样,是将统计分组和抽样调查结合起
来的组织方式。先将总体单位按某一标志分成若干组,然后在各
组中采用简单随机抽样或其他方式抽取样本单位。
(二)适用情况:总体单位在被研究标志上有明显差异时。
(三)遵循原则:分组时应使组内差异尽可能小,组间差
异尽可能大。
等比例类型抽样
(四)种类:
不等比例类型抽样
三、等距抽样
(一)概念
又称机械抽样或系统抽样,它是先将总体各单位按某一标
志顺序排列,然后按照固定的顺序和相同的间隔抽取样本单位
的抽样组织方式。
无关标志排序抽样:排序的标志与被研究的标志无
关,实质是简单随机抽样。
(二)分类
有关标志排序抽样:排序的标志与被研究的标志有
关,有利于提高样本的代表性 。
(三)评价:抽样误差一般较简单随机抽样小,当被研究现象标
志变异程度较大时,更能显示出其优越性。但有可能产生系统性
误差。
四、整群抽样
(一)概念
又称分群抽样或集团抽样,是将总体划分为若干群,然后以
群为单位按简单随机抽样或等距抽样方式抽取部分群,对中选群
中的所有单位一一调查的抽样组织方式。
(二)整群抽样与类型抽样的区别
类型抽样划分的组称为“类”,作用是缩小总体,使总体的
变异减少,而抽取的基本单位仍是总体单位;
整群抽样划分的组称为“群”,作用是扩大单位,抽取的基
本单位不是总体单位而是群,从而简化抽样工作程序。
(三)评价
样本单位集中于群内,显著地影响了总体单位分配的均匀性。
与其他方式相比,在相同的条件下,抽样误差较大,代表性较
低。
五、多阶段抽样
(一)概念
多阶段抽样又称为多级抽样,它是将抽取样本单位的过程划
分为几个阶段,然后逐阶段抽取样本单位的抽样组织方式。
(二)优点
1.便于组织抽样。
2.可以获得各阶段单元的调查资料。
3.方式灵活。
4.抽样单位的分布较广,降低抽样误差。
(三)适用情况
当总体单位很多且分布广泛,几乎不可能从总体中
直接抽取总体单位时,常采用多阶段抽样。
本章小结
抽样和抽样估计:是在抽样调查的基础上,利用样
本资料计算样本指标,据以对总体特征值做出有一定
可靠程度的估计和判断。
抽样估计涉及的概念:
总体和样本;
概率抽样和非概率抽样;
重复抽样和不重复抽样;
抽样框;
总体参数和样本统计量;
抽样误差(抽样平均误差、抽样极限误差等概念需深
入领会和重点掌握)。
本章小结
抽样估计方法
点估计和区间估计。其中区间估计是主要
方法。应理解置信区间、置信度、显著性水
平的含义,领会区间估计精确度和可靠度之
间的关系,重点掌握总体均值和总体比例的
区间估计方法。
抽样调查的组织方式
简单随机抽样、类型抽样、等距抽样、整
群抽样和多阶段抽样等,应根据研究目的和
研究对象的特点,选择合适的抽样组织方式。
END
第 八 章
假设检验与方差分析
学习目的及重难点提示
本章学习目的
理解原假设、备择假设、两类错误、单侧检验、双侧
检验、方差分析等概念。
掌握三种不同的实际情况下——陈述正确性、研究性、
决策——建立假设检验的方法。
掌握总体方差已知或未知时正态总体的均值假设检验
和总体比例的假设检验。
本章重难点提示
重点是三种不同情况下的假设检验方法,总体方差已
知时正态总体均值和总体比例的假设检验。
难点是总体方差未知时正态总体均值的假设检验和方
差分析。
第一节 假设检验
一、假设检验的概念
一、假设检验的概念
假设(hypothesis),又称统计假设,是对总体参数
的具体数值所作的陈述。
假设检验(hypothesis test) 是先对总体参数提出
某种假设,然后利用样本信息判断假设是否成立的过程。
(一)原假设与备择假设
原假设(null hypothesis),又称零假设,用 H 0
表示,是指研究者想收集证据予以反对的假设。
备择假设(alternative hypothesis),用 H1或 H
表示,是指研究者想收集证据予以支持的假设,它与原
假设陈述的内容相反。
假设检验的三种类型
1.对陈述正确性的检验
在这种情况下,原假设通常是基于假定的陈述是正
确的。然后建立备择假设,为拒绝提供统计证据,从
而证明这个假定的陈述是错误的。
2.对研究性假设的检验
在研究性假设检验的调查研究中,应该建立原假设
和备择假设,并用备择假设来表示研究性假设,这样
如果拒绝,将支持样本所得出的结论以及应该采取某
些行动。
3.对决策情况下的检验
在决策情况下的检验研究中,决策者必须从两种措
施中挑选其中一种,无论是接受还是拒绝,都必须采
取一定的措施。
假设检验的三种形式
设 0 表示在原假设和备择假设中考虑的某
一特定数值, 表示总体的实际值。对总体
的假设检验一定要采取下面的三种形式之一 :
0
⑴ H0 :
H1 :
⑵ H0 : 0
H1 : 0
⑶ H0 : 0
H1 : 0
0
(二) 拒绝域与检验统计量
拒绝域是指能够作出拒绝原假设这一结论的
所有可能的样本取值范围。
检验统计量是根据样本数据计算出来的,并
据以对原假设和备择假设作出决策的某种样
本统计量。
(三)单侧检验与双侧检验
单侧检验是指检验统计量的取值位于其抽样
分布的某一侧范围内时拒绝原假设,也就是
说抽样分布的某一侧构成了拒绝域。
双侧检验是指检验统计量的取值位于其抽样
分布的任何一侧范围内时拒绝原假设,也就
是说抽样分布的左右两侧共同构成了拒绝域。
二、假设检验中的两类错误**
第Ⅰ类错误/弃真错误 (type Ⅰ error)
当原假设为真时拒绝原假设。犯第Ⅰ类错误的概率
通常记为 。
第Ⅱ类错误/取伪错误(type Ⅱ error)
当原假设为假时没有拒绝原假设。犯第Ⅱ类错误的
概率通常记为 。
在统计实践中,进行假设检验时一般先控制第Ⅰ类
错误发生的概率,并确定犯第Ⅰ类错误的概率最大值,
称为检验的显著性水平。显著性水平一般选择为0.05和
0.01。
三、几种常见的假设检验
(一)假设检验的步骤
1.确定原假设和备择假设。
2.选择检验统计量。
3.确定检验的显著性水平 。
4.用显著性水平来确定拒绝原假设 H 的检验统
计量的临界值、拒绝域。
5.根据样本数据,计算检验统计量的值。
6.⑴将统计量的值与临界值进行比较,并作出
决策:若统计量的值落在拒绝域内,拒绝原
假设H 0,否则不拒绝原假设 H 0 。
或⑵根据第5步的检验统计量的值计算 p 值。
运用p 值来确定是否拒绝。
0
(二)总体方差已知时正态总体均值的假设
检验
2
当总体方差
已知,用正态分布来检验总
体均值的假设值的情况如下:
⑴ 当样本数 n 30 (大样本)时的任
意分布总体 (根据中心极限定理);
⑵ 当样本数 n 30 (小样本)但是总
体是正态分布的。
示例
[例8-1] 某公司称其应收账金额的均值为RMB260.00,审
计师希望通过选取一个的样本计算样本均值来检验是否如
此。只有当样本均值与RMB260.00的假设值差别较大时,
审计师才会拒绝这个假设。已知应收账款金额的标准差
为 43.00 ,计算0.05显著性水平下假设检验的样本
均值临界值。
计算过程
假设: H0 : 260.00 ; H1 : 260.00
显著性水平: 0.05
检验统计量:n 36 , 43.00 的样本的 X
43.00
36
2
260.00 14.05 245.95 ~ 274.05
样本均值的临界值 =0 X 260.00 1.96
因此,为了拒绝原假设,这个样本均值的值必须
比RMB 245.95小或者比RMB 274.05大。所以,在双侧
检验(见下图8-1)中有两个拒绝域。
拒绝域
拒绝域
接受域
245.95
260.00
274.05
图8-1 双边检验的拒绝域与接受域
[例8-2] 在例8-1的假设检验中,如果样本的均值
为 X 240.00 ,当显著性水平为0.05时,原假设是否被拒
绝。
当 0.05 时,对应于的双侧检验(见图8-2)的临
界值 0.025 1.96 , 0.025 1.96
2
2
检验统计量的值为:
X 0
X
240.00 260.00
2.79
43.00
36
因为 2.79 1.96 ,落在拒绝域内,所以否定原
假设,也就是说有95%的可靠程度否定原假设。如果将
样本均值与图8-1中均值的临界值比较,将得到相同的
结论。
拒绝域
拒绝域
接受域
-1.96
1.96
图8-2 双边检验的拒绝域与接受域
示例
[例8-3] 某商场销售一种产品,原每周销售量服从平均
值为75,方差为14的正态分布。销售方案更新后,为了考
察销售量是否提高,抽查了6周销售量,求得平均销售量
为78。假定方差不变,在显著性水平0.05下,销售方案更
新后对周销售量是否有显著提高?
计算过程
假设: H0 : 75 ; H1 : 75 左单边检验。
显著性水平: 0.05
检验统计量: n 6 , 2 14 的样本的 Z 值。
由于总体服从方差已知的正态分布,所以在原
假设下,检验统计量
Z
X 0
78 75
1.964
14
n
6
当 0.05 时,对应的临界值为 Z0.05 1.645。
因为 1.964 1.645 ,故否定原假设,这说明销
售方案更新后,周销售量有明显提高。
(三)总体方差未知时正态总体均值的假设
检验
⑴如果样本数 n 30 ,根据中心极限定理,可
以假定抽样分布近似为正态概率分布;
⑵如果样本数 n 30 ,但均值的抽样分布是正
态分布时。
无论哪一种情况,都应当使用T分布计算标准
的检验统计量,在计算检验统计量时,我们
用样本标准差 s 来代替总体标准差 。
检验统计量
X 0 X 0
t
s
sX
n
[例8-4] 某品牌笔记本电脑的说明书声称电池平均充电
次数可达4 200次。为验证其真实性,现随机抽取样本调
查,结果显示平均充电次数是4 200次,样本标准差为
200小时。若一般电脑的电池充电次数服从正态分布,在
5%的显著性水平下,检验说明书是否属实。
假设:H0 : 4 200 ; H1 : 4 200 右单侧检验
显著性水平: 0.05
检验统计量:n 10 ,s 200 的样本的t 值
由于总体服从方差未知的正态分布,所以在
原假设下,检验统计量:
X 0
4 000 4 200
t
3.16
s
100
n
10
当 0.05 时,
对应的临界值为 t0.05 (n 1) t0.05 (9) 1.833
因为 t 3.16 1.833
所以原假设被拒绝,接受备择假设:可以认为电
池的真实充电次数少于4 200次,产品说明不属实。
(四)总体比例的假设检验
总体比例又称总体成数,是指总体中具有某
种相同特征的单位数所占的比例。
一般用 P 来表示总体比例,P0 表示总体比例
的某一特定假设值。总体中的某种特征可以
是数值型的,如一定的重量、一定的长度或
一定的规格等;也可以是品质型的,如男女
性别、学历等级、城市农村等。
总体比例的假设检验步骤
⑴ 建立总体比例检验的原假设和备择假设。
⑵ 用样本比例 p 和样本标准差 p 的来计算检
验统计量 Z p P0 的值,
p
因为是大样本,中心极限定理保证了统计量 p
服从正态分布,那么统计量z就近似服从正态
分布。
⑶ 将检验统计量的值与临界值相比较,确定
是否应该拒绝原假设。
示例
[例8-5] 某保龄球馆在过去几个月中,有20%的顾客是
女性。为了提高女顾客比例,球馆采取了一些措施来吸引
女性保龄球手。一周后随机抽取400名球手作为样本,其
中100名女球手。该球馆经理要据此判断:在0.05的显著
性水平下,该球馆女性保龄球手的比例是否提高?
解题过程
假设: H0 :P 0.20 H1 :P 0.20
因为 nP 400 0.2 80 5
n 1 P 400 1 0.2 320 5
所以为大样本分布,检验统计量 Z 近似服从正
态分布。样本数据显示:
p
Z
100
0.25
400
p P0
P 1 P
n
0.25 0.20
0.05
2.5
0.2 1 0.2 0.02
400
在显著性水平 0.05 情况下,查表可知,
Z0.05 1.645
因为 Z 1.645 ,拒绝原假设 H 0 。所以,该
保龄球馆的经理可以得出结论:女性保龄球手
的比例有所提高。