统计实务

Download Report

Transcript 统计实务

Spss统计应用实务-问卷分析与应用统计
主要内容
统计基本原理与常用统计方法
统计基本思想及基本概念
统计数据整理与显示方法
统计描述
统计推断-参数估计假设检验
多变量关系研究-相关与回归,单(双)因素方差分析
常用的统计模型:因子分析、聚类分析
定量研究与统计分析
量化研究的基本概念
量表分析步骤
数据的建立
量表项目分析
量表效度与信度
信度与效度的概念
信度与效度的检验方法
统计应用实例及EXCEL、Spss
统计基本原理与常用统计方法
1.1统计基本思想与基本概念
1.1.1 什么是统计学?统计学是用以(1)收集数据、(2)分析数据、(3)由数据
得出结论的一组概念、原则和方法。
1.1.2 统计学的基本思想
随机性和规律性:关系密切的孪生子
规律性中的随机性
1.1.3 统计学的中几个基本概念
 变量、值和个体
定义:
分类:定类变量、定序变量、定距变量、定比变量
 随机事件和随机变量
 总体、样本
 总体参数和样本统计量
 概率
统计基本原理与常用统计方法
1.1统计学的基本思想与基本概念
1.1.4 统计研究的基本过程
数据收集-----数据整理-------数据分析
1.1.5 数据收集
 观测数据和实验数据
 变量的定义和变量的选择
 数据收集的方法:文献资料法、调查法、测量等
 选择合适的样本:简单的随机抽样、分层抽样、整群抽样
 收集数据时的错误和误差

衡量某一调查的结果所要考查的因素:








样本是否是合适的样本
响应率(response rate)
提问题时所用的实际措辞
在调查中该问题被安排在什么地方?
访问员是谁
抽样误差(sample error)、系统误差、过失误差、随机误差
未响应误差(nonresponse error)
响应误差(response error)
统计基本原理与常用统计方法
1.2不同数据类型整理与展示方法
频数
1.2.1 数据的分类
15
16露露
18%
 定类变量-分类数据
汇源果汁
11
12
 定序变量-顺序数据
12%
9
 定距变量-数值型数据
8
 时间序列数据
4
 多变量数据
1.2.2分类数据的整理与展示
0
百事可乐
可口 旭日升 百事
 频数与频数分布
18%
可乐 冰茶 可乐
 图示:条型图、饼图
可口可乐
30%
9
6
汇源 露露
旭日升冰茶
22% 品牌
果汁
不同品牌饮料的构成
不同品牌饮料的频数分布
统计基本原理与常用统计方法
1.2不同数据类型整理与展示方法
乙城市家庭对住房状况评价的频数分布
甲城市家庭对住房状况评价的频数分布
1.2.3顺序数据的整理与展示


累积频数
累积频率
回答类别
回答类别
乙城市
甲城市
向上累积
向上累积
户数
户数 百分比
百分比
户数 百分比
百分比 户数
户数 百分比
百分比
户数
(%)
(户)
(%)
(户)
(%)
(%)
(户)
(户)
(%)
(%)
(户)
(户)
【例】在一项城市住
房问题的研究中,研
非 常 不 满 24
究人员在甲乙两个城
非常不满意
21
市各抽样意
调 查 300 户 ,
108
不满意
99
其中的一个问题是:
不满意
93
一般
“您对您家庭目前的
78
一般
住房状况是否满意?
45
满意
64
满意
1 . 非非常满意
常 不 满 意 ; 30
38
非常满意
2.不满意;3.一般;
4.满意;5.非常满
合计
合计
意。
向下累积
向下累积
300
300
8
7.0
36
33.0
31
26.0
15
21.3
10
12.7
24
21
132
120
225
198
270
262
300
300
8.0
7.0
44.0
40.0
75.0
66.0
90.0
87.3
100.0
100.0
300
300
276
279
168
180
75
102
30
38
100.0
100.0
92
93.0
56
60.0
25
34.0
10
12.7
100.0
100.0
—
—
—
—
—
—
—
—
统计基本原理与常用统计方法
1.2不同数据类型整理与展示方法
400
400
累
积 300
户
数 200
225
(户)
100
0
270 300
累
积 300
300
户
数 200
(户)
100
132
24
276
168
75
0
非常 不满意 一般
不满意
(a)向下累积
满意
非常
满意
非常 不满意 一般 满意
不满意
(b)向上累积
甲城市家庭对住房状况评价的累积频数分布
30
非常
满意
统计基本原理与常用统计方法
1.2不同数据类型整理与展示方法
13%
10%
7%
8%
非常不满意
15%
21%
33%
不满意
36%
一般
31%
满意
非常满意
26%
甲乙两城市家庭对住房状况的评价
统计基本原理与常用统计方法
1.2不同数据类型整理与展示方法
1.2.4数值型数据整理与展示方法
 数据的分组
分组方法
单变量值分组
组距分组
等距分组
异距分组
统计基本原理与常用统计方法
1.2不同数据类型整理与展示方法
分组方法
单变量值分组
组距分组
等距分组
异距分组
统计基本原理与常用统计方法
1.2不同数据类型整理与展示方法

组距分组

确定组数:组数的确定应以能够显示数据的分布特征
和规律为目的。
2.
确定组距:组距(Class Width)是一个组的上限与下限之
差,可根据全部数据的最大值和最小值及所分的组数
来确定,即
组距=( 最大值 - 最小值)÷ 组数

统计出各组的频数并整理成频数分布表
实例

用Excel制作频数分布表
【例】某电脑
公司2002年前
四个月各天的
销售量数据
(单位:台)。
试对数据进行
分组。
直方图
频
数
直方图下的面
积之和等于1
30
25
(天) 20
15
10
5
140 150 160 170 180 190 200 210 220 230 240
某电脑公司销售量分布的直方图
折线图
频
30
数
25
折线图与直方图
下的面积相等!
(天) 20
15
10
5
140 150 160 170 180 190 200 210 220 230
某电脑公司销售量分布的折线图
240
茎叶图
箱线图
下四分位数 中位数
最小值
170.25
182
上四分位数
最大值
197
141
140
237
150
160
170
180
190
200
210
220
某电脑公司销售量数据的箱线图
230 240
不同数据分布的箱线图
QL 中位数
左偏分布
QU
QL
中位数
QU
对称分布
不同分布的箱线图
Q L 中位数
QU
右偏分布
统计基本原理与常用统计方法
1.2不同数据类型整理与展示方法
1.2.5时间序列数据-线图
【例】已知
1991~2000年
我国城乡居民
家庭的人均收
入数据如表。
试绘制线图
¥
$
1991~2000年城乡居民家庭人均收入
年份
城镇居民
农村居民
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
1700.6
2026.6
2577.4
3496.2
4283.0
4838.9
5160.3
5425.1
5854.0
6280.0
708.6
784.0
921.6
1221.0
1577.7
1926.1
2091.1
2162.0
2210.3
2254.4
城乡居民家庭人均收入
20
19
19
19
19
19
00
99
98
97
96
95
94
93
92
91
6000
19
19
19
19
收入
线图
8000
城镇居民
农村居民
4000
2000
0
年份
统计基本原理与常用统计方法
1.2不同数据类型整理与展示方法
1.2.5多变量数据-雷达图
【 例 】2000 年 我
国城乡居民家庭
平均每人各项生
活消费支出构成
数据如表。试绘
制雷达图。
¥
$
今天的
主食是
面包
2000年城乡居民家庭平均每人生活消费支出构成(%)
项 目
食品
衣着
家庭设备用品及服务
医疗保健
交通通讯
娱乐教育文化服务
居住
杂项商品与服务
城镇居民
农村居民
39.18
10.01
8.79
6.36
7.90
12.56
10.01
5.17
49.30
5.75
4.52
5.24
5.58
11.18
15.47
3.14
雷达图
食品
50
杂项商品
与服务
40
衣着
30
20
10
家庭设备
用品及服务
0
居住
娱乐教育
文化服务
医疗保健
交通通讯
2000年城乡居民家庭人均消费支出构成
城镇居民
农村居民
总结
数据的类型
品质数据
汇总表
条形图 饼图
数值型数据
分组数据
原始数据
时序数据 多元数据
环形图 直方图 折线图 茎叶图 箱线图 线图
雷达图
统计基本原理与常用统计方法
1.3描述统计
1.3.1数据集中趋势测度指标
 众数(Mode)
 中位数(Median)、分位数(quartile)
 平均数(Mean)
1.3.2数据离散趋势测度指标
集中趋势
 异众比率
 全距(Range)
众 数
 四分位距(quartile deviation)
中位数
 标准差(Std.deviation)
 方差(Variance)
均 值
 变异系数(离散系数)
1.3.4数据偏态与峰态测度指标
 偏态系数、峰态系数
1.3.5相对位置测量
xi  x
zi 
 标准分
s
数据特征的测度
离散程度
异众比率
分布的形状
偏 态
四分位差
方差和标准差
峰 态
离散系数
众数、中位数、平均数与分布
均值 中位数 众数
左偏分布
均值 = 中位数 = 众数
对称分布
众数 中位数 均值
右偏分布
众数、中位数、平均数的特点和应用
1.
众数



2.
中位数


3.
不受极端值影响
具有不惟一性
数据分布偏斜程度较大时应用
不受极端值影响
数据分布偏斜程度较大时应用
平均数



易受极端值影响
数学性质优良
数据对称分布或接近对称分布时应用
数据类型和所适用的集中趋势测度值
数据类型
适
用
的
测
度
值
分类数据
顺序数据
间隔数据
※众数
※中位数
※均值
—
四分位数
众数
—
众数
中位数
—
—
四分位数
—
—
—
—
—
—
相对位置-标准分

•
•
•
经验法则表明:
当一组数据对称分
布时
约有68%的数据在
平均数加减1个标
准差的范围之内
约有95%的数据在
平均数加减2个标
准差的范围之内
约有99%的数据在
平均数加减3个标
准差的范围之内
9个家庭人均月收入标准化值计算表
家庭编
号
人均月收入(
元)
标准化值 z
1
2
3
4
5
6
7
8
9
1500
750
780
1080
850
960
2000
1250
1630
0.695
-1.042
-0.973
-0.278
-0.811
-0.556
1.853
0.116
0.996
应用标准分制定评价标准
数据类型和所适用的离散程度测度值
数据类型
适
用
的
测
度
值
分类数据
顺序数据
※异众比率
※四分位差
—
异众比率
数值型数据
※方差或标准差
※离散系数(比较时用)
—
—
平均差
—
—
极差
—
—
四分位差
—
—
异众比率
偏态与峰态分布的形状
偏态
峰态
左偏分布
扁平分布
与标准正态
分布比较!
右偏分布
尖峰分布
EXCEL统计实例
统计基本原理与常用统计方法
1.4统计推断
1.4.1抽样与抽样分布
1.4.2参数估计
1.4.3假设检验
描述统计
统计方法
推断统计
参数估计
假设检验
统计推断的过程
总体
样
本
样本统计量
例如:样本均
值、比例、方
差
统计基本原理与常用统计方法
1.4统计推断
1.4.1抽样与抽样分布
 抽样方式
抽 样方式
概 率抽样
非 概率抽样
简 单随机抽样
分 层抽样
方 便抽样
判 断抽样
整 群抽样
系 统抽样
自 愿样本
滚 雪球抽样
多 阶段抽样
配 额抽样
统计基本原理与常用统计方法
1.4统计推断
1.4.1抽样与抽样分布
 抽样分布
1.
在重复选取容量为n的样本时,由每一个样本算出
的该统计量数值的相对频数分布或概率分布
2.
3.
是一种理论分布
随机变量是 样本统计量

样本均值, 样本比例,样本方差等
4.
结果来自容量相同的所有可能样本
5.
提供了样本统计量长远我们稳定的信息,是进行推
断的理论基础,也是抽样推断科学性的重要依据
抽样分布示意
总
体
样
本
计算样本统计
量
例如:样本均
值、比例、方
差
统计基本原理与常用统计方法
1.4统计推断
1.4.1抽样与抽样分布
 样本均值的抽样分布
 现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。
所有样本的结果为
所有可能的n = 2 的样本(共16个)
第二个观察值
第一个
观察值
1
2
3
4
1
1,1
1,2
1,3
1,4
2
2,1
2,2
2,3
2,4
3
3,1
3,2
3,3
3,4
4
4,1
4,2
4,3
4,4
统计基本原理与常用统计方法
1.4统计推断
1.4.1抽样与抽样分布
 样本均值的抽样分布
 计算出各样本的均值,如下表。并给出样本均值的抽样分布
.3
16个样本的均值(x)
第二个观察值
第一个
观察值
1
2
3
4
1
1.0
1.5
2.0
2.5
.1
2
1.5
2.0
2.5
3.0
0
3
2.0
2.5
3.0
3.5
4
2.5
3.0
3.5
4.0
P (X )
.2
1.0 1.5 2.0 2.5 3.0 3.5 4.0
样本均值的抽样分布
X
统计基本原理与常用统计方法
1.4统计推断
1.4.1抽样与抽样分布
 样本均值的抽样分布
抽样分布
.3
总体分布
.3
P(X)
.2
.2
.1
.1
0
0
1
2
3
4
1.0 1.5 2.0 2.5 3.0 3.5 4.0
X
 = 2.5
σ2 =1.25
 X  2.5
 X2  0.625
中心极限定理
中心极限定理:设从均值为,方差为 2的一个任意总
体中抽取容量为n的样本,当n充分大时,样本均值的抽
样分布近似服从均值为μ、方差为σ2/n的正态分布
一个任意分
布的总体
x 

n
当样本容量足够
大时(n  30) ,
样本均值的抽样
分布逐渐趋于正
态分布
x  
X
统计基本原理与常用统计方法
1.4统计推断
1.4.2参数估计
根据样本统计量的抽样分布能够对样本统计量与总体
参数的接近程度给出一个概率度量
X
 - 2.58x
 -1.65 x

 +1.65x
 -1.96 x
 +1.96x
90%的样本
95% 的样本
  X  z 2 X
 + 2.58x
99% 的样本
X
统计基本原理与常用统计方法
1.4统计推断
1.
2.
3.
由样本统计量所构造的总体参数的估计区间称为置信区间
统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它
取名为置信区间
用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个
样本所产生的区间是否包含总体参数的真值

我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,
但它也可能是少数几个不包含参数真值的区间中的一个
均值的抽样分布
/2
x
1-
x  
(1 - ) % 区间包含了
 % 的区间未包含
/2
X
置信区间实例

一个由大学四年级男生组成的样本中,平均身高是71英寸,
标准差是2.1英寸。用这组数据的构造的总体平均身高的
95%的置信区间是70.4英寸~71.6英寸之间。美国成年男的
身高的均值是69.1英寸,你如何理解这个置信区间?从这
个置信区间来看,大学四年级男生的身高和所有男性身高
是否有区别?

【例】某种零件的长度服从正态分布,从某天生
产一批零件中按重复抽样方法随机抽取9个,测得
其平均长度为21.4cm。已知总体标准差为
=0.15cm。试估计该批零件平均长度的置信区间,
置信水平为95%
统计基本原理与常用统计方法
1.4统计推断
解:已知:= 0.15cm,n=9,x=21.4,1-=95%
x  z

2
 21.4  1.96 
0.15
n
9
即:21.4±0.098=(21.302,21.498),该批零件平
均长度的置信区间为21.302cm~21.498cm之间
统计基本原理与常用统计方法
1.4统计推断
1.4.3假设检验
 假设检验的基本原理
 某种带有概率性质的反证法,即:小概率事件在一次观
察中实际上不可能发生的统计原则。
 假设
 备择假设与原假设
 所犯的两种错误及显著性水平
 1 “弃真”错误 2 “取伪”错误
 统计量及拒绝域
 基本步骤
1 提出原假设H0 2 选择计算统计量 3 取a=0.05或0.01并计算
临界值 4 比较判断得出结论
 单侧检验与双侧检验
什么是假设?
(hypothesis)

 对总体参数的具体数值所
作的陈述

总体参数包括总体均值、比
例、方差等

分析之前必需陈述
我认为这种新药的疗效
比原有的药物更有效!
什么是假设检验?
(hypothesis test)
1.
2.
3.
先对总体的参数(或分布形式)提出某种假设,然后
利用样本信息判断假设是否成立的过程
有参数检验和非参数检验
逻辑上运用反证法,统计上依据小概率原理
原假设
(null hypothesis)
1.
2.
3.

研究者想收集证据予以反对的假设
又称“0假设”
总是有符号 ,  或 
4. 表示为 H0



H0 :  = 某一数值
指定为符号 =, 或 
例如, H0 :   10cm
备择假设
(alternative hypothesis)
1.
研究者想收集证据予以支持的假设
2.
也称“研究假设”
3.
总是有符号 ,  或 
4.
表示为 H1

H1 :  <某一数值,或 某一数值

例如, H1 :  < 10cm,或 10cm
提出假设
(例题分析)

【例】一种零件的生产标准是直径应为10cm,为对生产过程
进行控制,质量监测人员定期对一台加工机床检查,确定这台
机床生产的零件是否符合标准要求。如果零件的平均直径大于
或小于10cm,则表明生产过程不正常,必须进行调整。试陈
述用来检验生产过程是否正常的原假设和备择假设
解:研究者想收集证据予以证明的
假设应该是“生产过程不正常”。
建立的原假设和备择假设为
H0 :   10cm
H1 :   10cm
提出假设
(例题分析)

【例】某品牌洗涤剂在它的产品说明书中声称:平均净含量
不少于500克。从消费者的利益出发,有关研究人员要通过抽
检其中的一批产品来验证该产品制造商的说明是否属实。试
陈述用于检验的原假设与备择假设
解:研究者抽检的意图是倾向于
证实这种洗涤剂的平均净含量并
不符合说明书中的陈述 。建立的
原假设和备择假设为
H0 :   500
H1 :  < 500
500g
提出假设
(例题分析)

【例】一家研究机构估计,某城市中家庭拥有汽车的比例超
过30%。为验证这一估计是否正确,该研究机构随机抽取了
一个样本进行检验。试陈述用于检验的原假设与备择假设
解:研究者想收集证据予以支持的假
设是“该城市中家庭拥有汽车的比例
超过30%”。建立的原假设和备择假设
为
H0 :   30%
H1 :   30%
提出假设
(结论与建议)
1.
原假设和备择假设是一个完备事件组,而且相互对立

在一项假设检验中,原假设和备择假设必有一个成立,
而且只有一个成立
2.
先确定备择假设,再确定原假设
3.
等号“=”总是放在原假设上
4.
因研究目的不同,对同一问题可能提出不同的假设(也可能
得出不同的结论)
双侧检验与单侧检验
1.
2.
备择假设没有特定的方向性,并含有符号“”的
假设检验,称为双侧检验或双尾检验(two-tailed
test)
备择假设具有特定的方向性,并含有符号“>”或
“<”的假设检验,称为单侧检验或单尾检验(onetailed test)


备择假设的方向为“<”,称为左侧检验
备择假设的方向为“>”,称为右侧检验
双侧检验与单侧检验
(假设的形式)
单侧检验
假设
双侧检验
左侧检验
右侧检验
原假设
H0 : = 0
H0 :  0
H0 :  0
备择假设
H1 : ≠0
H1 :  < 0
H1 : > 0
两类错误与显著性水平
假设检验中的两类错误

第Ⅰ类错误(弃真错误)
1.


原假设为真时拒绝原假设
第Ⅰ类错误的概率记为


2.


被称为显著性水平
第Ⅱ类错误(取伪错误)
原假设为假时未拒绝原假设
第Ⅱ类错误的概率记为 (Beta)


假设检验中的两类错误
(决策结果)
H0: 无罪
假设检验就好像一场审判过程
统计检验过程
H0 检验
陪审团审判
实际情况
实际情况
决策
裁决
无罪
有罪
H0为真
H0为假
第Ⅱ类错
误()
正确决策
(1-)
无罪
正确
错误
未拒绝H0
正确决策
(1 – )
有罪
错误
正确
拒绝H0
第Ⅰ类错
误()
 错误和  错误的关系
和 的关系就像
翘翘板,小 就
大, 大 就小
你不能同时减
少两类错误!


影响  错误的因素

1.


2.


3.


4.

总体参数的真值
随着假设的总体参数的减少而增大
显著性水平 
当  减少时增大
总体标准差 
当  增大时增大
样本容量 n
当 n 减少时增大
显著性水平
(significant level)

1.
是一个概率值

2.
原假设为真时,拒绝原假设的概率


3.


4.
被称为抽样分布的拒绝域
表示为  (alpha)
常用的  值有0.01, 0.05, 0.10
由研究者事先确定
假设检验中的小概率原理


 什么是小概率?
1. 在一次试验中,一个几乎不可能发生的事件发
生的概率

2. 在一次试验中小概率事件一旦发生,我们就有
理由拒绝原假设

3.
小概率由研究者事先确定
统计量与拒绝域
检验统计量
(test statistic)
1.
根据样本观测结果计算得到的,并据以对原假设和备
择假设作出决策的某个样本统计量
2.
对样本估计量的标准化结果

原假设H0为真

点估计量的抽样分布
3. 标准化的检验统计量
标准化检验统计量 
点估计量 — 假设值
点估计量的抽样标准差
显著性水平和拒绝域
(双侧检验 )
抽样分布
置信水平
拒绝H0
拒绝H0
1-
/2
临界值
0
/2
临界值
样本统计量
显著性水平和拒绝域
(双侧检验 )
抽样分布
置信水平
拒绝H0
拒绝H0
/2
/2
1-
临界值
0
临界值
样本统计量
显著性水平和拒绝域
(双侧检验 )
抽样分布
置信水平
拒绝H0
/2
拒绝H0
/2
1-
临界值
0
临界值
样本统计量
显著性水平和拒绝域
(双侧检验 )
抽样分布
置信水平
拒绝H0
拒绝H0
/2
/2
1-
临界值
0
临界值
样本统计量
显著性水平和拒绝域
(单侧检验 )
抽样分布
置信水平
拒绝H0

1-
临界值
0
样本统计量
显著性水平和拒绝域
(左侧检验 )
抽样分布
置信水平
拒绝H0

1-
临界值
0
样本统计量
观察到的样本统计量
显著性水平和拒绝域
(左侧检验 )
抽样分布
置信水平
拒绝H0

1-
临界值
0
样本统计量
显著性水平和拒绝域
(右侧检验 )
抽样分布
置信水平
拒绝H0

1-
0
观察到的样本统计量
样本统计量
临界值
显著性水平和拒绝域
(右侧检验 )
抽样分布
置信水平
拒绝H0

1-
0
临界值
样本统计量
决策规则
1.
2.
3.
给定显著性水平,查表得出相应的临界值z或z/2
, t或t/2
将检验统计量的值与 水平的临界值进行比较
作出决策



双侧检验:I统计量I > 临界值,拒绝H0
左侧检验:统计量 < -临界值,拒绝H0
右侧检验:统计量 > 临界值,拒绝H0
利用 P 值 进行决策
什么是P 值?
(P-value)
3.
在原假设为真的条件下,检验统计量的观察值大于或等于
其计算值的概率

双侧检验为分布中两侧面积的总和
反映实际观测到的数据与原假设H0之间不一致的程度
被称为观察到的(或实测的)显著性水平
4.
决策规则:若p值<, 拒绝 H0
1.
2.
双侧检验的P 值
 /2
 /2
拒绝H0
拒绝H0
1/2 P 值
1/2 P 值
临界值
计算出的样本统计量
0
临界值
Z
计算出的样本统计量
左侧检验的P 值
抽样分布
置信水平
拒绝H0

1-
P值
临界值
计算出的样本统计量
0
样本统计量
右侧检验的P 值
抽样分布
置信水平
拒绝H0

1-
P值
0
临界值
计算出的样本统计量
假设检验步骤的总结
1.
2.
陈述原假设和备择假设
从所研究的总体中抽出一个随机样本
3.
确定一个适当的检验统计量,并利用样本数据算出其具体
数值
4.
确定一个适当的显著性水平,并计算出其临界值,指定拒
绝域
将统计量的值与临界值进行比较,作出决策

统计量的值落在拒绝域,拒绝H0,否则不拒绝H0

也可以直接利用P值作出决策
5.
统计基本原理与常用统计方法
1.4统计推断

均值假设检验
1. 单样本t检验
检验某个变量的总体均值与指定的检验值之间是否存在显著
差异。前提要求是样本来自的总体应服从正态分布。
例1:随机抽样得到若干个周岁儿童身高的样本数据。现在
需要通过这些样本数据,分析周岁儿童的平均身高是否为
75厘米?
例2:已知某运动饮料中,维生素C含量服从正态分布,按规
定,维生素C的平均含量不得小于21毫克。现从一批饮料
中抽取17罐,平均C含量为23毫克,标准差为3.98毫克,问
该批饮料维生素C含量是否合格?
统计基本原理与常用统计方法
1.4统计推断

均值假设检验
1. 独立样本t检验
就是根据样本数据对它们来自的两独立总体的均值是否有显著差异进行
推断。这个检验的前提要求是:(1)两样本应是相互独立的。即从一
总体中抽取一批样本对从另一总体中抽取一批样本没有任何影响。
(2)样本来自两总体应服从正态分布。
例:从北京和上海两个城市,分别随机抽取若干个周岁儿童身高的样本
数据,现在需要分析两城市周岁儿童的平均身高是否存在显著差异。
例:现将各方面条件及技术水平基本相似的12名跳远运动员随机的分成
两组,分别实施不同的训练,半年后,每人增长的成绩如下(单位:
厘米)
15 17 12 16 11 13
8 9 9 10 8 7
试问两种训练的效果是否有显著性差异?(=0.01)
统计基本原理与常用统计方法
1.4统计推断

均值假设检验
1. 配对样本t检验
是根据样本数据对样本来自的两配对总体的均值是否有显著差异进行推
断。
前提要求:一是,两样本应是配对的。(两样本观察值数目相同;其次,
两样本的观察值的顺序不能随意更改)二是,样本来自的两样本总体
应服从正态分布。
统计基本原理与常用统计方法
1.5多变量关系研究
1.5.1基本思路




问题一:从数据看变量间有关系吗?
问题二:如果变量间有关系,这个关系有多强?
问题三:是否不仅在样本中,而且在总体 中也有这种
关系?
问题四:这个关系是不是因果关系?
统计基本原理与常用统计方法
1.5多变量关系研究
1.5.2两分类变量:列联表 卡方检验
例:不同的国家的人们用同样的眼光来看待陌生人吗?调查
的问题:“一般说来,你是同意大多数人都是可信赖的
呢,还是认为和人们相处时再怎么小心也不过分?”
国家
对他人态度
信任
怀疑
总计
丹麦
625
360
985
法国
206
763
969
国家
对他人态度
  0 . 43
信任
怀疑
总计
丹麦
64
36
100
985
法国
21
79
100
969
总计
831
1123
1954
统计基本原理与常用统计方法
1.5多变量关系研究
1.5.2两分类变量:列联表 卡方检验
600
1000
763
800
625
400
800
丹麦
法国
206 360
200
法国
丹麦
0
信任
763
625
600
400
360
206
200
怀疑
0
丹麦
1200
1000
800
360
600
400
200
763
625
206
0
丹麦
信任
怀疑
法国
怀疑
信任
法国
•有没有关系?
•两变量关系的强度?
•总体中关系?
提出零假设
检验零假设
p-值判断)
统计基本原理与常用统计方法
1.5多变量关系研究
1.5.3一分类变量(自变量)与数值型变量的方差分析
实例:下表汇总了儿童看护花费的数据资料。请用方差分
析的方法来判断不同看护方式之间的收费是否也不相同。
解:第一、看看两变量之间的关系(作图)
第二、具体分析两变量之间的强度
第三、描述总体的这种关系,进一步分析这种不同产生
的原因。

1
8.0
7.5
15
7.0
6.5
6.0
5.5
每
小
时
费
5.0
4.5
N =
看护
5
3
4
4
亲属
保姆
日托
私人家庭
2

ANOVA

每小时费
组间
组内
Total
SS
10.039
4.701
14.739
df
3
12
15
MS F
Sig.
3.346 8.543 .003
.392
统计基本原理与常用统计方法
1.5多变量关系研究
1.5.4两数值型变量的相关与回归分析


从右图看数据关系?
如果一种食物如果含
有两倍于另一种食物
的脂肪,其热量是否
也为另一食物的两倍
。
食物
玉米饼
炸薯片
奶酪味小吃
炸面饼圈
苹果馅饼
爆玉米花
冰激凌
巧克力条饼干
奶酪饼干
鸡翅膀
奶酪面包圈
花生酱杯
干烤花生
巧克力条
奶酪或花生酱
麦片条
热量
110
120
120
164
430
192
175
236
429
318
249
281
160
147
210
120
脂肪
4
6
6
8
19
11
12
12
26
21
11
16
14
9
9
5
统计基本原理与常用统计方法
1.5多变量关系研究

1)作散点图看有没有关系
500
400
300
热 200
量
(
卡
) 100
0
脂肪(克)
10
20
30
统计基本原理与常用统计方法
1.5多变量关系研究
2)求关系强度-相关系数




相关系数r是在-1到1之间的描述两数值变量间关系强度的一个指标。
我们把它称为线性相关系数(linear correlation coefficient)、(Pearson’s
correlation coefficient)或乘积相关系数(product-moment correlation
coefficient)
相关系数的性质(正负及大小)
一般认为:r(-.78,-1)很强的负相关,r(.78,1)很强正相关;r(-.30,.78),r(.30,.78)表示一个适中的关系;r(-.25,.25)关系很弱。
散点图与相关系数
由散点图可以看出相关程度的强弱;另外可以发现异常值,所以
在进行相关分析和回归分析之前,应作一散点图观测一下数据。
对r相关系数的解释
r 到底又有怎样的含义,另外R的平方又代表了什么意义?
统计基本原理与常用统计方法
1.5多变量关系研究
3)进一步研究两变量关系形式-回归分析
Y
ˆ
y  y
y
ˆ
y
ˆ  a  bx
y
y  y
y
ˆ  y
y
x
2
ˆ

)
y

y
i
i
在使误差值取得最小时即:
值取得最小时,我们就可根据“最小二乘法原
理”来确定a,b的值。
ˆ  16 . 1  15 . 3 x
y
统计基本原理与常用统计方法
1.5多变量关系研究

判定系数-方程拟合优度指标
?
自变量(脂肪含量)
因变量(热量)
残差变量


?
总体相关性检验-方差分析表
来源
平方和
比例
脂肪含量
131878
0.83贡献率
残差
27182
0.17贡献率
总计
159060
1.00
系数的假设检验-T检验
统计基本原理与常用统计方法
1.6统计高级模型
1.6.1因子分析模型
 多指标设计的带来的问题:
1、增加收集的工作量,使分析工作变得烦琐
2、耗费大量的人力物力,但存在大量的信息重叠。
解决办法:
采用因子分析减少指标,而不造成重要信息的丢失
。它将众多指标综合成几个较少的几个综合指标,这
些综合指标称为因子变量。
统计基本原理与常用统计方法
1.6统计高级模型

因子变量的特点
统计基本原理与常用统计方法
1.6统计高级模型
因子分析简介
1、因子分析数学模型及相关概念
假设研究的变量为P个(x1,x2,…,xp)其中xi是平均数为0标
准差为1的标准化变量;F1,F2,…,Fm为m个因子变量m<P
,于是有:

A为因子载荷
矩阵,aij为因
子载荷,E为
特殊因子。
统计基本原理与常用统计方法
1.6统计高级模型

因子分析相关概念
统计基本原理与常用统计方法
1.6统计高级模型
统计基本原理与常用统计方法
1.6统计高级模型

因子分析的步骤
统计基本原理与常用统计方法
1.6统计高级模型
因子分析的步骤
1、确定待分析的原有若干变量是否适合作因子分析。
采用相关分析方法得出变量的相关系数矩阵

统计基本原理与常用统计方法
1.6统计高级模型
因子分析的步骤
1、确定待分析的原有若干变量是否适合作因子分析。
采用相关分析方法得出变量的相关系数矩阵

统计基本原理与常用统计方法
1.6统计高级模型
因子分析的步骤
1、确定待分析的原有若干变量是否适合作因子分析。

统计基本原理与常用统计方法
1.6统计高级模型
因子分析的步骤
2、确定因子变量和因子载荷矩阵
采用主成分分析的方法

统计基本原理与常用统计方法
1.6统计高级模型
因子分析的步骤
3、因子变量命名解释

研究问题引入(小学五年级数学学习情况)
研究问题、假设及统计方法
研究问题、假设及统计方法
问卷设计与分析
问卷的项目分析-反向重新计分
问卷的项目分析-计算各维度总和
问卷的项目分析-分析各题目区分度


对各维度总分进行排序,找27%低分组和27%高分组进
行独立样本T检验,差异不显著的应该删除该题目.
或者对各题目分数与总分数进行相关性检验,把不显著
相关的题目删除
效度分析




专家效度(适合,修改后适合,不适合)计算适合的比率评
价专家效度
效标效度:和某一有效标准的测量值进行相关分析
内容效度:分析题目的难度和区分度
结构效度:因子分析探讨主因素结构和理想结构的一致
性.
信度分析



信度:分析各维度的信度系数以及总量表的信度系数
重测信度
分半信度:将变量按奇偶分半记分,求两部分间的相关系
数