数据统计分析与SPSS应用

Download Report

Transcript 数据统计分析与SPSS应用

数据统计分析与SPSS应用
数据统计分析与SPSS应用
一、统计描述
二、抽样分布
三、统计推断
四、方差分析
一、统计描述
1. 总体与样本
•统计学研究的核心问题是如何通过样本研究总体
•总体是我们研究的全部对象
—无限总体 有限总体
•样本是总体的一部分,样本内包含的个体数目称为
样本含量
•从总体中获得样本的过程称为抽样
—随机抽样
—放回式抽样 非放回式抽样
一、统计描述
2.样本的几个特征数
•均值
•中位数
•众数
•全距:也称极差,是数据的最大值与最小值
之间的绝对差
一、统计描述
• 方差和标准差
• 总体方差
N
2 
总体标准差
  xi   
2
i 1
N
• 样本方差
样本标准差
N
s2 
  2
  xi  x 
i 1
n 1
2
s  s2
一、统计描述
• 四分位数
四分位数是将一组个案由小到大(或由大到小)排
序后,用3个点将全部数据分为四等份,与3个点
上相对应的变量称为四分位数,分别记为Q1, Q2,
Q3。Q3到Q1之间的距离的一半称为四分位差,记
为Q。Q越小,说明数据越集中;Q越大,说明中
间部分的数据越分散。
• 十分位数
• 百分位数
一、统计描述
• 频数
• 峰度
1 n
4
4
Kurtois 
(
x

x
)
/
SD
3

i
n  1 i 1
描述某变量所有取值分布形态陡峭程度的统计量。
是与正态分布相比较的量。
峰度=0 陡峭程度相同
峰度>0 比正态分布更陡峭
峰度<0 比正态分布平坦
一、统计描述
• 偏度
1 n
3
3
Skewness 
(
x

x
)
/
SD
 i
n  1 i 1
描述某变量取值分布对称性的统计量,也是与正态
分布相比较的量。
偏度=0 数据分布形态相同
偏度>0 正偏或右偏,有一条长尾巴拖在右边
偏度<0 负偏或左偏,有一条长尾巴拖在左边
一、统计描述
数据的特征和测度
集中趋势
均值
离散程度
方差和标准差
分布的形状
偏度
众数
中位数
全距
峰度
一、统计描述
• 例1:某班级男生的身高数据(单位:厘
米)
171 182 175 177 178 181 185 168 170 175 177
180 176 172 165 160 178 186 190 176 163 183
二、抽样分布
• 总体与样本之间的关系,可从两方面研究:
1.由已知的总体,研究样本的分布规律,即总
体到样本的研究过程:抽样分布
2.由样本去推断未知总体,属于从样本到总体
的研究过程:统计推断
2.1从一个正态总体中抽取的样本统
计量的分布
2.1.1样本均值的分布
1.标准差已知时样本均值的分布
从均值为  ,标准差为 的正态总体中,独立随机
地抽取含量为n的样本,则样本均值是一个服从正态
分布的随机变量。
 2 
Y N  , 
n 

y 
N  0,1
将其标准化,则 u 

n
2.1从一个正态总体中抽取的样本统
计量的分布
2.标准差未知时平均数的分布——t分布
若正态总体分布的标准差 未知,可用样本标准差
代替总体标准差,标准化变量 Y   并不服从正态分
布,而服从具自由度n-1的t分布
s
n
Y 
t
, 具n - 1自由度
s
n
2.1从一个正态总体中抽取的样本统
计量的分布
2.1.2样本方差的分布
2
从方差为 的正态总体中,随机抽取含量为n的样
本,计算出样本方差 s 2 ,标准化之后的变量服从n-1
个自由度的卡方分布
2 
(n  1) s 2
2
2.2从两个正态总体中抽取的样本统
计量的分布
2.2.1标准差 i 已知时,两个均值的和与差的
分布
如果两个总体分布都是正态分布,则

12  22 
y1  y2 N  1  2 ,


n1 n2 

y1  y2    1  2 

将 y1  y2 标准化,则
u
 12
n1
服从标准正态分布。

 22
n2
2.2从两个正态总体中抽取的样本统
计量的分布
2.2.2标准差 i 未知但相等时,两个均值的和
与差的分布
当  1和  2 未知时,可用 s1 和 s2 代替。若两个总体
相互独立且都是正态分布,同时 1   2   ,则下
式服从n1  n2  2 自由度的t分布
tn1  n2 2 
( y1  y2 )  ( 1  2 )
(n1  1) s12  (n2  1) s22  1 1 
  
(n1  1)  (n2  1)  n1 n2 
( y1  y2 )  ( 1  2 )
n

n

n
当 1
时 t2 n  2 
2
s12  s22
n
2.2从两个正态总体中抽取的样本统
计量的分布
2.2.3两个样本方差比的分布——F分布
从均值和方差分别为( 1 ,  12 ) 和( 2 ,  22 ) 的两个正态总体
中,抽取含量分别为 n1 和 n2的样本,并分别求出它
2
2
s
s
们的样本方差 1 和 2 。标准化的样本方差之比服从
自由度为(n1  1, n2  1) 的F分布。
2
1
2
1
2
2
2
2
s

F
s

三、统计推断
• 统计推断的两种途径
1.对所估计的总体提出一个假设,然后通过样
本数据去推断这个假设是否可以接受:统
计假设检验
2.通过样本统计量估计总体参数:总体参数估
计
点估计 区间估计
3.1统计假设检验
1、假设
零假设: H 0 :   0
备择假设: H A :   0 , H A :   0 , H A :   0
2、小概率原理
小概率事件在一次试验中几乎是不会发生的。若根
据一定的假设条件计算出来该事件发生的概率很小,
而在一次试验中它竟然发生了,则可以认为假设的
条件不正确,从而否定假设,即拒绝零假设。
3.1统计假设检验
• 通过小概率原理建立起来的检验方法称为显著性
检验。
• 概率小到什么程度算是小概率,要根据实际情况
来定。通常规定0.05或0.01以下为小概率,0.05或
0.01称为显著性水平,记为 。
• 统计假设检验所使用的统计量称为检验统计量。
2
常用检验统计量u, t ,  , F
3.1统计假设检验
3、单侧检验与双侧检验
备择假设为 H A :   0 , 或H A :   0 的检验称为单侧
检验,前者称为上尾检验,后者称为下尾检验。
3.1统计假设检验
双侧检验的备择假设 H A :   0
3.1统计假设检验
4、两种类型的错误
第一类错误:原假设本是真的,而做出了否定H0判
断,因此也称为“弃真错误”。在管理中也称生产
者的风险度,记为α.
其大小为: P{拒绝/H0真}=α
第二类错误:原假设H0本来不真,而做出了接收的判
断,因此也称为“取伪错误”。在管理中也称为使
用者的风险度,记为β
其大小为: P{接受/H0不真}=β
两类错误的关系:α越大,β越小,反之α越小β越大。
3.1统计假设检验
3.1统计假设检验
例2: 某车间用一台包装机包装葡萄糖,包得
的袋装糖重服从正态分布.当机器正常时,其均
值为0. 5公斤.某日开工后为检验包装机是否正
常工作,随机地抽取它所包装的糖9袋,称得
净重为(公斤)。
0.497 0.506 0.518 0.524
0.498 0.511 0.520 0.515 0.512
问这天包装机工作是否正常?
3.1统计假设检验
分析:
设这天包装的糖重为X,X~N(μ,σ2 ),
判断:μ0=0.5公斤? 是,则包装机工作正常,
否则包装机工作不正常。
作假设
• H0:μ=μ0=0.5(零假设)
• H1:μ ≠μ0=0.5(备则假设)
μ未知,但知


X

已知与 X 差异小

若 X 与 0差异小,则与 0差异小
在原假设H0成立的情况下
X 的取值 x 与μ0的差异 x -0 应较小
-0 相当大”则为小概率事件
而事件 x“|
假设检验推断的依据:小概率事件原理.
即:小概率事件在一次试验中几乎不可能发生.
• 设“ X -0 ≥K”为小概率事件,若给定α
(α为很小的正数),K可由下式确定,令
• P{| X-μ0 | ≥ K }=α α为显著性水平
X  0
•
t
~ t (n  1) t为检验统计量
s/ n


x  0
K 

于是,P{ X  0  K }  P 

 
s/ n s/ n



即
P{ t  t  (n  1)}  
2
• 根据小概率事件原理,如果由样本的一次
观察值计算的样本均值满足不等式
t  t  (n  1)
2
•
表明小概率事件在一次试验中居然发生了,
这样我们就有理由说假设H0有问题。从而
作出拒绝假设H0推断,否则,我们便作出
接受假设H0的结论。
3.2单个样本的统计假设检验
3.2.1  已知的情况下单个平均数的显著性检
验——u检验
零假设: H 0 :   0
备择假设: H A :   0 , 或H A :   0 , 或H A :   0
检验统计量:
y  0
u

n
拒绝域:
u >u , 或u <-u , 或 u >u
2
3.2单个样本的统计假设检验
3.2.2  未知的情况下单个平均数的显著性检
验——t检验
零假设: H 0 :   0
备择假设: H A :   0 , 或H A :   0 , 或H A :   0
检验统计量:
y  0
tn 1 
s
n
t >t , 或t <-t , 或 t >t
拒绝域:
2
3.2单个样本的统计假设检验
3.2.3
2

变异性的显著性检验—— 检验
零假设: H 0 :    0
备择假设:H A :    0 , 或H A :    0 , 或H A :    0
检验统计量:
2
(n  1) s
2
 
, 具n-1自由度
2
0
2
2
2
2
2
2
2
2
拒绝域: > , 或 <1 , 或 >  和  1
2
2
3.3两个样本的差异显著性检验
3.3.1两个方差的检验——F检验
零假设: H 0 : 1   2
备择假设:H A : 1   2 , 或H A : 1   2 , 或H A : 1   2
检验统计量:
s12
Fdf1 ,df2  2 , df1  n1  1, df 2  n2  1
s2
拒绝域: F >F , 或F <F1 , 或F >F 和F <F1
2
2
3.3两个样本的差异显著性检验
3.3.2标准差 i已知时两个均值之间差异显著
性检验
零假设: H 0 : 1  2
备择假设: H A : 1  2 , 或H A : 1  2 , 或H A : 1  2
 y1  y2    1  2 
检验统计量:
u
 12
n1
在 H 0 : 1  2 的假设下

 22
n2
u
拒绝域: u >u , 或u <-u , 或 u >u
y1  y2
 12
n1

 22
n2
3.3两个样本的差异显著性检验
3.3.3标准差 i未知但相等时两个均值之间差
异显著性检验
零假设: H 0 : 1  2
备择假设: H A : 1  2 , 或H A : 1  2 , 或H A : 1  2
( y1  y2 )  ( 1  2 )
检验统计量:
tn  n  2 
(n1  1) s12  (n2  1) s22  1 1 
  
(n1  1)  (n2  1)  n1 n2 
在 H 0 : 1  2 的假设下
y1  y2
tn1  n2 2 
(n1  1) s12  (n2  1) s22  1 1 
 

拒绝域:
(n1  1)  (n2  1)  n1 n2 
1
2
t >t , 或t <-t , 或 t >t
2
3.3两个样本的差异显著性检验
3.3.4标准差 i未知且可能不等时两个均值之
间差异显著性检验
零假设: H 0 : 1  2
备择假设: H A : 1  2 , 或H A : 1  2 , 或H A : 1  2
检验统计量:
s2
t
y1  y2
s12 s22

n1 n2
1
n1
1
df  2
,k  2
2
k
(1  k )
s1 s22


df1
df 2
n1 n2
拒绝域:t >t , 或t <-t , 或 t >t
2
3.3两个样本的差异显著性检验
3.3.5两配对样本t检验
根据样本数据对样本来自的两配对总体的均值是否
有显著性差异进行推断。
一般用于研究同一研究对象(或两配对对象)分别
给予不同处理的效果比较以及同一研究对象处理前
后的效果比较。
首先求出每对观察值的差值,得到差值序列;然后
对差值求均值;最后检验差值序列的均值,即平均
差是否与零有显著差异。
3.3两个样本的差异显著性检验
零假设: H 0 : d  0
备择假设: H A : d  0, 或H A : d  0, 或H A : d  0
检验统计量:
d
t
拒绝域:
sd
n
t >t , 或t <-t , 或 t >t
2
3.4用SPSS统计软件进行假设检验
3.4.1单一样本T检验
SPSS单样本T检验是检验某个变量的总体均值
和某指定值之间是否存在显著差异。
例3 葡萄糖包装袋
3.4用SPSS统计软件进行假设检验
3.4.2两独立样本T检验
独立样本是指两个样本之间彼此独立没有任何关联,
两个独立样本各自接受相同的测量,研究两个样本
之间是否有显著差异存在。
例4 分析清华、北大大一学生高考数学成绩是否存
在显著差异。
清华 99 88 79 59 54 89 79 56 89
北大 99 23 89 70 50 67 78 89 56
3.4用SPSS统计软件进行假设检验
3.4.3两配对样本T检验
例5 研究一个班同学在参加了暑期数学、化学培训
班后,学习成绩是否有显著变化。
四、方差分析
4.1单因素方差分析
测试某一控制变量的不同水平是否给观察变
量造成了显著差异和变动。
例6 研究一个班3组同学(分别接受3种不同的
教学方法)在数学成绩上是否有显著差异。
四、方差分析
4.2多因素方差分析
控制变量在两个或两个以上,研究的目的是
要分析多个控制变量的作用、交互作用以及
其他随机变量是否对结果产生了显著影响。
例7 研究一个班3组不同性别的同学(分别接
受3种不同的教学方法)在数学成绩上是否有
显著差异。