第三章 单一样本的推断问题 主要内容 单样本推断问题 分布检验 中心位置推断 符号检验 符号秩检验  符 号 检 验 游 程 检 验 C ox -Staut 趋势 检验 分 位 数 检 验 W ilcoxon 符号 秩检验 拟 合 优 度 检 验 Kolm ogorov -Sm irnov 正态性检验 Liliefor 正态性 检验 中国人民大学统计学院 第一节 符号检验和分位数推断 假设总体 F(M) ,M是总体的中位数,对于假设检验问题: H0 : Me  M0  H1 : Me  M0 M 0 是待检验的中位数取值 n 定义,

Download Report

Transcript 第三章 单一样本的推断问题 主要内容 单样本推断问题 分布检验 中心位置推断 符号检验 符号秩检验  符 号 检 验 游 程 检 验 C ox -Staut 趋势 检验 分 位 数 检 验 W ilcoxon 符号 秩检验 拟 合 优 度 检 验 Kolm ogorov -Sm irnov 正态性检验 Liliefor 正态性 检验 中国人民大学统计学院 第一节 符号检验和分位数推断 假设总体 F(M) ,M是总体的中位数,对于假设检验问题: H0 : Me  M0  H1 : Me  M0 M 0 是待检验的中位数取值 n 定义,

第三章 单一样本的推断问题
主要内容
单样本推断问题
分布检验
中心位置推断
符号检验
符号秩检验

符
号
检
验
游
程
检
验
C ox
-Staut
趋势
检验
分
位
数
检
验
W ilcoxon
符号
秩检验
拟
合
优
度
检
验
2
Kolm ogorov
-Sm irnov
正态性检验
Liliefor
正态性
检验
中国人民大学统计学院
第一节
符号检验和分位数推断
假设总体 F(M) ,M是总体的中位数,对于假设检验问题:
H 0 : M e  M 0  H1 : M e  M 0
M0 是待检验的中位数取值
n
定义, S   I(x i  M 0 ) , S

i 1



'
,则
,K  min{s ,s }
s

s

n
  I(x i  M 0 )
n
i 1
'
K
~
b(n
,0.5) ,在显著性水平为  的拒绝域为
在零假设情况下
Pbinom (K  k | n ' , p  0.5)  
其中k是满足上式最大的k值。
中国人民大学统计学院
例3.1. 假设某地16座预出售的楼盘均价,单位(百元/平方
米)如下表所示:
36 32 31 25 28 36 40 32
41 26 35 35 32 87 33 35
One-sample t-Test
data: build.price - 37
t = -0.1412, df = 15, p-value =
0.8896
alternative
hypothesis: true mean is not
equal to 0
95 percent confidence interval:
-8.045853 7.045853
sample estimates:
mean of x
-0.5
中国人民大学统计学院
结果讨论
结论:符号检验在总体分布未知的情况下优于t检验!
单边符号检验问题
H0 : Me  M0  H1 : Me  M0
Pbinom (S  k | n ' , p  0.5)  
H0 : Me  M0  H1 : Me  M0
Pbinom (S  k | n ' , p  0.5)  
k是满足式子的最大值
中国人民大学统计学院
大样本结论
n' n'
当n较大时 K ~ N( , ) :
2 4
K  n' 2
Z
 N(0,1), n  
'
n 4
当n不够大的时候可用修正公式进行调整。
双边:
H 0 : M e  M 0  H1 : M e  M 0
,p-值 2PN(0,1) (Z  z)
左侧: H0 : Me  M0  H1 : Me  M0 ,p-值 PN (0,1) (Z  z)
右侧: H0 : Me  M0  H1 : Me  M0
,p-值 PN(0,1) (Z  z)
中国人民大学统计学院
置信区间
根据顺序统计量构造置信区间:
P(X (i)  M  X ( j) )  1  P(M  X (i) )  P(M  X ( j) )
n
n 1 n n n 1 n
  ( )( )   ( )( ) 1  i  j  n
k i k 2
k j k 2
采用Neyman原则选择最优置信区间,首先找出置信度大于
1  的所有区间 [X (i) , X ( j) ],i  j ,然后再从中选择区间
长度最小的一个。对于大样本,可以用近似正态分布求
置信区间。
中国人民大学统计学院
中国人民大学统计学院
符号检验在配对样本比较运用
配对样本(x1,y1), (x2,y2) ,… (xn,yn)
将 x i  yi 记为“+”,
x i  yi 记为“-”x,
i  yi
记为“0”,记P+ 为“+”比例, P- 为“-”比例,
那么假设检验问题:
H0:P+=P- H1:P+=P可以用符号秩检验。
中国人民大学统计学院

例3.4 如右表是某种商
品在12家超市促销活动
前后的销售额对比表,
用符号检验分析促销活
动的效果如何?
连
锁
店
1
2
3
4
5
6
7
8
9
10
11
12
促销前 促销后
销售额 销售额 符号
42
57
38
49
63
36
48
58
47
51
83
27
40
60
38
47
65
39
49
50
47
52
72
33
+
0
+
+
0
+
-
中国人民大学统计学院
中国人民大学统计学院
根据同样原理,可以将中位数符号检验推
广为任意分位点的符号检验。
中国人民大学统计学院
Cox-Staut趋势存在性检验
检验原理:
设数据序列:X1,X2,…,Xn,双边假设检验问题:
H0 : 数据序列无趋势  H1 : 有增长或减少趋势
令:

 n / 2, n为偶数
c

( n+1) / 2, n为奇数

取数对 (x i , x i c ),Di  x i  x i c ,S  为正的数目,S 为负的数
目, 当正号或者负号太多的时候,认为数据存在趋势。在零
假设情况下 Di服从二项分布。从而转化为符号检验问题。
K  min(S ,S ) ~ b(n ' , 0.5)
中国人民大学统计学院
例3.6 某地区32年来的降雨量如下表
问 (1):该地区前10年来降雨量是否有变化?
(2):该地区32年来降雨量是否有变化?
年份
1971 1972 1973 1974 1975 1976 1977 1978
降雨量 206 223 235 264 229 217 188 204
年份
1979 1980 1981 1982 1983 1984 1985 1986
降雨量 182 230 223 227 242 238 207 208
年份
1987 1988 1989 1990 1991 1992 1993 1994
降雨量 216 233 233 274 234 227 221 214
年份
1995 1996 1997 1998 1999 2000 2001 2002
降雨量 226 228 235 237 243 240 231 210
中国人民大学统计学院
中国人民大学统计学院
260
240
180
200
220
ab
1970
1975
1980
1985
1990
1995
2000
1971:2002
中国人民大学统计学院
随机游程检验
随机游程问题:
一个二元0/1序列当中,一段全由0或者全由1构
成的串成为一个游程,游程中数据的个数称为
游程长度,序列中游程的个数记为R,反映0和
1轮换交替的频繁程度。在序列长度N固定的时
候,如果游程过少过者过多,都说明序列的随
机性不好。当游程过多或者过少时,就会怀疑
序列的随机性。
例3.7 序列1100001110110000111100 共有8个游程
中国人民大学统计学院
检验原理和计算方法
设是由0或者1组成的序列 X1,X2,…,Xn ,假设检验问题:
H0 : 数据出现顺序随机  H1 : 数据出现不随机
n1 个1,
n 0  n1  n ,这时R取任何一个值
R为游程个数,假设有 n 0个0,
n
的概率都是1/(n ) ,R的条件分布
1
n 1 n 1
n 1 n 1
( 1 )( 0 )  ( 1 )( 0 )
k 1
k
k
k 1
P(R  2k  1) 
n
( )
n1
n1  1 n 0  1
2(
)(
)
k 1 k 1
P(R  2k) 
n
( )
n1
建立了抽样分布之后,在零假设成立时,可以计算 P(R  r)或者 P(R  r)
的值,进行检验。
中国人民大学统计学院
小样本的例子
H0: 样本中的观测是随机产生的.
Ha: 样本中的观测是随机产生的
 = .05
n1 = 18
n2 = 8
如果 7  R  17,不能拒绝 H0
否则 拒绝H0.
1
2
3 4 5
6 7 8 9 10 11 12
D CCCCC D CC D CCCC D C D CCC DDD CCC
R = 12
由于 7  R = 12  17,不能拒绝 H0
中国人民大学统计学院
Runs Test: 大样本的例子
经验表明:
如果 n1或 n2 > 20, R 的
抽样分布近似为正态
中国人民大学统计学院
Runs Test:大样本例子
H0: 样本中的观测是随机产生的.
Ha: 样本中的观测是随机产生的
 = .05
n1 = 40
n2 = 10
如果 -1.96  Z  1.96,不能拒绝 H0
否则 拒绝H0.
1
1 2
3 4 5 6
7 8
9 0
11
NNN F NNNNNNN F NN FF NNNNNN F NNNN F NNNNN
12
13
FFFF NNNNNNNNNNNN
R = 13
中国人民大学统计学院
Runs Test: 大样本例子
-1.96  Z = -1.81  1.96,
不能拒绝 H0
中国人民大学统计学院
正态近似
当时 n  , n1/ n0   ,利用正态分布近似:
Z
R  E(R) R  2n1 /(1   )

 N(0,1)
3
Var(R)
4n1 /(1   )
给定水平 之后,可以利用近似公式得到拒绝域的临界值:
Z
2n1n 0
2
rl 
[1 
]
n1  n 0
n1  n 0
Z
2n1n 0
2
ru  1 
[1 
]
n1  n 0
n1  n 0
中国人民大学统计学院
Wilcoxon符号秩检验
基本概念及性质
对称分布的中心一定是中位数,在对称分布情况下,中
位数不唯一,研究对称中心比中位数更有意义。
例:下面的数据中,O是对称中心吗?
0
中国人民大学统计学院
Wilcoxon符号秩检验原理以及性质
首先设样本绝对值 | x1 |,| x 2 |, ,| x n | 的顺序统计量 | x1 |(1) ,| x 2 |(2) , ,| x,
n |(n )
如果数据关于0点对称,那么对称中心两侧的数据疏密程度应
该一样,整数在取绝对值以后的样本中的秩应该和负数在绝对
值样本中的秩和相近。

D j 由| X || X | 定义。
用 R j表示| x j 在绝对值样本中的秩,反秩
Wj  S(X Dj ) 表
|
示 X 的符号,R S(X ) 称为符号秩统计量。Wilcoxon符号秩统计量定
义为:
Dj
Dj

j
( j)
j
n
n
j1
j1
W   jWj   R j S(X j )

中国人民大学统计学院
Wilcoxon符号秩统计量的性质
定理3.2 如果零假 H0:   0 设成立,那么 S(X1 ),S(X2 ), ,S(Xn )
独立于(R1 , R 2 , , R n )
定理3.3 如果零假设 H0:   0 成立,那么
独立于 (D1 , D2 , , Dn )
S(X1 ),S(X2 ),
定理3.4 如果零假设 H0:   0 成立,那么
同分布,P(Wi  0)  P(Wi  1)  1/ 2
W1 , W2 ,
, Wn
,S(Xn )
独立
中国人民大学统计学院
Wilcoxon符号秩检验步骤:
1. 计算 | Xi  M0 |
2. 找出 | Xi  M0 | 的秩,打结时取平均秩。
3. 令 W 表示和 Xi  M0  0 对应的 | X  M | 的秩和,令
和 Xi  M0  0 对应的| X  M | 的秩和。

i
i
0
W  表示
0
4. 双边检验 H0 : M  M0  H1 : M  M0 ,取 W  min(W , W ) ,
当W很小时拒绝零假设;对 H0 : M  M0  H1 : M  M0 ,

取 W  W ;对 H0 : M  M0  H1 : M  M0 ,取 W  W  。
5. 根据W的值查Wilcoxon符号秩检验分布表。对n很大
的时候,可以采用正态近似。
中国人民大学统计学院
Wilcoxon符号秩统计量分布
在小样本情况下可以计算Wilcoxon符号秩统计量的精确
分布。在大样本情况下可以使用正态近似:
Z
W   n(n  1) / 4
 N(0,1)
n(n  1)(2n  1) / 24
计算出Z值以后,查正态分布表对应的p-值,如果p-值很小,
则拒绝零假设。
在小样本情况下,用连续性修正公式:
W   n(n  1) / 4  0.5
Z
 N(0,1)
n(n  1)(2n  1) / 24
中国人民大学统计学院
Wilcoxon符号秩检验导出HodgesLemmann估计性质及运用
定义:简单随机样本 X1 , X2 , , Xn ,计算其中任意两个数的
平均,称为Walsh平均,即 {X'u : X'u  Xi  X j ,i  j}
2
定理:Wilcoxon符号秩统计量 W  可表示为:
W   #{(
Xi  Xj
 0),i  j}
2
定义:假设 X1 , X2 , , Xn 独立同分布于F(X  ) , 当F对称时,
定义Walsh平均中位数:
Xi  Xj
  median{
,i  j}
2
作为  的Hodges-Lemmann估计。
中国人民大学统计学院
正态计分检验
检验原理以及计算:
基本思想是把升幂排列的秩 R i 用对应的正态分位  1 (R i /(n  1))
点替代,为了保证秩为正的,用变化的式子:
n 1 Ri
s(i)   (
),
2n  2
1
i  1,
,n
其中s(i) 就是第R i 个数据的正态记分。
中国人民大学统计学院
计算步骤
对假设检验问题:H0 : M  M0对单边或者双边。
| Xi  M0 | 秩按升幂排列, 并加上Xi  M0 对应的
1. 将的
符号,也就是构造符号秩.
2. 用正态记分代替符号秩:
ri
1 1
si   ( [1 
])sign(Xi  M 0 )
2
n 1
记 W   i 1 si ,构造统计量: T 
n
W
n
2
S
 i
i 1
3. T有近似的正态分布,当T大的时候,考虑拒绝零假设。
中国人民大学统计学院
 2 拟合优度检验原理以及计算
类别
观测频数
1
2
O1
O2
….
C
总和
OC
n
假设检验问题: H0 : F(X)  F0 (X)  H1 : F(X)  F0 (X)
观测频数和理论频数的差别作为检验总体分布和理论分布
2
是否一致的标准,定义Pearson  统计量:
(Oi  Ei ) 2
Oi2
 

n
Ei
Ei
2
2
2



当
 ,1c ,拒绝零假设。
中国人民大学统计学院
Kolmogorov-Smirnov正态性检验
Kolmogorov-Smirnov正态性检验根据样本经验分布和
理论分布的比较,检验样本是否来自于该理论分布。假
设检验问题:
H 0 :样本来自所给分布
H1 : 样本不是来自该分布
假设样本的经验分布函数为 Fn (x),定义
D  max | Fn (x)  F(x) |
当时 D  D ,拒绝零假设。
中国人民大学统计学院
Liliefor正态性检验
正态性检验根据样本经验分布和理论分布的比较,检验
样本是否来自于该理论分布。假设检验问题:
H 0 :样本来自所给分布
H1 : 样本不是来自该分布
中国人民大学统计学院
主要内容回顾
单样本推断问题
分布检验
中心位置推断
符号检验
符号秩检验

符
号
检
验
游
程
检
验
C ox
-Staut
趋势
检验
分
位
数
检
验
W ilcoxon
符号
秩检验
拟
合
优
度
检
验
2
Kolm ogorov
-Sm irnov
正态性检验
Liliefor
正态性
检验
中国人民大学统计学院