数理統計学(第十一回）ノンパラ検定とは？2

Transcript 数理統計学(第十一回）ノンパラ検定とは？2

数理統計学(第十一回）
ノンパラ検定とは？２
浜田知久馬
数理統計学第１１回
1
非復元抽出の期待値と分散
・母集団の期待値(母平均)と分散（母分散）
a
 ai
N
,  2 
2
(
a


)
 i
N
・標本平均X・の期待値と分散
E[ X ]   , V [ X ] 
(N-n)/(N-1）：有限修正項
 N n
2
n N 1
n  N : V [ X ]  0　n  1 : V [ X ] 
数理統計学第１１回

2
n
2
和の平均と分散
E[ n X ]  n  n a, 2 N n
2
n

( N  n)
2
V [n X ]  n

n N 1
N 1
N  n  mのときは
2 N n
2
nm

V [n X ]  n 2

n N 1
n  m 1
2
2
(
a


)
(
a


)


i
i
2
 

N
nm
nm ( a i   ) 2
V [n X ] 
(n  m
)(n  m  1)
数理統計学第１１回
3
並べ替え検定の近似
標本：x1,x2,･･･,xm , y1,y2,･･･,yn
に基づいて並べ替え検定
ｍ+ｎ個のデータをまとめて
z1,z2,･･･,zm , zm+1,･･･,zm+n
検定統計量：
n
U   yj 
j 1
m n
z
j  m 1
j
と表す.
 ny
有限母集団からの非復元抽出の結果より,
E[U ]  n z　V [U ]  n 2
nm ( z i  z ) 2
m

n nm
1
( n  m)(n  m  1)
数理統計学第１１回

2
4
並べ替え検定の近似
検定の構成
U  E[U ]
V [U ]
n y  mx
U  E[U ]　 n y  n z  n y  n
nm
n 2 y  nm y  n 2 y  nmx
nm( y  x)


nm
nm
検定統計量U ⇒ 平均値の差の検定と等価
数理統計学第１１回
5
並べ替え検定の近似
全平方和＝群内平方和＋群間平方和
nm
m
n
nm
( z i  z )   ( xi  x )   ( y i  y )  ( y  x )

nm
i 1
i 1
i 1
2
2
2
m
n
s (n  m  2)   ( xi  x)   ( yi  y )
2
2
2
i 1
2
i 1
nm
nm
( z i  z )  s (n  m  2)  ( y  x)

nm
i 1
2
2
2
ｓ2はプールした群内分散
数理統計学第１１回
6
平方和の分解
nm
m
n
i 1
i 1
i 1
m
m
i 1
i 1
2
2
2
(
z

z
)

(
x

z
)

(
y

z
)
 i
 i
 i
2
2
(
x

z
)

(
x

x

x

z
)
 i
 i
n y  mx
  ( xi  x)   ( x  z ) z 
nm
i 1
i 1
m
m
2
2
 nx  mx  n y  mx 
n y  mx 2

(x 
)  


n

m
n

m
i 1
i 1 

m
m
2
2
 nx  n y 
(
x

y
)
2
 数理統計学第１１回
  
m
n
2

n

m
(
n

m
)
i 1 

m
2
7
平方和の分解
( x  y)
( yi  z )  m n

2
(
n

m
)
i 1
2
n
2
2
nm
m
n
i 1
i 1
i 1
2
2
2
(
z

z
)

(
x

x
)

(
y

y
)
 i
 i
 i
( x  y)
( x  y)
2
 mn
m n
2
( n  m)
( n  m) 2
2
2
2
2
(
x

y
)
 s 2 ( n  m  2)  m n
( n  m)
数理統計学第１１回
8
U  E[U ]
V [U ]
nm( y  x)
U  E[U ]　
nm
2
nm ( z i  z )
V [U ] 
(n  m)(n  m  1)
( x  y)
( z i  z )  s ( n  m  2)  m n

( n  m)
i 1
nm
2
2
2
nm s2 (n  m  2)
n 2 m 2 ( x  y) 2
V [U ] 

(n  m)(n  m  1) ( n  m) 2 (n  m  1)
数理統計学第１１回
9
並べ替え検定の近似
Z 


U  E[U ]
V [U ]
nm( y  x )
nm
nm s2 ( n  m  2)
n 2 m 2 ( x  y) 2

( n  m)(n  m  1) ( n  m) 2 ( n  m  1)
( y  x)
s 2 ( n  m  2)(n  m)
( x  y) 2

nm( n  m  1)
( n  m  1)
数理統計学第１１回
10
ｔ検定統計量
t 
yx
1
1
s  

n m
2
yx

s
nm
nm
s 2 ( n  m  2) 
m
n
i 1
i 1
2
2
(
x

x
)

(
y

y
)
 i
 i
数理統計学第１１回
11
並べ替え検定の近似
t
yx
nm
s
nm
Z 
＝
分子分母に
1
nm
s
nm
をかける
( y  x)
s 2 ( n  m  2)(n  m)
( x  y) 2

nm( n  m  1)
( n  m  1)
t
nm2
t

n  m  1 ( n  m  1)
2
数理統計学第１１回
≒ t　( n  m  0)
12
並べ替え検定の正規近似
ビタミンEデータ
n=m=4
U＝121+118+110+90 ＝ 439
E[U ]  n z  4  75.25 301
 (z
 z ) nm
14273.5 4  4
V [U ] 

(n  m)(n  m  1)
8 7
2
i
 4078.14  63.9
2
Uの分布はN(301, 63.92)で近似できる.
数理統計学第１１回
13
並べ替え分布とその正規近似
数理統計学第１１回
14
正規近似の検定
Z
U  E[U ]
439  301

 2.16
63.9
V [U ]
正規分布で,2.16以上の値がでる確率は
0.0308
並べ替え分布のｐ値 0.057（4/70）
ｔ検定のｐ値
0.028
この例ではNが小さいので結果は,微妙に異な
るがNが大きくなれば,ほぼ等しくなる.
数理統計学第１１回
15
ｔ検定の前提条件
• Ｘ1, Ｘ2, Ｘ３, Ｘ４～Ｎ(μｘ，σｘ２)
• Ｙ1, Ｙ2, Ｙ３, Ｙ４～Ｎ(μｙ，σｙ２)
1) ＸとＹが確率変数であること
２）Ｘは相互に独立で同一の分布にしたがう
３）Ｙは相互に独立で同一の分布にしたがう
４）ＸとＹが独立
５）ＸとＹが正規分布にしたがう（等分散）
６）σｘ２=σｙ２（等分散）
数理統計学第１１回
16
ｔ検定の結果
t 
yx
1
1
s  

n m
2
H 0 : x   y , x  40.75, y  109.75
• ｔ値=3.47
帰無仮説の下でｔ値は自由度６のｔ分布にしたがう．
• p=0.028（3.47以上に極端な値が出る確率)
• 並べ替え検定 p=0.057
• ｔ検定は漸近的には並べ替え検定を近似する．
数理統計学第１１回
17
ｔ検定の正当化
1)中心極限定理
元の分布が正規分布でなくても,ｎが大きくな
ると,平均値の分布は正規分布に近づく.
2)並べ替え検定
並べ替え(無作為化割付け）に基づいて
ｔ検定はｎが大きくなると,並べ替え検定の
結果を近似する.
数理統計学第１１回
18
並べ替え検定
・並べ替え分布の計算は困難
・並べ替え分布はデータに依存
・簡便にノンパラメトリック検定を行なう方法はな
いのか.
生データではなく,順位を用いて検定を行なう.
Nが決まれば,順位の分布は定まる.
⇒ウイルコクソン検定
数理統計学第１１回
19
ウイルコクソン検定
ﾋﾞﾀﾐﾝＥ群
生データ 121 118 110 90
12
順位
8
7
6 4
1
対照群
95 34 22
5
3
2
順位和=4+6+7+8＝25
数理統計学第１１回
20
順位和の分布
8Ｃ4=(8×7×6×5)/(4×3×2×1)=70通り
ﾋﾞﾀﾐﾝＥ群
121
121
121
121
121
121
118
118
118
118
118
118
110
110
110
110
110
95
95
90
34
22
12
90
順位
８
８
８
８
８
８
７
７
７
７
７
７
６
６
６
６
６
５
順位和
５
４
３
２
１
４
26
25
24
23
22
24
：
数理統計学第１１回
21
図２順位和の並べ替え分布の幹葉表示と箱ひげ図
正確なウイルコクソン検定 p=2/70(片側)
Stem
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
Leaf
0
0
00
000
00000
00000
0000000
0000000
00000000
0000000
0000000
00000
00000
000
00
0
0
----+----+----+----+
数理統計学第１１回
#
1
1
2
3
5
5
7
7
8
7
7
5
5
3
2
1
1
Boxplot
|
|
|
|
|
|
+-----+
|
|
*--+--*
|
|
+-----+
|
|
|
|
|
|
22
順位の期待値と分散
nm N
n
 a
i
i 1
N
N ( N  1)
N 1


2N
2
n

2

2
(
i

a
)

i 1
n

i
i 1
2
a
2
N
N
N ( N  1)(2 N  1) ( N  1) 2


6N
4
2( N  1)(2 N  1)  3( N  1) 2

12
( N  1)(4 N  2  3 N  3)
( N  1)( N  1)


12 数理統計学第１１回
12
23
標本の順位和（U)の分布
N 1
n( n  m  1)
E[U ]  n

2
2
2
2

N

n
n
m

V [U ]  n 2

n N 1
n  m 1
n m( N 2  1)
n m( n  m  1)


1 2( n  m  1)
12

2
N 2 1

12
ビタミンEの例
E[U]＝4・9/2＝18
数理統計学第１１回
V[U]＝4・4・9/12
＝12＝3.4642
24
SASによるプログラム
data ve;
do group=0 to 1;
do i=1 to 4;
input y @@;output;end;end;
cards;
95 34 22 12
121 118 110 90
proc npar1way wilcoxon;
class group;var y;exact wilcoxon;run;
数理統計学第１１回
25
ウイルコクソン検定の結果
Wilcoxon Scores (Rank Sums) for Variable y
Classified by Variable group
Sum of Expected Std Dev
Mean
group
N Scores Under H0 Under H0 Score
------------------------------------------------V[U]の
0
4
11.0
18.0
3.464102
2.750
平方根
1
4
25.0
18.0
3.464102
6.250
Wilcoxon Two-Sample Test
Statistic (S)
11.0000
2/70
Exact Test
One-Sided Pr <= S
0.0286
Two-Sided Pr >= |S - Mean|
0.0571
Kruskal-Wallis Test
4/70
Chi-Square
4.0833
DF
1
（UーE[U]）2
Pr > Chi-Square
0.0433
E[U]
数理統計学第１１回
V[U]
26
順位検定の利点と欠点
• 利点
1)外れ値の影響を受けにくい．
2)歪んだ分布に対しても検出力が高い．
3)打ち切りデータを扱うことができる．
4)順序カテゴリ－データも扱える．
• 欠点
1)Ｎが小さいときは性能が悪い．
2)信頼区間の構成等が困難
数理統計学第１１回
27
対応のないウイルコクソン検定
雌ラットのチロキシンの血中濃度
対照群平均(1.89) SD(0.42)
1.89 2.03 2.43 1.52 2.55 2.22 1.86 1.69 1.26 1.49
7
9 14
4 16 11.5 6
5
2
3
薬剤群平均(2.33) SD(0.48)
2.40 2.83 2.69 2.15 1.98 2.62 2.22 2.51 2.72 1.20
13 20 18 10
8 17 11.5 15 19 1
t検定 t=2.16 p=0.04
1.20→1.10 t検定 t=2.05 p=0.06
数理統計学第１１回
28
散布図
数理統計学第１１回
29
対応のないウイルコクソン検定
• ２群を一緒にして，データを１～20の順位
に変換する．
１＋２＋３＋・・・＋２０＝２１０
帰無仮説の下での順位和の期待値=105
順位和：対照群：77.5 薬剤群：132.5
132.5-105=27.5
ｐ値：帰無仮説の下で27.5以上の
差が生じる確率
数理統計学第１１回
30
対応のないウイルコクソン検定
• ｐ値の計算方法
1)正確な並べ替え分布の計算
(p=0.0374)
(統計数値表でｐ値を参照)
2)正規分布で近似
(p=0.0376)
3)連続修正をして正規分布で近似(p=0.0412)
4)ｔ分布で近似
(p=0.0553)
5)タイ(同順位）データに対する補正
結果が微妙に異なる．
数理統計学第１１回
31
ウイルコクソン検定の特徴
1)外れ値に対してロバスト
1.20→1.10 or 1.20→0.12 結果は不変
2）単調変換に対して結果が不変
3)検出限界以下のデータも可（最低順位）
4)順序カテゴリカルデータも可
蛋白量－ ±
++
+++ 計
対照群 40 24
10
6
80
薬剤群 24 29
16
11
80
計
64 53
26
17 160
平均順位 32.5 91 130.5 152
数理統計学第１１回
32
ｔ検定とウイルコクソン検定
１）両手法ともvalidity robustnessは有する.
αエラーは制御できる.
２）efficiency robustness
正規分布に近いときｔ＞ｗ
（相対効率3/π＝９５．５%)
歪んだ（外れ値を含む）分布ｔ＜ｗ
数理統計学第１１回
33
演習順位和検定
VE添加群
対照群
920 121 118 90 95 34 22
1）VE添加群の順位和Uを計算せよ．
2）７つのペトリ皿を２群に４枚と３枚に分け
る組み合わせの数はいくつか？
3）得られたデータよりVE添加群の順位和が多
くなるパターンを列記せよ．
4) ウイルコクソン検定の片側ｐ値を計算せ
よ．
5) E[U]とＶ[U]を計算せよ.
数理統計学第１１回
34
数理統計学の教科書
竹内啓(1963)「数理統計学｣東洋経済新報社
吉村功(1969) 「数理統計学｣培風館（廃刊)
竹村彰通(1991)「現代数理統計学」創文社
数理統計学第１１回
35

数理統計学(第十一回） ノンパラ検定とは？2

Transcript 数理統計学(第十一回） ノンパラ検定とは？2

Directory

数理統計学(第十一回）ノンパラ検定とは？2

Transcript 数理統計学(第十一回）ノンパラ検定とは？2