数理統計学(第十一回) ノンパラ検定とは?2
Download
Report
Transcript 数理統計学(第十一回) ノンパラ検定とは?2
数理統計学(第十一回)
ノンパラ検定とは?2
浜田知久馬
数理統計学第11回
1
非復元抽出の期待値と分散
・母集団の期待値(母平均)と分散(母分散)
a
ai
N
, 2
2
(
a
)
i
N
・標本平均X・の期待値と分散
E[ X ] , V [ X ]
(N-n)/(N-1):有限修正項
N n
2
n N 1
n N : V [ X ] 0 n 1 : V [ X ]
数理統計学第11回
2
n
2
和の平均と分散
E[ n X ] n n a, 2 N n
2
n
( N n)
2
V [n X ] n
n N 1
N 1
N n mのときは
2 N n
2
nm
V [n X ] n 2
n N 1
n m 1
2
2
(
a
)
(
a
)
i
i
2
N
nm
nm ( a i ) 2
V [n X ]
(n m
)(n m 1)
数理統計学第11回
3
並べ替え検定の近似
標本:x1,x2,・・・,xm , y1,y2,・・・,yn
に基づいて並べ替え検定
m+n個のデータをまとめて
z1,z2,・・・,zm , zm+1,・・・,zm+n
検定統計量:
n
U yj
j 1
m n
z
j m 1
j
と表す.
ny
有限母集団からの非復元抽出の結果より,
E[U ] n z V [U ] n 2
nm ( z i z ) 2
m
n nm
1
( n m)(n m 1)
数理統計学第11回
2
4
並べ替え検定の近似
検定の構成
U E[U ]
V [U ]
n y mx
U E[U ] n y n z n y n
nm
n 2 y nm y n 2 y nmx
nm( y x)
nm
nm
検定統計量U ⇒ 平均値の差の検定と等価
数理統計学第11回
5
並べ替え検定の近似
全平方和=群内平方和+群間平方和
nm
m
n
nm
( z i z ) ( xi x ) ( y i y ) ( y x )
nm
i 1
i 1
i 1
2
2
2
m
n
s (n m 2) ( xi x) ( yi y )
2
2
2
i 1
2
i 1
nm
nm
( z i z ) s (n m 2) ( y x)
nm
i 1
2
2
2
s2はプールした群内分散
数理統計学第11回
6
平方和 の分解
nm
m
n
i 1
i 1
i 1
m
m
i 1
i 1
2
2
2
(
z
z
)
(
x
z
)
(
y
z
)
i
i
i
2
2
(
x
z
)
(
x
x
x
z
)
i
i
n y mx
( xi x) ( x z ) z
nm
i 1
i 1
m
m
2
2
nx mx n y mx
n y mx 2
(x
)
n
m
n
m
i 1
i 1
m
m
2
2
nx n y
(
x
y
)
2
数理統計学第11回
m
n
2
n
m
(
n
m
)
i 1
m
2
7
平方和 の分解
( x y)
( yi z ) m n
2
(
n
m
)
i 1
2
n
2
2
nm
m
n
i 1
i 1
i 1
2
2
2
(
z
z
)
(
x
x
)
(
y
y
)
i
i
i
( x y)
( x y)
2
mn
m n
2
( n m)
( n m) 2
2
2
2
2
(
x
y
)
s 2 ( n m 2) m n
( n m)
数理統計学第11回
8
U E[U ]
V [U ]
nm( y x)
U E[U ]
nm
2
nm ( z i z )
V [U ]
(n m)(n m 1)
( x y)
( z i z ) s ( n m 2) m n
( n m)
i 1
nm
2
2
2
nm s2 (n m 2)
n 2 m 2 ( x y) 2
V [U ]
(n m)(n m 1) ( n m) 2 (n m 1)
数理統計学第11回
9
並べ替え検定の近似
Z
U E[U ]
V [U ]
nm( y x )
nm
nm s2 ( n m 2)
n 2 m 2 ( x y) 2
( n m)(n m 1) ( n m) 2 ( n m 1)
( y x)
s 2 ( n m 2)(n m)
( x y) 2
nm( n m 1)
( n m 1)
数理統計学第11回
10
t検定統計量
t
yx
1
1
s
n m
2
yx
s
nm
nm
s 2 ( n m 2)
m
n
i 1
i 1
2
2
(
x
x
)
(
y
y
)
i
i
数理統計学第11回
11
並べ替え検定の近似
t
yx
nm
s
nm
Z
=
分子分母に
1
nm
s
nm
をかける
( y x)
s 2 ( n m 2)(n m)
( x y) 2
nm( n m 1)
( n m 1)
t
nm2
t
n m 1 ( n m 1)
2
数理統計学第11回
≒ t ( n m 0)
12
並べ替え検定の正規近似
ビタミンEデータ
n=m=4
U=121+118+110+90 = 439
E[U ] n z 4 75.25 301
(z
z ) nm
14273.5 4 4
V [U ]
(n m)(n m 1)
8 7
2
i
4078.14 63.9
2
Uの分布はN(301, 63.92)で近似できる.
数理統計学第11回
13
並べ替え分布とその正規近似
数理統計学第11回
14
正規近似の検定
Z
U E[U ]
439 301
2.16
63.9
V [U ]
正規分布で,2.16以上の値がでる確率は
0.0308
並べ替え分布のp値 0.057(4/70)
t検定のp値
0.028
この例ではNが小さいので結果は,微妙に異な
るがNが大きくなれば,ほぼ等しくなる.
数理統計学第11回
15
t検定の前提条件
• X1, X2, X3, X4 ~N(μx,σx2)
• Y1, Y2, Y3, Y4 ~N(μy,σy2)
1) XとYが確率変数であること
2)Xは相互に独立で同一の分布にしたがう
3)Yは相互に独立で同一の分布にしたがう
4)XとYが独立
5)XとYが正規分布にしたがう (等分散)
6)σx2=σy2 (等分散)
数理統計学第11回
16
t検定の結果
t
yx
1
1
s
n m
2
H 0 : x y , x 40.75, y 109.75
• t値=3.47
帰無仮説の下でt値は自由度6のt分布にしたがう.
• p=0.028(3.47以上に極端な値が出る確率)
• 並べ替え検定 p=0.057
• t検定は漸近的には並べ替え検定を近似する.
数理統計学第11回
17
t検定の正当化
1)中心極限定理
元の分布が正規分布でなくても,nが大きくな
ると,平均値の分布は正規分布に近づく.
2)並べ替え検定
並べ替え(無作為化割付け)に基づいて
t検定はnが大きくなると,並べ替え検定の
結果を近似する.
数理統計学第11回
18
並べ替え検定
・並べ替え分布の計算は困難
・並べ替え分布はデータに依存
・簡便にノンパラメトリック検定を行なう方法はな
いのか.
生データではなく,順位を用いて検定を行なう.
Nが決まれば,順位の分布は定まる.
⇒ウイルコクソン検定
数理統計学第11回
19
ウイルコクソン検定
ビタミンE群
生データ 121 118 110 90
12
順位
8
7
6 4
1
対照群
95 34 22
5
3
2
順位和=4+6+7+8=25
数理統計学第11回
20
順位和の分布
8C4=(8×7×6×5)/(4×3×2×1)=70通り
ビタミンE群
121
121
121
121
121
121
118
118
118
118
118
118
110
110
110
110
110
95
95
90
34
22
12
90
順位
8
8
8
8
8
8
7
7
7
7
7
7
6
6
6
6
6
5
順位和
5
4
3
2
1
4
26
25
24
23
22
24
:
数理統計学第11回
21
図2 順位和の並べ替え分布の幹葉表示と箱ひげ図
正確なウイルコクソン検定 p=2/70(片側)
Stem
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
Leaf
0
0
00
000
00000
00000
0000000
0000000
00000000
0000000
0000000
00000
00000
000
00
0
0
----+----+----+----+
数理統計学第11回
#
1
1
2
3
5
5
7
7
8
7
7
5
5
3
2
1
1
Boxplot
|
|
|
|
|
|
+-----+
|
|
*--+--*
|
|
+-----+
|
|
|
|
|
|
22
順位の期待値と分散
nm N
n
a
i
i 1
N
N ( N 1)
N 1
2N
2
n
2
2
(
i
a
)
i 1
n
i
i 1
2
a
2
N
N
N ( N 1)(2 N 1) ( N 1) 2
6N
4
2( N 1)(2 N 1) 3( N 1) 2
12
( N 1)(4 N 2 3 N 3)
( N 1)( N 1)
12 数理統計学第11回
12
23
標本の順位和(U)の分布
N 1
n( n m 1)
E[U ] n
2
2
2
2
N
n
n
m
V [U ] n 2
n N 1
n m 1
n m( N 2 1)
n m( n m 1)
1 2( n m 1)
12
2
N 2 1
12
ビタミンEの例
E[U]=4・9/2=18
数理統計学第11回
V[U]=4・4・9/12
=12=3.4642
24
SASによるプログラム
data ve;
do group=0 to 1;
do i=1 to 4;
input y @@;output;end;end;
cards;
95 34 22 12
121 118 110 90
proc npar1way wilcoxon;
class group;var y;exact wilcoxon;run;
数理統計学第11回
25
ウイルコクソン検定の結果
Wilcoxon Scores (Rank Sums) for Variable y
Classified by Variable group
Sum of Expected Std Dev
Mean
group
N Scores Under H0 Under H0 Score
------------------------------------------------V[U]の
0
4
11.0
18.0
3.464102
2.750
平方根
1
4
25.0
18.0
3.464102
6.250
Wilcoxon Two-Sample Test
Statistic (S)
11.0000
2/70
Exact Test
One-Sided Pr <= S
0.0286
Two-Sided Pr >= |S - Mean|
0.0571
Kruskal-Wallis Test
4/70
Chi-Square
4.0833
DF
1
(UーE[U])2
Pr > Chi-Square
0.0433
E[U]
数理統計学第11回
V[U]
26
順位検定の利点と欠点
• 利点
1)外れ値の影響を受けにくい.
2)歪んだ分布に対しても検出力が高い.
3)打ち切りデータを扱うことができる.
4)順序カテゴリ-データも扱える.
• 欠点
1)Nが小さいときは性能が悪い.
2)信頼区間の構成等が困難
数理統計学第11回
27
対応のないウイルコクソン検定
雌ラットのチロキシンの血中濃度
対照群 平均(1.89) SD(0.42)
1.89 2.03 2.43 1.52 2.55 2.22 1.86 1.69 1.26 1.49
7
9 14
4 16 11.5 6
5
2
3
薬剤群 平均(2.33) SD(0.48)
2.40 2.83 2.69 2.15 1.98 2.62 2.22 2.51 2.72 1.20
13 20 18 10
8 17 11.5 15 19 1
t検定 t=2.16 p=0.04
1.20→1.10 t検定 t=2.05 p=0.06
数理統計学第11回
28
散布図
数理統計学第11回
29
対応のないウイルコクソン検定
• 2群を一緒にして,データを1~20の順位
に変換する.
1+2+3+・・・+20=210
帰無仮説の下での順位和の期待値=105
順位和: 対照群:77.5 薬剤群:132.5
132.5-105=27.5
p値:帰無仮説の下で27.5以上の
差が生じる確率
数理統計学第11回
30
対応のないウイルコクソン検定
• p値の計算方法
1)正確な並べ替え分布の計算
(p=0.0374)
(統計数値表でp値を参照)
2)正規分布で近似
(p=0.0376)
3)連続修正をして正規分布で近似(p=0.0412)
4)t分布で近似
(p=0.0553)
5)タイ(同順位)データに対する補正
結果が微妙に異なる.
数理統計学第11回
31
ウイルコクソン検定の特徴
1)外れ値に対してロバスト
1.20→1.10 or 1.20→0.12 結果は不変
2)単調変換に対して結果が不変
3)検出限界以下のデータも可(最低順位)
4)順序カテゴリカルデータも可
蛋白量 - ±
++
+++ 計
対照群 40 24
10
6
80
薬剤群 24 29
16
11
80
計
64 53
26
17 160
平均順位 32.5 91 130.5 152
数理統計学第11回
32
t検定とウイルコクソン検定
1)両手法ともvalidity robustnessは有する.
αエラーは制御できる.
2)efficiency robustness
正規分布に近いとき t>w
(相対効率3/π=95.5%)
歪んだ(外れ値を含む)分布 t<w
数理統計学第11回
33
演習 順位和検定
VE添加群
対照群
920 121 118 90 95 34 22
1)VE添加群の順位和Uを計算せよ.
2)7つのペトリ皿を2群に4枚と3枚に分け
る組み合わせの数はいくつか?
3)得られたデータよりVE添加群の順位和が多
くなるパターンを列記せよ.
4) ウイルコクソン検定の片側p値を計算せ
よ.
5) E[U]とV[U]を計算せよ.
数理統計学第11回
34
数理統計学の教科書
竹内啓(1963)「数理統計学」 東洋経済新報社
吉村功(1969) 「数理統計学」 培風館(廃刊)
竹村彰通(1991)「現代数理統計学」 創文社
数理統計学第11回
35