Transcript URL

富山大学知能情報工学科
「統計学」第12回
ホーエル『初等統計学』
第8章4節~6節 仮説の検定(2)
高 尚策 (コウ ショウサク) 准教授
Email: [email protected]
1
前回の復習(1)
• 仮説の検定とは
– 用語:検定統計量、有意水準、棄却域
– 分類:片側検定と両側検定
検定統計量の
確率分布
(確率密度関数)
有意水準 α
• 2種類の過誤
棄却限界値
(critical value)
棄却域
採択する仮説
真実
H0 を採択
H1 を採択
H0 が真
正しい判定
第1種の誤り
H1 が真
第2種の誤り
正しい判定
2
前回の復習(2)
• 平均値の検定
– 正規母集団の母平均の検定(両側検定)
– 正規母集団の母平均の検定(片側検定)
– 母平均の区間推定と検定は表裏の関係.
帰無仮説が棄却されるかどうか
=仮定される平均値が信頼区間に含まれるかどう
か
• 割合の検定
pˆ  p
Z
pq
n
3
前回演習問題の答え
• 問題1(章末問題1)
被告を窃盗罪で審理する裁判の場合,2種類の過誤に当たるも
のは何か.社会的にみて,どちらの種類の過誤がより重要とみなさ
れるか.
答え:
罪状が立証されるまでは無罪であるという前提に立って,
検定すべき仮説は,容疑者は無罪であるという仮説である.
それゆえ、
第1種の過誤は無罪である人を有罪であると判定するこ
と、
第2種の過誤は真犯人を見逃がしてしまうこと.
社会的通念からすれば、
第2種の過誤より 第1種の過誤のほうがより重大であると考え
られる.
4
• 問題2(章末問題2)
第2種の過誤が第1種の過誤より重要であると考えられるよ
うな仮説の例を1つあげよ.
答え:
採択する仮説
真実
H0 を採択
H1 を採択
H0 が真
正しい判定
第1種の誤り
H1 が真
第2種の誤り
正しい判定
“ある種の癌治療法は効果がない”という仮説の検定を考える.
• 第1種の誤りは「この治療法は効果がないのに有効と判断
してしまう」
• 第2種の誤りは「この治療法が本当は有効であるのに無効
と判断する」
第1種の誤りに相当する誤りがあったとしても,近い将来気づくことになるだろう。
第2種の誤りは重大な誤りといえよう。
5
• 問題3(章末問題6)
𝑥 = 82, 𝜎 = 16, 𝑛 = 100を与えて,仮説:𝜇 = 86を検定せよ.
答え:
統計的仮説検定の手順
1.帰無仮説と対立仮説を設定する.
2.帰無仮説が正しいという仮定の下で,検定に用いる検定統
計量の分布を導く.
3.帰無仮説を棄却する有意水準を設定する.
4.標本から検定統計量を計算し,その値よりも極端な値が出
現する確率が有意水準よりも小さければ(計算された統計量が
棄却域に落ちれば),帰無仮説を棄却し,対立仮説を採択する.
注意点1:片側検定を行うか両側検定を行うかは,前もって決めておかなければいけません.
注意点2:よく用いられる有意水準は,α = 0.05(5%)
両側検定において有意水準5%ということで、両側に0.025の確率になるように分ける。
片側検定において有意水準は5%とは、片側に確率0.05の面積です。
P=0.025
z=-1.96
P=0.025
z=+1.96
P=0.05
z=+1.64
6
• 問題3(章末問題6)
𝑥 = 82, 𝜎 = 16, 𝑛 = 100を与えて,仮説:𝜇 = 86を検定せよ.
答え:
注意点1:片側検定を行うか両側検定を行うかは,前もって決めて
おかなければいけません.
P=0.025
両側検定で!
z=-1.96
P=0.025
z=+1.96
統計的仮説検定の手順
1.帰無仮説と対立仮説を設定する.
H0: μ = 86
H1: μ ≠ 86
2.帰無仮説が正しいという仮定の下で,検定に用いる検定統計量の分布を導く.
中心極限定理: X~N (86,
2
標準化
𝑥−𝜇
82 − 86
𝑧=
𝑛=
100 = −2.5
n
𝜎
16
3.帰無仮説を棄却する有意水準を設定する. α = 0.05(5%)
)
4.標本から検定統計量を計算し,その値よりも極端な値が出現する確率が有意水準より
も小さければ(計算された統計量が棄却域に落ちれば),帰無仮説を棄却し,対立仮説を
採択する. z=-2.5<-1.96, 棄却域に落ちる, 𝐻0 を棄却する。
7
• 問題4(章末問題7)
𝑥 = 82, 𝜎 = 16, 𝑛 = 25を与えて,仮説:𝜇 = 86を検定せよ.
答え:
注意点1:片側検定を行うか両側検定を行うかは,前もって決めて
おかなければいけません.
片側検定で!
𝑥 = 82<𝜇 = 86 左側検定
P=0.05
z=-1.64
統計的仮説検定の手順
1.帰無仮説と対立仮説を設定する.
H0: μ = 86
H1: μ < 86
2.帰無仮説が正しいという仮定の下で,検定に用いる検定統計量の分布を導く.
中心極限定理: X~N (82,
2
標準化
𝑥−𝜇
82 − 86
𝑧=
𝑛=
25 = −1.25
n
𝜎
16
3.帰無仮説を棄却する有意水準を設定する. α = 0.05(5%)
)
4.標本から検定統計量を計算し,その値よりも極端な値が出現する確率が有意水準より
も小さければ(計算された統計量が棄却域に落ちれば),帰無仮説を棄却し,対立仮説を
採択する. z=-1.25>-1.64, 棄却域に落ちていない, 𝐻0 を採択する。
8
本日の内容
• 2つの平均値の差の検定
• 2つの標本割合の差の検定
• t検定
9
4.2つの平均値の差の検定
• 2つの群があるとき,その母集団平均に差が
あるかどうかの検定.適用例は多い.
– 例:参加者を2群に分け,異なった処置をし(異
なった薬剤,異なった教育方法など),興味ある
変数(医学的指標,テスト成績など)に関して,2
群に差があるかどうかを検定する.
– 標本平均を計算することのできる連続型変数を
測定する.「成功」と「失敗」のように計数を行う変
数の場合には,割合の差の検定(後述)あるいは
分割表の検定(第10章)を行う.
10
平均値の差の検定での母集団
• 2群の背後に,それぞれ母集団を想定する.
– 例:2つの教育方法の効果を比較するとき,第1の方
法で教育された無限に多くの人と,第2の方法で教
育された無限に多くの人を考える.研究への参加者
はこれら母集団から抽出された標本である.
– 研究者は,「今回の研究に参加した人に関しては,2
つの教育方法で成績に差が生じました」と言いたい
のではない.もっと一般化した結論を述べたい.想定
する母集団は結論を一般化する範囲と一致する(例:
日本人の成人英語学習者)
11
平均値の差の検定での帰無仮説
• 2群の標本平均を利用して,母集団での平均
に関する検定を行う.
帰無仮説H0: μ1= μ2
対立仮説H1: μ1 ≠ μ2 (両側検定の場合)
• 2群の母集団平均( μ1 および μ2 )が同一であ
るとしても,標本平均では2群間に差が生じる
ことが一般的.その差が小さければ帰無仮説
は棄却できない.
12
2つの標本
• 第1群の標本は,第1群の母集団から無作為
抽出されたと考える.
– 大きさ n1 の標本:
– 標本平均:
x1
( x11 , x12 , , x1n 1 )
• 第2群の標本は,第2群の母集団から無作為
抽出されたと考える.
– 大きさ n2 の標本:
– 標本平均:
( x21 , x22 , , x2n2 )
x2
13
2つの標本平均の分布
• 標本を抽出し,2群それぞれの平均を計算す
ることを何度も繰り返したとする.
2
– 第1群の標本平均の分布:
•
σ12
は第1群の母集団分散
N ( 1 ,
– 第2群の標本平均の分布:
• σ22 は第2群の母集団分散
N ( 2 ,
1
n1
2
)
2
)
n2
• 第1群と第2群の標本平均の差の分布は?
– 2つの独立な確率変数の,差の分布を考える.
14
独立な確率変数の差の分布
• 正規分布に従う2つの独立な確率変数
2
– 確率変数 X1 の分布: N (1 ,  1 )
– 確率変数 X2 の分布: N (2 , 2 2 )
• 差 X1 – X2 の分布
N (1  2 ,    2 )
2
1
2
– 平均は「差」だが,分散は「和」になっていることに
注意!
15
独立な確率変数の和の分布
• 和 X1 + X2 の分布
N (1  2 ,    2 )
2
1
2
– 平均も分散も「和」
– 和および差の分布の平均は,期待値の性質から
明らか.分散については次のスライド.
E[ X1  X 2 ]  E[ X1 ]  E[ X 2 ]
E[ X1  X 2 ]  E[ X1 ]  E[ X 2 ]
16
確率変数の和・差の分散
• 2つの独立な確率変数 X1 , X2 の,和および
差の分散.
V [ X 1  X 2 ]  E[{( X 1  X 2 )  ( 1   2 )}2 ]
 E[{( X 1  1 )  ( X 2   2 )}2 ]
 E[( X 1  1 ) 2  ( X 2   2 ) 2  2( X 1  1 )( X 2   2 )]
 E[( X 1  1 ) 2 ]  E[( X 2   2 ) 2 ]  2 E[( X 1  1 )( X 2   2 )]
 V [ X 1 ]  V [ X 2 ]  2 E[( X 1  1 )( X 2   2 )]
確率変数 X1 , X2 の共分散(第9章).独立ならばゼロ
17
標本平均の差の分布
• 標本平均は確率変数なので,確率変数の差
の分布に関する性質を適用できる.

2
1
N
(

,
)
1
– 第1群の標本平均の分布:
n1
– 第2群の標本平均の分布:
– 標本平均の差の分布:
N ( 2 ,
2
N (1  2 ,
2
n2

)
2
1
n1

2
2
n2
)
18
標準化と検定
• 標本平均の差 𝑥1 − 𝑥2 の分布:
2
2
1  2
N (1  2 ,

)
n1
n2
• 得られた標本平均の差を標準化すれば,標
準正規分布を用いた検定を行うことができ
る.
( x1  x2 )  ( 1   2 )
z
1
2
n1

2
2
n2
Z
X  0

n
19
帰無仮説H0: μ1= μ2
対立仮説H1: μ1 ≠ μ2 (両側検定の場合)
• 帰無仮説が正しいと仮定すると,μ1 – μ2 = 0 より,
( x1  x2 )  ( 1   2 )
x1  x2
z
1
2
n1

2
2

n2
1
2
n1

2
2
n2
• 母集団分散が未知の場合
– 大標本(目安として n1 > 25, n2 > 25)では,標本分散
で代用する.
– 小標本でも標本分散で代用するが,正規分布のかわ
りに t 分布を用いた検定を行う.(後述)
20
検定での注意
• 大標本では,2群の母集団分布が正規分布
でなくてもよい.
– 中心極限定理により,平均値に関しては正規分
布が利用できる.
• 2群のスコアは,2つの母集団から,それぞれ
独立に抽出したものでなくてはならない.
– 例:同一人物の右足の長さと左足の長さは関連
があるから(右足が短い人は左足も短い),これ
ら2変数は独立ではない.(テキストp.173)
21
例題(テキスト p.172-175)
• 2種類の電球A,Bの寿命を,それぞれ100個
ずつテストする.
• 問題意識:2つの銘柄の間で,平均寿命に差
はあるのか?
帰無仮説H0: μ1= μ2
対立仮説H1: μ1 ≠ μ2 (両側検定)
22
P=0.025
P=0.025
両側検定で
z=-1.96
z=+1.96
• 標本平均と標準偏差
– 銘柄A
x1  1160, s1  90
– 銘柄B
x2  1140, s2  80
• 検定統計量(帰無仮説が正しいと仮定)
1160 1140
20
z

 1.67  1.96
902 802 12

100 100
有意ではない
23
5.2つの割合の差の検定
• 2つの群があるとき,その母集団割合に差が
あるかどうかの検定.
– 参加者を2群に分け,異なった処置をし(異なった
薬剤,異なった教育方法など),興味ある変数
(医学的指標,テスト成績など)に関して,2群に
差があるかどうかを検定する(平均の差の検定と
同じ興味!).
– 平均の差の検定とは異なり,「成功」と「失敗」の
ように計数を行う変数を測定する(例:投薬効果
の「あり」「なし」).
24
割合の差の検定での帰無仮説
• 2群の標本割合を利用して,母集団での割合
に関する検定を行う.
帰無仮説H0: p1= p2
対立仮説H1: p1 ≠ p2 (両側検定の場合)
• 2群の母集団割合( p1 および p2 )が同一であ
るとしても,標本割合では2群間に差が生じる
ことが一般的.その差が小さければ帰無仮説
は棄却できない.
25
2つの標本
• 第1群の標本は,第1群の母集団から無作為
抽出されたと考える.
– 大きさ n1 の標本: ( x11 , x12 , , x1n )
1
– 「成功」を1,「失敗」を0.各 x1i (i = 1, 2, n1)は,い
ずれかの値をとる.
– 成功回数: k1  x11  x12    x1n
1
k1
– 標本割合: pˆ1 
n1
2項分布で学習したこと!
26
• 第2群の標本は,第2群の母集団から無作為
抽出されたと考える.
– 大きさ n2 の標本: ( x21 , x22 , , x2n )
2
– 「成功」を1,「失敗」を0.各 x2j (j = 1, 2, n2)は,い
ずれかの値をとる.
– 成功回数: k2  x21  x22    x2n
2
k2
– 標本割合: pˆ 2 
n2
27
2つの標本割合の分布
• (大)標本を抽出し,2群それぞれの標本割合
を計算することを何度も繰り返したとする.
– 第1群の標本割合の分布: N ( p , p1 (1  p1 ) )
1
n1
中心極限定理による
p2 (1  p2 )
N ( p2 ,
)
n2
• 第1群と第2群の標本割合の差の分布は?
– 第2群の標本割合の分布:
– 2つの独立な確率変数の,差の分布を考える.
28
標本割合の差の分布
• 標本割合は確率変数なので,確率変数の差
の分布に関する性質を適用できる.
– 第1群の標本割合の分布:
q1  1  p1
– 第2群の標本割合の分布:
q2  1  p2
p1q1
N ( p1 ,
)
n1
p2 q2
N ( p2 ,
)
n2
p1q1 p2 q2
– 標本割合の差の分布: N ( p1  p2 ,

)
n1
n2
29
標準化と検定
• 標本割合の差の分布:
p1q1 p2 q2
N ( p1  p2 ,

)
n1
n2
• 得られた標本割合の差を標準化すれば,標
準正規分布を用いた検定を行うことができ
る.
( pˆ  pˆ )  ( p  p )
z
1
2
1
2
p1q1 p2 q2

n1
n2
30
• 帰無仮説( p1 = p2 )が正しいと仮定すると,
p1 = p2 = p, q = 1 - p として,
1 1
p1q1 p2 q2 pq pq



 pq  
n1
n2
n1 n2
 n1 n2 
( pˆ 1  pˆ 2 )  ( p1  p2 )
z

p1q1 p2 q2

n1
n2
pˆ 1  pˆ 2
1 1 
pq  
 n1 n 2 
31
• 母集団割合が未知の場合
– 大標本(目安として n1 > 25, n2 > 25)では,標本
割合で代用する.ただし,2群を合併して母集団
割合を推定する(下の式).
– 小標本の場合は分割表の検定(第10章) にす
る.
k1  k 2
pˆ 
n1  n2
z
pˆ 1  pˆ 2
k1  k 2  k1  k 2  1 1 
1 
  
n1  n2  n1  n2  n1 n2 
32
例題(テキスト p.176-177)
• 2種類の薬A,Bの効果を,それぞれ200人ず
つに投与してテストする.
– 効果は「あり」か「なし」のいずれかで測定.
• 問題意識:2つの薬の間で,効果に差はある
のか?
帰無仮説H0: p1= p2 (母集団では,効果「あり」の
割合は等しい)
対立仮説H1: p1 ≠ p2
33
P=0.025
P=0.025
z=-1.96 z=+1.96
• 標本割合と母集団割合(推定値)
– 薬A: pˆ 1  152  0.76
200
– 薬B: pˆ 2  132  0.66
200
母集団割合の推定値
152  132
pˆ 
 0.71
200  200
• 検定統計量(帰無仮説が正しいと仮定)
0.76  0.66
0.10
z

 2.22  1.96
1  0.045
 1
0.71 0.29 


有意である
 200 200
34
1標本での平均値の検定(小標本法)
• 特定の母平均に関する検定
 H0: μ = μ0
 H1: μ ≠ μ0 (両側検定の場合)
• 標本平均の標準化 Z  X  0 n

• 母集団分散 σ2 が未知の場合には,標本分散
で置き換える.この検定統計量の分布は自
由度 n-1 の t 分布である.
X  0
t
s
n
35
例題(テキスト p.178-179)
• ミサイルの新しい推進燃料を,10個の実験用
ミサイルでテストする.
– 平均飛行距離を測定
• 問題意識:新しい推進燃料での平均飛行距
離は,これまでの燃料での平均飛行距離
(340マイル)よりも長いのか?
帰無仮説H0: μ= 340
対立仮説H1: μ > 340(片側検定)
36
• 標本平均と標本(不偏)分散
– 標本平均:
– 標本分散:
x  360
s  400 (s  20)
2
• 検定統計量
x
360  340
t
n
10  3.16
s
20
帰無仮説が正しいとき,自由度 9 の t 分布に従う.
有意水準5%,片側検定での棄却限界値は t = 1.833
したがって,有意である.
t分布(自由度m=n-1=9)
面積=P{t≧1.833}=0.05
1.833
37
6.小標本法
• 平均値の差の検定での検定統計量 z
z
( x1  x2 )  ( 1   2 )
1
2
n1

2
2
n2

x1  x2
1
2
n1

2
2
n2
• 小標本で母集団分散が未知の場合,標本分
散を使う.ただし,単なる置き換えでは t 分布
にならないため(ベーレンス-フィッシャー
[Behrens-Fisher]問題),2つの母分散が等し
いと仮定してその推定を行う.
38
母集団平均が等しいと仮定したときの,
標準化された2つの平均の差
x1  x2
z
 12
n1

 22
n2
において,2つの母集団分散が等しい(σ12 = σ22 = σ2)と
さらに仮定すると,
z
x1  x2

2
n1


2
n2

x1  x2
1 1
   
 n1 n2 
2
この σ2 を,標本から計算された2つの分散
s12 および s22 を用いて推定する.
39
2群それぞれにおける平均からの偏差平方和の,
和の期待値を計算する.
E[(n1  1) s1  (n2  1) s2 ]
2
2
 (n1  1) E[ s1 ]  (n2  1) E[ s2 ]
2
2
 (n1  1) 1  (n2  1) 2
2
2
σ12 = σ22 = σ2 のとき,
 (n1  n2  2) 2
したがって,
(n1  1)s1  (n2  1)s2
n1  n2  2
2
2
は,母集団分散 σ2 の不偏推定量である.
40
仮定0:2群の母平均が等しい(検定の帰無仮説)
仮定1:2群の母分散が等しい
z
x1  x2
2
n1

2
n2

x1  x2
1 1
   
 n1 n2 
2
仮定2:母集団の分布は正規分布
(t 分布を利用するために必要な仮定)
t
x1  x2
(n1  1) s1  (n2  1) s2  1 1 
  
n1  n2  2
 n1 n 2 
2
2
テキストp.179
公式(6)
は,自由度 n1 + n2 – 2 の t 分布に従う.
41
検定での注意
• 小標本での,2つの平均値の差についての,
t 分布を利用した検定( t 検定 と呼ぶ)では,
2つの前提条件が満たされている必要がある.
1. 母集団分布は正規分布
2. 母集団分散が等しい
• 前提条件1は確認しないことが多いが,前
提条件2は確認する(次のスライド).
42
• 等分散の検定:小標本での平均値の差の検
定では,t 検定を実行する前に,2つの母集
団分散が等しいかどうかの検定を行う.
– 標本分散の差をとって F 検定(F 分布を使用).
– テキストでは省略されている.
• 2つの母集団分散が等しいという検定におい
て,帰無仮説( σ12 = σ22 )が棄却されてしまっ
たときには,ウェルチ(Welch)の検定と呼ば
れる検定を行うことが多い.
43
例題(テキスト p.179-180)
• パイプまたは葉巻喫煙者11人と,紙巻きタバ
コの喫煙者39人で,肺に吸い込む煙の量を
比較する.
– 血液中のCOHb濃度を測定
• 問題意識:パイプまたは葉巻喫煙者と,紙巻
きタバコの喫煙者で,肺に吸い込む煙の量に
違いはあるのか?
帰無仮説H0: μ1= μ2
対立仮説H1: μ1 ≠ μ2 (両側検定)
44
t検定統計量 t 
x1  x2
2
2
(n1  1) s1  (n2  1) s2  1 1  ~ 𝑡(𝑛1 + 𝑛2 − 2)
  
n1  n2  2
 n1 n 2 
• 標本平均と標本(不偏)分散
– パイプまたは葉巻: x1  2.3, s1  1.0
– 紙巻きたばこ: x2  5.2, s2  2.7
• 検定統計量
t (48) 
2.3  5.2
101.0  38 2.7  1 1 
  
11 39  2
 11 39 
2
2
 3.5
帰無仮説が正しいとき,自由度 48 の t 分布に従う.
有意水準5%,両側検定での棄却限界値(左側)は t = -2.0
したがって,有意である.
45
本日のまとめ(1)
• 2つの平均値の差の検定
注意:2群のスコアは,2つの母集団から,そ
れぞれ独立に抽出したものでなくてはならな
い.
定理:標本平均の差 𝑥1 − 𝑥2 の分布: N (1  2 ,
z
( x1  x2 )  ( 1   2 )
 12
n1

 22
12
n1

 22
n2
)
①標準正規分布を用いた両側検定
~𝑁(0,1)
n2
標準化
P=0.025
z=-1.96
P=0.025
z=+1.96
②標準正規分布を用いた片側検定
1)母集団分散𝜎1 , 𝜎2 が既知の場合、そのまま代入
2)母集団分散が未知の場合
 大標本(目安として n1 > 25, n2 > 25)では,
P=0.05
標本分散(𝑠12 , 𝑠22 )で代用する.
 小標本でも標本分散で代用するが,
46
正規分布のかわりに t 分布を用いた検定を行う(t検定)
z=+1.64
本日のまとめ(2)
• t検定
仮定0:2群の母平均が等しい(検定の帰無仮説)
仮定1:2群の母分散が等しい
仮定2:母集団の分布は正規分布
t検定統計量
t
x1  x2
(n1  1) s1  (n2  1) s2  1 1 
  
n1  n2  2
 n1 n 2 
2
2
~ 𝑡(𝑛1 + 𝑛2 − 2)
面積=有意水準
t分布(自由度m=n-1)
棄却限界値
47
本日のまとめ(3)
• 2つの標本割合の差の検定
p1q1 p2 q2
定理:標本割合の差 𝑝1 − 𝑝2 の分布: N ( p1  p2 ,

)
n1
n2
( pˆ1  pˆ 2 )  ( p1  p2 )
z
p1q1 p2 q2

n1
n2
①標準正規分布を用いた両側検定
~𝑁(0,1)
P=0.025
標準化
k k
pˆ  1 2
n1  n2
1)母集団割合𝑝1 , 𝑝2 が既知の場合、そのまま代入
2)母集団割合が未知の場合
 大標本(目安として n1 > 25, n2 > 25)では,
𝑘 +𝑘
2群を合併して母集団割合𝑝 = 𝑛1+𝑛2 で代用する.
1
 小標本では分割表の検定(第10章)
z=-1.96
P=0.025
z=+1.96
②標準正規分布を用いた片側検定
P=0.05
2
z=+1.64
48
演習課題
• (章末問題36)
1標本での平均値の検定
49
注意点:
1.エクセルにデータを入力し、答えを求めよ。
2.得られたエクセルの表を印刷して、レポート用紙に貼ってください。仮説検
定の結果と結論などはレポート用紙に書いてください。
3.レポートに表紙を付けてください。
名前と学籍番号をご記入のうえ、レポート用紙(A4)を提出する。
提出先:工学部大学院棟7階
締め切り時間:
NO.7708室のドアのポストに入れてください
来週月曜日(7月20日) 午後5時まで
尚、講義用パワーポイントは
http://www3.u-toyama.ac.jp/tanglab/content51/content51.html か ら ダ ウ ン
ロードできる。(ダウンロードパスワードは“2015SS” です)
50