帰無仮説

Transcript 帰無仮説

統計的仮説検定の考え方
(1)母集団におけるパラメータに仮説を設定する
→ 帰無仮説
(2)仮説を前提とした時の、標本統計量の分布を考える
(3)得られた標本値（実現値）がその標本統計量の分布の中でどこに位置する
かを調べる
＜判定＞
標本統計量として出現しにくい値
出現確率（有意水準）5%又は1%以下 →
帰無仮説を棄却
対立仮説を採択
標本統計量として出現しやすい値
区間推定での前提範囲(95%又は99%) →
帰無仮説を棄却しない
様々な仮説検定の場面
① １標本の検定
１つの母集団における母数についての仮説を検定する
例：静大生のパソコン保有率は50％を越えているのだろうか？
浜松市の１世帯当たりの年間収入の平均値は300万を越えているのだろうか？
② ２標本の検定
２つの母集団における２つの母数間の関係についての仮説を検定する
例：静大生と浜医大生のパソコン保有率には差があるのだろうか？
浜松市と静岡市在住者の通勤時間には差があるのだろうか？
③ ３標本以上の検定
３つの以上の母集団における母数間の関係についての仮説を検定する
例：静大生では学年（１～４年）によってアルバイト収入に差があるのだろうか？
静大では、プロ野球セントラルリーグの各チームを好む比率に差があるのだろうか？
④ ２変数間の関連の強さに関する検定
得られた標本相関係数の値から考えて、母相関係数は０でないといえるのだろうか？
得られたクロス表から判断して、２変数間に関連があると言えるのだろうか？
１標本の平均値の検定（母分散が既知の場合）
検定の場面
１つの母集団（母分散σ２が既知）の母平均に対する仮説を、その母集団からのｎ個の無
作為標本から求めた標本平均値に基づいて検定する。
仮説の設定
帰無仮説：母平均μは、μ0である → μ＝ μ0
対立仮説：母平均は、μ0でない → μ≠ μ0 （両側検定）
帰無仮説が正しい場合の標本平均の分布
N ( 0 ,
2
n
平均μ0 分散σ２／n の正規分
布で近似できる
標本分布における実現値の
位置による判定
帰無仮説を棄却
帰無仮説を棄却
できない
)
１標本の平均値の検定（母分散が既知の場合）：具体的な手順
N ( 0 ,
2
n
)
U  0
z( / 2) 
/ n
標準化
 L  0
/ n
N (0,1)
Z
  0
/ n
U  0
/ n
U  0  z( / 2)
Z ( / 2)
n
L  0
 z( / 2) 
/ n
L  0  z( / 2)
 Z ( / 2)


n
１標本の平均値の検定（母分散が既知の場合）：具体例
全国の大学生の１ヶ月アルバイト収入の平均は５万円、標準偏差は５千円である。
今、無作為に抽出した100人の静大生のアルバイト収入の平均が４万９千円であっ
たとすれば、静大生は全国と比較してアルバイト収入が少ないと言えるだろうか？
有意水準５％
帰無仮説：静大生のアルバイト収入の平均（μ０）は５万円である
対立仮説：静大生のアルバイト収入の平均（μ０）は５万円ではない
帰無仮説が正しい場合の標本平均の分布
平均５万、分散5000２／100=25000 （標準偏差500）の正規分布に近似
採択域の上限値
U  0  z( / 2)

n
U  50000 z( / 2)
採択域の下限値
L  0  z( / 2)
5000
 50000 1.96  500  50980
100

n
L  50000 z( / 2)
49000  49020  L
5000
 50000 1.96  500  49020
100
仮説は棄却される
１標本の平均値の検定（母分散が未知の場合）
検定の場面
１つの母集団（母分散が未知であるため、データに基づく不偏分散を用いる）の母平均に
対する仮説を、その母集団からのｎ個の無作為標本から求めた標本平均値に基づいて検
定する。
仮説の設定
帰無仮説：母平均μは、μ0である → μ＝ μ0
対立仮説：母平均は、μ0でない → μ≠ μ0 （両側検定）
帰無仮説が正しい場合の標本平均の分布
N ( 0 ,
2
n
平均μ0 分散σ２／n の正規分
布で近似できる
標本分布における実現値の
位置による判定
帰無仮説を棄却
帰無仮説を棄却
できない
)
１標本の平均値の検定（母分散が未知の場合）：具体的な手順不偏分散
N ( 0 ,
2
n
ˆ 2
)
U  0
tn1 ( / 2) 
ˆ / n
標準化
 L  0
ˆ / n
自由度n  1のｔ分布
Z
  0
ˆ / n
U  0
ˆ / n
U  0  tn1 ( / 2)
tn1 ( / 2)
n
L  0
 tn1 ( / 2) 
ˆ / n
L  0  tn1 ( / 2)
 tn1 ( / 2)
ˆ
ˆ
n
１標本の平均値の検定（母分散が未知の場合）：具体例
全国の大学生の１ヶ月アルバイト収入の平均は５万円（標準偏差は未知）である。
今、無作為に抽出した静大生100のアルバイト収入の平均が４万９千円、不偏標準
偏差が５千円であったとすれば、静大生は全国と比較してアルバイト収入が少ない
と言えるだろうか？
・・・有意水準５％
帰無仮説：静大生のアルバイト収入の平均（μ０）は５万円である
対立仮説：静大生のアルバイト収入の平均（μ０）は５万円ではない
帰無仮説が正しい場合の標本平均の分布
平均５万、分散σ２／100 の正規分布に近似
採択域の上限値
U  0  tn1 ( / 2)
ˆ
n
U  50000 t99(0.05 / 2)
採択域の下限値
L  0  tn1 ( / 2)
ˆ
n
L  50000 t99( / 2)
49000  49010  L
5000
 50000 1.98  500  50940
100
5000
 50000 1.98  500  49010
100
仮説は棄却される
２標本の平均値の差の検定
２つの母集団における２つの母数間の関係についての仮説を検定する
例：静大生と浜医大生の自宅学習時間（１日）には差があるのだろうか？
浜松市と静岡市在住者の通勤時間には差があるのだろうか？
２つの母分散
 12 、 22
に対する仮説の違いによる４つの検定場面
●ケース１：母分散は既知で、かつ
12   22
●ケース２：母分散は既知ではあるが、
●ケース３：母分散は未知であるが、
12   22
12   22
●ケース４：母分散は未知でありかつ、
の場合
12   22
の場合
を仮定できる場合
を仮定できない場合
2
2
2
２標本の平均値の差の検定（母分散は既知でかつ、 1   2   の場合）
検定の場面
２つの母集団の母平均の差に対する仮説を、それぞれの母集団からのｎ１、ｎ２個の無作
為標本から求めた標本平均値の差に基づいて検定する。
仮説の設定
帰無仮説：母平均の差はμ0である → μ０＝μ１ーμ２ → 一般的には、μ０＝０
対立仮説：母平均の差は、μ0ではない → μ１ーμ２ ≠ ０（両側検定）
帰無仮説が正しい場合の標本平均の差の分布
 12
平均μ１－μ２、分散
平均０、分散
n1
 2(

 22 の正規分布で近似できる
n2
1
1

)
n1 n2 の正規分布で近似できる
標本分布における実現値の
位置による判定
N (0, 2 (
帰無仮説を棄却
できない
０
帰無仮説を棄却
1 1
 ))
n1 n2
2
2
2
２標本の平均値の差の検定（母分散は既知でかつ、 1   2   の場合）
N (0, 2 (1/ n1  1/ n2 ))
z( / 2) 
U
 1/ n1  1/ n2
0
L  0
 1/ n1  1/ n2
 0
Z

標準化
 1/ n1  1/ n2
N (0,1)
U  0
 1/ n1  1/ n2
U  z( / 2) 1/ n1  1/ n2
 z( / 2) 
L
 1/ n1  1/ n2
L  z( / 2) 1/ n1  1/ n2
 Z ( / 2)
Z ( / 2)
2
2
2
２標本の平均値の差の検定（母分散は既知でかつ、 1   2   の場合）具体例
情報学部生の無作為標本50名の１ヶ月アルバイト収入の標本平均値は５万円、工学
部生の無作為標本100名の１ヶ月アルバイト収入の標本平均値は４万９千円であっ
た。この２つの母集団の標準偏差は３千円であるとすれば、情報学部生と工学部生
ではアルバイト収入に差がないと言えるだろうか？
有意水準５％
帰無仮説：情報学部生と工学部生のアルバイト収入に差はない
対立仮説：情報学部生と工学部生ではアルバイト収入が異なる
帰無仮説が正しい場合の標本平均の差の分布
平均０万、分散3000２（1/100+1/50)=270000 の正規分布に近似
採択域の上限値
U  z( / 2) 1/ n1  1/ n2
U  z( / 2)  3000 1/ 100  1/ 50  1.96  519.6  1018.45
採択域の下限値 
L
 z( / 2) 1/ n1  1/ n2
L  z( / 2)  3000 1/100  1/ 50  1.96  519.6  1018.45
L  1018.45  50000 49000  1000  1018.45  U
仮説は棄却されない
２標本の平均値の差の検定（母分散は既知でかつ、
12   22 の場合）
検定の場面
２つの母集団の母平均の差に対する仮説を、それぞれの母集団からのｎ１、ｎ２個の無作
為標本から求めた標本平均値の差に基づいて検定する。
仮説の設定
帰無仮説：母平均の差はμ0である → μ０＝μ１ーμ２ → 一般的には、μ０＝０
対立仮説：母平均の差は、μ0ではない → μ１ーμ２ ≠ ０（両側検定）
帰無仮説が正しい場合の標本平均の差の分布
 12
平均μ１－μ２、分散
平均０、分散
n1
 2(

 12  22
n1
 22 の正規分布で近似できる

n2
n2
1
1

)
n1 n2 の正規分布で近似できる
標本分布における実現値の
位置による判定
N (0, 2 (
帰無仮説を棄却
できない
０
帰無仮説を棄却
1 1
 ))
n1 n2
採択域の上限値と下限値
母分散は既知で等しい
上
限
値
z( / 2) 
U
 1/ n1  1/ n2
U  z( / 2) 1/ n1  1/ n2
下
限
値
 z( / 2) 
L
 1/ n1  1/ n2
L  z( / 2) 1/ n1  1/ n2
母分散は既知であるが等しくない
z( / 2) 
U
12 / n1   22 / n2
U  z( / 2) 12 / n1   22 / n2
 z( / 2) 
L
12 / n1   22 / n2
L  z( / 2) 12 / n1   22 / n2
2
2
2
２標本の平均値の差の検定（母分散は未知であるが、 1   2   を仮定できる場
合）
検定の場面
２つの母集団の母平均の差に対する仮説を、それぞれの母集団からのｎ１、ｎ２個の無作
為標本から求めた標本平均値の差に基づいて検定する。
仮説の設定
帰無仮説：母平均の差はμ0である → μ０＝μ１ーμ２ → 一般的には、μ０＝０
対立仮説：母平均の差は、μ0ではない → μ１ーμ２ ≠ ０（両側検定）
帰無仮説が正しい場合の標本平均の差の分布
平均μ１－μ２、分散
平均０、分散
 2(
 12
n1

 22 の正規分布で近似できる
n2
1
1

)
n1 n2 の正規分布で近似できる
しかしσ2は未知
どのようにして母分散σ2を推定するか？
n1
２つの標本を込みにして不偏分散を求める
x , x12, x13,, x1n1 ( x1)
x , x22, x23,, x2n2 ( x2 )
第１標本： 11
第２標本： 21
ˆ 2 
n2
2
(
x

x
)

(
x

x
)
 1i 1  2i 2
i 1
2
i 1
n1  n2  2
2
2
2
２標本の平均値の差の検定（母分散は未知であるが、 1   2   を仮定できる場合）
N (0, 2 (1/ n1  1/ n2 ))
tn1 n2 2 ( / 2) 
0
  ˆ
 0
t

標準化
ˆ 1/ n1  1/ n2
ˆ 1/ n1  1/ n2
U  tn n 2 ( / 2)ˆ 1/ n1  1/ n2
1
2
自由度n1  n2  2のｔ分布
L  0
ˆ 1/ n1  1/ n2
U  0
ˆ 1/ n1  1/ n2
U
 tn1 n2 2 ( / 2) 
L
ˆ 1/ n1  1/ n2
L  tn n 2 ( / 2)ˆ 1/ n1  1/ n2
1
 tn1n2 2 ( / 2)
tn1n2 2 ( / 2)
2
2
2
2
２標本の平均値の差の検定（母分散は未知であるが、 1   2   を仮定できる場合）
情報学部男子学生の無作為標本30名の自宅学習時間／１日は平均30分、不偏分散
100、女子学生40名の自宅学習時間は35分、不偏分散95であった。この結果から考
えて、自宅学習の時間は男女で差がないと言えるだろうか？
有意水準５％
帰無仮説：情報学部男子学生と女子学生で自宅学習時間に差はない
対立仮説：情報学部男子学生と女子学生では自宅学習時間が異なる
帰無仮説が正しい場合の標本平均の差の分布
平均０万、分散σ２（1/30+1/40) の正規分布に近似。しかし分散は未知
不偏分散の推定
100 (30  1)  95  (40  1)
 97.1
30  40  2
U  tn1n2 2 ( / 2)ˆ 1/ n1  1/ n2
ˆ 2 
採択域の上限値
ˆ  9.86
U  t68(0.025)  9.86 1/ 30  1/ 40  1.995 2.38  4.75
採択域の下限値
L  tn n 2 ( / 2)ˆ 1/ n1  1/ n2
1
2
L  t68(0.025)  9.86 1/ 30  1/ 40  1.995 2.38  4.75
U  4.75  35  30  5
仮説は棄却される
2
2
２標本の平均値の差の検定（母分散は未知であり、 1   2 を仮定できない場合）
検定の場面
２つの母集団の母平均の差に対する仮説を、それぞれの母集団からのｎ１、ｎ２個の無作
為標本から求めた標本平均値の差に基づいて検定する。
仮説の設定
帰無仮説：母平均の差はμ0である → μ０＝μ１ーμ２ → 一般的には、μ０＝０
対立仮説：母平均の差は、μ0ではない → μ１ーμ２ ≠ ０（両側検定）
帰無仮説が正しい場合の標本平均の差の分布
平均μ１－μ２、分散
平均０、分散
 12
n1
 12
n1


 22
n2
 22 の正規分布で近似できる
n2
の正規分布で近似できる
しかし  12 , 22 は未知
母分散が等しくない場合、未知の２つの分散の値に無関係に利用できる
統計量がないので、近似的な方法が工夫されている。
2
2
２標本の平均値の差の検定（母分散は未知であり、 1   2 を仮定できない場合）
近似的な検定方法
母集団１：標本数ｎ1、標本平均
母集団２：標本数ｎ2、標本平均
x1
x2
、不偏分散
、不偏分散
ˆ12
ˆ 22
帰無仮説が正しいとすれば
tn21 1 ( / 2)ˆ12 tn22 1 ( / 2)ˆ 22
T 

n1
n2
Pr(| x1  x2 | T )  
α＝５％とすれば
平均値の差の絶対値がＴ0.05以上の値をとる確率は５％以下である。
帰無仮説が正しいとすれば、平均値の差がＴ0.05より大きな値をとることはめったにない
もしそのような値が得られたとしたら
| x1  x2 | T0.05
帰無仮説が誤っていたと判断する → 帰無仮説を棄却する
2
2
２標本の平均値の差の検定（母分散は未知であり、 1   2 を仮定できない場合）
近似的な検定方法
情報学部男子学生の無作為標本30名の自宅学習時間／１日は平均30分、不偏分散
140、女子学生40名の自宅学習時間は35分、不偏分散70であった。この結果から考
えて、自宅学習の時間は男女で差がないと言えるだろうか？
有意水準５％
帰無仮説：情報学部男子学生と女子学生で自宅学習時間に差はない
対立仮説：情報学部男子学生と女子学生では自宅学習時間が異なる
tn21 1( / 2)ˆ12 tn22 ( / 2)ˆ 22
T 

n1
n2
2
2
t29
(0.025) 140 t39
(0.025)  70
T0.05 

 5.17
30
40
| x1  x2 || 35  30 | 5  T0.05  5.17
帰無仮説は棄却できない
２標本の平均値の差の検定：２つの標本が対応している（独立でない）場合
２つの標本が対応しているとは？
同一の調査対象（サンプル）に対する２つの測定値が、２つの標本を構成している場合
例）やせ薬の効果を、薬使用前後の体重を比較することによって調べる
自宅学習時間
サンプル番号
1
2
3
4
5
6
7
8
男子
23
14 対応していない
60
37
26
33
5
40
やせ薬の効果
サンプル番号使用前
1
67
2
89 対応している
3
75
4
84
5
90
6
78
7
58
8
60
女子
35
60
30
40
36
25
40
35
使用後
65
85
75
80
89
75
60
58
差
-2
-4
0
-4
-1
-3
2
-2
差が意味を持たなければどのような検定となるか？
独立標本として扱うと・・・使用後と使用前は、それぞれの平均値で比較する以外方法はない
やせ薬の効果
使用前
サンプル番号観測値偏差の２乗
1
67
66.0
2
89
192.5
3
75
0.0
4
84
78.8
5
90
221.3
6
78
8.3
7
58
293.3
8
60
228.8
平均値
75.125
合計
不偏分散
使用後
観測値偏差の２乗
65
70.1
85
135.1
75
2.6
80
43.9
89
244.1
75
2.6
60
178.9
58
236.4
73.375
母分散の推定値
2002.75 ÷（第１標本数＋第２標本数－２）＝
143.1
帰無仮説「差がない」が正しいとすれば
標本平均の差の分布は
平均：０
分散：
143.1 143.1

 35.7
8
8
の正規分布で近似できる。そのと
き、得られた標本平均値の差-1.75
（＝73.374-75.125)はどの位置に
あるか
-20
-10
0
10
20
差が意味を持てば（対応のある２標本として扱う）どのような検定ができるか？
差の分布を調べる
やせ薬に効果が無いとすれば、差の分布の母平均は０となる
差の分布の母平均は０と言えるだろうか → 帰無仮説：差の分布の母平均＝０
→ 「差」を１つの標本とする検定
サンプル番号
1
2
3
4
5
6
7
8
使用前
67
89
75
84
90
78
58
60
使用後
65
85
75
80
89
75
60
58
平均値
不偏分散
-5
-3
差
-2
-4
0
-4
-1
-3
2
-2
-1.75
4.21
-1
帰無仮説「差がない」が正しいとすれば
差の平均値の分布は
平均：０
分散：
4.21
 0.526
8
の正規分布で近似できる。そのとき、
得られた差の標本平均値-1.75はど
の位置にあるか
1
3
5

帰無仮説

Transcript 帰無仮説

Directory