帰無仮説

Download Report

Transcript 帰無仮説

統計的仮説検定の考え方
(1)母集団におけるパラメータに仮説を設定する
→ 帰無仮説
(2)仮説を前提とした時の、標本統計量の分布を考える
(3)得られた標本値(実現値)がその標本統計量の分布の中でどこに位置する
かを調べる
<判定>
標本統計量として出現しにくい値
出現確率(有意水準)5%又は1%以下 →
帰無仮説を棄却
対立仮説を採択
標本統計量として出現しやすい値
区間推定での前提範囲(95%又は99%) →
帰無仮説を棄却しない
様々な仮説検定の場面
① 1標本の検定
1つの母集団における母数についての仮説を検定する
例:静大生のパソコン保有率は50%を越えているのだろうか?
浜松市の1世帯当たりの年間収入の平均値は300万を越えているのだろうか?
② 2標本の検定
2つの母集団における2つの母数間の関係についての仮説を検定する
例:静大生と浜医大生のパソコン保有率には差があるのだろうか?
浜松市と静岡市在住者の通勤時間には差があるのだろうか?
③ 3標本以上の検定
3つの以上の母集団における母数間の関係についての仮説を検定する
例:静大生では学年(1~4年)によってアルバイト収入に差があるのだろうか?
静大では、プロ野球セントラルリーグの各チームを好む比率に差があるのだろうか?
④ 2変数間の関連の強さに関する検定
得られた標本相関係数の値から考えて、母相関係数は0でないといえるのだろうか?
得られたクロス表から判断して、2変数間に関連があると言えるのだろうか?
1標本の平均値の検定 (母分散が既知の場合)
検定の場面
1つの母集団(母分散σ2が既知)の母平均に対する仮説を、その母集団からのn個の無
作為標本から求めた標本平均値に基づいて検定する。
仮説の設定
帰無仮説 : 母平均μは、μ0である → μ= μ0
対立仮説 : 母平均は、μ0でない → μ≠ μ0 (両側検定)
帰無仮説が正しい場合の標本平均の分布
N ( 0 ,
2
n
平均μ0 分散σ2/n の正規分
布で近似できる
標本分布における実現値の
位置による判定
帰無仮説を棄却
帰無仮説を棄却
できない
)
1標本の平均値の検定 (母分散が既知の場合) : 具体的な手順
N ( 0 ,
2
n
)
U  0
z( / 2) 
/ n
標準化
 L  0
/ n
N (0,1)
Z
  0
/ n
U  0
/ n
U  0  z( / 2)
Z ( / 2)
n
L  0
 z( / 2) 
/ n
L  0  z( / 2)
 Z ( / 2)


n
1標本の平均値の検定 (母分散が既知の場合) : 具体例
全国の大学生の1ヶ月アルバイト収入の平均は5万円、標準偏差は5千円である。
今、無作為に抽出した100人の静大生のアルバイト収入の平均が4万9千円であっ
たとすれば、静大生は全国と比較してアルバイト収入が少ないと言えるだろうか?
有意水準5%
帰無仮説:静大生のアルバイト収入の平均(μ0)は5万円である
対立仮説:静大生のアルバイト収入の平均(μ0)は5万円ではない
帰無仮説が正しい場合の標本平均の分布
平均5万、分散50002/100=25000 (標準偏差500) の正規分布に近似
採択域の上限値
U  0  z( / 2)

n
U  50000 z( / 2)
採択域の下限値
L  0  z( / 2)
5000
 50000 1.96  500  50980
100

n
L  50000 z( / 2)
49000  49020  L
5000
 50000 1.96  500  49020
100
仮説は棄却される
1標本の平均値の検定 (母分散が未知の場合)
検定の場面
1つの母集団(母分散が未知であるため、データに基づく不偏分散を用いる)の母平均に
対する仮説を、その母集団からのn個の無作為標本から求めた標本平均値に基づいて検
定する。
仮説の設定
帰無仮説 : 母平均μは、μ0である → μ= μ0
対立仮説 : 母平均は、μ0でない → μ≠ μ0 (両側検定)
帰無仮説が正しい場合の標本平均の分布
N ( 0 ,
2
n
平均μ0 分散σ2/n の正規分
布で近似できる
標本分布における実現値の
位置による判定
帰無仮説を棄却
帰無仮説を棄却
できない
)
1標本の平均値の検定 (母分散が未知の場合) : 具体的な手順 不偏分散
N ( 0 ,
2
n
ˆ 2
)
U  0
tn1 ( / 2) 
ˆ / n
標準化
 L  0
ˆ / n
自由度n  1のt分布
Z
  0
ˆ / n
U  0
ˆ / n
U  0  tn1 ( / 2)
tn1 ( / 2)
n
L  0
 tn1 ( / 2) 
ˆ / n
L  0  tn1 ( / 2)
 tn1 ( / 2)
ˆ
ˆ
n
1標本の平均値の検定 (母分散が未知の場合) : 具体例
全国の大学生の1ヶ月アルバイト収入の平均は5万円(標準偏差は未知)である。
今、無作為に抽出した静大生100のアルバイト収入の平均が4万9千円、不偏標準
偏差が5千円であったとすれば、静大生は全国と比較してアルバイト収入が少ない
と言えるだろうか ?
・・・ 有意水準5%
帰無仮説:静大生のアルバイト収入の平均(μ0)は5万円である
対立仮説:静大生のアルバイト収入の平均(μ0)は5万円ではない
帰無仮説が正しい場合の標本平均の分布
平均5万、分散σ2/100 の正規分布に近似
採択域の上限値
U  0  tn1 ( / 2)
ˆ
n
U  50000 t99(0.05 / 2)
採択域の下限値
L  0  tn1 ( / 2)
ˆ
n
L  50000 t99( / 2)
49000  49010  L
5000
 50000 1.98  500  50940
100
5000
 50000 1.98  500  49010
100
仮説は棄却される
2標本の平均値の差の検定
2つの母集団における2つの母数間の関係についての仮説を検定する
例:静大生と浜医大生の自宅学習時間(1日)には差があるのだろうか?
浜松市と静岡市在住者の通勤時間には差があるのだろうか?
2つの母分散
 12 、 22
に対する仮説の違いによる4つの検定場面
●ケース1:母分散は既知で、かつ
12   22
●ケース2:母分散は既知ではあるが、
●ケース3:母分散は未知であるが、
12   22
12   22
●ケース4:母分散は未知でありかつ、
の場合
12   22
の場合
を仮定できる場合
を仮定できない場合
2
2
2
2標本の平均値の差の検定 (母分散は既知でかつ、 1   2   の場合)
検定の場面
2つの母集団の母平均の差に対する仮説を、それぞれの母集団からのn1、n2個の無作
為標本から求めた標本平均値の差に基づいて検定する。
仮説の設定
帰無仮説 : 母平均の差はμ0である → μ0=μ1ーμ2 → 一般的には、μ0=0
対立仮説 : 母平均の差は、μ0ではない → μ1ーμ2 ≠ 0 (両側検定)
帰無仮説が正しい場合の標本平均の差の分布
 12
平均μ1-μ2、分散
平均0、分散
n1
 2(

 22 の正規分布で近似できる
n2
1
1

)
n1 n2 の正規分布で近似できる
標本分布における実現値の
位置による判定
N (0, 2 (
帰無仮説を棄却
できない
0
帰無仮説を棄却
1 1
 ))
n1 n2
2
2
2
2標本の平均値の差の検定 (母分散は既知でかつ、 1   2   の場合)
N (0, 2 (1/ n1  1/ n2 ))
z( / 2) 
U
 1/ n1  1/ n2
0
L  0
 1/ n1  1/ n2
 0
Z

標準化
 1/ n1  1/ n2
N (0,1)
U  0
 1/ n1  1/ n2
U  z( / 2) 1/ n1  1/ n2
 z( / 2) 
L
 1/ n1  1/ n2
L  z( / 2) 1/ n1  1/ n2
 Z ( / 2)
Z ( / 2)
2
2
2
2標本の平均値の差の検定 (母分散は既知でかつ、 1   2   の場合) 具体例
情報学部生の無作為標本50名の1ヶ月アルバイト収入の標本平均値は5万円、工学
部生の無作為標本100名の1ヶ月アルバイト収入の標本平均値は4万9千円であっ
た。この2つの母集団の標準偏差は3千円であるとすれば、情報学部生と工学部生
ではアルバイト収入に差がないと言えるだろうか?
有意水準5%
帰無仮説:情報学部生と工学部生のアルバイト収入に差はない
対立仮説:情報学部生と工学部生ではアルバイト収入が異なる
帰無仮説が正しい場合の標本平均の差の分布
平均0万、分散30002(1/100+1/50)=270000 の正規分布に近似
採択域の上限値
U  z( / 2) 1/ n1  1/ n2
U  z( / 2)  3000 1/ 100  1/ 50  1.96  519.6  1018.45
採択域の下限値 
L
 z( / 2) 1/ n1  1/ n2
L  z( / 2)  3000 1/100  1/ 50  1.96  519.6  1018.45
L  1018.45  50000 49000  1000  1018.45  U
仮説は棄却されない
2標本の平均値の差の検定 (母分散は既知でかつ、
12   22 の場合)
検定の場面
2つの母集団の母平均の差に対する仮説を、それぞれの母集団からのn1、n2個の無作
為標本から求めた標本平均値の差に基づいて検定する。
仮説の設定
帰無仮説 : 母平均の差はμ0である → μ0=μ1ーμ2 → 一般的には、μ0=0
対立仮説 : 母平均の差は、μ0ではない → μ1ーμ2 ≠ 0 (両側検定)
帰無仮説が正しい場合の標本平均の差の分布
 12
平均μ1-μ2、分散
平均0、分散
n1
 2(

 12  22
n1
 22 の正規分布で近似できる

n2
n2
1
1

)
n1 n2 の正規分布で近似できる
標本分布における実現値の
位置による判定
N (0, 2 (
帰無仮説を棄却
できない
0
帰無仮説を棄却
1 1
 ))
n1 n2
採択域の上限値と下限値
母分散は既知で等しい
上
限
値
z( / 2) 
U
 1/ n1  1/ n2
U  z( / 2) 1/ n1  1/ n2
下
限
値
 z( / 2) 
L
 1/ n1  1/ n2
L  z( / 2) 1/ n1  1/ n2
母分散は既知であるが等しくない
z( / 2) 
U
12 / n1   22 / n2
U  z( / 2) 12 / n1   22 / n2
 z( / 2) 
L
12 / n1   22 / n2
L  z( / 2) 12 / n1   22 / n2
2
2
2
2標本の平均値の差の検定 (母分散は未知であるが、 1   2   を仮定できる場
合)
検定の場面
2つの母集団の母平均の差に対する仮説を、それぞれの母集団からのn1、n2個の無作
為標本から求めた標本平均値の差に基づいて検定する。
仮説の設定
帰無仮説 : 母平均の差はμ0である → μ0=μ1ーμ2 → 一般的には、μ0=0
対立仮説 : 母平均の差は、μ0ではない → μ1ーμ2 ≠ 0 (両側検定)
帰無仮説が正しい場合の標本平均の差の分布
平均μ1-μ2、分散
平均0、分散
 2(
 12
n1

 22 の正規分布で近似できる
n2
1
1

)
n1 n2 の正規分布で近似できる
しかしσ2は未知
どのようにして母分散σ2を推定するか?
n1
2つの標本を込みにして不偏分散を求める
x , x12, x13,, x1n1 ( x1)
x , x22, x23,, x2n2 ( x2 )
第1標本: 11
第2標本: 21
ˆ 2 
n2
2
(
x

x
)

(
x

x
)
 1i 1  2i 2
i 1
2
i 1
n1  n2  2
2
2
2
2標本の平均値の差の検定 (母分散は未知であるが、 1   2   を仮定できる場合)
N (0, 2 (1/ n1  1/ n2 ))
tn1 n2 2 ( / 2) 
0
  ˆ
 0
t

標準化
ˆ 1/ n1  1/ n2
ˆ 1/ n1  1/ n2
U  tn n 2 ( / 2)ˆ 1/ n1  1/ n2
1
2
自由度n1  n2  2のt分布
L  0
ˆ 1/ n1  1/ n2
U  0
ˆ 1/ n1  1/ n2
U
 tn1 n2 2 ( / 2) 
L
ˆ 1/ n1  1/ n2
L  tn n 2 ( / 2)ˆ 1/ n1  1/ n2
1
 tn1n2 2 ( / 2)
tn1n2 2 ( / 2)
2
2
2
2
2標本の平均値の差の検定 (母分散は未知であるが、 1   2   を仮定できる場合)
情報学部男子学生の無作為標本30名の自宅学習時間/1日は平均30分、不偏分散
100、女子学生40名の自宅学習時間は35分、不偏分散95であった。この結果から考
えて、自宅学習の時間は男女で差がないと言えるだろうか?
有意水準5%
帰無仮説:情報学部男子学生と女子学生で自宅学習時間に差はない
対立仮説:情報学部男子学生と女子学生では自宅学習時間が異なる
帰無仮説が正しい場合の標本平均の差の分布
平均0万、分散σ2(1/30+1/40) の正規分布に近似。しかし分散は未知
不偏分散の推定
100 (30  1)  95  (40  1)
 97.1
30  40  2
U  tn1n2 2 ( / 2)ˆ 1/ n1  1/ n2
ˆ 2 
採択域の上限値
ˆ  9.86
U  t68(0.025)  9.86 1/ 30  1/ 40  1.995 2.38  4.75
採択域の下限値
L  tn n 2 ( / 2)ˆ 1/ n1  1/ n2
1
2
L  t68(0.025)  9.86 1/ 30  1/ 40  1.995 2.38  4.75
U  4.75  35  30  5
仮説は棄却される
2
2
2標本の平均値の差の検定 (母分散は未知であり、 1   2 を仮定できない場合)
検定の場面
2つの母集団の母平均の差に対する仮説を、それぞれの母集団からのn1、n2個の無作
為標本から求めた標本平均値の差に基づいて検定する。
仮説の設定
帰無仮説 : 母平均の差はμ0である → μ0=μ1ーμ2 → 一般的には、μ0=0
対立仮説 : 母平均の差は、μ0ではない → μ1ーμ2 ≠ 0 (両側検定)
帰無仮説が正しい場合の標本平均の差の分布
平均μ1-μ2、分散
平均0、分散
 12
n1
 12
n1


 22
n2
 22 の正規分布で近似できる
n2
の正規分布で近似できる
しかし  12 , 22 は未知
母分散が等しくない場合、未知の2つの分散の値に無関係に利用できる
統計量がないので、近似的な方法が工夫されている。
2
2
2標本の平均値の差の検定 (母分散は未知であり、 1   2 を仮定できない場合)
近似的な検定方法
母集団1:標本数n1、標本平均
母集団2:標本数n2、標本平均
x1
x2
、不偏分散
、不偏分散
ˆ12
ˆ 22
帰無仮説が正しいとすれば
tn21 1 ( / 2)ˆ12 tn22 1 ( / 2)ˆ 22
T 

n1
n2
Pr(| x1  x2 | T )  
α=5%とすれば
平均値の差の絶対値がT0.05以上の値をとる確率は5%以下である。
帰無仮説が正しいとすれば、平均値の差がT0.05より大きな値をとることはめったにない
もしそのような値が得られたとしたら
| x1  x2 | T0.05
帰無仮説が誤っていたと判断する → 帰無仮説を棄却する
2
2
2標本の平均値の差の検定 (母分散は未知であり、 1   2 を仮定できない場合)
近似的な検定方法
情報学部男子学生の無作為標本30名の自宅学習時間/1日は平均30分、不偏分散
140、女子学生40名の自宅学習時間は35分、不偏分散70であった。この結果から考
えて、自宅学習の時間は男女で差がないと言えるだろうか?
有意水準5%
帰無仮説:情報学部男子学生と女子学生で自宅学習時間に差はない
対立仮説:情報学部男子学生と女子学生では自宅学習時間が異なる
tn21 1( / 2)ˆ12 tn22 ( / 2)ˆ 22
T 

n1
n2
2
2
t29
(0.025) 140 t39
(0.025)  70
T0.05 

 5.17
30
40
| x1  x2 || 35  30 | 5  T0.05  5.17
帰無仮説は棄却できない
2標本の平均値の差の検定 : 2つの標本が対応している(独立でない)場合
2つの標本が対応しているとは?
同一の調査対象(サンプル)に対する2つの測定値が、2つの標本を構成している場合
例) やせ薬の効果を、薬使用前後の体重を比較することによって調べる
自宅学習時間
サンプル番号
1
2
3
4
5
6
7
8
男子
23
14 対応していない
60
37
26
33
5
40
やせ薬の効果
サンプル番号 使用前
1
67
2
89 対応している
3
75
4
84
5
90
6
78
7
58
8
60
女子
35
60
30
40
36
25
40
35
使用後
65
85
75
80
89
75
60
58
差
-2
-4
0
-4
-1
-3
2
-2
差が意味を持たなければどのような検定となるか?
独立標本として扱うと ・・・ 使用後と使用前は、それぞれの平均値で比較する以外方法はない
やせ薬の効果
使用前
サンプル番号 観測値 偏差の2乗
1
67
66.0
2
89
192.5
3
75
0.0
4
84
78.8
5
90
221.3
6
78
8.3
7
58
293.3
8
60
228.8
平均値
75.125
合計
不偏分散
使用後
観測値 偏差の2乗
65
70.1
85
135.1
75
2.6
80
43.9
89
244.1
75
2.6
60
178.9
58
236.4
73.375
母分散の推定値
2002.75 ÷(第1標本数+第2標本数-2)=
143.1
帰無仮説「差がない」が正しいとすれば
標本平均の差の分布は
平均:0
分散:
143.1 143.1

 35.7
8
8
の正規分布で近似できる。そのと
き、得られた標本平均値の差-1.75
(=73.374-75.125)はどの位置に
あるか
-20
-10
0
10
20
差が意味を持てば(対応のある2標本として扱う)どのような検定ができるか?
差の分布を調べる
やせ薬に効果が無いとすれば、差の分布の母平均は0となる
差の分布の母平均は0と言えるだろうか → 帰無仮説 :差の分布の母平均=0
→ 「差」を1つの標本とする検定
サンプル番号
1
2
3
4
5
6
7
8
使用前
67
89
75
84
90
78
58
60
使用後
65
85
75
80
89
75
60
58
平均値
不偏分散
-5
-3
差
-2
-4
0
-4
-1
-3
2
-2
-1.75
4.21
-1
帰無仮説「差がない」が正しいとすれば
差の平均値の分布は
平均:0
分散:
4.21
 0.526
8
の正規分布で近似できる。そのとき、
得られた差の標本平均値-1.75はど
の位置にあるか
1
3
5