平均値の差がないことを意味する
Download
Report
Transcript 平均値の差がないことを意味する
第2回授業 (10/2)の学習目標
第5章平均値の差の検定の復習を行う。
(詳細を復習したい者は、千野のWEB頁の春学期
パワ
ーポイントファイルの中の第10回(6/12)及
び第11回
(6/19)を参照のこと)
(1)平均値の差の検定の目的や意味を再確認する。
(2)平均値の差の検定の大枠を復習する。
(3)平均値の差の検定に先立つ分散の等質性の検
定方
法を復習する。
(4)平均値の差の検定方法の復習をする。
(1)平均値の差の検定の目的や意味ー1
心理学では、検査や実験により得られた得
点に、あらかじめ設定した2つの条件間で
差が見られるかどうかを検討することがよ
くある。
例えば、ミラーリエル錯視実験の30度30
mm条件と30度45mm 条件の2条件間の錯
視量に差がみられるであろうか。
あるいは、30度30mmの条件での錯視量に、
男女差は見られるのであろうか。
(1)平均値の差の検定の目的や意味ー2
これらの課題を検討するための1つの客観
的・実証的な方法は、既に第3章の後半で少
し紹介した統計的仮説検定を行うことである。
これを行うためには、まず第1にそれぞれの
条件下で実験を行い、それぞれの条件での測
定値を得ることが必要である。統計学では、
これを標本を収集するという。
標本は漠然と収集するのではなく、何らかの
(統計的)仮説を立て、無作為に収集する必
要がある。
(1)平均値の差の検定の目的や意味ー3
例えば、ミラーリエル錯視のある条件下での男
子と女子の錯視量がそれぞれ Nx 人、Ny 人づつ
無作為に得られたとすると、2群の標本は、一
般的には、それぞれつぎのように書ける:
x1 , x2 ,, xN x (男子)
y1 , y2 ,, yN y (女子)
(1)平均値の差の検定の目的や意味ー4
一方、平均値の差の検定における仮説は、帰無
仮説と呼ばれ、両条件の母平均の平均値 μx、
μy に
差がない、というものであり、これを数式で書
くと次
のようになる:
H0 : x y
(1)平均値の差の検定の目的や意味ー5
うえの仮説は、両条件での標本の平均値に差が
ない、すなわち
xy
とは異なり、標本が抽出されるもとの母集団での
平均値に差がない、というものである点に注意が
必要である。
(2)平均値の差の検定の大枠ー1
2つの群間で平均値に違いがあるかどうかを検討す
る場合、データが得られるもとの母集団の特徴の違
いにより、検定方法が異なる。
(1)1つの方法は、テキスト p.19 の 5.1 節の
「母集団の分布形が未知だが、母分散は既知で、
標本
数が大の場合」
(2)他方は、テキスト p.20 の 5.2 節の
「母集団の分布が正規分布で、母分散は未知の場
合」
この授業の演習では、後者の方法のみを学ぶ
(2)平均値の差の検定の大枠ー2
帰無仮説のもとで、さらに5.2節の条件の
下では、例えばテキスト p.23 の (5.9) 式、
すなわち次の量 t がどんな値を取る可能性が
どれぐらいであるか、つまり t の分布が理論
的にわかっている:
t
X Y
Nx S N y S
2
x
2
y
N x N y ( N x N y 2)
Nx N y
つぎのスライドは、その分布を示す:
自由度 v の t-分布とは?
-正規分布に近い y 軸対称な分布
確率
斜線部
1-α
t- 分布
t
- t N-1(α/2)
t N-1(α/2)
(2)平均値の差の検定の大枠ー3
つまり、帰無仮説のもとでは、標本から計
算され
る上記の t の値が上の図の下限値以下か、
上
限値以上の範囲に入る可能性は α である。
この α の値は、統計学では通常 0.05 か 0.01
を考えるのが慣習である。
(2)平均値の差の検定の大枠ー4
そこで、もし帰無仮説のもとで標本から計算
され
た t-値が下限値以下や上限値以上の値を取っ
た
ならば、われわれは帰無仮説のもとでは起こ
り得
そうもないことが起こったとして、帰無仮説
を捨て
る。統計では、帰無仮説を棄却するという。
平均値の差の検定で、帰無仮説を棄却するこ
と
(2)平均値の差の検定の大枠ー5
一方、同じく帰無仮説のもとでは、標本か
ら計
算される上記の t の値が上の図の下限値か
ら
上限値の範囲に入る可能性は 1-α である。
通常、ここでの α は 0.05 か 0.01 なので、1α
の値は、通常 0.95 か 0.99 である。
(2)平均値の差の検定の大枠ー6
そこで、帰無仮説のもとで、標本から計算さ
れた
t-値が下限値から上限値の範囲の値を取っ
たな
らば、われわれは帰無仮説のもとでは起こ
りえそ
うなことが起こったとして、帰無仮説を受
け入れ
る。統計では、帰無仮説を採択するという。
平均値の差の検定で、帰無仮説を採択するこ
と
(2)平均値の差の検定の大枠ー7
平均値の差の検定では、2群の標本が抽出
される元の集団すなわち母集団分布に正
規分布が仮定される場合(テキストでは、
p.20 からの 5.2 節)には、t-統計量が用い
られる。
ただし、この場合、t-統計量そのものが、
2つの母集団の分散(母分散)が等しい
かどうかで、異なるものになることがわ
かっている。
(2)平均値の差の検定の大枠ー8
つまり、2群の母集団が正規分布に従うと
みなされる時、われわれは平均値の差の検
定に先立ち、2つの母集団の分布の分散が
等しいかどうかの検定を行わないといけな
いのである。
この検定は、母分散の等質性の検定と呼ば
れ、つぎに示す、テキスト p.21 の最上部の
(5.4) 式がそのための統計量であり、F は F分布に従うことが知られている。
F-分布の標準的な形状
F-分布の標準的な形状は、つぎのとおりであ
る:
F-分布
α/2
α/2
上側α/2%点
F1
2
2
(2)平均値の差の検定の大枠ー9
F-分布の形は、t-分布と異なり2つの自由度
により決まる。テキスト p.21 の (5.4) 式の F分布の自由度は、テキスト p.20 の末尾の下か
ら2行目にあるように、2群の標本のサンプ
ル数をそれぞれ Nx, Ny とすると、
x Nx 1, y Ny 1
(2)平均値の差の検定の大枠ー10
結局、平均値の差の検定の一連の手順はつぎの
とおり:
(1)最初に、両群の分散の等質性の検定を
行う。
(2)その結果、両群の分散が等しいと見な
さ れる場
合は、(5.9) 式の t の値による平均値の差
の検定
を行う。
(3)もし、両群の分散が等しいとみなせな
い場合は、
(3)平均値の差の検定に先立つ分散
の等質性の検定ー1
平均値の差の検定に先立つ、分散の等質性の検定
を
行うには、テキスト p.26 の上部にあるように、
(1)2組の標本の平均を、それぞれ求める。
(2)2組の標本の分散を、それぞれ求める。
(3)一般には(5.4) 式により F-値を計算する。
(4)サンプル数が共に20の場合は、テキス
ト p.24 の
下方の、F-検定の危険率に対応する棄却点
の値
と上の F-値を比較する。
(3)平均値の差の検定に先立つ分散の
等質性の検定ー2
ただし、実際のF-統計量の計算には、数表を用
いる場合、通常の F-分布表の特徴から、(5.4)
式ではなく (5.5) 式を用いる、すなわち
s N1 ( N2 1)
F
s N2 ( N1 1)
2
1
2
2
(3)平均値の差の検定に先立つ分散の
等質性の検定ー3
しかし、F は両群のサンプル数 N1 及び N2 が等
しい時には、テキスト p.22 の (5.6) 式、すなわ
ち、
2
1
2
2
s
F (5.6)
s
となり、両群のサンプルでの標本分散の比の形に
書ける。そこで、(5.6)式で計算すればよい。
(3)平均値の差の検定に先立つ分
散の等質性の検定ー4
ここで、この式の分子の分散と分母の分散は、順
に
s , s ,
2
1
2
2
であるが、前者は、2群の標本での不偏分散の
大きい方に対応する分散でないといけないので
、注意が必要である。ただし、2群のサンプル数
が等しい場合は、単純に分散の大きい方を分子
に、小さい方を分母に取ればよい。
(3)平均値の差の検定に先立つ分
散の等質性の検定ー5
つぎに、分散の等質性の検定を行い、つぎ
に平均の差の検定を行う場合、両検定の全
体的危険率の考慮が必要である。
とりわけ、両母集団の分散が等しい場合に
は、分散の等質性の検定統計量 F と、平均
値の差の通常の検定統計量 t とは、互いに
独立であることが知られている(Hogg,
1961)。
この独立性が成り立つ場合には、両検定の
全体的危険率は、個々の危険率を α とする
と、ほぼ2倍にインフレする。
(3)平均値の差の検定に先立つ分
散の等質性の検定ー6
これを避けるには、個々の検定の危険率 α
は、全体の危険率を α* として、
1 1 * ,
にすればよい。これを実現するには、
(1)α* =0.05 ならば、αはおよそ 0.025 に、
(2)α*=0.01 ならば、 αはおよそ 0.005 に、
それぞれ取ればよい。
(3)平均値の差の検定に先立つ分散の等
質性の検定ー7
両群の標本数が共に10の場合、標本での F-値
が、つぎの棄却点の値(いずれか一方)
0.05 F (0.025/ 2) 4.5552,
*
9
9
0.01 F (0.005/ 2) 6.9875
*
9
9
未満ならば、等分散仮説を採択する。この場合、
分散は等しいとみなされる。
(3)平均値の差の検定に先立つ分散の等
質性の検定ー8
それに対して、標本での F-値が、演習時に指定
された危険率に対応する棄却点の値(いずれか一
方)
0.05 F (0.025/ 2) 4.5552,
*
9
9
0.01 F (0.005/ 2) 6.9875
*
9
9
以上ならば、等分散仮説を棄却する。この場
合、分散は異なるとみなされる。
(4)平均値の差の検定ー1
(1)両群での分散が等しいとみなされる場合
テキスト pp.22-23 の t-統計量と対応する以下
に示した自由度を計算する。
すなわち、
t
X Y
Nx S N y S
2
x
2
y
ここで、自由度は、
N x N y 2.
N x N y ( N x N y 2)
,
Nx N y
(4)平均値の差の検定ー2
t-統計量を計算し自由度を計算したら、標本
で
の t の値が、演習時に指定された危険率に対
応するつぎの棄却点の値(いずれか一方)
*
0.05 t18(0.025/ 2) 2.4450,
*
0.01 t18(0.005/ 2) 3.1966
未満ならば、等平均仮説を採択する。この
場合、両群の平均値は等しいとみなされる。
(4)平均値の差の検定ー3
(等分散仮説採択の場合)
一方、標本での t の値が、授業中に指定された危
険
率に対応するつぎの棄却点の値
(いずれか一方)
*
0.05 t18(0.025/ 2) 2.4450,
*
0.01 t18(0.005/ 2) 3.1966
以上ならば、等平均仮説を棄却する。この
場合、両群の平均値に差があることを意味す
る。
(4)平均値の差の検定ー4
(2)両群の分散が異なるとみなされる場合
テキスト p.20 に書いたように、べーレン
ス・フィッシャー問題と呼ばれており、そのよ
うな場合に平均値の差の検定を行うこと自体に
無理があると言う研究者もいる。
また、この場合、F-統計量と t’-統計量は互いに
独立ではないので、2つの検定を続けて行う場
合の全体としての危険率の計算は困難であり、
ここでは危険率のコントロールは行わず、通常
の F 分布表の制約から次善の策として、t’ 検定
の危険率は α で行うこととする。
(4)平均値の差の検定ー5
両群での分散が異なるとみなされる場合は、テ
キスト pp.22-23 の t-統計量と対応する自由度を
計算する。すなわち、
X Y
t'
, Wx Wy
(5.9)
ここで、
2
U
S
U
S
y
Wx x
, Wy y
.
N x N x 1
N y N y 1
2
x
(4)平均値の差の検定ー6
つぎに、この場合の t’-分布の自由度は、テキスト
p.23 の下方にいろいろな方法が紹介してあるが、
その中で、SAS が標準として用いているところの
(b) Satterthwaite (1946) の方法による自由
度を計算すること、すなわち:
(Wx Wy )2
. (5.12)
2
Wx2 Wy
N
1
N
1
x y
(4)平均値の差の検定ー7
(等分散仮説棄却の場合)
t’-統計量を計算し、自由度を計算したら、最後
に岩原の副読本の p.434 を開き、
(1)授業中に指定された危険率 α と
(2) (5.12) 式で計算した自由度に対応す
る棄却点の値を読み取る。
標本での t’-値がこの棄却点の値未満ならば、等
平均仮説を採択する。この場合、平均値の差が
ないことを意味する。
(4)平均値の差の検定ー8
それに対して、標本での t’-値がこの棄却点の
値以上ならば、等平均仮説を棄却する。この
場合、両群の平均値に差があることを意味す
る。
(5)平均値の差の検定の再実習
岩原テキスト末尾の乱数表から、各自のデータ
を抽出し、平均値の差の検定をおこなってみよ
う。
今日は、標本数は各群とも10とし、各自の学
籍に対応する岩原テキストの乱数の位置から数
えて5つ下から始まるデータを用いよ。
第1群の10個は p.445から、第2群の10
個はp.446の同位置から取り出すこと。
検定の全体的危険率 α* は、0.05とせよ。