平均値の差がないことを意味する

Transcript 平均値の差がないことを意味する

第２回授業 (10/2)の学習目標
 第５章平均値の差の検定の復習を行う。
（詳細を復習したい者は、千野のWEB頁の春学期
パワ
ーポイントファイルの中の第１０回（６/１２）及
び第１１回
（６/１９）を参照のこと）
（１）平均値の差の検定の目的や意味を再確認する。
（２）平均値の差の検定の大枠を復習する。
（３）平均値の差の検定に先立つ分散の等質性の検
定方
法を復習する。
（４）平均値の差の検定方法の復習をする。
（１）平均値の差の検定の目的や意味ー１
 心理学では、検査や実験により得られた得
点に、あらかじめ設定した２つの条件間で
差が見られるかどうかを検討することがよ
くある。
 例えば、ミラーリエル錯視実験の30度３０
mm条件と30度４５mm 条件の２条件間の錯
視量に差がみられるであろうか。
 あるいは、30度３０mmの条件での錯視量に、
男女差は見られるのであろうか。
（１）平均値の差の検定の目的や意味ー２
 これらの課題を検討するための１つの客観
的・実証的な方法は、既に第3章の後半で少
し紹介した統計的仮説検定を行うことである。
 これを行うためには、まず第1にそれぞれの
条件下で実験を行い、それぞれの条件での測
定値を得ることが必要である。統計学では、
これを標本を収集するという。
 標本は漠然と収集するのではなく、何らかの
（統計的）仮説を立て、無作為に収集する必
要がある。
（１）平均値の差の検定の目的や意味ー３
 例えば、ミラーリエル錯視のある条件下での男
子と女子の錯視量がそれぞれ Nx 人、Ny 人づつ
無作為に得られたとすると、２群の標本は、一
般的には、それぞれつぎのように書ける：
x1 , x2 ,, xN x （男子）
y1 , y2 ,, yN y （女子）
（１）平均値の差の検定の目的や意味ー４
 一方、平均値の差の検定における仮説は、帰無
仮説と呼ばれ、両条件の母平均の平均値 μx、
μy に
差がない、というものであり、これを数式で書
くと次
のようになる：
H0 : x  y
（１）平均値の差の検定の目的や意味ー５
 うえの仮説は、両条件での標本の平均値に差が
ない、すなわち
xy
とは異なり、標本が抽出されるもとの母集団での
平均値に差がない、というものである点に注意が
必要である。
（２）平均値の差の検定の大枠ー１
 ２つの群間で平均値に違いがあるかどうかを検討す
る場合、データが得られるもとの母集団の特徴の違
いにより、検定方法が異なる。
（１）１つの方法は、テキスト p.19 の 5.1 節の
「母集団の分布形が未知だが、母分散は既知で、
標本
数が大の場合」
（２）他方は、テキスト p.20 の 5.2 節の
「母集団の分布が正規分布で、母分散は未知の場
合」
 この授業の演習では、後者の方法のみを学ぶ
（２）平均値の差の検定の大枠ー２
 帰無仮説のもとで、さらに５.２節の条件の
下では、例えばテキスト p.２３の (５.９) 式、
すなわち次の量 t がどんな値を取る可能性が
どれぐらいであるか、つまり t の分布が理論
的にわかっている：
t 
X Y
Nx S  N y S
2
x
2
y
N x N y ( N x  N y  2)
Nx  N y
つぎのスライドは、その分布を示す：
自由度 v の t-分布とは？
－正規分布に近い y 軸対称な分布
確率
斜線部
１－α
t- 分布
ｔ
- ｔＮ－１（α/2)
ｔＮ－１（α/2)
（２）平均値の差の検定の大枠ー３
 つまり、帰無仮説のもとでは、標本から計
算され
る上記の t の値が上の図の下限値以下か、
上
限値以上の範囲に入る可能性は α である。
 この α の値は、統計学では通常 0.05 か 0.01
を考えるのが慣習である。
（２）平均値の差の検定の大枠ー４
 そこで、もし帰無仮説のもとで標本から計算
され
た t-値が下限値以下や上限値以上の値を取っ
た
ならば、われわれは帰無仮説のもとでは起こ
り得
そうもないことが起こったとして、帰無仮説
を捨て
る。統計では、帰無仮説を棄却するという。
 平均値の差の検定で、帰無仮説を棄却するこ
と
（２）平均値の差の検定の大枠ー５
 一方、同じく帰無仮説のもとでは、標本か
ら計
算される上記の t の値が上の図の下限値か
ら
上限値の範囲に入る可能性は 1-α である。
 通常、ここでの α は 0.05 か 0.01 なので、1α
の値は、通常 0.95 か 0.99 である。
（２）平均値の差の検定の大枠ー６
 そこで、帰無仮説のもとで、標本から計算さ
れた
t-値が下限値から上限値の範囲の値を取っ
たな
らば、われわれは帰無仮説のもとでは起こ
りえそ
うなことが起こったとして、帰無仮説を受
け入れ
る。統計では、帰無仮説を採択するという。
 平均値の差の検定で、帰無仮説を採択するこ
と
（２）平均値の差の検定の大枠ー７
 平均値の差の検定では、２群の標本が抽出
される元の集団すなわち母集団分布に正
規分布が仮定される場合（テキストでは、
p.20 からの 5.2 節）には、t-統計量が用い
られる。
 ただし、この場合、t-統計量そのものが、
２つの母集団の分散（母分散）が等しい
かどうかで、異なるものになることがわ
かっている。
（２）平均値の差の検定の大枠ー８
 つまり、２群の母集団が正規分布に従うと
みなされる時、われわれは平均値の差の検
定に先立ち、２つの母集団の分布の分散が
等しいかどうかの検定を行わないといけな
いのである。
 この検定は、母分散の等質性の検定と呼ば
れ、つぎに示す、テキスト p.21 の最上部の
(5.4) 式がそのための統計量であり、F は F分布に従うことが知られている。
F-分布の標準的な形状
 F-分布の標準的な形状は、つぎのとおりであ
る：
F-分布
α/2
α/2
上側α/2％点
 
F1  
2
2
（２）平均値の差の検定の大枠ー９
 F-分布の形は、t-分布と異なり２つの自由度
により決まる。テキスト p.21 の (5.4) 式の F分布の自由度は、テキスト p.20 の末尾の下か
ら２行目にあるように、２群の標本のサンプ
ル数をそれぞれ Nx, Ny とすると、
 x  Nx 1,  y  Ny 1
（２）平均値の差の検定の大枠ー１０
 結局、平均値の差の検定の一連の手順はつぎの
とおり：
（１）最初に、両群の分散の等質性の検定を
行う。
（２）その結果、両群の分散が等しいと見な
される場
合は、(5.9) 式の t の値による平均値の差
の検定
を行う。
（３）もし、両群の分散が等しいとみなせな
い場合は、
（３）平均値の差の検定に先立つ分散
の等質性の検定ー１
 平均値の差の検定に先立つ、分散の等質性の検定
を
行うには、テキスト p.２６の上部にあるように、
（１）２組の標本の平均を、それぞれ求める。
（２）２組の標本の分散を、それぞれ求める。
（３）一般には(５.４) 式により F-値を計算する。
（４）サンプル数が共に２０の場合は、テキス
ト p.２４の
下方の、F-検定の危険率に対応する棄却点
の値
と上の F-値を比較する。
（３）平均値の差の検定に先立つ分散の
等質性の検定ー２
 ただし、実際のF-統計量の計算には、数表を用
いる場合、通常の F-分布表の特徴から、(5.4)
式ではなく (5.5) 式を用いる、すなわち
s N1 ( N2 1)
F
s N2 ( N1 1)
2
1
2
2
（３）平均値の差の検定に先立つ分散の
等質性の検定ー３
 しかし、F は両群のサンプル数 N1 及び N2 が等
しい時には、テキスト p.22 の (5.6) 式、すなわ
ち、
2
1
2
2
s
F  (5.6)
s
となり、両群のサンプルでの標本分散の比の形に
書ける。そこで、（５．６）式で計算すればよい。
（３）平均値の差の検定に先立つ分
散の等質性の検定ー４
 ここで、この式の分子の分散と分母の分散は、順
に
s ,　s ,
2
1
2
2
であるが、前者は、２群の標本での不偏分散の
大きい方に対応する分散でないといけないので
、注意が必要である。ただし、２群のサンプル数
が等しい場合は、単純に分散の大きい方を分子
に、小さい方を分母に取ればよい。
（３）平均値の差の検定に先立つ分
散の等質性の検定ー５
 つぎに、分散の等質性の検定を行い、つぎ
に平均の差の検定を行う場合、両検定の全
体的危険率の考慮が必要である。
 とりわけ、両母集団の分散が等しい場合に
は、分散の等質性の検定統計量 F と、平均
値の差の通常の検定統計量 t とは、互いに
独立であることが知られている（Hogg,
1961)。
 この独立性が成り立つ場合には、両検定の
全体的危険率は、個々の危険率を α とする
と、ほぼ２倍にインフレする。
（３）平均値の差の検定に先立つ分
散の等質性の検定ー６
これを避けるには、個々の検定の危険率 α
は、全体の危険率を α* として、
  1 1  * ,
にすればよい。これを実現するには、
（１）α* =0.05 ならば、αはおよそ 0.025 に、
（２）α*=0.01 ならば、 αはおよそ 0.005 に、
それぞれ取ればよい。
（３）平均値の差の検定に先立つ分散の等
質性の検定ー７
 両群の標本数が共に１０の場合、標本での F-値
が、つぎの棄却点の値（いずれか一方）
  0.05  F (0.025/ 2)  4.5552,
*
9
9
  0.01  F (0.005/ 2)  6.9875
*
9
9
未満ならば、等分散仮説を採択する。この場合、
分散は等しいとみなされる。
（３）平均値の差の検定に先立つ分散の等
質性の検定ー８
 それに対して、標本での F-値が、演習時に指定
された危険率に対応する棄却点の値（いずれか一
方）
  0.05  F (0.025/ 2)  4.5552,
*
9
9
  0.01  F (0.005/ 2)  6.9875
*
9
9
以上ならば、等分散仮説を棄却する。この場
合、分散は異なるとみなされる。
（４）平均値の差の検定ー１
 （１）両群での分散が等しいとみなされる場合
テキスト pp.22-23 の t-統計量と対応する以下
に示した自由度を計算する。
すなわち、
t 
X Y
Nx S  N y S
2
x
2
y
ここで、自由度は、
  N x  N y  2.
N x N y ( N x  N y  2)
,
Nx  N y
（４）平均値の差の検定ー２
 t-統計量を計算し自由度を計算したら、標本
で
の t の値が、演習時に指定された危険率に対
応するつぎの棄却点の値（いずれか一方）
*
  0.05　 t18(0.025/ 2)  2.4450,
*
  0.01　 t18(0.005/ 2)  3.1966
未満ならば、等平均仮説を採択する。この
場合、両群の平均値は等しいとみなされる。
（４）平均値の差の検定ー３
（等分散仮説採択の場合）
 一方、標本での t の値が、授業中に指定された危
険
率に対応するつぎの棄却点の値
（いずれか一方）
*
  0.05  t18(0.025/ 2)  2.4450,
*
  0.01  t18(0.005/ 2)  3.1966
以上ならば、等平均仮説を棄却する。この
場合、両群の平均値に差があることを意味す
る。
（４）平均値の差の検定ー４
 （２）両群の分散が異なるとみなされる場合
テキスト p.20 に書いたように、べーレン
ス・フィッシャー問題と呼ばれており、そのよ
うな場合に平均値の差の検定を行うこと自体に
無理があると言う研究者もいる。
 また、この場合、F-統計量と t’-統計量は互いに
独立ではないので、２つの検定を続けて行う場
合の全体としての危険率の計算は困難であり、
ここでは危険率のコントロールは行わず、通常
の F 分布表の制約から次善の策として、t’ 検定
の危険率は α で行うこととする。
（４）平均値の差の検定ー５
 両群での分散が異なるとみなされる場合は、テ
キスト pp.22-23 の t-統計量と対応する自由度を
計算する。すなわち、
X Y
t' 
, Wx  Wy
(5.9)
ここで、
2
U
S
U
S
y
Wx  x 
, Wy  y 
.
N x N x 1
N y N y 1
2
x
（４）平均値の差の検定ー６
 つぎに、この場合の t’-分布の自由度は、テキスト
p.23 の下方にいろいろな方法が紹介してあるが、
その中で、SAS が標準として用いているところの
（b) Satterthwaite (1946) の方法による自由
度を計算すること、すなわち：
(Wx  Wy )2

.　(5.12)
2
 Wx2   Wy 

 


N

1
N

1
 x   y 
（４）平均値の差の検定ー７
（等分散仮説棄却の場合）
 t’-統計量を計算し、自由度を計算したら、最後
に岩原の副読本の p.434 を開き、
（１）授業中に指定された危険率 α と
（２） (5.12) 式で計算した自由度に対応す
る棄却点の値を読み取る。
 標本での t’-値がこの棄却点の値未満ならば、等
平均仮説を採択する。この場合、平均値の差が
ないことを意味する。
（４）平均値の差の検定ー８
 それに対して、標本での t’-値がこの棄却点の
値以上ならば、等平均仮説を棄却する。この
場合、両群の平均値に差があることを意味す
る。
（５）平均値の差の検定の再実習
 岩原テキスト末尾の乱数表から、各自のデータ
を抽出し、平均値の差の検定をおこなってみよ
う。
 今日は、標本数は各群とも１０とし、各自の学
籍に対応する岩原テキストの乱数の位置から数
えて５つ下から始まるデータを用いよ。
 第１群の１０個は p.４４５から、第２群の１０
個はp.４４６の同位置から取り出すこと。
 検定の全体的危険率 α＊は、０．０５とせよ。

平均値の差がないことを意味する

Transcript 平均値の差がないことを意味する

Directory