stat02_05final

Download Report

Transcript stat02_05final

統計学入門(2)
標本と母集団
標本分布
統計学入門(2) - 後期 第5回 -
1
今日の内容

平均の推定

平均の標本分布(復習)

推定の理論


点推定
区間推定
統計学入門(2) - 後期 第5回 -
2
標本調査と推測統計の概念図:平均の推定の場合
標本抽出
データ収集
x1
x2

xn
標本
母集団
集計
母集団の平均:μ
標本の平均:
x
2つの値は同じではない
推定:母集団の平均値の値をいいあてること
統計的推測 - 推定・検定 

標本から得られる情報を基に、母集団に
関する結論を導き出すこと
標本に関する結論を出すことが目的では
ない!
統計学入門(2) - 後期 第5回 -
4
標本分布


標本を繰り返し作成したと想定した場合に
得られる統計量の分布
仮想的な分布
統計学入門(2) - 後期 第5回 -
5
平均の標本分布
(1)
(2)
m
x の平均は、母集団の平均
2
x の分散は、  / n
(3a) n が大きいとき、 x の分布は正規分布
(3b) 母集団分布が正規分布であれば、x の
分布は正規分布
統計学入門(2) - 後期 第5回 -
6
平均の標本分布
練習問題
(1)
(2)
m
x の平均は、母集団の平均
2
x の分散は、  / n
(3a) n が大きいとき、 x の分布は正規分布
(3b) 母集団分布が正規分布であれば、x の
分布は正規分布
問題
 標本平均の標本分布についての右の結果
を参考に次の問いに答えなさい。
 1月当りの世帯消費支出額の調査で、ある
母集団での分布が、平均20万円、標準偏
差6万円であるとする。
統計学 - 後期 第1回 -
統計学入門(2) - 後期 第5回 -
19
7
練習問題(続き)
(a) その母集団から大きさ100の無作為標本を作
成したときの、標本平均の分布は?

平均20万円、標準偏差0.6万円の正規分布
(b) 大きさ400の無作為標本を作成した場合の、標
本平均の分布は?

平均20万円、標準偏差0.3万円の正規分布
統計学入門(2) - 後期 第5回 -
8
練習問題(続き)
(c) 大きさ400の無作為標本から計算された標本平均の値が20.6万
円を超える確率はどの程度か?次の図を参考に答えなさい。
 標本平均の標本分布が、平均20万円、標準偏差が0.3万円の正
規分布となる。上の図にあてはめて考えると、2.5%となる
(d) 1月当りの世帯消費支出額の調査で、ある母集団での平均が不明
で、標準偏差が6万円であるとする。平均が20万円であるかどうかを
検討したい。いま、大きさ400の無作為標本から計算された標本平
均の値が22万円であったとする。どのような判断をするか?

母集団の平均が20万円であるとしたとき、(c)の結果から、標本
の平均が22万円になるということがほとんどおこりえないこととな
る。よって、平均は20万円ではないと考えるのが妥当であろう。
統計学入門(2) - 後期 第5回 -
9
標本調査と推測統計の概念図:平均の推定の場合
標本抽出
データ収集
x1
x2

xn
標本
母集団
集計
母集団の平均:μ
標本の平均:
2つの値は同じではない
x
統計的推定

点推定(Point Estimation)

1つの数字での推定



一番もっともらしい数字を選ぶ
標準誤差等により推定精度を評価
区間推定(Interval Estimation)

区間での推定

真値が入っていると思われる区間を選ぶ


点推定の結果にプラスマイナスの誤差をつけて、区間を作成
する
仮説の検証にも使用可能

仮説として設定された値が信頼区間の外であれば、その仮説
は棄却される
統計学入門(2) - 後期 第5回 -
11
点推定の考え方

理論構築上は、最大尤度推定法が一般的
ただし、多くの場合直感的な推定方法である

基本:母集団での計算方法と同じ計算を標本で行う

母集団の平均を推定する場合は、標本について平均を計算す
る
 母集団の中央値(中位数)を推定したい場合は、標本の中央値
(中位数)を求める
注意:
1 n
2
2
s

(
x

x
)

i
 分散の推定の場合は、
n 1

i 1

nで割る推定値も考えられるが、慣例としてn-1で割る分散を用
いることが多い。n-1で割る分散は、不偏な推定である。
統計学入門(2) - 後期 第5回 -
12
標準正規分布
(平均が0で、標準偏差が1の正規分布)
95%の確率で
-3
-2
-1.96
-1
0
1
統計学入門(2) - 後期 第5回 -
2
1.96
3
13
標準正規分布
99%の確率で
-3
-2
-2.58
-1
0
1
統計学入門(2) - 後期 第5回 -
2
2.58
3
14
正規分布の性質

x ~ N (0 , 1)

平均0 、 分散1の正規分布
95%の確率で
1.96  x  1.96
99%の確率で
 2.58  x  2.58
統計学入門(2) - 後期 第5回 -
15
正規分布の性質

x ~ N (m ,  2)


平均m 、 分散 2の正規分布
基準化
xm

95%の確率で
1.96 
~ N (0 , 1)
xm

 1.96
統計学入門(2) - 後期 第5回 -
16
正規分布の性質

x ~ N (m ,  2)
95%の確率で
1.96 
99%の確率で
 2.58 
xm

xm

 1.96
 2.58
統計学入門(2) - 後期 第5回 -
17
平均の標本分布
(1)
(2)
m
x の平均は、母集団の平均
2
x の分散は、  / n
(3a) n が大きいとき、 x の分布は正規分布
(3b) 母集団分布が正規分布であれば、x の
分布は正規分布
統計学入門(2) - 後期 第5回 -
18
標本平均の場合

x ~ N (m , / n)
2
95%の確率で
x m
1.96 
 1.96
/ n
99%の確率で
x m
 2.58 
 2.58
/ n
統計学入門(2) - 後期 第5回 -
19
標本平均の場合

95%の確率で
x m
1.96 
 1.96
/ n
x 1.96

n
 m  x 1.96
統計学入門(2) - 後期 第5回 -

n
20
標本平均の場合

95%の確率で
x 1.96

n
 m  x 1.96

n
 は未知なので、標本から計算される
標準偏差 s で置き換える
s
s
x 1.96
 m  x 1.96
n
n
統計学入門(2) - 後期 第5回 -
21
平均の推定(nが大きいとき)
理論的には
95%の確率で
x  1. 96

n
 m  x  1. 96

n
実際の計算では
信頼度95%の信頼区間
s
s
x  1.96  m  x  1.96
n
n
1
s 
(xi  x)2
n 1
2
信頼度100(1-)%の信頼区間
 s
 s


x z   m  x  z 
 2 n
 2 n


ただし、z  は上側
 2
/2 %点
誤差の考え方

標本平均は、母集団の平均の周りに分布する
s
1.96
n

散らばりの大きさは、

母平均と標本平均の離れ具合だと考えれば、
s
1.96
n
を誤差と考えることができる
統計学入門(2) - 後期 第5回 -
23
s
m 1.96
n
s
m 1.96
n
-3
-2
s
x 1.96
n
-1
μ
0
1
x
2
3
s
x 1.96
n
この範囲にμが入っていると考える
平均の推定
(母集団分布が正規分布のとき)
信頼度100(1-)%の信頼区間
s
s
x  t (n 1; / 2)
 m  x  t (n 1; / 2)
n
n
参考 : 母集団分布が正規分布であれば、
x m
~ t n 1 自由度n-1のt分布
s
n
統計学入門(2) - 後期 第5回 -
25
練習問題
(1)1月当りの世帯消費支出額についての、
ある母集団(A)からの標本調査で、平均
が22万円、標準偏差が8万円であった。
標本の大きさ(n)は1600である。信頼度
95%の信頼区間を構成せよ。
下限:22-1.96×0.2=21.6万円
上限:22+1.96×0.2=22.4万円
統計学入門(2) - 後期 第5回 -
26
練習問題
(2) 上記の母集団の平均が23万を超えてい
るという主張をする人がいた。調査の結
果からその人の主張が正しいかどうか判
断せよ。
信頼区間の上限が22.4万円であるので、
母集団の平均が23万円を超えるという
ことは考えにくい。
統計学入門(2) - 後期 第5回 -
27
練習問題
(3)別の集団(B)について大きさ900の標本で
調査をしたところ、平均が21万円で、標
準偏差が6万円であった。信頼度95%の
信頼区間を構成せよ。
下限:21-1.96×0.2=20.6万円
上限:21+1.96×0.2=21.4万円
統計学入門(2) - 後期 第5回 -
28
練習問題
(4) 集団Aと集団Bの平均について、2つの調査の
結果からそれらの差異の可能性についてコメ
ントせよ。
母集団A 下限21.6万円、上限22.4万円
母集団B 下限20.6万円、上限21.4万円
であり、母集団Aの平均は少なくとも21.6万円
以上と考えら、一方、母集団Bの平均は21.4万
円を超えることはないと考えられ、差があると
判断できる。
統計学入門(2) - 後期 第5回 -
29
練習問題
(5)さらに別の集団(C)について大きさ900の標本で
調査をしたところ、平均が21.5万円で、標準偏
差が6万円であった。このとき、集団Aと集団C
の平均値の差の有無についてコメントせよ。
母集団A 下限21.6万円、上限22.4万円
母集団C 下限21.1万円、上限21.9万円
であり、必ずしも差があるという断定はできない
統計学入門(2) - 後期 第5回 -
30