Transcript 標本抽出法入門
Slide 1
標本抽出法入門
(第3章 統計的推定 補足)
統計学 2010年度
Slide 2
母集団(個体数N)
×
×
×
標本(個体数n)
×
×
×
×
×
×
×
標本平均x
母平均μ
•
•
区間推定
標本平均にもとづいて母平均を区間推定するとき、できる限り精度の高い、すな
わち信頼区間の幅の小さい推定量を得ることを考える。
標本平均 x の分散は
2
V (x)
n
であり、標本数nを大きくすれば、推定量の精度は高まる。
• しかし、標本数nを大きくすることにはコストの面などから限界がある。そこで、標
本の抜き出し方を工夫することによって、推定量の精度を高めることをかんがえ
ていく。これが標本抽出法(サンプリング)の問題である。
Slide 3
標本抽出法は、まず次の2つに大別できる。
•有意抽出法
街を歩く人にアンケートをとるなどの方法であり、抜き出された標
本が、一定の傾向を持つ(標本の偏りを持つ)可能性がある。
•無作為抽出法
母集団の中から無作為(ランダム)に標本を抜き出す方法。
母集団の中からくじ引きの原理によって標本を抜き出す、単純
無作為抽出法がその代表格である。
今までの推測統計の理論では、この単純無作為抽出法を前提
としている。
有意抽出法でなく、単純無作為抽出法を用いた場合でも、
たまたま特定の傾向を示す人が多く選ばれることによって、
偏った標本となってしまうおそれある。
⇒ 信頼区間内に母平均を含まない標本となるおそれ
Slide 4
そこで、標本誤差を少なくするための標本抽出の工夫が
おこなわれる。代表的な工夫として次のようなものが挙げ
られる。
– 層別抽出法(層化抽出法ともいう) - できるだけ同じような性質
のグループに分ける。都市なら人口規模、産業構造など、人なら
性別、年齢などによっていくつかの層にわける。
– 多段抽出法 - 市町村を選び、その中から世帯を選ぶなど、何
段階かに分ける。
• 日本の官庁統計では標本誤差を少なくするために無作
為抽出法に層別抽出法、多段抽出法を組み合わせた方
法を用いている。
(例) 家計調査の場合
1.全国の市町村を168の層に分け、その中から1つ選ぶ。
2.各市町村から調査地区(単位区)を選ぶ。全国で約1400単位区
3.各単位区から6世帯を乱数表によって選ぶ
Slide 5
<層別抽出法の理論的背景>
N n
2
• 標本平均 x の分散が V ( x )
であり、標本数nを大きくすれば、
N 1 n
推定量の精度は高まる。
• 反対にnを固定して考えると、母分散σ2の小さい母集団の推定は、精度
が高くなる。
• 母集団を分散の小さいいくつかの層に分割すれば、それぞれの層内で
の精度は高くなる。
母集団(個体数N)
層1:個体数N1、層内平均μ1、層内分散σ21
層2:個体数N2、層内平均μ2、層内分散σ22
層3:個体数N3、層内平均μ3 、層内分散σ23
Wi
Ni
N
理論から
とおく。
W1 1 W 2 2 W 3 3
2
W i i
2
Wi (i )
2
が導出される。
Slide 6
• 層別抽出によって抜き出された標本平均は、 x st
の分散は
2
V ( x st )
Wi
2
W
i
x i となり、そ
N i ni i
N i 1 ni
となる。
<例題>
男女合わせて500人の集団に4点満点のテストをおこなったとき、練習問
題の度数分布表のようになった。
このとき、単純無作為抽出でn=50の標本を選んだときの標本平均の分
散と、層別抽出でn1(男子)=30、n2(女子)=20の標本を選んだときの標本
平均の分散を比較してみる。
母集団(個体数N=500)
層1
個体数
N1 =300
層内平均
μ1=2
層内分散
σ21=1
2 .4 ,
層2
個体数
N2 =200
層内平均
μ2=3
層内分散
σ22=1
2
1 . 24
V (x)
N n
2
N 1 n
500 50 1 . 24
500 1
V ( x st )
W
0 .6
2
0 . 022365
50
N i ni i
2
2
i
N i 1 ni
300 30 1
300 1 30
0 .4
2
200 20 1
200 1 20
0 . 018072
標本抽出法入門
(第3章 統計的推定 補足)
統計学 2010年度
Slide 2
母集団(個体数N)
×
×
×
標本(個体数n)
×
×
×
×
×
×
×
標本平均x
母平均μ
•
•
区間推定
標本平均にもとづいて母平均を区間推定するとき、できる限り精度の高い、すな
わち信頼区間の幅の小さい推定量を得ることを考える。
標本平均 x の分散は
2
V (x)
n
であり、標本数nを大きくすれば、推定量の精度は高まる。
• しかし、標本数nを大きくすることにはコストの面などから限界がある。そこで、標
本の抜き出し方を工夫することによって、推定量の精度を高めることをかんがえ
ていく。これが標本抽出法(サンプリング)の問題である。
Slide 3
標本抽出法は、まず次の2つに大別できる。
•有意抽出法
街を歩く人にアンケートをとるなどの方法であり、抜き出された標
本が、一定の傾向を持つ(標本の偏りを持つ)可能性がある。
•無作為抽出法
母集団の中から無作為(ランダム)に標本を抜き出す方法。
母集団の中からくじ引きの原理によって標本を抜き出す、単純
無作為抽出法がその代表格である。
今までの推測統計の理論では、この単純無作為抽出法を前提
としている。
有意抽出法でなく、単純無作為抽出法を用いた場合でも、
たまたま特定の傾向を示す人が多く選ばれることによって、
偏った標本となってしまうおそれある。
⇒ 信頼区間内に母平均を含まない標本となるおそれ
Slide 4
そこで、標本誤差を少なくするための標本抽出の工夫が
おこなわれる。代表的な工夫として次のようなものが挙げ
られる。
– 層別抽出法(層化抽出法ともいう) - できるだけ同じような性質
のグループに分ける。都市なら人口規模、産業構造など、人なら
性別、年齢などによっていくつかの層にわける。
– 多段抽出法 - 市町村を選び、その中から世帯を選ぶなど、何
段階かに分ける。
• 日本の官庁統計では標本誤差を少なくするために無作
為抽出法に層別抽出法、多段抽出法を組み合わせた方
法を用いている。
(例) 家計調査の場合
1.全国の市町村を168の層に分け、その中から1つ選ぶ。
2.各市町村から調査地区(単位区)を選ぶ。全国で約1400単位区
3.各単位区から6世帯を乱数表によって選ぶ
Slide 5
<層別抽出法の理論的背景>
N n
2
• 標本平均 x の分散が V ( x )
であり、標本数nを大きくすれば、
N 1 n
推定量の精度は高まる。
• 反対にnを固定して考えると、母分散σ2の小さい母集団の推定は、精度
が高くなる。
• 母集団を分散の小さいいくつかの層に分割すれば、それぞれの層内で
の精度は高くなる。
母集団(個体数N)
層1:個体数N1、層内平均μ1、層内分散σ21
層2:個体数N2、層内平均μ2、層内分散σ22
層3:個体数N3、層内平均μ3 、層内分散σ23
Wi
Ni
N
理論から
とおく。
W1 1 W 2 2 W 3 3
2
W i i
2
Wi (i )
2
が導出される。
Slide 6
• 層別抽出によって抜き出された標本平均は、 x st
の分散は
2
V ( x st )
Wi
2
W
i
x i となり、そ
N i ni i
N i 1 ni
となる。
<例題>
男女合わせて500人の集団に4点満点のテストをおこなったとき、練習問
題の度数分布表のようになった。
このとき、単純無作為抽出でn=50の標本を選んだときの標本平均の分
散と、層別抽出でn1(男子)=30、n2(女子)=20の標本を選んだときの標本
平均の分散を比較してみる。
母集団(個体数N=500)
層1
個体数
N1 =300
層内平均
μ1=2
層内分散
σ21=1
2 .4 ,
層2
個体数
N2 =200
層内平均
μ2=3
層内分散
σ22=1
2
1 . 24
V (x)
N n
2
N 1 n
500 50 1 . 24
500 1
V ( x st )
W
0 .6
2
0 . 022365
50
N i ni i
2
2
i
N i 1 ni
300 30 1
300 1 30
0 .4
2
200 20 1
200 1 20
0 . 018072