Transcript URL1
富山大学知能情報工学科
「統計学」第8回
ホーエル『初等統計学』
第6章 標本抽出
高 尚策 (コウ ショウサク) 准教授
Email: [email protected]
1
前回の復習
• 代表的な2つの確率分布の導入
2項分布(離散型)
(実践)エクセルを利用した
2項分布の確率計算
正規分布(連続型)
(実践)エクセルで正規分布のグ
ラフの書き方
• 2項分布の正規近似
2
前回の演習問題の答え
• 課題:
正規分布の分散(標準偏差)でなく,平均を変えると,確率
密度関数のグラフはどのように変化するだろうか? エクセルで
実験してみよう.
N(0,1)
N(-1,1)
N(-1.5,1)
変化: 平行移動
N(1,1)
N(1.5,1)
3
1.序説
• 第2章:データの整理
– 標本の話
• 第4章と第5章:確率分布
– 母集団の話
• 第6章から第9章:標本と母集団の関係
– 統計量(statistic)に基づいた,母集団に関する統
計的推論.
– 統計量:標本から計算される値のこと.平均,分
散,割合,t 統計量など
4
標本抽出
• 確率分布(母集団)が未知のとき,データをい
くらでも集めることができるのならば,確率分
布はわかるかもしれない.
– 例:ヒストグラムの極限としての正規分布
• しかし,実際には,比較的少数のデータから
確率分布について推論するしかない.すなわ
ち,標本抽出(sampling)を行って,母集団に
関する推測を行う.
– 母集団の特性値(平均や分散)を知ることが目的
5
• 「標本抽出がスープの味見である」という比喩
は,ちょっと不適切なところがある.標本抽出
では,「スープをかき混ぜて味を均一にする」
ことはできない.
– 得られる測定値は個人ごとに異なる.
• 均一でない全体から,どうやって適切な標本
を抽出するか?
6
2.無作為抽出
• 標本(sample):母集団に関する推測を行うた
めの,母集団の一部
• 無作為抽出(random sampling):大きさ r の
標本において,母集団を構成する個体のど
の r 個の組み合わせも,標本に選ばれる確
率が同じになる標本抽出法(テキストp.122)
どの個体が標本に選ばれるか(どのような測定
値が出現するか)は,純粋に運のみで決まる
→ 確率的な議論が可能になる
7
• 標本は母集団の一部だから,母集団に関す
る推測には誤差(標本誤差)が入り込む.
– 例えば,表の出る確率が本当は ½ であるコイン
を100回投げて,表が60回出たとする.
– このことから,「このコインの表の出る確率は0.6
である」と推測したならば,ここには 0.1 の誤差が
生じたことになる.
– しかし,こうした完全に偶然によって生じる誤差は,
その大きさを評価できる.
8
• 無作為抽出の利点は,標本誤差を評価でき
ることである.
– 母集団に関する推測を行うとき,その精度を示す
ことができる.
• 無作為抽出を適切に実行すれば,精度の高
い推定を行うことができる.
– 母集団の特性値に関して,標本からの推定値が
真値と大きく異なる確率を,十分過ぎるほどに小
さくできる.
9
単純無作為抽出
• 単純無作為抽出(simple random sampling):
母集団を構成する個体すべてが掲載された
台帳から,乱数を用いて標本を抽出する.
– 個体すべてに番号をつける.
– 十分な桁数の乱数(例:母集団が8万人台なら5
桁:0~99,999)を用意する.
– 必要な標本の大きさに達するまで,乱数と一致し
た番号の個体を標本に含める.
10
その他の無作為抽出法
• 単純無作為抽出は,母集団が大きい場合には実施
が難しい.実際の調査では他の方法が用いられる.
– 系統抽出法(systematic sampling):個体を1列に
並べ,最初の個体を決めた後,等間隔に個体を
選ぶ(章末問題2).
– 2段抽出法(two-stage sampling):標本抽出を2
段階に分ける.例えば,中学生が母集団であると
き,最初に中学校を選び,選ばれた中学校の中
から生徒を選ぶ(章末問題7).
参考:豊田秀樹『調査法講義』(朝倉書店)
11
現実的な問題
• 現実的には,無作為に選んだ個体すべてか
らデータが得られるとは限らない.(章末問題
5)
– すべての人が調査に協力することはない. (例:
政治に関する調査で,政治に興味のない人は協
力しない可能性が高い)
– 結果として残った人は,すでに無作為標本ではな
く,なんらかの偏りがあるかもしれない(例:特定
の団体が行う調査では,その団体に対して一定
以上の好意がある人だけが残る)
12
有意抽出法
• 無作為抽出法でない標本抽出法を,有意抽
出法(purposive selection)と呼ぶ.
• 有意抽出法は,標本誤差の大きさを評価でき
ない.
– 評価はできないが,無作為抽出よりも誤差は大き
いと考えてよい.
• 有意抽出の利点は,無作為抽出よりも少ない
手間と費用で実施できること.
13
• 有意抽出法の例:
– 紹介法:知人,同僚,友人など,調査に協力してく
れそうな人を標本とする.
– 応募法:愛読者カードや募集に応じたモニターな
ど,自発的に応募してきた人を標本とする.(章
末問題4)
– 出口調査:選挙当日に投票所から出てきた有権
者に,どの政党(あるいは候補者)に投票したか
をたずねる.
14
母数の推定
• 母数(parameter):母集団の確率分布を特徴づける
特性値.
– 正規分布における平均μと分散σ2
– 2項分布における試行数nと成功確率p
• 母数を推定する方法は?
– 点推定(point estimate):標本から計算される統計量を推
定値とする(標本平均は母集団平均の推定値)
統計値(統計量):
標本の特徴を表わす数値(データから算出可能)
x (標本平均)や s2 (標本分散)など
– 区間推定(interval estimate)
→ 推定方法は第7章で詳しく論じる
15
3.不偏推定値
• 点推定を行うときの,「よい」推定値とは?
– この基準はいくつかある(『よくわかる統計学 I 基礎編』pp.95-99 参照).
統計入門では不偏性(unbiasedness)のみとりあげる.
• 不偏推定値(unbiased estimate):大きさ n の標本をとってきて統
計量(例:標本平均)を計算することを何度も繰り返したとき,そ
の期待値(例:平均値の期待値)が母数(例:母集団平均)に一
致する推定値.
標本(経験分布)
母集団平均:μ
母集団分散:σ2
無作為
抽出
標本平均:x
標本分散:s2
母集団(確率分布)
16
母数と不偏統計値の関係
• 標本平均x は、母集団平均μの不偏推定値である.
• 標本分散s2 (偏差平方和を n – 1 で割る)は,母集団分散σ2
の不偏推定値である.
μ と x の関係
σ2 と s2 の関係
を調べてみよう。
定理1:
定理2:
定理3:
定理4:
E(x)=μ
V(x) = σ2/n
E(s2)=σ2
E(s) ≠ σ
17
• 定理1: 標本平均xは母集団平均μの不偏推
定値である.
つまり、E(x)=μ
E[x ]=μ について
i
証明: E[ X ] E[
1
1
X i ] E[ X i ]
n
n
テキストp.79 式(1)
テキストp.82 式(4)
1
E[( X 1 X 2 X n )]
n
和の期待値は
期待値の和
1
( E[ X 1 ] E[ X 2 ] E[ X n ])
n
1
( )
母集団分布に
n
よらない
18
• 定理2: 標本平均xの分散は,母集団分散σ2
の1/nである.
つまり、V(x) = σ2/n
証明:
1
1
V [ X ] V [ X i ] 2 V [ X i ]
n
n
無作為抽出な
1
2 V [( X 1 X 2 X n )]
ので
n
各 Xi は独立
1
2 (V [ X 1 ] V [ X 2 ] V [ X n ])
n
1
2 ( 2 2 2 )
n
母集団分布に
1 2
よらない
19
n
定理3: 標本分散s2 は,母集団分散σ2の不偏推
定値である.
つまり、E(s2)=σ2
証明:
標本分散の期待値の証明
白旗慎吾(2008)統計学 ミネルヴァ書房.p.141より
任意の確率変数Y に関して ,
V [Y ] E[Y ] {E[Y ]}
2
2
E[Y ] V [Y ] {E[Y ]}
2
2
X i および X は確率変数なので,
E[ X i ] V [ X i ] {E[ X i ]}2 2 2
2
E[ X ] V [ X ] {E[ X ]}
2
2
2
n
2
20
平均からの偏差平方和を測定の数 n で割った
分散を U2,不偏分散を S2 とすると
1
2
E[U ] E[ X i X 2 ]
n
1
2
2
E[ X 1 X n ] E[ X 2 ]
n
2
1
n ( 2 2 ) ( 2 )
n
n
n 1 2
n
n
2
E[ S ] E[
U 2] 2
n 1
2
21
点推定の精度(安定性)
• 推定値(例えば,標本平均)の期待値が母数
(例えば,母集団平均)に一致するとしても,
推定値の分散(注意:標本分散ではない)が
あまり大きいのは困る.
– 通常は,標本を1回だけとって推定値を計算する
ので,それが真の値から大きく外れては困る.
– 何度も標本をとって推定値の計算を繰り返したと
き,母数のまわりの狭い範囲で変動してほしい.
• 標本の大きさを大きくすると精度が上がる.
22
4.正規母集団での標本平均xの分布
定理5(テキストp.128): 確率変数 X が平均 μ,
分散 σ2 の正規分布に従うならば,大きさ n
の無作為標本に基づく標本平均は,
平均 :
分散:
1 2
n
の正規分布に従う.
この平均と分散に関してのみ
証明した.正規分布になる
ことの証明は省略(「積率母関数」
というものを使って,正規分布の
「再生性」を証明するので,入門
レベルを超える)
23
標本平均xの分布の応用
• 定理5より,母集団分布が正規分布なら,標本平均の分布も
正規分布なので,標準正規分布を利用して様々な問題を解
くことができる.
標本(経験分布)
無作為
抽出
母集団平均:μ
母集団分散:σ2
標本平均:x
標本分散:s2
母集団(確率分布)
σ2
定理5:𝑥 ~ N(μ, )
問題解決
𝑥−μ
標準化:
𝜎/ 𝑛
𝑛
~ N(0,1)
24
• 例:xを成人男子の母集団から無作為に選んだ1人の身長と
する.xは平均μ=68インチ,標準偏差σ=3インチの正規分布
に従うと仮定する.この分布のグラフは下の図に示してある.
過去の経験データから,これらの仮定は全く無理のないもの
であることがわかっている.その上で問題, この母集団から大き
さ n=25 の無作為標本がとられるとき,標本平均xが母集団平
均μと高々1インチしか違わない確率はいくらか.
答え:
μ=68、 σ=3、n=25
σ2
定理5:𝑥 ~ N(μ, )
𝑛
つまり、 xは平均68,標準偏差
𝜎
𝑛
= 0.6の正規分布に従う.
25
答え:
そして、xが区間(67,69)内に落ちる確率を求めるために、標準化公
式およびテキストP.295の表IVを利用する.
𝑥−μ
標準化:𝑧 =
~ N(0,1)
𝜎/ 𝑛
𝑃 67 ≤ 𝑥 ≤ 69
表IV:標準正規分布の面積
67 − 𝜇 𝑥 − 𝜇 69 − 𝜇
=𝑃
𝜎 ≤ 𝜎 ≤ 𝜎
𝑛
𝑛
𝑛
5
5
=𝑃 − ≤𝑧≤
3
3
= 2 × 𝑃 0 ≤ 𝑧 ≤ 1.67
= 2 × 𝑃 0 ≤ 𝑧 ≤ 1.67
= 2 × 𝑃 0 ≤ 𝑧 ≤ 1.67 = 2 × 0.4525 ≈ 0.9
26
5.非正規母集団での標本平均の分布
• 母集団分布が正規分布でなかったら?
– n が大きければ,定理1と同様の定理が成立する.
中心極限定理(central limit theorem): 確率
変数 X が平均 μ,分散 σ2 のある分布に従う
ならば,大きさ n の無作為標本に基づく標本
平均は,n が無限に大きくなるとき,
平均 :
分散:
1 2
n
の正規分布に従う.
母集団分布は
なんでもよい!
27
中心極限定理
• 中心極限定理の証明は非常に難しい.
• 証明の代わりにシミュレーションをしてみる.
章末問題21を使う(prob6_21.xlsx).
– 母集団分布は0から9までが等確率で現れる,離
散型の一様分布(uniform distribution)
– VBAを利用したprob6_21.xlsmを利用すると,任意
の標本の大きさ,任意の標本抽出回数でシミュ
レーションできる.
(授業のホームページからprob6_21.xlsx と VBA prob6_21.xlsmをダウンロードで
28
きる, 各自で確認してください)
• 章末問題21
1桁の乱数を10個とり,その標本平均を計算することを10回繰り
返す.これら10個の標本平均を分類してヒストグラムをつくり,その
平均と標準偏差を求めよ.次に、これらの値を理論値と比較せよ.
(補足)母集団分布は0から9までが等確率で現れる,離散型
の一様分布の平均と標準偏差はμ=4.5、 σ=2.87である.
𝜇 = 𝐸(𝑋) =
𝑥𝑃 𝑋 = 𝑥 = 0 × 0.1 + ⋯ + 9 × 0.1 = 4.5
𝜎2 = 𝑉 𝑋 = 𝐸 𝑋2 − 𝐸 𝑋
=
2
𝑥 2 𝑃 𝑋 = 𝑥 − 4.52
= 02 × 0.1 + ⋯ + 92 × 0.1 − 4.52 = 8.25
∴
σ=2.87
29
標本数n=10, 標本抽出回数t=10のとき
Excel prob6_21.xlsxによる実験
30
標本数n=20, 標本抽出回数t=50のとき
Excel prob6_21.xlsxによる実験
31
標本数n=1000, 標本抽出回数t=100のとき
Excel VBA prob6_21.xlsmによる実験
考察: 標本数を多くすると、得られたヒストグラムは正規分布に近づく
32
注意点
• 実は、標本の大きさは「無限」でなくても,数十
でたいていうまくいく.
例(テキストp.133例題2):
ある大学の受験生の母集団から無作為に選んだ1人の
受験生の評定平均をXとし,Xの分布は平均2.5,標準偏差
0.4であるとする.この母集団から36人の受験生の標本を
とり𝑥の値を求めるとき, 𝑥が区間(2.4,2.7)に落ちる確率を
求めよ.
33
例:ある大学の受験生の母集団から無作為に選んだ1人の受験生
の評定平均をXとし,Xの分布は平均2.5,標準偏差0.4であるとする.
この母集団から36人の受験生の標本をとり𝑥の値を求めるとき, 𝑥
が区間(2.4,2.7)に落ちる確率を求めよ.
答え:
よって、
評定平均Xは正規分布をしなくても,大きさ36の標本は十分
大きいから,中心極限定理が使える.
𝑥は平均μ=2.5,標準偏差𝜎 =
標準化𝒁 =
0.4
36
= 0.067の正規分布に従う
𝑿−𝝁
𝝈
従って、P{2.4<𝑥<2.7}=P{-1.5<z<3.0}=P{0<z<1.5} + P{0<z<3.0}
=0.4332+0.4987 = 0.93
34
補足:ド・モアブルーラプラスの定理
• 第5章で学習した2項分布の正規近似は,中
心極限定理の特別な場合.
n 回のベルヌーイ試行での成功回数 X は,n
が大きいとき,平均 np,分散 npq の正規分布に
従う.
• 歴史的には,2項分布の場合に発見されたこ
の性質が,中心極限定理の起源.ド・モアブ
ル―ラプラスの定理(De Moivre-Laplace’s
theorem)と呼ばれる.(18世紀)
35
ド・モアブルーラプラスの定理
• 1回目のベルヌーイ試行(成功確率 p)での,
「成功」回数を表す確率変数 X1
• 母集団の確率分布:P{X1=1} = p, P{X1=0} = q
• この確率分布の平均(期待値)
E[ X1 ] 1 p 0 q p
• 分散
V [ X 1 ] E[ X 1 ] {E[ X 1 ]}
2
2
1 p 0 q p p(1 P) pq
2
2
2
36
ド・モアブルーラプラスの定理
• 大きさ n の無作為標本は, n 回のベルヌーイ
試行を意味する.このときの成功回数 X
X X1 X 2 X n
• 大きさ n の無作為標本における標本平均は,
成功割合 X /n である.
• n が大きいとき, X /n は,平均 p,分散 pq/n
の正規分布に従う.(中心極限定理)
– 成功回数(成功割合の n 倍)は,平均 np,分散
npq の正規分布に従う.
37
まとめ
単純無作為抽出
無作為抽出
標本抽出
系統抽出法
2段抽出法
有意抽出法
紹介法、応募法、出口調査など
• 不偏推定値
– 標本平均x は、母集団平均μの不偏推定値である.
– 標本分散s2 (偏差平方和を n – 1 で割る)は,母集団分散σ2
の不偏推定値である.
– 性質: E(x)=μ
V(x) = σ2/n
E(s2)=σ2 E(s) ≠ σ
• 中心極限定理
確率変数 X: E[X]=𝜇, V[X]=σ2
大きさ n の無作為標本に基づく標本平均
𝜎2
𝑥~𝑁(𝜇, )
𝑛
38
演習問題
• 問題1(章末問題9):
xは平均20,標準偏差4の正規分布に従うと仮定して,大きさ
64の標本に基づく標本平均xが次の条件を満たす確率を求
めよ.(a)21を超える,(b)19.5を超える,(c)19と21の間にあ
る,(d)22を超える.
• 問題2 (章末問題11、12) :
一つの図に,平均10,標準偏差2の正規曲線のグラフと,この
分布からの大きさ9の標本に基づく標本平均xの分布曲線
のグラフを重ねて描いてみよ.次に、標本の大きさが36にす
れば, xの曲線のグラフはどのようになるか.
39
演習問題
• 問題3(章末問題13):
小学生1年生の体重の標準偏差が7ポンドであるとき,このよ
うな生徒100人の無作為標本の平均体重が1年生全体の平
均体重と1ポンド以上異なる確率はいくらか.
• 問題4 (章末問題14) :
体重の増加をもたらす新しい餌をある種の鶏の母集団から
無作為にとった25羽の鶏に与えることにした.1ヶ月後の体
重増の標準偏差は約2オンスが期待されるとして,これらの
鶏を新しい餌で飼育するとき,1ヶ月後の25羽の体重の平均
と全母集団の平均の差が1/2オンス以上になる確率を求め
よ.
40
演習問題
• 問題5(章末問題15):
ある大学での過去5年間の男子新入生の体重の平均は154
ポンドで,標準偏差は20ポンドである.今年の新入生登録名
簿の中から選んだ100人の学生の体重の平均が159ポンド
であったとすれば,今年の新入生の体重は例年の新入生の
体重より重いといってよいか.理由をつけて答えよ.
注意点:
1.詳細な答えをレポート用紙に書いてください。結果だけは不可。
2.レポートに表紙を付けてください
名前と学籍番号をご記入のうえ、レポート用紙(A4)を提出する。
提出先:工学部大学院棟7階
締め切り時間:
NO.7708室のドアのポストに入れてください
来週月曜日(6月22日) 午後5時まで
41