Transcript URL

富山大学知能情報工学科
「統計学」第9回
ホーエル『初等統計学』
第7章1節~3節 推定(1)
高 尚策 (コウ ショウサク) 准教授
Email: [email protected]
前回の復習
単純無作為抽出
無作為抽出
標本抽出
系統抽出法
2段抽出法
有意抽出法
紹介法、応募法、出口調査など
• 不偏推定値
– 標本平均x は、母集団平均μの不偏推定値である.
– 標本分散s2 (偏差平方和を n – 1 で割る)は,母集団分散σ2
の不偏推定値である.
– 性質: E(x)=μ
V(x) = σ2/n
E(s2)=σ2 E(s) ≠ σ
• 中心極限定理
確率変数 X: E[X]=𝜇, V[X]=σ2
大きさ n の無作為標本に基づく標本平均
𝜎2
𝑥~𝑁(𝜇, )
𝑛
表IV:
標準正規
分布の
面積
(P.295)
P{0≦Z≦z}
表の中の
数字は
z=0からzの
正値までの
曲線下の
部分の面
積である.
zの負値に
対する面積
は対称性を
利用して
求めばよい.
前回の演習問題の答え
• 問題1(章末問題9):
xは平均20,標準偏差4の正規分布に従うと仮定して,大きさ
64の標本に基づく標本平均xが次の条件を満たす確率を求
めよ.(a)21を超える,(b)19.5を超える,(c)19と21の間にあ
る,(d)22を超える.
答え:
𝑋~𝑁 𝜇, 𝜎 2 = 𝑁 20, 42
つまり、
𝜇 = 20, 𝜎 = 4
大きさ64の標本は十分大きいから,中心極限定理が使える.
𝜎2
よって、 𝑥~𝑁(𝜇, )
𝑛
𝑥は平均μ=20,標準偏差
4
64
= 0.5の正規分布に従う、𝑥~𝑁(20, 0.52 )
• 問題1(章末問題9):
𝑥~𝑁(20, 0.52 )
標準化 : Z 
X 

𝑥 − 20
𝑧=
~𝑁(0,1)
0.5
(a)21を超える確率:
𝑃 𝑥 > 21 = 𝑃
𝑥 − 20 21 − 20
>
= 𝑃 𝑧 > 2 = 0.5 − 𝑃 0 ≤ 𝑧 ≤ 2 = 0.5 − 0.4772 ≈ 0.02
0.5
0.5
(b)19.5を超える確率:
𝑥 − 20 19.5 − 20
>
= 𝑃 𝑧 > −1 = 0.5 + 𝑃 −1 ≤ 𝑧 ≤ 0
0.5
0.5
= 0.5 + 𝑃 0 ≤ 𝑧 ≤ 1 = 0.5 + 0.3413 ≈ 0.84
𝑃 𝑥 > 19.5 = 𝑃
(c)19と21の間にある確率:
𝑃 19 ≤ 𝑥 ≤ 21 = 𝑃
19 − 20 𝑥 − 20 21 − 20
≤
≤
= 𝑃 −2 ≤ 𝑧 ≤ 2 = 2 × 𝑃 0 ≤ 𝑧 ≤ 2
0.5
0.5
0.5
= 2 × 0.4772 ≈ 0.95
• 問題1(章末問題9):
𝑥~𝑁(20, 0.52 )
標準化 : Z 
X 

𝑥 − 20
𝑧=
~𝑁(0,1)
0.5
(d)22を超える確率:
𝑥 − 20 22 − 20
𝑃 𝑥 > 22 = 𝑃
>
= 𝑃 𝑧 > 4 = 0.5 − 𝑃 0 ≤ 𝑧 ≤ 4
0.5
0.5
> 0.5 − 𝑃 0 ≤ 𝑧 ≤ 3.09 = 0.5 − 0.4990 ≈ 0.00
前回の演習問題の答え
• 問題2 (章末問題11、12) :
一つの図に,平均10,標準偏差2の正規曲線のグラフと,この
分布からの大きさ9の標本に基づく標本平均xの分布曲線
のグラフを重ねて描いてみよ.次に、標本の大きさが36にす
れば, xの曲線のグラフはどのようになるか.
答え:
𝑋~𝑁 𝜇, 𝜎 2 = 𝑁 10, 22
大きさn1=9の標本に基づく標本平均
𝜎2
2 2
𝑥1 ~𝑁 𝜇,
= 𝑁(10, ( ) )
𝑛1
3
大きさn2=36の標本に基づく標本平均
𝜎2
2 2
𝑥2 ~𝑁 𝜇,
= 𝑁(10, ( ) )
𝑛2
6
答え:
2 2
𝑥2 ~𝑁(10, ( ) )
6
2 2
𝑥1 ~𝑁(10, ( ) )
3
𝑋~𝑁 10, 22
• 大きさ9の標本に基づく標本平均𝒙𝟏 の分布曲線は元のXの曲線
に比べて、高さは3倍で、広がりは約1/3になる.
• 大きさ36の標本に基づく標本平均𝒙2 の分布曲線は
元のXの曲線に比べて、高さは6倍で、広がりは約1/6になる,
𝒙𝟏 の曲線に比べて、高さは2倍で、広がりは約1/2になる.
前回の演習問題の答え
• 問題3(章末問題13):
小学生1年生の体重の標準偏差が7ポンドであるとき,このよ
うな生徒100人の無作為標本の平均体重が1年生全体の平
均体重と1ポンド以上異なる確率はいくらか.
答え:
1年生の体重の確率変数をX, 平均をμ, 標準偏差を𝜎 = 7とする.
大きさ100の標本は十分大きいから,中心極限定理が使える.
𝜎2
7 2
よって、無作為標本の平均体重 𝑥~𝑁 𝜇,
= 𝑁(𝜇, ( ) )
𝑛
10
X 
標準化 : Z 
𝑥−𝜇

𝑧=
~𝑁(0,1)
0.7
𝑃 𝑥−𝜇 >1 =1−𝑃 𝑥−𝜇 ≤1 =1−2×𝑃 0≤𝑥−𝜇 ≤1
𝑥−𝜇
1
=1−2×𝑃 0≤
≤
= 1 − 2 × 𝑃 0 ≤ 𝑧 ≤ 1.43
0.7
0.7
= 1 − 2 × 0.4236 ≈ 0.15
• 問題4 (章末問題14) :
体重の増加をもたらす新しい餌をある種の鶏の母集団から無作
為にとった25羽の鶏に与えることにした.1ヶ月後の体重増の標
準偏差は約2オンスが期待されるとして,これらの鶏を新しい餌で
飼育するとき,1ヶ月後の25羽の体重の平均と全母集団の平均の
差が1/2オンス以上になる確率を求めよ.
答え:
体重増の確率変数をX, 平均をμ, 標準偏差を𝜎 = 2とする.
大きさ25の標本は十分大きいから,中心極限定理が使える.
2
𝜎
2 2
よって、 1ヶ月後の25羽の体重の平均 𝑥~𝑁 𝜇,
= 𝑁(𝜇, ( ) )
𝑛
5
X 
標準化 : Z 
𝑥−𝜇

𝑧=
~𝑁(0,1)
0.4
𝑃
1
1
1
=1−𝑃 𝑥−𝜇 ≤
=1−2×𝑃 0≤𝑥−𝜇 ≤
2
2
2
𝑥−𝜇
1
=1−2×𝑃 0≤
≤
= 1 − 2 × 𝑃 0 ≤ 𝑧 ≤ 1.25
0.4
0.8
= 1 − 2 × 0.3944 ≈ 0.21
𝑥−𝜇 >
• 問題5(章末問題15):
ある大学での過去5年間の男子新入生の体重の平均は154ポン
ドで,標準偏差は20ポンドである.今年の新入生登録名簿の中か
ら選んだ100人の学生の体重の平均が159ポンドであったとすれ
ば,今年の新入生の体重は例年の新入生の体重より重いといっ
てよいか.理由をつけて答えよ.
答え:
男子新入生の体重の確率変数をX, 平均をμ = 154,
標準偏差を𝜎 = 20とする.
大きさ100の標本は十分大きいから,中心極限定理が使える.
よって、選んだ100人の体重の平均
𝜎2
20 2
𝑥~𝑁 𝜇,
= 𝑁(154, ( ) )
𝑛
10
標準化 : Z 
X 

𝑥 − 154
𝑧=
~𝑁(0,1)
2
𝜎2
20 2
選んだ100人の体重の平均 𝑥~𝑁 𝜇,
= 𝑁(154, ( ) )
𝑛
10
𝑥 − 154
𝑧=
~𝑁(0,1)
2
理論的に、今年選んだ100人の体重の平均𝑥は例年の新入生
の体重の平均μ = 154ポンとを4.9ポンドを超える確率は、
𝑃 𝑥 − 154 > 4.9 = 0.5 − 𝑃 0 ≤ 𝑥 − 154 ≤ 4.9
𝑥 − 154 4.9
= 0.5 − 𝑃 0 ≤
≤
2
2
= 0.5 − 𝑃 0 ≤ 𝑧 ≤ 2.45
= 0.5 − 0.4929
= 0.0071
つまり、一般的には今年選んだ100人の体重の平均𝑥が例年の平
均を4.9ポンドを超える確率は極めて低い.
実際に、今年の体重の平均は例年の平均より5ポンド重くなって
いる.
それゆえ、重いように思われる.
本日の内容
• 統計的推定
– 点推定
– 区間推定
• 母集団平均𝜇の推定
• 近似
統計的推定:
標本調査と推測統計の概念図:平均の推定の場合
標本抽出
データ収集
x1
x2

xn
標本
集計
母集団
母集団の平均:μ
標本の平均:
x
2つの値は同じではない
推定:母集団の母数(平均値など)の値をいいあてること
推定量の性質
• 母数(parameter):母集団の確率分布を特徴づける特
性値.
– 正規分布における平均μと分散σ2
– 2項分布における試行数nと成功確率p
• 推定量(Estimator)
= 母数の推定に用いる標本統計量: x (標本平均)や s2 (標
本分散)など
1) 不偏性(Unbiasedness) … 持っていれば
好ましい性質(持たない重要推定量も多い)
推定量の期待値が母数になること。
1
E[ X ]  E 
n
n

i 1

Xi  

n
1

2
X i  X
E[S ]  E 

 n  1 i 1

2

 

2
2) 一致性(Consistency)
… 持っている必要がある性質
観測個数(標本サイズ) n ⇒ ∞
推定量 ⇒ 母数の一点に確率収束
例:大数の法則により
標本平均:母集団平均 μ に確率収束
標本分散:母集団分散 σ2 に確率収束
※理論母集団分布には、収束しないものもある。
3) 最小分散性、漸近的正規性など
良い推定量を調べる分野 … 推定理論
• 統計的推測
1.点推定と区間推定
– 標本から得られる情報を基に、母集団に関する結論を導
き出すこと
– 標本に関する結論を出すことが目的ではない!
• 母数を推定する方法は?
– 点推定(point estimate):
標本から計算される統計量を推定値とする(標本平均は母
集団平均の推定値) → 第6章で学習済み
 1つの数字での推定


一番もっともらしい数字を選ぶ
標準誤差等により推定精度を評価
Q) その母数推定精度はどのくらい?
A) 『標準誤差○○○』
– 区間推定(interval estimate) → 今日の学習
『母平均 μ は 95% の確からしさで、 標本平均値 ○○ ±○○○ の範囲
にある』と言った統計的推論の形式。
点推定の考え方

理論構築上は、最大尤度推定法が一般的
ただし、多くの場合直感的な推定方法である

基本:母集団での計算方法と同じ計算を標本で行う

母集団の平均𝝁を推定する場合は、標本について平均𝒙を
計算する
𝑛
注意:
1
𝟐
𝟐
(𝑥𝑖 − 𝑥)2
 分散𝝈 の推定の場合は、 𝑺 =
𝑛−1

𝑖=1

nで割る推定値も考えられるが、慣例としてn-1で割る分散
を用いることが多い。n-1で割る分散は、不偏な推定である。
区間推定
• 区間推定(interval estimate):母数(例えば,
μ)の点推定値(例えば,標本平均)のまわり
に「区間」を構成.
• 「この区間は,確率 α (例:0.95)で,母数を含
む」という言及を行う.
• この区間のことを信頼区間(confidence
interval)と呼ぶ.CI と略記される.
区間推定の利点
• 点推定と異なり,推定の精度を明示している.
• 点推定でも,標本の大きさ n によって,推定の精
度はわかる.
1
x の分散は 
n
2
中心極限定理
• しかし,ひとつの推定値を述べるだけの点推定
は,この精度について言及していない.
• 区間推定では,点推定で背後に隠れていた精度
情報を,積極的に活用する.
2.母集団平均の推定
例(テキストP.137):
ビタミンCの錠剤の生産者は、製造後自社製品の品質検査を
予定している。過去の経験から、与えられた仕切りでの錠剤のビ
タミンC含有量はほぼ正規分布に従うことが分かっていた。仕切り
のビタミンC平均含有量は仕切りごとに変化するが、標準偏差は
平均値に関係なくどの仕切りも大体一定で、その値は𝜎 = 20
であることも分かっていた。
仕切りのビタミンC平均含有量があまり低いとこの仕切りを売
るわけにはいかないから、仕切り平均の正確な推定値を得ること
は生産者にとって重要な問題である。
そこで新しい仕切りの平均含有量を推定するため、生産工程
から25個の錠剤の無作為標本をとって検査した結果、標本の平
均ビタミンC含有量として𝑥 = 260を得た。これらのデータと先ほ
ど得た情報を用いて、2種類の推定問題を解いてみよう。
• 仕切りとは、ほぼ同質な一定量の原材料を用い,同一の生産条件のもとで作ら
れた製品の集まりをさす.
問題1. x=260は仕切り平均uの点推定値としてどの程度正確で
あるか.
• 点推定値は標本平均
x  260
• 標準偏差20の正規分布からの,大きさ25の
標本だから,点推定値である標本平均の分
散は,
1
n

2

1
( 20 )
2
中心極限定理
25
• 標本平均の標準偏差は, 1
n
 
20
4
25
𝝈
標本平均の標準誤差(standard error) :平均値の標本分布の標
𝒏
準偏差のこと
問題2. 大きさ25の最初の標本に基づき𝜇の𝛼 =95%信頼区間を
求めよ.
• 標準正規分布𝑁(0,1)では,-1.96 から 1.96 の範囲にあ
る値が出現する確率は0.95である.
 標準正規分布表(テキストp.295)で,𝑧0 =1.96 の数値を読む
と,0.4750
 𝑃(−𝑧0 ≤ 𝑍 ≤ 𝑧0 )=P{-1.96≦Z≦+1.96} = 0.4750 × 2 = 0.95
𝛼 =95%の確率で
-3
-2
−𝑧0 =-1.96
-1
0
1
2
3
𝑧0 =1.96
信頼限界(confidence limit):信頼区間の
上限(−𝑧0 )および下限値(𝑧0 )のこと.
𝛼:信頼水準
問題2. 大きさ25の最初の標本に基づき𝜇の𝛼 =95%信頼区間を
求めよ.
数式による導出
 X 

P Z ≦ zo   P 
≦ zo 
  
 / n


標準化された分布

n
 P  z  / n ≦   X ≦ z  / n 
 P X  z  / n ≦  ≦ X  z  / n 
 P   X ≦ z o /
o
o
o
o
=𝛼
正規分布では,「平均±𝑧0 ×標準誤差」の範囲にある値
が出現する確率は𝛼である.
母集団平均の推定
定理:
母集団平均 μ の信頼水準𝜶の信頼区間
(母集団分散は既知の場合)は
𝝈
𝝁 = 𝒙 ± 𝒛𝟎
𝒏
ここで、
𝛼確率で
𝑥は標本平均
nは標本サイズ
𝜎は母集団の標準偏差
−𝑧0
[−𝑧0 , 𝑧0 ]は標準正規分布の中央𝜶区間
-3
-2
-1
0
1
2
𝑧0
3
問題2. 大きさ25の最初の標本に基づき𝜇の𝛼 =95%信頼区間を
求めよ.
• ひとつの標本から得られた標本平均の周りに,
𝝈
同じ幅(±1.96× )の区間を構成すれば,こ
𝒏
の区間が真の平均を含む確率は 0.95 である.
つまり、
𝝈
𝝈
𝑃(𝒙 − 𝒛𝟎
≤ 𝝁 ≤ 𝒙 + 𝒛𝟎
)
𝒏
𝒏
 P { x  1 . 96  4    x  1 . 96  4}
 P { 260  1 . 96  4    260  1 . 96  4}
 0 . 95
𝜇の𝛼 =95%信頼区間は[252, 268]である.
母集団平均の信頼区間の公式
90%確率のとき、𝑧0 = 1.645
95%確率のとき、𝑧0 = 1.96
99%確率のとき、𝑧0 = 2.58
公式1
信頼水準90%信頼区間 x  1 . 645

n
公式2
信頼水準95%信頼区間 x  1 . 96

n
公式3
信頼水準99%信頼区間 x  2 . 58 
n
• 信頼区間を大きくすれば「はずれ」の確率は小さくなるが,大きすぎ
る信頼区間は意味がない.n を大きくすると区間を小さくできる
例
小学6年生の身長の分布:
過去の経験から σ = 7 cm。
n = 25 人 の標本を取り、
標本平均 146 cm が得られた。
a) μ に関する 95% 信頼区間、
b) μ に関する 90% 信頼区間を求めよ。
a) 中央 95% ( β = 0.95 )
⇒ 標準正規分布上の点: zo ≒ 1.96
μ に関する 95%信頼区間
  x  zo

 146  1 . 96
n
7
 146  2 . 744 ( cm )
25
b) 中央 90% ( β = 0.9 ) ⇒ zo ≒ 1.645
μ に関する 90%信頼区間
  x  zo

n
 146  1 . 645
7
25
 146  2 . 303 ( cm )
3.近似
• 確率変数 X の母集団分布が正規分布でなくても,
標本の大きさが大きい場合(目安として,25以上)に
は,まったく同じ方法を使うことができる.
– 標本平均の分布は(近似的に)正規分布であるため.
母集団分散が未知の場合
• ここまでの説明で,母集団分散は既知だった.
– よって,信頼区間を具体的に計算できた.
• しかし,実際には母集団分散は未知の場合
がほとんどのはず.どうするのか?
• 大標本法(large sample method):標本の大き
さが大きい場合(目安として,25以上)には,標本で
の標準偏差 s は母集団の標準偏差 σ とあまり変わ
らないはず.代用する.
s

95%の確率で

x  1 . 96
1
n 1

( xi  x )
   x  1 . 96
n
2

n
 は未知なので、標本から計算される標準偏差 s で置
き換える
x  1 . 96
s
n
   x  1 . 96
s
n
• 例(テキストP.143):
ある学校で100人の生徒の無作為標本が選ばれ, これら生
徒の知能指数を決める知能テストが行われた.テストの結果
100人の生徒の知能指数が決まり,それから標本値
𝑥 = 112, 𝑠 = 11
が求められた.これらの標本値を基にして,この学校の全生徒
の平均知能指数に対する95%信頼区間を求めよ.
答え:
従って、
全生徒の分散が未知、且つ、標本のサイズは25以上
であることから、 大標本法 を使える.
x  1 . 96
s
   x  1 . 96
n
95%信頼区間は 109.8 ≤ 𝜇 ≤ 114.2
s
n
スチューデントの t 分布
• 標本の大きさが小さい(目安として,25に満た
ない)場合はどうするのか?
• 母集団が正規分布であれば,正規分布を利
用した区間推定のかわりに,スチューデント
の t 分布(Student’s t distribution)を用いた区
間推定を行うことができる.
– t 分布は,正規分布から抽出された標本から計
算される,t 統計量の分布である.
• この分布を用いた区間推定は次週の講義で.
• 定義式は,標本平均の標準化の公式におい
て,σ を s にかえたもの.
t
x
n
s
• スチューデントの t 分布:正規分布に従う母集
団から標本をとってt 値を計算することを何度
も繰り返したときの,t 値の分布.
用語についてのまとめ
𝜎
• 標本平均の標準誤差(standard error): 𝑛
平均値の標本分布の標準偏差のこと.
• 推定値の誤差(error of estimate): 𝜇 − 𝑥
標本平均と母平均の差の大きさのこと.
• 信頼限界(confidence limit): [−𝑧0 , 𝑧0 ]
信頼区間の上限および下限値のこと.
• 信頼水準(confidence level): 𝛼
関係:
𝜎
𝜎
𝑃 𝑥 − 𝑧0
≤ 𝜇 ≤ 𝑥 + 𝑧0
=𝛼
𝑛
𝑛
本日のまとめ
• 統計的推定
– 点推定 (標本平均𝑥と標準誤差
𝜎
)
𝑛
– 区間推定 (信頼水準𝛼と信頼区間[−𝑧0 , 𝑧0 ])
• 母集団平均𝜇の推定
理論的には
95%の確率で
x  1. 96


   x  1. 96
n
n
実際の計算では(大標本法)
信頼水準95%の信頼区間
x  1. 96
s
n
   x  1. 96
s
n
s
2

1
n 1
 ( xi  x )
2
演習問題
• 問題1
過去の経験によれば,小学校5年生の身長の標準偏差は2イ
ンチであるという.25人の5年生の無作為標本をとってその
身長を測定するとき,実験の結果から,𝑥 = 54インチが得ら
れたとして,
(a)母集団平均𝜇に対する95%信頼区間,
(b)𝜇に対する90%信頼区間をもとめよ.
• 問題2
大きさ100の標本から、𝑥 = 40, 𝑠 = 6を得たとき,どれくらい
の確率で、𝑥が真の平均値より1単位以上違うことはないと
保障できるか.
演習問題
• 問題3
ある型の自動車の走行距離を推定するため,その型の車30
台を標本に選び,1台ずつテストを行った.30台の走行距離
の平均と標準偏差がそれぞれ19.6マイルと0.7マイルになっ
たとして,この型の車の平均走行距離に対する90%信頼区
間を求めよ.
注意点:
1.詳細な答えをレポート用紙に書いてください。結果だけは不可。
2.レポートに表紙を付けてください
名前と学籍番号をご記入のうえ、レポート用紙(A4)を提出する。
提出先:工学部大学院棟7階
締め切り時間:
NO.7708室のドアのポストに入れてください
来週月曜日(6月29日) 午後5時まで