Transcript URL
富山大学知能情報工学科
「統計学」第10回
ホーエル『初等統計学』
第7章4節~5節 推定(2)
高 尚策 (コウ ショウサク) 准教授
Email: [email protected]
1
まずは復習から
かま学
らたん
ず説で
や(時
。よに
ろこ
これ
ばを
し習
)う
。
不学
亦而
説時
乎習
之
2
母集団
標本
標本抽出
母数
母平均、母分散
標本データの分析
(記述統計学)
母集団における状態
の推測(推測統計学)
標本統計量
(平均値、分散、相関係数など)
3
●標本統計量は分布する
母集団
標本5
標本1
標本平均5
標本4
標本平均4
標本3
標本平均3
標本2
標本平均1
標本平均2
標本平均1≠標本平均2≠標本平均3≠標本平均4≠標本平均5
標本平均の分布は?
4
標本平均の分布は?
中心極限定理
正規分布 !!
中心極限定理(central limit theorem): 確率
変数 X が平均 μ,分散 σ2 のある分布に従う
ならば,大きさ n の無作為標本に基づく標本
平均は,n が無限に大きくなるとき,
平均 :
分散:
1
2
n
の正規分布に従う.
母集団分布は
なんでもよい!
5
標
本
母
集
団
推定
標本統計量
母数
• 統計的推定
𝜎
𝑛
– 点推定 (標本平均𝑥と標準誤差 )
– 区間推定 (信頼水準𝛼と信頼区間[−𝑧0 , 𝑧0 ])
• 母集団平均𝜇の推定
理論的には
95%の確率で
x 1. 96
x 1. 96
n
n
実際の計算では(大標本法)
信頼水準95%の信頼区間
x 1. 96
s
n
x 1. 96
s
n
s
2
1
n 1
( xi x )
2
6
母集団平均の信頼区間の公式
90%確率のとき、𝑧0 = 1.645
95%確率のとき、𝑧0 = 1.96
99%確率のとき、𝑧0 = 2.58
公式1
信頼水準90%信頼区間 x 1 . 645
n
公式2
信頼水準95%信頼区間 x 1 . 96
n
公式3
信頼水準99%信頼区間 x 2 . 58
n
• 信頼区間を大きくすれば「はずれ」の確率は小さくなるが,大きすぎ
る信頼区間は意味がない.n を大きくすると区間を小さくできる
7
前回の演習問題の答え
• 問題1
過去の経験によれば,小学校5年生の身長の標準偏差は2イ
ンチであるという.25人の5年生の無作為標本をとってその
身長を測定するとき,実験の結果から,𝑥 = 54インチが得ら
れたとして,
(a)母集団平均𝜇に対する95%信頼区間,
(b)𝜇に対する90%信頼区間をもとめよ.
答え:
公式2
問題文から、 𝜎 = 2インチ, 𝑛 = 25, 𝑥 = 54インチ
信頼水準95%信頼区間 x 1 . 96
53.2 ≤ 𝜇 ≤ 54.8
n
公式1
信頼水準90%信頼区間 x 1 . 645
n
53.3 ≤ 𝜇 ≤ 54.7
8
• 問題2
大きさ100の標本から 𝑥 = 40, 𝑠 = 6を得たとき、どれくらい
の確率で、𝑥が真の平均値より1単位以上違うことはないと
保障できるか.
答え:
真の平均値を𝜇とする.
標本の大きさは100だから、標本の標準偏差𝑠は母集団の標
準偏差𝜎とあまり変わらないので、代入できる.(大標本法)
中心極限定理
𝜎 2 近似
𝑠2
𝑥~𝑁(𝜇, ) ≈ 𝑁(𝜇, )
𝑛
𝑛
標準化
𝑥−𝜇
𝑧=
~𝑁(0,1)
𝑠/ 𝑛
−1 𝑥 − 𝜇
1
𝑃 𝑥 − 𝜇 ≤ 1 = 𝑃 −1 ≤ 𝑥 − 𝜇 ≤ 1 = 𝑃 𝑠 ≤ 𝑠 ≤ 𝑠
𝑛
𝑛
𝑛
−1
1
1
=𝑃 𝑠 ≤𝑧 ≤ 𝑠 =2×𝑃 0≤𝑧 ≤
6
𝑛
𝑛
10
= 2 × 𝑃 0 ≤ 𝑧 ≤ 1.67 = 2 × 0.4525 ≈ 0.9
9
表IV:標準正規分布の面積(P.295)
P{0≦Z≦z}
• 表の中の数字はz=0からzの正値までの曲線下の部分の面積である.
• zの負値に対する面積は対称性を利用して求めばよい.
10
• 問題3
ある型の自動車の走行距離を推定するため,その型の車30
台を標本に選び,1台ずつテストを行った.30台の走行距離
の平均と標準偏差がそれぞれ19.6マイルと0.7マイルになっ
たとして,この型の車の平均走行距離に対する90%信頼区
間を求めよ.
答え:
問題文から、 𝑛 = 30, 𝑥 = 19.6マイル, 𝑠 = 0.7マイル
標本の大きさは30(> 25)だから,大標本法が使える.𝜎 ≈ 𝑠
公式1
信頼水準90%信頼区間 x 1 . 645
n
近似
𝑠
0.7
信頼区間 𝑥 ± 1.645
= 19.6 ± 1.645
𝑛
30
この型の車の平均走行距離に
19.4 ≤ 𝜇 ≤ 19.8
対する90%信頼区間は:
11
推定のとき
モデル分布の決定~z分布か、t分布か~
1.母標準偏差が既知(演習問題1)→
z 分布(標準正規分布)
2.母標準偏差が未知
a.標本サイズが大 (目安はn≧25 )
(演習問題2,3) → z 分布(近似)
b.標本サイズが小 → t 分布
本日の内容
• スチューデントのt分布
– 自由度調整済み分散
– t分布の定義
– t分布の特徴と性質
– t分布表の使い方
– 母平均 μ の信頼区間(小標本法)
• 割合pの推定
13
「スチューデント」とは?
• ゴセット(William Sealy Gosset)のペンネーム.
オックスフォード大学で数学と化学の学位を取得.
• ギネスビール社は,新しい科学技術導入を目指
し,化学を専攻した学生を採用.ゴセットはその
1人(1899年採用).
• ギネス社は機密保持のため論文発表を禁止.
• そのため,Student のペンネームを使用.
• t 分布に関する論文 The probable error of the
mean は,1908年,Biometrica 誌に発表された.
参考:『統計学を拓いた異才たち』(日本経済新聞社)
14
t分布の意味: 標準偏差の置き換え
未知であるのに、
の値が既知であることが実際に殆どない。
そこで母集団標準偏差 を標本の標準偏差Sでおき
かえることを考えよう。
標本(経験分布)
母集団平均:μ
母集団分散:σ2
無作為
抽出
標本平均:x
標本分散:s2
母集団(確率分布)
15
自由度調整済み分散
• 母集団の分布は正規分布であるとする。標
本分散の実現する前の統計量を
U
2
1
n
(x
n
i
x)
2
i 1
とし、その自由度調整済み分散
s
2
1
n
(x
n 1
i 1
x)
2
i
nU
2
n 1
自由度
• 自由度の定義はいくつかあるが,理解するこ
とは少し難しい.
例:自由に動ける変数の数
• t 分布では,背後にχ2(カイ2乗)分布と呼ばれ
る分布がかくれており,このχ2分布の自由度
が受け継がれている.
もっと学習するには,例えば,『統計学入門』(東
京大学出版会)p.198-203 ,永田靖『統計的方法
のしくみ』(日科技連)第23章を参照のこと.
17
自由度とは「自由に動ける偏差の数」
• 統計の分野では、独立に採取された観測データ数がn個ある場合、
このデータ群は n自由度であると表現する。
「独立に」という意味は、どの観測値も他の観測値から正確に値を
決められない状態という意味です。
• 【例えば】 観測データの中にズルをしてデータを取らず、他のいく
つかのデータから計算式で算出したものがあった場合、その観測
データは他のデータから正確に値が決められる。この算出式の存
在によって、自由度がひとつ減少してしまった。ですから1自由度
が減って、このデータ群の自由度は(n-1)であるということにな
ります。
xi
xi x
158
-7.2
161 162
-4.2 -3.2
n
(x
i 1
i
x) 0
自由度:
170
4.8
175
9.8
Σ
m n 1
0
U 2 と𝑠 2 の区別
• 𝑈 2 も標本分散であるが、不偏推定量でない標本
分散である。nが小さい(25以下)とき、母集団分
散𝜎 2 の過小評価が起きる。
• 𝑠 2 は不偏標本推定量。
• n個の偏差のうち任意のn-1を与えると、残りの1
個が正確に値が決められる( 𝑛𝑖=1 𝑥 − 𝑥 = 0).
• 偏差の自由度はn-1となる。
19
t分布の定義
• スチューデントの t 統計量(Student’s t-statistic):
標本平均の標準化の公式において,σ を s にか
えたもの.
𝑥−𝜇
𝑇𝑚 =
𝑛
𝑠
•
•
•
•
この𝑇𝑚 は確率変数であり、t 統計量を定義する.
その確率分布は、自由度m=n-1のt分布という.
ここでの自由度は,標本の大きさより1小さい値.
t分布は正規分布に従う母集団から標本をとってt
値を計算することを何度も繰り返すことをイメージ
20
t分布の密度関数と特性値
• 密度関数
f ( t ) c (1
t
2
m
• 特性値
E (T m ) 0
V (T m )
m
m2
)
( m 1) / 2
t 分布と標準正規分布
t 分布の形は自由度
(n-1)で決まる.
n が大きければ,σ≒s
なので,標準正規分布と
ほぼ重なる.
s に含まれる誤差のため,正規分布より少し裾が広い.
22
T分布の特徴と性質
• T分布は標準正規分布の“代用品”.
• 密度関数はx=0について対称である.
• T分布の形は標本の大きさnに依存し、
未知の母集団パラメータには一切依存しない.
• 分布の形は自由度さえ与えれば一意的に決
まる.
• 標本nが大きくなるにつれて、標準正規分布
に近づく。自由度mが25を超えると、ほぼ標
準正規分布で考えてよい.
スチューデントの t 分布を利用した
母平均の区間推定(小標本法)
• t 分布を利用した区間推定の公式は,大標本
で正規分布を利用した場合とほとんど同じ.
x t0
s
n
x t0
s
n
t0 の値は自由度によって異なる.
t0 の値はt分布表により求められる.
24
t分布表(テキストP.296)の使い方
面積=P{t≧2.145}=0.025
確率密度関数
t
X
n
s
t 分布表の一部(テキストp.296)
確率P
0.10
0.05
0.025
1
3.078
6.314
12.706
・・・
・・・
・・・
・・・
14
1.345
1.761
2.145
自由度ν
n =15 (自由度=14)で,95%信頼区間を構成する場合,t0 = 2.145
25
P{t≧2.145}=0.025
t
X
n
s
P{t≦-2.145}=0.025
P{-2.145≦t≦2.145}=0.95
n =15 (自由度=14)で,95%信頼区間を構成する場合,t0 = 2.145
26
自由度14の t 分布を利用した
母平均の95%信頼区間
P { 2 . 145 t 2 . 145 } 0 . 95
X
P { 2 . 145
n 2 . 145 } 0 . 95
s
P { 2 . 145
s
X 2 . 145
n
P { X 2 . 145
s
} 0 . 95
n
s
n
X 2 . 145
s
} 0 . 95
n
27
n =8 (自由度=7)で,95%信頼区間を構成する場合,t0 = 2.3646
自
由
度
1
2
3
4
5
6
7
8
t 0.2
t 0.1
t 0.05
t 0.025
1.3764
1.0607
0.9785
0.9410
0.9195
0.9057
0.8960
0.8889
3.0777
1.8856
1.6377
1.5332
1.4759
1.4398
1.4149
1.3968
6.3137
2.9200
2.3534
2.1318
2.0150
1.9432
1.8946
1.8595
12.7062
4.3027
3.1824
2.7765
2.5706
2.4469
2.3646
2.3060
t 0.01
31.8210
6.9645
4.5407
3.7469
3.3649
3.1427
2.9979
2.8965
t 0.005
63.6559
9.9250
5.8408
4.6041
4.0321
3.7074
3.4995
3.3554
α
t
①T.DIST(a,m,1)
Excelの関数を利用する方法
②
b
①T.DIST(a,m,1) → 自 由 度 mの
t分布においてその値がa以上の確
率を求める
②T.INV.2T(b,m) → 自由度mの
t分布においてその上側確率がbと
なる値を求める
①
a
② T.INV.2T(b,m)
小標本法の構成方法
• 母平均を確率 1-α で含む,100(1-α)%信頼区間を構成したい
(例:α=0.05のとき,95%信頼区間).標本の大きさは n (自由度
ν = n-1)
• t 分布表(p.296)で,自由度 ν(ニュー),確率 P = α/2 に対応す
る数値を読み取る.
エクセルでは T.INV.2T(α, ν) と入力.
• 読み取った値を t0 とすると,信頼区間は,
x t0
注意点:
s
n
x t0
s
n
t分布に基づく小標本法は精密な方法であるから,𝜎が未知の場
合にはいつでもこの方法を利用したいと思うかもしれない.
しかし残念なことに,t分布を根拠づけている理論では,元の変数xが
正規分布に従うという保証がない限り,t分布を使うことは正確な方
法ではない.
29
小学6年生の身長の分布は正規分布に従う:
n = 25 人 の標本
標本平均 146 cm
標本標準偏差 7 cm が得られた。
μ に関する 95% 信頼区間を
大標本法と小標本法によって求めよ。
大標本法) 標準正規分布 95%点 zo ≒ 1.96
μ に関する 95%信頼区間
例1
x zo
s
146 1 . 96
n
7
146 2 . 744 ( cm )
25
小標本法) 自由度 n - 1 の t 分布 95%点 to ≒ 2.064
μ に関する 95%信頼区間
x to
s
n
146 2 . 064
7
146 2 . 8896 ( cm )
25
30
割合 p の推定
母集団(確率分布)
母数
(parameter):
母集団の確率
分布を特徴づ
ける特性値
標本(経験分布)
無作為
抽出
標本割合𝑝
母数:2項分布における試行数
nと成功確率p
2項分布において成功確率pが「割合」とも呼ばれている.
31
2項分布の復習
例:内閣支持率
視聴率など
• 2項分布の正規近似(第5章,第6章)
• サイズ n の無作為標本 {Y1, Y2, …, Yn}
標本合計 x Y 1 Y 2 Y n
試行回数 n 成功の確率 p の二項分布
E [ x ] np , V [ x ] npq
標本割合(平均)
ˆ x / n (Y 1 Y 2 Y n ) / n
p
ˆ ] p, V [ p
ˆ]
E[ p
pq
n
• 標本割合𝑝は母集団割合 p の不偏推定量
32
割合 p の推定
• 中心極限定理:
𝑝=
𝑥
~
𝑛
𝑝𝑞
𝑁(𝑝, )
𝑛
• 標本割合 𝑝=X/n を標準化すると,
Z
pˆ p
pq
𝑍~ 𝑁(0,1)
n
P { 1 . 96 Z 1 . 96 } 0 . 95
33
割合 p の推定
• 母集団での割合 p の95 %信頼区間
pˆ 1 . 96
pq
n
p pˆ 1 . 96
pq
n
• 標本分布の標準偏差の中にある未知母数 p
はどうするのか?
標本割合 X/n でおきかえ(大標本法)
母数 p を使わずにすむ方法もある(章末問題23)
34
例2
NO
YES
全有権者→ 無作為に千人
内閣支持率 48%
全有権者の内閣支持率 p
に関する 95%信頼区間
正規近似法
中央 95% (0.95信頼区間) 標準正規分布右端値:
𝑝 = 𝑝 ± 𝑧0
zo = 1.96
𝑝𝑞
𝑝(1 − 𝑝)
= 𝑝 ± 𝑧0
𝑛
𝑛
𝑝(1 − 𝑝)
0.48(1 − 0.48)
= 𝑝 ± 𝑧0
= 0.48 ± 1.96
𝑛
1000
= 0.48 ± 0.031
大標本法
p の95%信頼区間は [ 0.4490, 0.5110 ] ≈[ 45%, 51% ]
標本の大きさの決定
• 推定値の誤差: | pˆ p |
• 推定値の誤差が e を超えないようにするために
必要な標本の大きさ(95%信頼区間の場合)は,
以下の式で計算できる.
1 . 96
pq
n
2
e n
(1 . 96 ) pq
e
2
𝑧𝑜 2
一般的に、 𝑛 = 𝑝(1 − 𝑝)( 𝑒 )
p は標本割合 X/n でおきかえ.
36
例2
NO
YES
全有権者→ 無作為に千人
内閣支持率 48%
「95%信頼区間:推定値 ± 1%」
となる標本サイズ n
zo
n pˆ (1 pˆ )
e
2
pˆ 0 . 48 , 95 % 信頼区間 z o 1 . 96 , e 0 . 01
2
1 . 96
n 0 . 48 ( 1 0 . 48 )
9588 . 634
0 . 01
n = 9589人の調査が必要
新内閣発足, 内閣支持率 p
「95%信頼区間:推定値±2%」
となる標本サイズ n
例3
NO
YES
zo
n pˆ (1 pˆ )
e
最大値 0≦ pˆ ≦1
2
1
1
ˆp の時
2
4
2
1 1 . 96
n
2401
4 0 . 02
人の調査が必要
標本をとる前なら,p = 1/2 としておく.そのとき n が最大になるか
ら,実際の p が何であれ十分な n となる.(テキストp.146 例参照)
本日のまとめ
• スチューデントのt分布
– 自由度調整済み分散
― t分布の定義
– t分布の特徴と性質
―t分布表の使い方
– 母平均 μ の信頼区間(小標本法)
𝑠
𝑥 ± 𝑡0
𝑛
• 割合pの推定
α
t
– 母集団での割合 p の信頼区間
𝑝 ± 𝑧0
– 標本の大きさの決定
𝑝(1 − 𝑝)
𝑛
90%確率のとき、𝑧0 = 1.645
95%確率のとき、𝑧0 = 1.96
99%確率のとき、𝑧0 = 2.58
𝑧𝑜 2
𝑛 = 𝑝(1 − 𝑝)( )
𝑒
39
演習問題
• 問題1(章末問題30)
次のデータは1972年春刊行の医学雑誌New England Journal
of Medicineで,数人の医師が報告した論文から引用したもので
ある.
この研究は,55人の非喫煙者,31人のパイプまたは葉巻きの
常用者,および401人の紙巻きタバコの常用者のそれぞれにつ
いて,各人の肺気腫の程度を調べたもので,被験者はすべて60
歳未満の人々である.60歳以上の喫煙者は別の研究で取り上
げられた.
次の表の階級の区分の仕方は,元の論文のものとは少し
違っている.
40
肺気腫
の程度
非喫煙
者
パイプま
たは葉
巻きの
常用者
0–1
53
1–2
2
紙巻きタバコの常用者
<1
1-2
>2
18
15
2
0
11
13
24
5
2–3
1
19
130
56
3–4
1
17
50
38
4
8
7
5–7
4
5
7–9
3
1
221
112
4–5
計
55
31
68
41
演習問題
xを肺気腫の程度を測る変数とし,各階級値は𝑥1 = 0.5, 𝑥2 =
1.5, 𝑥3 = 2.5, 𝑥4 = 3.5, 𝑥5 = 4.5, 𝑥6 = 6.0, 𝑥7 = 8.0とする.
(a)紙巻きタバコ常用者グループの各データを1つの表にま
とめた上で,このグループのxの平均と標準偏差を求めよ.
(b)(a)で求めた結果を用いて,紙巻きタバコ常用者に対する
xの母集団平均の95%信頼区間を求めよ.
(c)非喫煙者グループ,パイプまたは葉巻きの常用者グルー
プそれぞれの平均を計算して,それが(b)で求めた信頼区間に
含まれるかどうかを調べよ.
42
• 問題2(章末問題31)
次のデータは,ルーテル医科大学精神科の3人の教授が
1974年2月刊行の医学雑誌Archives of General Psychiatryに発
表した研究報告からの引用で,これはゼネラル・モーターズの工
場で働いている自動車労働者の仕事に対する満足度を調べた
ものである.
あなたは自
分の仕事に 現在,患者で
あるもの
満足していま
すか?
以前,患者で
あったもの
“病的”であ “健康”であ
ると分類され ると分類され
たもの
たもの
満足と答えた
人の数
13
19
90
463
標本の大きさ
17
26
95
481
%
76
73
95
96
43
演習問題
この表の2つの“患者”グループはジョンズ・ホプキンス病院
にある米国自動車労働組合診療所で発見または診断された労
働者からなる.残りの労働者は,精神の健康状態をはかるのに
使われる“マクミラン指数”によって,“病的”グループと“健康”グ
ループに分類されている.
(a)健康な労働者で仕事に満足しているものの割合に対す
る95%信頼区間を求めよ.
(b)病的な労働者で仕事に満足しているものの割合に対す
る90%信頼区間を求めよ.
(c)労働者が診療所の患者でなかったとして,このデータから,
仕事に対する労働者の満足度はその精神の健康状態に無関
係であるといえるか.
44
注意点:
1.詳細な答えをレポート用紙に書いてください。結果だけは不可。
2.レポートに表紙を付けてください
名前と学籍番号をご記入のうえ、レポート用紙(A4)を提出する。
提出先:工学部大学院棟7階
締め切り時間:
NO.7708室のドアのポストに入れてください
来週月曜日(7月6日) 午後5時まで
尚、講義用パワーポイントは
http://www3.u-toyama.ac.jp/tanglab/content51/content51.html か ら ダ ウ ン
ロードできる。(ダウンロードパスワードは“2015SS” です)
45