数理統計学(第五回）統計的推測とは？

Transcript 数理統計学(第五回）統計的推測とは？

数理統計学(第五回）
統計的推測とは？
浜田知久馬
数理統計学第５回
1
確率分布
数理統計学で確率分布を勉強．
確率分布は便利
確率分布がわかれば,様々な事象を確率的に
記述できる．（同時,周辺,条件付）
確率分布は母数によって定まる．
母数をどう求めればよいのか？
数理統計学第５回
2
推定の問題
• ある目的で,ある確率変数Yをｎ回観測し,
標本Y=(Y1, Y2,・・・, Yｎ)を得る.
・標本Yの分布はある分布族に属している.
「分布を規定する母数は未知である」
• 「標本Yの実現値ｙに基づいて未知母数の真
の値がいくらであるか評価,断定する問題を
「推定の問題」という.
数理統計学第５回
3
ダーウィンの植物の丈の
データ（単位インチ）
───────────────────────────────
Ｎｏ．自家受精
他家受精
Ｎｏ．自家受精
───────────────────────────────
1
17.375
23.5
9
16.5
2
20.375
12
10
18
3
20
21
11
18.25
4
20
22
12
18
5
18.375
19.125
13
12.75
6
18.625
21.5
14
15.5
7
18.625
22.125
15
18
8
15.25
20.375
───────────────────────────────
平均
17.708
20.192
標準偏差 2.024
3.617
数理統計学第５回
───────────────────────────────
他家受精
18.25
21.625
23.25
21
22.125
23
12
4
数理統計学第５回
5
母数推定の前提
自家受精群と他家受精群に別々の正規分布
をあてはめ
ｎ個（ｎ＝１５）の確率変数Ｙｉが互いに独
立に同一の正規分布にしたがう
Ｙ１ ,Ｙ２ ,Ｙ３ ,・・・，Ｙｎ～Ｎ（μ,σ２）
i.i.d.（independent identically
distributed）
数理統計学第５回
6
点推定
ある未知母数 b の真の値を推定したいという問
題を考える．
一つの答え方：
• 観測変数 Y の統計量 t(Y) を一つ用意
• 観測値がデータ y として得られたら，そのデータ
を代入して得られる関数値 t(y) が
「母数 b の真の値である」と断定
• このような方式を「（点）推定」estimation と言う，
•
数理統計学第５回
7
推定と推定量
•
推定に使う関数 t(Y) を「推定量」
estimator，データを代入して得られる値
t(y) を「推定値」 estimate という．
• 推定の問題において，数理統計学が問題
にすることは，どんなやり方が良いかである．
• どんな推定量が良い推定量？
数理統計学第５回
8
区間推定
• 別の答え方
• 2つの統計量tL(Y), tU(Y)を用意する.
• Yの実現値ｙを得たら,それを代入して得られ
る値tL(ｙ)～tU(ｙ)の範囲に真の値があるとする.
• このような形式を「区間推定」
interval estimationという.
数理統計学第５回
9
良い推定量の規準
• 良さを議論するには規準 criterion が必要
• 一つの視点：定性的，資格条件を限定し
ておいて，その中である規準量が最大（あ
るいは最小）となるものを良いものとする．
たとえば？
• 定性的条件：不偏性，線形性
• 定量的規準：分散最小性
• 不偏性とは？分散最小性とは？
数理統計学第５回
10
精度, 偏り，正確さ
不偏で精密
偏りあるけど精密
不偏だけど精密でない
偏りありかつ
精密でない
数理統計学第５回
11
点推定の良さの基準
• βの推定量ｂがあるとする.
• 推定量の良さの基準で最も一般的なのは平
均二乗誤差(Mean Square Error：MSE)
• MSE=E[(b－β)2]
= E[(b－β)2]＝ E[(b－Ｅ[b]－β＋Ｅ[b])2]
= E[(b－Ｅ[b])2]+ E[(Ｅ[b]－β)2]
+2(Ｅ[b]－β) E[b－Ｅ[b]]
数理統計学第５回
12
ＭＳＥ
MSE=E[(b－Ｅ[b])2]+ E[(Ｅ[b]－β)2]
Ｖ[b]
ｂｉａｓ
推定量の分散推定量の偏り
両方を同時に最適化できるか？
分散を0 → 常にｂ＝0
Ｖ[b]=0
数理統計学第５回
13
推定での方法論的課題
どんな推定量が良い推定量？
定性的条件,例えば
不偏性＝期待値が未知母数に一致
線形性＝推定量がYの線形式を
満たすものの中で
ある規準量,例えば分散を最小(最良,有効）にするもの
を良いとする⇒最良線形不偏推定量
数理統計学第５回
14
最良線形不偏推定量を求める方
法はあるか？
• 一般的な方法はない.
存在しないことも多い.
• 原理的に良い推定量を導きやすい原理は？
・最尤法
・最小2乗法
・モーメント法
数理統計学第５回
15
クラメル・ラオ(Cramer-Rao)の不等式

 d log f (Y ,  ) 
2
I  E[U ]  E 

d


2



 d log f (Y ,  ) 
 E 

2
d


2

V [ ]  1
I
数理統計学第５回
16
クラメル・ラオ(Cramer-Rao)の不等
式
不偏推定量の分散の下限についての不等式
(不偏推定量の分散はこれより小さくならない）
＾
θを不偏推定量とすると
＾
V[θ]≧1/I
I：フイッシャーの情報量(Fisher information)
2

 d log f (Y , )  
2
I  E[U ]  E 
 
d
 

等号が成り立つ場合は,不偏推定量の中で
分散が最小（有効）となる.
数理統計学第５回
17
証明にあたって利用すること
＾
1) 不偏推定量の定義 E[θ（Y)]=θ
2) 確率密度関数の和は１ ∫ｆ(ｙ,θ) ｄｙ=1
3) E[B]=0のとき, E[A・B]=Cov [A,B] ,V[B]= E[B2]
｛Cov [A,B] = E[A・B]－E[A] E[B]｝
4)
d log f ( y, )
1 df ( y, ) df ( y, )
d log f ( y, )


 f ( y,  )
d
f ( y, ) d
d
d
5）微分と積分の交換可能性
6） Cov [A,B]≦V[A] V[B]
相関係数の絶対値は１を越えない
数理統計学第５回
18
クラメル・ラオ(Cramer-Rao)の不等式

 を の不偏推定量とすると

  E  (Y )  



  (Y ) f ( y )dy
 

d    (Y ) f ( y ) dy 
d
 
1 
d
d

d log f ( y )
   (Y )
f ( y ) dy
d
d log f ( y ) 

 E  (Y )

d



df ( y )
  (Y ) d dy
不偏であるためにはθが1単位増加すれば期待値
も1増加する
19
数理統計学第５回
クラメル・ラオ(Cramer-Rao)の不等
式
積分と微分の交換可能性，傾きの期待値は0
θを動かしても確率密度の和は不変

f ( y ,  ) dy  1
d  f ( y ,  ) dy
df ( y ,  )
dy
d

d
d log f ( y ,  )
 
f ( y ,  ) dy
d
 d log f ( y ,  ) 
 E
 0なので，　
d


E[ B ]  0のとき， Cov[ A, B ]  E[ A, B ]
0
d log f ( y ) 
d log f ( y ) 


Cov (Y ), 
E

(
Y
)



d 数理統計学第５回
d



20
クラメル・ラオ(Cramer-Rao)の不等式
相関係数の絶対値は１を越えないので
d log f ( y ) 

    d log f ( y ) 
1  Cov (Y ),  V  (Y )  V 


d

d


 



2

 d log f ( y )  


 
 V  (Y )  E 
   V  (Y )  I
d

 


 

 d log f ( y ) 
  1
 V  (Y )   E 

d

 I


数理統計学第５回
2



1
21
クラメル・ラオ(Cramer-Rao)の不等式
不偏推定量θの分散が,
＾
V[θ]＝1/I
＾
を満たせば, θは
＾
一様最小分散不偏推定量
(Uniformly Minimum Variance Unbiased
estimator, UMVU)
である.
数理統計学第５回
22
2項分布の場合
Y
n
p  , E[ p ] 

n
n
 pはの不偏推定量
 (1   )
V [ p] 
n
y
n y
f ( y,  ) n C y  (1   )
d log f ( y,  )
U 
d
d logn C y  y log  (n  y ) log(1   )

数理統計学第５回
d


23
2項分布の場合

d logn C y  y log  ( n  y ) log(1   )

d
y n y
y (1   )  ( n  y )
y  n
 


 1
 (1   )
 (1   )
2


(
y

n

)
n (1   )
2
I  E[U ]  E  2
 2
2 
2
  (1   )   (1   )
n
1


V [ p]
 (1   )
数理統計学第５回
 pは UMVU
24
最尤法(Maximum Likelihood
method）
• 確率（密度）関数を未知母数の関数とみな
したものが,尤度(likelihood)
• 確率が最大の母数の値は,観測値Yの関数
これを未知母数の推定量とする.
• 最尤法,得られる推定量が最尤推定量
確率が最大になるように推定
(MLE：Maximum Likelihood Estimator)
数理統計学第５回
25
最小二乗法
• 観測変数Yの値と,モデルから予測される差
の2乗和を最小にする母数の値を推定量とす
る方法
Σ（Yi－β0－β1Xi）2
を最小にするようにβ0とβ1を推定
数理統計学第５回
26
最小2乗法の模式図
×
Y=β0+β1X
Ｙ
Ｘ
Ｘ
×
×
0
Ｘ数理統計学第５回
27
モーメント法
分布のモーメントを,次数の低い方から未知母数
の数ｐだけ求め,それを対応する標本モーメント
と等しいとおき,母数の推定量を構成する方法
を“モーメント法”(moment method)という
分布の期待値＝データの平均
E[X]＝μ ：Σｘi／N
分布の２次モーメント＝データの２乗和
E[X2]＝μ2 +σ2 ：Σｘi2／N
数理統計学第５回
28
用語
最尤原理（maximum likelihood principle）
最尤法（maximum likelihood method）
最尤推定量（maximum likelihood
estimator）
尤度（likelihood)
対数尤度(log likelihood)
Fisherの情報量（Fisher's information）
数理統計学第５回
29
尤度，最尤推定量，Fisherの情報量
尤度（likelihood) :尤（もっともらし）さの程度
を確率で評価した指標
最尤推定量:尤度が最大になるように母数
を推定する原理
Fisherの情報量：最尤推定量の推定精度を
測る指標
数理統計学第５回
30
最尤推定の例
コインを10回投げて7回表が出たとする.
このような事象が起きる確率は？
確率分布として
2項分布B(ｎ＝10,π）を仮定すると
ｐ＝10Cｙπｙ（1－π）10-ｙ
確率ｐは母数πの関数である.確率を母数の
関数と考えたのが尤度（L：likelihood)
確率関数：πを固定したｙの関数
尤度関数：ｙを固定したπの関数
数理統計学第５回
31
最らしいπは？
1
2
3
4
5
6
7
8
9
π
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
確率
0.00001
0.00079
0.00900
0.04247
0.11719
0.21499
0.26683
0.20133
0.05740
数理統計学第５回
32
尤度の計算プログラム
data q6;
do phi=0.10 to 0.90 by 0.02;
l=10*9*8/(3*2*1)*phi**7*(1-phi)**3;
output;end;
proc gplot;
plot l*phi/href=0.7;
symbol1 i=spline v=none h=4 w=4;
run;
数理統計学第５回
33
πの関数の尤度
数理統計学第５回
34
最尤推定
尤度(L）を最大にするように母数を求める.
尤度の最大化 ⇒ 対数尤度の最大化
母数空間の全てのπについてLを計算するか？
山の頂上では傾き0
対数尤度をπで微分して導関数を求め,
導関数が0になるπを求める.
数理統計学第５回
35
西遊記
ひたすら西を目指す．
数理統計学第５回
36
最尤法
ひたすら山の頂上を目指す．
数理統計学第５回
37
山の頂上にいるのは？
数理統計学第５回
38
最尤推定量の誘導１
L n C y  (1   )
y
n y
dL
0
d
y 1
n y
y
n  y 1
(1   )  (n  y ) (1   )
]
n C y [ y
 y (1   )  (n  y )  0  y  n  0

y

n
数理統計学第５回
39
最尤推定量の誘導２
L  n C y  (1   )
y
n y
log L  logn C y  y log  (n  y ) log(1   )
d log L y n  y
y  n
 

0
d
 1    (1   )

y

n
数理統計学第５回
40
コインを100回投げて70回表
が出たときの尤度
数理統計学第５回
41
演習問題ポアソン分布の推測
ポアソン分布の確率関数ｐ(ｘ)は，
ｐ(ｘ)＝λｘ・exp(－λ)／ｘ！
となる.λが母数であり，ｘは確率変数の実現値
で０、１、２・・・の値をとるものとする．
1)λ＝１のとき，Ｘが１以上の値をとる確率を
計算せよ．ヒントｅｘｐ（1)=2.718
2)お年玉付年賀状の当たり数がｘ＝5となった.
当たり数の分布にポアソン分布を仮定して，
このようなデータが得られた場合の尤度と対
数尤度を計算せよ．
3)対数尤度を，λで微分せよ．また１次微分関
数の値が0になるようにλを求めよ．
数理統計学第５回
42

数理統計学(第五回） 統計的推測とは？

Transcript 数理統計学(第五回） 統計的推測とは？

Directory

数理統計学(第五回）統計的推測とは？

Transcript 数理統計学(第五回）統計的推測とは？