5.いろいろな確率分布

Download Report

Transcript 5.いろいろな確率分布

5.いろいろな確率分布
•
•
•
•
•
χ2乗分布(chi-square distribution)
t - 分布(t distribution)
F 分布(F distribution)
2項分布(binominal distribution)
ポアソン分布(Poisson distribution
χ2
分布 (chi-square)
• 確率変数X1,X2,・・・・ Xn が互いに独立で同一の
正規分布 N(μ, σ) に従うとき、統計量
 
2
( X1  X )2  ( X 2  X )2  ........ ( X n  X )2

2
の分布は、自由度 n- 1 のχ2 分布に従う。
E( X )  n,
V ( X )  2n
• χ2 分布は母集団の分散の推定・検定に用いる。
χ2 分布
n
x
1 
2
2
1
f ( x)  n
x e
n
2
2   
 2
(0  x  )
E( X )  n,
V ( X )  2n
t – 分布(t distribution)
• 確率変数X1,X2,・・・・ Xn が互いに独立で同一の正規分布
N(μ, σ) に従うとき、
s
( X1  X ) 2  ( X 2  X ) 2  ...... ( X n  X ) 2
n 1
とおくとき、統計量
X 
t
s
n
の分布は自由度 n – 1 の t 分布に従う。
E( X )  0,
f ( x) 
n
V (X ) 
, n2
n2
 n 1 


 2 
2


n
x
 
n  1  
 2  n 
n1
2
t 分布は 母集団の平均の推定・検定に用いる。
自由度nが大きいと正規分布に近くなる
t – 分布(別の表現)
• 確率変数Xが N(0, σ) に従い、確率変数Yが自由
度n-1のχ2分布に従うとき、統計量
t
X
Y
n 1
の分布は自由度 n – 1 の t 分布に従う。
F分布(F distribution)
• 確率変数X, Yが独立で、各々自由度n1, n2 のχ2分
布に従うとき、統計量
X
n1
F ,
Y
n2
n2
E( X ) 
,
n2  2
2(n1  n2  2)n2 2
V (X ) 
n1 (n2  2)2 (n2  4)
は、自由度(n1, n2)のF分布に従う。
• F分布は2つの母集団の分散比の推定・検定のとき
に利用される。
ガンマ関数(Gamma function)
Gamma
function
m : integer 
(m  1)  m(m)  ....... m!
1
 n   n  2  n  4 
n : odd 
   

.......... 
2
 2   2  2 
1
 3 1
    ,
(1)  1,
  
,
(2)  1
 2
 2 2
 t x 1
( x)   e t dt
0
2項分布(binominal distribution)
• 確率pで存在する当たりくじから、復元抽出で
n個とりだしたとき、x個当たる確率。B(n,p)
X=0, 1, 2, …….,n
f(x)=nCx px (1-p) n-x
• E(X)=np, V(X)=np(1-p)
• B(n,p) は、n∞で、N(np, np(1-p)) となる。
ポアソン分布 (Poisson):rare probability
f ( x)  P( X  x) 
E( X )   ,

x
e

x!
V (X )  
• 2項分布において、npを一定値λに固定して、n→∞
としたものが ポアソン分布
めったに起こらない事象が起こる確率分布
λ=1だと、
P(X=x) = 0.36788/x!
例:馬に蹴られて死ぬ人数、交通事故死亡者数
6.統計的推定(statistical estimation)
母集団
Population
母数
Parameterθ
例:平均μ
ランダム抽出
推定
標本
Sample
推定値
Estimateθ*
例:Xbar
• 不偏推定値(unbiased estimate)
E(f(X1,X2,…….,Xn))=θ
となるf(X1, X2,…..Xn) を不偏推定量という。
不偏推定値(unbiased estimate)
*母平均(mean) μの不偏推定値(unbiased estimate)
x1  x2  ...... xN
x
N
*母分散σ2の不偏推定値(μ既知)

1
( x1   )2  ....... ( xn   )2
N

*母分散σ2の不偏推定値(μ未知)

1
2
2
( x1  x )  ....... ( xn  x )
N 1

区間推定
母分散(σ2)が未知で平均を推定
  s
  s
x  t N 1  
   x  t N 1  
2 N
2 N
1
2
here,
s 
( x1  x )2  ....... ( xN  x )2
N 1
s
S.E. 
標準誤差(standard error)
N
 
then,

x  t N 1    S.E.
2


もし、データ数
が21だったら、
自由度は20。
両側で5%危険
率で推定すると
する。
t(α)=2.086
標準誤差(SE)
を計算して、
誤差範囲は、
t(α)・SE
• 自由度10、95%信頼区間なら
X +- 2.228 S.E.
• 自由度60、95%信頼区間なら
X +- 2.000 S.E.
無限大なら 1.96 S.E.
母平均が未知な場合の母分散の推定
( N 1)s
( N 1)s
2
 

2  
2 
 N 1 
 N 11  
2
 2
2
2
7.統計的検定(statistical testing)
7.1 考え方(method)
•
帰無仮説H0  検定統計量  棄却
(裏に対立仮説)
nil hypothesis  statistical variable  reject
ランダムである。 = 確率は小さい
∴ ランダムではない! 有意水準
5%、1%の
危険率
7.2 母平均の検定
• 正規母集団 N(μ,σ) とする。
母分散が既知(σ2)、平均μ0(既知)
• 帰無仮説H0:母集団の平均μはμ0である。
対立仮説H1:母集団の平均μはμ0でない。
(本当は対立仮説を示したい)
• 検定統計量
T (x) 
x  0

,
0 .is.given
N
T ( x ) obeys N (0,1)
7.2 母平均の検定
• 正規母集団 N(μ,σ) とする。
母分散が未知、平均μ0(既知)
• 帰無仮説H0:母集団の平均μはμ0である。
対立仮説H1:母集団の平均μはμ0でない。
(本当は対立仮説を示したい)
• 検定統計量
x  0
T (x) 
,
s
N
2
0 .is.given
T ( x, s ) obeys t N 1 distribution
7.3 平均の差の検定
• 2つの正規母集団とす
る。
N(μ1,σ1), N(μ2,σ2)
μ1 とμ2 が違うことを
示したい。
T ( x1 , x2 ) 
x1  x2

2
1
N1
T ( x1 , x2 , s ) 

• σ1,σ2未知だが等しい。
obeys N (0,1)
N2
x1  x2
2
• σ1,σ2既知
2
2
 1
1 
  s 2
 N1 N2 
2
2
(
N

1
)
s

(
N

1
)
s
1
2
2
where, s 2  1
,
N1  N2  2
T obeys t N1  N2 2
x1  x2
T ( x1 , x2 , s , s2 ) 
2
1
2
1
where, s
2

x


 s12 s2 2 



N N 
2 
 1

2
 x1
,....
N1 1
1,i
T obeys tm ,
s

s
2



N N 
2 
m 1
2
1
2
2
4
4


s1
s2
 2
 2

 N1 ( N1 1) N2 ( N2 1) 
7.4 母相関係数の検定 - t 分布 ー
無相関が帰無仮説
大きさNの標本の相関係数が r のとき
T (r,0) 
r N 2
1 r
2
obeys t N 2
自 由 度
α=0.05
α=0.01
10
20
50
100
0.5760
0.4227
0.2732
0.1946
0.7079
0.5368
0.3541
0.2540
QBOの西風シアの5年
と東風シアの5年の1月
の帯状平均オゾン混合
比の差(実線)。
単位はppmv。
有意性で差が有意な領
域を影で示す。
影が90, 95, 99%で有意
な差。t検定
図2 1月の50 hPaにおけるオゾン混合比。等値線の単位はppmv。
(a)QBOの西風シアの5年平均。
(b)QBOの東風シアの5年平均。
(c)差(西風-東風)。
影は有意性を表し図1と同じ。
7.5 ノンパラメトリック検定
non-parametric test
• 母集団の分布の型に関する情報を仮定せずに検定
する手法。これまで述べた検定は母集団が正規分
布をすると仮定したが、その仮定を行わない。
• それぞれの検定の名前がある。
Wilcoxen’s rank sum test
ウィルコクスン検定
Wilcoxen’s rank sum test
• 2つの分布型は同じだが、位置がずれている。
これを検定する順位和検定。
グループG1
X11
X12
X13
……
X1N1
グループG2
X21
X22
X23
……..
X2N2
2つのグループの標本を1つにまとめて、Xij の小さ
いほうから順位を付けたときの順位を rij とする。
帰無仮説:2つのグループの分布の中央値は同じである。
• 検定量Wは
N1
W   r1i
(グループG1の順位の総和)
i 1
 r11  r12  ........ r1N1
(N1,N2)が小さいときは、ウィルコクスン検定
の数表で決める。
大きいときは、Wは以下の正規分布に近似さ
れることを使う。
 N1 N1  N2 1 N1N2 N1  N2  1 
N

2
,
12


• ウィルコクスン検定(中央値の差)
Wilcoxen’s test
• アンサリー・ブラッドレィ検定(分布の広がり)
Ansari-Bradley test
• ラページ検定(上記を同時に検定)
Lepage test
• モンテカルロ法(いろいろ場合によって統計量を考
える。サンプルを乱数で発生させ、確率を求める。コ
ンピュータ向き)
8.重回帰分析
(Multiple Regression Analysis)
• P個の説明変数 x1, x2,….,xp から目的変数y
を予測する。
y = f( x1, x2, … , xp) + e
• 線形重回帰モデル
Y = a0 + a1x1 + a2X2 + ….. + apxp + e
データ
目的
変数
説明変数
誤差
y
x1, x2, …………, xp
e
1
y1
x11, x21, ………, xp1
e1
2
y2
x12, x22, ………, xp2
e2
.
.
.
.
X35
.
.
変数番号
N
yn
データ
番号
.
.
.
.
.
.
x1n, x2n, …………, xpn
en
データ番号
• データのn組(n>=p+1)から最小2乗法により係数
の最良不偏推定値を求める。
ai : y の xi に関する偏回帰係数。
以下の仮定をおく
•
•
•
•
eαの期待値はゼロ:E[eα]=0: 不偏性
eαと eα’ は互いに独立:E[eαeα’]=0: 独立性
eαの分散はすべて等しい:E[eα2]=σ2: 等分散性
Eαは N(0, σ2) に従う。: 正規性
予測誤差の平方和を最小にするように、係数を求め
る。係数に関する連立方程式を正規方程式という。
分散・共分散行列
 s1,1 s1, 2

 s2,1 s2, 2
S 
.... ....

 s p,1 s p, 2

.....
.....
.....
.....
s1, p 

s2, p 
.... 

s p, p 
here,


1 n
s j ,k   x ji  x j xki  xk
n i 1
1 n
S yj   yi  y x ji  x j
n i 1

Sa  S y


a0  y  a1 x1  ..... ap xp

 s1,1 s1, 2

 s2,1 s2, 2
 .... ....

 s p,1 s p, 2


.....
.....
.....
.....

( j, k  1,2,.......p)

s1, p  a1   S y ,1 
  

s2, p  a2   S y , 2 




.... ...
... 
  

s p, p  a p   S y , p 
8.3 分散分析 -回帰の有意性
S yy    yi  y    yi  Yi  Yi  Y 
2
2
   yi  Yi    Yi  Y   2 ei Yi  Y 
2
2
  ei   Yi  Y   0
2
2
ST  Se  SR
全変動(分散)=残差変動 + 回帰による変動
重回帰の分散分析表
変動
自由度 平方和
分散
全体
n-1
Syy
VT=Syy/(n-1)
回帰
P
SR
VR=SR/p
残差
n-p-1
Se
Ve=Se/(n-p-1)
分散比 F
VR/Ve
F は a1=a2=….=0 の帰無仮説のもとで、自由度(p, n-p-1) の
F 分布となる。(全体として回帰式が意味があるかどうかの検定
となる)
8.4 重相関係数と決定係数
 y  y Y  Y 

R
 y  y  Y  Y 
 y  y Y  Y   y  Y  Y  Y Y  Y 
  e Y  Y    Y  Y 
 0   Y  Y 



Y Y  
Y Y  S


R 


 y  y  Y  Y   y  y  S
i
i
2
2
i
i
i
i
i
i
i
i
2
i
i
i
2
i
2 2
2
i
2
i
2
2
i
i
R
2
i
yy
Se
SR
R 
 1
S yy
S yy
R2 を寄与率または決定係数という
回帰で全分散が説明できる割合。
2


SR  R S yy , Se  1  R S yy
2
2
F検定が R2 の有意性
検定と一致。
R2
VR
p
2
F 
 F (R )
2
1 R
Ve
n  p 1
重回帰の注意点
(1) ai の値そのもので寄与
は決まらない。
(2) Xi と Xj に相関があると
き、注意。単回帰と符号
さえ変わる。