5．いろいろな確率分布

Transcript 5．いろいろな確率分布

５．いろいろな確率分布
•
•
•
•
•
χ２乗分布（chi-square distribution）
ｔ - 分布（t distribution）
F 分布（F distribution）
2項分布（binominal distribution）
ポアソン分布（Poisson distribution
χ２
分布 (chi-square)
• 確率変数Ｘ１，Ｘ２，・・・・Ｘｎが互いに独立で同一の
正規分布 N(μ, σ) に従うとき、統計量
 
2
( X1  X )2  ( X 2  X )2  ........ ( X n  X )2

2
の分布は、自由度 n－ 1 のχ２分布に従う。
E( X )  n,
V ( X )  2n
• χ２分布は母集団の分散の推定・検定に用いる。
χ２分布
n
x
1 
2
2
1
f ( x)  n
x e
n
2
2   
 2
(0  x  )
E( X )  n,
V ( X )  2n
ｔ – 分布(t distribution)
• 確率変数Ｘ１，Ｘ２，・・・・Ｘｎが互いに独立で同一の正規分布
N(μ, σ) に従うとき、
s
( X1  X ) 2  ( X 2  X ) 2  ...... ( X n  X ) 2
n 1
とおくとき、統計量
X 
t
s
n
の分布は自由度 n – 1 の t 分布に従う。
E( X )  0,
f ( x) 
n
V (X ) 
, n2
n2
 n 1 


 2 
2


n
x
 
n  1  
 2  n 
n1
2
t 分布は母集団の平均の推定・検定に用いる。
自由度ｎが大きいと正規分布に近くなる
ｔ – 分布（別の表現）
• 確率変数Ｘが N(0, σ) に従い、確率変数Ｙが自由
度n-1のχ２分布に従うとき、統計量
t
X
Y
n 1
の分布は自由度 n – 1 の t 分布に従う。
Ｆ分布(F distribution）
• 確率変数Ｘ, Yが独立で、各々自由度n1, n2 のχ２分
布に従うとき、統計量
X
n1
F ,
Y
n2
n2
E( X ) 
,
n2  2
2(n1  n2  2)n2 2
V (X ) 
n1 (n2  2)2 (n2  4)
は、自由度（n1, n2）のＦ分布に従う。
• Ｆ分布は２つの母集団の分散比の推定・検定のとき
に利用される。
ガンマ関数（Gamma function）
Gamma
function
m : integer 
(m  1)  m(m)  ....... m!
1
 n   n  2  n  4 
n : odd 
   

.......... 
2
 2   2  2 
1
 3 1
    ,
(1)  1,
  
,
(2)  1
 2
 2 2
 t x 1
( x)   e t dt
0
2項分布（binominal distribution）
• 確率ｐで存在する当たりくじから、復元抽出で
ｎ個とりだしたとき、ｘ個当たる確率。B(n,p)
Ｘ=0, 1, 2, …….,n
f(x)=nCx px (1-p) n-x
• E(X)=np, V(X)=np(1-p)
• B(n,p) は、n∞で、N(np, np(1-p)) となる。
ポアソン分布 (Poisson)：rare probability
f ( x)  P( X  x) 
E( X )   ,

x
e

x!
V (X )  
• 2項分布において、npを一定値λに固定して、ｎ→∞
としたものがポアソン分布
めったに起こらない事象が起こる確率分布
λ＝１だと、
Ｐ(X=x) = 0.36788/x!
例：馬に蹴られて死ぬ人数、交通事故死亡者数
６．統計的推定（statistical estimation）
母集団
Population
母数
Parameterθ
例：平均μ
ランダム抽出
推定
標本
Sample
推定値
Estimateθ*
例：Xbar
• 不偏推定値（unbiased estimate）
E(f(X1,X2,…….,Xn))=θ
となるf(X1, X2,…..Xn) を不偏推定量という。
不偏推定値（unbiased estimate）
＊母平均（mean) μの不偏推定値(unbiased estimate）
x1  x2  ...... xN
x
N
＊母分散σ２の不偏推定値（μ既知）

1
( x1   )2  ....... ( xn   )2
N

＊母分散σ２の不偏推定値（μ未知）

1
2
2
( x1  x )  ....... ( xn  x )
N 1

区間推定
母分散（σ２）が未知で平均を推定
  s
  s
x  t N 1  
   x  t N 1  
2 N
2 N
1
2
here,
s 
( x1  x )2  ....... ( xN  x )2
N 1
s
S.E. 
標準誤差（standard error）
N
 
then,

x  t N 1    S.E.
2


もし、データ数
が21だったら、
自由度は20。
両側で５％危険
率で推定すると
する。
t(α）＝２．０８６
標準誤差(SE)
を計算して、
誤差範囲は、
t(α)・ＳＥ
• 自由度10、95％信頼区間なら
Ｘ＋－ 2.228 S.E.
• 自由度60、95％信頼区間なら
Ｘ＋－ 2.000 S.E.
無限大なら 1.96 S.E.
母平均が未知な場合の母分散の推定
( N 1)s
( N 1)s
2
 

2  
2 
 N 1 
 N 11  
2
 2
2
2
７．統計的検定（statistical testing）
７．１考え方（method）
•
帰無仮説H0  検定統計量  棄却
（裏に対立仮説）
nil hypothesis  statistical variable  reject
ランダムである。＝ 確率は小さい
∴ ランダムではない！有意水準
５％、１％の
危険率
７．２母平均の検定
• 正規母集団 N(μ，σ) とする。
母分散が既知（σ2）、平均μ0（既知）
• 帰無仮説H0：母集団の平均μはμ0である。
対立仮説H1：母集団の平均μはμ0でない。
（本当は対立仮説を示したい）
• 検定統計量
T (x) 
x  0

,
0 .is.given
N
T ( x ) obeys N (0,1)
７．２母平均の検定
• 正規母集団 N(μ，σ) とする。
母分散が未知、平均μ0（既知）
• 帰無仮説H0：母集団の平均μはμ0である。
対立仮説H1：母集団の平均μはμ0でない。
（本当は対立仮説を示したい）
• 検定統計量
x  0
T (x) 
,
s
N
2
0 .is.given
T ( x, s ) obeys t N 1 distribution
７．３平均の差の検定
• ２つの正規母集団とす
る。
N(μ1,σ1), N(μ2,σ2)
μ1 とμ2 が違うことを
示したい。
T ( x1 , x2 ) 
x1  x2

2
1
N1
T ( x1 , x2 , s ) 

• σ1,σ2未知だが等しい。
obeys N (0,1)
N2
x1  x2
2
• σ1,σ2既知
2
2
 1
1 
  s 2
 N1 N2 
2
2
(
N

1
)
s

(
N

1
)
s
1
2
2
where, s 2  1
,
N1  N2  2
T obeys t N1  N2 2
x1  x2
T ( x1 , x2 , s , s2 ) 
2
1
2
1
where, s
2

x


 s12 s2 2 



N N 
2 
 1

2
 x1
,....
N1 1
1,i
T obeys tm ,
s

s
2



N N 
2 
m 1
2
1
2
2
4
4


s1
s2
 2
 2

 N1 ( N1 1) N2 ( N2 1) 
７．４母相関係数の検定－ t 分布ー
無相関が帰無仮説
大きさＮの標本の相関係数がｒのとき
T (r,0) 
r N 2
1 r
2
obeys t N 2
自由度
α＝0.05
α＝0.01
１０
２０
５０
１００
0.5760
0.4227
0.2732
0.1946
0.7079
0.5368
0.3541
0.2540
QBOの西風シアの5年
と東風シアの5年の1月
の帯状平均オゾン混合
比の差（実線）。
単位はppmv。
有意性で差が有意な領
域を影で示す。
影が90, 95, 99％で有意
な差。ｔ検定
図２ 1月の50 hPaにおけるオゾン混合比。等値線の単位はppmv。
（a）QBOの西風シアの5年平均。
（b）QBOの東風シアの5年平均。
（c）差（西風－東風）。
影は有意性を表し図１と同じ。
7.5 ノンパラメトリック検定
non-parametric test
• 母集団の分布の型に関する情報を仮定せずに検定
する手法。これまで述べた検定は母集団が正規分
布をすると仮定したが、その仮定を行わない。
• それぞれの検定の名前がある。
Wilcoxen’s rank sum test
ウィルコクスン検定
Wilcoxen’s rank sum test
• ２つの分布型は同じだが、位置がずれている。
これを検定する順位和検定。
グループG１
Ｘ１１
Ｘ１２
Ｘ１３
……
X1N1
グループG2
X21
X22
X23
……..
X2N2
２つのグループの標本を１つにまとめて、Xij の小さ
いほうから順位を付けたときの順位を rij とする。
帰無仮説：２つのグループの分布の中央値は同じである。
• 検定量Wは
N1
W   r1i
（グループG1の順位の総和）
i 1
 r11  r12  ........ r1N1
（N1,N2)が小さいときは、ウィルコクスン検定
の数表で決める。
大きいときは、Wは以下の正規分布に近似さ
れることを使う。
 N1 N1  N2 1 N1N2 N1  N2  1 
N

2
,
12


• ウィルコクスン検定（中央値の差）
Wilcoxen’s test
• アンサリー・ブラッドレィ検定（分布の広がり）
Ansari-Bradley test
• ラページ検定（上記を同時に検定）
Lepage test
• モンテカルロ法（いろいろ場合によって統計量を考
える。サンプルを乱数で発生させ、確率を求める。コ
ンピュータ向き）
８．重回帰分析
（Multiple Regression Analysis）
• P個の説明変数 x1, x2,….,xp から目的変数y
を予測する。
y = f( x1, x2, … , xp) + e
• 線形重回帰モデル
Y = a0 + a1x1 + a2X2 + ….. + apxp + e
データ
目的
変数
説明変数
誤差
y
x1, x2, …………, xp
e
１
y1
x11, x21, ………, xp1
e1
２
y2
x12, x22, ………, xp2
e2
.
.
.
.
Ｘ３５
.
.
変数番号
Ｎ
yn
データ
番号
.
.
.
.
.
.
x1n, x2n, …………, xpn
en
データ番号
• データのｎ組（ｎ＞＝ｐ＋１）から最小２乗法により係数
の最良不偏推定値を求める。
ai : y の xi に関する偏回帰係数。
以下の仮定をおく
•
•
•
•
eαの期待値はゼロ：E[eα]=0: 不偏性
eαと eα’ は互いに独立：E[eαeα’]=0: 独立性
eαの分散はすべて等しい：E[eα2]=σ2: 等分散性
Eαは N(0, σ2) に従う。：正規性
予測誤差の平方和を最小にするように、係数を求め
る。係数に関する連立方程式を正規方程式という。
分散・共分散行列
 s1,1 s1, 2

 s2,1 s2, 2
S 
.... ....

 s p,1 s p, 2

.....
.....
.....
.....
s1, p 

s2, p 
.... 

s p, p 
here,


1 n
s j ,k   x ji  x j xki  xk
n i 1
1 n
S yj   yi  y x ji  x j
n i 1

Sa  S y


a0  y  a1 x1  ..... ap xp

 s1,1 s1, 2

 s2,1 s2, 2
 .... ....

 s p,1 s p, 2


.....
.....
.....
.....

( j, k  1,2,.......p)

s1, p  a1   S y ,1 
  

s2, p  a2   S y , 2 




.... ...
... 
  

s p, p  a p   S y , p 
８．３分散分析－回帰の有意性
S yy    yi  y    yi  Yi  Yi  Y 
2
2
   yi  Yi    Yi  Y   2 ei Yi  Y 
2
2
  ei   Yi  Y   0
2
2
ST  Se  SR
全変動（分散）＝残差変動＋回帰による変動
重回帰の分散分析表
変動
自由度平方和
分散
全体
n-1
Syy
VT=Syy/(n-1)
回帰
P
SR
VR=SR/p
残差
n-p-1
Se
Ve=Se/(n-p-1)
分散比 F
VR/Ve
F は a1=a2=….=0 の帰無仮説のもとで、自由度(p, n-p-1) の
F 分布となる。（全体として回帰式が意味があるかどうかの検定
となる）
８．４重相関係数と決定係数
 y  y Y  Y 

R
 y  y  Y  Y 
 y  y Y  Y   y  Y  Y  Y Y  Y 
  e Y  Y    Y  Y 
 0   Y  Y 



Y Y  
Y Y  S


R 


 y  y  Y  Y   y  y  S
i
i
2
2
i
i
i
i
i
i
i
i
2
i
i
i
2
i
2 2
2
i
2
i
2
2
i
i
R
2
i
yy
Se
SR
R 
 1
S yy
S yy
Ｒ2 を寄与率または決定係数という
回帰で全分散が説明できる割合。
2


SR  R S yy , Se  1  R S yy
2
2
Ｆ検定がＲ2 の有意性
検定と一致。
R2
VR
p
2
F 
 F (R )
2
1 R
Ve
n  p 1
重回帰の注意点
(1) ai の値そのもので寄与
は決まらない。
(2) Xi と Xj に相関があると
き、注意。単回帰と符号
さえ変わる。

5．いろいろな確率分布

Transcript 5．いろいろな確率分布

Directory