Transcript 5.いろいろな確率分布
5.いろいろな確率分布
•
•
•
•
•
χ2乗分布(chi-square distribution)
t - 分布(t distribution)
F 分布(F distribution)
2項分布(binominal distribution)
ポアソン分布(Poisson distribution
χ2
分布 (chi-square)
• 確率変数X1,X2,・・・・ Xn が互いに独立で同一の
正規分布 N(μ, σ) に従うとき、統計量
2
( X1 X )2 ( X 2 X )2 ........ ( X n X )2
2
の分布は、自由度 n- 1 のχ2 分布に従う。
E( X ) n,
V ( X ) 2n
• χ2 分布は母集団の分散の推定・検定に用いる。
χ2 分布
n
x
1
2
2
1
f ( x) n
x e
n
2
2
2
(0 x )
E( X ) n,
V ( X ) 2n
t – 分布(t distribution)
• 確率変数X1,X2,・・・・ Xn が互いに独立で同一の正規分布
N(μ, σ) に従うとき、
s
( X1 X ) 2 ( X 2 X ) 2 ...... ( X n X ) 2
n 1
とおくとき、統計量
X
t
s
n
の分布は自由度 n – 1 の t 分布に従う。
E( X ) 0,
f ( x)
n
V (X )
, n2
n2
n 1
2
2
n
x
n 1
2 n
n1
2
t 分布は 母集団の平均の推定・検定に用いる。
自由度nが大きいと正規分布に近くなる
t – 分布(別の表現)
• 確率変数Xが N(0, σ) に従い、確率変数Yが自由
度n-1のχ2分布に従うとき、統計量
t
X
Y
n 1
の分布は自由度 n – 1 の t 分布に従う。
F分布(F distribution)
• 確率変数X, Yが独立で、各々自由度n1, n2 のχ2分
布に従うとき、統計量
X
n1
F ,
Y
n2
n2
E( X )
,
n2 2
2(n1 n2 2)n2 2
V (X )
n1 (n2 2)2 (n2 4)
は、自由度(n1, n2)のF分布に従う。
• F分布は2つの母集団の分散比の推定・検定のとき
に利用される。
ガンマ関数(Gamma function)
Gamma
function
m : integer
(m 1) m(m) ....... m!
1
n n 2 n 4
n : odd
..........
2
2 2 2
1
3 1
,
(1) 1,
,
(2) 1
2
2 2
t x 1
( x) e t dt
0
2項分布(binominal distribution)
• 確率pで存在する当たりくじから、復元抽出で
n個とりだしたとき、x個当たる確率。B(n,p)
X=0, 1, 2, …….,n
f(x)=nCx px (1-p) n-x
• E(X)=np, V(X)=np(1-p)
• B(n,p) は、n∞で、N(np, np(1-p)) となる。
ポアソン分布 (Poisson):rare probability
f ( x) P( X x)
E( X ) ,
x
e
x!
V (X )
• 2項分布において、npを一定値λに固定して、n→∞
としたものが ポアソン分布
めったに起こらない事象が起こる確率分布
λ=1だと、
P(X=x) = 0.36788/x!
例:馬に蹴られて死ぬ人数、交通事故死亡者数
6.統計的推定(statistical estimation)
母集団
Population
母数
Parameterθ
例:平均μ
ランダム抽出
推定
標本
Sample
推定値
Estimateθ*
例:Xbar
• 不偏推定値(unbiased estimate)
E(f(X1,X2,…….,Xn))=θ
となるf(X1, X2,…..Xn) を不偏推定量という。
不偏推定値(unbiased estimate)
*母平均(mean) μの不偏推定値(unbiased estimate)
x1 x2 ...... xN
x
N
*母分散σ2の不偏推定値(μ既知)
1
( x1 )2 ....... ( xn )2
N
*母分散σ2の不偏推定値(μ未知)
1
2
2
( x1 x ) ....... ( xn x )
N 1
区間推定
母分散(σ2)が未知で平均を推定
s
s
x t N 1
x t N 1
2 N
2 N
1
2
here,
s
( x1 x )2 ....... ( xN x )2
N 1
s
S.E.
標準誤差(standard error)
N
then,
x t N 1 S.E.
2
もし、データ数
が21だったら、
自由度は20。
両側で5%危険
率で推定すると
する。
t(α)=2.086
標準誤差(SE)
を計算して、
誤差範囲は、
t(α)・SE
• 自由度10、95%信頼区間なら
X +- 2.228 S.E.
• 自由度60、95%信頼区間なら
X +- 2.000 S.E.
無限大なら 1.96 S.E.
母平均が未知な場合の母分散の推定
( N 1)s
( N 1)s
2
2
2
N 1
N 11
2
2
2
2
7.統計的検定(statistical testing)
7.1 考え方(method)
•
帰無仮説H0 検定統計量 棄却
(裏に対立仮説)
nil hypothesis statistical variable reject
ランダムである。 = 確率は小さい
∴ ランダムではない! 有意水準
5%、1%の
危険率
7.2 母平均の検定
• 正規母集団 N(μ,σ) とする。
母分散が既知(σ2)、平均μ0(既知)
• 帰無仮説H0:母集団の平均μはμ0である。
対立仮説H1:母集団の平均μはμ0でない。
(本当は対立仮説を示したい)
• 検定統計量
T (x)
x 0
,
0 .is.given
N
T ( x ) obeys N (0,1)
7.2 母平均の検定
• 正規母集団 N(μ,σ) とする。
母分散が未知、平均μ0(既知)
• 帰無仮説H0:母集団の平均μはμ0である。
対立仮説H1:母集団の平均μはμ0でない。
(本当は対立仮説を示したい)
• 検定統計量
x 0
T (x)
,
s
N
2
0 .is.given
T ( x, s ) obeys t N 1 distribution
7.3 平均の差の検定
• 2つの正規母集団とす
る。
N(μ1,σ1), N(μ2,σ2)
μ1 とμ2 が違うことを
示したい。
T ( x1 , x2 )
x1 x2
2
1
N1
T ( x1 , x2 , s )
• σ1,σ2未知だが等しい。
obeys N (0,1)
N2
x1 x2
2
• σ1,σ2既知
2
2
1
1
s 2
N1 N2
2
2
(
N
1
)
s
(
N
1
)
s
1
2
2
where, s 2 1
,
N1 N2 2
T obeys t N1 N2 2
x1 x2
T ( x1 , x2 , s , s2 )
2
1
2
1
where, s
2
x
s12 s2 2
N N
2
1
2
x1
,....
N1 1
1,i
T obeys tm ,
s
s
2
N N
2
m 1
2
1
2
2
4
4
s1
s2
2
2
N1 ( N1 1) N2 ( N2 1)
7.4 母相関係数の検定 - t 分布 ー
無相関が帰無仮説
大きさNの標本の相関係数が r のとき
T (r,0)
r N 2
1 r
2
obeys t N 2
自 由 度
α=0.05
α=0.01
10
20
50
100
0.5760
0.4227
0.2732
0.1946
0.7079
0.5368
0.3541
0.2540
QBOの西風シアの5年
と東風シアの5年の1月
の帯状平均オゾン混合
比の差(実線)。
単位はppmv。
有意性で差が有意な領
域を影で示す。
影が90, 95, 99%で有意
な差。t検定
図2 1月の50 hPaにおけるオゾン混合比。等値線の単位はppmv。
(a)QBOの西風シアの5年平均。
(b)QBOの東風シアの5年平均。
(c)差(西風-東風)。
影は有意性を表し図1と同じ。
7.5 ノンパラメトリック検定
non-parametric test
• 母集団の分布の型に関する情報を仮定せずに検定
する手法。これまで述べた検定は母集団が正規分
布をすると仮定したが、その仮定を行わない。
• それぞれの検定の名前がある。
Wilcoxen’s rank sum test
ウィルコクスン検定
Wilcoxen’s rank sum test
• 2つの分布型は同じだが、位置がずれている。
これを検定する順位和検定。
グループG1
X11
X12
X13
……
X1N1
グループG2
X21
X22
X23
……..
X2N2
2つのグループの標本を1つにまとめて、Xij の小さ
いほうから順位を付けたときの順位を rij とする。
帰無仮説:2つのグループの分布の中央値は同じである。
• 検定量Wは
N1
W r1i
(グループG1の順位の総和)
i 1
r11 r12 ........ r1N1
(N1,N2)が小さいときは、ウィルコクスン検定
の数表で決める。
大きいときは、Wは以下の正規分布に近似さ
れることを使う。
N1 N1 N2 1 N1N2 N1 N2 1
N
2
,
12
• ウィルコクスン検定(中央値の差)
Wilcoxen’s test
• アンサリー・ブラッドレィ検定(分布の広がり)
Ansari-Bradley test
• ラページ検定(上記を同時に検定)
Lepage test
• モンテカルロ法(いろいろ場合によって統計量を考
える。サンプルを乱数で発生させ、確率を求める。コ
ンピュータ向き)
8.重回帰分析
(Multiple Regression Analysis)
• P個の説明変数 x1, x2,….,xp から目的変数y
を予測する。
y = f( x1, x2, … , xp) + e
• 線形重回帰モデル
Y = a0 + a1x1 + a2X2 + ….. + apxp + e
データ
目的
変数
説明変数
誤差
y
x1, x2, …………, xp
e
1
y1
x11, x21, ………, xp1
e1
2
y2
x12, x22, ………, xp2
e2
.
.
.
.
X35
.
.
変数番号
N
yn
データ
番号
.
.
.
.
.
.
x1n, x2n, …………, xpn
en
データ番号
• データのn組(n>=p+1)から最小2乗法により係数
の最良不偏推定値を求める。
ai : y の xi に関する偏回帰係数。
以下の仮定をおく
•
•
•
•
eαの期待値はゼロ:E[eα]=0: 不偏性
eαと eα’ は互いに独立:E[eαeα’]=0: 独立性
eαの分散はすべて等しい:E[eα2]=σ2: 等分散性
Eαは N(0, σ2) に従う。: 正規性
予測誤差の平方和を最小にするように、係数を求め
る。係数に関する連立方程式を正規方程式という。
分散・共分散行列
s1,1 s1, 2
s2,1 s2, 2
S
.... ....
s p,1 s p, 2
.....
.....
.....
.....
s1, p
s2, p
....
s p, p
here,
1 n
s j ,k x ji x j xki xk
n i 1
1 n
S yj yi y x ji x j
n i 1
Sa S y
a0 y a1 x1 ..... ap xp
s1,1 s1, 2
s2,1 s2, 2
.... ....
s p,1 s p, 2
.....
.....
.....
.....
( j, k 1,2,.......p)
s1, p a1 S y ,1
s2, p a2 S y , 2
.... ...
...
s p, p a p S y , p
8.3 分散分析 -回帰の有意性
S yy yi y yi Yi Yi Y
2
2
yi Yi Yi Y 2 ei Yi Y
2
2
ei Yi Y 0
2
2
ST Se SR
全変動(分散)=残差変動 + 回帰による変動
重回帰の分散分析表
変動
自由度 平方和
分散
全体
n-1
Syy
VT=Syy/(n-1)
回帰
P
SR
VR=SR/p
残差
n-p-1
Se
Ve=Se/(n-p-1)
分散比 F
VR/Ve
F は a1=a2=….=0 の帰無仮説のもとで、自由度(p, n-p-1) の
F 分布となる。(全体として回帰式が意味があるかどうかの検定
となる)
8.4 重相関係数と決定係数
y y Y Y
R
y y Y Y
y y Y Y y Y Y Y Y Y
e Y Y Y Y
0 Y Y
Y Y
Y Y S
R
y y Y Y y y S
i
i
2
2
i
i
i
i
i
i
i
i
2
i
i
i
2
i
2 2
2
i
2
i
2
2
i
i
R
2
i
yy
Se
SR
R
1
S yy
S yy
R2 を寄与率または決定係数という
回帰で全分散が説明できる割合。
2
SR R S yy , Se 1 R S yy
2
2
F検定が R2 の有意性
検定と一致。
R2
VR
p
2
F
F (R )
2
1 R
Ve
n p 1
重回帰の注意点
(1) ai の値そのもので寄与
は決まらない。
(2) Xi と Xj に相関があると
き、注意。単回帰と符号
さえ変わる。