Transcript 5.いろいろな確率分布
5.いろいろな確率分布 • • • • • χ2乗分布(chi-square distribution) t - 分布(t distribution) F 分布(F distribution) 2項分布(binominal distribution) ポアソン分布(Poisson distribution χ2 分布 (chi-square) • 確率変数X1,X2,・・・・ Xn が互いに独立で同一の 正規分布 N(μ, σ) に従うとき、統計量 2 ( X1 X )2 ( X 2 X )2 ........ ( X n X )2 2 の分布は、自由度 n- 1 のχ2 分布に従う。 E( X ) n, V ( X ) 2n • χ2 分布は母集団の分散の推定・検定に用いる。 χ2 分布 n x 1 2 2 1 f ( x) n x e n 2 2 2 (0 x ) E( X ) n, V ( X ) 2n t – 分布(t distribution) • 確率変数X1,X2,・・・・ Xn が互いに独立で同一の正規分布 N(μ, σ) に従うとき、 s ( X1 X ) 2 ( X 2 X ) 2 ...... ( X n X ) 2 n 1 とおくとき、統計量 X t s n の分布は自由度 n – 1 の t 分布に従う。 E( X ) 0, f ( x) n V (X ) , n2 n2 n 1 2 2 n x n 1 2 n n1 2 t 分布は 母集団の平均の推定・検定に用いる。 自由度nが大きいと正規分布に近くなる t – 分布(別の表現) • 確率変数Xが N(0, σ) に従い、確率変数Yが自由 度n-1のχ2分布に従うとき、統計量 t X Y n 1 の分布は自由度 n – 1 の t 分布に従う。 F分布(F distribution) • 確率変数X, Yが独立で、各々自由度n1, n2 のχ2分 布に従うとき、統計量 X n1 F , Y n2 n2 E( X ) , n2 2 2(n1 n2 2)n2 2 V (X ) n1 (n2 2)2 (n2 4) は、自由度(n1, n2)のF分布に従う。 • F分布は2つの母集団の分散比の推定・検定のとき に利用される。 ガンマ関数(Gamma function) Gamma function m : integer (m 1) m(m) ....... m! 1 n n 2 n 4 n : odd .......... 2 2 2 2 1 3 1 , (1) 1, , (2) 1 2 2 2 t x 1 ( x) e t dt 0 2項分布(binominal distribution) • 確率pで存在する当たりくじから、復元抽出で n個とりだしたとき、x個当たる確率。B(n,p) X=0, 1, 2, …….,n f(x)=nCx px (1-p) n-x • E(X)=np, V(X)=np(1-p) • B(n,p) は、n∞で、N(np, np(1-p)) となる。 ポアソン分布 (Poisson):rare probability f ( x) P( X x) E( X ) , x e x! V (X ) • 2項分布において、npを一定値λに固定して、n→∞ としたものが ポアソン分布 めったに起こらない事象が起こる確率分布 λ=1だと、 P(X=x) = 0.36788/x! 例:馬に蹴られて死ぬ人数、交通事故死亡者数 6.統計的推定(statistical estimation) 母集団 Population 母数 Parameterθ 例:平均μ ランダム抽出 推定 標本 Sample 推定値 Estimateθ* 例:Xbar • 不偏推定値(unbiased estimate) E(f(X1,X2,…….,Xn))=θ となるf(X1, X2,…..Xn) を不偏推定量という。 不偏推定値(unbiased estimate) *母平均(mean) μの不偏推定値(unbiased estimate) x1 x2 ...... xN x N *母分散σ2の不偏推定値(μ既知) 1 ( x1 )2 ....... ( xn )2 N *母分散σ2の不偏推定値(μ未知) 1 2 2 ( x1 x ) ....... ( xn x ) N 1 区間推定 母分散(σ2)が未知で平均を推定 s s x t N 1 x t N 1 2 N 2 N 1 2 here, s ( x1 x )2 ....... ( xN x )2 N 1 s S.E. 標準誤差(standard error) N then, x t N 1 S.E. 2 もし、データ数 が21だったら、 自由度は20。 両側で5%危険 率で推定すると する。 t(α)=2.086 標準誤差(SE) を計算して、 誤差範囲は、 t(α)・SE • 自由度10、95%信頼区間なら X +- 2.228 S.E. • 自由度60、95%信頼区間なら X +- 2.000 S.E. 無限大なら 1.96 S.E. 母平均が未知な場合の母分散の推定 ( N 1)s ( N 1)s 2 2 2 N 1 N 11 2 2 2 2 7.統計的検定(statistical testing) 7.1 考え方(method) • 帰無仮説H0 検定統計量 棄却 (裏に対立仮説) nil hypothesis statistical variable reject ランダムである。 = 確率は小さい ∴ ランダムではない! 有意水準 5%、1%の 危険率 7.2 母平均の検定 • 正規母集団 N(μ,σ) とする。 母分散が既知(σ2)、平均μ0(既知) • 帰無仮説H0:母集団の平均μはμ0である。 対立仮説H1:母集団の平均μはμ0でない。 (本当は対立仮説を示したい) • 検定統計量 T (x) x 0 , 0 .is.given N T ( x ) obeys N (0,1) 7.2 母平均の検定 • 正規母集団 N(μ,σ) とする。 母分散が未知、平均μ0(既知) • 帰無仮説H0:母集団の平均μはμ0である。 対立仮説H1:母集団の平均μはμ0でない。 (本当は対立仮説を示したい) • 検定統計量 x 0 T (x) , s N 2 0 .is.given T ( x, s ) obeys t N 1 distribution 7.3 平均の差の検定 • 2つの正規母集団とす る。 N(μ1,σ1), N(μ2,σ2) μ1 とμ2 が違うことを 示したい。 T ( x1 , x2 ) x1 x2 2 1 N1 T ( x1 , x2 , s ) • σ1,σ2未知だが等しい。 obeys N (0,1) N2 x1 x2 2 • σ1,σ2既知 2 2 1 1 s 2 N1 N2 2 2 ( N 1 ) s ( N 1 ) s 1 2 2 where, s 2 1 , N1 N2 2 T obeys t N1 N2 2 x1 x2 T ( x1 , x2 , s , s2 ) 2 1 2 1 where, s 2 x s12 s2 2 N N 2 1 2 x1 ,.... N1 1 1,i T obeys tm , s s 2 N N 2 m 1 2 1 2 2 4 4 s1 s2 2 2 N1 ( N1 1) N2 ( N2 1) 7.4 母相関係数の検定 - t 分布 ー 無相関が帰無仮説 大きさNの標本の相関係数が r のとき T (r,0) r N 2 1 r 2 obeys t N 2 自 由 度 α=0.05 α=0.01 10 20 50 100 0.5760 0.4227 0.2732 0.1946 0.7079 0.5368 0.3541 0.2540 QBOの西風シアの5年 と東風シアの5年の1月 の帯状平均オゾン混合 比の差(実線)。 単位はppmv。 有意性で差が有意な領 域を影で示す。 影が90, 95, 99%で有意 な差。t検定 図2 1月の50 hPaにおけるオゾン混合比。等値線の単位はppmv。 (a)QBOの西風シアの5年平均。 (b)QBOの東風シアの5年平均。 (c)差(西風-東風)。 影は有意性を表し図1と同じ。 7.5 ノンパラメトリック検定 non-parametric test • 母集団の分布の型に関する情報を仮定せずに検定 する手法。これまで述べた検定は母集団が正規分 布をすると仮定したが、その仮定を行わない。 • それぞれの検定の名前がある。 Wilcoxen’s rank sum test ウィルコクスン検定 Wilcoxen’s rank sum test • 2つの分布型は同じだが、位置がずれている。 これを検定する順位和検定。 グループG1 X11 X12 X13 …… X1N1 グループG2 X21 X22 X23 …….. X2N2 2つのグループの標本を1つにまとめて、Xij の小さ いほうから順位を付けたときの順位を rij とする。 帰無仮説:2つのグループの分布の中央値は同じである。 • 検定量Wは N1 W r1i (グループG1の順位の総和) i 1 r11 r12 ........ r1N1 (N1,N2)が小さいときは、ウィルコクスン検定 の数表で決める。 大きいときは、Wは以下の正規分布に近似さ れることを使う。 N1 N1 N2 1 N1N2 N1 N2 1 N 2 , 12 • ウィルコクスン検定(中央値の差) Wilcoxen’s test • アンサリー・ブラッドレィ検定(分布の広がり) Ansari-Bradley test • ラページ検定(上記を同時に検定) Lepage test • モンテカルロ法(いろいろ場合によって統計量を考 える。サンプルを乱数で発生させ、確率を求める。コ ンピュータ向き) 8.重回帰分析 (Multiple Regression Analysis) • P個の説明変数 x1, x2,….,xp から目的変数y を予測する。 y = f( x1, x2, … , xp) + e • 線形重回帰モデル Y = a0 + a1x1 + a2X2 + ….. + apxp + e データ 目的 変数 説明変数 誤差 y x1, x2, …………, xp e 1 y1 x11, x21, ………, xp1 e1 2 y2 x12, x22, ………, xp2 e2 . . . . X35 . . 変数番号 N yn データ 番号 . . . . . . x1n, x2n, …………, xpn en データ番号 • データのn組(n>=p+1)から最小2乗法により係数 の最良不偏推定値を求める。 ai : y の xi に関する偏回帰係数。 以下の仮定をおく • • • • eαの期待値はゼロ:E[eα]=0: 不偏性 eαと eα’ は互いに独立:E[eαeα’]=0: 独立性 eαの分散はすべて等しい:E[eα2]=σ2: 等分散性 Eαは N(0, σ2) に従う。: 正規性 予測誤差の平方和を最小にするように、係数を求め る。係数に関する連立方程式を正規方程式という。 分散・共分散行列 s1,1 s1, 2 s2,1 s2, 2 S .... .... s p,1 s p, 2 ..... ..... ..... ..... s1, p s2, p .... s p, p here, 1 n s j ,k x ji x j xki xk n i 1 1 n S yj yi y x ji x j n i 1 Sa S y a0 y a1 x1 ..... ap xp s1,1 s1, 2 s2,1 s2, 2 .... .... s p,1 s p, 2 ..... ..... ..... ..... ( j, k 1,2,.......p) s1, p a1 S y ,1 s2, p a2 S y , 2 .... ... ... s p, p a p S y , p 8.3 分散分析 -回帰の有意性 S yy yi y yi Yi Yi Y 2 2 yi Yi Yi Y 2 ei Yi Y 2 2 ei Yi Y 0 2 2 ST Se SR 全変動(分散)=残差変動 + 回帰による変動 重回帰の分散分析表 変動 自由度 平方和 分散 全体 n-1 Syy VT=Syy/(n-1) 回帰 P SR VR=SR/p 残差 n-p-1 Se Ve=Se/(n-p-1) 分散比 F VR/Ve F は a1=a2=….=0 の帰無仮説のもとで、自由度(p, n-p-1) の F 分布となる。(全体として回帰式が意味があるかどうかの検定 となる) 8.4 重相関係数と決定係数 y y Y Y R y y Y Y y y Y Y y Y Y Y Y Y e Y Y Y Y 0 Y Y Y Y Y Y S R y y Y Y y y S i i 2 2 i i i i i i i i 2 i i i 2 i 2 2 2 i 2 i 2 2 i i R 2 i yy Se SR R 1 S yy S yy R2 を寄与率または決定係数という 回帰で全分散が説明できる割合。 2 SR R S yy , Se 1 R S yy 2 2 F検定が R2 の有意性 検定と一致。 R2 VR p 2 F F (R ) 2 1 R Ve n p 1 重回帰の注意点 (1) ai の値そのもので寄与 は決まらない。 (2) Xi と Xj に相関があると き、注意。単回帰と符号 さえ変わる。