Transcript Document

確率・統計の基礎
麻生良文
項目
• 確率変数
– 分布関数,密度関数
– 期待値・分散
• さまざまな確率分布
–
–
–
–
二項分布,ポアソン分布
正規分布,対数正規分布,ロジスティック分布
カイ二乗分布,t分布,F分布
Excelでの確率・統計関数
• 同時分布
確率変数 random variable
• ある変数Xの値が事前にどの値が実現するかわか
らない場合,Xの実現値xが確率Pをもって実現する
とみなす。
– 確率論ではもっと抽象的な定義が与えられる
– Xを確率変数。実現した値xを実現値とよぶ。
• 離散型(discrete type)
– Xのとりうる値が離散変数の場合
• サイコロ
X={1,2,3,4,5,6}
• 連続型(continuous type)
– Xのとりうる値が連続変数の場合
分布関数,密度関数
• 分布関数(distribution function)
F ( x)  Pr(X  x)
– Pr(X≤x) 確率変数Xがx以下の値をとる確率
– 累積分布関数(cumulative distribution function)
F ()  lim F ( x)  0
x 
F ()  lim F ( x)  1
x 
– F(x)は単調増加関数
• 密度関数(density function)
– 確率密度関数(probability distribution function)
F ( x  h)  F ( x )
f ( x)  lim
h  0
h
分布関数,密度関数(2)
• 分布関数(続き)
x
F ( x)   f (u)du

b
Pr(a  X  b)  F (b)  F (a)   f (u )du
a
– F(x)が微分可能な場合には
• 離散型確率変数の場合
– Xのとりうる値がx1,x2,…の場合
f ( x) 
dF ( x )
dx
pi  Pr(X  xi )
F ( x)   pi
xi  x
分布関数,密度関数(3)
標準正規分布の場合
= 0,
=1
Normal Distribution:
= 0,
=1
0.2
Density
0.6
x
0.4
F ( x)   f (u)du
0.2
0.1

0.0
0.0
Cumulative Probability
0.3
0.8
1.0
0.4
Normal Distribution:
-3
-2
-1
0
1
2
3
x
分布関数(distribution function)
-3
-2
-1
0
1
2
x
密度関数(density function)
3
期待値,分散
• 期待値(expected value)
E( X )   xf ( x)dx
E( X )  i pi xi
• 分散(variance)
mを期待値として
Var( X )   x  m  f ( x)dx
2
重要な公式
Var( X )  i pi xi  m 
2
Var( X )  E(X 2 )  m 2
離散的な確率変数の例
• 2項分布 binomial distribution
– 1回の試行で成功する確率をp,失敗する確率をqと
する(q=1-p)
– n回の独立な試行で成功した回数を確率変数Xで表
す。X=k(0≤k≤n)となる確率は
Pr(X  k )n Ck pk qnk
– 期待値,分散は
E( X )  np
Var( X )  npq
その他の離散分布の例
Poisson Distribution: Mean = 1.5
k 0

E( X )  
k 0
k
k!
exp   k  
0.20
0.15
0.10
 k! exp    1
0.05
k
0.00

k!
exp  
Probability Mass
Pr(X  k ) 
k
0.25
0.30
ポアソン分布
0
1
2
3
4
x
2項分布でnが大きく,pが非常に小さいときの極限
1回の試行では起こることが稀だが,試行回数が多いので,何回かは起こる
(プロシアの軍隊で馬に頭を蹴られて死亡した軍人の数)
5
6
7
連続的な確率変数の例
•
•
•
•
•
•
正規分布
カイ二乗分布
t 分布
F分布
対数正規分布
指数分布
正規分布 normal distribution
平均m,分散 s2の正規分布
X~ N(m, s2)
密度関数
f ( x) 
 1  x  m 2 
1
exp 
 
2 s
 2  s  
m=0, s2=1の正規分布
– 標準正規分布(standard normal distribution)の密度関数
1
 1 2
 ( z) 
exp z 
2
 2 
標準正規分布のグラフ
= 0,
=1
Normal Distribution:
= 0,
=1
0.2
Density
0.6
x
0.4
F ( x)   f (u)du
0.2
0.1

0.0
0.0
Cumulative Probability
0.3
0.8
1.0
0.4
Normal Distribution:
-3
-2
-1
0
1
2
3
x
分布関数(distribution function)
-3
-2
-1
0
1
2
x
密度関数(density function)
3
標準正規分布の性質
• 密度関数は左右対称
• X~N(m,s)のとき,Z=(X-m)/s は標準正規分布に従う
• Pr(Z≤z)=(z) : 分布関数
1
 1 2
 ( z) 
exp z 
2
 2 
• Pr(Z>z)=1−(z)
( z )    (t )dt
• Pr(a≤Z≤b)=(b) − (a)
z

標準正規分布の性質(2)
•
•
•
•
•
Pr(-1<Z<1)=0.6827
Pr(-2<Z<2)=0.9545
Pr(-3<Z<3)=0.9973
逆関数
Pr(Z≤z)=p となるz Excel2010 ではnorm.s.inv (p)
– Excel 2007 からExcel2010で,統計関数に変更有り
– Excel2003では normsinv(p)
• Helpの「統計関数」を参照のこと
– p=0.90 
– p=0.95 
– p=0.975 
z=1.2812
z=1.6449
z=1.9600
カイ二乗分布
• カイ二乗分布(chi squared distribution)
• zi が互いに独立で同一の標準正規分布に従う確
率変数であるとした場合(i=1,2,..,n), ziの平方和
z12+ z22+ ....+ zn2
は自由度nのカイ二乗分布に従う
zi ~ N (0,1) i.i.d.
z1  z 2    z n ~  ( n)
2
2
2
2
F分布,t分布
• x ~2(n), y~2(m)で,x と y が独立であるとする。こ
のとき,x/n と y/m の比は自由度(n, m)のF分布に
従う
xn
F (n, m) 
y m
• z~N(0,1) ,x~2(n)でzとxは独立であるとする。この
とき,次の変数は自由度nのt分布に従う
z
t ( n) 
xn
Chi-Squared Distribution: df = 2
0.4
0.5
カイ二乗分布
2 distribution
0.0
0.1
0.2
Density
0.3
df=2
0
5
10
15
2
df=5
Chi-Squared Distribution: df = 10
df=10
0.00
0.00
0.02
0.05
0.04
Density
Density
0.06
0.10
0.08
0.15
0.10
Chi-Squared Distribution: df = 5
0
5
10
15
2
20
5
10
15
20
2
25
30
F分布
1.0
F Distribution: Numerator df = 2, Denominator df = 100
0.0
0.2
0.4
Density
0.6
0.8
df=(2,100)
df=(5,100)
0
2
4
6
df=(10,100)
8
f
F Distribution: Numerator df = 10, Denominator df = 100
0.4
Density
0.4
0.0
0.2
0.2
0.0
Density
0.6
0.6
0.8
F Distribution: Numerator df = 5, Denominator df = 100
0
1
2
3
f
4
5
0.0
0.5
1.0
1.5
2.0
f
2.5
3.0
3.5
t 分布
黒: 標準正規分布
赤: t 分布(df=10)
赤: t 分布(df=10)
青: t 分布(df=1000)
t分布は正規分布より裾の厚い分布
自由度の増加  正規分布に近づく
対数正規分布 lognormal distribution
xの対数値が正規分布に従う場合
ln x ~ N(m, s2)
xは対数正規分布に従うといい,
次のように表す
x ~ LN(m, s2)
なお,期待値は次の通り
E(x)=exp(m+s2/2)
所得分布はこの分布でうまく近似
できることが知られている
x~LN(0, 1.0)のとき,E(x)=exp(0.5)≈1.65
平均値はモードよりもかなり高い
Excel2010での統計関数
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
CHISQ.DIST(x, df) : Pr(X<=x) を返す
CHISQ.INV(p, df)
CHISQ.DIST.RT(x, df) : Pr(X>x) を返す
CHISQ.INV.RT(p, df)
F.DIST(x, df1, df2,関数形式) : Pr(X<=x) を返す
F.INV(p, df1, df2)
F.DIST.RT(x, df1, df2) : Pr(X>x) を返す
F.INV.RT(p, df1, df2)
LOGNORM.DIST(x, mean, stdev)
LOGNORM.INV(p, mean, stdev)
NORM.DIST(x, mean, stdev, 関数形式)
NORM.INV(p, mean, stdev)
NORM.S.DIST(x, 関数形式)
NORM.S.INV(p)
T.DIST(x, df, 関数形式)
T.DIST.2T(x, df) 両側
T.DIST.RT(x, df) 右側
T.INV(p, df)
T.INV.2T(p, df)
関数形式:
TRUE : 累積分布, FALSE : 密度関数
Excel2003以前の統計関数
•
•
•
•
•
•
•
•
•
•
•
•
CHIDIST(x, df)
CHIINV(p,df)
FDIST(x, df1, df2)
FINV(p, df1, df2)
LOGNORMDIST(x, mean, stdev)
LOGINV(p, mean, stdev)
NORMDIST(x, mean, stdev,形式)
NORMINV(p, mean, stdev)
NORMSDIST(x)
NORMSINV(p)
TDIST(x,df,parameter) parameter=1:両側,2:片側
TINV(p,df)
• Excel 2007からとExcel2010で統計関数に若干の変更有り
Eviewsでの統計関数(1)
• 累積分布(CDF)
@c...
• 密度関数
@d...
• Quantile (CDFの逆関数) @q...
• 乱数の生成
@r...
----------------------------------------------------------------• 標準正規分布
– @cnorm(x), @dnorm(x), @qnorm(p), @rnorm
• t分布
– @ctdist(x,df), @dtdist(x,df), @qtdist(p,df), @rtdist(df)
Eviewsでの統計関数(2)
• F分布
– @cfdist(x,df1,df2), @dfdist(x,df1,df2),
@qfdist(p,df1,df2),@rfdist(df1,df2)
• カイ二乗分布
– @cchisq(x,df), @dchisq(x,df), @qchisq(p,df),
@rchisq(df)
• 対数正規分布
– @clognorm(x,m,s), @dlognorm(x,m,s),
@qlognorm(p,m,s), @rlognorm(m,s)
– log x ~ N(m, s2)
Eviewsでの統計関数(3)
コマンドラインに式を書く
この例では,
scalar p = @cnorm(2.0)
として,計算結果を変数pに代
入した。
scalarは変数pがスカラー変数
だという宣言
結果は,pという変数に
収められている
同時分布(離散分布の場合)
• XとYが確率変数
• 同時確率(joint probability)
– p(x,y)≡Pr(X=x,Y=y)
• 周辺確率(marginal probability)
– p(x) ≡ Pr(X=x)=∑yp(x,y)
• 条件付確率(conditional probability)
– X=xが与えられた場合のYの確率関数
– p(y|x) ≡ Pr(Y=y| X=x)=p(x,y)/p(x)
• 分布の独立性
– p(x,y) = p(x) p(y)
同時分布(連続分布の場合)
• XとYが確率変数
• 同時分布関数(joint distribution function)
– F(x,y)≡Pr(X≤x,Y≤y)
• 同時密度関数
2
f ( x, y) 
F ( x, y)
xy
• 周辺密度関数

f X ( x)   f ( x, y)dy

同時分布(連続変数の場合 2)
• 条件付密度関数
– X=xが与えられた場合のYの密度関数
f ( x, y)
f ( y | x) 
f X ( x)
• 分布の独立性
– F(x,y) = FX(x)FY(y)
– f(x,y)=fX(x) fY(y)
共分散と相関係数
cov(X , Y )  E( X  m X )(Y  mY )
cov(X , Y )
s XY
corr( X , Y ) 

var(X )  var(Y ) s X  s Y
• -1≤ cor(X,Y) ≤1
• cor(X,Y)=0  確率変数XとYは無相関
• 相関は2つの変数間の線型関係をみるもの。XとYが無相関
であっても,非線形の関係があるかもしれない。
期待値,分散の性質
• a,bを定数。X,Yを確率変数として
E(aX  b)  a E( X )  b
E( X  Y )  E( X )  E(Y )
var(aX  b)  a 2 var(X )
var(X  Y )  var(X )  var(Y )  2 cov(X , Y )
• 分散
Var( X )  E(X 2 )  m 2
標本平均の性質
• Y1,Y2,...,Ynは互い独立で同一の分布に従う
• E(Yi)=m, var(Yi)=s, (i=1,2,..,n)
1
Y  Y1  Y2    Yn 
n
1 n
EY    EYi   m
n i 1
2
1
s


varY   var Y1  Y2    Yn   X
n
 n
nが大きくなる
につれ,標本
平均のバラつ
きは小さくなる
(大数の法則)
Excelで確率分布のグラフを描く
• 2項分布
–
–
–
–
–
–
n:試行回数
p:ある事象の起きる確率
Pr(X=k)=nCk pk (1-p)n-k を計算
combin (n,k)
nCk
2項分布
binom.dist(k,n,p,関数形式)
関数形式
– TRUE  累積分布, FALSE確率密度
• ポアソン分布
– poisson.dist(n,, 関数形式)
• Excel2003での統計関数
binom(k,dn,p,関数形式) , poisson(n, , 関数形式)
Eviewsで確率分布のグラフを描く
新しいwork fileを作成
menuから File NewWorkfile
observationsに適当な値を入れる(ここで
は101にした xの範囲と刻みによって決
める)。
workfileのstructure typeは unstructured
に
xの値を作成([-5,5]の区間で0.1刻みの連
続データを作成
コマンドウィンドウで次のようにタイプ
series x = ─5.0 + @trend/10
続いて,正規分布,t分布(自由度30)の確
率密度関数を作成
@trend : オブザベーションの順番に0,1,2,3,...
series y1 = @dnorm(x)
を返す関数
series y2 = @dtdist(x, 30)
変数の作成は,menuからgenrを選択してもよい
後は,x,y1,y2を選択してグラフを描く
.5
.4
.3
Y1
Y2
.2
.1
.0
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
X
Eviews で書いた標準正規分布と自由度30のt分布の密度関数
同様にして,自由度の異なるt分布の密度関数を描くことできる
F分布や,カイ二乗分布も同様に描ける(定義域はx>0)
@dnorm(x), @dtdist(x,df), @dchisq(x,df), @dfdist(x,df1,df2)
6
問題
• Eviewを用いて,標準正規分布の密度関数と累積分布関数
のグラフを作成せよ。
– -5.0から5.0まで,0.1刻みの変数を作る(x)
– y1=@dnorm(x)で密度関数の値を入れた変数を作る
– y2=@cnorm(x)で累積分布関数の値を入れた変数を作る
• 標準正規分布で,累積分布が0.95,0.975,0.99,0.995となるxの値を
求めよ
– @qnorm(p) でxの値が返る
• 自由度5,10,50,100のt分布の密度関数のグラフと標準正規分布の
グラフを比較せよ
• 異なる自由度のカイ二乗分布のグラフを描け
• 異なる自由度のF分布のグラフを描け