確率と確率変数

Download Report

Transcript 確率と確率変数

確率と確率変数
専修大学 経済学部
作間逸雄
「経済統計学」講義
根元事象・複合事象・排反事象




出来事の可能性の大小が気になることはよくあり、
その可能性が、確率ということばであらわされて
いる。例:雨が降る確率(「降水確率」)。
「出来事」の呼び名が「事象」。
「事象には、「根元事象」(例:さいころを投げたと
き1の目が出るというような結果)と「複合事象」
(例:奇数の目がでること、根元事象の集合)とが
ある。
「排反」とは、事象Aと事象Bとが同時におこらな
いこと。
確率を計算する準備:順列・組み合わせ




確率とは、事象の起こる確からしさの尺度で
ある。同様に確からしいn通りの起こり方が
あって、事象Eの起こる場合がそのうちm通
りあるとすれば、事象Eの起こる確率はn/m。
「起こり方」を数えなければならない。順列、
組み合わせの知識が有効。
順番に意味を付けて数える。→順列
順番に意味のない場合→組み合わせ
順列(Permutation)

n個の要素をもつ集合Mからr個の要素を取り
出して、それを順番にならべる並べ方が何通
りあるかを調べる。
P  n(n 1)(n  2)  (n  r  1)
n!

(n  r )!
n r
順列の例





セ・リーグ6球団に順位をつける、つけ方は
何通りあるか。ただし、同一順位は、ないも
のとする。
1位になりうるのは、6通り。
2位になりうるのは、1位になった球団を除く
5通り。
3位、4位と考えてゆくと、
答えは、6×5×4×3×2×1=6!
組み合わせ(Combination)


n個の要素をもつ集合Mからr個の要素を取り出す
やり方。
順列と比べ、選んだr個の並べ方の分だけ、数が減
るから
P
n Cr 
r!
n r
n!

r !(n  r )!
確率とは
事象Aに対して、全事象Ωに対して、また、
排反事象AとBに対して
0  P( A)  1
P()  1
P( A  B)  P( A)  P(B)
確率変数
START
D





F
要するに、確率のついた変数。
F
D
F D
例えば、サイコロの目。
日本シリーズの試合数。4試合までは絶対ある。
F
引き分けはないことにして、試合結果をD(中日が
D
勝つ)とF(日ハムが勝つ)であらわす。
F
4試合で決着がついてしまう場合も消化試合をこな
すことにして、7試合の結果のあらわれかたを考え
ると、
確率変数(つづき)
2  128
7
通りある。
確率変数(つづき)
D
4戦で終わるのは、
2  2  16
3
D
F
F
F D
5戦までで終了するのは
D
F
4戦までに3つ勝ったチームがもうひとつ勝つ
場合だから、{①,②,③,④}から3つとる組
F
み合わせの2倍に、消化試合を考慮して
2 4 C3  2  32
2
確率変数(つづき)

6戦まであるのは
2  5 C3  2  40
7戦までは
2  6 C3  40
日本シリーズの試合数の確率
(1999年まで)
4試合
試合数 5
(実績)
5試合
6試合
7試合
計
12
17
16
50
割合
(実績
値)
0.100 0.240 0.340 0.320 1.000
割合
(理論
値)
0.125 0.250 0.313 0.313 1.000
標本空間




日本シリーズの例の場合、消化試合を含めて128
通りの結果があり、このようなすべての結果の集合
のことを標本空間という。
標本空間上で定義された実数値関数が確率変数
である。
確率変数には、離散型と連続型とがある。
確率変数には、確率がついている。その確率を確
率変数の関数として考えた場合、「確率関数」と呼
ぶ。「確率分布」として見ることも出来る。
独立と従属
事象Aが起こっても起こらなくても事象Bの確
率に変わりがないとき、事象Bは事象Aに対し
て独立であるという。そのとき、次式が成り立
つ。
P( A  B)  P( A)P(B)
事象Aが起きるときに事象Bの確率がかわる
のなら、事象Bは事象Aに対して従属であると
いう。
同時確率・条件付き確率・周辺確率



ひとつの標本空間に2つの確率変数を定義するこ
とができる。それらをx、yとすれば、確率関数p(x、
y)が定義できることになる。その場合、同時確率分
布を考えることになる。
事象Aがおこった、というような条件をつけたときの
確率を条件付き確率というが、確率変数xが特定の
値をとったときの条件付き確率をp(y|x)であらわ
す。
確率変数xの値はどうでもよくて、yの値だけに注目
するのが周辺確率、p(y)。
確率変数の独立性

条件付き確率が周辺確率と等しいことが「独立」すなわち、

ところが条件付き確率は、

よって、独立は、
p( y | x)  p( y)
p( y | x)  p( x, y) / p( x)
p( x, y)  p( x) p( y)
期待値
n
E( x)   xi P( xi )
i 1
[問]日本シリーズの試合数の期待値は
いくらか?
1
1
5
5
4   5  6   7   5.81
8
4
16
16
期待値演算の線形性
線形性(1次、リニア)とは?
f(x+y)=f(x)+f(y)
f(αx)=αf(x)
E( x  y)  E( x)  E( y)
E( x)   E( x)
期待値演算の線形性
E ( x  y)
とは、何か?
ひとつの標本空間にふたつ(以上)の確
率変数が定義されていることがある。
「日本シリーズ」標本空間の場合、試合
数のほかに、「球場間の移動が何回あ
るか?」「勝ちチームが何回交替するだ
ろうか?」という確率変数はどうだろう
か?
二重の総和記号

マス目にしてみよう。マス目すべてについて、
足し算するという意味。まず、たてに足して
列ごとに合計値をだしてから、それをもう1
回合計してもよいし、まず、横に足していっ
てもよい。
X→Y↓
0
1
2
3
4
5
6
4
5
6
7
E( x  y)  E( x)  E( y)
n
の証明
m
E( x  y)   ( xi  y j ) p( xi , y j )
i 1 j 1
n
m
n
m
  xi p(xi , y j )   y j p(xi , y j )
i 1 j 1
i 1 j 1
n
m
m
n
i 1
j 1
j 1
i 1
  xi  p(xi , y j )   y j  p(xi , y j )
 E( x)  E( y)
分散
V ( x)  E(( x  E( x))2 )
n
  ( xi  E( x)) p( xi )
2
i 1
n
n
  xi p( xi )  2E( x) xi p( xi )  E( x)
2
i 1
 E( x2 )  E( x)2
分散の平方根が標準偏差。
i 1
2
分散(問題)

日本シリーズの試合数という確率変数の分散と標
準偏差を求めよ。ただし、期待値は、5.81試合。
4試合 5試合 6試合 7試合
実績値
0.100
0.240
0.340
0.320
理論値
1/8
1/4
5/16
5/16
問題の答え
1
1
5
5
2
2
2
(4  5.81)   (5  5.81)   (6  5.81)   (7  5.81) 
8
4
16
16
 1.03
2
1.03  1.01
確率変数x, yが独立の場合
)


)))
y
(
E

y
(

))
x
(
E

x
E((
V
( x  y)  V ( x)  V ( y)

x
y
p
(
x
)
p
(
y
)


 E( x  E( x))  2E( x  E( x))( y  E( y))
 E(xy))
 E( y
p( x ) y p( y )
E
 )y
y)(xyE
V (x E
E)((xxy
E((xx)xEyy))( yp)( x , y
2
i
i
2
j
i
j
i
j
i
j
i
2
j
j
2
i i
i
j
j
 E( x  E( x))  E( y  E( y))
 E( x) E( y)
 V ( x)  V ( y)
2
j
2
チェビシェフの不等式
確率変数xの期待値がμ、標準偏差がσとす
ると、正の実数kに対して、
1
P x    k   2
k
たとえば、k=2の場合、確率変数と平均=期待値
との差が標準偏差の2倍以上となる確率は、1/4
以下。
チェビシェフの不等式(証明)
n
 2   ( xi   )2 P( xi )
i 1
 iI  k  P( xi )  k 2 2 P  x    k 
2
1
 P  x    k   2
k
証明中、添え字の集合I は、以下で定義される。

I  i xi    k

二項変数・二項分布


硬貨をn回投げるときに出る表の数sは、確率変数であり、そ
の確率分布は、二項分布と呼ばれる。
一般に、「成功」と「失敗」という2通りの結果がありうる試行が
あり、成功の確率をp、失敗の確率をq=1-pとする。それを独
立にn回繰り返す。そのさい、成功の回数sは、二項分布に従
う。二項分布の確率関数は、
ns
p(s)  n Cs p (1 p)
s
二項分布の追加説明
n=5, s=3のケースを考える。
 SSSFFの起こる確率は、
pppqq
ほかにも、成功3回の場合がある。どれだけあ
るか?

1,2,3,4,5
という5つの場所から、3つを取る組み合わ
せだけある。
二項分布の期待値・分散
二項変数sは、ゼロワン変数の和であることに
注意する。すなわち、
n
s   xi
i 1
E( xi )  0  (1  p)  1 p  p
V ( xi )  (0  p)2  (1  p)  (1  p)  p  p(1  p)
 E(s)  np
V (s)  np(1  p)
二項分布から正規分布へ
N回の独立試行、成功確率p、失敗確率q
成功の回数sの分布 二項分布
n→∞とすると、正規分布
正規分布
正規分布の確率密度関数
1
f ( x) 
e
 2
( x )

2 2
2
正規分布のグラフ
標準化・標準正規分布

正規確率変数xを次式のように、zに変換することを
標準化という。その場合、密度関数は、以下のよう
な単純なかたち(標準正規分布)になる。
z
x

1
f ( z) 
e
2
z2

2
標準正規分布表





















Z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
0.00
0.5000
0.4602
0.4207
0.3821
0.3446
0.3085
0.2743
0.2420
0.2119
0.1841
0.1587
0.1357
0.1151
0.0968
0.0808
0.0668
0.0548
0.0446
0.0359
0.0287
0.01
0.4960
0.4562
0.4168
0.3783
0.3409
0.3050
0.2709
0.2389
0.2090
0.1814
0.1562
0.1335
0.1131
0.0951
0.0793
0.0655
0.0537
0.0436
0.0351
0.0281
0.02
0.03 0.04
0.4920 0.4880 0.4840
0.4522 0.4483 0.4443
0.4129 0.4090 0.4052
0.3745 0.3707 0.3669
0.3372 0.3336 0.3300
0.3015 0.2981 0.2946
0.2676 0.2643 0.2611
0.2358 0.2327 0.2296
0.2061 0.2033 0.2005
0.1788 0.1762 0.1736
0.1539 0.1515 0.1492
0.1314 0.1292 0.1271
0.1112 0.1093 0.1075
0.0934 0.0918 0.0901
0.0778 0.0764 0.0749
0.0643 0.0630 0.0618
0.0526 0.0516 0.0505
0.0427 0.0418 0.0409
0.0344 0.0336 0.0329
0.0274 0.0268 0.0262
0.05
0.4801
0.4404
0.4013
0.3632
0.3264
0.2912
0.2578
0.2266
0.1977
0.1711
0.1469
0.1251
0.1056
0.0885
0.0735
0.0606
0.0495
0.0401
0.0322
0.0256
0.06
0.4761
0.4364
0.3974
0.3594
0.3228
0.2877
0.2546
0.2236
0.1949
0.1685
0.1446
0.1230
0.1038
0.0869
0.0721
0.0594
0.0485
0.0392
0.0314
0.0250
0.07
0.4721
0.4325
0.3936
0.3557
0.3192
0.2843
0.2514
0.2206
0.1922
0.1660
0.1423
0.1210
0.1020
0.0853
0.0708
0.0582
0.0475
0.0384
0.0307
0.0244
0.08
0.4681
0.4286
0.3897
0.3520
0.3156
0.2810
0.2483
0.2177
0.1894
0.1635
0.1401
0.1190
0.1003
0.0838
0.0694
0.0571
0.0465
0.0375
0.0301
0.0239
0.09
0.4641
0.4247
0.3859
0.3483
0.3121
0.2776
0.2451
0.2148
0.1867
0.1611
0.1379
0.1170
0.0985
0.0823
0.0681
0.0559
0.0455
0.0367
0.0294
0.0233
標準正規分布表を使った計算練習
[問題]確率変数x~N(4, 32)のとき、
Pr(4≦x≦6)を求めよ。
 [答]まず、xを標準正規分布にしたがう確率
変数z=(x-4)/3に変換する。
 Pr(4≦x≦6)
=Pr(0≦z≦2/3)=Pr(0≦z≦0.67)
= 0.5000- 0.2514=0.2486

中心極限定理
x1 , x2 , , xnが独立の確率変数で、
それぞれ分散が有限のと き 、
1
x  x1  x2   xn や x  ( x1  x2   xn ) の分布は、
n
nが大き ければ、 正規分布に近づく 。
正規分布は、ガウスの発見以来、誤差の分布をあ
らわすときに、よく使われる。(複雑な多数の原因が
相互に独立に不規則に作用すると考える!)
中心極限定理の図示
二項分布の正規近似(1)


4択問題100問にまったくでたらめに答えて正解が
19問以下である確率は?
二項確率の公式通りには、以下の確率を計算すれ
ばよい。
i
1

100 Ci  
 4
i 0
19

100i
 3
 4
 
面倒ならば、中心極限定理を利用できる。
二項分布の正規近似(2)

1
平均 np  100   25
4
標準偏差
連続補正とか、半整
数補正と呼ばれる補
正である。
1 3 5 3
np(1  p)  100   
 4.330127019
4 4
2
19.5
の正規分布と考えて、z=(19-25)/4.33=
-1.39
と標準化し、標準正規分布表で調べると
確率8.2%を得る。
二項分布の正規近似(3)



補正が不可欠なケース。
[問] 4択問題100問にまったくでたらめに
答えて正解がちょうど19問である確率は?
標準正規分布表で、
z=(19.5-25)/4.33=-1.27と
z=(18.5-25)/4.33=-1.50の間の確率
を調べると、0.10204-.06681=0.03523
謝辞


日本シリーズの例他について、清水誠著
『推測統計 はじめの一歩』(講談社ブルー
バックス、2000年)のものを使わせていた
だきました。
中心極限定理の図示は、T.H.ウォナコット
/R.J.ウォナコット著、国府田恒夫/田中一盛
/細谷雄三訳『統計学序説』(培風館、1978
年)のものです。