Transcript pptファイル
確率の考え方の基礎
二項分布と正規分布
2006年1月25日
作成:本間聡
アウトライン
設問1:打者はヒットを打てるのか?
演習問題1:設問1の内容の繰り返し
二項分布から正規分布へ
設問2:サイコロを170回振る.
1の目が25~35回出る確率は?
正規分布表の使い方
演習問題2:設問2の内容の繰り返し
例題:試験で上位の人の得点を求める
設問1
打率が1/3のバッターがいる.3打席で少な
くとも1本のヒットを打つ確率は?
その確率は1となるか?
「打率が1/3」の本質
ヒットを○,アウトを×とする.
ある打者の成績
1
2
3
○
7
8
9
4
5
○
○
10
11
6
打率=
12
ヒットを打った打席数
13
14
15
16
17
○
○
○
18
全打席数
成績を見ると,打率1/3と言っても,
3打席中に必ず1本のヒットが出るわけではないことがわかる
設問内容:打率が1/3のバッターがいる.3打席で少なくとも1本のヒットを打つ確率は?
3打席で,ヒット・アウトはどのように
発生するのか?
発生する事象と確率
ヒット・アウトになる確率
ヒット:1/3
アウト:1-1/3=2/3
各事象の発生確率は
1打席
2打席
3打席
×
×
×
2/3× 2/3× 2/3=(2/3)3
○
×
×
1/3× 2/3× 2/3= (1/3) (2/3)2
×
○
×
2/3× 1/3× 2/3= (1/3) (2/3)2
×
×
○
2/3× 1/3× 2/3= (1/3) (2/3)2
○
○
×
1/3× 1/3× 2/3= (1/3)2 (2/3)
○
×
○
1/3× 2/3× 1/3= (1/3)2 (2/3)
×
○
○
2/3× 1/3× 1/3= (1/3)2 (2/3)
○
○
○
1/3× 1/3× 1/3= (1/3)3
設問内容:打率が1/3のバッターがいる.3打席で少なくとも1本のヒットを打つ確率は?
3打席で少なくとも1本のヒットを
打つ確率は?
少なくとも1本のヒットを打つ確率
=1ー(1本もヒットを打たない確率)
=1-(2/3)3
=0.704
つまり,3打席で少なくとも1本のヒットを打つ確率は約70%
打率1/3というのは,3打席中に必ず1本のヒットを打つことではない.
データ(成績)にはばらつきがあることを頭に入れること.
設問内容:打率が1/3のバッターがいる.3打席で少なくとも1本のヒットを打つ確率は?
数学としての整理1
ヒットになる確率p,アウトになる確率q(=1-p)とする
各事象の確率
1打席
2打席
3打席
×
×
×
q3
○
×
×
pq2
×
○
×
pq2
×
×
○
pq2
○
○
×
p2q
○
×
○
p2q
×
○
○
p2q
○
○
○
p3
ヒット0本の確率
q3
ヒット1本の確率
3pq2
ヒット2本の確率
3p2q
ヒット3本の確率
p3
0q3
3C0 p
1q2
C
p
3 1
2q1
3C2 p
3q0
C
p
3 3
設問内容:打率が1/3のバッターがいる.3打席で少なくとも1本のヒットを打つ確率は?
数学としての整理2
1回の試行で,事柄Aの起こる確率がpの試行を独立にn
回繰り返した時,事柄Aの起こる回数Xとするとその確率
は
P(X=k)=nCkpkqn-k (k=0,1…, n)
Xに対するP(X)の分布を2項分布Bin(n,p)と呼ぶ
二項分布の大原則は,試行毎に確率が変動しない.また,
事象が起こる,起こらないと事のみを対象とする.
(つまりは,先の打席の問題で,二塁打,ホームランなど
とは考えず,ヒットを打ったかどうかが重要)
数学としての整理3
打率が1/3のバッターがいる.p=1/3,q=2/3
3打席で0本のヒットを打つ確率は? →P(0)=3C0p0q3 = 0.296
3打席で1本のヒットを打つ確率は? →P(1)=3C1p1q2 = 0.444
3打席で2本のヒットを打つ確率は? →P(2)=3C2p2q1 = 0.222
3打席で3本のヒットを打つ確率は? →P(3)=3C3p3q0 = 0.037
0.5
0.4
確率P(X)
Bin(3, 1/3)
0.3
0.2
0.1
0.0
0
1
2
X
3
MATLABで関数を定義する
自分で定義する関数はmファイ
ルとして保存する必要がある.
ファイル→新規作成→mファイ
ル
編集画面が出てくる
Mファイルの書き方
function[出力変数リスト]=関
数名(入力引数リスト)
関数名と同じファイル名をつけて保
存する
例) 「ファイル→新規作成→mファイ
ル」で編集画面を出す.以下の文を入
力する
function y=test(x)
h=0;
for k=0:x
h=h+k;
end
y=h
ファイル名はtest.mとして保存
通常のmatlabの画面で
test(3)と入力する.結果を表示する
MATLAB覚え書き
Mファイル作成
Command Windowで<ファイル><新規作成><M-file>を実行する
M-fileを記述する.
関数のファイルをc:\MATLABR11\WORKにセーブして実行を確認し,
シャットダウン前に個人のフォルダにコピーして実行する .
↑自分でパスを設定してもよい.Webページなどを参考に
組み合わせの関数のプログラム
(MATLAB)
nCr
mファイルを作成する.
を計算する関数staticC(n,r)の定義
新規作成→mファイル
function result=staticsC(n,r)
k=1;
for m=0:r-1
k=k*(n-m)/(r-m);
end
result=k;
ファイルの名前はstaticsC.mとする
n!
r!(n r )!
n (n 1) (n r 1) (n r ) (n r 1) 1
r (r 1) (r 2) 1 (n r ) (n r 1) 1
n (n 1) (n 2) (n r 1)
約分
r (r 1) (r 2) 1
n Cr
staticC(5,3)と打てば,5C3の結果を出力する
組み合わせの関数のプログラム
(octave)
nCr
を計算する関数C(n,r)の定義
>>function y=staticC(n,r)
k=1;
for m=0:r-1
k=k*(n-m)/(r-m);
end
y=k;
end
Mファイルを作成せずに出来ます.
ただし保存しないと,プログラム終了後
関数情報は消える
n!
r!(n r )!
n (n 1) (n r 1) (n r ) (n r 1) 1
r (r 1) (r 2) 1 (n r ) (n r 1) 1
n (n 1) (n 2) (n r 1)
約分
r (r 1) (r 2) 1
n Cr
staticC(5,3)と打てば,5C3の結果を出力する
カレントディレクトリにmファイルを作成すれば,matlabと同様通常の関数として使用可能.
ファイルはテキストエディタで作成すること.ファイル名は関数名と同じ,拡張子はmとする
スライド9のグラフ作成のプログラム
>>n=3;
>>p=1/3;
>>q=1-p;
>>for m=0:n
B(m+1)=staticC(n,m)*p^m*q^(n-m);
←試行回数を入力
←事象Aが起きる確率
←事象Aが起こらない確率
←事象Aの起きる回数X
←Xに対する発生する確率
end
>>X=0:1:n;
>>stem(X,B)
BはP(X=k)=nCkpkqn-k (k=0,1…, n)を
計算している
試行回数を100回にした場合の結果を表示すること
演習問題1
セールスマンがある製品を売るために20件の家庭を訪問
する.この製品が売れる確率は10%(p = 0.1) であるとい
う.以下の問題に答えよ.
全く売れない確率を求めよ.
2 個売れる確率を求めよ.
3 個以上売れる確率を求めよ.
サイコロを10回振る.1の目がX回出る確率P(X)を求めよ.
さらにXに対するP(X)のグラフを作成せよ.
試行回数が増えるとどうなる?
打率1/3の打者の話に戻そう.スライド9を見直すと,3
回の打席で1本のヒットを打つ確率が最も高い値と
なったが,次に高い値となったのが1本もヒットを打て
ない場合.
打席数を増やしたらどうなるだろうか?
試行回数が増えるとどうなる?2
試行回数に対する確率分布の形状変化
試行数nが大きくなると
n/3を中心とする
対称な分布になる.
→正規分布で近似される
確率 P (X)
0.4
n=50
n=20
n=10
n=5
0.3
0.2
0.1
0.0
10
20
30
X
40
50
設問2
サイコロを170回振る.
1の目が25~35回出る確率は?
設問2の一つの回答(1)
スライド8より,1回の試行で,事柄Aの起こる確率がpの試行
を独立にn回繰り返した時,事柄Aの起こる回数Xとするとそ
の確率は
P(X=k)=nCkpkqn-k (k=0,1…, n)
先ほどのプログラムで,1回の試行で事柄A
が起こる確率をp=1/6とし,試行回数を170と
して,回数X(=25~35)に対するP(X)を計算
し,ぞれぞれを足し合わせる.
設問2の内容:サイコロを170回振る.1の目が25~35回出る確率は?
設問2の一つの回答(2)
0.09
0.08
約0.709
つまりは 約71%
0.07
0.06
確率P(X)
右図のX=25~35の範囲
の確率を足し合わせる
Bin(170,1/6)
0.05
0.04
0.03
0.02
0.01
0
0
20
40
60
80
100
120
回数X
設問2の内容:サイコロを170回振る.1の目が25~35回出る確率は?
140
160
180
演習問題2
サイコロを100回振る
1. 奇数の出る回数に対する確率分布を
計算し,図示せよ.
2. 10回~20回出る確率を求めよ
演習問題追加2-2
1,2,3の数字を記したカードがそれぞれ1枚,2枚
,3枚合計6枚ある.Aさんが一枚のカードを引き,
そのカードの数字をXとする.次にそのカードを戻し
てから,Bさんが一枚のカードを引き,そのカードの
数字をYとする
X+Yの確率分布を求めよ
正規分布を利用する理由
試行回数が多い場合,条件となるXについてすべての
確率を求め,足し合わせるのは非常に時間と労力がか
かる.
スライド14と17を比較すると,試行回数が多い場合は
設問1,設問2の確率分布は形が非常によく似ている.
→正規分布で近似
期待値と分散値:
正規分布を利用するために必要なパラメータ
正規分布に行く前に,期待値と分散値について
二項分布Bin(n,p)に従う確率変数Xの期待値と分散を求める
確率pで起こる事柄Aが,n回の試行で起こる回数がX
第i回目の試行の結果について,以下の確率変数X1,X2・・・Xnを考える
1 ( Aが起こったとき )
Xi
0 ( Aが起こらないとき)
事象Aが起きるか起きないかが
重要で,事象自体には値はな
い物とする
各Xi の確率分布は
Xi
P
1
p
0 計
q 1
但しq=1-p
2項分布の期待値と分散値
第i回目の試行の結果について,以下の確率変数X1,X2・・・Xnを考
える
各Xiの期待値:
各Xiの分散値
E( X i ) xk pk 1 p 0 q p
k
V ( X i ) xk E( X i )2 pk 1 p2 p 0 p2 q
k
pqq p
pq
n回試行を繰り返した場合(n倍して)
期待値及び分散値は
E( X ) np
V ( X ) npq
正規分布と確率
スライド12より試行回数nが大きくなると,期待値を中心に左右
対称の確率分布になる.
これは期待値E(x)=μ,分散値V(x)=σ2とした場合の正規曲線で近
似される.
1
y
e
2
N (, )
2
x 2
2 2
変曲点
変曲点
積分すると1となる
μ-σ
μ+σ
Y Axis Title
正規分布の特性
μ-σ
μ+σ
約68%が含まれる
μ-2σ
μ+2σ
約95%が含まれる
μ-3σ
μ+3σ
約99.7%が含まれる
二項分布と正規分布の比較
サイコロを170回振った場合の1の目が出る確率に
ついて
0.09
line 3
0.08
赤:二項分布Bin(170,1/6)
青:正規分布N(28.33,23.61)
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
0
20
40
60
80
100
120
140
160
180
正規分布の標準化(1)
正規分布N(μ,σ2)を標準正規分布N(0,1)に変換す
ることで,より使い勝手が良くなる
X
μ-σ
μ
μ+σ
Y
-σ
0
①μだけずらして平均を0とする(Y=X-μ)
σ
Z
-1
0
1
②σで割って標準偏差を1とする
Z=Y/σ=(X-μ)/σ
正規分布の標準化(2)
標準正規分布に変換するとは
X
Z
1
X 1
E(Z ) E
E( X ) 0
とすること.その場合,
期待値,分散値は→
1
X 1
V (Z ) V
2 V (X ) 2 2 1
XはN(μ,σ2)に従う
ZはN(1,0)に従う
P(a X b) P (a X b )
a X b
P
重要!
b
a
P
Z
正規分布表の使用方法(1)
横軸上のメモリzから,色がつ
いている領域の面積 I (z)を求
めるものが正規分布表
使用例)
z
1.25
正規分布表よりz=1.25
に対する値を探してみま
しょう.
縦軸より 1.2
横軸より 0.05
→青の範囲の確率は
0.3944となる
正規分布表の使用方法(2)
Zが負となる領域も含む場合
+
z=-0.67
z=-0.67
z=1.12
z=1.12
+
I (0.67)
=0.2486
zが負の領域は
正に折り返して計算する
z=0.67
I (1.12)
=0.3686
z=1.12
合計:0.6172
設問2の解法(1)
サイコロを170回振る.
1の目が25~35回出る確率は?
まず,期待値E,分散値Vを求める.
E=npより,E=28.33・・・
V=npqより,V=23.61・・・
いま求める確率はP(25≤X ≤35).
b
25 28.33
a
35 23.61
P(a X b) P
Z
より, P
Z
23.61
23.61
設問2の内容:サイコロを170回振る.1の目が25~35回出る確率は?
設問2の解法(2)
25 28.33
35 23.61
P
Z
23.61
23.61
P 0.686 Z 1.372
青の領域の面積を求める
+
z=-0.69
z=-0.69
z=1.37
I (0.69)
=???
z=1.37
I (1.37)
=???
+
z=0.69
z=1.37
設問2の解法(3)
標準正規分布表より求めた結果は? →0.668
二項分布より求めた結果は
→0.709
試行回数が小さいと誤差が生じる.
試行回数が小さい場合は,以下のように補正値を加えると良い
b 0.5
a 0.5
P
Z
→0.715
試行回数が大きい場合は補正は必要ない
設問2の内容:サイコロを170回振る.1の目が25~35回出る確率は?
演習問題3
10000人を対象にテストを実施した.その結
果,平均点75点(満点は100ではない).標
準偏差が10点であった.
75点以上100点未満の人数を推定せよ.
60点以下の人数を推定しなさい.
点数をXとし,75-Y≦X ≦75+Yの範囲に入
る確率を0.95とする.Yを求めよ
演習問題3-1
1. まずZ=(X-75)/10で変換
75 75 X 75 100 75
P(75 X 100) P
P0 Z 1.5
10
10
10
0 I (2.5) 0 0.4938
人数は10000×0.4938=4938人と推定
X 75 60 75
P( X 60) P
PZ 1.5
10
10
0.5 I (1.5) 0.5 0.4332 0.0668
人数は10000×0.0668=668人と推定
2
Y
Y
P(75 Y X 75 Y ) P Z
10
10
Y
2P
10
0.95
Y
P 0.475を満たす
10
Y
Z を正規分布表から求めると
10
Y
Z 1.96
10
よってY=19.6となる
演習問題4
打率0.25の打者がいる.年間500回打席がまわってく
る.ヒット(ホームランも含む)を140本以上打つ確率
を求めよ.
標準正規分布表を使って
余裕のある方は二項分布を使って真の値を求めよ.
(計算機を使って)
サイコロを360回振って,1または2の目の出る回数
がX=100~120となる確率を求めよ.
追加)センター試験の例題
ある年の大学入試センター試験のある科目で,受験者数
450000人の得点は,平均点65点,標準偏差20点の正規分
布に従うものとする.
70~90点の受験生は,ほぼ何人と考えられるか?
P(70≤X ≤90)を求めればよい →自分でやること
得点上位50000人目の得点はいくらか?
50000人目とは上位から50000/450000=0.111である.
(次のスライドに解法を書いているので参照すること)
得点上位10000人目の得点はいくらか?
自分で求めること
追加)センター試験の例題の続き
上位
ヒント)Z1はいくらになるか? これを求めるには赤
の領域を考える
0.5-0.111
=0.389
0.111
Z1
となるので,I(Z1)=0.389より,正規分布表で
条件に合うZ1の値を求める.→Z1=1.22
最後にZからXの値に変換する. Z
X 65
1.22
20
Xは約89点
設問の内容:得点上位50000人目の得点はいくらか?
50000人目とは上位から50000/450000=0.111である.