Transcript URL

富山大学知能情報工学科
「統計学」第7回
ホーエル『初等統計学』
第5章 主要な確率分布
高 尚策 (コウ ショウサク) 准教授
Email: [email protected]
1
前回の復習
• 確率変数:標本空間の上で定義された実数値関数
– 離散型
– 連続型
• 確率分布の性質:
– 標本の大きさを十分に大きくすると,標本平均mは母集団平均μに収
束する
標本平均:m
母集団平均:μ
無作為
2
標本分散:s
抽出
母集団分散:σ2
母集団(確率分布)
•
期待値
E[ X  c]  E[ X ]  c
標本(経験分布)
E[c  X ]  c  E[ X ]
第3回の講義で
紹介ずみ
E[ X  Y ]  E[ X ]  E[Y ]
補足
𝑉 𝑋 = 𝐸 𝑋 2 − (𝐸 𝑋 )2
𝑉 𝑐𝑋 = 𝑐 2 𝑉[𝑋]
2
前回の演習問題
標本の大きさを十分に大きくすれば,相対度数を用いた経験
分布は,確率分布に収束する
標本数N=1
標本数N=5
標本数N=10
標本数N=50
標本数N=300
標本数N=10000
大数の法則: 頻度 = 確率
3
この章で学ぶこと
• 代表的な2つの確率分布の導入
– 2項分布(離散型)
– (実践)エクセルを利用した 2項分布の確率計算
– 正規分布(連続型)
– (実践)エクセルで正規分布のグラフの書き方
• 2項分布の正規近似
4
1. 2項分布
• 1回の試行(trial)の結果が,「成功」か「失
敗」のいずれかに分類されるとき.これをベル
ヌーイ試行(Bernoulli trial)と呼ぶ.
– 例:コインを投げて,表が出たら「成功」
– 例:さいころを投げて,1の目が出たら「成功」
5
• 2項分布(binominal distribution):成功確率 p
の,n 回の独立な(independent)ベルヌーイ
試行での,成功回数 X の確率分布. B(n, p) と
表す.
– 観測される実際の分布ではなく,理論的な母集
団分布であることに注意する.
– この確率変数X を2項変数と呼ぶことがある.
6
2項分布の例
• さいころを投げて,1の目が出たら「成功」,そ
れ以外は「失敗」とする.これを3回繰り返す.
• 下の表は,この実験での標本空間(可能な結
果すべて)と,標本空間を構成する各点に付
与された確率を表している.
成功:S
失敗: F
結果
SSS
SSF
SFS
FSS
2
2
2
確率
𝟏 𝟑
( )
𝟔
1
6
5
( )
6
1
6
5
( )
6
1
6
5
( )
6
SFF
5
6
2
FSF
1 5
( )
6 6
2
1
( )
6
FFS
5
6
2
1
( )
6
FFF
𝟓 𝟑
( )
𝟔
7
• 標本空間の各点から成功回数 への写像X を考える.簡単に,
成功回数を確率変数X と考えてよい.
標本空間
SFS
成功回数
X
FFF
FFS
SFF
0
1
FSF
FSS
2
3
SSF
SSS
• もともとの標本点に付与されていた確率を,成功回数ごとに加
算すると,x 回成功する確率P{X = x} がわかる.
x
3
P{X = x}
𝟏 𝟑
( )
𝟔
2
1
3
6
2
1
5
( )
6
3
5 2 1
( )
6
6
0
𝟓
( )𝟑
𝟔
8
2項分布を与える関数
• 確率分布を計算する王道(だが大変)
– 標本空間の構成
– 各標本点への確率付与
– 確率変数 X の構成
– 確率変数 X の値ごとに,標本点に付与された確
率を加算
• n 試行の2項分布は次の式で与えられる.
P{ X  x} n C x p q
x
n x
n!

p x q n x
x!(n  x)!
9
2項分布の式の導出(n=3)
• 3回とも成功の確率は,  1   5 
  
6 6
• 2回成功する,ある特定の系列(たとえば,
2
1
FSS)の出現確率は,
3
1
 
6
5
 
6
1
 
6
5
 
6
0
• 1回成功する,ある特定の系列(たとえば,
FFS)の出現確率は,
1
2
10
• 0回成功する確率は,  1   5 
   
6 6
• 成功回数が1回および2回となる系列は1通
りではない.→ では何通りか?
0
3
• ある成功回数(たとえば,2回)になる,3回の
独立なベルヌーイ試行での,成功試行の組
み合わせの数を考えればよい.
11
成功回数2回の場合
3か所のうち,「成功」となる2か所を選ぶ
選び方の総数は,
3!
3
3 C 2
2!(3  2)!
12
• 一般に,n 回の試行で,成功となる x 回の試
行を選ぶ
• 選び方の数は,
n!
n Cx 
x!(n  x)!
• よって, n 回の試行で,x 回成功する確率は,
P{ X  x} n C x p q
x
n x
n!

p x q n x
x!(n  x)!
13
2項係数
• 2項係数(binomial coefficient)
n!
n Cx 
x!(n  x)!
• 2項定理の展開式において,係数に現れる.
(a  b)  (a  b)(a  b) (a  b)
n
1 n 1
 n C0 a b  n C1a b
0 n
  n Cn a b
n 0
14
2. 2項分布の性質
分散(中心まわりの変動)
平均(分布の中心)
15
2項分布の平均と分散
• 平均(期待値) np ,分散 npq
 q は「失敗」の確率,すなわち,1 – p
 この性質は覚えておくとよい
• この性質を証明する方法はいくつかあるが,
もっとも簡単なのは,1回のベルヌーイ試行で
の平均と分散を考えるもの.
16
• 1回目のベルヌーイ試行(成功確率 p)での,
「成功」回数を表す確率変数 X1
• P{X1=1} = p, P{X1=0} = q
X1
P(X1)
1
p
0
q
• 平均(期待値)
• 分散
E[ X1 ]  1 p  0  q  p
V [ X 1 ]  E[ X 1 ]  {E[ X 1 ]}
2
2
 1  p  0  q  p  p (1  p )  pq
2
2
2
17
• n 回のベルヌーイ試行での,「成功」回数を表
す確率変数 X
X  X1  X 2   X n
• 平均
E[ X ]  E[ X 1  X 2    X n ]
 E[ X 1 ]  E[ X 2 ]    E[ X n ]  np
• 分散(独立試行では加法性が成立)
V [ X ]  V [ X1  X 2    X n ]
 V [ X1 ]  V [ X 2 ]    V [ X n ]  npq
18
実践1:エクセルを利用した 2項分布における
成功確率の計算
• ベルヌーイ試行おいてx回成功する確率P{X=x} は,
エクセルのBINOMDIST 関数を用いて求められる.こ
の関数名の由来はBinominal Distribution(2項分
布)である.
• 例題:サイコロを投げる.1の目がでることを「成功」
とする.3回投げた時の成功回数の確率分布は,2
項分布となる.テキスト表3(p.95),図2(p.96)参照.
19
エクセルシートの準備
• 「成功回数」「2項係数」「成功確率P{x}」を記
録する列を用意する.サイコロは3回投げる
ので, 成功回数は0回から3回である.
20
COMBIN関数
• すべて成功あるいはすべて失敗という試行結
果の系列は1通りしかない.
• その他は複数とおりの系列がある.2項係数
はいくつの系列があるかを表す.
• 2項係数を計算するエクセルの関数は
COMBIN 関数である.たとえば,
COMBIN(3,2)は,3C2を計算して,3を返す.
• この関数名の由来はCOMBINATION である.
21
2項係数の計算
• n回の試行でx 回成功する系列の数(2項係
数)を計算する書式は,=COMBIN(n, x) である.
• たとえば,サイコロ投げ(1が成功)を3回行っ
て1回成功する系列の数を求めるには以下
のように=COMBIN(3, 1) と入力する.
22
• 2項係数を計算する列で,それぞれの成功回
数(0回から3回)に対応する2項係数を計算
する.COMBIN(3, 0) からCOMBIN (3, 3) までを
順に入力すると,下図のようになる.
23
成功確率の計算: BINOMDIST関数
• BINOMDIST 関数を用いて,P{x} を計算する.この関
数は,成功数x,試行回数n,成功確率p を指定して,
=BINOMDIST(x,n,p,FALSE)
と書く.最後のFALSEはP{x} を求める場合の指定で
ある. これをTRUE とすると,部分和の計算になる.
• BINOMDIST 関数を挿入し,成功確率P{x} を求める.
24
2項分布
• 下図のような確率分布(2項分布)が得られる.
• 最後に,確率分布のグラフを描く.
25
3. 正規分布
• 下の図のようなヒストグラムは,よく観察される.
– 釣鐘型(bell curve)
– 左右対称
• このようなヒストグラムの極限形(母集団分布)とし
て,正規分布(normal distribution)と呼ばれる確率
分布が仮定される.
26
確率密度関数
• 連続型の確率変数のデータで,ヒストグラム
を描く.釣鐘型のヒストグラムが得られた.
– 適当に階級を設定する.柱の面積を,その階級
に属する相対度数と等しくする.(全面積は1)
• 標本を大きくし,階級の幅を0に近づけていく
と,柱の上部での段差はなめらかになり,全
体として左右対称なグラフが見えてくる.
• このグラフの式が,正規分布の確率密度関
数(probability density function)である.
27
正規分布の確率密度関数
• 正規分布の平均をμ(ミュー),分散をσ2(シグ
マ2乗)として,N(μ, σ2) と表す.
• 正規分布の確率密度関数
f ( x) 
1
e
2 
1 ( x )2

2 2
– 本質的には,
e
 x2
28
• データから描かれるヒストグラムが釣鐘型に
見えても,母集団の分布が正規分布であると
は限らない.
• 統計学では,母集団の分布として正規分布
が仮定されることが多い.その仮定に問題が
あるようなら,そのときに対応を考える.
• 確率密度関数のグラフでは,縦軸は確率で
はない.確率密度である.
29
確率密度関数の性質
• 正規分布に限らず,確率密度関数には以下
の性質がある.数学的には,こうした性質を
持つ関数を確率密度関数と定義する.
f ( x)  0




b
a
f ( x)dx  1
f ( x)dx  P{a  X  b}
グラフの値はどこでも0以上.
グラフ下の全面積は1.理論的相対度数
のヒストグラムで,柱の面積をすべて足すと
1になることに対応している.
X=a から X=b までの,グラフ下の
面積は,その区間の値が出現する確率.
確率=面積
30
正規分布の性質
• 区間 μ±σ の,正規曲線下の面積は,曲線下の全
面積(=1)のおよそ68%
– これは,正規分布に従う確率密度関数 X において,この
区間の値が出現する確率である.
• 区間 μ±2σ の,正規曲線下の面積は,曲線下の全
面積(=1)のおよそ95%
• 区間 μ±3σ の,正規曲線下の面積は,曲線下の全
面積(=1)のおよそ99.7%
31
標準正規分布
• 標準正規分布(standard normal
distribution):平均0,分散1の正規分布.
• 正規分布表:標準正規分布に従う確率変数 Z
において,P{0≦Z≦z} (テキストp.295付録表
IV)あるいはP{z≦Z}の一覧を示したもの.
• 標準正規分布の確率密度関数における,こ
の区間での曲線下の面積である.
確率=面積
32
確率分布の標準化(非常に重要!!)
Xの分布:N( μ , σ2 )
Zの分布:N(0, 1)
• 平均 μ,分散 σ2 の正規分布に従う確率変数X
は,以下の変数変換(X → Z)により,標準正
規分布に従うようになる.
X 
標準化の公式 Z 

 μ を引くことで分布の位置を変え,平均を 0 にす
る.
 σ でわることにより,分散はもとの変数の 1/σ2 ,
標準偏差は 1/σ になる
33
測定値の標準化
• 標準化の変換は,母集団の確率分布のみな
らず,実際のデータに対しても行われる.
• この変換により,素点(raw score)は,平均か
ら見て,標準偏差いくつ分はなれているかを
表す標準得点(standardized score)に変換さ
れる.
• 偏差値は,標準得点を10倍し,50 を加えたも
の.偏差値の平均と標準偏差は?
34
実践2:エクセルで正規分布のグラフ
を描く方法
• ステップ1:確率変数 X の値 x を少しずつ変
化させて,そのときの確率密度関数の値 f(x)
を,エクセルの NORM.DIST 関数を用いて求
める.
• ステップ2:点 (x, f(x) ) の散布図を描き,すべ
ての点をなめらかな線でつなぐと,正規分布
の確率密度関数のグラフができる.
35
ワークシートの準備
• 確率変数 X の値を入力する列(下図のA列)
と,平均0,分散1の標準正規分布 N(0,1) の
確率密度関数 f(x) の値を計算する列(下図
のB列)を用意する.
36
Xの値を用意
• Xの値は -3.5 から +3.5 まで,0.1 きざみで用
意する.X の値を入力する列での一番上のセ
ル(下図のA2セル)を選択し,-3.5 という値を
入力する.
37
連続データの作成
• -3.5 という値を入力した
セルを選択し,「ホー
ム」タブの右端にある
「編集」から,下向き矢
印のアイコンをマウス
で左クリックする.表示
されるメニューから「連
続データの作成」を選
択する.
38
連続データの作成
• 表示されるウィンドウで,「範囲」を列,「増分値」を 0.1,
「停止値」を 3.5 とする.
• [OK] ボタンを押すと,列方向に,
0.1 きざみで,
-3.5 から 3.5 までの
値が入力される.
39
NORM.DIST 関数
• X の値それぞれに対応する f(x) の値を計算する.これに
はNORM.DIST関数を用いる.
• NORM.DIST関数は,確率変数 X の値 x ,平均,標準偏
差を指定して,=NORM.DIST(x, 平均, 標準偏差, FALSE) と
入力する.
• 最後の引数としてFALSEを指定すると,x に対応する f(x)
の値が返される.ここをTRUEとすると,与えられた正規
分布において-∞から x までの値が出現する確率 P{-
∞≦X≦x} が返される.
• NORM.DIST 関数は,Excel 2010 で新たに加えられた関
数.Excel 2007 以前で実習を行うときには,NORMDIST
関数を用いる.
– NORM のあとのコンマなし.
– 使い方は NORM.DIST 関数と同じ.
40
確率密度関数の値の計算
• 標準正規分布での, X = -3.5 に対応する確率
密度関数の値 f(-3.5) を求める.-3.5 という数
字はセル番地(下図ではA2)で指定すること
にして,関数 f(x) の値を計算するセル(下図
ではB2 )で,以下のように入力する.
標準正規分布の
平均は0, 分散
と標準偏差は1
41
確率密度関数の値の計算
• 確率変数 X の値それぞれに対して,対応する
f(x) の値をNORM.DIST関数で計算する.最初
に関数を入力したセルをコピーすればよい.
42
分散を変えて計算
• 分散の違いによる正規分布の曲線の変化を
観察するために,N(0, 0.52 ) と N(0, 1.52 ) につ
いても,下図のように f(x) の値を計算する.
– NORM.DIST 関数では,分散でなく標準偏差を与
える(たとえば, 1.52 でなく 1.5)ことに注意.
43
グラフを描く
• データの入力されたセルのいずれかをマウス
で選択したあと,「挿入タブ」の「グラフ」から,
「散布図(平滑線)」を選択する.
44
正規分布のグラフ完成
• 次のようなグラフができる.このように,「散布
図(平滑線)」は,関数のグラフを描くのに便
利である.
45
4. 2項分布の正規近似
• 2項分布を用いる問題は,n が大きくなると2
項係数の計算が厄介.
• このようなときに,近似的な解法があると便
利.
– 2項分布の正規近似(normal approximation):問
題の2項分布に近い正規分布を利用することが
できる.
46
• 例:ある射撃手が標的に命中させる確率を1/3
とするとき,この人が12回発射してそのうち少
なくとも6回命中させる確率はいくらか.
答え:
x n x
P
{
X

x
}

C
p
q
p=1/3, n=12 の2項分布:
n x
1
2
3
4
5
6
命中回数x 0
p{X=x}
0.008 0.046 0.127 0.212 0.238 0.191 0.111
8
9
10
11
12
命中回数x 7
p{X=x}
0.048 0.015 0.003 0.000 0.000 0.000
P{X>=6} = P{X=6}+P{X=7}+P{X=8}…+P{X=12} = 0.177
47
p=1/3, n=12 の2項分布:
P{X>=6} = P{X=6}+P{X=7}+P{X=8}…+P{X=12} = 0.177
P{X>=6}の値は上の図のヒストグラムで x=5.5から右側にある柱の
48
面積の和である.
p=1/3, n=12 の2項分布(平均np,分散npq)
と同じ平均と分散を持つ正規分布
当てはめた正規分布はN(np, npq)
N(np,npq)=N(4, 1.63^2)
正規分布でのP(X>=5.5)は標準化して 𝑍 =
𝑋 − 𝜇 5.5 − 4
=
= 0.92
𝜎
1.63
• テキストP.295の表IVからZ=0とZ=0.92の間の面積は0.321である.
49
• Z=0.92より右側の面積は0.5-0.321=0.179となる.
正規分布で近似できる2項分布の条件
• p = q = 1/2のとき,2項分布の確率分布は左右対称になる.
– 同じ平均(np)と分散(npq)を持つ正規分布がよくあてはまる
• p = 1/2でなくても,p および q の値が小さすぎず,n が十分
に大きいとき,2項分布は正規分布で近似できる.
– 目安として,np > 5(p が1/2より大きいときには,nq > 5)
例: n=20, p=0.1の2項分布に
は正規分布の左すそがうまく
適合しない
0.12
P{0}=(0.9)^20=0.12, 0はxが取
りうる最小値であり、この確率
はかなり大きいだから. 50
2項分布の正規近似
• 問題に合わせて,使う正規分布を変えるの
か?
– 平均 np 分散 npq の正規分布を使う?
• 標準正規分布は扱いが簡単で,特定範囲の
値が出現する確率を示した正規分布表も用
意されている.
• 成功回数を標準化すれば,平均が0,分散が
1となり,常に標準正規分布を利用できる.
51
図10 p=1/3, n=24 の2項分布
(横軸は成功回数)
52
図10 p=1/3, n=24 の2項分布で,
成功回数を標準化
53
2項分布の正規近似を用いた
問題解法(1/2)
1. 成功回数 x を標準化する(確率変数X→Z)
x  np
z
npq
2. テキストの標準正規分布表では,標準化さ
れた成功回数が 0 から |z| までとなる確率
を読み取る.
 成功回数が |z| 以上の確率を与える正規分布
表もある.
z = 0 に対応する x は, x = 0 ではなく,x = np
54
2項分布の正規近似を用いた
問題解法(2/2)
3. 問題にあわせて必要な計算を行う
z > 0 の場合(z < 0 は正規分布の対称性を利用)
テキストの正規分布表を用いる場合,z 回以下の
成功確率を求めたいのなら,読み取った値(成功
回数が 0 から z までとなる確率)に0.5 を加える.
z 回以上の成功確率を求めたいのなら,読み取っ
た値(成功回数が 0 から z までとなる確率)を0.5
から引く.
どの範囲の確率を求めているのか,図をよく見る
55
2項分布の正規近似を用いた
問題解法(注意点)
• 2項分布の正規近似を利用して,「回数」に関す
る問題を解くときには,離散型分布である2項分
布での成功回数を,連続型分布である正規分布
での成功回数に読みかえる必要がある.
– 例:「5回以上の成功」は「4.5回以上の成功」
– 割合に関する問題では読みかえ不要
• 読みかえ後の成功回数を標準化する
– テキストの例1(p.109),例2(p.110)をよく吟味せよ
56
まとめ
• 代表的な2つの確率分布の導入
– 2項分布(離散型)
– (実践)エクセルを利用した 2項分布の確率計算
– 正規分布(連続型)
– (実践)エクセルで正規分布のグラフの書き方
• 2項分布の正規近似
57
演習課題
• 課題:
正規分布の分散(標準偏差)でなく,平均を変える
と,確率密度関数のグラフはどのように変化するだろ
うか? エクセルで実験してみよう.
レポート内容:
1.作成した確率密度関数のグラフを貼り付ける.
2.説明文
名前と学籍番号をご記入のうえ、レポート用紙(A4)を提出する。
提出先:工学部大学院棟7階
締め切り時間:
NO.7708室のドアのポストに入れてください
来週月曜日(6月15日) 午後5時まで
58