Transcript URL
富山大学知能情報工学科 「統計学」第7回 ホーエル『初等統計学』 第5章 主要な確率分布 高 尚策 (コウ ショウサク) 准教授 Email: [email protected] 1 前回の復習 • 確率変数:標本空間の上で定義された実数値関数 – 離散型 – 連続型 • 確率分布の性質: – 標本の大きさを十分に大きくすると,標本平均mは母集団平均μに収 束する 標本平均:m 母集団平均:μ 無作為 2 標本分散:s 抽出 母集団分散:σ2 母集団(確率分布) • 期待値 E[ X c] E[ X ] c 標本(経験分布) E[c X ] c E[ X ] 第3回の講義で 紹介ずみ E[ X Y ] E[ X ] E[Y ] 補足 𝑉 𝑋 = 𝐸 𝑋 2 − (𝐸 𝑋 )2 𝑉 𝑐𝑋 = 𝑐 2 𝑉[𝑋] 2 前回の演習問題 標本の大きさを十分に大きくすれば,相対度数を用いた経験 分布は,確率分布に収束する 標本数N=1 標本数N=5 標本数N=10 標本数N=50 標本数N=300 標本数N=10000 大数の法則: 頻度 = 確率 3 この章で学ぶこと • 代表的な2つの確率分布の導入 – 2項分布(離散型) – (実践)エクセルを利用した 2項分布の確率計算 – 正規分布(連続型) – (実践)エクセルで正規分布のグラフの書き方 • 2項分布の正規近似 4 1. 2項分布 • 1回の試行(trial)の結果が,「成功」か「失 敗」のいずれかに分類されるとき.これをベル ヌーイ試行(Bernoulli trial)と呼ぶ. – 例:コインを投げて,表が出たら「成功」 – 例:さいころを投げて,1の目が出たら「成功」 5 • 2項分布(binominal distribution):成功確率 p の,n 回の独立な(independent)ベルヌーイ 試行での,成功回数 X の確率分布. B(n, p) と 表す. – 観測される実際の分布ではなく,理論的な母集 団分布であることに注意する. – この確率変数X を2項変数と呼ぶことがある. 6 2項分布の例 • さいころを投げて,1の目が出たら「成功」,そ れ以外は「失敗」とする.これを3回繰り返す. • 下の表は,この実験での標本空間(可能な結 果すべて)と,標本空間を構成する各点に付 与された確率を表している. 成功:S 失敗: F 結果 SSS SSF SFS FSS 2 2 2 確率 𝟏 𝟑 ( ) 𝟔 1 6 5 ( ) 6 1 6 5 ( ) 6 1 6 5 ( ) 6 SFF 5 6 2 FSF 1 5 ( ) 6 6 2 1 ( ) 6 FFS 5 6 2 1 ( ) 6 FFF 𝟓 𝟑 ( ) 𝟔 7 • 標本空間の各点から成功回数 への写像X を考える.簡単に, 成功回数を確率変数X と考えてよい. 標本空間 SFS 成功回数 X FFF FFS SFF 0 1 FSF FSS 2 3 SSF SSS • もともとの標本点に付与されていた確率を,成功回数ごとに加 算すると,x 回成功する確率P{X = x} がわかる. x 3 P{X = x} 𝟏 𝟑 ( ) 𝟔 2 1 3 6 2 1 5 ( ) 6 3 5 2 1 ( ) 6 6 0 𝟓 ( )𝟑 𝟔 8 2項分布を与える関数 • 確率分布を計算する王道(だが大変) – 標本空間の構成 – 各標本点への確率付与 – 確率変数 X の構成 – 確率変数 X の値ごとに,標本点に付与された確 率を加算 • n 試行の2項分布は次の式で与えられる. P{ X x} n C x p q x n x n! p x q n x x!(n x)! 9 2項分布の式の導出(n=3) • 3回とも成功の確率は, 1 5 6 6 • 2回成功する,ある特定の系列(たとえば, 2 1 FSS)の出現確率は, 3 1 6 5 6 1 6 5 6 0 • 1回成功する,ある特定の系列(たとえば, FFS)の出現確率は, 1 2 10 • 0回成功する確率は, 1 5 6 6 • 成功回数が1回および2回となる系列は1通 りではない.→ では何通りか? 0 3 • ある成功回数(たとえば,2回)になる,3回の 独立なベルヌーイ試行での,成功試行の組 み合わせの数を考えればよい. 11 成功回数2回の場合 3か所のうち,「成功」となる2か所を選ぶ 選び方の総数は, 3! 3 3 C 2 2!(3 2)! 12 • 一般に,n 回の試行で,成功となる x 回の試 行を選ぶ • 選び方の数は, n! n Cx x!(n x)! • よって, n 回の試行で,x 回成功する確率は, P{ X x} n C x p q x n x n! p x q n x x!(n x)! 13 2項係数 • 2項係数(binomial coefficient) n! n Cx x!(n x)! • 2項定理の展開式において,係数に現れる. (a b) (a b)(a b) (a b) n 1 n 1 n C0 a b n C1a b 0 n n Cn a b n 0 14 2. 2項分布の性質 分散(中心まわりの変動) 平均(分布の中心) 15 2項分布の平均と分散 • 平均(期待値) np ,分散 npq q は「失敗」の確率,すなわち,1 – p この性質は覚えておくとよい • この性質を証明する方法はいくつかあるが, もっとも簡単なのは,1回のベルヌーイ試行で の平均と分散を考えるもの. 16 • 1回目のベルヌーイ試行(成功確率 p)での, 「成功」回数を表す確率変数 X1 • P{X1=1} = p, P{X1=0} = q X1 P(X1) 1 p 0 q • 平均(期待値) • 分散 E[ X1 ] 1 p 0 q p V [ X 1 ] E[ X 1 ] {E[ X 1 ]} 2 2 1 p 0 q p p (1 p ) pq 2 2 2 17 • n 回のベルヌーイ試行での,「成功」回数を表 す確率変数 X X X1 X 2 X n • 平均 E[ X ] E[ X 1 X 2 X n ] E[ X 1 ] E[ X 2 ] E[ X n ] np • 分散(独立試行では加法性が成立) V [ X ] V [ X1 X 2 X n ] V [ X1 ] V [ X 2 ] V [ X n ] npq 18 実践1:エクセルを利用した 2項分布における 成功確率の計算 • ベルヌーイ試行おいてx回成功する確率P{X=x} は, エクセルのBINOMDIST 関数を用いて求められる.こ の関数名の由来はBinominal Distribution(2項分 布)である. • 例題:サイコロを投げる.1の目がでることを「成功」 とする.3回投げた時の成功回数の確率分布は,2 項分布となる.テキスト表3(p.95),図2(p.96)参照. 19 エクセルシートの準備 • 「成功回数」「2項係数」「成功確率P{x}」を記 録する列を用意する.サイコロは3回投げる ので, 成功回数は0回から3回である. 20 COMBIN関数 • すべて成功あるいはすべて失敗という試行結 果の系列は1通りしかない. • その他は複数とおりの系列がある.2項係数 はいくつの系列があるかを表す. • 2項係数を計算するエクセルの関数は COMBIN 関数である.たとえば, COMBIN(3,2)は,3C2を計算して,3を返す. • この関数名の由来はCOMBINATION である. 21 2項係数の計算 • n回の試行でx 回成功する系列の数(2項係 数)を計算する書式は,=COMBIN(n, x) である. • たとえば,サイコロ投げ(1が成功)を3回行っ て1回成功する系列の数を求めるには以下 のように=COMBIN(3, 1) と入力する. 22 • 2項係数を計算する列で,それぞれの成功回 数(0回から3回)に対応する2項係数を計算 する.COMBIN(3, 0) からCOMBIN (3, 3) までを 順に入力すると,下図のようになる. 23 成功確率の計算: BINOMDIST関数 • BINOMDIST 関数を用いて,P{x} を計算する.この関 数は,成功数x,試行回数n,成功確率p を指定して, =BINOMDIST(x,n,p,FALSE) と書く.最後のFALSEはP{x} を求める場合の指定で ある. これをTRUE とすると,部分和の計算になる. • BINOMDIST 関数を挿入し,成功確率P{x} を求める. 24 2項分布 • 下図のような確率分布(2項分布)が得られる. • 最後に,確率分布のグラフを描く. 25 3. 正規分布 • 下の図のようなヒストグラムは,よく観察される. – 釣鐘型(bell curve) – 左右対称 • このようなヒストグラムの極限形(母集団分布)とし て,正規分布(normal distribution)と呼ばれる確率 分布が仮定される. 26 確率密度関数 • 連続型の確率変数のデータで,ヒストグラム を描く.釣鐘型のヒストグラムが得られた. – 適当に階級を設定する.柱の面積を,その階級 に属する相対度数と等しくする.(全面積は1) • 標本を大きくし,階級の幅を0に近づけていく と,柱の上部での段差はなめらかになり,全 体として左右対称なグラフが見えてくる. • このグラフの式が,正規分布の確率密度関 数(probability density function)である. 27 正規分布の確率密度関数 • 正規分布の平均をμ(ミュー),分散をσ2(シグ マ2乗)として,N(μ, σ2) と表す. • 正規分布の確率密度関数 f ( x) 1 e 2 1 ( x )2 2 2 – 本質的には, e x2 28 • データから描かれるヒストグラムが釣鐘型に 見えても,母集団の分布が正規分布であると は限らない. • 統計学では,母集団の分布として正規分布 が仮定されることが多い.その仮定に問題が あるようなら,そのときに対応を考える. • 確率密度関数のグラフでは,縦軸は確率で はない.確率密度である. 29 確率密度関数の性質 • 正規分布に限らず,確率密度関数には以下 の性質がある.数学的には,こうした性質を 持つ関数を確率密度関数と定義する. f ( x) 0 b a f ( x)dx 1 f ( x)dx P{a X b} グラフの値はどこでも0以上. グラフ下の全面積は1.理論的相対度数 のヒストグラムで,柱の面積をすべて足すと 1になることに対応している. X=a から X=b までの,グラフ下の 面積は,その区間の値が出現する確率. 確率=面積 30 正規分布の性質 • 区間 μ±σ の,正規曲線下の面積は,曲線下の全 面積(=1)のおよそ68% – これは,正規分布に従う確率密度関数 X において,この 区間の値が出現する確率である. • 区間 μ±2σ の,正規曲線下の面積は,曲線下の全 面積(=1)のおよそ95% • 区間 μ±3σ の,正規曲線下の面積は,曲線下の全 面積(=1)のおよそ99.7% 31 標準正規分布 • 標準正規分布(standard normal distribution):平均0,分散1の正規分布. • 正規分布表:標準正規分布に従う確率変数 Z において,P{0≦Z≦z} (テキストp.295付録表 IV)あるいはP{z≦Z}の一覧を示したもの. • 標準正規分布の確率密度関数における,こ の区間での曲線下の面積である. 確率=面積 32 確率分布の標準化(非常に重要!!) Xの分布:N( μ , σ2 ) Zの分布:N(0, 1) • 平均 μ,分散 σ2 の正規分布に従う確率変数X は,以下の変数変換(X → Z)により,標準正 規分布に従うようになる. X 標準化の公式 Z μ を引くことで分布の位置を変え,平均を 0 にす る. σ でわることにより,分散はもとの変数の 1/σ2 , 標準偏差は 1/σ になる 33 測定値の標準化 • 標準化の変換は,母集団の確率分布のみな らず,実際のデータに対しても行われる. • この変換により,素点(raw score)は,平均か ら見て,標準偏差いくつ分はなれているかを 表す標準得点(standardized score)に変換さ れる. • 偏差値は,標準得点を10倍し,50 を加えたも の.偏差値の平均と標準偏差は? 34 実践2:エクセルで正規分布のグラフ を描く方法 • ステップ1:確率変数 X の値 x を少しずつ変 化させて,そのときの確率密度関数の値 f(x) を,エクセルの NORM.DIST 関数を用いて求 める. • ステップ2:点 (x, f(x) ) の散布図を描き,すべ ての点をなめらかな線でつなぐと,正規分布 の確率密度関数のグラフができる. 35 ワークシートの準備 • 確率変数 X の値を入力する列(下図のA列) と,平均0,分散1の標準正規分布 N(0,1) の 確率密度関数 f(x) の値を計算する列(下図 のB列)を用意する. 36 Xの値を用意 • Xの値は -3.5 から +3.5 まで,0.1 きざみで用 意する.X の値を入力する列での一番上のセ ル(下図のA2セル)を選択し,-3.5 という値を 入力する. 37 連続データの作成 • -3.5 という値を入力した セルを選択し,「ホー ム」タブの右端にある 「編集」から,下向き矢 印のアイコンをマウス で左クリックする.表示 されるメニューから「連 続データの作成」を選 択する. 38 連続データの作成 • 表示されるウィンドウで,「範囲」を列,「増分値」を 0.1, 「停止値」を 3.5 とする. • [OK] ボタンを押すと,列方向に, 0.1 きざみで, -3.5 から 3.5 までの 値が入力される. 39 NORM.DIST 関数 • X の値それぞれに対応する f(x) の値を計算する.これに はNORM.DIST関数を用いる. • NORM.DIST関数は,確率変数 X の値 x ,平均,標準偏 差を指定して,=NORM.DIST(x, 平均, 標準偏差, FALSE) と 入力する. • 最後の引数としてFALSEを指定すると,x に対応する f(x) の値が返される.ここをTRUEとすると,与えられた正規 分布において-∞から x までの値が出現する確率 P{- ∞≦X≦x} が返される. • NORM.DIST 関数は,Excel 2010 で新たに加えられた関 数.Excel 2007 以前で実習を行うときには,NORMDIST 関数を用いる. – NORM のあとのコンマなし. – 使い方は NORM.DIST 関数と同じ. 40 確率密度関数の値の計算 • 標準正規分布での, X = -3.5 に対応する確率 密度関数の値 f(-3.5) を求める.-3.5 という数 字はセル番地(下図ではA2)で指定すること にして,関数 f(x) の値を計算するセル(下図 ではB2 )で,以下のように入力する. 標準正規分布の 平均は0, 分散 と標準偏差は1 41 確率密度関数の値の計算 • 確率変数 X の値それぞれに対して,対応する f(x) の値をNORM.DIST関数で計算する.最初 に関数を入力したセルをコピーすればよい. 42 分散を変えて計算 • 分散の違いによる正規分布の曲線の変化を 観察するために,N(0, 0.52 ) と N(0, 1.52 ) につ いても,下図のように f(x) の値を計算する. – NORM.DIST 関数では,分散でなく標準偏差を与 える(たとえば, 1.52 でなく 1.5)ことに注意. 43 グラフを描く • データの入力されたセルのいずれかをマウス で選択したあと,「挿入タブ」の「グラフ」から, 「散布図(平滑線)」を選択する. 44 正規分布のグラフ完成 • 次のようなグラフができる.このように,「散布 図(平滑線)」は,関数のグラフを描くのに便 利である. 45 4. 2項分布の正規近似 • 2項分布を用いる問題は,n が大きくなると2 項係数の計算が厄介. • このようなときに,近似的な解法があると便 利. – 2項分布の正規近似(normal approximation):問 題の2項分布に近い正規分布を利用することが できる. 46 • 例:ある射撃手が標的に命中させる確率を1/3 とするとき,この人が12回発射してそのうち少 なくとも6回命中させる確率はいくらか. 答え: x n x P { X x } C p q p=1/3, n=12 の2項分布: n x 1 2 3 4 5 6 命中回数x 0 p{X=x} 0.008 0.046 0.127 0.212 0.238 0.191 0.111 8 9 10 11 12 命中回数x 7 p{X=x} 0.048 0.015 0.003 0.000 0.000 0.000 P{X>=6} = P{X=6}+P{X=7}+P{X=8}…+P{X=12} = 0.177 47 p=1/3, n=12 の2項分布: P{X>=6} = P{X=6}+P{X=7}+P{X=8}…+P{X=12} = 0.177 P{X>=6}の値は上の図のヒストグラムで x=5.5から右側にある柱の 48 面積の和である. p=1/3, n=12 の2項分布(平均np,分散npq) と同じ平均と分散を持つ正規分布 当てはめた正規分布はN(np, npq) N(np,npq)=N(4, 1.63^2) 正規分布でのP(X>=5.5)は標準化して 𝑍 = 𝑋 − 𝜇 5.5 − 4 = = 0.92 𝜎 1.63 • テキストP.295の表IVからZ=0とZ=0.92の間の面積は0.321である. 49 • Z=0.92より右側の面積は0.5-0.321=0.179となる. 正規分布で近似できる2項分布の条件 • p = q = 1/2のとき,2項分布の確率分布は左右対称になる. – 同じ平均(np)と分散(npq)を持つ正規分布がよくあてはまる • p = 1/2でなくても,p および q の値が小さすぎず,n が十分 に大きいとき,2項分布は正規分布で近似できる. – 目安として,np > 5(p が1/2より大きいときには,nq > 5) 例: n=20, p=0.1の2項分布に は正規分布の左すそがうまく 適合しない 0.12 P{0}=(0.9)^20=0.12, 0はxが取 りうる最小値であり、この確率 はかなり大きいだから. 50 2項分布の正規近似 • 問題に合わせて,使う正規分布を変えるの か? – 平均 np 分散 npq の正規分布を使う? • 標準正規分布は扱いが簡単で,特定範囲の 値が出現する確率を示した正規分布表も用 意されている. • 成功回数を標準化すれば,平均が0,分散が 1となり,常に標準正規分布を利用できる. 51 図10 p=1/3, n=24 の2項分布 (横軸は成功回数) 52 図10 p=1/3, n=24 の2項分布で, 成功回数を標準化 53 2項分布の正規近似を用いた 問題解法(1/2) 1. 成功回数 x を標準化する(確率変数X→Z) x np z npq 2. テキストの標準正規分布表では,標準化さ れた成功回数が 0 から |z| までとなる確率 を読み取る. 成功回数が |z| 以上の確率を与える正規分布 表もある. z = 0 に対応する x は, x = 0 ではなく,x = np 54 2項分布の正規近似を用いた 問題解法(2/2) 3. 問題にあわせて必要な計算を行う z > 0 の場合(z < 0 は正規分布の対称性を利用) テキストの正規分布表を用いる場合,z 回以下の 成功確率を求めたいのなら,読み取った値(成功 回数が 0 から z までとなる確率)に0.5 を加える. z 回以上の成功確率を求めたいのなら,読み取っ た値(成功回数が 0 から z までとなる確率)を0.5 から引く. どの範囲の確率を求めているのか,図をよく見る 55 2項分布の正規近似を用いた 問題解法(注意点) • 2項分布の正規近似を利用して,「回数」に関す る問題を解くときには,離散型分布である2項分 布での成功回数を,連続型分布である正規分布 での成功回数に読みかえる必要がある. – 例:「5回以上の成功」は「4.5回以上の成功」 – 割合に関する問題では読みかえ不要 • 読みかえ後の成功回数を標準化する – テキストの例1(p.109),例2(p.110)をよく吟味せよ 56 まとめ • 代表的な2つの確率分布の導入 – 2項分布(離散型) – (実践)エクセルを利用した 2項分布の確率計算 – 正規分布(連続型) – (実践)エクセルで正規分布のグラフの書き方 • 2項分布の正規近似 57 演習課題 • 課題: 正規分布の分散(標準偏差)でなく,平均を変える と,確率密度関数のグラフはどのように変化するだろ うか? エクセルで実験してみよう. レポート内容: 1.作成した確率密度関数のグラフを貼り付ける. 2.説明文 名前と学籍番号をご記入のうえ、レポート用紙(A4)を提出する。 提出先:工学部大学院棟7階 締め切り時間: NO.7708室のドアのポストに入れてください 来週月曜日(6月15日) 午後5時まで 58