Transcript URL

富山大学知能情報工学科
「統計学」第5回
ホーエル『初等統計学』
第3章 確率:ベイズの定理
高 尚策 (コウ ショウサク) 准教授
Email: [email protected]
前回の復習
• 確率に関する概念
– 試行 (trial), 標本空間 Ω (sample space)
– 事象 E (event), 単一事象 (simple event)
– 複合事象 (composite even), 事象演算
• 確率の公理
• 排反と,加法定理
– 2つの事象 Aと B
𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵)
– Aと B が互いに排反ならば,
𝑃 𝐴 ∩ 𝐵 =0
𝑃 𝐴∪𝐵 =𝑃 𝐴 +𝑃 𝐵
• 条件つき確率と,乗法定理
• 独立事象
𝑃 𝐴 ∩ 𝐵 = 𝑃(𝐴) × 𝑃(𝐵|𝐴)
– Aと B が独立ならば
𝑃 A B = 𝑃(A)
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝑃(𝐵)
前回演習問題の答え
課題1(事象の演算に関する)
A,B,Cを三つの事象とする.次の各場合を表す式を書け.
例)Aだけが起こる.答え:A ∩ 𝐵𝑐 ∩ 𝐶 𝑐
解釈:Aは起きるが、B,Cは起こらないのだから
1)A,Bが起きるがCは起こらない.
答え:𝐴 ∩ 𝐵 ∩ 𝐶 𝑐
解釈:A,Bは起きるが、Cは起こらないのだから
2)少なくとも一つが起こる.
答え①:𝐴 ∪ 𝐵 ∪ C
答え②:(𝐴𝑐 ∩ 𝐵𝑐 ∩ 𝐶 𝑐 )𝑐
解釈:どれも起こらない、の余事象だから
3)少なくとも二つが起こる.
答え:(𝐴 ∩ 𝐵) ∪ (𝐵 ∩ 𝐶) ∪ (𝐶 ∩ 𝐴)
解釈:A,Bが起こりCは起こっても起こらなくてもよい、という事象は𝐴 ∩ 𝐵だ
から、B,CおよびC,Aについても同じ
前回演習問題の答え
課題1(事象の演算に関する)
A,B,Cを三つの事象とする.次の各場合を表す式を書け.
例)Aだけが起こる.答え:A ∩ 𝐵𝑐 ∩ 𝐶 𝑐
解釈:Aは起きるが、B,Cは起こらないのだから
4)一つだけが起こる.
答え: 𝐴 ∩ 𝐵𝑐 ∩ 𝐶 𝑐 ∪ 𝐵 ∩ 𝐶 𝑐 ∩ 𝐴𝑐 ∪ 𝐶 ∩ 𝐴𝑐 ∩ 𝐵𝑐
解釈:例)の場合をA,B,Cについてサイクリックに書いて合併すればよいから
5)二つ起こるが三つともは起こらない.
答え①:(𝐴 ∩ 𝐵 ∩ 𝐶 𝑐 ) ∪ (𝐵 ∩ 𝐶 ∩ 𝐴𝑐 ) ∪ (𝐶 ∩ 𝐴 ∩ 𝐵𝑐 )
解釈:問1) A,Bが起きるがCは起こらない,の場合をA,B,Cについてサイクリッ
クに書いて合併すればよいのだから
答え②: 𝐴 ∩ 𝐵 ∪ 𝐵 ∩ 𝐶 ∪ 𝐶 ∩ 𝐴 − 𝐴 ∩ 𝐵 ∩ 𝐶
=[ 𝐴 ∩ 𝐵 ∪ 𝐵 ∩ 𝐶 ∪ 𝐶 ∩ 𝐴 ] ∩ (𝐴 ∩ 𝐵 ∩ 𝐵)𝑐
解釈:問3)少なくとも二つが起こる、の場合から 𝐴 ∩ 𝐵 ∩ 𝐶 を引き去れば
よいのだから
前回演習問題の答え
課題2(条件つき確率に関する)
K君は一目惚れの彼女に熱烈な手紙を出したが遂に返事はこなかった.ただし
出した先は,私信を検閲するので悪名高い女子寮で,検閲に引っかかって彼女
の手に渡らない確率は30%,彼女がそれを見て好意を抱いてくれても羞恥心
から返事を書かない確率は70%,見ても一笑に付してくずかごに投げ込む確
率は50%とする.K君には何%の割合で望みが残されているだろうか.
答え:
返事が来ない,という状態を前提としての条件付確率である,起こり
得るすべての場合を考え,それを標本空間𝛀として確率モデルを考えよう.
検閲にかかって手紙が彼女の手に届かないという事象をA,
届いてくずかご行きをB,
届いて好意をもっているが羞恥心から返事をくれないという事象をC
とする.
A,B,Cはたがいに交わらない.
A
そして
B
C
D
前回演習問題の答え
課題2(条件つき確率に関する)
答え: 返事が来ない,という状態を前提としての条件付確率である,起こり
得るすべての場合を考え,それを標本空間𝛀として確率モデルを考えよう.
検閲にかかって手紙が彼女の手に届かないという事象をA,届いてくずか
ご行きをB,届いて好意をもっているが羞恥心から返事をくれないという事象
をC とする.A,B,Cはたがいに交わらない.
そして
𝑷 𝑨 = 𝟎. 𝟑
𝟏
𝟏
𝑷 𝑩 = 𝑷 𝑨𝒄 = 𝟏 − 𝟎. 𝟑 = 𝟎. 𝟑𝟓
A
𝟐
𝟐
𝑷 𝑪 = 𝟎. 𝟕 × 𝑷 𝛀 − 𝑨 − 𝑩
= 𝟎. 𝟕 × 𝟏 − 𝟎. 𝟑 − 𝟎. 𝟑𝟓 = 𝟎. 𝟐𝟒𝟓
C
B
返事が来ないという事象Eは
D
E=A+B+C
そして K君が希望を持てるのはCの場合だから
𝑷(𝑬∩𝑪)
𝑷(𝑪)
𝟎.𝟐𝟒𝟓
𝟎.𝟐𝟒𝟓
𝑷 𝑪𝑬 =
=
=
=
≈ 𝟎. 𝟐𝟕𝟑
𝑷(𝑬)
𝑷 𝑨 +𝑷 𝑩 +𝑷(𝑪)
𝟎.𝟑+𝟎.𝟑𝟓+𝟎.𝟐𝟒𝟓
𝟎.𝟖𝟗𝟓
27%も希望が持てるのだから、やってみるものである.
今日の内容
• ベイズの定理
Thomas Bayes
(1702-1761)
「神の存在は,
方程式で説明できる」
出典 http://www-history.mcs.st-andrews.ac.uk/Mathematicians/
ベイズの提案
• あることの確率が知りたい
– 明日の天気
– 競馬
– 本気度
(晴れる確率)
(ある馬が1着になる確率)
(彼女が自分に気がある確率)
• とりあえずの情報しかない
– 今日は曇り,馬の調子が良い,自分に冷たい
この時点での,合理的な確率がわかる
例1:新しいカレシができた
• 「遊び」か「本気」かを判断したい
– 「遊び」の確率 75%
– 「本気」の確率 25%
…だと思う【事前確率】
• 週に2回デートできる可能性
– 「遊び」で,2回デートできる可能性
– 「本気」で,2回デートできる可能性
30%
60%
…だと思う【尤度】
出典 http://www.oricom.co.jp/marketing/0112252.html
新しいカレシができた
• 1週目
2回デートできた 【情報】
– そもそも「遊び」で,デートした確率
75% × 30% = 22.5%
– そもそも「本気」で,デートした確率
25% × 60% = 15%
– 合計 37.5% が,週2回デートできる全確率
• この結果に基づいて
– 「遊び」の確率
– 「本気」の確率
22.5 ÷ 37.5 = 60%
15 ÷ 37.5 = 40%
…だと思う【事後確率】
• これを事前確率として,次週の結果をみる
• 情報を増やすたびに,確率は上下しながら
“真の値”に近づく
「遊び」75%
「遊び」60%
「遊び」?
「本気」25%
「本気」40%
「本気」?
1週目
2回デートできた 【情報】
2週目
【次の情報】
ベイズ流の推測
• 確率=信念の程度
– いわゆる 「思いこみ」の大きさ(主観確率)
– だから,人の考え方によって,値が違う
• 真実は,情報によって変動する
– 新しく得た情報を,少しずつ反映できる
– 「経験」により,「思いこみ」が更新される
– 人間が,日常的に行っている判断の過程
ベイズ流の推測手順
1.予想をたてる


事前確率を設定する
本人の主観で,自由に決めてよい
2.尤度を設定する

ある真実のもとでの,結果の出やすさ
3.得た情報を反映する


事前確率と尤度から,事後確率を求める
これを,次の事前確率にする
ベイズ統計の歴史
• Thomas Bayes (1702-1761)
– ベイズの定理を発見
• Simon de Laplace (1741-1821)
– ベイズの定理を独自に発見・その重要性を理解
• Fisher, Neyman, Pearson (1900年代前半)
– ベイズの考えを非難・葬り去る
– 現在,主流である「頻度論的統計学」をつくる
頻度論的統計学をつくった人々
Sir. R. A. Fisher
J. Neyman
E. S. Pearson
(1890-1962)
(1894-1981)
(1895-1980)
出典 http://www-history.mcs.st-andrews.ac.uk/Mathematicians/
頻度論による推測
• 確率=頻度
– 実験を何回も繰り返したときの出現頻度(客観確率)
– 主観確率は,否定すべき(客観的でないから)
• 真実は,1つだけで,変動しない
– あらゆる情報は,1つの真実から発生している
– 全情報の出現頻度から,真実を推定する
– 得た情報は,多数の繰り返しの中の1回の標本
理論の対立
• 頻度論者(Frequentist)
– 長所 :
– 短所 :
客観的な分析ができる
何度も繰り返し実験ができる,という前提は,
強引すぎる
• ベイズ論者(Bayesian)
– 長所 :
– 短所 :
自然な考え方であり,事前知識も活用できる
主観確率を使うので,同じ情報があっても,
人によって前提から結論まで違う
最近のベイズ統計学
• Savage (1954)
– ベイズ統計学を体系化,再び注目され始める
• 各分野に幅広く応用
– 病気の診断,検索サイトGoogle,迷惑メールの判別,Web
サイトでの広告表示,勝負の予想
• ほぼすべての学問に応用
– 物理学,情報工学,経済学,心理学,医学,農学など
ベイズの定理
新しいカレシができた
• X カレシの本心 (遊び,本気)
• Y 週に2回デート (する,しない)
事前確率
新しいカレシができた
• X カレシの本心 (遊び,本気)
• Y 週に2回デート (する,しない)
尤度
新しいカレシができた
• 週に2回デートをしたとする
2回デート
する確率
「遊び」でデートした確率
「本気」でデートした確率
新しいカレシができた
事後確率
これを,新たな事前確率にすればよい。
簡略表現
• 事後確率の大きさは,分子だけで決まる
• 確率の大小だけ知りたいなら,分母を無視できる
は,「比例する」→「定数倍されている」
注意点
• ベイズの定理を用いる問題は,時間をさかの
ぼって確率を考えることが多い.
– 時間順:箱を選んで,ボールが出た(あたった)
– 逆順:あたった時,それはどの箱なのか
• しばしば「事後確率」(または「原因の確率」)
と呼ばれる.
– 因果を考えるのではない問題設定の方が多いけ
れども.
ベイズの定理
公式:
𝑃(𝐷|𝐻) × 𝑃(𝐻)
P HD =
𝑃(𝐷)
データ D が観察されたという条件のもとで(左側の円全体),
それが仮説 H のもとで生じたという(円の交わり部分),
条件つき確率を求める.
𝑃(𝐻 ∩ 𝐷)
P HD =
𝑃(𝐷)
• ベイズの定理で求めているのは,条件つき確
率である.
– ある「データ」「情報」「結果」が得られたとき,
– それが,ある特定の「仮説」「原因」のもとで生じ
た確率を求める.
𝑃(𝐻 ∩ 𝐷)
P HD =
𝑃(𝐷)
例題2(テキストp.57改変)
ある病気の患者は全人口の2%である.この
病気にかかっているかどうかを調べるために,
ある試薬を与える.この試薬はこの病気にと
ても敏感で,これにかかっている人の95%に
反応があらわれる.ただし,この病気にか
かっていない人の10%にも,反応があらわれ
てしまう.この試薬によって反応があらわれた
人が,本当にこの病気にかかっている確率は
いくらか.
𝑃(𝐻 ∩ 𝐷)
P HD =
𝑃(𝐷)
• 公式の分子および分母が,問題文からただち
には求められないことが多い.
𝑃(𝐻 ∩ 𝐷)
P HD =
𝑃(𝐷)
• そこで,ベイズの定理の出番!
– あくまで条件つき確率なのだということを忘れな
いように.
𝑃(𝐻 ∩ 𝐷)
P HD =
𝑃(𝐷)
乗法定理
𝑃 𝐻 ∩ 𝐷 = 𝑃(𝐻) × 𝑃(𝐷|𝐻)
事前確率 × 尤度
• 条件つき確率の公式で,分子を乗法定理に
よって計算する.
– 公式:
𝑃(𝐻 ∩ 𝐷)
P HD =
𝑃(𝐷)
– 乗法定理: 𝑃 𝐻 ∩ 𝐷 = 𝑃(𝐻) × 𝑃(𝐷|𝐻)
• 注意:分子を以下のように変形すると計算で
きない.「仮説 → データ」という時間順に考え
る.
𝑃 𝐻 ∩ 𝐷 = 𝑃(𝐷) × 𝑃(𝐻|𝐷)
P{病気 | 陽性}
P{病気 and 陽性}

P{陽性}
P病気 P陽性 | 病気

P陽性
0.02  0.95

P陽性
さて,分母はどうなる?
ひっくり返した形
が使われている
• 陽性反応が出るのは,2つの場合がある.
– 問題の病気ではないが,陽性反応が出た.
– 問題の病気で,陽性反応が出た.
• 陽性反応が出るのは,2つの場合がある.
– 事象「𝐻 𝑐 ∩D」:問題の病気ではないが,陽性反
応が出た.
– 事象「H ∩ D」:問題の病気で,陽性反応が出た.
• これらの事象は排反なので,加法定理が使
える.
• 事象「H ∩ D」の確率は,公式の分子ですでに
求めた.
– 事象「 𝐻 𝑐 ∩ D」の確率も,同様に計算できる,
P{病気 | 陽性}
P{病気で陽性}

P{陽性}
P{病気で陽性}

P{病気で陽性}  P{病気でないのに陽性}
P{病気}P{陽性 | 病気}

P{病気}P{陽性 | 病気}  P{病気でない}P{陽性 | 病気でない}
2円の重なりの図から明らかなように,分子と分母は,
部分と全体の関係にある.
同じ「部品」(交わり部分)が,必ず両方に使用される.
P{病気 | 陽性}
P{病気で陽性}

P{陽性}
P{病気で陽性}

P{病気で陽性}  P{病気でないのに陽性}
P{病気}P{陽性 | 病気}

P{病気}P{陽性 | 病気}  P{病気でない}P{陽性 | 病気でない}
0.02  0.95

0.02  0.95  0.98  0.10
0.019

分子:病気で(病気が原因で)陽性
0.019  0.098
 0.16
分母:とにかく陽性の場合すべて
樹形図
0.02
0.98
0.95
陽性
0.02×0.95
0.05
陰性
0.02×0.05
0.10
陽性
0.98×0.10
0.90
陰性
0.98×0.90
病気
病気
でない
+
樹形図の描き方
• 「仮説」の事象ごとに枝を分岐させ,枝の末端に
事象のラベルをはる.
• 「仮説」の確率を枝にそって書き込む.
• それぞれの事象の枝ごとに,「データ」の違いに
より,さらに枝を分岐させる.枝の末端に「デー
タ」のラベルをはる.
• 分岐させたそれぞれの枝にそって,その「デー
タ」が与えられる条件つき確率を書き込む.
• 枝別れの末端にある積事象の確率を書き込む.
確率の更新
• ベイズの定理は,情報を得て,確率を更新する手続きで
ある.
– 情報が何もなければ,ある人が問題の病気にかかっている確
率は0.02,かかっていない確率は0.98
– そこに,検査結果の情報(陽性)がもたらされた.
– この人が問題の病気にかかっている確率は0.16,かかってい
ない確率は0.84に更新された.
「病気にかかっている」2%
「病気にかかっている」16%
「病気にかかっていない」98%
「病気にかかっていない」84%
【情報】
• われわれが日常生活で行っている確率更新を洗練した
ものと考えられる.
事前確率
(prior probability)
情報
事後確率
(posterior probability)
例題3
• ある大学では入学試験として2段階のテスト
を行う.1回目のテストで,ある点数Aを超え
る受験生は30%だった.この点数を超える学
生の合格率は80%,超えない学生の合格率
は15%であった.ある合格者が1回目のテスト
でA点以上であった確率はいくらか.
(吉原ほか『演習確率統計』培風館,p.43の
問題17を改変)
実習課題
• ノートに,H と D を示す2円の図を描いてみま
しょう.
– その図をもとに,ノートに問題の解答を作成してく
ださい.正解はすぐあとのスライドに示されていま
す.必ず自力で問題に取り組んでから,正解を見
ること!
P{A以上 | 合格}
P{A以上で, 合格}

P{A未満で, 合格}  P{A以上で, 合格}
P{A以上}P{合格 | A以上}

P{A未満}P{合格 | A未満}  P{A以上}P{合格 | A以上}
0.3  0.8

0.7  0.15  0.3  0.80
0.240

0.345
 0.696
事前確率
P{A以上}=0.3
P{A未満}=0.7
情報
「この人は
合格者」
事後確率
P{A以上}=0.696
P{A未満}=0.304
0.8
0.3
A以上
0.7
合格
0.3 0.8
0.2
0.15
不合格
0.3 0.2
合格
0.7  0.15
不合格
0.7  0.75
A未満
0.75
問題解決の流れ
1. 「データ」と「仮説」を明確にする.
– 2円の交わりの図を描く
問題解決の流れ
1. 「データ」と「仮説」を明確にする.
– 2円の交わりの図を描く
2. 樹形図を描く
– 最初に,「仮説」に関して場合分け.
– 次に,「データ」に関して場合分け.どのような事
象が観察されたか.どのようなデータが得られ
たか.
樹形図
0.02
病気
0.98
病気
でない
樹形図
0.02
0.98
0.95
陽性
0.02×0.95
0.05
陰性
0.02×0.05
0.10
陽性
0.98×0.10
0.90
陰性
0.98×0.90
病気
病気
でない
問題解決の流れ
1. 「データ」と「仮説」を明確にする.
– 2円の交わりの図を描く
2. 樹形図あるいはルーレット図を描く
– 最初に,「仮説」に関して場合分け.
– 次に,「データ」に関して場合分け.どのような事象
が観察されたか.どのようなデータが得られたか.
3. データに合致するすべての場合を分母に,問
題の仮説のもとでそのデータが生じでいるケー
スを分子にした,条件つき確率を計算する.
樹形図
0.02
0.98
0.95
陽性
0.02×0.95
0.05
陰性
0.02×0.05
0.10
陽性
0.98×0.10
0.90
陰性
0.98×0.90
病気
病気
でない
+
P{病気 | 陽性}
P{病気で陽性}

P{陽性}
分子:病気で(病気が原因で)陽性
分母:とにかく陽性の場合すべて
P{病気で陽性}

P{病気で陽性}  P{病気でないのに陽性}
p{病気} p{陽性 | 病気}

P{病気}P{陽性 | 病気}  P{病気でない}P{陽性 | 病気でない}
0.02  0.95

0.02  0.95  0.98  0.10
0.019

0.019  0.098
分子に出てくるパーツは,必ず分
 0.16
母にも出てくる.
まとめ:確率の諸公式
• P(A∪B) = P(A) + P(B) – P(A∩B)
• P(A∪B) = P(A) + P(B)
(加法の定理)
(排反事象の加法の定理)
• P(A∩B) = P(A)×P(B | A)
= P(B)×P(A | B)
• P(A∩B) = P(A)×P(B)
(乗法の定理)
(独立事象の乗法の定理)
• ベイズの定理(事後確率を計算するための公式)
𝑃(𝐷|𝐻) × 𝑃(𝐻)
P HD =
𝑃(𝐷)
演習課題
• A,B,Cの工場で、全製品の20%,35%,45%が
作られ各工場の5%,7%,4%が不良品であると
いう.ある製品が不良品であるとき,それが
A,B,Cの製品である割合は,それぞれいくらか.
名前と学籍番号をご記入のうえ、解答用紙(A4)を提出する。
提出先:工学部大学院棟7階
締め切り時間:
NO.7708室のドアのポストに入れてください
再来週月曜日(6月1日)
午後5時まで
来週(5月28日)は
休講