非樹狀貝氏網路

Download Report

Transcript 非樹狀貝氏網路

貝氏網路簡介
主講人:劉湘川
生物資訊研究所暨心理系
亞洲大學
1
網路(Bayesian Networks) 別名
貝氏推估網路 (Bayesian Inference
Networks)
 貝氏信念網路(Bayesian Belief
Networks)
 信念網路( Belief Networks)
 因果關係網路( Causal Networks)
 機率網路 ( Probabilistic Networks)
 影響力圖表( Influence Diagram )

2
貝氏網路之基本定義



3
貝氏推論:
善用先驗知識或專家意見並結合可觀察資訊之機率推
論模式稱為貝氏推論
非循環有向圖形:
以頂點集及有向邊集所組成之圖形稱為有向圖形,無迴圈
(loop)及迴路(cycle)之有向圖形稱為非循環有向圖形
(directed acyclic graph: DAG)
貝氏網路:
對不確定事務之描述與推論,以貝氏推論為基礎之非循環
有向圖形模式稱為貝氏網路(較嚴謹之定義如次頁)。
馬可夫條件與貝氏網路
[定義]
已知G=(V,E)為一DAG. V   X1, X 2 ,..., X n 
pa  X   Y | Y  X ,Y V  為X之親代集
n
若
P V   P  X1 , X 2 ,..., X n    P  X i | pa  X i  
i 1
則稱聯合機率 P  P V   P  X1, X 2 ,..., X n  滿足馬可夫
條件(Markov condition),
且稱(G,P)為貝氏網路
4
貝氏網路之基礎--貝氏定理

Thomas Bayes (1763)提出
P  x, y | z   P  x | z  P  y | z    X Y | Z 
P  z, x  P  z  P  x | z 
P  z | x 

P  x
P  x
P  x  EZ  P  x | Z   z P  z  P  x | z  normalized probability
P  z  : prior probability
P  x | z  : likelihood probability
5
P  z | x  : postrior probability
貝氏定理基本概念
B2
B1
B3
U
E
Thm : U 
n
Bi , Bi
i 1
P  Bk | E  
B j   , i  j 
P  Bk E 
PE

P  Bk  P  E | Bk 
n
 P  B P  E | B 
i 1
6
Bn
…
i
i
n
  n   n
 n
P  E   P  E U   P  E  Bi    P   E Bi     P  E Bi    P  Bi P  E | Bi 
i 1
 i 1
  i 1    i 1
事件獨立基本概念
1
S  1, 2,3, 4,5,6 , f  x   , x  S
6
A  1,3,5 , C  2, 4,6 , D  1, 2,3 , B  1, 2
1
P  A  P  A | S   P  C   P  C | S   , 樣本空間改變 : S  D, B
2
A D A D / S P  A D 2
1
P  A | D 


  P  A 
D
D/S
P  D
3
2
7
P  A | B 
P  A B
P  B
1
 P  A    A B
2
事件獨立之定義
若P  A  , P  B   0, 則
P  A | B 
P  B | A 
P  A B
P  B
PB
A
P  A
 P  A   P  A B   P  A  P  B   A B
 P B  P B
A   P  B  P  A   B  A
一般化 :
Def : P  A B   P  A  P  B   A B  B  A
8

 
Def : P  A B | C   P  A | C  P  B | C   A B | C  B  A | C

貝氏網路聯合機率聯鎖法則

貝氏網路為B(G,P);其中G=(V,E)為一非循環有向
圖DAG,P  P  x1 | 1  , P  x2 |  2  ,..., P  xn |  n 
為一組條件機率, i 代表頂點 xi 之親代頂點所成之
集合,且由P可簡化定義G中所有頂點x之聯合機
率密度(jpd)如下式:
n
P  X    P  xi |  i  其中 X  x , x ,..., x
1 2
n
i 1
註:無親代之頂點 xi 之邊際機率可記為

9
P  xi   P  xi |    P  xi | i 

貝氏網路推論過程之三種推理



10
演繹推理(Deductive reasoning):由一般至特
例之推理,即由因至果之推理,如黑格爾之三
段論證。
歸納推理(Inductive reasoning):由特例至一
般之推理,即由果至因之推理,如數學歸納法
設因推理(Abductive reasoning):為綜合歸納
與演繹之推理,先歸納觀察之果假設可能之因,
再由可能之因演繹所有可能之果,若有非預期
之果,則修正原有假設,形成新假設。
貝氏網路推論過程四步驟




11
1.設因推理引導模式之建構:
參考研究成果與先前經驗建立模式基本架構,並以統計
分析加以改進。
2.演繹推理附加事前參數估計:
從給定模式之變數結構,設定觀察變項之先驗分布。
3.歸納推理求出後驗分布:
自特定學生之反應或行為觀察值,更新模式之信仰機 率,
進而推論該模式潛在變項之狀態,此即證據式推理。
4.設因推理擴展學生模式架構:
由資料中非預期類型促發之歸納結果,形成模式更新假
設,再由新的假設演繹新的結果,並進行檢定。
貝氏網路機率推論核心
 貝氏網路證據推理過程中,如何根
據機率理論自給定學生之作答觀察
值,推論該模式潛在變項之狀態,
以求得後驗分布。必須要有嚴謹有
效之「推論規則」或「推論方法」 ,
此為貝氏網路機率推論核心。
12
貝氏網路四種推論方法




13
1.信息傳遞法(message passing)
(Pearl 1988)
2.區塊樹法(trees of cliques) [應用最廣]
(Lauritzen & Spiegelhalter 1988) (Jensen 1996)
3.質之傳遞(qualitative propagation)
(Henrion & Druzdzel 1990)
4.馬可夫鍊蒙地卡羅法(Markov Chain Monte
Carlo : MCMC)
(Gelman, Carlin, Stern, & Rubin, 1995)
樹狀貝氏網路證據推理簡介




14
任一頂點至多一親代者稱為「樹狀貝氏網路」
任一頂點至多一親代及一子代者稱為「鍊狀貝
氏網路」
鍊狀貝氏網路亦為一種「樹狀貝氏網路」
鍊狀貝氏網路與樹狀貝氏網路均可直接重複使
用貝氏定理與條件機率進行證據傳導(Jensen,
1996)
鍊狀貝氏網路證據推理簡介
更新X的
機率分配
根據新的X 使用
P  z | x 
Pz Px | z
P  x
根據更新之X,
以條件機率更新
Y之機率分配
更新Z的機率
Z
15
P x | z
X
Y
P  y | x
鍊狀與樹狀貝氏網路兩種證據推理


16
由「因變數」之證據,藉條件機率至「果變數」
之可能發生機率」,其證據推理過程即「預測」
由「果變數」之證據,藉貝式定理至「因變數」
之可能發生機率,其證據推理過程即「診斷」
樹狀貝氏網路證據推理簡介
根據新的證據X
使用貝氏定理
V
U
更新V的機率
診
斷
預
測
根據更新之X,
以條件機率更新
Z之機率分配
X
Y
17
預
測
預
測
Z
非樹狀貝氏網路區塊樹法簡介



18
貝氏網路中至少有一頂點間不只一親代者,稱為
「非樹狀貝氏網路」
非樹狀貝氏網路無法直接重複使用貝氏定理與條件機
率進行證據傳導(Jensen, 1996)
非樹狀貝氏網路可先將變項群組為幾個區塊(clique)子
集,使得每一區塊子集形成一鍊狀或樹狀貝氏網路,
則區塊內之變項可利用上述樹狀貝氏網路證據傳導規
則進行機率更新,並透過區塊交集進行區塊間之證據
傳導,最後更新整個網路變項機率。
非樹狀貝氏網路之例
W
V
X
U
Y
19
Z
非樹狀貝氏網路之例
V
W
區塊化與區塊交集
X
U
Z
Y
U,V
U,V,W
20
X
U,X
U,V,X
U,X,Y
X,Z
非樹狀貝氏網路醫學診斷架構之例
(Mislevy,1995)
流行性感冒x1
發燒x3
一疾病診斷貝氏網路 ,
21
咽喉感染x2
喉嚨痛x4
x1 , x2 , x3 , x4 均為二元(是、否)變項
醫學診斷例之證據推論步驟


如何根據先前之資料分配及患者A之症狀(證據),
透過上述貝氏網路架構推論其感染二種疾病之機
率。列出其實際執行之七步驟如下:
[步驟1] 變項聯合分配之遞迴表徵,並利用條件獨
立性質簡化聯合機率分配如下:
P  x1, x2 x3 , x4   P  x1  P  x2 | x1  P  x3 | x1, x2  P  x4 | x1, x2 , x3 
 P  x1  P  x2  P  x3 | x1, x2  P  x4 | x1, x2 
22
否則由連鎖乘積法則知P x1, x2 , x3 , x4  可有4!種展開式
由連鎖乘積法則知P x1, x2 , x3 , x4  可有4!種展開式
P  x1, x2 , x3 , x4   P  x1  P  x2 | x1  P  x3 | x1, x2  P  x4 | x1, x2 , x3 
P  x1, x2 , x3 , x4   P  x2  P  x3 | x2  P  x4 | x2 , x3  P  x1 | x2 , x3 , x4 
P  x1, x2 , x3 , x4   P  x3  P  x4 | x3  P  x1 | x3 , x4  P  x2 | x3 , x4 , x1 
P  x1, x2 , x3 , x4   P  x4  P  x1 | x4  P  x2 | x4 , x1  P  x3 | x4 , x1, x2 
P  x1, x2 , x3 , x4   P  x3  P  x1 | x3  P  x2 | x3 , x1  P  x4 | x3 , x1, x2 
P  x1, x2 , x3 , x4   P  x2  P  x4 | x2  P  x3 | x2 , x4  P  x1 | x2 , x4 , x3 
23
[步驟1]決定先驗機率及條件機率


1. 經由理論、專家意見、或實證資料決定 x1 , x2 之
先驗機率 P  x1  1  P  x2  1  0.11, P  x1  0  P  x2  0  0.89
2.經由理論、專家意見、或實證資料決定條件機率,可由
MCMC法估計實證資料所須條件機率。
x1
24
x2 P  x
3
 1| x1, x2  P  x3  0 | x1, x2 
x1
x2
P  x4  1| x1, x2 P  x4  0 | x1, x2 
1
1
0.99
0.01
1
1
0.91
0.09
1
0
0.90
0.10
1
0
0.05
0.95
0
1
0.90
0.10
0
1
0.90
0.10
0
0
0.01
0.99
0
0
0.01
0.99
[步驟2]表徵為非循環有向圖



25
頂點表變項,箭號由因頂點指向果頂點,表變項間條件相
依關係
將代數表徵對應至圖形表徵(DAG)
非直接關聯變項間之條件獨立關係可由下三者決定
序列連通 為「中知端斷」
即中間變項證據確知時,兩端變項為條件獨立
發散連通 為「因知果斷」
即中間因變項證據確知時,兩端果變項為條件獨立
收斂連通 為「果知因連」
即中間果變項證據確知時,兩端因變項為條件獨立
序列連通變項間之條件獨立關係
P  y
P  x | y
P  z | x
e
Y
X
有雲
下雨
Z
地濕
若確知下雨則不論有雲與否地濕機率均較大,即
中間X證據為確知時,兩端Y與Z為有向隔離,
即Y與Z為條件獨立,亦即:中知端斷
26
發散連通變項間之條件獨立關係
P  y | x
P  x
P  z | x
Y
X
Z
髮長:長,短
性別:男,女
身材:高,矮
X性別確知時,不能由髮長Y之訊息直接推論身材Z訊息,
即Y與Z為條件獨立:亦即:因知果斷
27
收斂連通變項間之條件獨立關係
P  y
P  x | y, z 
P z
Y
X
Z
嘔吐
流行性感冒
沙門氏菌感染
w
蒼白
X嘔吐為確知時,則發生Y與Z之原因
必互有消長互相傳遞,亦即:果知因連
28
反之:X嘔吐未確知時,因頂點Y與Z
為有向隔離,即Y與Z為條件獨立
[步驟3]表徵原圖為無向三角化圖




1.子頂點與所有親頂點均相連
2.去除邊之方向
3.三角化無向圖(Triangulated graph):一無向圖中,若所
有包含變項自己之迴路長皆不大於3,則稱此圖被三角化
4.三角化對應之三維機率表尚可判讀,四角化則無此優點
流行性感冒x1
29
發燒x3
咽喉感染x2
喉嚨痛x4
[步驟4]決定區塊與區塊交集
區塊:無向圖中之任一最大完整子圖稱為一區
塊(clique),亦即:任一區塊不會是其他區塊
之子圖,兩相異區塊之頂點數可不相同。
 區塊交集:兩區塊重疊之變項所成集合
稱為區塊交集。
 根據圖形理論定義決定區塊與區塊交集,以利
於後續證據之傳導。

30
點數不同區塊之例
區塊交集
x1
x2
區塊2
(點數為3)
x3
31
區塊1(點數為2)
x4
[步驟4]決定區塊與區塊交集(續)
流行性感冒x1
發燒x3
32
區塊1
區塊交集
咽喉感染x2
喉嚨痛x4
區塊2
[步驟5]轉成聯合樹表徵
區塊1
流行性感冒x1
咽喉感染x2
發燒x3
區塊交集
流行性感冒x1
咽喉感染x2
貝氏網路轉為聯合樹
33
區塊2
流行性感冒x1
咽喉感染x2
喉嚨痛x4
[步驟6]將[步驟1]之條件機率轉成聯合機率
變項之初始聯合機率 P  x1, x2   P  x1  P  x2  , P  x1, x2 , x3   P  x1, x2  P  x3 | x1, x2 
x1 x2
34
P  x1, x2 
P  x1, x2 , x3  1 P  x1, x2 , x3  0 P  x1, x2 , x4  1 P  x1, x2 , x4  0
1
1
0.0121
0.0120
0.0001
0.0110
0.0011
1
0
0.0979
0.0881
0.0098
0.0049
0.0930
0
1
0.0979
0.0881
0.0098
0.0881
0.0098
0
0
0.7921
0.0079
0.7842
0.0079
0.7842
0.8039
0.1119
0.8881
0.1961
區塊交集
區塊1
區塊2
[步驟7]以後驗機率更新架構

最後步驟為將已觀測到之變項機率重新調整,
再根據下式之條件機率進行其他變項機率之更
新,後續則可採用更新之機率診斷學生之錯誤
類型與概念缺失。
Pnew  x1 , x2 , x4   Pold  x4 | x1 , x2  Pnew  x1 , x2 
 Pold  x1 , x2 , x4  

 Pnew  x1 , x2 
 Pold  x1 , x2  
35
[步驟7]以後驗機率更新架構(續)
 Pold  x1 , x2 , x4  
Pnew  x1 , x2 , x4   Pold  x4 | x1 , x2  Pnew  x1 , x2   
 Pnew  x1 , x2 
 Pold  x1 , x2  
Pnew  x1, x2 , x4   P  x1, x2 , x4 | x3  1  P  x1, x2 | x3  1 P  x4 | x1, x2 , x3  1
P  x1 , x2 , x4 
 x4 x3 | x1, x2   P  x4 | x1, x2 , x3  1  P  x4 | x1, x2   P  x , x 
1 2

P  x1 , x2 , x4 
 P  x1 , x2 , x4 | x3  1 
P  x1, x2 | x3  1
P  x1 , x2 
36
 Pold  x1 , x2 , x4  
Pnew  x1 , x2 , x4   
 Pnew  x1 , x2 
 Pold  x1 , x2  
[步驟7]以後驗機率更新架構(續)
已知可觀察變項 x3  1
後更新之聯合機率
Pnew  x1, x2 , x4   Pnew  x1, x2  Pold  x4 | x1, x2 
x1 x2 Po  x1, x2 , x3  1 Pn  x1, x2  P  x  1| x , x  P  x  0| x , x  Pn  x1, x2 , x4  1
o
37
4
1
2
o
4
1
2
Pn  x1, x2 , x4  0
1
1
0.0120
0.0612
0.91
0.09
0.0557
0.0055
1
0
0.0881
0.4493
0.05
0.95
0.0225
0.4268
0
1
0.0881
0.4493
0.90
0.10
0.4044
0.0449
0
0
0.0402
0.01
0.99
0.0004
0.0398
0.4830
0.5170
0.0079
0.1961
正規化
貝氏網路推論簡介結論


38
根據上述七步驟,吾人則可由假定的先驗分
配,再結合可觀察的証據,去推論不可觀察的
潛在變項發生的機率,例如在上例中,根據病人之症
狀推論他感染某種病之可能性有多大。
在上例中,已知病人發燒,則喉嚨痛之機率為0.4830,
流行性感冒之機率為0.5105,喉嚨感染之機率為
0.5105,兩種病同時感染之機率為0.0612,只感染其
中一種病之之機率為0.8986,只感染流行性感冒之機
率為0.4493,只喉嚨感染之機率為0.4493,兩種均不
感染之機率為0.0402。