slides - 松本研究室

Download Report

Transcript slides - 松本研究室

共参照関係を利用した
Markov Logicによる
医学生物学文書中のイベント抽出
吉川克正 (NAIST)
平尾努 (NTT CS Lab)
リーデル セバスチャン (U-Mass)
浅原正幸 (NAIST)
松本裕治 (NAIST)
2010.6.10.
研究の背景と目的
膨大な数の研究文書
複雑な意味的関係情報網
(意味ネットワーク)
• 目的:医学生物学研究者によって日々蓄積され続
ける膨大な文書から有用な関係情報を抽出したい
言語処理の意味解析技術を適用
2
本研究の扱うタスク
(Event-Argument Relation Extraction)
• 文書中における事象(Event)と項(Argument)を関
連付け,その間にある意味的関係を推定する
Theme
Cause
Theme
Theme
Theme
TPA induction increases the binding of AP-1 factors to this element.
event
event
argument
argument
event
argument
項目
事象(event)
項(argument)
事象-項
(event-arg)
argument
argument
事例
induction, increases, binding
TPA, AP-1 factors, this element, induction, binding
Theme(induction-TPA), Cause(increases, induction), Theme(increases,
binding), Theme(binding, AP-1 factors), Theme(binding, this element)
• 事態性名詞が多く,事象にも項にもなり得る表現が多数ある
3
従来手法の問題点
• SVMによるpipeline手法 [Bjorne et al., 2009]
• Markov Logicによるcollectiveな手法 [Riedel et al., 2009]
1. 共参照関係情報を利用していない
専用の共参照解析器を実装した上で,
談話構造上の制約を考慮する
問題点
2. 文内だけを解析の対象にしており,
文境界を越える事例を完全に無視している
共参照関係を含めて推移律を構築する
ことで,文外の項も同定の対象にする
4
文境界を越えた事象-項関係
S1
We analyzed the effect on the binding and
the activity of transcription factors at a regulatory element.
Theme
Cause
Theme
Theme
Theme
S2
TPA induction increases the binding of AP-1 factors to this element.
S3
TPA induction inhibits the binding of the transcription factor NF-E2 to
this transcriptional control element.
• 文内で完結しているように見える事象-項関係であっ
ても,話の主題となる表現は共参照関係によって,
前後の文脈とつながりがある
5
文境界を越えた事象-項関係
S1
We analyzed the effect on the binding and
the activity of transcription factors at a regulatory element.
Corefer
Theme
Cause
Theme
Theme
Theme
S2
TPA induction increases the binding of AP-1 factors to this element.
S3
TPA induction inhibits the binding of the transcription factor NF-E2 to
this transcriptional control element.
• S2内の"this element"はS1の"a regulatory
element"と共参照関係にある
• ここで,共参照関係にあるとは,異なる2つ以上の表
現が同一の実体を指し示している状態
6
文境界を越えた事象-項関係
S1
We analyzed the effect on the binding and
the activity of transcription factors at a regulatory element.
Theme
Theme
Cause
Theme
Corefer
Theme
Theme
S2
TPA induction increases the binding of AP-1 factors to this element.
S3
TPA induction inhibits the binding of the transcription factor NF-E2 to
this transcriptional control element.
• 故に,"this element"は照応詞に過ぎず,真
の項(Theme)は "a regulatory element“
• S3についても同様のことが考えられる
7
文境界を越えた事象-項関係
S1
We analyzed the effect on the binding and
the activity of transcription factors at a regulatory element.
Theme
Theme
Cause
Theme
Corefer
Theme
Theme
S2
TPA induction increases the binding of AP-1 factors to this element.
Theme
S3
Corefer
TPA induction inhibits the binding of the transcription factor NF-E2 to
Theme
this transcriptional control element.
• 繰り返し参照される項を含むような事象-項の関係は,文書理
解の手がかりとして価値が高いはず
• 本研究ではそのような事象-項関係を積極的に抽出する手法を
提案する
8
Markov Logic
[Richardson and Domingos, 2006]
• 統計的関係学習の枠組み
• Markov Networkのテンプレート言語
– Log-Linear Modelを構築する
• Markov Logic Network は (φ, w)の集合M
– φ : は一階述語論理の式 w : は実数値の重み


1

P( y)  exp  w  f c ( y ) 
Z
 ( ,w)M cC

述語
(可能世界)
正規化項
論理式
重み
定数
展開された論理式の真偽
(ニ値の素性)
• ハードな制約だけでなくソフトな制約を定義できる
(重み大  強い制約)
9
Markov Logicによるイベント抽出
[Riedel et al., 2009]
• 推定すべき情報を定義した述語 (hidden predicate)
predicate
event(i)
eventType(i,t)
role(i,j,r)
description
トークン i は事象である
トークン i のタイプは t である
トークンi はトークン j を項に持ち,その意味役割は r である
• 素性を定義する述語の例 (observed predicate)
predicate
description
pos(i,p)
トークン i の品詞は p である
protein(i)
トークン i はタンパク質である
dep(i,j,d)
トークンi はトークン j と依存関係dを持つ
corefer(i,j)
トークンi はトークン j と共参照関係にある
これらの述語を組み合わせることで素性を表現する
10
Markov Logic Networksの例
• 一階述語論理式による素性の定義方法
dep(i, j, obj)  role(i, j, T heme)
ground化
※ 素性は全てニ値
if
dep(13,16, obj)  role(13,16, T heme)
1
f i/13, j /16  
0 otherwise
pos(13,Verb)
protein(16)
dep(13,16,obj)
wa(Verb)
wb(regulation, Theme)
wc(obj,Theme)
event(13)
eventType(e,t)
role (13,16,Theme)
Weight Function
Weight value
Ground Formula
wa(Verb)
3.1
pos(13,Verb) ⇒ event(13)
wb(regulation,Theme)
-0.9
event(13) ^ eventType(13,regulation) ^ protein(16) ⇒ role(13,16,Theme)
11
提案手法
(共参照情報の利用の指針)
S1
The IRF-2 promoter region contains a CpG island .
1
3
2
6
7
8
9
Theme
Corefer
Cause
Theme
S2
5
4
The region is inducible by both interferons .
10
11
12
13
14
15
16
17
1. Feature Copy (共参照関係にある素性の共有)
2. Transition Rule (推移律による文間の事象-項同定)
3. Discourse Salience (談話構造上の主題性)
predicate
description
corefer(i,j)
トークンi はトークン j と共参照関係にある
12
共参照情報の利用①
(Feature Copy)
S1
The IRF-2 promoter region contains a CpG island .
1
Corefer
3
2
5
4
6
7
8
9
Copy
Theme
S2
The region is inducible by both interferons .
10
•
11
12
13
14
15
16
17
文内の項候補が共参照関係を持つ場合,
先行詞側の素性を照応詞側でも利用する
corefer(11,4)  wordChild(4, " IRF  2" )  role(13,11, T heme)
corefer( j, k )  F (k , f )  role(i, j, r) ・・・ 式(1
13
共参照情報の利用②
(Transition Rule)
S1
The IRF-2 promoter region contains a CpG island .
1
3
2
5
4
6
7
8
9
(C) Theme
(B) Corefer
(A) Theme
S2
The region is inducible by both interferons .
10
•
11
12
14
13
15
16
17
共参照関係を絡めた推移律により,文境界
を越えた事象-項関係を同定する
role(13,11, T heme)  corefer(11,4)  role(13,4, T heme)
(A)
(B)
(C)
role(i, j, r)  corefer( j, k )  role(i, k , r ) ・・・ 式(2
14
共参照情報の利用③
(Discourse Salience)
S1
The IRF-2 promoter region contains a CpG island .
1
3
2
5
4
6
7
8
9
Theme
Corefer
Theme
S2
The region is inducible by both interferons .
10
•
11
12
13
14
15
16
17
共参照関係にある項は談話構造上におけ
る主題性が高く,事象と結びつき易い
corefer( j, k )  r.role(i, j, r ) ・・・ 式(3
共参照関係にあるトークン j は少なくとも一つ,事象
との間に意味役割 r を持つ
15
実験設定
• データ:GENIA Event Corpus ver. 0.9
• 共参照解析器:pairwiseモデル
– 学習,推論:SVM-light
• Markov Logic Engine (Markov thebeast)
– 学習: one-best MIRA
– 推論: ILP solver with Cutting Plane Inference (CPI)
[Riedel, 2008]
• ベースライン手法:
– 共参照情報を利用しないモデル
– 共参照関係を決定的に利用して文境界を越えた事象-項
関係を推定するモデル
16
実験結果
• ベースライン手法と提案手法との比較
共参照関係にある
文内の事象-項
文間の事象-項
P
R
F
P
R
F
-
-
-
86.6
34.9
49.8
b) 決定的な共参照関係利用手法 w 式 1)
83.8
18.7
30.4
77.5
38.6
51.5
c) 提案手法 w 式 1) 2)
80.5
23.7
36.7
78.0
38.6
51.7
d) 提案手法 w 式 1) 3)
-
-
-
72.1
44.0
54.6
e) 提案手法 w 式 1) 2) 3)
87.8
25.3
39.3
74.0
45.7
56.5
f) システム e) に共参照のGoldデータを利用
86.7
58.2
69.7
68.8
64.7
66.7
a) 共参照関係無し
※ 1) Feature Copy, 2) Transition Rule, 3) Discourse Salience
• 共参照関係を利用したシステムはいずれもシステムa)よりも高い性能
• 共参照関係のゴールドラベルを利用した実験により,文間の事象-項関
係は共参照解析器の性能向上が効果的であることを示した
17
まとめ
• 事象-項関係推定において,Markov Logicに
よる共参照関係の利用手法を提案した
• 文境界を越える事象-項について,共参照関
係情報を利用することで一定の性能を達成で
きることを確認した
• 共参照関係にあること(主題性の高さ)が,事
象-項関係の結ばれ易さと一定の相関のある
ことを示した
18
今後の課題
日本語述語-項構造解析への応用
S1
大統領は苦悩していた.
S2
Φ そのボタンを押すことが正しいのは分かっていた.
S3
Φ だがしかし,あの時の事を思うと,どうしても押せなかった.
• ゼロ照応解析を含めた文間述語-項構造を捉える
• 特にガ格は15%以上がゼロ照応になる
• ゼロ照応の場合はさらに談話構造上価値の高い項
であると考えられる
19