1 - 自然言語処理研究室 (徳永研・藤井研)

Download Report

Transcript 1 - 自然言語処理研究室 (徳永研・藤井研)

談話の顕現性を考慮した
重要語抽出とその応用
飯田 龍 徳永健伸
東京工業大学
{ryu-i,take}@cl.cs.titech.ac.jp
SigNL-193-11: 29 September 2009
1
はじめに
 談話の顕現性を考慮した語の重要度
 文章中のある文脈で出現する語が文章の主題
から見てどのくらい重要であるか
 要約・情報抽出などの応用分野で重要
 e.g. Web検索 (クエリ: ステロイド)
主題として導入されている例
アトピー性皮膚炎の治療に用いられるステロイドは、副作用
が強く、使用時には必ず医師の指示に従い、正しく使用する
ことが大切です
直接は関係が無いがキーワードが含まれるため検索される例
脳の病気にもステロイドみたいなアグレッシブな特効薬があ
ればいいのに~
2
典型的な語の重要度
 文章中に出現する語の重要度は典型的に
はtf-idfもしくはその亜種を用いて計算さ
れる
 tf-idf: 該当文章に出現する回数とその語の逆出
現頻度の積
 問題点
 日本語のような主題が頻繁に省略される言語
の場合,主題となる語に高い重要度を付与で
きない可能性がある
3
本研究のねらい
 Iida et al. (2009)で導入した顕現性の観点に
基づく語のランキングの情報を重要度と
して採用
 後方文脈でどの語が省略されるかを予測しな
がら語をランキングする
 tf-idfで捉えられない語の重要度を求めること
が可能
 要約を例にこの重要度の有効性を調査
4
目次
1. 研究背景と本研究のねらい
2. 談話の顕現性を考慮した重要語
ランキング (Iida et al. 2009)
3. 要約への応用
4. 評価実験
5. まとめと今後の課題
5
顕現性を考慮した重要語ランキングのアイデア
(Iida et al. 2009)
 顕現性の高い語は省略されやすい
 ゼロ照応の現象が起こっている場合に は
先行詞はその文脈において顕現性が高い
太郎1は 公園を 散歩していました.
(φ1ガ) 次郎2を 噴水の前で 見つけました.
(φ1ガ) (φ2ニ) 昨日の試合の結果を 聞きました.
 タグ付与されたゼロ照応関係を利用して
ある状況における顕現性の高さを学習
 静的モデル: 文章全体から学習
 動的モデル: 文章の各文から学習
6
静的モデル
 顕現性の高い語を1位,それ以外を2位とした
半順序関係を訓練事例とし, RankingSVM
(Joachims, 2002) を用いて全順序を出力する
ランカーを作成
 訓練: 1事例1記事
 1st : 一度でも文間の先行詞としてゼロ代名詞から
指される表現 (候補は文節単位に抽出)
 省略される可能性あり  顕現性が高い
 2nd : それ以外
7
訓練事例の例
太郎1は 公園を 散歩していました.
(φ1ガ) 次郎2を 噴水の前で 見つけました.
(φ1ガ) (φ2ニ) 昨日の試合の結果を 聞きました.
 1st : 太郎1,次郎2
 2nd : 公園,噴水,前,昨日,試合,結果
8
動的モデル
 文章の最初からある文まで見たときの
顕現性の高さを求める
太郎1が 公園を 散歩していま
した.
次郎2を 噴水の前で 見つけま
ranker
した.
昨日の試合の結果3を 聞きま
した.
あまりよくなかったようです. 1st:太郎1 2nd:結果3
3rd: 次郎2 …
9
動的モデル
 文章の最初からある文まで見たときの
顕現性の高さを求める
 前文脈で顕現性の高いN語をキャッシュに保持
しておき,現行の文に出現している語と比較
キャッシュ(size=2)
太郎1が 公園を 散歩していま
太郎1 公園
した.
次郎2を 噴水の前で 見つけま
太郎1 次郎2
した.
昨日の試合の結果3を 聞きま
ranker
した.
あまりよくなかったようです. 1st:太郎1 2nd:結果3
3rd: 次郎2 …
10
動的検出モデル: 訓練事例作成
 静的モデルと同様にRankingSVMで順序学
習を行う
 談話の各文で訓練事例集合を作成
 1st :文内もしくは前方文脈に出現する語のうち,
後方文脈のゼロ代名詞と照応関係になるもの
 2nd:それ以外
11
訓練事例作成の例
1st
太郎1が 公園を 散歩していま
した.
(φ1ガ) 次郎2を 噴水の前で 見
つけました.
(φ1ガ) (φ2ニ) 昨日の試合の結
果3を 聞きました.
(φ3ガ)あまりよくなかったよ
うです.
太郎1
2nd
公園
12
訓練事例作成の例
1st
太郎1が 公園を 散歩していま
した.
(φ1ガ) 次郎2を 噴水の前で 見
つけました.
(φ1ガ) (φ2ニ) 昨日の試合の結
果3を 聞きました.
(φ3ガ)あまりよくなかったよ
うです.
太郎1 次郎2
2nd
噴水 前
13
訓練事例作成の例
1st
太郎1が 公園を 散歩していま
した.
(φ1ガ) 次郎2を 噴水の前で 見
つけました.
(φ1ガ) (φ2ニ) 昨日の試合の結
果3を 聞きました.
(φ3ガ)あまりよくなかったよ
うです.
結果3
2nd
太郎1 次郎2
昨日 試合
14
動的検出モデル: 解析
 1つ前のリストと現在の文内の候補から新
たにリストを更新
 キャッシュのサイズは固定
太郎1が 公園を 散歩していま
した.
(φ1ガ) 次郎2を 噴水の前で 見
つけました.
(φ1ガ) (φ2ニ) 昨日の試合の結
果3を 聞きました.
(φ3ガ)あまりよくなかったよ
うです.
キャッシュ (size =2)
太郎1 公園
ranker
1st:太郎1 2nd 次郎2
…
15
順位学習に利用する素性
 両方のモデルで利用可能な素性
 品詞
 引用の中かどうか
 テキストの最初の文に出現
 格助詞 (e.g. 主題“は”, 主語“が”, etc.)
 文の最後の文節に係る
 動的モデルのみで利用可能な素性
 現在の文から候補までに出現した接続表現
 キャッシュの中に保持されているか否か
 候補までの距離(文単位)
16
顕現性の高い語の検出例(静的モデル) n=5
ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロ
シア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領
官邸など 数カ所が 炎上した。
ロシア側は 首都制圧の 最終段階に 入ったと みられる。
グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を
加えた 後、 装甲車部隊が 大統領官邸付近に 進出。
同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開し
ている。
一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビ
を 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五
十両を 破壊したと 発表。
また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表
団とともに 防空ごうに 避難しており、 無事と いう。
ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に
正月休戦を 提案したが、 ロシア側は これを 黙殺した。
17
顕現性の高い語の検出例(動的モデル) n=5
ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロ
シア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領
官邸など 数カ所が 炎上した。
ロシア側は 首都制圧の 最終段階に 入ったと みられる。
グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を
加えた 後、 装甲車部隊が 大統領官邸付近に 進出。
同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開し
ている。
一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビ
を 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五
十両を 破壊したと 発表。
また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表
団とともに 防空ごうに 避難しており、 無事と いう。
ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に
正月休戦を 提案したが、 ロシア側は これを 黙殺した。
18
顕現性の高い語の検出例(動的モデル) n=5
ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロ
シア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領
官邸など 数カ所が 炎上した。
ロシア側は 首都制圧の 最終段階に 入ったと みられる。
グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を
加えた 後、 装甲車部隊が 大統領官邸付近に 進出。
同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開し
ている。
一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビ
を 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五
十両を 破壊したと 発表。
また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表
団とともに 防空ごうに 避難しており、 無事と いう。
ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に
正月休戦を 提案したが、 ロシア側は これを 黙殺した。
19
顕現性の高い語の検出例(動的モデル) n=5
ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロ
シア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領
官邸など 数カ所が 炎上した。
ロシア側は 首都制圧の 最終段階に 入ったと みられる。
グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を
加えた 後、 装甲車部隊が 大統領官邸付近に 進出。
同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開し
ている。
一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビ
を 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五
十両を 破壊したと 発表。
また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表
団とともに 防空ごうに 避難しており、 無事と いう。
ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に
正月休戦を 提案したが、 ロシア側は これを 黙殺した。
20
顕現性の高い語の検出例(動的モデル) n=5
ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロ
シア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領
官邸など 数カ所が 炎上した。
ロシア側は 首都制圧の 最終段階に 入ったと みられる。
グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を
加えた 後、 装甲車部隊が 大統領官邸付近に 進出。
同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開し
ている。
一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビ
を 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五
十両を 破壊したと 発表。
また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表
団とともに 防空ごうに 避難しており、 無事と いう。
ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に
正月休戦を 提案したが、 ロシア側は これを 黙殺した。
21
顕現性の高い語の検出例(動的モデル) n=5
ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロ
シア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領
官邸など 数カ所が 炎上した。
ロシア側は 首都制圧の 最終段階に 入ったと みられる。
グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を
加えた 後、 装甲車部隊が 大統領官邸付近に 進出。
同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開し
ている。
一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビ
を 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五
十両を 破壊したと 発表。
また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表
団とともに 防空ごうに 避難しており、 無事と いう。
ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に
正月休戦を 提案したが、 ロシア側は これを 黙殺した。
22
顕現性の高い語の検出例(動的モデル) n=5
ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロ
シア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領
官邸など 数カ所が 炎上した。
ロシア側は 首都制圧の 最終段階に 入ったと みられる。
グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を
加えた 後、 装甲車部隊が 大統領官邸付近に 進出。
同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開し
ている。
一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビ
を 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五
十両を 破壊したと 発表。
また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表
団とともに 防空ごうに 避難しており、 無事と いう。
ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に
正月休戦を 提案したが、 ロシア側は これを 黙殺した。
23
自動要約への応用
 Iida et al. (2009)の顕現性に基づく手法では
ランキングの順位を出力する
 要約のような応用処理では語の重要度を
求める必要がある
静的モデルと動的モデルの出力する順位
をもとに重要度をヒューリスティックに
求める
24
各モデルの重要度の計算
 静的モデル
1
scores ( wi ) 
ranki
 順位が低いほど重要度が高い
 動的モデル
1
scored ( wi )  
j rank ji
rankji : 文Sjにおけるwiの順位
 順位の逆数の総和が大きいほど
重要度が高い
25
目次
1. 研究背景と本研究のねらい
2. 談話の顕現性を考慮した重要語
ランキング (Iida et al. 2009)
3. 要約への応用
4. 評価実験
5. まとめと今後の課題
26
評価実験
 Text Summarization Challenge 2 (TSC2)の評
価データを利用した評価実験
 提案する重要度が有効かを調査するため
自動要約の問題を例に予備実験を行った
 重要文抽出に関する評価
 重要箇所抽出に関する評価
27
重要文抽出
 文章の重要箇所を文単位で抽出
 例)30%の重要文
太平洋戦争末期、フィリピン・ダバオ市で日本人の父親と生き別れ、父親の出
身地である長野県上伊那郡飯島町に国籍回復を求めていたフィリピン残留孤児、
竹沢大助さん(63)=フィリピン名、ドミナドル・ランバヤン=に対し、飯
島町は三日、戸籍への書き込み作業を開始することを明らかにした。|竹沢さん
は十日、同町で戸籍謄本を手にする。 |生き別れから五十年余。“日本人”に戻る
ことのできた来日中の竹沢さんは喜びをかみしめた。 |竹沢さんの亡父・水津八
さんは麻栽培のためダバオ市に渡り、一九二三年にフィリピン人女性と結婚。 |
竹沢さんは二男。戦争が始まって父は召集され、竹沢さん自身も四四年に軍需工
場に徴用された。 |終戦後は父親は強制送還され、そのまま生き別れとなった。 |
反日感情の中、日本人であることを隠し続けたが、十八年ほど前から日本にいる
親類と行き来を始めた。 |ところが、戸籍には三歳上の兄しか記載されていない
ことが判明。 |三年前から町に国籍回復を求めていた。決め手になったのは、
フィリピン政府が戦争で消失したことを認め、再発行した両親の婚姻証明書や本
人の出生届だった。 |昨年五月、同町にこれらの書類を提出。 |今年六月十二日に
日本を訪れ、同町の回答を待ち、滞在し続けていた。 |竹沢さんは「胸がいっぱ
いでまだ信じられない。 |父の墓前に早く報告したい。これからは同じ境遇の孤
児たちを通訳などで手助けしたい」と、りゅうちょうな日本語で話した。
28
重要文抽出の実験設定
 静的/動的モデルの順序学習
 NAISTテキストコーパス(飯田ら, 2007)を利用
 文間ゼロ照応699事例から訓練事例を作成
 実験データ
 TSC2のdryrun,formalrun合わせた180記事を
利用
 要約率: 10%, 30%, 50% それぞれの正答率で評価
 比較方法
 語の重要度のみで重要文を抽出(教師無し)
importance
(Si )   score(w j ) (w j  Si )
j
29
重要文抽出の実験設定(Cont’d)
 比較手法
 Lead法
 tf-idf
score tf -idf ( wij ) 
wij

k
wik
 log
D
d : wij  d
 静的モデル,動的モデル,
静的モデル-idf,動的モデル-idf
score {d,s}-idf ( wi )  score {d,s} ( wi )  log
D
d : wij  d
30
重要文抽出の実験結果
教師無し手法の結果
手法
要約率
Lead法
tf
tf-idf
静的モデル
静的モデル-idf
動的モデル
動的モデル-idf
10%
0.260
0.279
0.277
0.258
0.299
0.328
0.316
30%
0.412
0.428
0.440
0.383
0.380
0.432
0.432
50%
0.553
0.616
0.609
0.570
0.570
0.585
0.590
31
重要文抽出(教師有り手法)
 素性: 平尾(2002)を参考に
 文の出現位置,文の長さ,文に出現する接続
表現や助詞,固有名が出現するか否か
 tf-idf / 静的モデル-idf / 動的モデル-idfの値
 学習・解析
 重要文として抽出する文を1位,それ以外を2
位としてRankingSVMで順序学習
 解析時は各要約率を満たすように上位N文を選
択する
32
重要文抽出の実験結果(Cont’d)
教師有り手法の結果
10%
0.320
ベースライン
+ tf-idf
0.334
0.341
+ 静的モデル-idf
0.330
+ 動的モデル-idf
+ tf-idf + 静的モデル-idf 0.331
+ tf-idf + 動的モデル-idf 0.330
30%
0.434
0.463
0.430
0.429
0.460
0.460
50%
0.604
0.626
0.607
0.601
0.624
0.624
33
重要文抽出についてのまとめ
 語の重要度のみで重要文を抽出する 場合
 要約率が高い(10%)ときには,動的モデルを利
用した重要度がtf-idfより良い結果を得た
 他の情報も素性として利用した教師有り
手法で重要文を抽出する場合
 要約率が高い(10%)ときには,静的モデルが有
効に役立つということがわかった
34
重要箇所抽出
結核予防ワクチンであるBCGに、日本人とタイ人に特徴的なエイズ・ウイルス(HI
V)の遺伝子の一部を組み込んだエイズワクチンを、国立予防衛生研究所と味の素中央研
究所のグループが開発、マウス実験などで免疫力を高める効果を確認した。近く国内で初
めて、サルを使った感染予防実験を開始する。アジアを中心に広く途上国で使える可能性
がある。予研エイズ治療室の本多三男室長らはHIVの「急所」が外被たんぱくのV3
ループ部分らしいという最近の米国の研究成果を応用。日本人感染者に共通するV3ルー
プ部分のHIV遺伝子配列を決定し、タイ人感染者に特徴的なHIV遺伝子配列を使った
組み換えBCGも作製した。ワクチンでエイズ感染を防ぐには、HIVに感染した細胞を
見つけて異物として排除するTリンパ球と、HIVそのものを攻撃する抗体を増やさなけ
ればならない。マウスとモルモット各五匹で免疫効果を別々に実験したところ、マウス全
例でTリンパ球の活性が高まり、モルモットでは二匹で抗体が大量に増えたことを確認。
予研グループは「有望な結果が得られた」と判断した。感染防止力を調べるサルの実験は、
予研霊長類センター(茨城県つくば市)で一月から実施する予定だ。新ワクチンはウイル
スそのものではないため、発病する危険はないとされ、主体となるBCGも安全性が確立
されている。新生児にも接種でき、エイズ母子感染の防止に役立つという。山崎修道・予
研所長は「アジアを対象にしたワクチンを一日も早く実用化したい」と話している。
20%の要約率で抜粋
結核予防ワクチンであるBCGに、HIVの遺伝子の一部を組み込んだエイズワクチンを、
開発、免疫力を高める効果を確認した。広く途上国で使える可能性がある。HIVの「急
所」が外被たんぱくのV3ループ部分らしいという研究成果を応用。エイズ母子感染の防
止に役立つという。
35
重要箇所抽出への貢献度の調査
 評価方法
 重要度の尺度に基づき上位N語を抽出した際に
重要箇所に含まれる名詞をどの程度包含でき
るかを調査
 Nの値を動かして評価する
 比較する重要度
 tf-idf,静的モデル-idf,動的モデル-idf
36
重要箇所抽出に関する実験結果
要約率: 20%
文章中に頻出してい
て重要である語は捉
えられている
tf-idf
静的モデル
あ -idf
動的モデル-idf
tf-idfで捉えられない
重要語を上位にラン
ク付けできている
37
重要箇所抽出に関する実験結果
要約率: 40%
tf-idf
静的モデル
あ -idf
動的モデル-idf
38
重要箇所抽出の具体例
tf-idf
動的モデル-idf
一九九二年度の高校中退者数が前年から一割以上減少し、調査開始以来最低
を記録したことが十八日、文部省のまとめで分かった。在籍者に対する中退
者の比率(中退率)も一・九%と初めて二%を切った。生徒減少期に入り、
学校に「簡単に中退させるわけにはいかない」という意識が浸透した結果と
みられる。調査対象は全国の公私立約五千五百校。中退者の総数は十万一千
百九十四人で前年より一万一千七百三十九人(一〇・四%)減少した。中退
率も〇・二ポイント下がって一・九%となり、率、数ともに八二年の調査開
始以来最低となった。中退者数は生徒急増期と重なったため、調査開始以来
増加傾向が続き、生徒数が二万人近く減少した九〇年度にも微増。最多の十
二万三千五百人を記録した。中退率も私立は三%台から徐々に下降したが、
公立を含む全体では二・一―二・〇%で一進一退していた。しかし、一部の
高校で四十人学級=NEWSのことば参照=がスタートした九二年度は在籍
者の減少幅(四%)を大幅に上回る減少率で、全国的な減少傾向が明らかに
なった。留年も約一〇%減少しており、文部省では「一単位でも落としたら
留年というような厳しい進級認定を弾力化したり、中退問題の研究指定校に
よる実験研究も進み、高校に中退問題への認識が深まった」と分析する。◇
安易に退学させない 全国普通科高等学校長会の斎藤範里・生徒指導研究委
員長(東京都立石神井高校長)の話 従来、点数、出席日数で機械的に生徒
を切り捨てる傾向もあったが、ここ二、三年、進級規定を見直して、できる
だけ面倒をみていこうという機運が出てきた。生徒数も減少し、保護者の意
識も高まったので簡単に退学させられない。退学する場合も納得のうえで進
路変更する例が増えているはずで、今後も中退は減ると思う。(この記事に
はグラフ「高校中退者数と中退率の推移」があります)
39
まとめ
 Iida et al. (2009)で提案した談話の顕現性に
基づく語の重要度が言語処理の応用分野
に有効であるかを調査
 自動要約を例にtf-idfと比較を行い,それぞれ
の重要度の尺度が相補的に役立つ可能性を示
した
40
今後の課題
 ヒューリスティックな重要度算出の改善
 e.g. 自動要約の評価データも利用した教師
有りの重要度算出
 state-of-the-artな要約手法へ統合
 Clarke & Lapata (2008) や 富田ら(2009)などの
制約充足問題としての要約手法への統合
 談話構造に基づく重要度の指標と比較
 RST (Macru, 2000)
 グラフ構造で表現された談話構造
(Wolf&Gibson, 2006)
41