パワーポイント97-2003 - 中川研究室

Download Report

Transcript パワーポイント97-2003 - 中川研究室

数理言語情報論 第1回
2007年10月1日
数理言語情報学研究室 講師 二宮 崇
1
自己紹介
2
まず、自己紹介

名前


二宮 崇 (にのみや たかし)
経歴





1992~1996: 東大 理学部 情報科学科
1996~1998: 東大 理学系研究科 情報科学専攻修士課程
1998~2001: 東大 理学系研究科 情報科学専攻 博士課程
2001~2006: JST研究員@東大
2006~現在: 東大 情報基盤センター 図書館電子化研究
部門 講師 & 東大 数理情報 講師
3
自己紹介つづき

経歴と所属



1996~2006: 東大 情報理工学系研究科 コンピュータ科
学専攻 辻井研
2006~ 現在: 東大 情報基盤センター 中川研
自然言語処理の研究

HPSG構文解析







文法開発
並列計算機による高速化
スーパータガーによる高速化
データベース
半構造化テキストに対する情報検索
文要約
認知言語学
4
講義の目的
5
この講義の目的 (1/2)

最先端の自然言語構文解析技術

自然言語
 社会において自然に発生して用いられている言語。
[デジタル大辞泉]

主に人間同士で意志疎通を行うことを目的として、人間
が日常、読み、書き、聞き、喋り、思考するための言語。
 例:日本語、英語、ドイツ語、フランス語、…
 ⇔人工言語


エスペラントなど人工的につくられた言語)
形式言語(記号論理学やコンピュータープログラミング
のためにつくられた記号や式によって作られた人工言
語)
6
この講義の目的 (2/2)

構文解析
文:おじいさんは山へ柴刈りに行きました
文
動詞句
動詞句
動詞句
名詞句
動詞句
名詞句
名詞
名詞句
係助詞 名詞 格助詞
おじいさん は
山
へ
柴刈り
名詞
格助詞 動詞
に 行き
まし
た
助動詞
助動詞
7
構文解析の背景
8
自然言語処理全般と構文解析
自然言語処理全般
形態素解析
辞書・コーパス構築
固有名解析
構文解析
文生成
照応解析
知識獲得
要約
格解析
用語抽出
文脈解析
評判分析
質問応答
対話
機械翻訳
9
いわゆる“自然言語処理”
形態素解析
“太郎は花子が好きだ”
名詞
助詞
名詞
助詞
太郎
は
花子
が
形容動詞
好きだ
10
いわゆる“自然言語処理”
文
構文解析
動詞句
名詞句
名詞句
名詞
助詞
名詞
助詞
太郎
は
花子
が
動詞句
形容動詞
好きだ
11
いわゆる“自然言語処理”
文
意味解析
動詞句
名詞句
名詞句
名詞
助詞
名詞
助詞
太郎
は
花子
が
主語
動作主
目的語
対象
動詞句
形容動詞
好きだ
述語
12
いわゆる“自然言語処理”
文
文
文脈解析
動詞句
名詞句
名詞句
名詞
助詞
名詞
助詞
太郎
は
花子
が
主語
作主
目的語
対象
動詞句
動詞句
名詞句
名詞句
動詞句
形容動詞
名詞
助詞
名詞
助詞
形容
好きだ
次郎
も
彼女
が
好き
述語
主語
動作主
目的語
対象
述語
=花子
13
いわゆる“自然言語処理”
“太郎は花子が好きだ”
形態素解析
太郎/名詞 は/助詞 花子/名詞 が/助詞 好きだ/形容動詞
構文解析
(文 (名詞句-主語太郎/名詞 は/助詞) (名詞句-目的語
花子/名詞 が/助詞) (動詞句 好きだ/形容動詞))
意味解析
太郎/名詞/主語/動作主/人物
花子/名詞/目的語/対象/人物
好きだ/動詞/動作主-太郎/対象-花子
…
文脈解析
14
“浅いところ”から“深いところ”へ
理想
形態素解析
構文解析
意味解析
文脈解析
15
“浅いところ”から“深いところ”へ
思いの他
深い!
現実
TAG, LFG, HPSGな
ど複雑精巧な文法が
提案・研究されてきた
にも関わらず、実テキ
ストを解析することは
なかなかできなかった
形態素解析
構文解析
意味解析
文脈解析
16
なぜ構文解析に注目するのか?
(1/2)
構文解析の基礎技術が他の多くの自然言語
処理の基礎技術を包含
 長く使える(であろう)技術
 意味処理、文脈処理へとつながる重要な技
術



格解析、照応解析は構文解析結果を利用
自然言語処理アプリケーションでの利用

機械翻訳、質問応答、自動対話システム
17
自然言語処理全般と構文解析
自然言語処理全般
形態素解析
辞書・コーパス構築
固有名解析
構文解析
文生成
照応解析
知識獲得
要約
格解析
用語抽出
文脈解析
評判分析
質問応答
対話
機械翻訳
18
なぜ構文解析に注目するのか?
(2/2)

歴史は長いが、この十年で大きな技術革新
計算機の高速化
 メモリの大容量化
 言語リソースの出現
 実テキストの解析が可能に!


句構造解析は世界的にはよく研究されてい
るが、日本ではあまり研究されていない!
19
構文解析は面白いのか?

複合的
人工
知能
記号
論理学
哲学
言語学
構文解析
コンピュータ
科学
機械
学習
計算
言語学
20
構文解析が今面白い理由

おもちゃから実用的なシステムへ


合理的(rational)から、経験的(empirical)へ
80年代後半に構文木や係り受け木を人手で付与した正
解データの登場








Penn Treebank [Marcus+1993]
SUSANNE [Sampson 1995]
TIGER Treebank [Brants+ 2002]
Prague Dependency Treebank [Hajic 1998]
Verbmobil [Hinrichs+ 2000]
EDRコーパス [EDR 1995]
京都大学テキストコーパス [黒橋+ 1997]
日本語話し言葉コーパス [前川+ 2000]
90年代後半には、高精度構文解析が可能に
 00年代は、高速化や機械学習によるさらなる
高精度化

21
合理的から経験的

合理的(~90年代後半)
入力:”太郎は花子が好きだ”
辞書
あっている
かな?
出力:構文木
文法
ルール
文
記号
論理
シソーラス
動詞句
名詞句
名詞句
名詞
助詞
名詞
助詞
太郎
は
花子
が
動詞句
形容動詞
好きだ
22
合理的から経験的

経験的(90年代後半~)
より良い
モデル
より良い
モデル
一般化
一般化
モデル
より良い
モデル
改良
データ(構文木の集合)
訓練データ
統計モデル
・
識別器
評価データ
23
合理的研究の黄昏

合理的モデルから、実データに対して有効な数
理モデルへ


正解データに対する精度の評価が中心に
複雑精巧なモデルよりも単純なモデル


合理的方法の衰退

論理に基づく研究の衰退




同じ精度がでるのならより単純な方法の方が良い!
複雑精巧なのに実用に結びつかない
文法開発の失敗
(参考) I. カント「純粋理性批判」1781、黒崎政男
「カント『純粋理性批判』入門」2000
理論的計算量よりも実測値による計測
24
講義内容の射程
25
ここではすでに処理済みと考え
る問題
文:おじいさんは山へ柴刈りに行きました
形態素解析
構文解析
26
構文解析で行うこと
括弧付け(句の領域の決定)
 句のラベル付け(非終端記号の決定)

名詞句
名詞
名詞句
係助詞 名詞 格助詞
おじいさん は
山
へ
柴刈り
名詞句
名詞
動詞句
格助詞 動詞
に 行き
まし
た
助動詞
助動詞
27
構文解析で行うこと
言語学的現象の解析(関係節、Control
verb, 補文、受動態、疑問文、命令文、テ
ンス、アスペクト、動名詞、It-Cleft、タフ
構文など)
 述語と項の関係(主語、述語など)

関係節
目的語
主語
おばあさんは柴を刈りにいったおじいさんを迎えにいきました。
28
構文解析に含まれていると考え
られがちな問題 (1/3)

格解析, Semantic Role Labeling
行為者格
(agent)
道具格
(instrument)
目的格
(object)
He opened the door by a key.
道具格
(instrument)
目的格
(object)
構文解析では前
置詞句としか解
析しない
構文解析では主
語としか解析し
ない
A key opened the door.
29
構文解析に含まれていると考え
られがちな問題 (2/3)

固有表現解析 (Named Entity Tagging)







人名
地名
組織名
日付
時間
金額
割合
太郎は、10月1日、朝9時に根津で花子とうどんを食べた。
人名
日付
時間
場所 人名
30
構文解析に含まれていると考え
られがちな問題 (3/3)

照応解析
先行詞
さて、おじいさんはなぜか、左のほほに瘤がありました。
それは人のこぶしほどもある瘤でした。
照応詞
照応関係
31
講義内容 (1/3)

文法枠組
(Context Free Grammar, 文脈自由文法)
 TAG (Tree Adjoining Grammar, 木接合文法)
 Dependency Grammar (依存文法)
 Categorial Grammar (CG, 範疇文法)
 HPSG (Head-driven Phrase Structure Grammar,主
辞駆動句構造文法)
 CFG

確率的文法枠組
 確率的文脈自由文法
(Probabilistic CFG, PCFG)
 確率的主辞駆動句構造文法 (Probabilistic HPSG)
32
講義内容 (2/3)

パラメータ推定




最尤推定とEMアルゴリズム
内側外側アルゴリズム
最大エントロピー法
解析アルゴリズム

フルパージング



確率的(スコア付)文法のための解析アルゴリズム




アーリー法
CKYアルゴリズム
ビタビアルゴリズム
ビームサーチ
単一化アルゴリズム
決定的構文解析アルゴリズム
33
講義内容 (3/3)

文法開発
 手作業による文法開発
 文法獲得


文脈自由文法
主辞駆動句構造文法
34
講義の順番(予定)


1. 導入(今回) 10/1
2. 文法枠組 (1) 10/15




3. 文法枠組 (2) 10/22



Categorial Grammar
Combinatory Categorial Grammar
4. 文法枠組 (3) 10/29



CFG
TAG
Dependency Grammar
単一化
主辞駆動句構造文法(1)
5. 文法枠組 (4) 11/5

主辞駆動句構造文法(2)
35
講義の順番 (予定)

4. 確率的CFG (1) 11/12


確率的CFGについて
パラメータ推定 (1)

解析アルゴリズム(1)


5. 確率的CFG (2) 11/19


パラメータ推定 (2)


7. 確率的CFG (4) 12/3
単純な数え上げ



マルコフ文法
6. 確率的CFG (3) 11/26

パラメータ推定 (3)


EMアルゴリズム
内側外側アルゴリズム

アーリー法
チャート法
CKY法
8. 確率的CFG (5) 12/10

解析アルゴリズム(2)



ビタビアルゴリズム
ビームサーチ
決定的構文解析アルゴリズ
ム
36
講義の順番 (予定)

9. 確率的HPSG (1) 12/17



10. 確率的HPSG (2) 1/14




単一化アルゴリズム
抽象機械
確率的HPSGの考え方
最大エントロピー法
パラメータ推定
11. 確率的HPSG (3) 1/21


サンプリング
素性森
37
講義の順番 (予定)

12. 文法開発 (1) 1/28



合理的文法開発
経験的文法開発
13. 文法開発 (2) 補講?

合理的かつ経験的な文法開発
38
連絡
来週の月曜 (10月8日) は祝日なのでありませ
ん。
 次回は、10月15日(月)16:30~18:00です。
 評価はレポートで行います。内容はまだ未
定です。
 講義のスライドは下記URLのページにおい
ておきます。

http://www.r.dl.itc.u-tokyo.ac.jp/~ninomi/mistH19w/
39
参考書

英語




D. Jurafsky, J. H. Martin, A. Kehler, K.V. Linden & N. Ward
“Speech and Language Processing: An Introduction to Natural
Language Processing, Computational Linguistics, and Speech
Recognition” Prentice Hall Series in Artificial Intelligence, 2000
C. D. Manning & Hinrich Schütze “FOUNDATIONS OF
STATISTICAL NATURAL LANGUAGE PROCESSING” MIT
Press, 1999
John Coleman “Introducing Speech And Language Processing”
Cambridge University Press, 2005
日本語




長尾真、佐藤理史、黒橋禎夫、角田達彦「岩波講座 ソフトウェ
ア科学15自然言語処理」長尾真編、岩波書店、1996年
北研二「言語と計算4 確率的言語モデル」辻井潤一編、東京大
学出版会、1999年
長尾真、中川裕志、松本裕治、橋田浩一、John Bateman、乾健太
郎「岩波講座 言語の科学8 言語の数理」岩波書店、1999年
吉村賢治「自然言語処理の基礎」サイエンス社, 2000年
40