パワーポイント97-2003 - 中川研究室
Download
Report
Transcript パワーポイント97-2003 - 中川研究室
数理言語情報論 第1回
2007年10月1日
数理言語情報学研究室 講師 二宮 崇
1
自己紹介
2
まず、自己紹介
名前
二宮 崇 (にのみや たかし)
経歴
1992~1996: 東大 理学部 情報科学科
1996~1998: 東大 理学系研究科 情報科学専攻修士課程
1998~2001: 東大 理学系研究科 情報科学専攻 博士課程
2001~2006: JST研究員@東大
2006~現在: 東大 情報基盤センター 図書館電子化研究
部門 講師 & 東大 数理情報 講師
3
自己紹介つづき
経歴と所属
1996~2006: 東大 情報理工学系研究科 コンピュータ科
学専攻 辻井研
2006~ 現在: 東大 情報基盤センター 中川研
自然言語処理の研究
HPSG構文解析
文法開発
並列計算機による高速化
スーパータガーによる高速化
データベース
半構造化テキストに対する情報検索
文要約
認知言語学
4
講義の目的
5
この講義の目的 (1/2)
最先端の自然言語構文解析技術
自然言語
社会において自然に発生して用いられている言語。
[デジタル大辞泉]
主に人間同士で意志疎通を行うことを目的として、人間
が日常、読み、書き、聞き、喋り、思考するための言語。
例:日本語、英語、ドイツ語、フランス語、…
⇔人工言語
エスペラントなど人工的につくられた言語)
形式言語(記号論理学やコンピュータープログラミング
のためにつくられた記号や式によって作られた人工言
語)
6
この講義の目的 (2/2)
構文解析
文:おじいさんは山へ柴刈りに行きました
文
動詞句
動詞句
動詞句
名詞句
動詞句
名詞句
名詞
名詞句
係助詞 名詞 格助詞
おじいさん は
山
へ
柴刈り
名詞
格助詞 動詞
に 行き
まし
た
助動詞
助動詞
7
構文解析の背景
8
自然言語処理全般と構文解析
自然言語処理全般
形態素解析
辞書・コーパス構築
固有名解析
構文解析
文生成
照応解析
知識獲得
要約
格解析
用語抽出
文脈解析
評判分析
質問応答
対話
機械翻訳
9
いわゆる“自然言語処理”
形態素解析
“太郎は花子が好きだ”
名詞
助詞
名詞
助詞
太郎
は
花子
が
形容動詞
好きだ
10
いわゆる“自然言語処理”
文
構文解析
動詞句
名詞句
名詞句
名詞
助詞
名詞
助詞
太郎
は
花子
が
動詞句
形容動詞
好きだ
11
いわゆる“自然言語処理”
文
意味解析
動詞句
名詞句
名詞句
名詞
助詞
名詞
助詞
太郎
は
花子
が
主語
動作主
目的語
対象
動詞句
形容動詞
好きだ
述語
12
いわゆる“自然言語処理”
文
文
文脈解析
動詞句
名詞句
名詞句
名詞
助詞
名詞
助詞
太郎
は
花子
が
主語
作主
目的語
対象
動詞句
動詞句
名詞句
名詞句
動詞句
形容動詞
名詞
助詞
名詞
助詞
形容
好きだ
次郎
も
彼女
が
好き
述語
主語
動作主
目的語
対象
述語
=花子
13
いわゆる“自然言語処理”
“太郎は花子が好きだ”
形態素解析
太郎/名詞 は/助詞 花子/名詞 が/助詞 好きだ/形容動詞
構文解析
(文 (名詞句-主語太郎/名詞 は/助詞) (名詞句-目的語
花子/名詞 が/助詞) (動詞句 好きだ/形容動詞))
意味解析
太郎/名詞/主語/動作主/人物
花子/名詞/目的語/対象/人物
好きだ/動詞/動作主-太郎/対象-花子
…
文脈解析
14
“浅いところ”から“深いところ”へ
理想
形態素解析
構文解析
意味解析
文脈解析
15
“浅いところ”から“深いところ”へ
思いの他
深い!
現実
TAG, LFG, HPSGな
ど複雑精巧な文法が
提案・研究されてきた
にも関わらず、実テキ
ストを解析することは
なかなかできなかった
形態素解析
構文解析
意味解析
文脈解析
16
なぜ構文解析に注目するのか?
(1/2)
構文解析の基礎技術が他の多くの自然言語
処理の基礎技術を包含
長く使える(であろう)技術
意味処理、文脈処理へとつながる重要な技
術
格解析、照応解析は構文解析結果を利用
自然言語処理アプリケーションでの利用
機械翻訳、質問応答、自動対話システム
17
自然言語処理全般と構文解析
自然言語処理全般
形態素解析
辞書・コーパス構築
固有名解析
構文解析
文生成
照応解析
知識獲得
要約
格解析
用語抽出
文脈解析
評判分析
質問応答
対話
機械翻訳
18
なぜ構文解析に注目するのか?
(2/2)
歴史は長いが、この十年で大きな技術革新
計算機の高速化
メモリの大容量化
言語リソースの出現
実テキストの解析が可能に!
句構造解析は世界的にはよく研究されてい
るが、日本ではあまり研究されていない!
19
構文解析は面白いのか?
複合的
人工
知能
記号
論理学
哲学
言語学
構文解析
コンピュータ
科学
機械
学習
計算
言語学
20
構文解析が今面白い理由
おもちゃから実用的なシステムへ
合理的(rational)から、経験的(empirical)へ
80年代後半に構文木や係り受け木を人手で付与した正
解データの登場
Penn Treebank [Marcus+1993]
SUSANNE [Sampson 1995]
TIGER Treebank [Brants+ 2002]
Prague Dependency Treebank [Hajic 1998]
Verbmobil [Hinrichs+ 2000]
EDRコーパス [EDR 1995]
京都大学テキストコーパス [黒橋+ 1997]
日本語話し言葉コーパス [前川+ 2000]
90年代後半には、高精度構文解析が可能に
00年代は、高速化や機械学習によるさらなる
高精度化
21
合理的から経験的
合理的(~90年代後半)
入力:”太郎は花子が好きだ”
辞書
あっている
かな?
出力:構文木
文法
ルール
文
記号
論理
シソーラス
動詞句
名詞句
名詞句
名詞
助詞
名詞
助詞
太郎
は
花子
が
動詞句
形容動詞
好きだ
22
合理的から経験的
経験的(90年代後半~)
より良い
モデル
より良い
モデル
一般化
一般化
モデル
より良い
モデル
改良
データ(構文木の集合)
訓練データ
統計モデル
・
識別器
評価データ
23
合理的研究の黄昏
合理的モデルから、実データに対して有効な数
理モデルへ
正解データに対する精度の評価が中心に
複雑精巧なモデルよりも単純なモデル
合理的方法の衰退
論理に基づく研究の衰退
同じ精度がでるのならより単純な方法の方が良い!
複雑精巧なのに実用に結びつかない
文法開発の失敗
(参考) I. カント「純粋理性批判」1781、黒崎政男
「カント『純粋理性批判』入門」2000
理論的計算量よりも実測値による計測
24
講義内容の射程
25
ここではすでに処理済みと考え
る問題
文:おじいさんは山へ柴刈りに行きました
形態素解析
構文解析
26
構文解析で行うこと
括弧付け(句の領域の決定)
句のラベル付け(非終端記号の決定)
名詞句
名詞
名詞句
係助詞 名詞 格助詞
おじいさん は
山
へ
柴刈り
名詞句
名詞
動詞句
格助詞 動詞
に 行き
まし
た
助動詞
助動詞
27
構文解析で行うこと
言語学的現象の解析(関係節、Control
verb, 補文、受動態、疑問文、命令文、テ
ンス、アスペクト、動名詞、It-Cleft、タフ
構文など)
述語と項の関係(主語、述語など)
関係節
目的語
主語
おばあさんは柴を刈りにいったおじいさんを迎えにいきました。
28
構文解析に含まれていると考え
られがちな問題 (1/3)
格解析, Semantic Role Labeling
行為者格
(agent)
道具格
(instrument)
目的格
(object)
He opened the door by a key.
道具格
(instrument)
目的格
(object)
構文解析では前
置詞句としか解
析しない
構文解析では主
語としか解析し
ない
A key opened the door.
29
構文解析に含まれていると考え
られがちな問題 (2/3)
固有表現解析 (Named Entity Tagging)
人名
地名
組織名
日付
時間
金額
割合
太郎は、10月1日、朝9時に根津で花子とうどんを食べた。
人名
日付
時間
場所 人名
30
構文解析に含まれていると考え
られがちな問題 (3/3)
照応解析
先行詞
さて、おじいさんはなぜか、左のほほに瘤がありました。
それは人のこぶしほどもある瘤でした。
照応詞
照応関係
31
講義内容 (1/3)
文法枠組
(Context Free Grammar, 文脈自由文法)
TAG (Tree Adjoining Grammar, 木接合文法)
Dependency Grammar (依存文法)
Categorial Grammar (CG, 範疇文法)
HPSG (Head-driven Phrase Structure Grammar,主
辞駆動句構造文法)
CFG
確率的文法枠組
確率的文脈自由文法
(Probabilistic CFG, PCFG)
確率的主辞駆動句構造文法 (Probabilistic HPSG)
32
講義内容 (2/3)
パラメータ推定
最尤推定とEMアルゴリズム
内側外側アルゴリズム
最大エントロピー法
解析アルゴリズム
フルパージング
確率的(スコア付)文法のための解析アルゴリズム
アーリー法
CKYアルゴリズム
ビタビアルゴリズム
ビームサーチ
単一化アルゴリズム
決定的構文解析アルゴリズム
33
講義内容 (3/3)
文法開発
手作業による文法開発
文法獲得
文脈自由文法
主辞駆動句構造文法
34
講義の順番(予定)
1. 導入(今回) 10/1
2. 文法枠組 (1) 10/15
3. 文法枠組 (2) 10/22
Categorial Grammar
Combinatory Categorial Grammar
4. 文法枠組 (3) 10/29
CFG
TAG
Dependency Grammar
単一化
主辞駆動句構造文法(1)
5. 文法枠組 (4) 11/5
主辞駆動句構造文法(2)
35
講義の順番 (予定)
4. 確率的CFG (1) 11/12
確率的CFGについて
パラメータ推定 (1)
解析アルゴリズム(1)
5. 確率的CFG (2) 11/19
パラメータ推定 (2)
7. 確率的CFG (4) 12/3
単純な数え上げ
マルコフ文法
6. 確率的CFG (3) 11/26
パラメータ推定 (3)
EMアルゴリズム
内側外側アルゴリズム
アーリー法
チャート法
CKY法
8. 確率的CFG (5) 12/10
解析アルゴリズム(2)
ビタビアルゴリズム
ビームサーチ
決定的構文解析アルゴリズ
ム
36
講義の順番 (予定)
9. 確率的HPSG (1) 12/17
10. 確率的HPSG (2) 1/14
単一化アルゴリズム
抽象機械
確率的HPSGの考え方
最大エントロピー法
パラメータ推定
11. 確率的HPSG (3) 1/21
サンプリング
素性森
37
講義の順番 (予定)
12. 文法開発 (1) 1/28
合理的文法開発
経験的文法開発
13. 文法開発 (2) 補講?
合理的かつ経験的な文法開発
38
連絡
来週の月曜 (10月8日) は祝日なのでありませ
ん。
次回は、10月15日(月)16:30~18:00です。
評価はレポートで行います。内容はまだ未
定です。
講義のスライドは下記URLのページにおい
ておきます。
http://www.r.dl.itc.u-tokyo.ac.jp/~ninomi/mistH19w/
39
参考書
英語
D. Jurafsky, J. H. Martin, A. Kehler, K.V. Linden & N. Ward
“Speech and Language Processing: An Introduction to Natural
Language Processing, Computational Linguistics, and Speech
Recognition” Prentice Hall Series in Artificial Intelligence, 2000
C. D. Manning & Hinrich Schütze “FOUNDATIONS OF
STATISTICAL NATURAL LANGUAGE PROCESSING” MIT
Press, 1999
John Coleman “Introducing Speech And Language Processing”
Cambridge University Press, 2005
日本語
長尾真、佐藤理史、黒橋禎夫、角田達彦「岩波講座 ソフトウェ
ア科学15自然言語処理」長尾真編、岩波書店、1996年
北研二「言語と計算4 確率的言語モデル」辻井潤一編、東京大
学出版会、1999年
長尾真、中川裕志、松本裕治、橋田浩一、John Bateman、乾健太
郎「岩波講座 言語の科学8 言語の数理」岩波書店、1999年
吉村賢治「自然言語処理の基礎」サイエンス社, 2000年
40