コーパス言語学入門

Download Report

Transcript コーパス言語学入門

コーパス言語学入門
2007年度1学期
第4回
本日の内容
• 前回のおさらい
– コーパスの特徴 5つ
• コーパスの作成,加工
– コーパスへの情報付与
• どんな情報を付与するか
– タグの話
• SGMLの話
• HTMLの話
• XMLの話
2
前回のおさらい(1)
•
コーパスの特徴
–
1.
2.
3.
4.
5.
コーパスの違いを区別する特徴5つ
規模
量の変化
汎用性
収集期間
掲載メディア
3
前回のおさらい(2)
•
コーパスの特徴
–
1.
2.
3.
4.
5.
コーパスの違いを区別する特徴5つ
規模
収集する量の違いに
量の変化
よる分類
汎用性
収集期間
大規模,中規模,
掲載メディア
小規模,
4
前回のおさらい(3)
•
コーパスの特徴
–
1.
2.
3.
4.
5.
コーパスの違いを区別する特徴5つ
規模
サンプルコーパス,
量の変化
(収集する量固定)
汎用性
収集期間
モニタコーパス
掲載メディア
(常に更新)
5
前回のおさらい(4)
•
コーパスの特徴
–
1.
2.
3.
4.
5.
コーパスの違いを区別する特徴5つ
規模
汎用:
量の変化
様々な研究
汎用性
特殊目的:
収集期間
決まった特殊な目的
掲載メディア
その他:
パラレルコーパスなど
6
前回のおさらい(5)
•
コーパスの特徴
–
1.
2.
3.
4.
5.
コーパスの違いを区別する特徴5つ
規模
共時コーパス:
量の変化
同時代に限って収集
汎用性
通時コーパス:
収集期間
複数の時代区分に
掲載メディア
渡って収集
7
前回のおさらい(6)
•
コーパスの特徴
–
1.
2.
3.
4.
5.
コーパスの違いを区別する特徴5つ
規模
書き言葉
量の変化
新聞,小説,雑誌...
汎用性
話し言葉
収集期間
講演,ニュース,会話
掲載メディア
中間的
blog, チャット,Web文書
8
前回のおさらい(7)
• 代表的なコーパス
– Brown Corpus, LOB Corpus
– BNC Corpus … British National Corpus→
BNC2
– Bank of English
• (こうした特徴を踏まえて,)
自分の目的に合う特徴を持った
コーパスの選択が大事
9
コーパスの加工(作成)
• コーパスは言語データ
– ただ集めてきただけでは使いにくい
(「生のデータ」という)
– 情報を付与して整備することで使いやすくする
→どんな情報を付与するか?
→どんなやり方で付与するか?
などを学ぶ
10
コーパスに情報を付与(1)
• 付与する情報とはどんなものか?
例:毎日新聞
\ID\00000010
\C0\980101001
\AD\01
\AE\N
\AF\980101M01
\T1\[社告]「第39回毎日芸術賞」決まる
\S1\
’98.1.1 朝刊 1頁 写図無 (全742文字)
...
\KA\毎日芸術賞
\AA\シャコク
\AA\ダイ39カイ
...
\KB\100本
\KB\11月
...
\AB\ヤマモトリケン
11
コーパスに情報を付与(1)
• 付与する情報とはどんなものか?
例:毎日新聞
\ データの区切り(フィールド区切り)
\ID\00000010
\C0\980101001
ID ...記事のID
\AD\01
\AE\N
C0 ...記事の番号
\AF\980101M01
\
\T1\[社告]「第39回毎日芸術賞」決まる
AD ...セクション
\S1\
’98.1.1 朝刊 1頁 写図無 (全742文字)
01→1面,02→2面,03→3面,04→
...
\KA\毎日芸術賞
解説,05→社説,07→国際,08→経済,
\AA\シャコク
10→特集,12→総合,13→家庭,14→
\AA\ダイ39カイ
文化,15→読書,16→科学,18→芸能,
...
35→スポーツ,41→社会
\KB\100本
\KB\11月
AE,AF ...?
...
\AB\ヤマモトリケン
T1 ...見出し, T2...本文など
12
コーパスに情報を付与(2)
• 情報の種類
1.ヘッダー情報
素材の管理のための情報
コーパス内部の表記規則など
2.コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
13
コーパスに情報を付与(3)
1.ヘッダー情報(素材の管理のための情報)
その言語データを整理,管理,参照するときに
必要になるような情報
14
コーパスに情報を付与(3)
1.ヘッダー情報(素材の管理のための情報)
その言語データを整理,管理,参照するときに
必要になるような情報
ID ...記事のID
C0 ...記事の番号
AD ...セクション
01→1面,02→2面,03→3面,04→解説,05→社説,07→
国際,08→経済,10→特集,12→総合,13→家庭,14→文化,
15→読書,16→科学,18→芸能,35→スポーツ,41→社会
15
コーパスに情報を付与(4)
1.ヘッダー情報(コーパス内部の表記規則など)
コーパス中で用いる特殊な記号や使い方の説明
など.
16
コーパスに情報を付与(5)
1.ヘッダー情報(コーパス内部の表記規則など)
コーパス中で用いる特殊な記号や使い方の説明
例:対話を記録したコーパス
話者が2人いるとすると,A: B:とする.A:えー
B:はい
発話が重なったとき,A,B:とする A,B:はい
などという表記上のルール
フォントを使い分けてあればその意味
送り仮名や漢字の統一した使い方など
17
コーパスに情報を付与(6)
2.コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
コンピュータは,言語データの詳細をうまく扱えない
(言葉がわからないから)
コンピュータでの利用をやりやすくする処理
言語研究にとって都合のよいように加工して
手間をかけることで価値を高める
18
コーパスに情報を付与(7)
2.コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
具体的には:例えば,
品詞情報(名詞,動詞,形容詞,...)
単数,複数などの情報(英語など)
形態素の情報
19
コーパスに情報を付与(8)
2.コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
実際の例:
– 京大コーパス(京大)
• 毎日新聞 ’95の記事
(1/1~17の全記事2万文+1月~12月の社説2万文)
• 形態素解析(JUMAN),構文解析(KNP)人手修正
– PennTreebank (Univ. of Pennsylvania)
• WSJ,ATIS,Brown Corpus
• 品詞タグ,構文解析
20
コーパスに情報を付与(9)
2.コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
韻律情報:イントネーション,ポーズ,ピッチなど
文章構造:単語,文,段落,節,章,テキスト
• 文<sentence> ~ </sentence>
• 段落<paragraph> ~ </paragraph>
• 文章全体 <text> ~ </text>
21
コーパスに情報を付与(10)
2.コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
固有名詞の属性:
• 人名 <person>松井</person>
• 組織名<organization>東京外国語大学
</organization>
• 役職 <title>社長</title>
その他情報として欲しいものは何でも対象となる
22
タグ
タグtag...商品タグ,プライスタグ
タグで区別されたものに何かの属性があるこ
とを示す.
/title/
こんな形のタグや
<title></title> こんな形のタグがある
23
タグ(2)
• タグのつけ方,タグというものの定義
– 囲んだり,印をつけたものの属性を示す
<属性>ほにゃらら</属性>
/属性/ほにゃらら
24
タグ(3)
• タグのつけ方,タグというものの定義
– 囲んだり,印をつけたものの属性を示す
– タグの形式は基本的には何でもよい
<>○○</>
//
25
タグ(4)
• タグのつけ方,タグというものの定義
– 囲んだり,印をつけたものの属性を示す
– タグの形式は基本的には何でもよい
– 区別できるように定義され,曖昧でなく,境界を
はっきりさせればよい
26
タグ(5)
• タグのつけ方,タグというものの定義
– 区別できるように定義され,曖昧でなく,境界を
はっきりさせればよい
– 実際既存のコーパスでは独自の定義でタグの
集合(タグセット)が決められていることが多い
27
タグ(6)
• タグのつけ方,タグというものの定義
– 区別できるように定義され,曖昧でなく,境界を
はっきりさせればよい
– 実際既存のコーパスでは独自の定義でタグの
集合(タグセット)が決められていることが多い
→標準化(国際化を目指した)の試みもある
代表的なのはTEI(Text Encoding Initiative)形式
(SGML形式にのっとっている)
28
タグ(7)
表現例
著者名を表す: <author>赤川次郎</author>
作品名を表す: <title>三毛猫ホームズの...
</title>
出典名:<source>角川文庫</source>
出版日:<pubdate>2004.03.31</pubdate>
加工者名:<tagger>mochi</tagger>
加工日:<tagdate>2006.04.25</tagdate>
29
代表的なタグ SGML(1)
• SGML(Standard
Generalized Markup Language)
– 元のテキストにマーク(タグ)を付与する(これを
マークアップするという)ことで,情報を付与する
<要素名>元のテキスト</要素名> と記述
開始タグ
終了タグ
– こういうのをマークアップ言語と呼ぶ
30
SGML(2)
• SGML(Standard
Generalized Markup Language)
世界標準のマークアップに関するルール
– タグの名前を決めているのではない
タグの名前の決め方のルール
– 文書構造を決めているのではない
文書構造の決め方のルール
→タグの集合(タグセット)を定義する方法
マークアップする言語を定義する「メタな言語」
31
SGML(3)
• SGMLで「タグをつける」
– 意味がわかり,使い方が一定ならなんでもよい
(SGMLの決まりにあわせる必要はある)
<要素名>元のテキスト</要素名>
– 使用する要素名を決める=タグの定義
– テキストの論理構造などを記述する+
– タグの出現順=文章構造の定義
32
SGML(4)
• SGMLの一例 TEI形式 DTD
TEI(Text Encoding Initiative)
• 人文科学系の文書を中心としたテキストの電子文書化を推進し
ガイドラインを定める団体
– <p> … </p> 段落
– <q> … </q> 引用
– <note> … </note> 注記
– <text> … </text>文章全体
など
33
代表的なタグ HTML
• 他の代表的なMarkup Language
– HTML:Hyper Text Markup Language
• SGMLから派生,テキストの表示形式を記述する
• 主にWWWページ用の記述言語
• タグは決められていて自分では定義できない
• タグを読めるブラウザが多いので使い勝手がよい
(インターネットエクスプローラ,FireFox,Operaなど)
<a href=“*****.html”>ほにゃららページ</a>
<table><tr><td>0</td></tr></table>
34
代表的なタグ XML
• 他の代表的なMarkup Language
– XML:eXtended Markup Language
• やはりSGMLから派生(SGMLのサブセット)
SGMLは自由度↑,コンピュータでの扱い↓ 複雑すぎ
HTMLは自由度↓,コンピュータでの扱い↑
• タグの定義ができる
• タグ定義の自由さを残しつつ,コンピュータでも扱いや
すいマークアップ言語として登場
• Webページも作れる→汎用性が高い
35
XML(2)
• HTML と XML (意味情報)
<HTML>
<BODY>
<H1>書籍情報</H1>
<TABLE>
<TR>
<TD>書籍名</TD>
<TD>定価</TD>
<TD>著者</TD>
</TR>
<TR>
<TD>XMLの話</TD>
<TD>300円</TD>
<TD>外大太郎</TD>
</TR>
</TABLE>
</BODY>
</HTML>
<?xml version = "1.0" encoding = "Shift_JIS"?>
<bookinfo genre = "computer">
<title>XMLの話</title>
<price>300円</price>
<author> 外大太郎</author>
</bookinfo>
36
XML(3)
• HTML と XML (意味情報)
<HTML>
<BODY>
<H1>書籍情報</H1>
<TABLE>
<TR>
<TD>書籍名</TD>
<TD>定価</TD>
<TD>著者</TD>
</TR>
<TR>
<TD>XMLの話</TD>
<TD>300円</TD>
<TD>外大太郎</TD>
</TR>
</TABLE>
</BODY>
</HTML>
<?xml version = "1.0" encoding = "Shift_JIS"?>
<bookinfo genre = "computer">
<title>XMLの話</title>
<price>300円</price>
<author> 外大太郎</author>
</bookinfo>
これは表を作っているが,
見ないと想像しにくい
37
XML(4)
• HTML と XML (意味情報)
<HTML>
<BODY>
<H1>書籍情報</H1>
<TABLE>
<TR>
<TD>書籍名</TD>
<TD>定価</TD>
<TD>著者</TD>
</TR>
<TR>
<TD>XMLの話</TD>
<TD>300円</TD>
<TD>外大太郎</TD>
</TR>
</TABLE>
</BODY>
</HTML>
<?xml version = "1.0" encoding = "Shift_JIS"?>
<bookinfo genre = "computer">
<title>XMLの話</title>
<price>300円</price>
<author> 外大太郎</author>
</bookinfo>
こちらのタグには意味を定義
できる 例<price>..</price>
38
XML(5)
• XMLは分業みたいな文書の定義
– 「文書の内容」「文書の構造」「文書の体裁」
この3つを分離して扱う
内容はXMLで記述
1つの文書
構造はDTDに定義
見た目はスタイルシート
XSL,CSSを利用
39
XML(6)
• XMLは分業みたいな文書の定義
– 「文書の内容」「文書の構造」「文書の体裁」
この3つを分離して扱う
説明が複雑になりすぎるので,
内容はXMLで記述
またの機会に...
1つの文書
構造はDTDに定義
見た目はスタイルシート
XSL,CSSを利用
40
どんなタグを使うか
• この授業では,SGML風タグを簡単に定義し
て使用することにする
• 文書の情報(header情報)
• 言語処理のための情報
– 品詞,固有名詞,文章構造など
41