Transcript 講義資料
言語体系とコンピュータ
第2回
本日の内容
• 前回のおさらい
• 文を単語に区切って品詞を決める
– 日本語編
2
前回のおさらい(1)
• 人間にとって,ことばとは何か?
(自然言語)
• 人間の言葉は社会生活の中で発展
– 人間社会でのコミュニケーション手段
– 活動やさまざまな情報の記録手段
– 外界と心の中をつなぐ思考の表現手段
3
前回のおさらい(2)
• 人間社会でのコミュニケーション手段
4
前回のおさらい(3)
• さまざまな情報,知識,活動などの記録手段
5
前回のおさらい(4)
• 外界と心の中をつなぐ思考の表現手段
6
前回のおさらい(5)
• コンピュータにとって人間の言語は?
– 何もなければ,ただの文字の羅列
「す今で日よは気い天」と
「です今日よいは天気」と
「今日はよい天気です」の間に
特別な違いはない
7
前回のおさらい(6)
• 人間にとっては大違い
– 何もなければ,ただの文字の羅列
「す今で日よは気い天」 文字の羅列
「です今日よいは天気」と
「今日はよい天気です」の間に
8
前回のおさらい(6)
• 人間にとっては大違い
– 何もなければ,ただの文字の羅列
「す今で日よは気い天」 文字の羅列
「です今日よいは天気」 単語の羅列
「今日はよい天気です」の間に
9
前回のおさらい(6)
• 人間にとっては大違い
– 何もなければ,ただの文字の羅列
「す今で日よは気い天」 文字の羅列
「です今日よいは天気」 単語の羅列
「今日はよい天気です」
文
10
前回のおさらい(6)
• 人間にとっては大違い
– 何もなければ,ただの文字の羅列
「す今で日よは気い天」 文字の羅列
「です今日よいは天気」 単語の羅列
「今日はよい天気です」
文
人間は言語を知っている
11
本日は単語を認識する
• 「このひとことで元気になった」
→この/ひとこと/で/元気/に/なっ/た
連体詞
名詞 助詞 名詞 助詞 動詞 助動詞
単語に区切って品詞を決める(日本語編)
12
文を単語で区切る(1)
• コンピュータに1文を入力
単語に区切って,品詞を付与する
– 日本語は一般に,語の区切り,空白がないので
→単語を切り出す ※最も重要で難しい
語形変化したものを基本形にする
単語に品詞を付与
13
文を単語で区切る(2)
• 「このひとことで元気になった」
文頭|この/ひとこと/で/元気/に/なっ/た|文末
連体詞
名詞
助詞
名詞 助詞 動詞 助動詞
割と簡単そうだ?
14
文を単語で区切る(3)
• 「このひとことで元気になった」
文頭|この/ひとこと/で/元気/に/なっ/た|文末
連体詞
名詞
助詞
名詞 助詞 動詞 助動詞
割と簡単そうだ?
いやいや,そうでもない
15
文を単語で区切る(4)
コンピュータには文字以上のことはわからない
少なくとも....
16
文を単語で区切る(5)
コンピュータには文字以上のことはわからない
少なくとも....
「単語」を知る必要がある
17
文を単語で区切る(6)
コンピュータには文字以上のことはわからない
少なくとも....
「単語」を知る必要がある
無理のない単語の並びを知る必要がある
18
文を単語で区切る(7)
「単語」を知る必要がある
無理のない単語の並びを知る必要がある
ということで...
19
文を単語で区切る(8)
「単語」を知る必要がある
無理のない単語の並びを知る必要がある
ということで... 単語辞書を用意して
コンピュータが利用
できるようにする!
20
文を単語で区切る(9)
「単語」を知る必要がある
無理のない単語の並びを知る必要がある
ということで...
連接できる単語と単語
を記した規則を用意
21
単語辞書と連接規則(1)
• 単語辞書
– 単語の基本形,読み,品詞,活用の型など
を記述したもの
• 連接規則
– 連接(連続して接する)可能な2つの単語の
タイプ(主に,品詞とその活用の型)を
記述したもの
22
単語辞書と連接規則(2)
• 単語辞書
• 連接規則
– それぞれ,例はWebで!
23
道具と手続き
• 単語を知る道具
• 単語の連接を確かめる規則
は揃ったとして,
次は,どうやって,それらを使って実際に
文を単語に区切って,品詞の付与を行うか?
→アルゴリズム(手続き)
24
コスト最小法による形態素解析(1)
• 実際にやりながら学習
0
こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13
最初はどこでも切れる可能性がある!
0の場所からスタート
25
コスト最小法による形態素解析(2)
• 実際にやりながら学習
0
こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13
最初はどこでも切れる可能性がある!
0の場所からスタート
「こ」から始まる
単語を単語辞書
で調べる
26
コスト最小法による形態素解析(3)
• 実際にやりながら学習
0
こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13
最初はどこでも切れる可能性がある!
0の場所からスタート
「こ」から始まる
単語を単語辞書
で調べる
「こ」(接尾辞),「こ」(名詞),「この」(連体詞)
の3つを発見!
27
コスト最小法による形態素解析(4)
• 実際にやりながら学習
0
こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13
最初はどこでも切れる可能性がある!
0の場所からスタート
文頭との接続が
許されるかどうか
連接規則を見る
「こ」(接尾辞),「こ」(名詞),「この」(連体詞)
の3つを発見!
28
コスト最小法による形態素解析(5)
• 実際にやりながら学習
0
こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13
最初はどこでも切れる可能性がある!
0の場所からスタート
文頭との接続が
許されるかどうか
連接規則を見る
「こ」(接尾辞),「こ」(名詞),「この」(連体詞)
の3つを発見!
29
コスト最小法による形態素解析(6)
50
名詞40
0
こ
10
10
文
頭 10
10
ご一緒に!
こ の
連体詞10
20
30
コスト最小法による形態素解析(7)
• 実際にやりながら学習
0
こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13
最初はどこでも切れる可能性がある!
ポイントを1つずらして1の場所へ
31
コスト最小法による形態素解析(8)
• 実際にやりながら学習
0
こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13
最初はどこでも切れる可能性がある!
「の」から始まる
単語を単語辞書
で調べる
ポイントを1つずらして1の場所へ
「の」(助詞)
を発見
32
コスト最小法による形態素解析(9)
• 実際にやりながら学習
0
こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13
最初はどこでも切れる可能性がある!
「こ」(名詞)と
「の」(助詞)について
連接規則を調べる
ポイントを1つずらして1の場所へ
「の」(助詞)
を発見
33
コスト最小法による形態素解析(10)
50
名詞40
10
0 10
文
頭
70
助詞10
こ
の
10
60
ご一緒に!
10
10
こ の
連体詞10
20
34
コスト最小法による形態素解析(11)
• 実際にやりながら学習
0
こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13
最初はどこでも切れる可能性がある!
ポイントを1つずらして2の場所へ
35
コスト最小法による形態素解析(12)
• 実際にやりながら学習
0
こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13
最初はどこでも切れる可能性がある!
「ひ」で始まる
単語を単語辞書
ポイントを1つずらして2の場所へ
で調べる
36
コスト最小法による形態素解析(13)
• 実際にやりながら学習
0
こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13
最初はどこでも切れる可能性がある!
「ひ」で始まる
単語を単語辞書
ポイントを1つずらして2の場所へ
で調べる
「ひ」(名詞),「ひと」(名詞),「ひとこと」(名詞)
の3つを発見!
37
コスト最小法による形態素解析(14)
• 実際にやりながら学習
0
こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13
連接規則で,
最初はどこでも切れる可能性がある!
連接可能かどうか
調べる
ポイントを1つずらして2の場所へ
「ひ」(名詞),「ひと」(名詞),「ひとこと」(名詞)
の3つを発見!
38
コスト最小法による形態素解析(15)
名詞
こ
助詞
名詞
の
ひ
名詞
文
ひと
頭
名詞
こ の
これらの連接が
OKか?
ひとこと
連体詞
39
コスト最小法による形態素解析(16)
名詞
こ
助詞
名詞
の
ひ
名詞
文
ひと
頭
名詞
こ の
連体詞
ひとこと
これらの連接が
OKか?
OK
40
コスト最小法による形態素解析(17)
50
名詞40
こ
10
0
70
助詞10
60
10
文 10
頭
10
10
こ の
の
名詞10
ひ
名詞
ひと
文
末
名詞
ひとこと
連体詞10
20
41
コスト最小法による形態素解析(18)
30+40=70
名詞40
50
名詞40
こ
10
0
70
助詞10
60
の
ひ
80
10
10
80
10
文 10
頭
10
10
こ の
連体詞10
20
30
10
30
10
30+40=70
名詞40
ひと
文
末
80 30+40=70
10 名詞40
30
10
ひとこと
42
コスト最小法による形態素解析(19)
• 実際にやりながら学習
0
こ1の2 ひ3 と4 こ5 と6 で7 元8 気9 に10な11 っ12 た13
最初はどこでも切れる可能性がある!
13の場所に行って,文末になるまで作業続行
43
コスト最小法による形態素解析(20)
30+40=70
名詞40
50
名詞40
こ
10
0
70
助詞10
60
の
ひ
80
10
10
80
10
文 10
頭
10
10
こ の
連体詞10
20
30
10
30
10
30+40=70
名詞40
ひと
ここを完成
させよ!
文
末
80 30+40=70
10 名詞40
30
10
ひとこと
44