基本的な原理:言語処理

Download Report

Transcript 基本的な原理:言語処理

言語メディア処理
第15回 授業全体のまとめ
横井俊夫
学習ノート
学習ノート提出状況
http://www2.teu.ac.jp/media/~yokoi/lang.htm
http://www2.teu.ac.jp/media/~yokoi/lang.htm
学習の重点
– 基本的な原理
• 言語学として
• 言語処理として
–
–
–
–
–
他のメディアとの役割分担
コンテンツを構成する役割
システムの中での役割
言語処理ソフト・データ
言語コミュニケーション
基本的な原理:言語学
文の構造:文の基本構造
[線形構造]
[句構造]:英語など構造の固い言語に適する
[依存構造]:日本語などに適する
日本語、英語、中国語の比較
[日本語] 昨日先生が書店で本を買った。
[英 語] The teacher bought a book in the
bookstore yesterday.
[中国語] 老師昨天在書店買書了。
昨日先生が書店で本を買った。
– 基本構造(文型)
SOV
– 名詞の格(意味役割)
接辞(助詞、後置詞)
– 動詞の時制
接辞(助動詞)
膠着語(agglutinative language) :実質的意味を持つ
語や語幹に機能語や接辞を付けて、さまざまな文
法範疇(名詞の格や動詞の法・時制など)を表す言
語。日本語、朝鮮語、ウラル・アルタイ語族諸語。
The teacher bought a book in the bookstore yesterday.
– 基本構造(文型)
SVO
– 名詞の格(意味役割)
位置、語(前置詞)
– 動詞の時制
形態変化
屈折語(inflectional language): 文法範疇(名詞の性・数・格、動
詞の時制など)を表すために形を変える機能を持つ言語。英
語、フランス語、ドイツ語、インド・ヨーロッパ語族諸語。
老師昨天在書店買書了。
(老師)(昨天) (在書店)(買)(書) (了)。
主語
時間名詞 状態語
述語 目的語 語気助詞
– 基本構造(文型)
SVO
– 名詞の格(意味役割)
位置、語(前置詞)
– 動詞の時制
時制を示す語
孤立語(isolating language): 個々の形態素が語として
の独立性を持ち、格などの文法範疇が語形変化や
接辞によらず文中の位置によって表される言語。
中国語、チベット語、タイ語、シナ・チベット語族諸
語。
単文と複文
[単文]
昨日、東京で地震があった。
今朝の富士山はひときわ美しい。
[複文]
昨日、東京で最近では珍しいといわれるほど
大きな地震があった。
今朝、私の部屋の窓から見た富士山はひとき
わ美しかった。
今朝の富士山はひときわ美しいと思った。
単文の構造
「昨夕、東京で雨が激しく降った。」
「昨夕」でもなく、「東京で」でもなく、「雨が」でも
なく、「激しく」でもなく、述語成分「降った」が構
造を決める。
述語:
(1)動詞の述語:「降る」「学ぶ」「学習する」
(2)形容詞の述語:「美しい」「大きい」「静かだ」
(3)名詞の述語(名詞の後に「だ」「である」「です」が
つく):「大学だ」「教科書である」「学生です」
単文を構成する成分:
(1) 述語成分:「降った」
(2) 格成分:「雨が」
(3) 述語修飾成分:「激しく」
(4) 状況成分:「昨夕」「東京で」
<単文>:=<状況成分><格成分>
<述語修飾成分><述語成分>
格成分:多くの場合、名詞に「が」「を」「に」「か
ら」「へ」「と」「より」「で」「まで」(「の」)などの助
詞(格助詞)が付いた構造
述語修飾成分:副詞(「ゆっくり歩く」の「ゆっく
り」)、形容詞の連用形(「速く歩く」の「速く」)
状況成分:出来事が起きた時と場所を表す。文
頭に置かれる。これは、補足成分、あるいは、
述語修飾成分と考えることもできる。
格成分の構造:格(case)
文法格
ガ格:主格
ヲ格:対格、目的格
ニ格:与格「弟に渡す/与える/話す」
場所格
ニ格:位格「東京にいる/住む/残る」
カラ格:
ヘ格:
関係格
ニ格:依拠格「叔父にあたる/似る/頼る」
ト格:
ヨリ格:
状況格
デ格:
数量格
ゼロ‐格:「1時間かかる」「3キロ進む」
格成分の内部構造:
<格成分>:=<修飾部><名詞><格助詞>
<とりたて助詞><間投助詞>
[例]赤い‐花‐に‐しか‐ね
英語の格成分の内部構造:
<格成分‐前置詞句>:=<前置詞><名詞>
<修飾部>
述語成分の構造
<述語成分>:=<述語語幹><ボイス>
<アスペクト><テンス><モダリティ>
「見られていたらしい」
→見(語幹)られ(ボイス)てい(アスペクト)た(テ
ンス)らしい(モダリティ)
「見ていられる」
→見(語幹)てい(アスペクト)られ(ボイス)る
「見たらしかった」
→見(語幹)た(テンス)らしかっ(モダリティ)た(テン
ス)
英語の述語成分の構造:
<述語成分>:=<モダリティ><テンス>
<アスペクト><ボイス><述語語幹>
複文の構造
単文、複文、重文
単文(simple sentence):
複文(complex sentence):
「誰もが雪が降ると思っている」
「雪が降ると、電車が止まる」
「雪が降る日は寒い」
「雪が降る」が従属節でそれ以外が主節。
重文(compound sentence):
「花は咲き、鳥は歌う」
ただし、重文も複文に含める
複文の構造
– 節(clause):述語を中心としたまとまり
– 複文:複数の節から構成される文
– 主節(main clause):自立して存在する節
がひとつ含まれる
– 従属節(subordinate clause):主節以外の
節は主節に従属する
•
•
•
•
名詞節
連体節
連用節
並列節
意味の意味
– 意味、言葉が表現する内容とは
– 語の意味、文の意味、文章の意味とは
– 文脈に依存する部分と文脈から独立して議論
できる部分
– 意味論と語用論
– コンピュータが扱えるものであること
意味とは
– 表現するものへの対応付けである
表現するものも表現されている、コンピュータが扱
える形で表現されている
• 形式的記号表現
• イメージ表現
– 言葉間の関係である
言葉
対象世界
概念
言葉
対象世界
基本的な原理:言語処理
言語処理
解析と生成
形態素解析:文字列(入力文)→形態素列[形態素辞書]
構文解析:形態素列→構文(意味)構造[構文辞書、文法
ルール]
意味解析:構文構造→意味構造[意味辞書、意味ルール]
文脈解析:意味構造→談話構造[文脈知識、文脈ルール]
意味生成:談話構造→文の意味構造[文脈知識、文脈ルー
ル]
構文生成:意味構造→構文構造[意味辞書、意味ルール]
形態素生成:構文構造→形態素列[構文辞書、文法ルー
ル]
表層文生成:形態素列→文字列(出力文)
語と形態素
日本語の場合:
– 日本語文は分ち書きされていないため語の厳密な
定義には議論がある。また、形態素という概念は
欧米語の言語学からきたもので、日本語において
は定義は明確ではない。日本語の語は大きく10の
品詞に分類される。複数の要素からなる語につい
ては次の3つの結合の形態がある。
(1) 活用語:活用語幹+活用語尾 「食べ+る」
(2) 派生語:接頭辞+派生語幹、派生語幹+接尾辞
「寒+さ」「真+冬」
(3) 複合語:複数の語が結合 「うれし+泣き」
「メディア+学部」
日本語の形態素解析
– 制約と優先規則:制約(constraint)はそれ
に違反するものを排除するという厳格な規
則である。優先規則あるいは選好
(preference)はもっともらしさの優先度を
決める規則である
– 入力文の形態:漢字かな混じり文、かなべ
た書き文のいずれかである。基本的な手法
は同じであるが、かなべた書き文の方がは
るかに曖昧度が高くなる。かな漢字変換な
どでは、処理単位を文節のような短いもの
にすることによって処理の負担を軽くした
連接規則という制約による解析
– 2つの形態素が連続して文中にあらわれる
ことができるかどうかを示す連接可能性規
則を制約として与え、この制約に違反しな
い組み合わせを求める。
優先規則の利用
– 優先規則を利用し、望ましいと思われる結
果に絞り込む。
– 形態素解析における優先規則:
最長一致法:
2文節最長一致法:
形態素数最小法:
文節数最小法:
コスト最小法:
構文解析とは
– 文法規則に基づいて文を解析し、文の構造を
求める。
• 文法規則
規則はルールの形式:A→α
•文
形態素解析の出力:形態素(品詞等)の列
• 文の構造
構文木(句構造):木構造(句の入れ子構造)
• 求める
構文解析アルゴリズム
文法規則(句構造規則と辞書規則):日本語
[句構造規則]
<文>→<後置詞句><動詞句>
①
<動詞句>→<後置詞句><動詞句> ②
<動詞句>→<副詞><動詞>
③
<動詞句>→<動詞>
④
<後置詞句>→<名詞句><助詞>
⑤
<名詞句>→<形容詞><名詞>
⑥
<名詞句>→<名詞>
⑦
[辞書規則]
<名詞>→一郎|ボール
<助詞>→が|を
<形容詞>→速い
<副詞>→軽々と
<動詞>→投げる
⑧
⑨
⑩
⑪
⑫
構文木
「一郎が速いボールを軽々と投げた」
文の導出
<文>
⇒<後置詞句><動詞句>:①
⇒ <名詞句><助詞> <動詞句>:⑤
⇒
⇒
⇒
⇒
⇒
⇒一郎が速いボールを軽々と投げた(⑧⑨⑩⑪⑫)
構文解析アルゴリズム
– トップダウン(top-down)アルゴリズム
– ボトムアップ(bottom-up)アルゴリズム
日本語の依存構造と優先規則
– 日本語文の特徴(英語に比較して)
• 語順が比較的自由である
• 格要素の省略が可能である
– I put a pen on the table.
A pen put I on the table.(×)
I put on the table.(×)
put a pen on the table.(×)
– 私はペンを机の上に置いた。
ペンを私は机の上に置いた。
私は机の上に置いた。
ペンを机の上に置いた。
私は置いたペンを机の上に。(×)
– 句構造文法、句構造規則、句構造表現は英
語のような構造の硬い言語を扱うのに適して
いる。
– 日本語には係り受け文法あるいは依存文法、
依存構造表現の方が適している。
• ある文節が他の文節に係る(依存する)という形式
で文の構造を表現する。
他のメディアとの役割分担
それぞれのメディアの役割
• それぞれのメディアには、それぞれにメディア本来の役割がある。
他のメディアでは代替することのできないそれぞれの役割がある。
• 画像メディア、映像メディアは、外在する世界をそのまま描き取っ
て、あるがままに表現するメディアであり、言葉、言語メディアは、
世界を切り分け、不必要な部分を捨て去り記号として表現するメ
ディアである。言語メディアは、書き言葉である文字言語メディア
と話し言葉である音声言語メディアから成り立っていると考えるこ
とが出来る。音声言語メディア、あるいは、音声メディアは、人間
にごくわずかの負担にしかならないメディアである。密着度の高
いコミュニケーションをどのような環境においても実現出来るメ
ディアである。
• 身体動作、身体行為も大切な役割を持ったメディ
アである。腕の動き、手のしぐさ、顔の表情、これら
の行為メディアは、情報を身体感覚に結び付ける。
ゲームマシンに臨場感を持たせることだけがこのメ
ディアの役割ではない。情報という観念世界を身
体感覚という現実世界に一体化させ、身体全体で
情報のバランスを取れるようにする大きな役割が
ある。
• ただし、以上のようなメディアの役割付けは、メディ
アの常識的、日常的な機能に関するものである。
非-常識的、非-日常的な機能、すなわち、芸術
のためのメディアの機能に関しては、役割付けは
大きく様変りする。
• 複数のメディアが適切に組み合わされ、相乗効果
を生み、新しい表現能力を持つようになる。マルチ
メディアは、コンピュータ上にメディアの新しい組み
合わせ方、融合の仕方を提案する。バーチャルリ
アリティのような、映像、音響、身体行為、そして、
言語と巾広いメディアを組み合わせ、統合化するメ
ディアも登場する。これは全く新しい展開ヘの可能
性を秘めたメディアである。
言語メディアの役割
• メディアには、それぞれにメディア本来の役割があ
る。言語メディアには、言語メディア本来の役割が
ある。言語メディアは、世界を切り分け、不必要な
部分を捨て去り、記号として世界を表現する。これ
を、世界を分節化し、記号化するという。この分節
化と記号化の威力によって、言語メディアは、他の
メディアが持つことの出来ない表現能力を持つこと
になる。
① 一般的な概念を表現することが出来る。
「花」によって<花というもの>、「上」によって<位
置的に上であるということ>について語ることが出
来る。何を<花というもの>に含めるか、境界は曖
昧である。しかし、<花というもの>が現実に存在
するかのように語ることが出来る。
② 抽象的な概念を表現することが出来る。
「自由」、「平等」、「平和」、近ごろはあまり聞かれな
くなった言葉であるが、これらの言葉によって<自
由であること>、<平等であること>、<平和であ
ること>について語ることが出来る。これらは、正
確には、人間の観念の中に存在するだけである。
③ 否定を表現することが出来る。
「何も見えない。何も聞こえない。」というように<存
在しないということ>、<起こらないということ>に
ついて語ることが出来る。見えないもの、見えない
ということを絵に描くことは出来ない。聞こえない音、
聞こえないということを音として聞かせることは出
来ない。
④ 時間や場所、状況を自由に設定し、語ることが
出来る。
「昔々、ある所に、・・・・・・」、「1863年12月23日、ロ
ンドンのとある街角で、・・・・・・」、「100年後の地球
上では、・・・・・・」、「明日、昨日大学のブックストア
で買った本を持ってくる。」、などなどである。時間
や場所に対する分節化、記号化の威力である。
⑤ 語ることを生み出す精神の内面や論理の筋道を語ることが
出来る。
「・・・・・・が正しいと思ったから、・・・・・・を信じた。」、「君は信じ
ないと思うが、僕は、ぜひとも・・・・・・したかった。」「・・・・・・とい
うことを正しいとすれば、・・・・・・という結論が導ける。しかし、
かからずしも正しいとは言えないならば、・・・・・・と考えざるお
えない。」などなどである。語ること自体を対象に、思考、意
志、感情、感覚の有り様を表現出来る。
⑥ 語っている状況について語ることが出来る。
「・・・・・・と誰が、何時、何処で言ったのか教えて下さい。」、
「・・・・・・と彼はいってはいるが、苦し紛れだね。」、「・・・・・・と
いう世の中の風潮は、実に嘆かわしい。」などなどである。い
かなるものをも対象にすることが出来る記号の威力である。
この威力によってパラドックスを表現することも出来る。
⑦ 自身について語ることが出来る。
「・・・・・・という文は、習慣を表わす現在完了形であ
る。」、「日本語では、述語は文の最後にくる。」、
「英語の文は、主部のあとに述部が続く構造を持
つ。」などなどである。自分自身をも対象に出来る
記号の威力である。
• 「絵にも描けない美しさ」を絵にかけるか
• 「言葉に言い表せない驚き」は言葉で表現
できているのは何故か
コンテンツを構成する役割
– ドキュメント
•
•
•
•
書籍
新聞
Webページ
PowerPointスライド
– ドキュメントの構造
– 事典と物語
システムの中での役割
最大の課題
– インターネット上の膨大な情報を有効に利用で
きるようにすること
• 情報が膨大になり検索サイトだけでは追いつけなく
なった
• 情報のほとんどがテキストの形式である
• 情報が外国語で記述され、ほとんどが英語で記述さ
れている
• 誰もが発信できる
– テキスト処理による情報の組織化技術
– テキストの翻訳技術
情報の組織化技術
– 情報を整理する技術
•
•
•
•
選別
分類
抽出
要約
選別
– 必要な情報を残し、不要な情報を捨てること、
情報の取捨選択を行うこと
– いつ選別するのか
• 情報が必要とされる時点での選別:検索
• 情報が得られた時点での選別:フィルタリング
– 検索
• 情報検索、文献検索
• マルチメディア検索、画像検索、映像検索
– 文献検索
» 目次による検索 → 分類を用いた検索
» 索引による検索 → キーワード検索
» 通読による検索 → 全文検索
– テキスト検索システム
出来るだけ探したいことを表現した質問をそのまま
の形で受け付け、出来るだけ広範囲のテキストを
出来るだけ速く探し、出来るだけ精度の高い結果
を出してくれるのが良い検索システム
• 検索質問形式と照合
• 検索対象と蓄積形式
• 検索精度
– 検索システムの評価
• 再現率(recall)
<再現率>=<検索された該当テキストの数>/
<全テキスト中の該当テキストの数>
• 適合率(precision)
<適合率>=<検索された該当テキストの数>/
<検索されたテキストの数>
• 再現率、適合率ともに1に近づくのが望ましい。実
際にはトレードオフの関係となる
– フィルタリング(filtering)
プロファイル(profile):選別指定情報
– サンプル文書からの自動生成
– プロファイルの更新
分類
– 2つ以上のグループに分割する
(選別は2つのグループに分割する)
– 分類の種類
• カテゴリ付与:与えられた分類体系に沿ってテキス
トを整理する
• テキストクラスタリング:似たようなテキストをグ
ループ化する
抽出
– 中心的な情報だけを抽出することを主題情報
の抽出、あるいは、情報抽出(information
extraction)と呼ぶ
– テキストの特徴を利用し、文パターン、文章パ
ターンを取り出し、照合する。テキスト理解に
ならないようにする。
要約
– 抽出した情報をテキスト(要約文章)の形に表
現
• 本来の要約は、理解→再構成→文章生成
• 「テキストの理解」を「重要な部分の同定」で近似す
る
「テキストの中から重要な部分だけを残し、その他の
部分を削除することによって要約を作成する」
重要な部分の同定
– テキストの構造を利用する
– 論文の「結論」の最初の文章を抜き出す
– 文の重要度を計算し、重要度の高い文だけを
残す
• 重要度の計算に使われる特徴
–
–
–
–
–
キーワードの出現回数
特定の表現パターンの存在
時制(過去、現在)
文のタイプ(主張、推測、事実など)
前文との接続関係(理由、例示など)[「例えば」で始まる
文は省く]
– 文章中の位置
– 段落中の位置[最初の文は重要]
アノテーション
– より精度の高い内容の把握
– コンピュータのテキスト理解を助けるアノテー
ション
• 「ユーザが求める情報を提供する」から
「ユーザが求める情報を、ユーザが求める観点か
ら、ユーザが求める詳細度で提供する」へ
翻訳
質問
• 日本語ワープロにおけるカナ漢字変換はカナ文
字言語から漢字カナ交じり言語への機械翻訳の
システムとみなすことが出来る。この機械翻訳
が成功した理由は何ですか。設けられた仕組で
特筆すべきものをあげなさい。
• 通常の日本人(日本語を母語とし、英語を外国
語として学習した者)が機械翻訳ソフトを利用
する場合、日英翻訳機能と英日翻訳機能での使
用上の違いを述べなさい。
言語処理ソフト・データ
いろいろなソフトやデータがいろいろな形態で
利用できる
•
•
•
•
研究開発用ソフトやデータ
市販のパッケージソフト
市販のアプリケーションソフト
インターネット上のサービス(有料、無料)
言語コミュニケーション
日本語の変遷とグローバルコミュニケーション
• 近代以降、日本語の有り様が大きく問われたことが
三度ある。明治維新時、太平洋戦争後、そして、
1980年代以降のグローバル化とIT化の時である。
GlobishとPlain Language
• Globish:フランス人であるジャン=ポール・ネリエール
によって提唱された英語をベースにデザインされた
世界共通言語
• Plain Language:米国政府が進めているPlain
Language(分かりやすい言葉)、あるいは、Plain
Writing(分かりやすい書き方)と呼ばれる政府文書
の平易化活動
日本人が持つべき言語能力について論じてみよう
– 日本語能力はどうあるべきか
– 英語能力はどうあるべきか
– 他の外国語(例えば、中国語)に対する能力はどう
あるべきか
– 共通に持つべき能力と個性に応じて持つべき能力
– グローバリゼーションの行く末
期末試験
8月6日(火)12:30~(60分間):研A302
持込不可
各人、掲示板を確認すること