アノテーションの精度が高い

Download Report

Transcript アノテーションの精度が高い

アノテーションに基づく
知的生産支援
2003-10-13
第5回知識科学シンポジウム
橋田 浩一
CARC, AIST & CREST, JST
知的生産性向上の課題
 電子メディアの未熟
 欲しい情報が見付からない
 関連情報が莫大でまとまりがない
 インタラクティブ性に欠け文脈が伝わらない
 e.g. 社内メールを禁止したら業績が向上
 タテ割り社会、専門の細分化、国際化、etc.
 意味がわからない
 外国語、専門用語、etc.
 パートナーと出遭えない
2
セマンティックコンピューティング
 データではなく意味が計算の対象
 コンピュータが意味を理解
… 前頁の課題を解決
 超高精度の検索、翻訳、要約、プレゼンテー
ション、マイニング、etc.
 自動的な意味理解は不可能
→ 人手を含む意味構造化(アノテーショ
ン)
3
インテリジェントコンテンツ
 意味を明示した情報コンテンツ
 コンピュータが具体的意味内容を理解
 文書、ビデオ、オーディオ、etc.
経験者
対象
対象
首相 は 郵政事業 を 民営化 し たい 。
対象
動作主
逆接
4
対象
反対 する 人々 も 多い 。
意味の諸相
 暗黙的な意味
 身体感覚
 文学的意味
 顕在的な意味
 言語で記述できる
 論理的・客観的内容
インテリジェントコンテンツ
5
社会情報インフラに基づく
グラウンディング
Semantic World
生活世界
Semantic Web
デジタル世界 インテリジェント
人
コンテンツ
出会い
情報
ユビキタス
コンピューティング
6
モノ
主な研究テーマ
意味に基づく翻訳
翻訳
インタラクティブな
プレゼンテーション
制約の下での解析
解析
提示
要約
意味に基づく要約
可視化
著作
版管理
理解・発想支援
検索
推論
セマンティックオーサリング
意味に基づく検索
7
浅くて広い推論
従来の情報検索
 検索要求を正確に記述できない検索質問
 キーワードの単純な組合せ
 関係する情報の抽出漏れ、無関係な情報
の過剰抽出
 ×文書中の特定の部分
 ×統計的に意味のない稀な情報
8
検索 = 意味構造の近似照合
 質問グラフとDBの部分グラフの間の類似性
質問: 「意味構造を
用いたインタラク
ティブな情報検索」
意味
DB
情報
インタラクティブ
…
知識
構造
シソーラス
構成
抽出
検索
用いる
9
…
利用
…
意味構造に基づく情報検索
 検索の困難: 検索質問と検索対象の間の
表現上の差異を埋める推論
 意味構造を手掛かりとするインタラクション
 半自動的な推論
 検索質問の改訂
 意味構造の精度 → 検索の性能
 半自動的意味構造化の普及
→ 一覧検索、翻訳、要約、提示等
10
質問改訂のインタフェース
意味的
依存関係
類義語
拡張
11
実験
 データベース
 全自動解析した毎日新聞1年分の記事
 課題
 メージャー首相に投票で勝った男の子
 これから作る子会社の方が親会社よりも評
価が高い
 中国で海外からの資金の投資を得る地区
 会がマスコミに報じられると電話が殺到
 結果
意味構造の利用 → 検索の時間と手間が半減
12
アノテーションのインセンティブ
著者・作業者のメリットが
 間接的でわかりにくい
 検索、翻訳、要約、言い換え、etc.
 直接的ですぐわかる
 セマンティックオーサリング
 キラーアプリケーション!
13
セマンティックオーサリング
アノテーションに基づく著作
 コンテンツ作成時に手動の意味的アノ
テーションをすることにより、従来のワー
プロ等よりも良い文章が楽に書ける。
 できた文章は意味的に構造されており、
高度な検索や要約が可能。
14
セマンティックオーサリング
順序なしコンテンツの作成
 順序つきコンテンツの
生成に必要な構造化
 理解・発想支援
 コンテンツの品質向上
順序つきコンテンツの作成
 文章化支援
 オーサリングの負荷軽減
自
動
的
対
応
15
段落
コンテンツの意味的アノテーションの精度が高ければ意味的検索
コンテンツの意味的アノテーション
の精度が高い。
また、検索の精度向上による収益の増加はアノテーション
アノテーションのコスト
をはるかに上回る。
したがって、検索はアノテーション
アノテーションを普及させるためのキラーアプリ
ケーションである。
順序なしコンテンツ (粗粒度)
アノテーション
の精度が高い
検索の精度向上によ
る収益の増加がアノ
テーションのコストを
はるかに上回る
条件
理由
理由
意味的検索がコンテンツの意味的
アノテーションを普及させるための
キラーアプリケーションである
16
検索の精
度が高い
選択操作
検索の精度 … 上回る
検索の精度向上によ
アノテーションのコスト
る収益の増加がアノ
アノテーション
テーションのコストを
はるかに上回る
アノテーション
の精度が高い
条件
理由
理由
意味的検索がコンテンツの意味的
アノテーションを普及させるための
キラーアプリケーションである
17
検索の精
度が高い
共参照の表示
アノテーション
の精度が高い
検索の精度向上によ
る収益の増加がアノ
テーションのコストを
はるかに上回る
条件
理由
理由
意味的検索がコンテンツの意味的
アノテーションを普及させるための
キラーアプリケーションである
18
検索の精
度が高い
修正
アノテーション
の精度が高い
検索の精度向上によ
る収益の増加がアノ
テーションのコストを
はるかに上回る
条件
理由
理由
意味的検索がコンテンツの意味的
アノテーションを普及させるための
キラーアプリケーションである
19
検索の精
度が高い
順序つきコンテンツ
段落
コンテンツの意味的アノテーションの精度が高ければ意味的検索
の精度が高い。
また
また、検索の精度向上による収益の増加はアノテーションのコスト
をはるかに上回る。
したがって
したがって、検索はアノテーションを普及させるためのキラーアプリ
ケーションである。
20
順序の変更
段落
コンテンツの意味的アノテーションの精度が高ければ意味的検索
の精度が高い。
したがって
したがって、検索はアノテーションを普及させるためのキラーアプリ
ケーションである。
検索の精度向上による収益の増加がアノテーションのコストをはる
かに上回るから である 。
21
制約充足問題としての文章生成
 順序なしコンテンツ … グラフ
 ノード
 (なるべく簡単な)文
 リンク
 修辞関係(rhetorical relations) … RST
 照応・共参照
 順序つきコンテンツ … 木
 制約
 接続表現と文間の順序
 人間による指定もあり
 選好 … 照応、同一接続表現の回避
22
修辞関係と言語表現
 背景説明(background)
 「Sだが、N」、「S。N」、etc.
 例(example)
 「N。S」、「SのようにN」
 原因(cause)
 「SだからN」、「S。したがってN」 、 「N。Sだか
らだ」、 「SためにN」、「NなのはSためであ
る」、etc.
 証拠(evidence)
 「SだからN」、「S。したがってN」、「N。Sだか
らだ」、etc.
23
…
制約
 文内接続は文内接続のみを含む。
 遠隔接続以外は交差しない。
原因
対照
対照
今日は日曜だ。
24
…
太郎が来たので
*
日曜日なのに奈緒美が帰った。
しかし、健も来た。
選好
 修辞構造の入れ子が浅い。
 遠隔文間接続はなるべく避ける。
 同じ接続表現の連続はなるべく避ける。
 *今日は良い天気ですが、予報では雨です
が、出かけましょう。
 実は「文のレベル」に関する制約?
25
文章生成のアルゴリズム
入れ子を浅くする。
 長い経路を外側に置く。
 「背景説明」のようにSとNの順序が固定
されている場合や人間によって順序が指
定されている場合にはその限りでない。
 サイクルがある場合にどのリンクを切る?
26
議論の構造化
27
 IBIS, Coordinator, Open Meeting, etc.
 オーサリングの問題 … 認知的負荷
The Open
Meeting
 National
Performance
Review (Dec.
1994)
 MIT AI Lab.他
 参加者4200人
 投稿>1300件
 採用1013件
28
共同セマンティックオーサリング
 基盤技術







著作 … セマンティックオーサリング
選択的配信 … Weblog風?
検索 … リンク付けにも
要約 … 興味と予備知識に応じてインタラクティブに
翻訳 … 正確に理解できる出力
版管理
評価 … 信頼(trust)、業績、インセンティブ
 知の共創


29
順序なしコンテンツの共同著作
学術研究、政策立案、合意形成
知識循環のプラットフォーム
 標準形
コンテンツ(文書、章、段落、語句、etc.)の
間の直接的意味関係(等価、原因-結果、
動作-動作主、規則-例、etc.)はすべてリ
ンクによって明示されている。
 検索の多くはリンク辿りに帰着
 翻訳、要約、etc.
30
知識循環型社会
巨大なグループウェア
 データベースを作る人々 = 使う人々
 知の社会的共有と拡大再生産
セマンティックオーサリング
不特定多数
の利用者
 消費者
 事業者
 仲介者
31
知識の提供
共有データベース
知識の取得
高性能の検索・要約
Semantic Society (1/4)
 Semantic Management
 ホワイトカラーの生産性向上
 検索コスト極小、オンデマンド要約、etc.
 協業支援
 市場動向分析
 営業日誌分析
 Semantic Industry
 ものづくりの高度化
 ソフトウェアの生産性向上
 設計情報の共有と再利用
32
 コンサルティング
 コンテンツの知的作成・配信
Semantic Society (2/4)
 Semantic Learning
 個別生涯学習
 オンデマンドで知識をわかりやすく提示
 国語能力・ディベート能力の向上
 セマンティックオーサリングによる論理的思考能
力の養成
 Semantic Science
 研究と発表と評価の融合
 異分野間の知識移転
 バイオインフォマティクス、etc.
 内容分析、談話分析
33
Semantic Society (3/4)
 Semantic Government




民意の集約・分析
政策立案と社会的合意形成
電子自治体
政治・社会的課題のグローバル化・複雑化
 代表制では多様な知識の集約が困難
 全有権者による有効な議論が可能なら
 代表制・間接民主制は不要
 大規模な「直接」民主制
 情報技術による支援
34
 検索、要約、翻訳、etc.
 ウェブログでは不足
Semantic Society (4/4)
 Semantic Living: 生活情報コミュニティ支援
 生活関連情報を網羅
→ 需要と供給の相互作用・拡大再生産 → 産業創造
 全利用者による知識提供 → 雇用創出
地域生活支援センター
相談対応
検索、要約、
…
検索、要約、…
知識提供
知識取得
知識提供
知識提供
オーサリング
知識循環型
データベース
((生活、行政、産業
生活、行政、産業 …
…))
35
オントロジー
情報弱者
まとめ
 インテリジェントコンテンツ
 人手による意味的アノテーション
 人間と機械がコンテンツの意味を共有
 セマンティックオーサリング
 アノテーションに基づいて良いコンテンツ
を楽に作れる
 日常の文書作成 →文化の創発
 共同セマンティックオーサリング
 知識循環型社会
 知の共創
 SECIモデルとの関係 … 表出と連結?
 知識創造の基盤(解ではない?)
36