2006年6月7日: 情報爆発キックオフシンポジウムにて支援班

Download Report

Transcript 2006年6月7日: 情報爆発キックオフシンポジウムにて支援班

情報爆発に対応する
コンテンツ融合と操作環境融合に関する研究
田中克己,田島敬史,小山聡,手塚太郎
アダムヤトフト,中村聡史(京都大学)
チャットウィチェンチャイ ソムチャイ
(県立長崎シーボルト大学)
1
計画研究A01-00-02
情報爆発に対応するコンテンツ融合と操作環境融合に関する研究
何で情報爆発?
•
•
•
•
•
マルチメディア
通信・放送融合
時間
ユビキタス
個人コンテンツ
異メディア
情報
個人生成
コンテンツ
(Blog, Social
Bookmarks)
多種情報源
(Web・放送・
独立系DB)
時空間的な広がり
個人管理文書
(メール,
スケジュール,
文書,写真,
音楽,映像)
(Webアーカイブ,
実空間など)
2
計画研究A01-00-02
情報爆発に対応するコンテンツ融合と操作環境融合に関する研究
3
次世代サーチ技術
- メディアの種類や場所を越えたサーチメディアの種類
統合サーチ
ビデオ映像
サーチ結果の統合
画像
(2D, 3D)
テキスト・
半構造データ
デスクトップ
サーチ
-全文検索
- 周辺テキスト
デスクトップ
(個人PC)
Web
サーチ
-リンク解析
-周辺テキスト
外部DB
Web 百科事典
(Blog含む) GIS
(リンクの無い)
コンテンツの
品質評価・ランキング
TV
PDA
実空間
HD/DVD 音楽プレーヤ
レコーダ
デジカメ
多種多様な情報源、個人コンテンツの増大
コンテンツの
格納場所
計画研究A01-00-02
情報爆発に対応するコンテンツ融合と操作環境融合に関する研究
4
動機
ユーザ
現在のサーチエンジンの課題
・情報源やメディア毎に別々にサーチ
・キーワードを陽に指定する必要
・文字だけでは分かりにくい,映像も
一緒に
・PC文書やメール中のユーザの興味
や知識をサーチに反映できない
・サーチは手段,毎日のアプリケー
ションでサーチが必要
・検索・収集した情報の確度、偏り、
信頼度がわからない
求められるサーチ技術
・統合サーチ
ウエブ、ブログ、TV、個人コンテンツを
網羅的・横断的にサーチ
・クエリーフリー検索
ワープロやブラウザからの自動検索
・個人コンテンツのサーチへの反映
PC内のコンテンツ等からユーザ情報
を自動抽出し検索ランキングに反映
・サーチ結果の意味構造分析・表示
検索結果間の関係を分析・視覚化
トラスト(信用度)情報を生成
・サーチ結果の統合と統合型ランキング
検索結果を自動マージしてランキング
計画研究A01-00-02
情報爆発に対応するコンテンツ融合と操作環境融合に関する研究
5
研究内容
• コンテンツ融合
(統合サーチ)
• 操作環境融合
– daily applicationや実空
間とサーチ環境との融合
– クエリフリー・サーチ,実空
間ベースのサーチとアクセ
ス制御
– メディアの種類や時空間
(時間,格納場所)を越え
た統合サーチ
– サーチ結果の統合と
統合ランキング
ー 個人情報管理
• 品質・信用度の評価
– サーチエンジンのインデックスやクエリログを用いた
品質・信用度評価
– リンクを持たないコンテンツのランキング
計画研究A01-00-02
情報爆発に対応するコンテンツ融合と操作環境融合に関する研究
コンテンツ融合(統合サーチ):これまでの研究と関連研究
画像,ビデオ映像の統合
サーチとWebテキストの統
合 [KuwabaraらICDE2005]
検索結果を質問適合度をもとに,
ページ集合単位で統合ランキング
[Yumotoら ICADL2005],
[MSRA, WWW2006]
今後:異メディアコンテンツを対象
とした統合ランキング
Webページと録画TVコンテンツを統
合サーチ [Miyamoriら,WWW2006]
画像検索
ビデオ検索
Blogからの体験サーチと地図統合
[Kurashimaら WWW2006, DEXA2006]
Webアーカイブのためのブラウザ開発
[Jatowt et al, ACM Hypertext2006]
今後:Webアーカイブのキーワードサー
チ,オブジェクトヒストリ・サーチ
Web・映像アーカイブの統合サーチ
6
計画研究A01-00-02
情報爆発に対応するコンテンツ融合と操作環境融合に関する研究
個人情報管理
Personal Information Management
• 個人が管理する情報の爆発
– 個人管理のデータの量・種類の増加
メール,PDF,Webページ,ブック
マーク、アドレス帳,予定表,・・・
– 個人所有の情報機器の数の増加
デスクトップ,出張用ノート,電子手帳,
携帯,Webサーバ,・・・
– 様々な日常的アプリケーション
個人スケジュール管理ソフト,スケ
ジュール管理グループウェア,・・・
– Small problems happening
everyday to everyone
一人がメールの検索に使う時間は限
られていても、世界で何千万の人間
が、毎日それで時間を消費
• 研究目標
– これらのデータの検索,一括更新,同
期,バージョン管理・・・
• 従来の研究
– XPathによる異種データ統合検索
のためのラッパーAPIの研究
[渡谷、田島 DEWS'05]
– XPathの最小ビュー問題の解(仮
想的なXMLビューを通しての検索
の効率化)
[Tajima, Fukui VLDB'04]
– 階層データ(XML等)の複数バー
ジョンの管理とtemporal質問処理
の効率化 [Buneman, Khanna,
Tajima, Tan SIGMOD'02]
7
計画研究A01-00-02
情報爆発に対応するコンテンツ融合と操作環境融合に関する研究
8
XMLビューによる個人情報管理
検 索 ・更 新
•
•
•
•
「構造」+「キーワード」によるデスクトップ検索
– 様々な形式のデータに対する統一的な構造検
索を実現(問合せ処理手法,検索言語,ランキ
ング,UI,デスクトップコンテンツの版管理)
– 既知のデータの取出しが主なデスクトップ検索
では構造検索も有用(現在のデスクトップ・
サーチは,キーワード検索のみ)
アプリケーション間でのデータ共有を実現するため
のXMLビュー機構
– 各種データ形式を統合する概念ビュー上にさ
らに、各アプリケーション毎の外部ビューを定
義
(例: グループウェアのサイボウズと個人の
Outlookと携帯電話でスケジュールデータを共
有)
USBメモリで個人管理情報をPC,PDA,携帯電話へ
と自在に移動できるシステム
– 単なるファイルの移動ではなく、自動的に各環
境に適応したビューを生成
これら全てを一つの枠組みの中で統合
XM Lビ ュ ー
従来の情報統合システム
(既存複数DBの統合検索ビュー)
グループ
ウェア
個人のソフト
ビュー
ビュー
XM Lビ ュ ー
(概 念 ス キ ー マ )
(非 D B デ ー タ )
計画研究A01-00-02
情報爆発に対応するコンテンツ融合と操作環境融合に関する研究
9
個人情報管理におけるプライバシー保護
● 背景
● 情報社会におけるXMLの普及(eコマース,
金融,医療カルテなど)
● 安心・安全な情報流通のための情報セキュ
リティやプライバシー保護技術
● XMLデータベースにおけるプライバシー保
護問題はほとんど議論されていない
● 個人が管理する情報は多種(XML文書、非
XML文書、画像等)
● 既存のアクセス制御モデルは異種情報源に
十分に適応していない.情報統合の際にプ
ライバシー情報漏えいの可能性
● 研究内容
● 異種情報源のためのアクセス制御モデル
● プライバシー情報流出を防止する情報フィ
ルタリング手法(アクセス制御ポリシーによ
る静的・動的フィルタリング)
社 員 情 報 .xm l
<社 員 >
<氏 名 > 佐 藤 花 子 </氏 名 >
読出禁止
<地 位 > 課 長 < /地 位 >
<給 料 > 620,000 </給 料 >
一般の社員
</社 員 >
アクセス要求
情報統合による
プライバシー情報流出
XML
既 存 の アクセス制 御 1
既 存 の アクセス制 御 2
XML
W o rd
従来研究と関連研究
XMLアクセス制御モデル:XACL[Kudo’00], Author-X[Bertino’00], XACML2.0[OASIS’05]
XML文書のアクセス制御ポリシー変換[ソムチャイら WISE03, Journal WWW04]
XML文書に対するユーザビュー生成の効率化 [ Yu et al, VLDB02][Cho VLDB02][C.Y. Chan et al, SIGMOD04]
XML文書のアクセス制御・バージョン管理[スムチャイら DEXA04]
計画研究A01-00-02
情報爆発に対応するコンテンツ融合と操作環境融合に関する研究
10
操作環境融合:これまでの研究と関連研究
視聴中のTV番組からのクエリフ
リーWeb検索[Maら DEXA2005,
ICADL2005] [Google, WWW2004]
閲覧中の文書や作成中の文書・
メールなどからクエリフリーWeb
検索 [Kawashigeら APWeb2006,
DBWS2006」
TV番組からのオンラインチャット
情報クエリフリー検索 [Miyamori,
Nakamura, Tanaka, ACM
Multimedia2005]
E ne rg y
実空間でのコンテンツ閲覧(センサ
利用による漸次的コンテンツ提示,
実空間依存のコンテンツ検索)
[Nakamuraら INTETAIN2005]
B rig h tne s s
R u nning f au c e t
D is tanc e
地図上の経路移動に伴うクエリフリー
Web検索 [Tezukaら WWW2006]
計画研究A01-00-02
情報爆発に対応するコンテンツ融合と操作環境融合に関する研究
11
操作環境融合:今後の研究課題
• 日常利用のアプリケーションの
操作環境融合
– 操作からのサーチ意図の推定
– アプリケーションとサーチ結果の
相互インタラクション
• 実空間ベースの操作環境融合
– 実空間とサーチ環境の融合
• キーボードやマウスによらないク
エリーフリーサーチ
• 位置情報に基づく検索クエリ補完
– 実空間ベースでのアクセス制御
• その空間にいるユーザのプロファ
イルや予定などといったコンテキ
ストに基づくコンテンツへのアクセ
ス制御
• 空間自身のもつコンテキストに基
づくアクセス制御
W e b F a rm : 文 脈 依 存 ブ ッ ク マ ー ク と そ の 自 律 的 動 作
周 囲 の モ ノ群
公共空間における
拡張アクセス制限
現在の場所名
モバイル検索支援
ユーザ
現在位置
(→ 住 所 )
計画研究A01-00-02
情報爆発に対応するコンテンツ融合と操作環境融合に関する研究
12
品質・信用度の評価:サーチ結果の信用度
コンテンツ自身の公正さ
H o w do es the contents
offer “fair” inform ation?
コンテンツ分析
-多 数 派 ・少 数 派
-話 題 の 偏 り と
詳細度
社会的な評判分析
-リ ン ク 解 析
(e .g . G o o g le P a g e R a n k )
-W e b に 関 す る B lo g 解 析 )
著 者 の 評 判 ・評 価 分 析
-時 間 的 な 首 尾 一 貫 性
-コ ン テ ン ツ 発 信 の
丹精度
著 者 の 信 用 ・信 頼 性
H o w can w e trust authors?
「情 報 メ デ ィ ア に 関 す る 調 査 」株 式 会 社 イ ン タ ー ス コ ー プ 、 2 0 0 5 年 1 1 月
(社 会 的 ) 受 容 度
H o w do p eop le evaluate
the content?
計画研究A01-00-02
情報爆発に対応するコンテンツ融合と操作環境融合に関する研究
13
品質・信用度の評価:これまでの研究
Past W eb
(W e b a rc h iv e s )
Webアーカイブを用いたランキング
改善:新鮮な情報の検索 [Jatowt
et al, WISE2005],検索結果におけ
るrich-get-richer現象を押さえる
Fairページランキング (observed by
[Cho and Roy, WWW2005]) [Jatowt
et al, APWeb2006]
ローカルコンテンツの品質をWeb ペー
ジの PageRank 値の内容の類似度での
荷重平均で推定[Kabutoyaら ICDE2006
SWOD workshop]
検索エンジンのメタデータ(インデックス
やクエリログ)を用いた話題語や兄弟語
発見しオントロジを生成.内容の偏り分
析などに利用 [Oyamaら APWeb2004,
Ohshima,Yamaguchiら [DBWS2006]
計画研究A01-00-02
情報爆発に対応するコンテンツ融合と操作環境融合に関する研究
14
品質・信用度の評価:今後の研究テーマ
•
信頼性評価用メタデータ生成に関する研究
–
–
[関連研究:Cafarella,Etzioni, A search engine for natural language applications,
WWW2005]
既存のサーチエンジンのインデックスは,「検索」用であり,必ずしも「信頼性評価」には適し
ていない
•
文書構造・Web構造・アクセス統計に関するインデックス
–
–
–
•
言語情報に関するインデックス
–
–
•
現状はフレーズ検索が主体
かかり受けや品詞情報が必要
メタデータを用いた,記述パターンと事例のインクリメンタルな収集
–
これまでの研究では,事例のパターン
は固定的
•
–
•
現状は,タイトルとテキストの区別のみ
より詳細な構造の記述
アクセス統計に関するメタデータ
初期のパターンから出発し,
事例の発見とパターンの発見を
繰り返すことで,
精度,再現率の向上
ユーザとのインタラクションを通しての
パターンの精錬
事例の集合
パターンの集合
efficacious(ジシミ,黄疸)
efficacious(ウツギ, 黄疸)
:
“XはYに効く”⇒efficacious(X,Y)
“XはYに効用”⇒efficacious(X,Y)
:
信頼性評価のための情報呈示手法
–
評価に有効な「文脈」の抽出
•
•
–
情報提供者の立場(利害関係者or中立者),
同様の記述や反論・代替案に関する統計情報
どのような情報を提供すれば信頼性評価に有効か,
Web調査等を参考に検討
信頼性判断に使用できる関連情報を自動取得し
表示(著者情報,トップページ,被リンク数,メタ情報など)
A u th o r
W eb page
L in ks
T ru s t