全ページ (991013, 60 pages, 10226688 bytes)

Download Report

Transcript 全ページ (991013, 60 pages, 10226688 bytes)

1999年10月13日(京大会館)
で開催の拡大推進委員会にて報告
知能情報・高度情報処理
マルチメディア・コンテンツの
高次処理の研究
田中 克己
神戸大学自然科学研究科
情報メディア科学専攻
[email protected]
http://www.db.cs.kobe-u.ac.jp
本プロジェクトのねらい

マルチメディアデータベースの新しいソフトウエア・
プラットフォームの確立




新分野の開拓の可能性


データ中心的なプラットフォーム
マルチメディアコンテンツの特性を重視
従来のDBが扱っていない側面を重視
連続メディアの科学,放送とデータベース,演出の科学
「高次処理」=マルチメディアデータベースとしての高度
機能(連続メディア・半構造メディア処理機能など)
本プロジェクトのターゲット

コンテンツの流通基盤としてのデータベース技術



デジタル放送環境のためのデータベース




アクセス管理(版権,課金,CM飛ばし防止など)
ユーザ管理(ユーザプロファイル,インタラクション)
リアルタイムインデキシング
デジタルビデオ(蓄積型)のデータベース
インターネット情報資源の活用
サイバースペースを支えるデータベース

情報検索支援のための空間メディア(デジタルミュジアム,都市
空間DBなど)
関連プロジェクト

DVLプロジェクト




「デジタル放送+インターネット」をターゲット
分散オブジェクト技術によるミドルウエア
データ放送フォーマット(ビーコン)やEC用メディエータ
など
IBLプロジェクト

リアルタイムインデキシング,ビデオダイジェスト,番
組インデックスのデータモデル,など
データベース
DB構造設計
スキーマ
部品化
蓄積
出力
関係,
オブジェクト
検索・管理
検索言語SQL, OQL,…
質問処理,アクセス管理
マルチメディア・コンテンツの特性



連続性(どこでも情報単位になり得る!)
半構造性(不確定な情報単位・非定型的な構
造)
多様性・多重性(メディア,解釈の多様性)
動画像 3次元データ身体動作
静止画像
音楽
メディアの連続性
従来の文字数値データ
240.133
ABC
メディアの連続性
(continuous)
ビデオ映像(1次元),地図(2次元),コンピュータグラフィックス(3次元)など



情報単位があらかじめ決定し難く,かつ,どの部分も検索単位になり得る.
密な索引を付与することが困難.
事実上無限の詳細度レベルがある.
連続メディアの情報単位の不確定性
“There are no basic units of
meaning in film”
- James Monaco (1981)
How to Read a Film : The Art, Technology, Language,
History and Theory of Film and Media
メディアの半構造性

従来のDB


構造的に厳密に定義
Web DB


構造全体を厳密に定義すること
が難しい.
情報単位や分類構造が不確定
関係データベース形式
月度 営業所 品名
売上
原価
メディアの半構造性
(semi-structured)
メディアの多様性・多重性

マルチストリーム性

多地点
ビデオ
メディアの多様性
映像,音声,
テロップ
制裁 期限 を 目的 に 控えた 日米 自動車 問題 を めぐる
身体動作
データ
SMIL
文書
連続メディアと半構造メディア
のためのデータベース
?情報単位は
?スキーマ
?関連付け
?リアルタイム性
部品化
蓄積
出力
検索・管理
?情報ブラウジン
グ?
?索引生成
?質問形成,ビュー
?検索結果視覚化
?加工・再構造化
本プロジェクトのアプローチと
新規性
配信・提示
情報組織化と概覧
・複数メディアの解析結果
の統合
・マルチメディアスキミング
(要約,圧縮)
・番組化
・複数メディア情報の重畳
表示と詳細度制御
・情報単位の推定と自動
分類
出力
部品化
蓄積
・放送メディア・空間メディアによる提示
・フィルタリングと合成
時系列データの新鮮度判定
デジタル放送のsocial filtering
視聴者のインタラクション
リアルタイム編集
同期化・ダイジェスト化・番組化
管理
検索・管理
索引付けと検索
疎で軽い索引モデルと代数的検索モデル
質問形成支援(空間内でのユーザ振舞)
・詳細度制御
・自律的な版権・課金管理
・データ放送の有効時間管理・版管理
・アクセス管理
依存関係のあるデータの
アクセス権管理や巡行履歴に
基づくリンク活性化
マルチメディア・コンテンツの
統合とメディア変換

マルチメディア・スキミング




単なる要約技術との差異
 文章→要約文章
 ビデオ→要約ビデオ
Webからガイドマップ,略地図と行き先案内
WebのTV番組化
多地点ビデオのスキミング
対象データのイメージとデータモデル

連続メディアと半構造メディアの統合とこれに基
づく索引モデルや検索モデル




1次元:ビデオ+半構造情報(XML索引)
2次元:地図+半構造情報(XML索引)
3次元:3D空間+半構造情報(XML索引)
情報組織化,結果提示(マルチメディア・スキミン
グ等)にまで広げたプラットフォーム
組織化と概覧

映像



空間





複数メディアの統合による組織化
スキミング
2次元画像による断片的表現+アバタによるwalkthrough
多メディア情報の重畳表示
空間に依存した詳細度制御
空間情報の抽象化(ランドマーク計算)
半構造(Web)

情報単位(部分グラフ)の推定と分類
索引付けと検索


疎で軽い索引モデル(Light and Sparse Index
Model)
空間内での人間やアバタの振る舞いに基づく質
問形成
管理

管理




詳細度制御
自律的な版権・課金管理
(放送型)ハイパーメディア情報の有効時間管理・版管
理
アクセス管理
 依存関係のあるデータのアクセス権管理
 巡行履歴に基づくリンク活性化
配信におけるフィルタリングと合成





映像のsocial filtering
同期化,ダイジェスト化,番組化
視聴者のインタラクション
放送データのフィルタリング・合成
(時系列データからの新鮮度計算含む)
リアルタイムオーサリングとリアルタイム編集・配
送
映像の組織化


情報単位(トピック)の
抽出・分類・関連付けと要約(スキミング)
複数メディアの活用



音声メディア
 ディクテーション,重要語抽出,記事分類
文字メディア
 テロップ切出し,認識,重要語抽出,記事分類
映像メディア
 シーンカット検出,記事切出し,スポーツニュースの
分類
映像の組織化
ニュース記事の切り出し
スポーツ映像の分類
ニュース映像の情報検索
画像指示
TV
ディジタルビデオ
PKO
この単語は?
WS
この人は誰?
Loop Point
音声認識による記事分類 テロップ文字認識による記事分類
A2
A1
スポーツ・野
球?
Cut Point
A3
記事クラスタ
ニュース記事
分類表索引
音声入力
(a)ニュース映像 (b)文字領域の
切り出し
キャスター音声
PKOって
何?
経政
済治
10分類
制裁
大蔵
日米
自動車
問題
分
類
確
率
分類結果 政治
ディクテーション 時間
(f) 分類
国際、経済
(e)キーワード
北朝鮮、
コメ、援
助、要請
(c)認識
北朝鮮
浬不届
コメ援
(d)形態素
*北朝鮮、
15-浬、
10-不、
10-届、
映像の組織化と概覧
内容記述間のコサイン相関による意味的構造の発見メカニズム
4
5
6
7
8
9
10
11
疎で軽い索引モデル
カット区間の類似性に基づく意
味構造の発見
代表カットの抽出とスキミング


Unchanged
互いに類似
a

a+1
   
b
a+2
   
b
4
0
1
0.19245
0
0.57735
0
0
0.235702
5
0
0.19245
1
0
0
0.3849
0
0.272166
6
1
0
0
1
0
0
0
0
7
0
0.57735
0
0
1
0.288675
0
0.204124
8
0
0
0.3849
0
0.288675
1
0
0.471405
9
0
0
0
0
0
0
1
0
10
0
0.235702
0.272166
0
0.204124
0.471405
0
1
11
Unchanged
Multiplexing
Video interval
(
ショットの再生方法 (
通常
早送り )
代表ショッ )
ト
Gradually changing
a

a+2
S ho t N o .
1
0
0
1
0
0
0
0
a+1
Multiplexing
Subsequence 1:
Subsequence 2:
意味的構造
類似度閾値
(多重度= 2)
a
  
a+2
a+1
a+3
b-1
  
b
キーワード
現在のショットにつけられた内容記述
映像データ
映像の索引付けと検索
疎で軽い索引モデル
グラフ理論的アプローチ
時刻印付きオーサリンググラフ



敵 と 戦う
検索インタフェース
検索文 サイボーグ が 敵 と 戦っている シーン
00:00:51:19
カット一覧
周りの 敵 に乱射
サイボーグ
00:00:57:10
検索結果
の映像
00:00:54:24
敵 を撃つ
009
00:00:56:09
敵 に囲まれる
00:00:49:12
00:00:53:10
敵 を投げ飛ばす
記述インタフェース
時間
ビデオ
すべてのキーワードを含む極小部分グラフに対応する映像部分の検索
キーワード
映像の検索

検索モデル



グルー操作


疎で軽い索引モデルと検索の情
報単位の不確定性を前提
検索モデルの理論的基盤の確立
を目指す
与えられた区間群を含む最小区
間を求める演算.
フィルター操作

グルー操作の結果,得られた区間
をさらにフィルタリング(区間長,ノ
イズ長,区間の前後関係など)
キーワードxを持つ区間集合Xと
キーワードyを持つ区間集合Yの
グルー演算式
空間メディアの組織化と概覧
静止画とアバタ画像を用いた擬似三次元空間の構築
アバタ画像操作に基づくウォークスルー
XMLに基づく柔軟性の高いシーン記述言語

空間メディアの組織化と概覧
拡張現実ハイパーメディア
Name-at




ビデオデータ(遠隔制御可能な定
点観測カメラ)
空間データ基盤
空間記述データ(名前,URL等)
距離による空間記述データの
詳細度制御と重畳表示

Zoom-In
& LoD
Zoom-Out
& LoD
[基本機能]
・ カメラの遠隔操作
・ 注釈; 文字の配置
LoD : Levels of Detail
オブジェクトまでの距離による情報量の御
・ 拡張現実空間への情報のエントリと削除
・ クリック可能な拡張現実空間
・ 情報の詳細度の自動調整 (LoD)
・ プライバシを考慮する機構
・ WWWブラウザとの連携
空間メディアの組織化と概覧

領域内のランドマーク計算


tf/idf法の拡張(特徴的な属性情報+大きな面積占有
率)
距離・方向・視野による詳細度制御


階層的な空間記述(XML等)
サンプル選択からの質問形成と結果の空間配置
領域呈示 + ランドマーク
ゾーン呈示
ランドマーク選択
机
木製
日
本
鉄製
アメリカ
B
社
鉄製
アメリ
視野に依存した差別化呈示
ランドマーク呈示
A
カ 社
空間メディアの組織化と概覧



空間メディアへのビデオ映像の統合
ビデオデータ検索のための仮想空間ブラウジング
仮想時空間における時間ウォークスルー LoD の時間軸拡張
空間メディアを用いた検索

ガイドペット



アバタの時空間行動分析とその応用
注目時間による空間の動的生成(個人化)
時空間行動ログによるスキミング再生
“注目”した時間から人の好みを求
める
仮想空間の動的生成
何かに“注目”しているシーンは重要と
考える
スキミング再生
空間メディアを用いた検索


ウオークスルーとサンプル選択による質問形成
検索結果の空間配置
Query
空間メディアを用いた検索
マルチモーダルインタフェース
映像データベース
意図理解
利用者
映像
パラメータ
SQLの生成とシーン検索
周囲環境
検索シーン
場の状況
融合
現実世界のシーン
動コンテンツの姿勢
位置、速度、色、形状等
実時間での動コンテンツ
データ蓄積
場
検索データと場との連続性を重視した提示
(3次元モーフィング、パラメータ利用)
現実世界
半構造メディア(Web情報)の
組織化
不確定な意味的情報単位の抽出

•
•
Web文書やネットニュースのグラフ構造からの「意味的な情報
単位」にあたる部分グラフの発見と検索
Web文書グラフ中の文脈構造の抽出
Web文書群の自動分類

•
•
ユーザの視点や目的に応じた自動分類と段階的修正
Kohonen の自己組織化マップと既存の検索エンジンを利用
半構造メディア(Web情報)の組織
化
「Web」
トピックB
トピックA
トピックC
「組織化」
検索={ Web,組織化 }
Webグラフ中の意味的単位の検索
{multimedia, content}での検索結果の自動分類
マルチメディア・コンテンツの管理:
詳細度制御

自律的な版権・課金管理機構


カプセル化コンテンツ方式とサービスレンジ課金方式
配送時間制御機能を持つWWWサーバー

配送時間とQoS
ブラウザ画面
配送時間指定
広帯域クライアント
20秒
(LAN接続 等)
詳細度向上
詳細度低下
動的な
品質調整
オリジナルページ
狭帯域クライアント
(ダイヤルアップ接続 等)
サービスレンジ課金
マルチメディア・コンテンツの管理
版権・課金処理のプログラムロジックとデータをカプセル化して流通させる方式と.詳細度とbehavior
を課金額に応じて選択できるサービスレンジ課金方式(課金範囲内で詳細度や振る舞いを変更可
能)
VRMLデータ
ObjectStoreDB
詳細度レベル制御機能
付加情報
コンテンツが,そ
authorized
のユーザの課金
コスト内で多様な
サービスを提供
永続化
カプセル化
デ VRMLデータ
ー 付加情報
タ
ユーザ認証
メ 版権管理
ソ
ッ 課金管理
ド LOS制御
etc…
unauthorized
サービスの利用・変更
カプセル化コンテ
ンツが,ユーザ認
証により版権を
管理
ユーザ認証
課金管理
サービス
レンジ
VRMLデータとユーザ認証等のメソッドを一体化
版権管理・課金管理
マルチメディア・コンテンツの管理:
一貫性制御
C10 6月の予定
C10 6月の予定
6/1 …
6/15 …
[6/1,6/30]
C20 6月の予定
C11 6月の予定
6/1 …
6/15 …
6/1 …
6/15 …
[6/1,6/30]
[6/1,6/10]
C11 6月の予定
6/1 …
6/15 中止
6/1 …
6/15 …
[6/1,6/30]
[6/1,6/10]
(起動していないため
受信できない)
C30 7月の予定
C30
7月の予定
7/1 …
7/2 …
内容の更新
7/1 …
7/2 …
有効時間の変更
[7/1,7/31]
[7/1,7/31] サーバ側:バージョンを2分木で管理 クライアント側:バージョンをリストで管理
マルチメディア・コンテンツの管理:
アクセス制御
依存関係を有するデータ
のアクセス権管理

AND-ORグラフと排他関係
による依存関係のモデル化
 ユーザのアクセス権に応じ
た動的なビュー生成
 アクセス権の与え方の一貫
性判定.逆向き閉包を用い
た効率の良い計算法
 一部のデータのアクセス権
から残りのデータのアクセス
権を補完

各ユーザのアクセス権の一貫性の判定
ユーザ1:{a, b, c, d} →×
a
ユーザ2:{a, b, d, e} →○
ユーザ3:{d, e}
→○
or
c
b
d
e
or
f
アクセス権に応じた
ビューの動的生成
(3D-CADデータの例)
放送型配信環境における
フィルタリングと合成
News on Demand +
Social Filtering
プロファイル




利用者が興味を持つニュー
スは高品質で再生できるよ
う,フィルタリングによって興
味の高いニュースは事前転
送
それ以外はストリーミングに
よる配送
コミュニティによるフィルタリ
ング
フィードバック
フィルタリング
ニュース
ユーザ
コミュニティC1
従来の自分中心のフィルタリング
ユーザ
コミュニティC2
コミュニティC3
放送型配信環境における
フィルタリングと合成

野球でのダイジェスト生成機構
テレビ映像
入力
電子スコアブック生成
イベント生成
イベント生成
イベント生成
シナリオ選択
プロファイル
映像DB
プレゼン用
テキスト生成
プレゼンテーション
映像とテキストをSMILで
同期化させたオンデマンド
マルチメディア
プレゼンテーション
放送型配信環境における
フィルタリングと合成
AgentStudio
Scenario
Manager
AgentCast
Internet
Scenario

対話型テレビ番組作成システム



対話型テレビ番組をソフトウェアエージェントとして放送波で配信す
る機構 AgentCast
エージェントによりスタジオを半自動化する AgentStudio
シナリオ記述言語で記述されたシナリオにしたがってAgentCast と
AgentStudio に対して要求を出し,映像・音声とエージェントをタイ
ミング良く配信する機構を実現
放送型配信環境における
フィルタリングと合成
プッシュ型情報提供システムのための仮想チャネル
・Pointcastデータのフィルタリング・合成により,ユーザ独自のチャネル定義が可能
・複数チャンネルの配分比率が可能な,「アナログチャネル」を実現
・XMLを用いて実装, TVMLを用いた自動番組化(種々の番組メタファー)
control panel
filter & synthesizer
real channel
filtered channel
virtual TV channel
articles of real channel
TVMLによる自動番組化
放送型配信環境における
フィルタリングと合成
索引付きライブ映像の放送型配信とフィルタリング・編集
・映像データのリアルタイムな索引付け機構の実現(音声認識,該当区間の推定)
・複数のライブ映像と索引などのメタデータを一体化してマルチキャストで配送
・索引の重要度に応じて放映中の番組に挿入
進行スケルトン
音声認識による索引付け
連続メディアの代数的検索モデル

検索モデル



グルー操作


疎で軽い索引モデルと検索の情
報単位の不確定性を前提
検索モデルの理論的基盤の確立
を目指す
与えられた区間群を含む最小区
間を求める演算.
フィルター操作

グルー操作の結果,得られた区間
をさらにフィルタリング(区間長,ノ
イズ長,区間の前後関係など)
キーワードxを持つ区間集合Xと
キーワードyを持つ区間集合Yの
グルー演算式
連続メディアの代数的検索モデル
グルー操作は,ペアワイズなグルー操作式に還元可能
犬
犬
人
人
フィルタ操作Fw(区間長によるフィルタ)
Fwは以下の式を満たすため処理の効率化可能.
連続メディアの代数的検索モデル
フィルタの分配化可能な必要十分条件
任意の区間 i に対し,F(i)= iであるならば,i のすべての部分区間 i’
においてF(i’)= i’ であること。
F(XY)=F(F(XX)F(YY))
最適化フィルタの利点
•演算処理の効率化
F2(F1(I))=F1(F2(I))
•フィルタの順序が自由
•フィルタの合成が可能
2つの最適化フィルタF1,F2を
F3(I)=F1(I)F2(I)、
F3(I)=F1(I)F2(I)
のように合成したとき
F3 も最適化フィルタ
連続メディアの代数的検索モデル
3つの最適化可能フィルタ
•タイムウィンドウフィルタ
•最長ノイズフィルタ
•順序関係フィルタ
ka
FS(kakb)
FE(kakb)
kb
ka
kb
3つのキーワード間
FS(kakbkc)(I)=FS(kbkc)(FS(kakb)(I))
の順序関係
順序関係フィルタと最長ノイズフィルタを組み合わせると
2つのキーワードの時間関係を11種類に分けられる
連続メディアの代数的検索モデル
グルー演算を2次元に拡張可能
1次元 区間集合X,Y
XY=XXYY
F(XY)=F(F(XX)F(YY))
2次元 領域集合X,Y
XY=XXXXYYYY
F(XY)=F(F(XXXX)F(YYYY))
連続メディアの代数的検索モデル

空間グルー
Y
cey
オブジェクト={a1,a2,a3,a4}
空間グルー
a2
a 1 領域
a1 a2
a1 a2 a 3 a4
= r[csx,csy,cex,cey]
csy
r
a3 aa 4
4
a3
csx
cex
X
連続メディアの代数的検索モデル

空間グルー演算
Y
オブジェクト a1
属性:office
cey(a )
1
a1 b1
csy(b )
1
オブジェクト b1
属性:restaurant
csx(a )
cex(b )
1
X
1
office と restaurant が存在する領域
a 1 b1
=
r[csx(a ),csy(b ),cex(b ),cey(a )]
1
1
1
1
連続メディアの代数的検索モデル

ペアワイズグルー演算
office : A={a1,a2,…,am}
Y
a2
・・・
b2
restaurant : B={b1,b2,b3…,bn}
b1
a1
b4
b3
a4
a3
X
A
B = { r | ∃a∈A.∃b∈B. r = a
b}
連続メディアの代数的検索モデル

パワーセットグルー演算
Y
a2
office : A={a1,a2,…,am}
restaurant : B={b1,b2,…,bn}
b2
a1
b1
a1
b1 a1 b2 b1
b2
b3
b4
a1
A
b3 b4
a1 b1 b3 b4
a1 a3 b1 b3
b3
a4
a3
b4
B = { r | ∃A’⊆A.∃B’⊆B. A’≠φ. B’≠φ
r = ( A’∪B’) }
X
連続メディアの代数的検索モデル

パワーセットグルー演算の効率化
A={a1,…,am} B={b1,…,bn}
A:属性情報 α を持つオブジェクト a の集合
B:属性情報 β を持つオブジェクト b の集合
パワーセットグルー演算
A
グルーの組み合わせ:2 m×2 n
A
B = (A
A
A
A)
B
m n
計算量:O(2 2 )
(B
B
B
B)
計算量:O(m4 n4 )
連続メディアの代数的検索モデル

フィルタリングによる演算の効率化
F (A
F (A
B) = F((A A A A)
B) = F ( F (A
A
A
A)
(B
B
F (B
B
B
B))
B
計算の初期段階で不適切な解をあらかじめ除去
この式変換が成立すれば演算の効率化が可能
B))
連続メディアの代数的検索モデル

空間ノイズフィルタ
apartment
restaurant
office
?
ノイズ = 1 -
検索中のオブジェクトが占める面積
空間ノイズフィルタ
空間グルーの面積
ノイズを閾値とするフィルタ
連続メディアの代数的検索モデル

A
FN(A
空間ノイズフィルタの場合,補償が必要
B = (A
A
A
A)
(B
B) =FN ( FN (A A A A)
∪ FN ( FN (A A B
B)
B
B
FN (B
FN (A
B)
B
A
B
B
B))
B))
連続メディアの代数的検索モデル

F(I
z= i
フィルタの満たす必要十分条件
J ) = Z である領域集合 Z が存在し,任意の z ∈ Z が
j (ただし i ∈ I , j ∈ J) であるとき,全ての領域 i , j に
おいて,F(i) = I かつ F( j) = J である.
フィルタ関数がこの条件を満たすとき
演算の効率化が可能
本プロジェクトのデータベース的側面





The Network Is the Multimedia Database!
検索(retrieval)から探査(exploration)
データモデルから検索モデル
検索単位の不確定性,索引の断片性
連続メディア,半構造データ
情報組織化(information organization)
≧ data mining
コンテンツの内容と構造両者に基づく組織化
複数メディアにまたがる組織化
データベースプロジェクトとしての
ポイント

スキーマ主導パラダイムからの脱却



情報の構造化,組織化
データモデルから検索モデル
新しい情報提示技術
ア ク セ ス 権 ・版 権 ・
課金管理
インデキシング
検索モデル
構 造 化 ・組 織 化
提 示 ・配 送
Asilomarレポート(98/9)


Bernstein, Brodie, Ceri, DeWitt, Franklin, GarciaMolna, Gray, Held, Hellerstein, Jagadish, Lesk,
Maier, Naughton Pirahesh, Stonebraker, Ullman
今後10年のDB研究のあり方:


delta-Xからforward looking
Webがすべてを変えた.



DBコミュニティの貢献少ない.
Webの変貌(動的コンテンツ,XML)
Web情報の発見と解析技術が重要
Asilomarレポート:重要テーマ






Plug & Play DBMS (self-tuning, information
discovery)
何百万のDBSの連邦化
伝統的DBSアーキテクチャの見直し
データとプログラムの同等の扱い
構造データと半構造データの統合
ゴール
Make it easy for everyone to store, organize, access
and analyze the majority of human information online
開拓分野



連続メディア工学,時空間データ工学,コンテン
ツ工学
演出の科学,プレゼンテーションの科学,ドラマ
ツルギー
放送環境のデータベース,DB家電