マルチメディア・コンテンツの組織化機構

Download Report

Transcript マルチメディア・コンテンツの組織化機構

JSPS - RFTF
AMCP Project
マルチメディア・コンテンツの
組織化機構
ー映像メディアに対する知的構造化ー
有木康雄
龍谷大学理工学部
電子情報学科
[email protected]
1
JSPS - RFTF
AMCP Project
映像メディアに対する知的構造化の目的
構造化されたデータ
本
電子図書館
ディジタルミュージアム
構造化されていないデータ
• 索引
• 要約
• 目次
映画
ドラマ
ニュース
内容の組織化
データベース
内容に基づく
アクセス
2
JSPS - RFTF
AMCP Project
映像メディアに対する知的構造化の課題
どうしてこんな事件が起こったの?
(因果関係の説明)
これまでの経過を分かりやすく解説して
(複数トピックの編集)
映像データベース
首相が構造改革について
語っているところを見せて
(話者+トピックの統合)
今見ているニュースに関連した
ニュースを要約してみせて
(解析: 検索+要約)
検索
編集
統合
解析
3
JSPS - RFTF
AMCP Project
解析と統合におけるアプローチ
コンテンツ
概念
意味検索
記述の意味付け
トピック
トピック検索
内
容
記
述
記号の関連付け
記号
オブジェクト検索
認識と索引付け
分割と分類
データ
パターン
信号
パターン検索
信号検索
メ
デ
ィ
ア
解
析
・
統
合
4
JSPS - RFTF
AMCP Project
開発したシステム
話者と音声認識の統合システム
話者とトピックの総合検索システム
テロップと音声の相互検索システム
映像要約システム
映像メディア編集支援システム
5
JSPS - RFTF
AMCP Project
話者と音声認識の統合システム
話者認識と話者検索
音声認識による内容検索
発話の切り出しとニュース記事の分類,検索
入力音声
音声トランスクリプション
話者インデキシング
Speaker
Speaker
Speaker
Speaker
1
2
3
4
Speaker 1: ……….
Speaker 2: ……
Speaker 1: ……
Speaker 3: …………
Speaker 4: … ..
Speaker 1: ……..
トピックの抽出
要約
6
JSPS - RFTF
AMCP Project
話者と音声認識の統合システム
7
JSPS - RFTF
AMCP Project
話者とトピックの統合検索システム
話者とトピックの統合検索

話者名と発話内容を指定してビデオクリップを検索
クリントンが中東和平について
語っているところを見せて
話者:クリントン
内容:中東和平
重要語:パレスチナ,
エルサレム,・・・・
インデックス
話者モデルの学習

話者名と話者モデルを自動学習
“Clinton
Speaks.”
アナウンサ
“Negotiation
between・・・・”
“Negotiation
between・・・・”
データ
アナウンサの発話から
人名クリントンを認識し,
それ以後の音声から
クリントンの話者モデル
を作成する.これに
クリントンという名前を
自動的に与える.
クリントン
8
JSPS - RFTF
AMCP Project
テロップと音声の相互検索システム
テロップフレームの検出と認識
音声ディクテーションによる内容検索
テロップによるニュース音声記事の検索
入力ビデオクリップ
音声ディクテーション
小渕総理大臣は,引き続き阪神
淡路大震災に対して,日本が継続
して援助することを約束しました.
画像インデキシング
トピックの抽出
トピックの要約
オブジェクトの抽出
ニュース記事
データベース
検索結果
9
JSPS - RFTF
新規性と研究成果
部分空間射影による話者認識
AMCP Project
話者と音声認識の統合システム,
話者とトピックの統合検索システム
– 高精度,少量の個人情報,実時間
最尤単語バックオフ接続による音声認識
– 高精度,高速化
話者名と話者モデルの連想学習
– 話者モデルの自動学習,話者名の自動学習
テロップの自動検出と認識
テロップと音声の相互検索システム
– 実時間検出, 高精度
テロップと音声のクロスメディア検索
– テロップ認識と音声認識
単語空間法によるシソーラスの設計
– 異なる単語間の類似度計算,少数単語での検索
トピックセグメンテーションと要約
– 連続するパッセージ間の類似度計算,テロップとトピック空間
10
JSPS - RFTF
AMCP Project
映像要約システム
-シーン分割と重要シーンの検出-
• メディアの解析と統合
• 演出知識の発見
• 映像の再構成
言語情報
色情報
Closed Caption
色度数ヒストグラム
セリフの特徴に基づく会話分析
色変化パターンの検出
要約候補の選出
要約候補の選出
各候補を組み合わせて
最終的な要約を作成
11
JSPS - RFTF
AMCP Project
映像要約システム
•言語情報による要約候補
一貫性のある会話部分
•色情報による要約候補 1
色類似性大, 色変化小
ストーリが展開する場所
•色情報による要約候補 2
色類似性小, 色変化大
映像の「華」となるシーン
代表的な映画による実験結果
要約前
要約後
StarWars V
11 分
1分30秒
MASK
60分
14分
要約結果
フレーム
12
JSPS - RFTF
AMCP Project
映像要約システム
色情報の変化による重要シーンの推定

色情報の変化から映像の変化パターンを発見
発話モデルによる重要シーンの推定

台詞を統計的に処理して発話パターンを推定
ストーリのある映画のダイジェスト化

色情報と言語情報の統合による要約シーンの抽出
演出知識の発見


色情報と言語情報からのデータマイニング
研究成果

色情報と言語情報による重要なシーンの推定
13
JSPS - RFTF
AMCP Project
映像メディア編集
検索したビデオクリップを1つのビデオクリップに編集する
ハイパーリンク
関連トピックの
ニュースクリップ
映像データベース
トピック検索
集積
関連トピックの
ニュースクリップ
集積した映像
オーバーラップを除き,要約
編集した映像
14
JSPS - RFTF
AMCP Project
映像メディア編集支援システム
カメラマン
絵コンテにあう映像の撮影
指示
ディレクタ
絵コンテの作成
素
材
映
像
素材映像
エディタ
インデキシング
映像
データベース
映像文法の適用
検索
映像作成
15
JSPS - RFTF
AMCP Project
映像文法の例1
ショットサイズが急激に変化するものは接続できない
 カメラワークの途中で映像を切ることはできない
 シーンの冒頭はマスターショットで始まる

LS
MS
TS
LS
MS
遠距離
中距離
MS
TS
近距離
MS
TS
16
JSPS - RFTF
AMCP Project
映像文法の例2
対象物の位置関係が
不明になる接続はしない
OK
向かい合っている
可能な接続
対象物に逆の動きをさせない
NG
混乱を生じる接続
OK
右に歩いている
可能な接続
NG
混乱を生じる接続
17
JSPS - RFTF
AMCP Project
映像編集におけるルール抽出
映像の構成要素に関するショット間の相関関係
Shot
size
LS
Camerawork
・
・
・
Motion
Color
MS
MS
fix
static
TS
TS
pan
right
MS
fix
static
TS
pan
fix
static
18
JSPS - RFTF
AMCP Project
映像編集におけるルール抽出
映像の構成要素に関するショット間の相関関係
Shot
size
LS
Camerawork
・
・
・
Motion
Color
MS
pan
fix
static
TS
right
抽出される相関ルールは・・
Shot size : MS,Camerawork : fix
MS
MS
fix
fix
static
TS
TS
pan
fix
static
Shot size : TS
19
JSPS - RFTF
AMCP Project
映像メディア編集支援システム
映像文法の発見(演出知識の発見)


テレビ局が用いている映像文法
映画監督が用いている映像文法
映像に対する索引付け


カメラワークに基づくショットサイズの判定
顔と視線の検出,構図の判定
映像文法と索引を用いた編集支援システム


PROLOGによる映像文法の表現
MySQLによる索引の表現
演出知識の発見


色情報と言語情報からのデータマイニング
研究成果

映像メディア編集支援システム
20
JSPS - RFTF
AMCP Project
関連研究
メディアの解析技術
音声:
音声認識,話者認識,音声/音楽/雑音区間の検出
文字:
ビデオキャプションの認識
言語:
重要語・文の抽出,トピック検出
映像:
カット検出,シーン検出,カメラワークの検出,人の検出,
視線検出,動き検出,ショットサイズ判定,カメラの構図
メディアの統合技術
連想:
名前
統合:
名前,発話内容,ビデオキャプション (BBN, SRI)
顔 (Infomedia)
統合検索:
(名前、トピック)
相互検索:
ビデオキャプション
映像要約:
シーン分割
映像編集:
コラージュ:
ディスティラー:
ズーミング:
ビデオクリップ
音声 (RWCP)
重要なシーン抽出 (Infomedia)
メディアの編集技術
ショットの切り出しと接続
複数の情報を見やすくする (Infomedia2)
検索結果から重複を除いて要約する (Infomedia2)
特定のトピックを詳細化する (Infomedai2)
21
JSPS - RFTF
AMCP Project
まとめ
メディア解析と統合
話者と音声認識の統合システム(H9)
 話者とトピックの統合検索システム(H10)
 テロップと音声の相互検索システム(H11)
 メディアの統合による映像要約システム(H11)

メディア編集

映像メディア編集支援システム(H12,H13)
22