IS-2-08 固定カメラからの音声・画像情報を用いた 映像

Download Report

Transcript IS-2-08 固定カメラからの音声・画像情報を用いた 映像

固定カメラからの音声・画像情報を用いた
映像コンテンツの生成
IS-2-08
足立順
滝口哲也
研究背景
有木康雄 (神戸大学)
処理の流れ
一般家庭におけるカメラ撮影での問題点
撮影者の肉体的・体力的負担
撮影者が画面に映らない
固定カメラによる自動撮影
元
映
像
固定カメラ撮影での問題点
単調な映像(ズーム・パン等、カメラワークの欠如)
不必要なシーンを含む(撮りっぱなしの為)
視聴の際の編集や検索の手間
発
話
区
間
検
出
音
声
デ
ー
タ
映像の自動編集の必要性
映像内での会話部分
映
像
と
の
同
期
:音声系処理
ストーリーを理解するうえでの必要性
カメラワークへの指標
発
話
方
向
推
定
カ
メ
ラ
ワ
ー
ク
顔
画
像
検
出
ダ
イ
ジ
ェ
ス
ト
:画像系処理
会話シーンを中心とした映像編集
発話方向推定
発話区間検出
CSP法(Cross-power Spectrum Phase Analysis:白色
化相互相関法)に基づく音源方向推定法
Real AdaBoostによる音声/非音声の識別
2chマイク間の音波到来時間差を利用して音源方向を推定
逐次的に学習機械を構成
重み付きリサンプリング
弱学習機の重み付き結合
τc
音声区間検出
CSP係数:CSP(k)
到来時間差:τ
発話方向:θ
サンプリング周波数:f

発話区間毎に映像と同期させ、
会話シーンを抜き出す
隣接するフレーム間でスムージング
一定時間以下の区間を削除
d
Mi
M
j

カメラワーク
各会話シーンでのカメラワークルール
y j (n )
y i (n )
1話者発話シーン:発話者(顔)にズームイン
複数話者発話シーン:全員が映るよう、ズームアウト
Mi
M
各会話シーン毎に、発話(音源)方向を推定
話者数の判定ルール
CSP係数≧β:1話者発話
CSP係数<β:複数話者発話
CSP係数を利用して判定
適当な閾値βを定める
1話者発話の場合、OpenCVにより、推定されている発話方向
を中心に顔検出
発話方向軸
j
実験結果と考察・課題
使用データ:男性2話者(A,B)、 303.029[sec]
発話区間検出 :
303.029[sec]→ 149範囲、192.252[sec]
誤検出:8区間 5.760[sec]
検出率:97%
顔検出:顔画像の中心座標を中心にズームイン
顔不検出:発話方向軸を中心にズームイン
発話方向推定 :
カメラワークルール
対象データ:141区間,186.492[sec]
発話方向を推定し、閾値βを利用してカメラワークを決定
発話方向推定
CSP係数<β
閾値β未満
CSP係数≧β
閾値β以上
区間正答率
顔画像検出
ズームアウト
不検出
不検出
発話方向軸を中心
にズームイン
検出
検出
顔画像を中心
にズームイン
ズームイン
顔画像検出
0.16
0.12
CSP coefficient
0.1
閾値β
0.08
0.06
0.04
0.02
0
0
38.8
60.3
77.7
94
110.7
129.6
157
-0.02
Direction [degree]
発話方向軸
角度
ズームアウト
顔画像検出
0.16
0.14
CSP coefficient
0.12
CSP
係数
0.1
閾値β
0.08
0.06
0.04
0.02
0
0
38.8
60.3
77.7
94
-0.02
Direction [degree]
角度
110.7
129.6
157
閾値β
0.1
0.08
閾値β
0.1
0.08
正解区間数
/全区間数
101[区間]/
141[区間]
103[区間]/
141[区間]
正解時間
/全時間
133.85[sec]
/186.49[sec]
120.28[sec]
/186.49[sec]
正答率
71.631%
73.05%
正答率
71.77%
65.50%
2話者の場合、カメラワークは3通り
被験者Aへズームイン
被験者Bへズームイン
ズームアウト
考察
イスの音など発話ではない音に対しての誤検出
カメラワーク決定について正解タグを設け、正答率を求めた
ズームイン区間でズームアウトになる不正解が多数(発話者は映像内)
発話者が映像内に映るために閾値βの設定が重要
0.14
CSP
係数
時間正答率
生成された映像の評価
会話内容の理解度
映像時間感度
映像の単調さ
ズームサイズの大きさ
ショット区間の長さ
カメラワークの見易さ
今後の課題
感情認識(音声・画像) → 会話内容も含めた編集
行動認識(画像) → 会話以外での重要シーンのピックアップ
人物認識(音声・画像) → パーソナライズされた映像編集