ユーザ解析 - 神戸大学

Download Report

Transcript ユーザ解析 - 神戸大学

顔表情からの関心度推定に基づく
映像コンテンツへのタギング
宮原 正典,青木 政樹,滝口 哲也,有木 康雄
(神戸大学)
研究の背景





テレビのディジタル放送開始→多チャンネル化
YouTube,ニコニコ動画など動画共有サイトの発達
ユーザが視聴可能な映像コンテンツが増大
見たい番組を簡単に探すのが困難に
番組自動推薦システムの必要性
⇒ 映像コンテンツへの自動タギング手法
2
タギング
女の子
男の子
緑の芝生
走っている
懐かしい
3
番組自動推薦システム
(ユーザ解析)
(コンテンツ解析)
リモコン操作履歴[1]
映像シーンの動き
好きなキーワード[2]
シーンの色変化
顔表情[3]
顔・物体認識
(番組推薦)
協調フィルタリング[4]
タグつきコンテンツ
データベース
[1]2001,Taka [2]2001,Masumitsu
[3]2006,Yamamoto [4]1994, Resnick
4
従来手法の課題と提案

従来の顔表情に基づくタギング手法[2006,Yamamoto]
 関心の「有無」の2クラスのみを判定
⇒Neutral, Positive, Negativeの3クラスを判定

顔特徴点は口の周りが中心,シンプルな抽出法
⇒眉の周りにも重要な情報
⇒EBGMによる詳細な顔特徴点抽出

顔の傾きやオクルージョンによるノイズ
⇒推定しにくい表情をリジェクトする
5
想定環境
Display

ユーザはPCのディスプレイに映
るコンテンツを1人で視聴

ウェブカメラはユーザを撮影

PCはコンテンツの再生とユーザ
顔動画の解析処理
Webcam
PC
User
想定環境上面図
6
提案システムの概要
顔領域抽出
特徴抽出
関心クラス推定
AdaBoost
Tag
EBGM
・Neutral
個人認識
SVM
・Positive
・Negative
User’s profile
無表情画像
・Rejective
個人ごとの関心クラス識別器
7
AdaBoostによる顔領域抽出

Haar-like特徴を用いたAdaBoostにより,正確な顔
領域の抽出を行う.[2001,Viola]

顔領域を切り出すことで,ユーザとカメラとの距離
を正規化できる
EBGMにおいて,探索範囲を限定することで,計算
時間を短縮
利点

8
EBGMによる特徴点抽出・個人認識
[1997,Wiskott]
Gabor Wavelet



Jet
Bunch Graph
画像を,様々な周波数と方向を持ったGaborフィルターで畳み込
み,それらの応答の集合をJetとする.
顔特徴点の各点のJetを組み合わせたものをFace Graphと呼び,
あらかじめ複数人からFace Graphを生成して束ねたものを
Bunch Graphと呼ぶ.
Bunch Graphと入力画像のFace Graphの類似度を計算し,特徴
点の探索を行い,特徴点抽出と個人認識を行う.
9
SVMによる関心クラス推定

EBGMの個人認識により,個人を特定し,その人
の無表情画像と関心クラス識別器を選択する.

EBGMによって抽出された34点の顔特徴点につい
て,無表情のときとの差分を取った,68次元のベク
トルを特徴ベクトルとする.

Multiclass SVM(RBFカーネル)により関心クラス
推定を行う.
10
関心のクラス分類(タグ)定義
クラス名
内容
Neutral (Neu)
無表情
Positive (Pos)
喜び,笑い,快,など
Negative (Neg)
怒り,嫌悪,不快,など
Rejective (Rej)
画面に顔を向けていない,
顔の一部が隠れている,
顔が傾いている,など
11
リジェクト機能


顔領域抽出で顔領域が発見できなかったフレーム
は無条件で,Rejectiveに分類
顔領域抽出に成功したフレームは,そのまま顔特
徴点抽出を行い,学習・認識の対象とする
Neutral
Positive
関心クラス推定
Negative
顔領域抽出
Yes
Rejective
No
12
実験条件



被験者2名(A,B)に1回約17分間の映像コンテンツ
(バラエティ番組)を4回分視聴させる.
その際,被験者を撮影した動画と,再生されている
映像コンテンツを同期させながら,15fpsで記録.
その後,以下のようなインターフェースを用いて,顔
表情タギングを手動で行った.
13
顔動画の手動タギング結果
表:各表情クラスのタギングフレーム数
Neu
Pos
Neg
Rej
合計
被験者A
49865
7665
3719
1466
62715
被験者B
56531
2347
3105
775
62758
この手動タギング結果(正解ラベル)つきの顔動画を
実験動画と呼び,以降の評価実験で用いる.
14
予備実験1
AdaBoostによる顔領域抽出の精度について実験を行った
特徴抽出
関心クラス推定
AdaBoost
Tag
EBGM
・Neutral
個人認識
SVM
・Positive
・Negative
User’s profile
無表情画像
個人ごとの関心クラス識別器
・Rejective
15
予備実験1-AdaBoostによる顔領域抽出


未検出率は被験者A,Bともに0%だった.
誤検出率については,以下の表の通り.
被験者A
Neu
Pos
Neg
誤検出数
20
3
1
全フレーム数
49865
7665
3719
誤検出率(%)
0.0401
0.0391
0.0269
被験者B
Neu
Pos
Neg
誤検出数
132
106
9
全フレーム数
56531
2347
3105
誤検出率(%)
0.2335
4.5164
0.2899

被験者Bは笑うと,顔
を大きく上に向ける癖
があり,顔以外の部分
が顔と誤検出される傾
向があった.
16
予備実験2
EBGMによる個人認識の精度について実験を行った
特徴抽出
関心クラス推定
AdaBoost
Tag
EBGM
・Neutral
個人認識
SVM
・Positive
・Negative
User’s profile
無表情画像
個人ごとの関心クラス識別器
・Rejective
17
予備実験2-EBGMによる個人認識
被験者A
Neu
Pos
Neg
誤認識数
2
0
0
全フレーム数
49845
7662
3718
誤認識率(%)
0.0040
0.0000
0.0000
Neu
Pos
Neg
誤認識数
2
20
0
全フレーム数
56399
2241
3096
誤認識率(%)
0.0035
0.8925
0.0000
被験者B

個人認識の精度に問
題がないことを確認.
18
評価実験
SVMによる関心クラス推定の精度について実験を行った
特徴抽出
関心クラス推定
AdaBoost
Tag
EBGM
・Neutral
個人認識
SVM
・Positive
・Negative
User’s profile
無表情画像
個人ごとの関心クラス識別器
・Rejective
19
評価実験-SVMによる関心クラス推定


各被験者について,4本中3本(1本あたり約1020秒
*15fps=15300フレーム)の動画から学習を行い,関
心クラス識別器を生成する.残りの1本について関
心クラス推定を行う.(クロスバリデーション)
推定結果と,被験者による手動タギングとの結果を
比較し,各クラスごとの適合率(precision)と再現率
(recall)を求める.
20
実験結果-SVMによる関心クラス推定
1
0.9
0.8
0.7
0.6
適合率(precision)
再現率(recall)
0.5
0.4
0.3
0.2
0.1
0
Neu
Pos
Neg
Rej
21
考察

平均再現率は87.6%,平均適合率は88.0%と良好
な結果が得られた.

被験者がPositiveやNegativeと答えていても,表
情表出の度合いが小さい場合,システムがNeutral
と誤認識するパターンが多い.

1つのフレームに関心のクラスは1つしかないと仮
定しているので,中間的な表情をしている場合,誤
認識が多発する.
22
デモ映像
23
まとめと今後の方向
EBGMを特徴点抽出に用いることで,Neutral,
Positive, Negative, Rejectiveという4つのクラス
で高い再現率,適合率が得られた





事前学習の手間を減らす
複数人同時視聴
顔方向・視線方向の推定
ユーザ解析とコンテンツ解析を併用
実際に番組推薦までを行うシステムの構築
24
-
25
実験結果-Confusion matrix 被験者A
被験者A
Neu
Pos
Neg
Rej
合計
再現率(%)
Neu
48275
443
525
622
49865
96.81
Pos
743
6907
1
14
7665
90.11
Neg
356
107
3250
6
3719
87.39
Rej
135
0
5
1326
1466
90.45
合計
49509
7457
3781
1968
62715
91.19
適合率(%)
97.51
92.62
85.96
67.38
85.87
26
実験結果-Confusion matrix 被験者B
被験者B
Neu
Pos
Neg
Rej
合計
再現率(%)
Neu
56068
138
264
61
56531
99.18
Pos
231
2076
8
32
2347
88.45
Neg
641
24
2402
38
3105
77.36
Rej
203
0
21
551
775
71.10
合計
57143
2238
2695
682
62758
84.02
適合率(%)
98.12
92.76
89.13
80.79
90.20
27