顔特徴点移動量・点間距離変化量の組み合わせに基づく顔
Download
Report
Transcript 顔特徴点移動量・点間距離変化量の組み合わせに基づく顔
顔特徴点移動量・点間距離変化量
の組み合わせに基づく顔表情認識
神戸大学工学部
宮原正典・滝口哲也・有木康雄
研究の背景
人とシステムのコミュニケーション→表情認識の必要性
Ekmanらは,基本6表情が,人間にとって普遍的な表情で
あることを示した
怒り
嫌悪
恐怖
喜び
悲しみ
驚き
基本6表情を基底とし,複雑な表情を表現する試みもある
基本6表情認識とその精度向上は重要な課題
従来の研究とその問題点
顔の特徴的な点の動きを特徴量とするもの
特徴点が抽出できれば、比較的良好な認識精度
Gabor+EBGM等の手法で特徴点の自動抽出は可能
問題点 顔のどの点のどのような動きに着目すればよいかは,
主観的に決められているものが多い
認識に重要な特徴を自動的に発見することができれば表
情認識性能の向上が期待できる
提案手法(特徴ベクトルの定義)
x Ai , y Ai
特徴点移動量
ベクトル m(68次元)
mi [ x Bi x Ai
y Bi y Ai ]T
d Ai
x Bi , y Bi
特徴点間距離変化量
ベクトル d(561次元)
d i d Bi d Ai
d Bi
全
特
徴
量
ベ
ク
ト
ル
v
(
6
2
9
次
元
)
提案手法(組み合わせ最適化)
局所探索法(Local Search)
初期解aを定め,その解近傍を評価関数Rで評価し,
もっとも優れているものと解を入れ替え,評価の改
善が見られなくなるまで探索を繰り返す手法
全特徴ベクトルv
初期解a
評価が最大
の近傍
R(a)=0.73
R(a)=0.70
aの近傍
a1
R(a1)=0.71
a4
R(a4)=0.74
R(a4)=0.65
a7
R(a7)=0.72
R(a7)=0.73
a2
R(a2)=0.68
a5
R(a5)=0.70
R(a5)=0.72
a8
R(a8)=0.69
R(a8)=0.72
a3
R(a3)=0.75
R(a3)=0.70
a6
R(a6)=0.73
R(a6)=0.71
a9
R(a9)=0.74
R(a9)=0.70
提案手法(解の評価)
評価基準・・・その特徴を用いたときのCV法による6表情認識率
従来の6表情認識に使われている認識器
• ニューラルネットワーク(NN)
• サポートベクターマシーン(SVM)
近傍1個あたりの評価時間(秒)
NN
2
7×10
SVM
2
5×10
近傍数は,20次元固定の場合でも12180個
NNやSVMだと探索1周に約3ヶ月かかる
⇒一般回帰ニューラルネットワーク(Specht,1991)を採用
一般回帰ニューラルネット(GRNN)
x
入
力
デ
ー
タ
x
教師ラベルt
1
1番目の学習データx
1
0 or 1
z
x1
怒り
/
t1
嫌悪
/
x2
恐怖
/
t2
xP
tP
∑
入力層
第1隠れ層
第2隠れ層
/
喜び
/
悲しみ
/
驚き
総和ニューロン
出力層
出力関数z(x)
Di2
t i exp 2
2
i 1
z ( x) P
Di2
exp 2
i 1
2
P
Di2 (x x i ) T (x x i )
提案手法(認識器の使い分け)
GRNNの特徴
学習は必要なく,テストには学習データ数に比例した
時間がかかるが,トータルでみるとNNやSVMよりも
高速(本研究の条件では100倍程度)
認識性能自体はNNやSVMよりも若干劣る
GRNNを評価関数とする局所探索法で,最適な特徴を発見し,
その特徴を用いて,GRNN,NN,SVMのいずれかで
最終的な6表情認識を行う
実験内容
JAFFE(10人183枚)とCMU(93人328枚)データベースを使用
怒り
半分はCVに,残り半分は終了判定にのみ用いる
嫌悪
恐怖
喜び
悲しみ
怒り
驚き
恐怖
喜び
初期解として,従来手法で用いられている20次元の特徴ベク
トルを使用し,局所探索の解は20次元で固定
GRNNを評価関数に用いた局所探索法で最適(近似)解を発
見した後,GRNN,NN,SVMで6表情(怒り,嫌悪,恐怖,喜び,
悲しみ,驚き)の認識
実験結果
初期解
認識器別,特徴量別の6表情認識率
100.0%
6表情認識率
80.0%
77.5%
71.5%
74.3%
77.1%
79.5%
74.3%
最適解
60.0%
40.0%
20.0%
0.0%
GRNN
NN
SVM
まとめ
考察
人間が主観で選んだ特徴よりも,局所探索法による
最適な特徴を用いた方が認識性能が向上
高速なGRNNを用いて特徴量の探索を行い,認識
性能の高いSVMで認識を行うことで,性能向上
今後の方針
顔特徴点の自動抽出の実装
最適解の探索方法の改良
より複雑な感情・関心度などの認識
提案手法の流れ
特徴抽出
組み合わせ
最適化
全特徴ベクトル
6表情認識
最適な特徴ベクトル
ニューラルネットワーク(NN)
y
x
z
怒り
嫌悪
恐怖
喜び
悲しみ
驚き
入力層
隠れ層
出力層
一般回帰ニューラルネット(GRNN)
x
z
x1
t1
x2
t2
xP
tP
/
怒り
/
嫌悪
/
恐怖
/
喜び
/
悲しみ
/
驚き
∑
入力層
第1隠れ層
第2隠れ層
出力層
Di2
t i exp 2
2
i 1
z ( x) P
Di2
exp 2
i 1
2
P
Di2 (x x i ) T (x x i )
サポートベクターマシーン(SVM)
Margin
Class1
H1
Class-1
H2
Support Vector
初期解
実験結果
全特徴
初期解
最適解
100.0%
6表情認識率
80.0%
79.5%
76.3%77.5% 74.3%75.5%77.1% 74.3%77.1%
71.5%
60.0%
最適解
40.0%
20.0%
0.0%
GRNN
NN
SVM
感情別認識結果
100.0%
95.0%
89.0%
90.0%
96.0%96.0%
87.0%
85.0%
80.0%
70.0%
60.0%
50.0%
40.0%
63.0%
52.0% 50.0% 50.0% 54.0%
初期解
最適解
37.0%
30.0%
20.0%
10.0%
0.0%
怒り
嫌悪
恐怖
喜び
悲しみ
驚き
Confusion Matrix(初期解+SVM)
悲
怒 嫌 恐 幸
驚
し
り 悪 怖 せ
き
み
正
解
数
画
像
数
認
識
率
怒り
10 8
1
0
8
0
10
27
0.37
嫌悪
6 12 1
0
5
0
12
24
0.50
恐怖
1
1 22 4 11 2
22
41
0.54
幸せ
1
0
1 55 5
0
55
62
0.89
悲しみ
4
0
2
0 39 1
39
46
0.85
驚き
0
0
0
2
47
49
0.96
185
249
0.743
合計
0 47
Confusion Matrix(最適解+SVM)
悲
怒 嫌 恐 幸
驚
し
り 悪 怖 せ
き
み
正
解
数
画
像
数
認
識
率
怒り
14 8
0
1
4
0
14
27
0.52
嫌悪
8 12 1
0
3
0
12
24
0.50
恐怖
1
0 26 4
8
2
26
41
0.63
幸せ
0
0
1 59 2
0
59
62
0.95
悲しみ
4
0
2
0 40 0
40
46
0.87
驚き
0
0
0
2
47
49
0.96
198
249
0.795
合計
0 47
使用したデータベースの詳細
人
数
画
像
数
怒
り
嫌
悪
恐
怖
喜
び
悲
し
み
驚
き
JAFFE
10
183
30
29
32
31
31
30
CMU
93
328
32
28
47
90
57
74
JAFFE
日本人女性のみ,無表情+6表情の静止画
CMU
各国男女,無表情→6表情の動画から切り出し