木構造条件付確率場

Download Report

Transcript 木構造条件付確率場

階層的領域分割法に基づく
木構造条件付確率場による一般物体認識
神戸大学大学院工学研究科
奥村 健志
[email protected]
神戸大学自然科学系先端融合研究環
滝口 哲也, 有木 康雄
{takigu, ariki}@kobe-u.ac.jp
研究背景と動機 (1/4)
 社会的状況とその問題点
 HDDの大容量化
 携帯電話やデジタルカメラの普及
大量のタグなし動画像が存在
→ 人手による分類・検索が困難
 ロボット産業の発展
 仮想現実感,拡張現実感の進歩
計算機による画像の「理解」
→ ヒトの視覚能力との大きな隔たり
認識
wall
computer
book
human
desk
chair
(一般)物体認識の研究が求められている
www.***.com
2
研究背景と動機 (2/4)
 従来アプローチ
 条件付確率場(CRF: Conditional Random Field)を用いた推定手法
領
域
分
割
cow
tree
grass
ラ
ベ
ル
推
定
特
徴
量
抽
出
・
グ
ラ
フ
化
www.***.com
3
研究背景と動機 (3/4)
 問題点
 分割誤りを最小限に抑えるため,過分割を行う必要がある
1.
2.
各領域から抽出される特徴量の識別性能の低下
物体のスケール変化への頑健性の低下
領
域
分
割
www.***.com
4
研究背景と動機 (4/4)
 問題解決へのアプローチ
 階層的領域分割法に基づく木構造条件付確率場を提案
1.
2.
fine
階層的領域分割法により複数スケールの特徴量を抽出
木構造条件付確率場によりクラス共起を考慮した上で
各層のクラス推定結果を統合
coarse
www.***.com
5
提案手法 (1/2)
入力画像
階層的領域分割
coarse
Gentle Adaboost
Segmentation
by
Weighted Aggregation
(SWA)
fine
特
徴
量
抽
出
(
色
、
テ
ク
ス
チ
ャ
な
ど
)
ク
ラ
ス
ご
と
の
信
頼
度
算
出
www.***.com
6
提案手法 (2/2)
: ノード(各領域)
: エッジ(上層と下層を結ぶ)
: クラスの信頼度
: クラス共起情報(平滑化項)
木構造条件付確率場
(TCRF: Tree Conditional Random Field)
www.***.com
7
提案手法 (2/2)
: メッセージ
確率伝播法
(BP: Belief Propagation)
認識結果
木構造条件付確率場
(TCRF: Tree Conditional Random Field)
: rhino/hippo
: water
: snow
: vegetation
www.***.com
7
階層的領域分割法
 Segmentation by Weighted Aggregation (SWA)
1.
2.
[Sharon, 2000]
クラスタ内の類似度は大きく,クラスタ間の類似度は小さくする
クラスタのサイズは均一にする
エネルギー関数:
Low-energy cut
High
energy
cut
クラスタのサイズ:
評価関数:
→ 最小化
(固有値問題)
segment
[Sharon, 2000] Eitan Sharon, Achi Brandt, and Ronen Basri.
www.***.com
Fast multiscale image segmentation. In CVPR, pp. 70-77, 2000
8
木構造条件付確率場
 木構造グラフのモデルで各層・各領域のクラス信頼度を統合
: エネルギー関数 (モデル式)
: ポテンシャル関数 (クラス分布)
: ポテンシャル関数 (クラス共起)
: クラス変数 (目的変数)
: 観測変数 (クラス信頼度)
: モデルパラメータ (学習が必要)
www.***.com
9
木構造条件付確率場
 木構造グラフのモデルで各層・各領域のクラス信頼度を統合
例えば…
sky
water
cat
rhino
snow
C種類のクラスに対する
信頼度の分布
www.***.com
9
木構造条件付確率場
 木構造グラフのモデルで各層・各領域のクラス信頼度を統合
例えば…
rhino
cat
water
rhino
cat
water
の働き
1. 平滑化(対角要素)
2. クラス共起(非対角要素)
www.***.com
9
評価実験 (1/3)
 実験データ
 Corel dataset (7クラス,100枚,画像サイズ: 180×120)
 評価方法
 CV法
 画素毎に正誤を判定
認識率 [%] 
各クラスの認識率の和
クラス数
: rhino/hippo
: polar bear
: water
: snow
: vegetation
: ground
: sky
 100
88.0%
入力画像
正解ラベル
93.6%
認識結果
www.***.com
10
評価実験 (2/3)
 比較手法
 Logistic Regression (LR) : 領域間の関係を考慮しないモデル
 Conditional Random Field (CRF) : 階層化をしない従来のCRF
 ハイパーパラメータ
階層数
最下層の領域数
BoFの単語数
6
150
500
 実験結果(認識率)
rhino
bear
water
snow vegetation ground
sky
Average
LR
73.5%
65.1%
70.3% 68.2%
75.3%
71.0% 56.6%
68.6%
CRF
71.8%
71.0%
82.6% 70.6%
78.9%
74.7% 41.7%
70.2%
TCRF
75.7%
72.7%
78.9% 73.8%
79.4%
76.5% 49.6%
72.4%
2.2%
www.***.com
11
評価実験 (3/3)
入力画像
正解ラベル
LR
: rhino/hippo
: polar bear
: water
: snow
CRF
TCRF
(提案手法)
: vegetation
: ground
www.***.com
12
まとめと今後の方針
 まとめ
 階層的領域分割法に基づく木構造条件付確率場による
一般物体認識手法を提案
 異なるスケールの特徴に基づくクラス信頼度を統合することにより
クラス間の境界付近に生じる誤認識を特に改善 (認識率 2.2%↑)
 クラス “sky” をクラス “water” と多く誤認識していることなどから
特徴量・コンテキストレベルで改善を図る必要がある
 今後の方針
 2次元・3次元の幾何的な特徴・コンテキストの利用を検討
幾何的なコンテキストの例 : クラスの位置関係,奥行き情報 etc.
単一画像からの3次元形状復元手法をサーベイ
www.***.com
13
ご清聴ありがとうございました
あと3分ほどお時間をいただいて
今後の研究について発表します
www.***.com
単眼画像からの擬似3次元化
研究背景と目的
 現在、3次元動画像をみるには専用の装置が必要
 動画の3次元化手法はstructure form motionなど確立してい
るが、画像の3次元化に有効な手法は確立していない
→ 専用装置を必要とせず、1枚の画像から3次元化が可能な手法が求められる
Automatic Photo Popupと呼ばれる既存手法をベースに
より高精度な3次元化手法を検討
www.***.com
人検出の機能の追加
従来のラベリング:3クラス(水平物、垂直物、空)
問題点
 画像内の個々の物体(人、車、木など)の認識が困難
→ 個別に物体検出を行って従来のラベリング結果と統合
HOG特徴を用いたSVMによる人検出を実装
問題点
 人領域を矩形でしか切り出せず粗い結果になる
→ 検出結果をシードとしたグラフカットによる自動切り出し
を行う(予定)
www.***.com
今後の方針
別の擬似3次元化のアプローチとの統合
 ステレオカメラで撮った奥行き画像を教師画像とした推定
 1枚の画像に対して擬似的に視差をつける手法
大まかな構図を捉える手法に、より詳細な奥行き情
報を加えることで、細かい誤りを訂正する狙い
www.***.com
www.***.com
関連研究
 他の階層的手法との比較
 提案手法のみ複数スケールの特徴量を考慮可能
階層数
特徴量のスケール
3
(画素,パッチ,全体)
1
(画素)
[Kumar, 2005]
2
(画素,パッチ)
1
(画素)
[Awasthi, 2007]
任意
(グリッド分割)
1
(画素)
任意
階層数に一致
[He, 2004]
提案手法
[He, 2004] Xuming He, Richard S. Zemel, and Miguel A. Carreira-Perpinan.
Multiscale conditional random fields for image labeling. In CVPR, pp. 695-702, 2004
[Kumar, 2005] Sanjiv Kumar and Martial Hebert.
A hierarchical field framework for unified context-based calassification. In ICCV, pp. 1284-1291, 2005
[Awasthi, 2007] Pranjal Awasthi, Aakanksha Gagrani, and Balaraman Ravindran.
Image modeling using tree structured conditional random fields. In IJCAI, pp. 2060-2065, 2007
www.***.com
階層的領域分割法
 Segmentation by Weighted Aggregation (SWA)
[Sharon, 2000]
1. Recursive Coarsening
1. Weighted Aggregation
aggregate k
aggregate l
これらのプロセスを繰り返し
行うことで領域が階層化される
[Sharon, 2000] Eitan Sharon, Achi Brandt, and Ronen Basri.
www.***.com
Fast multiscale image segmentation. In CVPR, pp. 70-77, 2000
特徴量
coarse
Bag of Features [Csurka, 2004]
fine
•色特徴
RGB, HSV, YCrCb, Lab
•テクスチャ特徴
Gabor Filter, LoG Filter
•形状特徴
領域の面積,周囲長
•位置特徴
領域の重心座標
Gentle Ababoost
・ブースティング学習の一種
・(層数)×(クラス数)個の識別器を学習データ
から個々に学習し,クラスごとの信頼度を算出
www.***.com
木構造条件付確率場
 クラス推定
 エネルギー関数 P を最大化する最適ラベル y* を求める
 確率伝播法(Belief Propagation)により周辺分布を推定する
 隣接ノードからのメッセージの積で周辺分布を計算する
 閉路が存在しない木構造であるため厳密推定が可能
: rhino/hippo
: water
: snow
: vegetation
(a) 周辺分布の計算
(b) 全体図
www.***.com
Segmentation by Weighted Aggregation
 疎補間行列 P の決定
 TODO
www.***.com
20
Segmentation by Weighted Aggregation
 状態変数 u の導出
 固有値問題に帰着
ただし,
www.***.com
21
Bag of Features
学習用画像
k-meansによる
ベクトル量子化
(W個のクラスタに分割)
※Wは手動で決定
: SIFT記述子(128次元の回転不変特徴)
128次元のSIFT記述子空間
出現頻度
Bag of Featuresによる
画像の表現
(W次元の正規化されたヒストグラム)
Codebook
(Visual Wordの辞書)
Visual Word
入力画像
クラスタの重心がVisual Word
(代表的な局所パターン)
•Bag of Featuresの利点
局所パターンの集合であるため,オクルージョンに強い
抽象化されたVisual Wordにより,見え方の変化にも強い
www.***.com
22
木構造条件付確率場
 モデルパラメータ学習
 正解ラベル付き学習データによりパラメータを学習
 学習の基準は最大事後確率(MAP: Maximum a Posteriori)推定
 勾配法の一つである L-BFGS 法により解析的に導出
www.***.com
23
木構造条件付確率場
 確率伝播法(BP: Belief Propagation)
 TODO
www.***.com
24