Transcript 木構造条件付確率場
階層的領域分割法に基づく 木構造条件付確率場による一般物体認識 神戸大学大学院工学研究科 奥村 健志 [email protected] 神戸大学自然科学系先端融合研究環 滝口 哲也, 有木 康雄 {takigu, ariki}@kobe-u.ac.jp 研究背景と動機 (1/4) 社会的状況とその問題点 HDDの大容量化 携帯電話やデジタルカメラの普及 大量のタグなし動画像が存在 → 人手による分類・検索が困難 ロボット産業の発展 仮想現実感,拡張現実感の進歩 計算機による画像の「理解」 → ヒトの視覚能力との大きな隔たり 認識 wall computer book human desk chair (一般)物体認識の研究が求められている www.***.com 2 研究背景と動機 (2/4) 従来アプローチ 条件付確率場(CRF: Conditional Random Field)を用いた推定手法 領 域 分 割 cow tree grass ラ ベ ル 推 定 特 徴 量 抽 出 ・ グ ラ フ 化 www.***.com 3 研究背景と動機 (3/4) 問題点 分割誤りを最小限に抑えるため,過分割を行う必要がある 1. 2. 各領域から抽出される特徴量の識別性能の低下 物体のスケール変化への頑健性の低下 領 域 分 割 www.***.com 4 研究背景と動機 (4/4) 問題解決へのアプローチ 階層的領域分割法に基づく木構造条件付確率場を提案 1. 2. fine 階層的領域分割法により複数スケールの特徴量を抽出 木構造条件付確率場によりクラス共起を考慮した上で 各層のクラス推定結果を統合 coarse www.***.com 5 提案手法 (1/2) 入力画像 階層的領域分割 coarse Gentle Adaboost Segmentation by Weighted Aggregation (SWA) fine 特 徴 量 抽 出 ( 色 、 テ ク ス チ ャ な ど ) ク ラ ス ご と の 信 頼 度 算 出 www.***.com 6 提案手法 (2/2) : ノード(各領域) : エッジ(上層と下層を結ぶ) : クラスの信頼度 : クラス共起情報(平滑化項) 木構造条件付確率場 (TCRF: Tree Conditional Random Field) www.***.com 7 提案手法 (2/2) : メッセージ 確率伝播法 (BP: Belief Propagation) 認識結果 木構造条件付確率場 (TCRF: Tree Conditional Random Field) : rhino/hippo : water : snow : vegetation www.***.com 7 階層的領域分割法 Segmentation by Weighted Aggregation (SWA) 1. 2. [Sharon, 2000] クラスタ内の類似度は大きく,クラスタ間の類似度は小さくする クラスタのサイズは均一にする エネルギー関数: Low-energy cut High energy cut クラスタのサイズ: 評価関数: → 最小化 (固有値問題) segment [Sharon, 2000] Eitan Sharon, Achi Brandt, and Ronen Basri. www.***.com Fast multiscale image segmentation. In CVPR, pp. 70-77, 2000 8 木構造条件付確率場 木構造グラフのモデルで各層・各領域のクラス信頼度を統合 : エネルギー関数 (モデル式) : ポテンシャル関数 (クラス分布) : ポテンシャル関数 (クラス共起) : クラス変数 (目的変数) : 観測変数 (クラス信頼度) : モデルパラメータ (学習が必要) www.***.com 9 木構造条件付確率場 木構造グラフのモデルで各層・各領域のクラス信頼度を統合 例えば… sky water cat rhino snow C種類のクラスに対する 信頼度の分布 www.***.com 9 木構造条件付確率場 木構造グラフのモデルで各層・各領域のクラス信頼度を統合 例えば… rhino cat water rhino cat water の働き 1. 平滑化(対角要素) 2. クラス共起(非対角要素) www.***.com 9 評価実験 (1/3) 実験データ Corel dataset (7クラス,100枚,画像サイズ: 180×120) 評価方法 CV法 画素毎に正誤を判定 認識率 [%] 各クラスの認識率の和 クラス数 : rhino/hippo : polar bear : water : snow : vegetation : ground : sky 100 88.0% 入力画像 正解ラベル 93.6% 認識結果 www.***.com 10 評価実験 (2/3) 比較手法 Logistic Regression (LR) : 領域間の関係を考慮しないモデル Conditional Random Field (CRF) : 階層化をしない従来のCRF ハイパーパラメータ 階層数 最下層の領域数 BoFの単語数 6 150 500 実験結果(認識率) rhino bear water snow vegetation ground sky Average LR 73.5% 65.1% 70.3% 68.2% 75.3% 71.0% 56.6% 68.6% CRF 71.8% 71.0% 82.6% 70.6% 78.9% 74.7% 41.7% 70.2% TCRF 75.7% 72.7% 78.9% 73.8% 79.4% 76.5% 49.6% 72.4% 2.2% www.***.com 11 評価実験 (3/3) 入力画像 正解ラベル LR : rhino/hippo : polar bear : water : snow CRF TCRF (提案手法) : vegetation : ground www.***.com 12 まとめと今後の方針 まとめ 階層的領域分割法に基づく木構造条件付確率場による 一般物体認識手法を提案 異なるスケールの特徴に基づくクラス信頼度を統合することにより クラス間の境界付近に生じる誤認識を特に改善 (認識率 2.2%↑) クラス “sky” をクラス “water” と多く誤認識していることなどから 特徴量・コンテキストレベルで改善を図る必要がある 今後の方針 2次元・3次元の幾何的な特徴・コンテキストの利用を検討 幾何的なコンテキストの例 : クラスの位置関係,奥行き情報 etc. 単一画像からの3次元形状復元手法をサーベイ www.***.com 13 ご清聴ありがとうございました あと3分ほどお時間をいただいて 今後の研究について発表します www.***.com 単眼画像からの擬似3次元化 研究背景と目的 現在、3次元動画像をみるには専用の装置が必要 動画の3次元化手法はstructure form motionなど確立してい るが、画像の3次元化に有効な手法は確立していない → 専用装置を必要とせず、1枚の画像から3次元化が可能な手法が求められる Automatic Photo Popupと呼ばれる既存手法をベースに より高精度な3次元化手法を検討 www.***.com 人検出の機能の追加 従来のラベリング:3クラス(水平物、垂直物、空) 問題点 画像内の個々の物体(人、車、木など)の認識が困難 → 個別に物体検出を行って従来のラベリング結果と統合 HOG特徴を用いたSVMによる人検出を実装 問題点 人領域を矩形でしか切り出せず粗い結果になる → 検出結果をシードとしたグラフカットによる自動切り出し を行う(予定) www.***.com 今後の方針 別の擬似3次元化のアプローチとの統合 ステレオカメラで撮った奥行き画像を教師画像とした推定 1枚の画像に対して擬似的に視差をつける手法 大まかな構図を捉える手法に、より詳細な奥行き情 報を加えることで、細かい誤りを訂正する狙い www.***.com www.***.com 関連研究 他の階層的手法との比較 提案手法のみ複数スケールの特徴量を考慮可能 階層数 特徴量のスケール 3 (画素,パッチ,全体) 1 (画素) [Kumar, 2005] 2 (画素,パッチ) 1 (画素) [Awasthi, 2007] 任意 (グリッド分割) 1 (画素) 任意 階層数に一致 [He, 2004] 提案手法 [He, 2004] Xuming He, Richard S. Zemel, and Miguel A. Carreira-Perpinan. Multiscale conditional random fields for image labeling. In CVPR, pp. 695-702, 2004 [Kumar, 2005] Sanjiv Kumar and Martial Hebert. A hierarchical field framework for unified context-based calassification. In ICCV, pp. 1284-1291, 2005 [Awasthi, 2007] Pranjal Awasthi, Aakanksha Gagrani, and Balaraman Ravindran. Image modeling using tree structured conditional random fields. In IJCAI, pp. 2060-2065, 2007 www.***.com 階層的領域分割法 Segmentation by Weighted Aggregation (SWA) [Sharon, 2000] 1. Recursive Coarsening 1. Weighted Aggregation aggregate k aggregate l これらのプロセスを繰り返し 行うことで領域が階層化される [Sharon, 2000] Eitan Sharon, Achi Brandt, and Ronen Basri. www.***.com Fast multiscale image segmentation. In CVPR, pp. 70-77, 2000 特徴量 coarse Bag of Features [Csurka, 2004] fine •色特徴 RGB, HSV, YCrCb, Lab •テクスチャ特徴 Gabor Filter, LoG Filter •形状特徴 領域の面積,周囲長 •位置特徴 領域の重心座標 Gentle Ababoost ・ブースティング学習の一種 ・(層数)×(クラス数)個の識別器を学習データ から個々に学習し,クラスごとの信頼度を算出 www.***.com 木構造条件付確率場 クラス推定 エネルギー関数 P を最大化する最適ラベル y* を求める 確率伝播法(Belief Propagation)により周辺分布を推定する 隣接ノードからのメッセージの積で周辺分布を計算する 閉路が存在しない木構造であるため厳密推定が可能 : rhino/hippo : water : snow : vegetation (a) 周辺分布の計算 (b) 全体図 www.***.com Segmentation by Weighted Aggregation 疎補間行列 P の決定 TODO www.***.com 20 Segmentation by Weighted Aggregation 状態変数 u の導出 固有値問題に帰着 ただし, www.***.com 21 Bag of Features 学習用画像 k-meansによる ベクトル量子化 (W個のクラスタに分割) ※Wは手動で決定 : SIFT記述子(128次元の回転不変特徴) 128次元のSIFT記述子空間 出現頻度 Bag of Featuresによる 画像の表現 (W次元の正規化されたヒストグラム) Codebook (Visual Wordの辞書) Visual Word 入力画像 クラスタの重心がVisual Word (代表的な局所パターン) •Bag of Featuresの利点 局所パターンの集合であるため,オクルージョンに強い 抽象化されたVisual Wordにより,見え方の変化にも強い www.***.com 22 木構造条件付確率場 モデルパラメータ学習 正解ラベル付き学習データによりパラメータを学習 学習の基準は最大事後確率(MAP: Maximum a Posteriori)推定 勾配法の一つである L-BFGS 法により解析的に導出 www.***.com 23 木構造条件付確率場 確率伝播法(BP: Belief Propagation) TODO www.***.com 24