Multiclass Object Recognition with Sparse, Localized Feature

Transcript Multiclass Object Recognition with Sparse, Localized Feature

Multiclass Object Recognition with Sparse,
Localized Feature
伊原有仁
はじめに

画像中の複数物体を認識する問題

Object recognition with features inspired by visual cortex
[T.Serre et al. CVPR2005]


生物学的な物体認識モデルをマルチクラスの物体分類
問題に適用
Multiclass Object Recognition with Sparse,
Localized Feature [Jim Mutch and David G. Lowe, CVPR’06]
Multiclass Object Recognition with Sparse, Localized Feature
視覚

視覚野



背側皮質視覚野(a)


V1(第一次視覚野)
V2, V3, V4, V5(外線条皮質)
Where経路：運動，物体の位置
腹側皮質視覚野(b)

What経路：視覚対象の認識や形状の表象
Multiclass Object Recognition with Sparse, Localized Feature
視覚

腹側皮質視覚野(b)


V1→V2→V4→ITの順に処理
V1(第一次視覚野)
– 単純型細胞(Simple cell)
・直線の傾き：ガボールフィルタリング
– 複雑型細胞(Complex cell)
・図形の移動方向：単純型細胞の集合
Multiclass Object Recognition with Sparse, Localized Feature
視覚

腹側皮質視覚野(b)


V1→V2→V4→ITの順に処理
V2(第二次視覚野)
– 二本の線の組み合わせ
・十字やコーナー
Multiclass Object Recognition with Sparse, Localized Feature
視覚

腹側皮質視覚野(b)


V1→V2→V4→ITの順に処理
V4(第四次視覚野)
– 必要な情報だけを選択
<例>：カクテルパーティー効果
– 自分にとって親しい人間の声はすぐに聞き分けられる
Multiclass Object Recognition with Sparse, Localized Feature
視覚

腹側皮質視覚野(b)


V1→V2→V4→ITの順に処理
IT(下側頭野：Inferior Temporal)
– より複雑な図形に応答
Multiclass Object Recognition with Sparse, Localized Feature
基本モデル
１：アスペクト比を保ったままダウンサンプリング
２：4方向のガボールフィルタリング
Multiclass Object Recognition with Sparse, Localized Feature
基本モデル
２：4方向のガボールフィルタリング
：アスペクト比
：影響範囲
：波長
1点において4つの特徴量
Multiclass Object Recognition with Sparse, Localized Feature
基本モデル
２：4方向のガボールフィルタリング
３：局所最大値のプールを作成
10pixel×10pixel×2scaleの範囲を各角度毎に探索
V1のモデルを表現
Multiclass Object Recognition with Sparse, Localized Feature
基本モデル
３：局所最大値のプールを作成
４：学習データ(d=4,075)から作成したC1 Layerとのユークリ
ッド距離を算出
：学習画像C1レイヤーの各パッチ特徴量
：入力画像C1レイヤーの各パッチ特徴量
V4，ITのモデルを表現
Multiclass Object Recognition with Sparse, Localized Feature
基本モデル
５：最大の出力値を算出
６：C2 レイヤーを用いて特徴ベクトルをSVMで学習，識別
Multiclass Object Recognition with Sparse, Localized Feature
提案モデル

大まかなS2レイヤー入力

C1レイヤーで最大値となる方向のみのパッチを作成
4方向から12方向へ増加
Multiclass Object Recognition with Sparse, Localized Feature
提案モデル

S1/C1レイヤーにおける特徴量の選択

注目点の応答値Rが式を満たす場合，値を0にする
Multiclass Object Recognition with Sparse, Localized Feature
提案モデル

C2構築時のS2レイヤーの探索範囲の制限

背景の誤検出を抑制
画像サイズの±tp%，±tsスケール
実線：学習用画像のS2
点線：テスト用画像のS2
Multiclass Object Recognition with Sparse, Localized Feature
提案モデル

SVMの重みによる特徴選択

S2がランダムで選択されるため背景や識別に有効でない特徴も
選ばれるため
Multiclass Object Recognition with Sparse, Localized Feature
実験1：識別実験

Caltec101から9,197枚，Googleから背景画像




各カテゴリーからランダムで15枚もしくは30枚の学習用画像を
選択し，残りをテスト画像に設定
学習用画像からランダムで特徴量を学習，C2ベクトルの算出
SVMにより学習
テスト画像からC2ベクトルの算出を識別
Multiclass Object Recognition with Sparse, Localized Feature
実験1：結果
Model
15 training images/cat.
30 training images/cat.
Our model(base)
33
41
Serre et al.
35
42
Holub et al.
37
43
Berg et al.
45
Grauman & Darrell
49.5
58.2
Our model(final)
51
56
Multiclass Object Recognition with Sparse, Localized Feature
実験2：パラメータを変化させた識別実験

最適パラメータを変化させた識別



Caltech 101から簡単な顔画像と背景画像を取り除く
100カテゴリーを画像枚数の多い順にソートする
奇数をグループA，偶数をグループB
Multiclass Object Recognition with Sparse, Localized Feature
実験2 ：結果(1/2)
ガボールフィルタの方向：12方向
S1/C1の特徴量抑制パラメータh:0.5
範囲の許容差：±5%
スケールの許容差：±1 scale
Multiclass Object Recognition with Sparse, Localized Feature
実験2 ：結果(2/2)
SVMの重みによって選択する特徴ベクトルの数：1,500
特徴量を抽出するウィンドウサイズ：4×4
Multiclass Object Recognition with Sparse, Localized Feature
実験3:車検出実験

UIUC car dataset




Training set(100×40pixel)
Single-scale(100×40pixel)
Multi-scale
ウィンドウをスライドさせて検出



水平に5pixel
垂直に2pixel
8回試行したときの平均
Multiclass Object Recognition with Sparse, Localized Feature
実験3：結果
Model
Single-scale
Multi-scale
Agarwal et al.
76.5
39.6
Leibe et al.
97.5
Fritz et al.
Our model
87.8
99.94
90.6
Multiclass Object Recognition with Sparse, Localized Feature
実験3：検出例
Multiclass Object Recognition with Sparse, Localized Feature
実験3：未検出，誤検出例
Multiclass Object Recognition with Sparse, Localized Feature
おわりに

生物学的に動機付けられたアプローチの有効性


まばらな情報
今後


より正確なモデルの作成
学習データにおいて最も頻出する特徴をクラスタリング
Multiclass Object Recognition with Sparse, Localized Feature

Multiclass Object Recognition with Sparse, Localized Feature

Transcript Multiclass Object Recognition with Sparse, Localized Feature

Directory