M - 東京大学池内研究室

Download Report

Transcript M - 東京大学池内研究室

コンピュータビジョン
第1回
自己紹介
東大
生研
1996
CMU
電総研
MIT
東大院
情報工
1986
高度交通システム
車両・事象認識
仮想現実感
仮想現実感
モデルの自動生成
ロボティクス
人まねロボット
コンピュタビジョン
明るさ解析
1983
1982
1980
1978
所属
 大学院
– 情報学環・学際情報学府
– 情報理工学系研究科・コンピュータ科学専攻
– 情報理工学系研究科・電子情報学専攻

研究所
–
–
–
–
生産技術研究所
国際産学共同センター
空間情報科学研究センター
国立情報学研究所
コースについて
 講師:池内克史
研究室: 生産技術研究所 E405
目黒区駒場 4-6-1
[email protected]

評価
– 出席
– プログラミング課題
– レポート課題
40%
30%
30%
内容
 2次元画像処理
 3次元再構成法
– 線画解釈
– 両眼立体視と明るさ解析
– 物体表現
 プロジェクトの実際
– デジタルバイヨン
– 人間行動観察学習
– 現場見学
本年度の予定
 4月10日
4月17日
 4月24日
 5月 1日
 5月 8日
 5月15日
 5月22日
 5月29日

入門+2D画像処理
両眼立体視と明るさ解析
カラー解析
休講
物体認識
デジタルバイヨンプロジェクト
人間行動観察学習ロボット
研究の現場(生研公開)
本郷
本郷
本郷
UCB→本郷
本郷
ICRA→本郷
駒場
コンピュータビジョン
 人間の視覚機能の代替アルゴリズムを設
計する分野
 2次元画像(網膜画像)から3次元世界を再
構成
 最大の応用分野はロボットが行動するた
めの目
2次元画像と3次元世界
 カメラ画像は,三次元の座標系から二次
元の画像座標系へ射影したもの
二次元画像
三次元世界
コンピュータビジョンパラダイム(Marr)
物体中心表現
3次元物体表現
各種3次元表現
観測者中心表現
2-1/2次元表現
統合処理
明るさ
テクスチャ
線画
3D特徴抽出
(shape-from-x)
2次元画像
両眼立体視
動き
デジタル画像処理(2D)
デジタル画像とは
 アナログ情報
(フィルム,絵,実世界)
量子化&標本化
 デジタル画像
–
–
–
–
デジタルカメラ
携帯電話
PCデータ, IT
デジタル放送
標本化
 アナログデータを離散的に領域分割
アナログデータ
(時間軸と数値は連続)
サンプリング間隔
サンプリングデータ
(時間軸は離散的)
標本化(続き)
 2-D
デジタル画像の場合
サンプリング間隔によって画像解像度が決まる
ピクセル (Pixel)
 2-Dデジタル画像の単位
 空間分割
0
1
columns
n
N-1
0
1
rows
m
M-1
Digital image
M x N pixels
空間的標本化(解像度)
40 x 30
pixels
80 x 60
pixels
160 x 120
pixels
320 x 240
pixels
量子化
 サンプリングされたデータの数値を離散的
に分ける
サンプリングデータ
(時間軸は離散的)
量子化ビット数:
3 bit = 8 level
8 bit = 256 level
デジタルデータ
(時間軸と数値の両方が離散的)
量子化(続き)
 2-Dデジタル画像の場合
色は数値として表される
(行列形式)
0
0
0
0
0
0
0
0
0
0
2
2
1
1
0
1
2
3
3
2
1
1
2
3
5
3
2
1
1
2
3
3
3
2
0
1
2
2
2
2
0
0
1
1
1
0
0
0
0
量子化ビット数によって色数が決まる
表現の色数
 何色で十分か?
16.7 million
colors
256
colors
16
colors
4
colors
フィルタ処理
フィルタ
 人間の視覚やコンピュータビジョンための
前処理
– ノイズ除去
– 画像強調
– 特徴抽出
FILTER
?
空間フィルタ・周波数フィルタ
 空間領域での処理
– 隣接ピクセルとの演算
 周波数領域での処理
– 画像をフーリエ変換
ノイズ除去
 ノイズ源
– 取得時に発生
– 圧縮や伝送時に発生
平均値フィルタ
 隣接点の値を平均して置き換える
0
5
4
6
4
0
5
4
6
4
3
7 7/ 9
8 8/ 9
5 5/ 9
5
1 3/ 9
1 7/ 9
1 8/ 9
5
5
5
9 9/ 9 10
10/ 9 8 8/ 9
8
1 5/ 9
1 9/ 9
110
/9
7
8
8
3
7 7/ 9
8 8/ 9
0 0/ 9
9
1 3/ 9
1 7/ 9
1 8/ 9
0
8
9
1
5
7
9
10
1
5
7
9
10
3x3
(5 x 5)
(7 x 7)
平均値フィルタ(続き)
 重み付け平均では
0
5
4
6
4
0
5
4
6
4
3
7 /716 16 8
/ 16 5 /516
5
1 /316 2 /716 1 /816
5
5
5
18 /916 4010
/ 16 16 8
/ 16
8
2 /516 4 /916 2 10
/ 816
8
8
3
7 /716 16 8
/ 16 0 /016
9
1 /316 2 /716 1 /816
0
6
9
9
10
1
5
7
9
10
1
5
7
平均値フィルタ(続き)
 例1
ガウスノイズの場合
ノイズ画像
(5% Gaussian)
平均値
重み付け平均値
平均値フィルタ(続き)
 例2
ショットノイズの場合
ノイズ画像
(Random binary)
平均値
重み付け平均値
非線形フィルタ
 最大値フィルタ
– ウィンドウ内の最大値で置き換える
 最小値フィルタ
– ウィンドウ内の最小値で置き換える
 メディアン(中央値)フィルタ
メディアンフィルタ
 ウィンドウ内の中央値で置き換える
0
5
4
6
4
3
7
8
5
5
5
9
10
8
8
3
7
8
0
9
1
5
7
9
10
7
8
5
9
10
8
7
8
0
0
5
3
7
5 ソート
9
3
7
1
5
4
10
9
88
8
10
88
7
87
5
70
6
4
5
5
8
8
中央値
0
8
9
9
10
メディアンフィルタ(続き)
例
3 x 3 フィルタ
ガウスノイズ
ショットノイズ
エッジ
エッジ
 画像中の明るさ(数値)が急激に変化する部分

近傍ピクセルとの微分処理 (離散的には差分式)

物体認識などでは重要な特徴となる
 微分処理であるためノイズに弱い
 ステップエッジ
Intensity
エッジの種類
 ルーフエッジ
Intensity
x
 ピークエッジ
Intensity
x
x
1-D エッジの微分
 1回微分と2回微分
元信号
1回微分
2回微分
Fig. from Digital Image Processing (Springer)
Gradient-base
 1回微分のオペレータ
 f f 

 f  x , y   
,
 x y 
 離散的な差分式では
f x  m , n   f  m  1, n   f  m , n 
f y m , n   f m , n  1  f m , n 
f x  m , n   f  m  1, n   f  m  1, n 
f y  m , n   f  m , n  1  f  m , n  1
エッジの強さと方向が得られる
2 x 2 サイズ
3 x 3 サイズ
Gradient-base (続き)
 オペレータの種類
– Roberts D
– Prewitt
– Sobel
/
0

 1
1

0
 1

Dx  1

  1
0
1

Dx   2

  1
0
0
0
0
0
1
D\  
0
1

1

1
1

2

1 
0 

 1
 1

Dy  0

 1
 1

Dy  0

 1
1
0
1
2
0
2
 1

0

1 
 1

0

1 
Gradient-base (続き)
例
Prewittオペレータ
Dx
Dy
Laplacian operator
 2回微分のオペレータ
  D x  D y  1
2
2
2
0

2
  1

 0
2
1
4
1
 1  0

 
1   2  1

 
 2   0
0

1

0 
1

2
  1

1
4 direction
エッジの強さが得られる
1
4
1
1
8
1
0

1

0 
1

1

1
8 direction
D
D




2
x
 Dx Dx
2
y
 Dy Dy


Laplacian operator (続き)
例
Laplacianオペレータ
4 direction
8 direction
Laplacian Of Gaussian
 微分演算はノイズに対して弱い
 Gauss関数でぼかして(ノイズ除去)してか
らLaplacianオペレータ
G x, y  
1
2 
e
 Laplacian

2
 x y
2
/ 2 
2
of Gaussian
2
2
1 
x  y
2 
 G x, y  
4 
2
2  

2
   x 2  y 2 / 2  2
e


Laplacian Of Gaussian (続き)
例
LOGオペレータ
 1
  2
カメラモデル
 数学的にモデル化
X
m
画像中心:c
焦点距離:f
y
x
レンズ中心:C
Z
Y
M
画像座標系
カメラ座標系
三次元世界の点Mから画像上の点mをどのように対応付けるか
中心射影
 ピンホールカメラモデル
– レンズ系を針の穴(pinhole)とみなす
X
m
画像中心:c
焦点距離:f
y
x
レンズ中心:C
x  f
  
s y  0
  
 1   0
Z
Y
M
画像座標系
カメラ座標系
0
0
f
0
0
1
X
0 
Y
0
 Z
0  
1






(X,Y,Z):三次元空間の座標
(x,y):射影された画像上の座標
s:スカラー
中心射影(続き)
 座標系の位置を入れ替えると
X
x
f
c
C
y
Y
Z
m
M
カメラ座標系
画像座標系
よく使われているモデルであるが,非線形変換である
正射影(平行射影)
 射影の近似(線形化)
– カメラ↔物体間の距離に無関係
X
x
c
C
 x  1
  
y  0
  
 1   0
Z
y
Y
m
M
カメラ座標系
画像座標系
0
0
1
0
0
0
X
0 
Y
0
 Z
1  
1






(X,Y,Z):三次元空間の座標
(x,y):射影された画像上の座標
線画解析
線画抽出抽出
原画像
微分画像
線画画像
線画から奥行き情報
 2次元の線画が与えられ

元の3次元物形状を推定

なぜひし形にみえずます
にみえるのか?
 コンピュータが同じように
解釈するようにできない
か?
稜線のタイプ
凸稜線:+
凹稜線:-
輪郭線:矢印の方向に進むと右側に物体,左側が背景
線画のラベル付け
3D形状を知っていればラベル付けは容易
逆操作は可能か?
可能なラベル数(拘束なし)
•9 本の線よりなる
•各4 ラベルの可能性
→4x4x4x4x4x4x4x4x4=250,000の可能性
しかし! 現実は1通りしかない
250,000の可能性を減少させる必要あり!
→3Dの知識による拘束の必要性
ハフマン・クロー頂点辞書
•他の可能性なし
•208の可能性が12個に
限定
•L型
- 6個
•ARROW型 - 3個
•FORK型
- 3個
ラベル付けへの拘束
拘束なし --250,000の可能性
 拘束あり
3ARROW - 3x3x3
3L - 6x6x6
1FORK - 3

→3x3x3x6x6x6x3=17,496の可能性
拘束伝播
 線の両端での整合性
-> さらなる拘束
線画解釈の問題点
1. あいまい性の存在
2. 完全な線画抽出が前提 -> 不可能
3. 定性表現にしかすぎない
欠点1: ラベル付け不可能
ラベル付け可能な不可能物体
ラベル付けができても,その立体
が実現するわけではない
欠点3: 定性表現
ラベルが同じで合っても一意には
決まらない
まとめ
 2次元画像処理
– デジタル化
– フィルター処理
– エッジ抽出
 コンピュータビジョン
– 3次元情報の縮退
– 拘束の導出
– 線画解釈