ビジュアル情報処理 - 東京大学池内研究室

Transcript ビジュアル情報処理 - 東京大学池内研究室

コンピュータビジョン
第１回
自己紹介
東大
生研
1996
CMU
電総研
MIT
東大院
情報工
1986
高度交通システム
車両・事象認識
仮想現実感
仮想現実感
モデルの自動生成
ロボティクス
人まねロボット
コンピュタビジョン
明るさ解析
1983
1982
1980
1978
所属
 大学院
– 情報学環・学際情報学府
– 情報理工学系研究科・コンピュータ科学専攻
– 情報理工学系研究科・電子情報学専攻

研究所
–
–
–
–
生産技術研究所
国際産学共同センター
空間情報科学研究センター
国立情報学研究所
コースについて
 講師：池内克史
研究室：生産技術研究所 E405
目黒区駒場 4－6－1
[email protected]

評価
– 出席
50%
– レポート 50%
内容
 2次元画像処理
 3次元再構成法
– 線画解釈
– 明るさ解析
– 両眼立体視
 3次元解析法
– 情報統合法
– 表現法
本年度の予定
入門＋２D画像処理＋線画解釈
 6月８日両眼立体視と明るさ解析
 6月15日距離データとバイヨンプロジェクト
 6月22日カラー解析とIBR
 6月29日物体表現
 7月6日人間行動観察学習ロボット
 7月13日４次元仮想化都市空間
 6月１日
コンピュータビジョン
 人間の視覚機能の代替アルゴリズムを設
計する分野
 2次元画像（網膜画像）から3次元世界を再
構成
 最大の応用分野はロボットが行動するた
めの目
2次元画像と3次元世界
 カメラ画像は，三次元の座標系から二次
元の画像座標系へ射影したもの
二次元画像
三次元世界
コンピュータビジョンパラダイム（Ｍａｒｒ）
物体中心表現
3次元物体表現
各種3次元表現
観測者中心表現
2-1/2次元表現
統合処理
明るさ
テクスチャ
線画
３Ｄ特徴抽出
(shape-from-x)
2次元画像
両眼立体視
動き
デジタル画像処理（２D)
デジタル画像とは
 アナログ情報
(フィルム，絵，実世界)
量子化＆標本化
 デジタル画像
–
–
–
–
デジタルカメラ
携帯電話
PCデータ, IT
デジタル放送
標本化
 アナログデータを離散的に領域分割
アナログデータ
(時間軸と数値は連続)
サンプリング間隔
サンプリングデータ
(時間軸は離散的)
標本化（続き）
 2-D
デジタル画像の場合
サンプリング間隔によって画像解像度が決まる
ピクセル（Pixel）
 2-Dデジタル画像の単位
 空間分割
0
1
columns
n
N-1
0
1
rows
m
M-1
Digital image
M x N pixels
空間的標本化（解像度）
40 x 30
pixels
80 x 60
pixels
160 x 120
pixels
320 x 240
pixels
量子化
 サンプリングされたデータの数値を離散的
に分ける
サンプリングデータ
(時間軸は離散的)
量子化ビット数:
3 bit = 8 level
8 bit = 256 level
デジタルデータ
(時間軸と数値の両方が離散的)
量子化（続き）
 2-Dデジタル画像の場合
色は数値として表される
(行列形式)
0
0
0
0
0
0
0
0
0
0
2
2
1
1
0
1
2
3
3
2
1
1
2
3
5
3
2
1
1
2
3
3
3
2
0
1
2
2
2
2
0
0
1
1
1
0
0
0
0
量子化ビット数によって色数が決まる
表現の色数
 何色で十分か?
16.7 million
colors
256
colors
16
colors
4
colors
フィルタ処理
フィルタ
 人間の視覚やコンピュータビジョンための
前処理
– ノイズ除去
– 画像強調
– 特徴抽出
FILTER
?
空間フィルタ・周波数フィルタ
 空間領域での処理
– 隣接ピクセルとの演算
 周波数領域での処理
– 画像をフーリエ変換
ノイズ除去
 ノイズ源
– 取得時に発生
– 圧縮や伝送時に発生
平均値フィルタ
 隣接点の値を平均して置き換える
0
5
4
6
4
0
5
4
6
4
3
7 7/ 9
8 8/ 9
5 5/ 9
5
1 3/ 9
1 7/ 9
1 8/ 9
5
5
5
9 9/ 9 10
10/ 9 8 8/ 9
8
1 5/ 9
1 9/ 9
110
/9
7
8
8
3
7 7/ 9
8 8/ 9
0 0/ 9
9
1 3/ 9
1 7/ 9
1 8/ 9
0
8
9
1
5
7
9
10
1
5
7
9
10
3x3
(5 x 5)
(7 x 7)
平均値フィルタ（続き）
 重み付け平均では
0
5
4
6
4
0
5
4
6
4
3
7 /716 16 8
/ 16 5 /516
5
1 /316 2 /716 1 /816
5
5
5
18 /916 4010
/ 16 16 8
/ 16
8
2 /516 4 /916 2 10
/ 816
8
8
3
7 /716 16 8
/ 16 0 /016
9
1 /316 2 /716 1 /816
0
6
9
9
10
1
5
7
9
10
1
5
7
平均値フィルタ（続き）
 例１
ガウスノイズの場合
ノイズ画像
(5% Gaussian)
平均値
重み付け平均値
平均値フィルタ（続き）
 例２
ショットノイズの場合
ノイズ画像
(Random binary)
平均値
重み付け平均値
非線形フィルタ
 最大値フィルタ
– ウィンドウ内の最大値で置き換える
 最小値フィルタ
– ウィンドウ内の最小値で置き換える
 メディアン（中央値）フィルタ
メディアンフィルタ
 ウィンドウ内の中央値で置き換える
0
5
4
6
4
3
7
8
5
5
5
9
10
8
8
3
7
8
0
9
1
5
7
9
10
7
8
5
9
10
8
7
8
0
0
5
3
7
5 ソート
9
3
7
1
5
4
10
9
88
8
10
88
7
87
5
70
6
4
5
5
8
8
中央値
0
8
9
9
10
メディアンフィルタ（続き）
例
3 x 3 フィルタ
ガウスノイズ
ショットノイズ
エッジ
エッジ
 画像中の明るさ（数値）が急激に変化する部分

近傍ピクセルとの微分処理 (離散的には差分式)

物体認識などでは重要な特徴となる
 微分処理であるためノイズに弱い
 ステップエッジ
Intensity
エッジの種類
 ルーフエッジ
Intensity
x
 ピークエッジ
Intensity
x
x
1-D エッジの微分
 １回微分と２回微分
元信号
１回微分
２回微分
Fig. from Digital Image Processing (Springer)
Gradient-base
 １回微分のオペレータ
 f f 
f x, y    , 
 x y 
 離散的な差分式では
f x m, n  f m  1, n  f m, n
f y m, n  f m, n  1  f m, n
f x m, n  f m  1, n  f m 1, n
f y m, n  f m, n  1  f m, n 1
エッジの強さと方向が得られる
2 x 2 サイズ
3 x 3 サイズ
Gradient-base （続き）
 オペレータの種類
– Roberts D   0 1
/


1 0 
D\  

0

1


1 0 1

– Prewitt
Dx  1 0 1
1 0 1
1 1 1
Dy   0 0 0 
 1 1 1 
1 0
– Sobel
 1 0 1
Dx   2 0 2
 1 0 1
1  2 1
Dy   0 0 0 
 1 2 1 
Gradient-base （続き）
例
Prewittオペレータ
Dx
Dy
Laplacian operator
 ２回微分のオペレータ
 1  0 1 0
2  Dx2  Dy2  1  2 1   2  1  4 1
 2  0 1 0
0 1 0
2  1  4 1
0 1 0
1 1 1
2  1  8 1
1 1 1
4 direction
8 direction
エッジの強さが得られる
D  D
D  D
2
x

2
y


x
y


D
Dx
y
Laplacian operator （続き）
例
Laplacianオペレータ
4 direction
8 direction
Laplacian Of Gaussian
 微分演算はノイズに対して弱い
 Gauss関数でぼかして（ノイズ除去）してか
らLaplacianオペレータ
1
x2  y 2 / 2 2
Gx, y 
e
2
 Laplacian
of Gaussian
1  x2  y 2  x2  y 2 / 2 2
2 
e
 Gx, y  
4 
2
2 
 
2
Laplacian Of Gaussian （続き）
例
LOGオペレータ
 1
 2
カメラモデル
 数学的にモデル化
X
m
画像中心:c
焦点距離:f
y
x
レンズ中心:C
Z
Y
M
画像座標系
カメラ座標系
三次元世界の点Mから画像上の点mをどのように対応付けるか
中心射影
 ピンホールカメラモデル
– レンズ系を針の穴（pinhole）とみなす
X
m
画像中心:c
焦点距離:f
y
x
レンズ中心:C
 x  f
s  y   0
1   0
Z
Y
M
画像座標系
カメラ座標系
X 
0 0 0  
Y


f 0 0
Z 
0 1 0  
1
(X,Y,Z)：三次元空間の座標
(x,y)：射影された画像上の座標
s：スカラー
中心射影（続き）
 座標系の位置を入れ替えると
X
x
f
c
C
y
Y
Z
m
M
カメラ座標系
画像座標系
よく使われているモデルであるが，非線形変換である
正射影（平行射影）
 射影の近似（線形化）
– カメラ↔物体間の距離に無関係
X
X 
 x  1 0 0 0  
 y  0 1 0 0  Y 
  
 Z 
1  0 0 0 1  
1
x
c
C
Z
y
Y
m
M
カメラ座標系
画像座標系
(X,Y,Z)：三次元空間の座標
(x,y)：射影された画像上の座標
線画解析
線画抽出抽出
原画像
微分画像
線画画像
線画から奥行き情報
 2次元の線画が与えられ

元の3次元物形状を推定

なぜひし形にみえずます
にみえるのか？
 コンピュータが同じように
解釈するようにできない
か？
稜線のタイプ
凸稜線：＋
凹稜線：－
輪郭線：矢印の方向に進むと右側に物体，左側が背景
線画のラベル付け
３D形状を知っていればラベル付けは容易
逆操作は可能か？
可能なラベル数（拘束なし）
•9 本の線よりなる
•各4 ラベルの可能性
→4ｘ4ｘ4ｘ4ｘ4ｘ4ｘ4ｘ4ｘ4=250,000の可能性
しかし！現実は1通りしかない
２５０，０００の可能性を減少させる必要あり！
→３Dの知識による拘束の必要性
ハフマン・クロー頂点辞書
•他の可能性なし
•２０８の可能性が１２個に
限定
•L型
－６個
•ARROW型－３個
•FORK型
－３個
ラベル付けへの拘束
拘束なし --250,000の可能性
 拘束あり
３ARROW － 3ｘ3ｘ3
３L － 6ｘ6ｘ6
１FORK － 3

→3ｘ3ｘ3ｘ6ｘ6ｘ6ｘ3＝17，496の可能性
拘束伝播
 線の両端での整合性
－＞さらなる拘束
線画解釈の問題点
1. あいまい性の存在
2. 完全な線画抽出が前提－＞不可能
3. 定性表現にしかすぎない
欠点１：ラベル付け不可能
ラベル付け可能な不可能物体
ラベル付けができても，その立体
が実現するわけではない
欠点３：定性表現
ラベルが同じで合っても一意には
決まらない
まとめ
 2次元画像処理
– デジタル化
– フィルター処理
– エッジ抽出
 コンピュータビジョン
– 3次元情報の縮退
– 拘束の導出
– 線画解釈

ビジュアル情報処理 - 東京大学池内研究室

Transcript ビジュアル情報処理 - 東京大学池内研究室

Directory