ビジュアル情報処理 - 東京大学池内研究室
Download
Report
Transcript ビジュアル情報処理 - 東京大学池内研究室
コンピュータビジョン
第1回
自己紹介
東大
生研
1996
CMU
電総研
MIT
東大院
情報工
1986
高度交通システム
車両・事象認識
仮想現実感
仮想現実感
モデルの自動生成
ロボティクス
人まねロボット
コンピュタビジョン
明るさ解析
1983
1982
1980
1978
所属
大学院
– 情報学環・学際情報学府
– 情報理工学系研究科・コンピュータ科学専攻
– 情報理工学系研究科・電子情報学専攻
研究所
–
–
–
–
生産技術研究所
国際産学共同センター
空間情報科学研究センター
国立情報学研究所
コースについて
講師:池内克史
研究室: 生産技術研究所 E405
目黒区駒場 4-6-1
[email protected]
評価
– 出席
50%
– レポート 50%
内容
2次元画像処理
3次元再構成法
– 線画解釈
– 明るさ解析
– 両眼立体視
3次元解析法
– 情報統合法
– 表現法
本年度の予定
入門+2D画像処理+線画解釈
6月8日 両眼立体視と明るさ解析
6月15日 距離データとバイヨンプロジェクト
6月22日 カラー解析とIBR
6月29日 物体表現
7月6日 人間行動観察学習ロボット
7月13日 4次元仮想化都市空間
6月1日
コンピュータビジョン
人間の視覚機能の代替アルゴリズムを設
計する分野
2次元画像(網膜画像)から3次元世界を再
構成
最大の応用分野はロボットが行動するた
めの目
2次元画像と3次元世界
カメラ画像は,三次元の座標系から二次
元の画像座標系へ射影したもの
二次元画像
三次元世界
コンピュータビジョンパラダイム(Marr)
物体中心表現
3次元物体表現
各種3次元表現
観測者中心表現
2-1/2次元表現
統合処理
明るさ
テクスチャ
線画
3D特徴抽出
(shape-from-x)
2次元画像
両眼立体視
動き
デジタル画像処理(2D)
デジタル画像とは
アナログ情報
(フィルム,絵,実世界)
量子化&標本化
デジタル画像
–
–
–
–
デジタルカメラ
携帯電話
PCデータ, IT
デジタル放送
標本化
アナログデータを離散的に領域分割
アナログデータ
(時間軸と数値は連続)
サンプリング間隔
サンプリングデータ
(時間軸は離散的)
標本化(続き)
2-D
デジタル画像の場合
サンプリング間隔によって画像解像度が決まる
ピクセル (Pixel)
2-Dデジタル画像の単位
空間分割
0
1
columns
n
N-1
0
1
rows
m
M-1
Digital image
M x N pixels
空間的標本化(解像度)
40 x 30
pixels
80 x 60
pixels
160 x 120
pixels
320 x 240
pixels
量子化
サンプリングされたデータの数値を離散的
に分ける
サンプリングデータ
(時間軸は離散的)
量子化ビット数:
3 bit = 8 level
8 bit = 256 level
デジタルデータ
(時間軸と数値の両方が離散的)
量子化(続き)
2-Dデジタル画像の場合
色は数値として表される
(行列形式)
0
0
0
0
0
0
0
0
0
0
2
2
1
1
0
1
2
3
3
2
1
1
2
3
5
3
2
1
1
2
3
3
3
2
0
1
2
2
2
2
0
0
1
1
1
0
0
0
0
量子化ビット数によって色数が決まる
表現の色数
何色で十分か?
16.7 million
colors
256
colors
16
colors
4
colors
フィルタ処理
フィルタ
人間の視覚やコンピュータビジョンための
前処理
– ノイズ除去
– 画像強調
– 特徴抽出
FILTER
?
空間フィルタ・周波数フィルタ
空間領域での処理
– 隣接ピクセルとの演算
周波数領域での処理
– 画像をフーリエ変換
ノイズ除去
ノイズ源
– 取得時に発生
– 圧縮や伝送時に発生
平均値フィルタ
隣接点の値を平均して置き換える
0
5
4
6
4
0
5
4
6
4
3
7 7/ 9
8 8/ 9
5 5/ 9
5
1 3/ 9
1 7/ 9
1 8/ 9
5
5
5
9 9/ 9 10
10/ 9 8 8/ 9
8
1 5/ 9
1 9/ 9
110
/9
7
8
8
3
7 7/ 9
8 8/ 9
0 0/ 9
9
1 3/ 9
1 7/ 9
1 8/ 9
0
8
9
1
5
7
9
10
1
5
7
9
10
3x3
(5 x 5)
(7 x 7)
平均値フィルタ(続き)
重み付け平均では
0
5
4
6
4
0
5
4
6
4
3
7 /716 16 8
/ 16 5 /516
5
1 /316 2 /716 1 /816
5
5
5
18 /916 4010
/ 16 16 8
/ 16
8
2 /516 4 /916 2 10
/ 816
8
8
3
7 /716 16 8
/ 16 0 /016
9
1 /316 2 /716 1 /816
0
6
9
9
10
1
5
7
9
10
1
5
7
平均値フィルタ(続き)
例1
ガウスノイズの場合
ノイズ画像
(5% Gaussian)
平均値
重み付け平均値
平均値フィルタ(続き)
例2
ショットノイズの場合
ノイズ画像
(Random binary)
平均値
重み付け平均値
非線形フィルタ
最大値フィルタ
– ウィンドウ内の最大値で置き換える
最小値フィルタ
– ウィンドウ内の最小値で置き換える
メディアン(中央値)フィルタ
メディアンフィルタ
ウィンドウ内の中央値で置き換える
0
5
4
6
4
3
7
8
5
5
5
9
10
8
8
3
7
8
0
9
1
5
7
9
10
7
8
5
9
10
8
7
8
0
0
5
3
7
5 ソート
9
3
7
1
5
4
10
9
88
8
10
88
7
87
5
70
6
4
5
5
8
8
中央値
0
8
9
9
10
メディアンフィルタ(続き)
例
3 x 3 フィルタ
ガウスノイズ
ショットノイズ
エッジ
エッジ
画像中の明るさ(数値)が急激に変化する部分
近傍ピクセルとの微分処理 (離散的には差分式)
物体認識などでは重要な特徴となる
微分処理であるためノイズに弱い
ステップエッジ
Intensity
エッジの種類
ルーフエッジ
Intensity
x
ピークエッジ
Intensity
x
x
1-D エッジの微分
1回微分と2回微分
元信号
1回微分
2回微分
Fig. from Digital Image Processing (Springer)
Gradient-base
1回微分のオペレータ
f f
f x, y ,
x y
離散的な差分式では
f x m, n f m 1, n f m, n
f y m, n f m, n 1 f m, n
f x m, n f m 1, n f m 1, n
f y m, n f m, n 1 f m, n 1
エッジの強さと方向が得られる
2 x 2 サイズ
3 x 3 サイズ
Gradient-base (続き)
オペレータの種類
– Roberts D 0 1
/
1 0
D\
0
1
1 0 1
– Prewitt
Dx 1 0 1
1 0 1
1 1 1
Dy 0 0 0
1 1 1
1 0
– Sobel
1 0 1
Dx 2 0 2
1 0 1
1 2 1
Dy 0 0 0
1 2 1
Gradient-base (続き)
例
Prewittオペレータ
Dx
Dy
Laplacian operator
2回微分のオペレータ
1 0 1 0
2 Dx2 Dy2 1 2 1 2 1 4 1
2 0 1 0
0 1 0
2 1 4 1
0 1 0
1 1 1
2 1 8 1
1 1 1
4 direction
8 direction
エッジの強さが得られる
D D
D D
2
x
2
y
x
y
D
Dx
y
Laplacian operator (続き)
例
Laplacianオペレータ
4 direction
8 direction
Laplacian Of Gaussian
微分演算はノイズに対して弱い
Gauss関数でぼかして(ノイズ除去)してか
らLaplacianオペレータ
1
x2 y 2 / 2 2
Gx, y
e
2
Laplacian
of Gaussian
1 x2 y 2 x2 y 2 / 2 2
2
e
Gx, y
4
2
2
2
Laplacian Of Gaussian (続き)
例
LOGオペレータ
1
2
カメラモデル
数学的にモデル化
X
m
画像中心:c
焦点距離:f
y
x
レンズ中心:C
Z
Y
M
画像座標系
カメラ座標系
三次元世界の点Mから画像上の点mをどのように対応付けるか
中心射影
ピンホールカメラモデル
– レンズ系を針の穴(pinhole)とみなす
X
m
画像中心:c
焦点距離:f
y
x
レンズ中心:C
x f
s y 0
1 0
Z
Y
M
画像座標系
カメラ座標系
X
0 0 0
Y
f 0 0
Z
0 1 0
1
(X,Y,Z):三次元空間の座標
(x,y):射影された画像上の座標
s:スカラー
中心射影(続き)
座標系の位置を入れ替えると
X
x
f
c
C
y
Y
Z
m
M
カメラ座標系
画像座標系
よく使われているモデルであるが,非線形変換である
正射影(平行射影)
射影の近似(線形化)
– カメラ↔物体間の距離に無関係
X
X
x 1 0 0 0
y 0 1 0 0 Y
Z
1 0 0 0 1
1
x
c
C
Z
y
Y
m
M
カメラ座標系
画像座標系
(X,Y,Z):三次元空間の座標
(x,y):射影された画像上の座標
線画解析
線画抽出抽出
原画像
微分画像
線画画像
線画から奥行き情報
2次元の線画が与えられ
元の3次元物形状を推定
なぜひし形にみえずます
にみえるのか?
コンピュータが同じように
解釈するようにできない
か?
稜線のタイプ
凸稜線:+
凹稜線:-
輪郭線:矢印の方向に進むと右側に物体,左側が背景
線画のラベル付け
3D形状を知っていればラベル付けは容易
逆操作は可能か?
可能なラベル数(拘束なし)
•9 本の線よりなる
•各4 ラベルの可能性
→4x4x4x4x4x4x4x4x4=250,000の可能性
しかし! 現実は1通りしかない
250,000の可能性を減少させる必要あり!
→3Dの知識による拘束の必要性
ハフマン・クロー頂点辞書
•他の可能性なし
•208の可能性が12個に
限定
•L型
- 6個
•ARROW型 - 3個
•FORK型
- 3個
ラベル付けへの拘束
拘束なし --250,000の可能性
拘束あり
3ARROW - 3x3x3
3L - 6x6x6
1FORK - 3
→3x3x3x6x6x6x3=17,496の可能性
拘束伝播
線の両端での整合性
-> さらなる拘束
線画解釈の問題点
1. あいまい性の存在
2. 完全な線画抽出が前提 -> 不可能
3. 定性表現にしかすぎない
欠点1: ラベル付け不可能
ラベル付け可能な不可能物体
ラベル付けができても,その立体
が実現するわけではない
欠点3: 定性表現
ラベルが同じで合っても一意には
決まらない
まとめ
2次元画像処理
– デジタル化
– フィルター処理
– エッジ抽出
コンピュータビジョン
– 3次元情報の縮退
– 拘束の導出
– 線画解釈