M - 東京大学池内研究室
Download
Report
Transcript M - 東京大学池内研究室
コンピュータビジョン
第1回
自己紹介
東大
生研
1996
CMU
電総研
MIT
東大院
情報工
1986
高度交通システム
車両・事象認識
仮想現実感
仮想現実感
モデルの自動生成
ロボティクス
人まねロボット
コンピュタビジョン
明るさ解析
1983
1982
1980
1978
所属
大学院
– 情報学環・学際情報学府
– 情報理工学系研究科・コンピュータ科学専攻
– 情報理工学系研究科・電子情報学専攻
研究所
–
–
–
–
生産技術研究所
国際産学共同センター
空間情報科学研究センター
国立情報学研究所
コースについて
講師:池内克史
研究室: 生産技術研究所 E405
目黒区駒場 4-6-1
[email protected]
評価
– 出席
– プログラミング課題
– レポート課題
40%
30%
30%
内容
2次元画像処理
3次元再構成法
– 線画解釈
– 両眼立体視と明るさ解析
– 物体表現
プロジェクトの実際
– デジタルバイヨン
– 人間行動観察学習
– 現場見学
本年度の予定
4月10日
4月17日
4月24日
5月 1日
5月 8日
5月15日
5月22日
5月29日
入門+2D画像処理
両眼立体視と明るさ解析
カラー解析
休講
物体認識
デジタルバイヨンプロジェクト
人間行動観察学習ロボット
研究の現場(生研公開)
本郷
本郷
本郷
UCB→本郷
本郷
ICRA→本郷
駒場
コンピュータビジョン
人間の視覚機能の代替アルゴリズムを設
計する分野
2次元画像(網膜画像)から3次元世界を再
構成
最大の応用分野はロボットが行動するた
めの目
2次元画像と3次元世界
カメラ画像は,三次元の座標系から二次
元の画像座標系へ射影したもの
二次元画像
三次元世界
コンピュータビジョンパラダイム(Marr)
物体中心表現
3次元物体表現
各種3次元表現
観測者中心表現
2-1/2次元表現
統合処理
明るさ
テクスチャ
線画
3D特徴抽出
(shape-from-x)
2次元画像
両眼立体視
動き
デジタル画像処理(2D)
デジタル画像とは
アナログ情報
(フィルム,絵,実世界)
量子化&標本化
デジタル画像
–
–
–
–
デジタルカメラ
携帯電話
PCデータ, IT
デジタル放送
標本化
アナログデータを離散的に領域分割
アナログデータ
(時間軸と数値は連続)
サンプリング間隔
サンプリングデータ
(時間軸は離散的)
標本化(続き)
2-D
デジタル画像の場合
サンプリング間隔によって画像解像度が決まる
ピクセル (Pixel)
2-Dデジタル画像の単位
空間分割
0
1
columns
n
N-1
0
1
rows
m
M-1
Digital image
M x N pixels
空間的標本化(解像度)
40 x 30
pixels
80 x 60
pixels
160 x 120
pixels
320 x 240
pixels
量子化
サンプリングされたデータの数値を離散的
に分ける
サンプリングデータ
(時間軸は離散的)
量子化ビット数:
3 bit = 8 level
8 bit = 256 level
デジタルデータ
(時間軸と数値の両方が離散的)
量子化(続き)
2-Dデジタル画像の場合
色は数値として表される
(行列形式)
0
0
0
0
0
0
0
0
0
0
2
2
1
1
0
1
2
3
3
2
1
1
2
3
5
3
2
1
1
2
3
3
3
2
0
1
2
2
2
2
0
0
1
1
1
0
0
0
0
量子化ビット数によって色数が決まる
表現の色数
何色で十分か?
16.7 million
colors
256
colors
16
colors
4
colors
フィルタ処理
フィルタ
人間の視覚やコンピュータビジョンための
前処理
– ノイズ除去
– 画像強調
– 特徴抽出
FILTER
?
空間フィルタ・周波数フィルタ
空間領域での処理
– 隣接ピクセルとの演算
周波数領域での処理
– 画像をフーリエ変換
ノイズ除去
ノイズ源
– 取得時に発生
– 圧縮や伝送時に発生
平均値フィルタ
隣接点の値を平均して置き換える
0
5
4
6
4
0
5
4
6
4
3
7 7/ 9
8 8/ 9
5 5/ 9
5
1 3/ 9
1 7/ 9
1 8/ 9
5
5
5
9 9/ 9 10
10/ 9 8 8/ 9
8
1 5/ 9
1 9/ 9
110
/9
7
8
8
3
7 7/ 9
8 8/ 9
0 0/ 9
9
1 3/ 9
1 7/ 9
1 8/ 9
0
8
9
1
5
7
9
10
1
5
7
9
10
3x3
(5 x 5)
(7 x 7)
平均値フィルタ(続き)
重み付け平均では
0
5
4
6
4
0
5
4
6
4
3
7 /716 16 8
/ 16 5 /516
5
1 /316 2 /716 1 /816
5
5
5
18 /916 4010
/ 16 16 8
/ 16
8
2 /516 4 /916 2 10
/ 816
8
8
3
7 /716 16 8
/ 16 0 /016
9
1 /316 2 /716 1 /816
0
6
9
9
10
1
5
7
9
10
1
5
7
平均値フィルタ(続き)
例1
ガウスノイズの場合
ノイズ画像
(5% Gaussian)
平均値
重み付け平均値
平均値フィルタ(続き)
例2
ショットノイズの場合
ノイズ画像
(Random binary)
平均値
重み付け平均値
非線形フィルタ
最大値フィルタ
– ウィンドウ内の最大値で置き換える
最小値フィルタ
– ウィンドウ内の最小値で置き換える
メディアン(中央値)フィルタ
メディアンフィルタ
ウィンドウ内の中央値で置き換える
0
5
4
6
4
3
7
8
5
5
5
9
10
8
8
3
7
8
0
9
1
5
7
9
10
7
8
5
9
10
8
7
8
0
0
5
3
7
5 ソート
9
3
7
1
5
4
10
9
88
8
10
88
7
87
5
70
6
4
5
5
8
8
中央値
0
8
9
9
10
メディアンフィルタ(続き)
例
3 x 3 フィルタ
ガウスノイズ
ショットノイズ
エッジ
エッジ
画像中の明るさ(数値)が急激に変化する部分
近傍ピクセルとの微分処理 (離散的には差分式)
物体認識などでは重要な特徴となる
微分処理であるためノイズに弱い
ステップエッジ
Intensity
エッジの種類
ルーフエッジ
Intensity
x
ピークエッジ
Intensity
x
x
1-D エッジの微分
1回微分と2回微分
元信号
1回微分
2回微分
Fig. from Digital Image Processing (Springer)
Gradient-base
1回微分のオペレータ
f f
f x , y
,
x y
離散的な差分式では
f x m , n f m 1, n f m , n
f y m , n f m , n 1 f m , n
f x m , n f m 1, n f m 1, n
f y m , n f m , n 1 f m , n 1
エッジの強さと方向が得られる
2 x 2 サイズ
3 x 3 サイズ
Gradient-base (続き)
オペレータの種類
– Roberts D
– Prewitt
– Sobel
/
0
1
1
0
1
Dx 1
1
0
1
Dx 2
1
0
0
0
0
0
1
D\
0
1
1
1
1
2
1
0
1
1
Dy 0
1
1
Dy 0
1
1
0
1
2
0
2
1
0
1
1
0
1
Gradient-base (続き)
例
Prewittオペレータ
Dx
Dy
Laplacian operator
2回微分のオペレータ
D x D y 1
2
2
2
0
2
1
0
2
1
4
1
1 0
1 2 1
2 0
0
1
0
1
2
1
1
4 direction
エッジの強さが得られる
1
4
1
1
8
1
0
1
0
1
1
1
8 direction
D
D
2
x
Dx Dx
2
y
Dy Dy
Laplacian operator (続き)
例
Laplacianオペレータ
4 direction
8 direction
Laplacian Of Gaussian
微分演算はノイズに対して弱い
Gauss関数でぼかして(ノイズ除去)してか
らLaplacianオペレータ
G x, y
1
2
e
Laplacian
2
x y
2
/ 2
2
of Gaussian
2
2
1
x y
2
G x, y
4
2
2
2
x 2 y 2 / 2 2
e
Laplacian Of Gaussian (続き)
例
LOGオペレータ
1
2
カメラモデル
数学的にモデル化
X
m
画像中心:c
焦点距離:f
y
x
レンズ中心:C
Z
Y
M
画像座標系
カメラ座標系
三次元世界の点Mから画像上の点mをどのように対応付けるか
中心射影
ピンホールカメラモデル
– レンズ系を針の穴(pinhole)とみなす
X
m
画像中心:c
焦点距離:f
y
x
レンズ中心:C
x f
s y 0
1 0
Z
Y
M
画像座標系
カメラ座標系
0
0
f
0
0
1
X
0
Y
0
Z
0
1
(X,Y,Z):三次元空間の座標
(x,y):射影された画像上の座標
s:スカラー
中心射影(続き)
座標系の位置を入れ替えると
X
x
f
c
C
y
Y
Z
m
M
カメラ座標系
画像座標系
よく使われているモデルであるが,非線形変換である
正射影(平行射影)
射影の近似(線形化)
– カメラ↔物体間の距離に無関係
X
x
c
C
x 1
y 0
1 0
Z
y
Y
m
M
カメラ座標系
画像座標系
0
0
1
0
0
0
X
0
Y
0
Z
1
1
(X,Y,Z):三次元空間の座標
(x,y):射影された画像上の座標
線画解析
線画抽出抽出
原画像
微分画像
線画画像
線画から奥行き情報
2次元の線画が与えられ
元の3次元物形状を推定
なぜひし形にみえずます
にみえるのか?
コンピュータが同じように
解釈するようにできない
か?
稜線のタイプ
凸稜線:+
凹稜線:-
輪郭線:矢印の方向に進むと右側に物体,左側が背景
線画のラベル付け
3D形状を知っていればラベル付けは容易
逆操作は可能か?
可能なラベル数(拘束なし)
•9 本の線よりなる
•各4 ラベルの可能性
→4x4x4x4x4x4x4x4x4=250,000の可能性
しかし! 現実は1通りしかない
250,000の可能性を減少させる必要あり!
→3Dの知識による拘束の必要性
ハフマン・クロー頂点辞書
•他の可能性なし
•208の可能性が12個に
限定
•L型
- 6個
•ARROW型 - 3個
•FORK型
- 3個
ラベル付けへの拘束
拘束なし --250,000の可能性
拘束あり
3ARROW - 3x3x3
3L - 6x6x6
1FORK - 3
→3x3x3x6x6x6x3=17,496の可能性
拘束伝播
線の両端での整合性
-> さらなる拘束
線画解釈の問題点
1. あいまい性の存在
2. 完全な線画抽出が前提 -> 不可能
3. 定性表現にしかすぎない
欠点1: ラベル付け不可能
ラベル付け可能な不可能物体
ラベル付けができても,その立体
が実現するわけではない
欠点3: 定性表現
ラベルが同じで合っても一意には
決まらない
まとめ
2次元画像処理
– デジタル化
– フィルター処理
– エッジ抽出
コンピュータビジョン
– 3次元情報の縮退
– 拘束の導出
– 線画解釈