Transcript ppt

关于自底向上的显著性方法的综述
报告人:周静波
2012年08月30日
报告提纲
一.研究现状
二.算法模型介绍
三.实验结果及分析
四.结论
研究现状
研究现状
• 基于视觉注意的显著性区域检测对于图像
分析过程有着非常重要的意义。注意是人
类信息加工过程中的一项重要的心理调节
机制,它能够对有限的信息加工资源进行
分配,使感知具备选择能力。如果能够将
这种机制引入图像分析领域,将计算资源
优先分配给那些容易引起观察者注意的区
域,这样必将极大的提高现有的图像处理
分析方法的工作效率。显著性区域检测正
是在这个基础上提出并发展起来的。
研究现状
• 显著性检测一般分为两类
– 自下而上基于数据驱动的显著性区域突现
– 自上而下任务驱动的目标突现
• 本报告只关注自下而上的显著性检测算法
研究现状
• Achanta 将这些算法分成三类
– 基于低层视觉特征,代表性算法是文献[1]中提出的模
拟生物体视觉注意机制的选择性注意算法(Itti 算法)
– 没有基于任何生物视觉原理的纯数学计算方法,如
Achanta 等[4] 提出的全分辨率算法(AC 算法) 和Hou 等
[5] 提出的基于空间频域分析的剩余谱算法
(Spectralresidual approach, SR)
– 将前两种进行融合的方法,代表性算法是Harel 等[6] 提
出的基于图论的算法(Graph-based visual saliency,
GBVS)
研究现状
• Goferman将显著性分析算法分成以下三类
– 考虑局部特征的,如Itti 算法和GBVS 算法
– 考虑整体性的,如SR 算法和Achanta 等[3] 提出
的算法(IG 算法)
– 局部与整体结合的,如Goferman等[7]和Liu 等
提出的算法
算法模型介绍
Itti模型
• Itti 模型中, 显著值是像素点在颜色、亮度、方向
方面与周边背景的对比值。该模型包括两个步骤:
– 特征提取
– 显著图生成
AIM模型
• AIM(Attention-based on Information Maximization
)模型利用香农的自信息度量,将图像的特征平
面变换到对应于视觉显著性的维度上。
• AIM假设:一个视觉特征的显著性就是该特征相
对于它周围其他特征提供的信息的差别度。
• 根据香农定理,图像特征对应的自信息通过下面
的公式进行计算
I ( x)   log( p( x))
为特征的概率密度函数。
p (x )
GBVS模型
• GBVS(Graph-Based Visual Saliency)模型是
在Itti的模型基础之上运用马尔可夫随机场
的特点构建二维图像的马尔可夫链,通过
求其平衡分布而得到显著图
• 算法步骤:
– 特征的提取:与Itti 算法类似
– 显著图生成 :马尔可夫链方法
FTS模型
• FTS(Frequency-Tuned Saliency)模型是由Achanta
等人提出的一种自底向上的显著性检测方法,通
过局部颜色和亮度特征的对比多尺度方法求像素
点显著值。
• 将原始图像由SRGB颜色空间转化成CIE颜色空间,
然后显著性映射定义为
S ( x, y )  I   Ihc
• 其中 I  为图像特征的几何平均向量, I hc为对原始
图像的高斯模糊,采用 5的二项式核。
5
为 L2 范数, x, y为像素点坐标 。
SR模型
• SR(Spectral Residual)模型是由Hou等人提出
来的,基于空间频域分析的算法之一,显著
R( f )
图通过对剩余谱
做傅里叶逆变换得到。
• 剩余谱
定义为
R( f )
R( f )  log( A( f )  hn ( f ) * log( A( f )))
• 其中, 为原图二维傅里叶变换得到的频域
空间,A( f )为局部平均滤波器(一般n取3)
hn ( f )
PQFT模型
• PQFT(Phase Spectrum of Quaternion Fourier
Transform)模型是由Guo等人在Spectral
Residual基础之上提出的,该方法通过计算图像
的四元傅里叶变换的相位谱得到图像的时空显著
性映射。
• 事实上,图像的相位谱即图像中的显著性目标。
图像中的每一个像素点都用四元组表示:颜色,
亮度和运动向量。
• PQFT模型独立于先验信息,不需要参数,计算
高效,适合于实时显著性检测
PQFT模型
t  1,2,, T,
T
• 假设 F (t ) 表示时间t时刻的输入图像,
为所有图像帧的总数。F (t ) 分为红、绿、蓝三个颜
色通道,表示为 r (t ), g (t ), b(t ) ,那么,可以将三
个颜色通道扩展为四个广义的颜色通道:
g (t )  b(t )
2
r (t )  b(t )
G (t )  g (t ) 
2
g (t )  r (t )
B (t )  b(t ) 
2
R (t )  r (t ) 
r (t )  g (t ) r (t )  g (t )
Y (t ) 

 b(t )
2
2
PQFT模型
• 类似于人类视觉系统,对立颜色通道定义为
RG (t )  R(t )  G (t ), BY (t )  B(t )  Y (t )
• 亮度通道和运动通道定义为
r (t )  g (t )  b(t )
I (t ) 
3
M (t )  I (t )  I (t   )
• 其中  为使用者设定的延迟因子。
PQFT模型
• 四元组图像可以表示为下列形式
q(t )  M (t )  RG (t )1  BY (t )2  I (t )3
其中 i , i  1,2,3 ,满足 i2  1,2  3 , 1  3 , 3  12
1  2 , q(t ) 可以写成如下形式
q(t )  f1 (t )  f 2 (t ) 2
f1 (t )  M (t )  RG (t ) 1
f 2 (t )  BY (t )  I (t ) 1
PQFT模型
• 将图像中每一个像素点表示为 q(n, m, t ) ,(n, m)
为空间坐标,t为时间坐标。四元傅里叶图像变化
写成
Q[u, v]  F1[u, v]  F2[u, v]2
1
Fi (u, v) 
MN
M 1 N 1
 1 2 ( mv / M  nu / N )
e
fi [n, m]

m0 n 0
• (u, v) 表示频域坐标,N , M 表示图像维度。四元逆
傅里叶变化为
1 M 1 N 1 1 2 ( mv / M  nu / N )
fi (n, m) 
e
Fi [u, v]

MN v  0 u  0
PQFT模型
• 可将 q (t ) 表示为 Q(t ) 的极坐标形式
Q(t )  Q(t ) e(t )
• 其中 (t ) 为Q(t ) 的相位谱。设定 Q(t )  1 ,则只剩
下相位信息q(t ) 。计算逆相位信息 q' (t ) 可得到
q' (t )  0 (t )  1 (t )1  2 (t )2  3 (t )3
• 时空显著性映射为
2
sM (t )  g * q' (t )
• 其中g表示二维高斯平滑滤波。当输入为静态图像
时,M (t )  0 。
SDSR模型
• SDSR(Saliency Detection by SelfResemblance)模型由Seo等人提出的,通过
计算感兴趣像素点的特征矩阵与其相邻的
像素点的特征矩阵之间的相似性,来确定
像素点的显著性映射。
• 每一个像素点的局部图像结构表示成一个
局部描述子(局部回归核)矩阵;然后,
利用矩阵余弦相似计算量化每一个像素点
和它相邻的像素点对应的局部描述子矩阵
之间的相似性。
SDSR模型
• 对于像素点i,与之对应的特征矩阵 Fi ,给
定像素点i周围相邻的像素点特征矩阵 F j ,
显著性映射为
Si 

N
j 1
exp(
1
 1   ( Fi , Fj )

2
)
Fi
Fj

• 其中  ( Fi , Fj ) 为矩阵 和
的余弦相似性,
为局部权重参数。局部特征矩阵的列表示
局部指导核的输出
det(Ci )
( xl  xi )T Cl ( xl  xi )
K ( xl  xi ) 
exp(
)
2
2
h
 2h
SDSR模型
SUN模型
• SUN(Saliency Using Natural Statistics)模型由Zhang
等人提出的,模仿视觉系统检测潜在的目标。
• 假设z代表视觉区域中的一个点。二值随机变量C代
表该点是否属于目标,L表示该点的坐标位置,F表
示该点的视觉特征。 定义为
,
sz
p(C  1 | F  f z , L  lz )
分别表示点z的特征和坐标。根据贝叶斯定理
f z , lz
s z  p(C  1 | F  f z , L  lz )
p ( F  f z , L  lz | C  1) p(C  1)

p( F  f z , L  lz )
SUN模型
• 假设特征和坐标相互独立,那么
sz 

p ( F  f z , L  l z ) p ( L  lz | C  1) p (C  1)
p( F  f z ) p( L  lz )
1
p( F  f z | C  1) p(C  1 | L  lz )

 
p( F  f z )
Likelihood
Location prior
 









T arg et independent
( bottom up saliency)
T arg et dependent
( top  down saliency)
• 对上式两边同时取对数,由于对数函数是单调增
加的,因此不会影响各点的显著值排列
log sz   log p( F  f z )  log p( F  f z | C  1)


Self  inf ormation
( bottom up saliency)

Log likelihood
( top  down knowledge of appearance)
log p(C  1 | L  lz )


Location prior
( top  down knowledge of t arg et ' s location)
SUN模型
•
 log p( F  f z只依赖于点z的视觉特征,独立于任何
)
先验信息。在信息论中,该项实际上求随机变量F
取值为时的 f自信息。
z
log p( F  f z C 体现了目标的先验信息。比如,当知
1)
•
道目标物体为绿色时,那么该项的值在遇到绿色点
时比遇到蓝色点要大。
log p(C  1 L  l独立于视觉特征,反映了目标物体位
•
z)
置的先验信息。一般情况下,我们并不知道目标的
位置信息和目标的视觉特征,于是我们省略后两项
,只剩下自信息这一项
log sz   log p(F  f z )
GCS模型
• GCS(Global Contrast based Saliency)模型是由程明
明等人基于输入图像的颜色统计特征提出的基于直
方图对比度的图像显著性值检测方法。具体的说,
一个像素的显著性值用它和图像中其他像素颜色的
对比度来定义。
• 图像 I 中像素点 I k 的显著性定义为
S (Ik ) 
 D( I , I )
IiI
k
i
• 其中D( I k , I i )为像素在Lab空间的颜色距离度量。如果
忽略空间关系,使得具有相同颜色的像素归到一起
,得到每一个颜色的显著性值
N
S ( I k )  S (cl )   f j D(cl , c j )
j 1
GCS模型
• 为了加入空间关系,首先利用基于图的图像分割
方法将输入图像分割成若干个区域。然后对每一
个区域建立颜色直方图。对每一个区域 rk ,通过
测量它与图像其他区域的颜色对比度来计算它的
显著值
S (rk )   w(ri ) Dr (rk , ri )
rk  ri
,)
• w(ri ) 为区域 ri 的权值, Dr (为两个区域的颜色距离
r2
r1 ,他们之间的颜色距离度
度量。对于区域 和
量定义为
n n
Dr (r1 , r2 )   f (c1 , i ) f (c2 , j )D(c1,i , c2, j )
1
2
i 1 j 1
• f (ck , i)为第i个颜色 ck在第k个区域
,i
色中出现的概率。
rk
nk
的所有
种颜
GCS模型
• 为了增加区域的空间影响效果,基于空间加权区
域对比度的显著性定义为:
S (rk )   exp(  Ds (rk , ri ) /  s2 ) * w(ri ) Dr (rk , ri )
rk ri
•
s
Ds (rk , ri为区域
)
rk 的空间距离,
ri
和
控制空间权
值强度。
PBS模型
• PBS(Patch-based Saliency)模型都是先将图像分割
为一系列大小一致的图像块,再根据不同的特征提
取方式,对图像块进行特征提取。
• 下面介绍PBS算法的一般步骤
I
– 对于维数为 H  W的图像 ,将其分解为一系列大
小为 n  n的图像片。为简便起见,我们不考虑图

像片的重叠问题。图像片的总数为 L  H / n  W / n。
,L
对于任一图像片 pi , i  1,2,,将其表示成向量形
xi
式 ,最终得到一个表示图像片的矩阵
X  [ x1, x2 ,, xL ]
PBS模型
• 使用PCA抽取特征。对图像片矩阵 X  [ x1, x2 ,, xL ],
L
计算
Xˆ  [ x1  x , x2  x ,, xL  x ]
x   xi
i 1
• 对应的协方差矩阵为:
A  ( Xˆ T Xˆ ) / L2
• 对A进行特征值分解,选择前d个最大特征值对应的
T
d。 L
特征向量 U  [u1 , u2 ,, ud ]。其中U的维度为
PBS模型
• 给定图像片 pi 和 p j ,它们之间的不一致
性为:
dist color ( pi , p j )
dissimilar ity ( pi , p j ) 
1  dist ( pi , p j )
其中,
d
dist color ( pi , p j )   uni  unj
n 1
 为绝对值函数。
PBS模型
• 图像片 pi 的显著性计算方法为:
1
Si  1  exp{
N
N
 dissimilar ity( p , q )}
k 1
其中 N 为图像片总数。
i
k
实验结果与分析
实验结果与分析
• 我们在Achanta等人提供的公开测试数据集上面
测试了上述所有方法。据我们所知,此数据集是
此类数据最大的测试集,并且有人工精确标注了
显著性区域。
• 将所有方法都在1000张图片上进行计算得到显著
图。
实验结果与分析
实验结果与分析
实验结果与分析
实验结果与分析
• 根据不同模型中提到的方法对显著图进行二值化
,并且与实际分割图进行比较,得到查准率
(precision)和查全率(recall)以及F三个指标值。
(1   ) precision  recall
F 
 2  precision  recall
2
• 其中,我们设置  2  0.3 ,得到的查准率
(precision)和查全率(recall)以及F指标如表1所示
实验结果与分析
算法/指标
precision
recall
F-measure
Itti
0.62
0.23
0.45
AIM
0.81
0.64
0.76
GBVS
0.84
0.63
0.78
FTS
0.88
0.77
0.85
SR
0.71
0.28
0.52
PQFT
0.75
0.33
0.58
SDSR
0.83
0.71
0.8
SUN
0.78
0.72
0.76
GCS(RC)
0.9
0.9
0.9
PBS
0.88
0.81
0.86
结束语
结束语
• 从上述10类自底向上的显著性检测模型中,所有算法都容
易受到背景中噪声的影响。这是因为,自底向上的算法采
用的特征都是一些底层的特征,如颜色,亮度,方向和空
间位置信息。在未来工作中,我们希望能够研究包含空间
关系且保留详细细节的全局显著性图像的高效计算算法,
并且希望研究能够处理具有复杂纹理背景图像的检测算法
• 另外,我们还希望在显著性检测过程中增加一些特征,比
如人脸,对称性等,进一步增加检测算法的鲁棒性.
谢谢!
报告人:姓
名
2009年XX月XX日