Transcript ppt
Regression Shinkage for
Sparse Projection Learning
------Graduate Celebration Report
Reporter: Zhihui Lai
Supervised by Prof. Zhong Jin
2011-6
Outline
A review
Recommendations
Regressions
basic sparse learning methods
My works
Conclusions
Future works
Possible hot points in the future
Some suggestion on the younger
Sparse subspace learning
-------reported at June 2009
A review
Fast algorithm
Jieping Ye 2010
Cairong Zhao and I
Sparse visual attention system
Sparseness for one class problem
Sparse representation and explanation for gene data
Chunhou Zheng,
Lei Zhang
Lei Zhang,
Super-solution images and dictionary learning
Feature extraction and classification
Lili Wang and
Guangwei Gao
Jian Yang,
Zhenghong GU,
and I
10 Recommended References (1)
P.N. Belhumeur, J.P. Hespanha, D.J. Kriengman, Eigenfaces vs.
Fisherfaces: recognition using class specific linear projection,IEEE Trans.
Pattern Anal. Mach. Intelligence 19 (7) (1997)711–720.
X.F. He, S. Yan, Y. Hu, P. Niyogi, H.J. Zhang, Face recognition using
laplacianfaces, IEEE Trans. Pattern Anal. Mach. Intelligence 27 (3) (2005)
328–340. +++++and its related papers
2DPCA,UDP(T-PAMI)
ULDA OLDA (PR), NLDA
Graph embedding (T-PAMI)
10 Recommended References (2)
J. Wright, A.Y. Yang,..,Yi Ma,”Robust face recgontition via sparse
represetation, T-PAMI 2009. ++++++and its 20 related references!
B. Efron, T. Hastie, I. Johnstone, and R. Tibshirani, “Least angle
regression,” Annals of Statistics, vol. 32, 2004, pp. 407-499
.
R. Tibshirani, “Regression shrinkage and selection via the lasso,” Journal
of the Royal Statistical Society: Series B (Statistical Methodology), vol. 58,
1996, pp. 267-288.
Zou, H. (Standford), Hastie, T., & Tibshirani, R. (2004). Sparse principal
component analysis (Technical Report). Statistics Department, Stanford
University.
D. Cai, X. He, J.Han, Spectral Regression: A Unified Approach for Sparse
Subspace Learning, Proc. 2007 Int. Conf. on Data Mining (ICDM 07),
Omaha, NE, Oct. 2007.
Background---sparseness is needed
One key drawback of PCA is its lack of
sparseness.
Sparse representations are generally desirable.
Reduce computational cost and promote better
generalization in learning algorithms.
In many applications, the coordinate axis
involved in the factors have a direct physical
interpretation.
In financial or biological applications, each
axis might correspond to a specific asset or
gene.
The methods for sparse solutions
CVX,
L1-magic,L1_eq
SDP,QCQP,
GPRS,SLEP,
Lasso,Glasso,
Elastic net
regressions
Gaussian
ProcessRegression,
Support Vector Regression,
Regression
and
Trees,
Nearest Neighbor Regression
UNSOLVED!!
OMP---Orthogonal
OMP
Why L1 norm learning?
some useful journals
Comm.
Pure and Applied Math.
SIAM Rev.
J. Am. Statistical Assoc.
Comm. Pure and Applied Math.
IEEE Trans. Information Theory
Theoretical Computer Science
Foundations of Computational Math
基本投影理论与算法 ----PCA
思
想:最小化重构误差,保留最大方差
min i xi xi
T
2
J ( ) St
T
1 M
T
nn
St ( xi x )( xi x ) R
m i 1
PCA arg max J () [1 , 2 ,
, d ]
几何意义:使投影后所得特征的总体散度最大
基本投影理论与算法 ----SPCA(1)
思
想:在旋转不变性的原则下最小化子
空间之间的投影误差
SVD分解
m
*
*
T
( A , B ) arg min xi
A, B
i 1
X UDV
AB x B(:, j )
T T 2
i
T
d
j 1
2
s.t. AA I d
T
则有 B (:, i) V (:, i)
*
几何意义:在子空间之间使同一模式点的像与原
像之差达到最小化
基本投影理论与算法----SPCA(2)
思
想:在旋转不变性的原则下最小化稀疏
子空间之间的投影误差
m
d
d
2
2
*
*
T
T T
( A , B ) arg min xi AB xi B(:, j ) 1, j B(:, j )
A, B
j 1
j 1
i 1
s.t. AA I d
T
几何意义:寻找一个稀疏线性变换,使得模式
点在稀疏子空
间的像及其在原子空间的像
之差达到最小化
基本投影理论与算法 ----SDA(1)
思
式
想:把类属变量看成量化变量来处理,并写成回归的形
Y是只含0-1值的
代表各类属性的
m*c阶变量矩阵
Optimal scoring
(ˆ, ˆ ) arg min m1 Y X
,
惩罚矩阵
2
2
s.t. m
2
1
ˆ
( , ˆ ) arg min m Y X 2 2 1/2
,
1
Y
2
2
I
2
2
Panelized discriminant
analysis
几何意义:在低维子空间中逼近与类相关的量化变量
基本投影理论与算法 ----SDA(2)
思
想:把类属变量看成量化变量来处理,并写成含L1范数回归的形式
2
2
1
1/2
ˆ
( , ˆ ) arg min m Y X 2 2 1
,
s.t. m
2
1
Y
2
2
I
最优的稀疏投影通过迭代Elastic Net和SVD分解得到
几何意义:在低维子空间中逼近与类相关的量化变量
1
基于图的稀疏投影学习模型
max XWX T
现有的稀疏学习
模型(USSL):
s.t. T XDX T 1
Card ( ) K
本文提出的稀疏鉴别投
影(SLDP)学习模型:
XWX T XDX T
Card ( ) K
T
b
b
T
max
J
(
)
X
(
D
W
)
X
b
T
w
w
T
min
J
(
)
X
(
D
W
)
X
w
s.t. T XX T 1
Card ( ) K
稀疏投影向量的比较及其语义解释
实验与分析(AR人脸数据集)
AR人脸数据
集中的一张
人脸图像
由SLDP (左)和USSL(右)算法得到的稀
疏人脸子空间的二值图像,此时K=400,
白点表示非0元,黑色区域为0元素
基于向量的稀疏投影学习小结
优点:稀疏特征提取方法还能给出特征层面上的语义解释,它可以发现
最有效的鉴别特征用于分类,使我们知道到底哪些特征对分类起到了关
键作用。
缺点:
计算复杂度高,并且当非零元素较多时,这些算法往往比较耗时。
需要大量的投影才能有效地分开各个类,进一步增加了计算负担。
些方法用于人脸(图像)识别时,所得的投影轴仍然难于给出较为直观
的、合理的人脸语义上的解释 ,投影向量基本不再含有图像对像的属性
稀疏鉴别投影方法与紧致鉴别投影理论上的联系仍然没有得到论证
基于流形学习的稀疏二维特征提取算法框架
2 DLPP :
X T ( L I n1 ) X X T ( D I n1 ) X
2 DLGEDA : X T ( Lb I n1 ) X X T ( Lw I n1 ) X
基于图像矩阵的二维
紧致投影 学习方法:
本文所提出的稀疏
投影学习算法框架:
X T (Lb In1 ) X X T ( Lw In1 ) X
T
T
X
(
L
I
)
X
X
( Lw I n1 ) X
b
n1
subject to Card ( ) K
快速图谱特征分解
这两个定理为快速的稀疏回归提供了思路!
基于图像矩阵的二维回归拓展
基于图像矩阵的二维脊回归、二维Lasso回归、二维Elastic Net回归
分别如下:
n1
m
n2
arg min( ( X i (h,:) yi )2 j2 )
i 1 h 1
j 1
n1
m
n2
arg min( ( X i (h,:) yi )2 j )
i 1 h 1
m
n1
j 1
n2
n2
j 1
j 1
arg min( ( X i (h,:) yi )2 j2 j )
i 1 h 1
Sparsefaces:无监督S2DLPP算法
S2DLPP的目标函数:
T
T
X
(
W
I
)
X
X
( D I n1 ) X
n1
Card ( ) K
subject to
S2DLPP的
算法过程:
算法时间复杂度与空间复杂度的比较
图像大小:n1 n2 n;训练样本数:m;
时
间
复
杂
性
空
间
复
杂
性
Sparsefaces:O (n 2 m 2 m 2 log m d (n 3 n 3m))
并可降到
O (n m m log m d ( K K nm))
USSL:
O(n 2 m 2 m 2 log m d (n 6 n 4 m))
并可降到
O (n 2 m 2 m 2 log m d ( K 3 K 2 m))
2DLPP:
O( n 2 m 2 m 2 log m n3 n 2 m 2 )
2
2
2
3
Sparsefaces:max(O (m 2 ), O (n 2 ))
USSL :
max(O(m 2 ), O(n 4 ))
2 DLPP :
O(n 2 )
2
节省
空间
极大提
高学习
速度
Sparsefaces方法的变换矩阵
在Yale人脸数据集上的实验与分析
从左到右: 2DPCA“脸”、
S2DLPP所学习得到的稀疏
“脸”图像,其中 K=2:2:
10
2DLDA“脸”、
2DLPP“脸”、
USSL“脸”
稀疏脸的二值“脸”图像,白色
点代表0元素,黑色部分为非0元
素
无监督S2DLPP算法的特性
快速!
节省20%
的时间
S2DLPP算法对时间光照表情变化的有效性
本文提出的
S2DLPP算法效果
在AR人脸数据集上的实验比较
第一次采集的前10幅图像用
于训练,第二次采集的前10
幅图像用于测试
S2DLPP对光照、表情及
时间变化的鲁棒性
快速!
S2DLPP在FERET数据库上的实验
200个人的1400张
人脸图像,前5张图
像用于训练,后两
张图像用于测试,
图像大小为40*40
比基于向量的稀疏学习方法
快近100倍!
监督的S2DLDP算法
S2DLDP的目标函数:
X T ( Lb I n1 ) X X T ( Lw I n1 ) X
Card ( ) K
subject to
S2DLDP
算法过程:
S2DLDP的变换矩阵特性
在Yale人脸数据集上的实验
从左到右:2DPCA“脸”、
2DLGEDA“脸”
2DLDA“脸”、
S2DLDP所学习得到的稀疏“脸” ,
K=2:2:10
2DLPP“脸”、
S2DLDP的二值“脸”,白色点代
表非0元素,黑色部分为0元素
S2DLDP的橹棒性
含光照表情的变化
S2DLDP在Yale人脸数据库上识别
率与非0元个数及维数的情况
含光照、表情
与时间的变化
在AR人脸数据库上各方法
的识别率与维数的变化情况
互相垂直的稀疏投影学习模型
max XWX T
现有的稀疏学习
模型(USSL):
s.t. XDX 1
T
T
Card ( ) K
max XWX T
s.t. T XDX T 1
Card ( ) K
互相垂直的限制!
花了我大半
年才发现它
的解!
Tj i 0 for i, j
multilinear sparse regression:MSPCA
Xi R
m1 m2 mn
Yi Xi 1 U1T 2 U 2T n U nT
(i 1, 2,..., N )
{Ui Rmi di , di mi , i 1, 2,..., n}
J (U1 ,U 2 , ,U n ) i Xi Xi 1 B U 2 B U n B U
1
1
j j U j
2
F
T
1
2
2
T
2
n
n
j h jh u hj
(U j |nj 1 )* arg min J (U1 ,U 2 , ,U n )
subject to B1T B1 I1
...
BnT Bn I n
T 2
n F
MSPCA algorithm
multilinear sparse regression on manifolds
Xi R
m1 m2 mn
Yi Xi 1 U1T 2 U 2T n U nT
(i 1, 2,..., N )
{Ui Rmi di , di mi , i 1, 2,..., n}
J (U1 ,U 2 , ,U n ) i , j ( Xi X j ) 1 B U 2 B U n B U
1
1
j j U j
2
F
T
1
2
2
T
2
n
n
T 2
n F
Wij
j h jh u hj
(U j |nj 1 )* arg min J (U1 ,U 2 , ,U n )
subject to B1T B1 I1
...
BnT Bn I n
Graph on
manifolds
Conclusions
Sparseness
might be necessary!
Sparseness can be more efficient!
Less atoms (loadings), higher accuracy!
Possible hot points in the future!
Effective
dictionary learning for
classification
Classifier (classification) based optimal
dimensionality reduction
Information theory (entropy) based
discriminant analysis (such as AIDA)
Game theory based discriminant analysis
(Multilinear) sparse projections and its
applications for biometrics and
interpretations (such as on gene)
Some suggestion on the younger
Elements: step by step, smaller to bigger
Writings: faster is more harmful! Careful
Rewritings! Details decide the success or failure!
3~4 paper per year!
Submitions: comment on it and just do it!
Paper (40%)+writings(30%)+reviewers(30%)=1
Ours visual angle decides ours height!
Thinks!