Transcript Robust PCA

Robust PCA
Principal Component Analysis (PCA)
• PCA (Pearson, 1901) 最优线性重构
N
min  xn  xˆn
W
n 1
2
 
 
 xn  W W xn  x   x
T
2
• PCA (Hotelling, 1933) 最优方差投影方向
• Probabilistic PCA (1999) 高斯隐变量模型
• Robust PCA (2009)
Why use Robust PCA?
Solve the problem with spike noise with
high magnitude instead of Gaussian
distributed noise.
Main Problem
Given
M = S0+L0,
where S0 is a sparse spike noise matrix
and L0 is a Low-rank matrix, aim at
recovering L0:
L0= UΣV’,
in which U∈Rm*k ,Σ∈Rk*k ,V∈Rn*k
Difference from PCA
In PCA,
M = N0+L0,
L0: low rank matrix ;
N0: small idd Gaussian noise matrix,
it seeks the best rank-k estimation of L
by minimizing
||M-L||2 subject to rank(L)<=k.
This problem can be solved by SVD.
Principal Component Analysis (PCA)
[E. J. Candès, Journal of ACM 58(1): 1-37]
Probabilistic PCA
已知样本矩阵X  x1
x  Wt  
x2  xd ,
可以计算协方差矩阵S,

W  Uq q   I
这里,隐变量t ~ N 0, I ,
1
 
d q
 
变量x ~ N 0, WW   I 。
2
噪声 ~ N 0,  2 I ,
T
2
2

1/ 2
R,
d

j  q 1
j
,
U q S   qU q ,
 q  diag1 ,, q ,
1  2    d 为S的本征值。

已知 x时, t服从条件正态分布,且 E t x   W W   I


1
T
X  W W W  I W X  
T
2
T
2

1
W T x。
维数约减:PCA与Probabilistic PCA
当 2 
 0时,

W  Uq q   I
2

1/ 2
R
U q 1q/ 2 R
W W   I  R  U U  R  R  R  R  R
W W W   I  W 
U  R R  R R  U   U U
T
2
T
1
2
T
1
1/ 2
q
T
q
T
q


T
2 1
ˆ
X  W W W  I W T X
q
1/ 2
q
1
1/ 2
q
1
T
1
q
T
q
T
1
q
T
1/ 2
q
T
q
q
T
q
T
ˆ
X PCA  U qU q X
PCA可以看成具有很小高斯噪声的Probabilistic PCA。
ill-posed problem (1)
设S0是稀疏的, L0是低秩的
M  S0  L0
如果L0  ei eiT , 则L0既低秩,也稀疏。因此,M可以分解为:


M  S0  ei eiT  0
要求: 低秩部分L0不能够太稀疏,其行(列)奇异矢量
所张成的空间 与标准基必须incoherent。
ill-posed problem (2)
设S0是稀疏的, L0是低秩的
M  S0  L0
如果S0在稀疏的同时,也是低秩的,例如:S0仅第一
列非零,因此M也可以分解为:
M  0  S0  L0 
要求: 稀疏部分S0不能够太低秩,例如假定其行
(列)不具有太多的零元素。
Conditions for exact recovery/decomposition
设L0   n1n2的奇异值分解式为
r
L0  UV T    i ui viT .
i 1
L0需要满足Incoherence条件:
2
r

T
U ei 
,
max
i
n1


 UV T  r


n1n2
其中为很小的参数。
T
max V ei
i
2

r
n2
比较: random
orthogonal
model?
S0需要满足random sparsity model,其非零值的位置是随
机的。
低秩矩阵恢复问题
min Rank ( L)   S
M L S
0
非凸,NP难
min L *   S
M L S
1
核范数是秩函数的凸包
1范数是0范数的凸包
RPCA算法
罚函数法 Penalty Method
min f  X ,
s.t. hi  X   0
(i  1,, K ) .
K
L X ,    f  X     hi  X 
i 1
2
罚函数法 Penalty Method
K
min L X ,    f  X     hi  X 
i 1
2
拉格郎日乘子法
Langrange Multiplier
min f  X ,
s.t. hi  X   0
(i  1,, K ) .
K
L X , 1 ,, K   f  X    i hi  X 
i 1
增强拉格郎日乘子法
Augmented Langrange Multiplier
min f  X ,
s.t. hi  X   0
(i  1,, K ) .
L  X , Y ,    f  X   Y , h X  

2
h X  F
2
ALM算法
Alternating Direction Method of Multipliers
ADMM (an variant of ALM)
min f ( x )  g ( x )
x
min f ( x)  g ( y )
x, y
s.t. x  y
It can be solved approximately by first solving for x with y fixed, and then solving for
y with x fixed. Rather than iterate until convergence, the algorithm proceeds directly
to updating the dual variable and then repeating the process.
固定x,求解y(不必收敛);再固定y,求解x(不必收敛) ;迭代,直到收敛。
大数据
分成N块
RPCA的ALM方法
min A *   E 1
D  A E
L A, E , Y ,    A *   E 1  Y , D  A  E 
固定A,求解E?
固定E,求解A?

2
D  A E
2
F
RPCA via the exact ALM method
RPCA via the inexact ALM method
核范数与L1范数优化问题
L1范数优化
f x    x 
1
x  w2
2
当x  0时,
递增且过0点
f  x      x  w  
 0
'
w  0
w  0
当x  0时,
递增且过0点
f '  x      x  w  
 0
所以,极值点为:
w   ,

S  w    w   ,
0,

若w    0,
若w    0,
其它.
w  0
w  0
核范数优化
r
W  USV T    i ui viT ,
i 1
S  diag 1 ,  2 ,,  r  ,
 1   2     r  0,
S S   diag 1    ,  2    ,,  r    
US S V T 
T





u
v
 i
i i
 i   0
秩优化
1
min Rank  X   X  W
X
2
r
W  USV    i ui viT ,
T
i 1
 1   2     r  0,
秩为k的最佳逼近为
k
PCA
X k    i ui viT ,
i 1
且
X k W
2
F

r
2

 i.
i  k 1
2
F