面向多模态数据的有监督张量学习理论与方法研究及其

Download Report

Transcript 面向多模态数据的有监督张量学习理论与方法研究及其

面向多模态数据的有监督张量学习理论与
方法研究及其应用
目录
1
研究主题
2
科研成果
3
论文举例
4
研究结论
研究主题
 张量学习
 多视角学习
大规模学习
张量数据
多视角数据
成果清单
1
DuSK: A Dual Structure-preserving Kernel for Supervised Tensor Learning with Applications to
Neuroimages, SDM, 2014, 第一作者.
2
Low-Density Cut based Tree Decomposition for Large-Scale SVM Problems, ICDM, 2014, 第一作者.
3
Tensor-based Multi-view Feature Selection with Applications to Brain Diseases, ICDM, 2014,第二作者兼通
讯作者.
4
Nonlinear Support Tensor Machine for Supervised Tensor Learning, submitted to Knowledge and
Information Systems, 2014, 第一作者.
5
A Low-rank Approximation based Transductive Support Tensor Machine for Semi-supervised Classification,
IEEE Transactions on Image Processing, 2014, in revised, 第三作者.
6
A GA-based Feature Selection and Parameter Optimization for Linear Support Higher-Order Tensor Machine,
Neurocomputing, 2014, 第三作者.
7
A Robust Least Squares Support Vector Machine for Regression and Classification with Outliers or Noises,
Neurocomputing, 2014, 第三作者.
8
A bilateral-truncated-loss based robust support vector machine for classification problems, Soft Computing,
2014, 第四作者.
成果清单
1
An Adaptive Class Pairwise Dimensionality Reduction Algorithm, Neural Computing and Applications,
2013, 第一作者兼通讯作者.
2
A Linear Support Higher-Order Tensor Machine for Classification Problems, IEEE Transactions on Image
Processing, 2013, 第二作者.
3
The One-against-All Partition Based Binary Tree Support Vector Machine Algorithms for Multi-class
Classification, Neurocomputing, 2013, 第三作者.
4
基于多线性主成分分析的支持高阶张量机, 南京大学学报(自然科学版), 2013, 第二作者.
5
A Hierarchical Clustering and Fixed-Layer Local Learning Based Support Vector Machine Algorithm for
Large Scale Classification Problems, Journal of Donghua University, 2012, 第五作者.
6
Hierarchical Clustering and Local Graph Transduction for Large Scale Semi-supervised Classification,
Journal of Computer Information Systems, 2012, 第六作者.
支持向量机
支持向量机的原始模型
1
minJ(W , b, ξ )  W
W ,b ,ξ
2
s.t.
2
F
l
1 l
max   i    i j yi y j Xi , X j 
α
2 i , j 1
i 1
l
 C  i
yi   W , Xi   b   1  i
i  0, i  1,
支持向量机的对偶模型
i 1
l
Lagrange松弛法
 ( y )  0
s.t.
, l.
i 1
i
i
0   i  C , i  1,
核支持向量机模型
l
1 l
max   i    i j yi y j K (Xi , X j )
α
2 i , j 1
i 1
其中,
K (Xi , X j )  (Xi ), (X j )
原始空间
特征空间
l
s.t.
 ( y )  0
i 1
i
i
0   i  C , i  1,
, l.
, l.
核映射示意图
论文1--SHTM
《 A Linear Support Higher-Order Tensor Machine for Classification Problems 》
 理论创新
统计学习理论
支持向量机
 关键问题----内积计算
 线性模型
X ,Y
 非线性模型 K (X ,Y )   (X ),  (Y )
多线性代数
支持张量机
接上页--SHTM
 针对线性问题
分解方法
分解公式
内积计算
R
 Xi , X j     x
R
Xi   x
CP
分解
r 1
(1)
ir
x
(2)
ir
x
(N )
ir
r 1
R
x
(2)
ir
x
(N )
ir
,  x (1)
x (2)
jr
jr
(1)
jr
x
(2)
jr
p 1 q 1
x
(N)
jr
R
R
 xip( N ) , x (jqN ) 
N
   xip( n ) , x (jqn ) 
r1
x (jrN ) 
r 1
R
(2)
(2)
   xip(1) , x (1)
jq  x ip , x jq 
R
Xj  x
R
(1)
ir
更精简直观
p 1 q 1 n 1
计算复杂度低
R1
Tucker
分解
R2
Xi  
RN
g
r1 1 r2 1
rN 1
R1 R2
RN
r1r2 rN
xir(1)1 xir(2)2
xir( NN )
R1
Xi , X j    
R1
X j  
r1 1 r2 1
h
rN 1
r1r2 rN
x
(1)
jr1
x
(2)
jr2
x
(N)
jrN

p1 1
RN
RN
 gr1r2
r1 1
rN 1
R1
RN
R1
r1 1
N
  g
p N 1 q1 1
xir( NN ) ,
(1)
rN x ir1
q N 1 n 1
p1 p2
pN
hq1q2
qN
RN
h
rN 1
 xip( nn) , x (jqn n) 
r1r2
rN
x (1)
jr1
x (jrNN) 
接上页--SHTM
应用于人脸识别和步态识别
数据来源库
Yale-B
ORL
CMU PIE
USF
HumanID
数据集
样本数
类别数
维度
Yale32x32
165
15
32x32
Yale64x64
165
15
64x64
ORL32x32
400
40
32x32
ORL64x64
400
40
64x64
C05
3332
68
64x64
C07
1629
68
64x64
C09
1632
68
64x64
C27
3329
68
64x64
C29
1632
68
64x64
USFGait17_32x22x10
731
71
32x22x10
USFGait17_64x44x20
731
71
64x44x20
USFGait17_128x88x20
731
71
128x88x20
数据样例
接上页--SHTM
实验结果
学习算法
数据集
测试精度
训练时间
学习算法
数据集
测试精度
训练时间
Yale32x32
77.33
74.00
0.642
1.383
SVM
STM
C09
97.40
96.23
584.664
655.519
SHTM
79.00
0.078
SHTM
97.45
49.128
SVM
84.33
1.708
SVM
96.69
348.773
82.33
6.466
STM
95.10
653.308
SHTM
85.33
0.544
SHTM
96.72
68.924
SVM
97.75
5.311
SVM
96.62
298.991
97.00
7.314
STM
94.75
631.321
SHTM
98.00
0.413
SHTM
96.64
90.223
SVM
97.75
17.997
SVM
76.39
265.730
96.50
34.299
STM
78.79
834.333
SHTM
98.50
3.208
SHTM
79.60
19.294
SVM
98.59
2398.530
SVM
77.53
2896.670
98.06
3129.298
STM
--
--
SHTM
98.76
203.475
SHTM
81.55
28.980
SVM
96.47
324.912
SVM
77.53
8940.456
95.44
648.103
STM
--
--
96.74
34.158
SHTM
82.60
55.298
SVM
STM
STM
STM
STM
STM
STM
SHTM
Yale64x64
ORL32x32
ORL64x64
C05
C07
C27
C29
USFGait17_
32x22x10
USFGait17_
64x44x20
USFGait17_
128x88x20
论文2--DuSK
《 DuSK: A Dual Structure-preserving Kernel for Supervised Tensor Learning with
Applications to Neuroimages》
 非线性核函数
 应用于fMRI影像脑部疾病诊断
接上页--DuSK
 基于向量的核函数方法
丢失了结构信息
遭受维度灾难
• 精度下降
• 耗时
接上页--DuSK
 基于矩阵的核函数方法
只保持了部分结构信息
遭受维度灾难
• 精度下降
• 耗时
接上页--DuSK
 我们的关键创新是充分利用多模态信息和核函数方法解决非线性问题,即:

+
+
+
+
+
+
-
+
-
+
+
-
-
+
-
-
接上页--DuSK
CP分解
结构保距映射
对偶空间的CP分解
接上页--DuSK
 对偶结构保距核函数—DuSK
R
R
N
K  X , Y    K (xi( n ) , y (jn ) )
i 1 j 1 n 1
Input space
Feature space
factorization
inner
product
factorization
生成过程示意图
kernel
function
接上页--DuSK
 fMRI影像脑部诊断的应用
数据集
样本数
类别数
维度
ADNI
33
2
61x73 x61
ADHD
200
2
58x49 x47
HIV
83
2
61x73 x61
13 10 7
542
13 10 7
5421
13 10 7
5421
1-模态
13 10 7
5421
2-模态
fMRI数据的三阶张量图解
fMRI数据的可视化
接上页--DuSK
 实验结果
与不同核函数的测试精度比较
数据集
平均测试精度(%):均值±标准方差
DuSKRBF
RBF
Factor
K3rd
ADNI
0.75±0.18
0.49±0.23
0.51±0.21
0.55±0.14
ADHD
0.65±0.01
0.58±0.00
0.50±0.00
0.55±0.00
HIV
0.74±0.00
0.70±0.00
0.70±0.01
0.75±0.02
与不同核函数的训练(测试)时间比较
数据集
平均学习时间(s):训练(测试)
DuSKRBF
RBF
Factor
K3rd
ADNI
0.10(0.05)
2.22(1.09)
58.44(28.21)
25.18(12.15)
ADHD
2.20(1.09)
57.16(27.61)
1054.66(519.71)
635.19(315.23)
HIV
0.45(0.22)
16.12(7.81)
226.32(113.07)
190.21(94.32)
研究内容2-非线性问题实验分析
 实验结果
与线性和降维方法的测试精度比较
数据集
平均测试精度(%):均值±标准方差
DuSKRBF
SHTM
SVMlinear
PCA+SVMRBF
MPCA+SVMRBF
ADNI
0.75±0.18
0.52±0.31
0.42±0.27
0.50±0.02
0.51±0.02
ADHD
0.65±0.01
0.51±0.03
0.51±0.01
0.63±0.01
0.64±0.01
HIV
0.74±0.00
0.70±0.01
0.74±0.01
0.73±0.25
0.72±0.02
原始fMRI数据可视化
CP分解后的重构结果
论文3--Dual-TMFS
《Tensor-based Multi-view Feature Selection with Applications to Brain Diseases》
 张量学习与多视角学习的结合
 基于张量的多视角特征选择算法
 HIV疾病诊断的应用
接上页--Dual-TMFS
 基于向量的多视角特征选择方法
数学建模
特征选择
多视角数据
忽略了多视角特征之间
的相关性
信息损失
• 精度下降
接上页--Dual-TMFS
 基于张量的多视角特征选择方法
数据建模
特征选择
多视角数据
忽略了原始多视角特征的冗
余性和不相关性
遭受冗余信息和噪声干扰
• 精度下降
接上页--Dual-TMFS
 我们的核心思想是既考虑多视角特征之间的相关性,又兼顾其各自的特性,即:
数据建模
多视角数据
特征选择
,
接上页--Dual-TMFS
 具体过程
多视角意义下的支持张量机模型
1
minJ(W , b, ξ )  W
W ,b ,ξ
2
2
F
l
 C  i
基于张量的有监督多视角特征选择算法
arg min(ri1 ,,im )
i1 , ,im
i 1
m


s.t. yi   W ,  xi( v )   b   1  i
v 1


i  0, i  1, , l.
arg min (riv( v ) )
iv
ri1 ,,im  (wi1 ,,im )2
ri (v) = å
v
i1
(1)
åå å(w
i1 , ,i m
i v-1 i v+1
)2
(2)
im
(v)
m
f (X )  sign(W ,  x( v )   b)
v 1
原始输入空间的特征 xiv 通过张量积操作
将会扩散到 X:,,:,iv ,:,,: 。故 x( v ) 对分类决策
iv
)
函数值 f (X的贡献转换为了
f (X )
的贡献。
X:,,:,对
iv ,:,,:
,
接上页--Dual-TMFS
 小样本情况下的有监督多视角特征选择算法—需要令 W  v1 w(v )
m
支持张量机模型
1 m
(v)
min
w

w ( v ) |vm1 ,b ,ξ 2
v 1
l
 C  i
2
F
i 1
m
s.t.
基于张量的有监督多视角特征选择算法
yi (  w ( v ) , xi( v )   b)  1  i
v 1
iv
ri (v) = å
v
i1
i  0, i  1,
, l.
=å
i1
åå å (w
i1 , ,i m
i v-1 i v+1
(1)
i1
i v-1 i v+1
v 1
m
 sign( W ,  x ( v )   b)
v 1
= (w )
(v) 2
iv
im
j ¹v
Õ
1£ j£m
= P(-v) (wi(v) )2
v
)2
im
åå å(w
m
f (X )  sign(  w ( v ) , x ( v )  )
riv(v )  (wi(vv ) )2
arg min (riv( v ) )
( j)
2
w
F
wi(m) )2
m
,
接上页--Dual-TMFS
 非线性推广
支持张量机对偶模型
基于张量的有监督多视角特征选择算法
min α ( v )T Hα ( v )  α ( v ) T 1
α
s.t.
l
 yi
i 1
(v)
i
 0,
0   i( v )  C , i  1,
其中, H pq
arg min (riv( v ) )
iv
, l.
 y p yq K (x(pv ) , x(qv ) )
riv(v )  (α(v)T Hα(v)  α(v)T H (iv )α(v) )
其中,H ( iv )
 y p yq K (x(pv ) (iv ), x(qv ) ( iv ))
接上页--Dual-TMFS
 实验结果
 实验结果
论文4--LCD-SVM
《 Low-Density Cut based Tree Decomposition for Large-Scale SVM Problems》
 提出了一种基于低密度分割的决策树分枝准则
 分析了决策树与SVM的相辅相成性
接上页--LCD-SVM
 实验数据
接上页--LCD-SVM
 实验结果
研究结论
在路上, 只为那些伴着的人!