CCML_ä¸ å¹³è¡¡åˆ†ç±»
Download
Report
Transcript CCML_ä¸ å¹³è¡¡åˆ†ç±»
集成降采样不平衡数据分类方法研究
厦门大学硕士学位论文答辩
邹 权 博士、助理教授
厦门大学
计算机系
2015/4/29
1
课题背景及意义
不平衡数据分类
金融欺诈检测
医疗诊断
网络入侵检测
反垃圾邮件
石油勘探等领域
http://datamining.xmu.edu.cn
2
2015/4/29
研究内容
相关研究
提出改进算法
在生物信息学上应用
http://datamining.xmu.edu.cn
3
2015/4/29
相关研究
影响因素(数据方面)
数据稀缺
– 绝对稀缺
– 相对稀缺
噪声数据
数据复杂性
对策
重构数据集
– 大样本降采样
– 小样本过采样
分类降采样
暂无
– 类内不平衡
– 类重叠
http://datamining.xmu.edu.cn
4
2015/4/29
现有改进的算法
基于分类器集成
AdaBoost算法
Bagging算法
代价敏感学习
单类学习
不同算法思想的集成
代价敏感神经网络与分类器集成相结合
http://datamining.xmu.edu.cn
5
2015/4/29
改进的算法
基于采样的改进算法
基于集成分类器的改进算法
http://datamining.xmu.edu.cn
6
2015/4/29
实验数据
序号
数据集
1
haberman
306
81
225
1:2.8
3
2
ionosphere
351
126
225
1:1.8
34
625
49
576
1:11.8
4
3
样本大小 小样本数 大样本数 不平衡度 特征维数
balancescale
4
german
1000
300
700
1:2.3
24
5
cmc
1473
333
1140
1:3.4
9
6
dna
3308
973
2335
1:2.4
20
7
bank
4521
521
4000
1:7.7
16
http://datamining.xmu.edu.cn
7
2015/4/29
基于采样的改进算法
基于降采样
数据集
无处理
随机降采样
0.600
0.640
聚类方法
haberman
ionosphere
balance-scale
german
K-means
MDBC
EM
FF
0.630
0.634
0.594
0.591
0.962
0.975
0.643
0.671
0.733
0.740
0.974
0.962
0.961
0.968
–K-means
–MakeDensityBasedClusterer
0.396
0.635
0.634
0.622
–EM(基于模型)
0.760
0.758
0.738
0.721
–FarthestFirst(分层聚类)
0.666
0.697
采样方法
0.691
0.684
0.690
0.700
dna
0.616
0.608
0.622
0.610
0.619
0.599
bank
0.860
0.865
0.845
0.842
0.750
0.825
cmc
http://datamining.xmu.edu.cn
8
2015/4/29
基于采样的改进算法
基于过采样
SMOTE算法
小样本加权重随机抽样算法
http://datamining.xmu.edu.cn
9
2015/4/29
基于集成分类器的改进算法
基于单个基分类器
对样本进行处理,基分类器为同一个分类算法
SCNC(Single Classifier, N Cluster)算法
SCLL(Single Classifier, Layered Large data)算法
SCLS(Single Classifier, Layered and Smote)算法
SCNW(Single Classifier, N Weighted)算法
http://datamining.xmu.edu.cn
10
2015/4/29
http://datamining.xmu.edu.cn
11
2015/4/29
基于集成分类器的改进算法
基于多个基分类器
训练基分类器的样本相同,基分类器的算法不同
MCUD(Multi Classifier,Under-sampling Data)算
法
MCOD(Multi Classifier,Over-sampling Data)算法
训练基分类器的样本不同,基分类器的算法不同
MCNC(Multi Classifier,N Cluster)算法
MCLL(Multi Classifier,Layered Large data)算法
MCLS(Multi Classifier,Layered and Smote)算法
MCNW(Multi Classifier,N Weighted)算法
http://datamining.xmu.edu.cn
12
2015/4/29
实验结果
http://datamining.xmu.edu.cn
13
2015/4/29
总结改进的算法
基于集成的改进的算法优于单纯使用数
据重构
以Bagging为基分类器的基于单个基分
类器的集成算法分类性能较佳
SCNW算法分类性能最佳,适应于不平衡度小于
1:10左右的训练集分类
SCNC算法不受训练集的不平衡度大小的影响,比
较适合训练集大小较小的情况
SDLL算法和SDLS算法适应于训练集不平衡度比较
高且训练集大小比较大的情况
http://datamining.xmu.edu.cn
14
2015/4/29
在生物信息学的应用
SNP位点
数据集
样本大小
小样本数
大样本数
不平衡度
特征维数
SNP位点
3260
195
3065
1:15.7
25
http://datamining.xmu.edu.cn
15
2015/4/29
在生物信息学的应用
microRNA前体
数据集
样本大小
小样本数
大样本数
不平衡度
特征维数
microRNA
8687
193
8494
1:44.0
32
http://datamining.xmu.edu.cn
16
2015/4/29
在生物信息学的应用
细胞因子
数据集
样本大小
小样本数
大样本数
不平衡度
特征维数
细胞因子
10714
126
10588
1:84.0
188
http://datamining.xmu.edu.cn
17
2015/4/29
总结与展望
总结
基于采样和基于集成分类器分别提出了改进的算法
实验证明了基于集成的改进的算法优于单纯使用数
据重构
改进的算法在生物信息学的应用
展望
相关理论研究
多类标签的不平衡数据分类问题研究
http://datamining.xmu.edu.cn
18
2015/4/29
THANK YOU!
厦门大学硕士学位论文答辩
19
2015/4/29