CCML_ä¸ å¹³è¡¡åˆ†ç±»

Download Report

Transcript CCML_ä¸ å¹³è¡¡åˆ†ç±»

集成降采样不平衡数据分类方法研究
厦门大学硕士学位论文答辩
邹 权 博士、助理教授
厦门大学
计算机系
2015/4/29
1
课题背景及意义
不平衡数据分类





金融欺诈检测
医疗诊断
网络入侵检测
反垃圾邮件
石油勘探等领域
http://datamining.xmu.edu.cn
2
2015/4/29
研究内容
相关研究
提出改进算法
在生物信息学上应用
http://datamining.xmu.edu.cn
3
2015/4/29
相关研究
影响因素(数据方面)
数据稀缺
– 绝对稀缺
– 相对稀缺
噪声数据
数据复杂性
对策
重构数据集
– 大样本降采样
– 小样本过采样
分类降采样
暂无
– 类内不平衡
– 类重叠
http://datamining.xmu.edu.cn
4
2015/4/29
现有改进的算法
基于分类器集成
AdaBoost算法
Bagging算法
代价敏感学习
单类学习
不同算法思想的集成
代价敏感神经网络与分类器集成相结合
http://datamining.xmu.edu.cn
5
2015/4/29
改进的算法
 基于采样的改进算法
 基于集成分类器的改进算法
http://datamining.xmu.edu.cn
6
2015/4/29
实验数据
序号
数据集
1
haberman
306
81
225
1:2.8
3
2
ionosphere
351
126
225
1:1.8
34
625
49
576
1:11.8
4
3
样本大小 小样本数 大样本数 不平衡度 特征维数
balancescale
4
german
1000
300
700
1:2.3
24
5
cmc
1473
333
1140
1:3.4
9
6
dna
3308
973
2335
1:2.4
20
7
bank
4521
521
4000
1:7.7
16
http://datamining.xmu.edu.cn
7
2015/4/29
基于采样的改进算法
 基于降采样
数据集
无处理
随机降采样
0.600
0.640
聚类方法
haberman
ionosphere
balance-scale
german
K-means
MDBC
EM
FF
0.630
0.634
0.594
0.591
0.962
0.975
0.643
0.671
0.733
0.740
0.974
0.962
0.961
0.968
–K-means
–MakeDensityBasedClusterer
0.396
0.635
0.634
0.622
–EM(基于模型)
0.760
0.758
0.738
0.721
–FarthestFirst(分层聚类)
0.666
0.697
 采样方法
0.691
0.684
0.690
0.700
dna
0.616
0.608
0.622
0.610
0.619
0.599
bank
0.860
0.865
0.845
0.842
0.750
0.825
cmc
http://datamining.xmu.edu.cn
8
2015/4/29
基于采样的改进算法
基于过采样
SMOTE算法
小样本加权重随机抽样算法
http://datamining.xmu.edu.cn
9
2015/4/29
基于集成分类器的改进算法
基于单个基分类器
对样本进行处理,基分类器为同一个分类算法
 SCNC(Single Classifier, N Cluster)算法
 SCLL(Single Classifier, Layered Large data)算法
 SCLS(Single Classifier, Layered and Smote)算法
 SCNW(Single Classifier, N Weighted)算法
http://datamining.xmu.edu.cn
10
2015/4/29
http://datamining.xmu.edu.cn
11
2015/4/29
基于集成分类器的改进算法
基于多个基分类器
训练基分类器的样本相同,基分类器的算法不同
 MCUD(Multi Classifier,Under-sampling Data)算
法
 MCOD(Multi Classifier,Over-sampling Data)算法
训练基分类器的样本不同,基分类器的算法不同
 MCNC(Multi Classifier,N Cluster)算法
 MCLL(Multi Classifier,Layered Large data)算法
 MCLS(Multi Classifier,Layered and Smote)算法
 MCNW(Multi Classifier,N Weighted)算法
http://datamining.xmu.edu.cn
12
2015/4/29
实验结果
http://datamining.xmu.edu.cn
13
2015/4/29
总结改进的算法
基于集成的改进的算法优于单纯使用数
据重构
以Bagging为基分类器的基于单个基分
类器的集成算法分类性能较佳
SCNW算法分类性能最佳,适应于不平衡度小于
1:10左右的训练集分类
SCNC算法不受训练集的不平衡度大小的影响,比
较适合训练集大小较小的情况
SDLL算法和SDLS算法适应于训练集不平衡度比较
高且训练集大小比较大的情况
http://datamining.xmu.edu.cn
14
2015/4/29
在生物信息学的应用
SNP位点
数据集
样本大小
小样本数
大样本数
不平衡度
特征维数
SNP位点
3260
195
3065
1:15.7
25
http://datamining.xmu.edu.cn
15
2015/4/29
在生物信息学的应用
microRNA前体
数据集
样本大小
小样本数
大样本数
不平衡度
特征维数
microRNA
8687
193
8494
1:44.0
32
http://datamining.xmu.edu.cn
16
2015/4/29
在生物信息学的应用
细胞因子
数据集
样本大小
小样本数
大样本数
不平衡度
特征维数
细胞因子
10714
126
10588
1:84.0
188
http://datamining.xmu.edu.cn
17
2015/4/29
总结与展望
总结
基于采样和基于集成分类器分别提出了改进的算法
实验证明了基于集成的改进的算法优于单纯使用数
据重构
改进的算法在生物信息学的应用
展望
相关理论研究
多类标签的不平衡数据分类问题研究
http://datamining.xmu.edu.cn
18
2015/4/29
THANK YOU!
厦门大学硕士学位论文答辩
19
2015/4/29