3. 分类 - 高级

Download Report

Transcript 3. 分类 - 高级

Advanced Topics on
Classification
Quan Zou (邹 权)
(Ph.D.& Assistant Professor)
Outline
 Imbalance Binary Classification
 Multi Class, Multi Label Classification
 Multi Instance Classification
 Semi-supervised and Transductive Classification
 Ensemble Learning
 Others
2016/7/12
http://datamining.xmu.edu.cn
2/38
Imbalance binary classification
Application:
Credit Card Cheat
Spam Identification
Finding Oil
Bioinformatics
2016/7/12
http://datamining.xmu.edu.cn
3/38
Imbalance binary classification
 Strategy of sampling
 Over-sampling
 Under-sampling
 Random-sampling
 Special-sampling (SMOTE)
 Strategy of cost
 Equal to above
 One-class leaning
2016/7/12
http://datamining.xmu.edu.cn
4/38
Multi Class, Multi Label
 Multi Class
 One vs One (time consuming)
 One vs All (imbalance)
 Tree
 Multi Label
 JRS (http://tunedit.org/challenge/JRS12Contest)
 Text, Image Classification
 KNN
 meka, mulan
2016/7/12
http://datamining.xmu.edu.cn
5/38
mulan
2016/7/12
http://datamining.xmu.edu.cn
6/38
2016/7/12
http://datamining.xmu.edu.cn
7/38
meka
2016/7/12
http://datamining.xmu.edu.cn
8/38
Multi Instance Classification
Drug Design, Image Understanding
Package, Instance
DD
2016/7/12
http://datamining.xmu.edu.cn
9/38
2016/7/12
http://datamining.xmu.edu.cn
10/38
多示例学习的提出
Dietterich等人对药物活性预测问题进行了研究。其目的
是让学习系统通过对已知适于或不适于制药的分子进行分
析,以尽可能正确地预测某种新的分子是否适合制造药物
。
他们把药物分子抽象为包(Bag)的概念,分子的众多不同结
构被抽象成包中的示例(Instance)。在多示例学习模型中,
已知其活性的药物分子被赋予一个标签,但是包中的示例是
没有标签的。
噪音!
2016/7/12
http://datamining.xmu.edu.cn
11/38
格式
不同于传统的监督学习,在多示例学习中,假设训练数据集中的每个数
据是一个包(Bag),每个包都是示例(instances)的集合,每个包都
有一个训练标记,而包中的示例没有标记
传统学习数据格式
多示例学习数据格式
2016/7/12
http://datamining.xmu.edu.cn
12/38
格式
正例
如果包被赋予正标记,例如对药物分子的活性预测问题,则包中至
少存在一个正标记的示例,即这个分子有适合制药的结构
反例
对于一个有负标记的包,其中所有的示例均为负标记,即这个分子
中没有一个结构适合制药
2016/7/12
http://datamining.xmu.edu.cn
13/38
格式注意
需要注意的是:
 必须要有@attribute molecule_name {1,2,3,4,5,6}作为
bag_id,尽管没用,里面的数字序列必须与包的个数相同
 @attribute bag relational与@end bag对应一个包的定义,里面
是示例属性(如一个分子的可能结构)
 @attribute class {-1,1},其中后一个被当成正例处理
 @data下面是特征序列,整个一条序列是一个包,每个包有一个序
号
 多示例学习可以通过把每一个样本看成包,按某种方式把每一个包划
分成多个示例,每个包中的示例的数量可以相等也可以不等,再分别
2016/7/12
http://datamining.xmu.edu.cn
对每个示例学习,有效地滤除掉引起噪声的正包中的反例。
14/38
多样性密度算法
属性空间中某个点的多样性密度的定义为有多少个不同的正包有距离
该点足够近的示例,同时来自反包的示例远离该点的程度的度量。该
点附近来自正包的示例越多,来自负包的示例越远,则该点的多样性
密度越大,则目标概念是空间中多样性密度最大点。
2016/7/12
http://datamining.xmu.edu.cn
15/38
多样性密度算法
假设只有一个模型(示例)是目标点
2016/7/12
http://datamining.xmu.edu.cn
16/38
多样性密度算法
2016/7/12
http://datamining.xmu.edu.cn
17/38
Semi-supervised and
Transductive Classification
 Semi-supervised Classification
 Unlabeled samples are important
 Co-training and Tri-training
2016/7/12
http://datamining.xmu.edu.cn
18/38
Unlabeled samples are
important
+
+
+
-
+
+
-
2016/7/12
http://datamining.xmu.edu.cn
19/38
Transductive Classification
2016/7/12
http://datamining.xmu.edu.cn
20/38
Co-training
CO-training
Unlabeled
Unlabeled
New Labeled
New Labeled
Labeled data
Labeled data
2016/7/12
http://datamining.xmu.edu.cn
21/38
Tri-training
Tri-training(Z.H. Zhou& M. Li,
TKDE05)
Learner1&Learner2
给出相同标记
New Labeled
Joint
classifier
Learner1
Learner2
AllViews
AllViews
2016/7/12
Learner3
AllView
s
http://datamining.xmu.edu.cn
22/38
Active Learning
 采样策略
 基于概率
 基于投票
 基于分布
 基于聚类
2016/7/12
http://datamining.xmu.edu.cn
23/38
Ensemble learning: Make weak classifiers to strong one
h1( )
Classification
Result
Weight for each
weak classifier
i , i  1,2,..,7
h2()
h3( )
2
h4( )
3 4
1
h5( )
5
h6()
6
h7()
7
Combine to form the
Final strong classifier
 T

H(x)  sign   αt ht(x)
 t 1

2016/7/12
http://datamining.xmu.edu.cn
24/38
Ensemble learning
Bagging
2016/7/12
http://datamining.xmu.edu.cn
25/38
Ensemble learning
Boosting
2016/7/12
http://datamining.xmu.edu.cn
26/38
Boosting illustration
Weak
Classifier 1
2016/7/12
http://datamining.xmu.edu.cn
27/38
Boosting illustration
Weights
Increased
2016/7/12
http://datamining.xmu.edu.cn
28/38
Boosting illustration
Weak
Classifier 2
2016/7/12
http://datamining.xmu.edu.cn
29/38
Boosting illustration
Weights
Increased
2016/7/12
http://datamining.xmu.edu.cn
30/38
Boosting illustration
Weak
Classifier 3
2016/7/12
http://datamining.xmu.edu.cn
31/38
Boosting illustration
Final classifier is
a combination of weak
classifiers
2016/7/12
http://datamining.xmu.edu.cn
32/38
Ensemble learning
Random Forest
2016/7/12
http://datamining.xmu.edu.cn
33/38
Ensemble learning for Class
Imbalance Problem
- - ++ ++
- -+ + + - + - - - - -- - --- - - - - 随机分割反例集
错分样本(红色)加入到下两个训练集中
- - ++ ++
+++
- +
-
- -
-
-++ ++
-+ + +
+
-
-
-
-
-
2016/7/12
- -++ ++
-+ + +
- - +
-
-
-
-
-
···
++ ++
+++
+
-- -
http://datamining.xmu.edu.cn
--
34/38
classifier
1
2
X
X
3
4
5
6
7
√ X √ √ √
√(4)>X(3)
X 1
√
5√
X 2
3
X 4
6
7
√ √
2016/7/12
http://datamining.xmu.edu.cn
35/38
 Strategy
 First, the negative set is divided randomly into several subsets equally.
Every subset together with the positive set is a class balance training set.
 Then several different classifiers are selected and trained with these
balance training sets. They will vote for the last prediction when facing
new samples.
 The samples will be added to the next two classifiers’ training sets if
they are misclassified.
 Reference
 邹权, 郭茂祖, 刘扬, 王峻. 类别不平衡的分类方法及在生物信息学中的应
用. 计算机研究与发展. 2010,47(8):1407-1414
 X.-Y. Liu, J. Wu, and Z.-H. Zhou. Exploratory undersampling for classimbalance learning. IEEE Transactions on Systems, Man, and
Cybernetics - Part B: Cybernetics, 2009, 39(2): 539-550
2016/7/12
http://datamining.xmu.edu.cn
36/38
Others
 Active learning
 Lazy learning
 Parallel learning (mahout)
 Optimization
 Features Selection (GA)
 Parameters Tune (Grid, PSO)
2016/7/12
http://datamining.xmu.edu.cn
37/38
Email: [email protected]
2016/7/12
http://datamining.xmu.edu.cn
38/38
作业
多样性密度算法是解决哪一种分类问题所用的
方法?其主要思想是什么?
直推式分类和半监督分类的主要区别?
请列举3种集成分类策略。
如何将多类分类问题转化为二类分类问题?
2016/7/12
http://datamining.xmu.edu.cn
39/38