Transcript 3. 分类 - 高级
Advanced Topics on
Classification
Quan Zou (邹 权)
(Ph.D.& Assistant Professor)
Outline
Imbalance Binary Classification
Multi Class, Multi Label Classification
Multi Instance Classification
Semi-supervised and Transductive Classification
Ensemble Learning
Others
2016/7/12
http://datamining.xmu.edu.cn
2/38
Imbalance binary classification
Application:
Credit Card Cheat
Spam Identification
Finding Oil
Bioinformatics
2016/7/12
http://datamining.xmu.edu.cn
3/38
Imbalance binary classification
Strategy of sampling
Over-sampling
Under-sampling
Random-sampling
Special-sampling (SMOTE)
Strategy of cost
Equal to above
One-class leaning
2016/7/12
http://datamining.xmu.edu.cn
4/38
Multi Class, Multi Label
Multi Class
One vs One (time consuming)
One vs All (imbalance)
Tree
Multi Label
JRS (http://tunedit.org/challenge/JRS12Contest)
Text, Image Classification
KNN
meka, mulan
2016/7/12
http://datamining.xmu.edu.cn
5/38
mulan
2016/7/12
http://datamining.xmu.edu.cn
6/38
2016/7/12
http://datamining.xmu.edu.cn
7/38
meka
2016/7/12
http://datamining.xmu.edu.cn
8/38
Multi Instance Classification
Drug Design, Image Understanding
Package, Instance
DD
2016/7/12
http://datamining.xmu.edu.cn
9/38
2016/7/12
http://datamining.xmu.edu.cn
10/38
多示例学习的提出
Dietterich等人对药物活性预测问题进行了研究。其目的
是让学习系统通过对已知适于或不适于制药的分子进行分
析,以尽可能正确地预测某种新的分子是否适合制造药物
。
他们把药物分子抽象为包(Bag)的概念,分子的众多不同结
构被抽象成包中的示例(Instance)。在多示例学习模型中,
已知其活性的药物分子被赋予一个标签,但是包中的示例是
没有标签的。
噪音!
2016/7/12
http://datamining.xmu.edu.cn
11/38
格式
不同于传统的监督学习,在多示例学习中,假设训练数据集中的每个数
据是一个包(Bag),每个包都是示例(instances)的集合,每个包都
有一个训练标记,而包中的示例没有标记
传统学习数据格式
多示例学习数据格式
2016/7/12
http://datamining.xmu.edu.cn
12/38
格式
正例
如果包被赋予正标记,例如对药物分子的活性预测问题,则包中至
少存在一个正标记的示例,即这个分子有适合制药的结构
反例
对于一个有负标记的包,其中所有的示例均为负标记,即这个分子
中没有一个结构适合制药
2016/7/12
http://datamining.xmu.edu.cn
13/38
格式注意
需要注意的是:
必须要有@attribute molecule_name {1,2,3,4,5,6}作为
bag_id,尽管没用,里面的数字序列必须与包的个数相同
@attribute bag relational与@end bag对应一个包的定义,里面
是示例属性(如一个分子的可能结构)
@attribute class {-1,1},其中后一个被当成正例处理
@data下面是特征序列,整个一条序列是一个包,每个包有一个序
号
多示例学习可以通过把每一个样本看成包,按某种方式把每一个包划
分成多个示例,每个包中的示例的数量可以相等也可以不等,再分别
2016/7/12
http://datamining.xmu.edu.cn
对每个示例学习,有效地滤除掉引起噪声的正包中的反例。
14/38
多样性密度算法
属性空间中某个点的多样性密度的定义为有多少个不同的正包有距离
该点足够近的示例,同时来自反包的示例远离该点的程度的度量。该
点附近来自正包的示例越多,来自负包的示例越远,则该点的多样性
密度越大,则目标概念是空间中多样性密度最大点。
2016/7/12
http://datamining.xmu.edu.cn
15/38
多样性密度算法
假设只有一个模型(示例)是目标点
2016/7/12
http://datamining.xmu.edu.cn
16/38
多样性密度算法
2016/7/12
http://datamining.xmu.edu.cn
17/38
Semi-supervised and
Transductive Classification
Semi-supervised Classification
Unlabeled samples are important
Co-training and Tri-training
2016/7/12
http://datamining.xmu.edu.cn
18/38
Unlabeled samples are
important
+
+
+
-
+
+
-
2016/7/12
http://datamining.xmu.edu.cn
19/38
Transductive Classification
2016/7/12
http://datamining.xmu.edu.cn
20/38
Co-training
CO-training
Unlabeled
Unlabeled
New Labeled
New Labeled
Labeled data
Labeled data
2016/7/12
http://datamining.xmu.edu.cn
21/38
Tri-training
Tri-training(Z.H. Zhou& M. Li,
TKDE05)
Learner1&Learner2
给出相同标记
New Labeled
Joint
classifier
Learner1
Learner2
AllViews
AllViews
2016/7/12
Learner3
AllView
s
http://datamining.xmu.edu.cn
22/38
Active Learning
采样策略
基于概率
基于投票
基于分布
基于聚类
2016/7/12
http://datamining.xmu.edu.cn
23/38
Ensemble learning: Make weak classifiers to strong one
h1( )
Classification
Result
Weight for each
weak classifier
i , i 1,2,..,7
h2()
h3( )
2
h4( )
3 4
1
h5( )
5
h6()
6
h7()
7
Combine to form the
Final strong classifier
T
H(x) sign αt ht(x)
t 1
2016/7/12
http://datamining.xmu.edu.cn
24/38
Ensemble learning
Bagging
2016/7/12
http://datamining.xmu.edu.cn
25/38
Ensemble learning
Boosting
2016/7/12
http://datamining.xmu.edu.cn
26/38
Boosting illustration
Weak
Classifier 1
2016/7/12
http://datamining.xmu.edu.cn
27/38
Boosting illustration
Weights
Increased
2016/7/12
http://datamining.xmu.edu.cn
28/38
Boosting illustration
Weak
Classifier 2
2016/7/12
http://datamining.xmu.edu.cn
29/38
Boosting illustration
Weights
Increased
2016/7/12
http://datamining.xmu.edu.cn
30/38
Boosting illustration
Weak
Classifier 3
2016/7/12
http://datamining.xmu.edu.cn
31/38
Boosting illustration
Final classifier is
a combination of weak
classifiers
2016/7/12
http://datamining.xmu.edu.cn
32/38
Ensemble learning
Random Forest
2016/7/12
http://datamining.xmu.edu.cn
33/38
Ensemble learning for Class
Imbalance Problem
- - ++ ++
- -+ + + - + - - - - -- - --- - - - - 随机分割反例集
错分样本(红色)加入到下两个训练集中
- - ++ ++
+++
- +
-
- -
-
-++ ++
-+ + +
+
-
-
-
-
-
2016/7/12
- -++ ++
-+ + +
- - +
-
-
-
-
-
···
++ ++
+++
+
-- -
http://datamining.xmu.edu.cn
--
34/38
classifier
1
2
X
X
3
4
5
6
7
√ X √ √ √
√(4)>X(3)
X 1
√
5√
X 2
3
X 4
6
7
√ √
2016/7/12
http://datamining.xmu.edu.cn
35/38
Strategy
First, the negative set is divided randomly into several subsets equally.
Every subset together with the positive set is a class balance training set.
Then several different classifiers are selected and trained with these
balance training sets. They will vote for the last prediction when facing
new samples.
The samples will be added to the next two classifiers’ training sets if
they are misclassified.
Reference
邹权, 郭茂祖, 刘扬, 王峻. 类别不平衡的分类方法及在生物信息学中的应
用. 计算机研究与发展. 2010,47(8):1407-1414
X.-Y. Liu, J. Wu, and Z.-H. Zhou. Exploratory undersampling for classimbalance learning. IEEE Transactions on Systems, Man, and
Cybernetics - Part B: Cybernetics, 2009, 39(2): 539-550
2016/7/12
http://datamining.xmu.edu.cn
36/38
Others
Active learning
Lazy learning
Parallel learning (mahout)
Optimization
Features Selection (GA)
Parameters Tune (Grid, PSO)
2016/7/12
http://datamining.xmu.edu.cn
37/38
Email: [email protected]
2016/7/12
http://datamining.xmu.edu.cn
38/38
作业
多样性密度算法是解决哪一种分类问题所用的
方法?其主要思想是什么?
直推式分类和半监督分类的主要区别?
请列举3种集成分类策略。
如何将多类分类问题转化为二类分类问题?
2016/7/12
http://datamining.xmu.edu.cn
39/38