多标记分类任务

Download Report

Transcript 多标记分类任务

CCDM竞赛回顾与总结
目录
第一页
比赛基本介绍
多标记分类任务
多分类任务
比赛基本介绍
第二页
主办单位:中国计算机学会&中国人工智能学会
协办单位:中国计算机学会模式识别与人工智能专委会
中国人工智能学会机器学习专委会
指导专家:周志华等
评审专家:郭茂祖、朱军等
比赛基本介绍
第三页
竞赛时间:2014/01/05 —— 2014/03/15
数 据 集:医学诊断数据
比赛任务:Task1 多标记
Task2 多分类
比赛基本介绍
第四页
目
标 : 前三名
02/13
02/20
排名
1
2
3
4
5
6
jikicaxi
JHHT
xmu_dmlab
CUG_Miners
02/21
02/28
jikicaxi
JHHT
FZU_BRRF
CUG_Miners
Yuri
xmu_dmlab
02/29
03/05
xmu_dmlab
jikicaxi
JHHT
CUG_Miners
Yuri
03/06
03/12
JHHT
xmu_dmlab
Jikicaxi
Yuri
03/13
03/15
xmu_dmlab
JHHT
jikicaxi
目录
第五页
比赛基本介绍
多标记分类任务
多分类任务
多标记分类任务
数据集概况和人员
第六页
Dataset
Domain
Instances
Features
Labels
Multi-label
Medical
904
129
12
多标记分类任务
数据集分析
第七页
特征分布:稀疏
127
120
113
106
99
92
85
78
71
64
57
50
43
36
29
22
15
8
1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
多标记分类任务
数据集分析
第八页
相关标记分布
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
1
2
3
4
5
6
7
8
9
10
11
12
多标记分类任务
评价指标
第九页
Average Precision
1
0
0
Bipartition: a bipartition of the labels into
relevant and irrelevant
1
0.87
0.33
0.26
0.67
4
2
1
3
Confidences: the probability of each
label being positive
Ranking: the rank of each label, ranging
from 1 to array length
多标记分类任务
解决思路
第十页
Predictions
Ensemble
Feature
Pool
C1
C2
Classifier Pool
…
CK
多标记分类任务
解决思路
第十一页
Predictions
Gain
Ratio
Ensemble
Feature
Pool
RAkEL
HOMER
Classifier Pool
…
MLkNN
多标记分类任务
解决思路
第十二页
GainRatioAttributeEval
Top 120
70%
60%
55.38%
50%
49.27%
56.27%
60.12%
52.06%
40%
30%
30.04%
20%
Tsoumakas G, Katakis I, Vlahavas I. Mining multi-label data[M]//Data mining and knowledge discovery handbook.
Springer US, 2010: 667-685.
目录
第十三页
比赛基本介绍
多标记分类任务
多分类任务
总结
多分类任务
数据集概况和人员
第十四页
Dataset
Domain
Instances
Features
Classes
Multi-Class
Medical
5031
410
3
多分类任务
数据集分析
第十五页
特征:nominal&numeric
0.45
PCA:
Retain
95%
variance.
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
1
2
3
4
5
6
7
8
9
10
11
12
多分类任务
数据集分析
第十六页
样本分布
2375
2500
2000
1500
1000
970
655
500
0
1
2
3
多分类任务
评价指标
第十七页
F1 Score
相关
不相关
Precision =
检索到
未检索到
TP
TP
FNTP  FP
FP
TN
Recall =
TP
TP  FN
TP
TP  FP
2 Re call  Pr ecision
F1-Score =
Re call  Pr ecision
多分类任务
解决思路
第十八页
Predictions
PCA
Gain
Ratio
Scale
Ensemble
Feature
Pool
L1
C1
RBM
C2
…
CK
MID
/MIQ
LR
SVMs
DT
RF
Classifier Pool
Bagging
AdaBoost
Cost-Sensitive
GBDT
多分类任务
解决思路
第十九页
多分类任务
解决思路
第二十页
80%
79.67%
75%
72.38%
70%
71.65%
73.02%
65%
60%
59.76%
55%
50%
Tsoumakas G, Katakis I, Vlahavas I. Mining multi-label data[M]//Data mining and knowledge discovery handbook.
Springer US, 2010: 667-685.
第二十三页
再次感谢老师指导和关心
以及同学们的努力
邹权副教授
陈文强(研三) 陈伟程(研三)
胡始昌(研三)
林琛副教授
唐振坤(研三)
宋莉(本科) 曾建沧(本科) 赵雪薇(本科)