Transcript 多标记分类任务
CCDM竞赛回顾与总结 目录 第一页 比赛基本介绍 多标记分类任务 多分类任务 比赛基本介绍 第二页 主办单位:中国计算机学会&中国人工智能学会 协办单位:中国计算机学会模式识别与人工智能专委会 中国人工智能学会机器学习专委会 指导专家:周志华等 评审专家:郭茂祖、朱军等 比赛基本介绍 第三页 竞赛时间:2014/01/05 —— 2014/03/15 数 据 集:医学诊断数据 比赛任务:Task1 多标记 Task2 多分类 比赛基本介绍 第四页 目 标 : 前三名 02/13 02/20 排名 1 2 3 4 5 6 jikicaxi JHHT xmu_dmlab CUG_Miners 02/21 02/28 jikicaxi JHHT FZU_BRRF CUG_Miners Yuri xmu_dmlab 02/29 03/05 xmu_dmlab jikicaxi JHHT CUG_Miners Yuri 03/06 03/12 JHHT xmu_dmlab Jikicaxi Yuri 03/13 03/15 xmu_dmlab JHHT jikicaxi 目录 第五页 比赛基本介绍 多标记分类任务 多分类任务 多标记分类任务 数据集概况和人员 第六页 Dataset Domain Instances Features Labels Multi-label Medical 904 129 12 多标记分类任务 数据集分析 第七页 特征分布:稀疏 127 120 113 106 99 92 85 78 71 64 57 50 43 36 29 22 15 8 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 多标记分类任务 数据集分析 第八页 相关标记分布 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 1 2 3 4 5 6 7 8 9 10 11 12 多标记分类任务 评价指标 第九页 Average Precision 1 0 0 Bipartition: a bipartition of the labels into relevant and irrelevant 1 0.87 0.33 0.26 0.67 4 2 1 3 Confidences: the probability of each label being positive Ranking: the rank of each label, ranging from 1 to array length 多标记分类任务 解决思路 第十页 Predictions Ensemble Feature Pool C1 C2 Classifier Pool … CK 多标记分类任务 解决思路 第十一页 Predictions Gain Ratio Ensemble Feature Pool RAkEL HOMER Classifier Pool … MLkNN 多标记分类任务 解决思路 第十二页 GainRatioAttributeEval Top 120 70% 60% 55.38% 50% 49.27% 56.27% 60.12% 52.06% 40% 30% 30.04% 20% Tsoumakas G, Katakis I, Vlahavas I. Mining multi-label data[M]//Data mining and knowledge discovery handbook. Springer US, 2010: 667-685. 目录 第十三页 比赛基本介绍 多标记分类任务 多分类任务 总结 多分类任务 数据集概况和人员 第十四页 Dataset Domain Instances Features Classes Multi-Class Medical 5031 410 3 多分类任务 数据集分析 第十五页 特征:nominal&numeric 0.45 PCA: Retain 95% variance. 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 1 2 3 4 5 6 7 8 9 10 11 12 多分类任务 数据集分析 第十六页 样本分布 2375 2500 2000 1500 1000 970 655 500 0 1 2 3 多分类任务 评价指标 第十七页 F1 Score 相关 不相关 Precision = 检索到 未检索到 TP TP FNTP FP FP TN Recall = TP TP FN TP TP FP 2 Re call Pr ecision F1-Score = Re call Pr ecision 多分类任务 解决思路 第十八页 Predictions PCA Gain Ratio Scale Ensemble Feature Pool L1 C1 RBM C2 … CK MID /MIQ LR SVMs DT RF Classifier Pool Bagging AdaBoost Cost-Sensitive GBDT 多分类任务 解决思路 第十九页 多分类任务 解决思路 第二十页 80% 79.67% 75% 72.38% 70% 71.65% 73.02% 65% 60% 59.76% 55% 50% Tsoumakas G, Katakis I, Vlahavas I. Mining multi-label data[M]//Data mining and knowledge discovery handbook. Springer US, 2010: 667-685. 第二十三页 再次感谢老师指导和关心 以及同学们的努力 邹权副教授 陈文强(研三) 陈伟程(研三) 胡始昌(研三) 林琛副教授 唐振坤(研三) 宋莉(本科) 曾建沧(本科) 赵雪薇(本科)