HadoopEagleEye

Download Report

Transcript HadoopEagleEye

关键词行业分类竞赛结果汇报
队名:HadoopEagleEye
队员:陈庆国、邹晓川
指导老师:詹德川 副教授
机器学习与数据挖掘研究所(LAMDA Group)
软件新技术国家重点实验室
南京大学
大纲
 问题简述
 问题分析与解决方案
 技术路线与挑战
 专用LS2VM算法介绍
 处理流程概述
 结果与总结
 致谢
http://lamda.nju.edu.cn/chenqg
问题简述
从百度行业分类体系中选取了33个已定义的类别,目标为从
海量的标注样本中,使用高效的学习算法,完成对测试样本
的分类。
第1类
第2类
第33类
…
预测:太平鸟女装衬衫
?
http://lamda.nju.edu.cn/chenqg
问题分析和解决方案
问题分析:
• 大数据:1千万个样本,处理数据达15G
以上
• 多类别:目标语义多样化,行
业之间界限并未明确定义
eg. 类别14:网站搭建
类别33:团购网站
解决方案:
利用Map-Reduce框架,设计专用的多类别机器学习算法
http://lamda.nju.edu.cn/chenqg
技术路线与挑战
常用机器学习算法
广泛应用于文本分类
挑战:
1.现有SVM算法不能实现Map-Reduce下的并行化;
2.比赛平台对每个节点运行内存有限制(500M)
http://lamda.nju.edu.cn/chenqg
LS2VM算法
Large Scale Support Vector Machine (LS2VM)
…
…
http://lamda.nju.edu.cn/chenqg
LS2VM算法
Large Scale Support Vector Machine (LS2VM)
http://lamda.nju.edu.cn/chenqg
LS2VM算法
Large Scale Support Vector Machine (LS2VM)
…
+
节点1
节点2
节点33
http://lamda.nju.edu.cn/chenqg
LS2VM算法
Large Scale Support Vector Machine (LS2VM)
…
节点1
节点2
节点33
模型 f1
模型 f2
模型 f33
在每个Map任务中训练一个Binary SVM
http://lamda.nju.edu.cn/chenqg
LS2VM算法
Large Scale Support Vector Machine (LS2VM)
…
节点1
节点2
节点33
模型 f1
模型 f2
模型 f33
在每个Map任务中训练一个Binary SVM
http://lamda.nju.edu.cn/chenqg
LS2VM算法-Map任务设计
Large Scale Support Vector Machine (LS2VM)
节点
解决方案:逐步分片求解SVM对偶问题
-首先读取500M数据,求解其对偶问题
• 每台mapper机器面临的问题:
求得其缩减的支持向量
–大规模:750万维,百万级训练样本
-在内存中保留支持向量,并继续读取
–每台计算服务器的内存仅为:500M
数据再次训练,直至所有数据都已经
读取一次
http://lamda.nju.edu.cn/chenqg
LS2VM算法-Map任务设计
读取500M数据
数据集
原问题
对偶问题
http://lamda.nju.edu.cn/chenqg
LS2VM算法-Map任务设计
再读取500M数据
数据集
Shrinking策略
http://lamda.nju.edu.cn/chenqg
LS2VM算法-Map任务设计
再读取500M数据
数据集
Shrinking策略
http://lamda.nju.edu.cn/chenqg
LS2VM算法-Map任务设计
再读取500M数据
数据集
Shrinking策略
http://lamda.nju.edu.cn/chenqg
LS2VM算法-测试
节点1
节点2
模型 f1
模型 f2
…
节点33
模型 f33
http://lamda.nju.edu.cn/chenqg
LS2VM算法-测试
模型 f1
模型 f2
得分 f1(x)
得分 f2(x)
…
模型 f33
得分 f33(x)
预测样本类别为:2
http://lamda.nju.edu.cn/chenqg
处理流程概述
数据预处理
特征提取和表示
Map-Reduce框架搭建大规模多类SVM
基于词的排列组合:
eg. 关键词:天津_新开河街_房价
天津新开河街:1,天津房价:1,新开河街房价:1,天津:1,新开河街:1,房价:1
基于字符组合的特征:
eg. 关键词: 礼品蛋糕
对字段分词:
礼品蛋糕:1,礼品蛋:1,品蛋糕:1,礼品:1,品蛋:1,蛋糕:1,礼:1,品:1,蛋:1,糕:1
使用工具:IK-Analyzer
Bag-of-words向量化:
总维度: 750万维
http://lamda.nju.edu.cn/chenqg
结果和总结
• 在Map-Reduce框架下上实现了LS2VM
– 效率指标
• SVM:
–时间开销>3小时,内存开销>20G
• 我们的方法:
–时间开销=40分钟,内存开销(每个mapper) < 500M
– 可拓展性
• 线性版本的LS2VM同样可以获得特征重要性标定
– 蛋糕:3.349279
– 城堡:0
类别:9
类别:9
• 本地验证集平均准确率99.1%,在线评测的平均准确率为
98.66%,最终排名第一。
http://lamda.nju.edu.cn/chenqg
建议
有的查询涉及多个行业,只预测其中最确信的一种可能是不
够的,这是一个典型的多标记学习问题。
比如:二手三星手机
从直观上理解:它既可以被分为类别16(数码类别),也
可以被分为类别19(回收市场)
所以如果能使用多标记学习,最终向用户展示一个多标记的
广告投放就能更加准确的把握用户的需求。
http://lamda.nju.edu.cn/chenqg
致谢
感谢竞赛的主办方CCF和百度
感谢机器学习与数据挖掘研究组、周志华教授的培养
感谢詹德川老师的指导
感谢南京大学计算机系其他老师和同学的帮助
http://lamda.nju.edu.cn/chenqg
致谢
感谢各位专家评委
请各位专家评委批评指正
http://lamda.nju.edu.cn/chenqg