HadoopEagleEye

Transcript HadoopEagleEye

关键词行业分类竞赛结果汇报
队名：HadoopEagleEye
队员：陈庆国、邹晓川
指导老师：詹德川副教授
机器学习与数据挖掘研究所（LAMDA Group）
软件新技术国家重点实验室
南京大学
大纲
 问题简述
 问题分析与解决方案
 技术路线与挑战
 专用LS2VM算法介绍
 处理流程概述
 结果与总结
 致谢
http://lamda.nju.edu.cn/chenqg
问题简述
从百度行业分类体系中选取了33个已定义的类别，目标为从
海量的标注样本中，使用高效的学习算法，完成对测试样本
的分类。
第1类
第2类
第33类
…
预测：太平鸟女装衬衫
？
http://lamda.nju.edu.cn/chenqg
问题分析和解决方案
问题分析：
• 大数据：1千万个样本，处理数据达15G
以上
• 多类别：目标语义多样化，行
业之间界限并未明确定义
eg. 类别14：网站搭建
类别33：团购网站
解决方案：
利用Map-Reduce框架，设计专用的多类别机器学习算法
http://lamda.nju.edu.cn/chenqg
技术路线与挑战
常用机器学习算法
广泛应用于文本分类
挑战：
1.现有SVM算法不能实现Map-Reduce下的并行化；
2.比赛平台对每个节点运行内存有限制(500M)
http://lamda.nju.edu.cn/chenqg
LS2VM算法
Large Scale Support Vector Machine (LS2VM)
…
…
http://lamda.nju.edu.cn/chenqg
LS2VM算法
Large Scale Support Vector Machine (LS2VM)
http://lamda.nju.edu.cn/chenqg
LS2VM算法
Large Scale Support Vector Machine (LS2VM)
…
+
节点1
节点2
节点33
http://lamda.nju.edu.cn/chenqg
LS2VM算法
Large Scale Support Vector Machine (LS2VM)
…
节点1
节点2
节点33
模型 f1
模型 f2
模型 f33
在每个Map任务中训练一个Binary SVM
http://lamda.nju.edu.cn/chenqg
LS2VM算法
Large Scale Support Vector Machine (LS2VM)
…
节点1
节点2
节点33
模型 f1
模型 f2
模型 f33
在每个Map任务中训练一个Binary SVM
http://lamda.nju.edu.cn/chenqg
LS2VM算法-Map任务设计
Large Scale Support Vector Machine (LS2VM)
节点
解决方案：逐步分片求解SVM对偶问题
-首先读取500M数据，求解其对偶问题
• 每台mapper机器面临的问题：
求得其缩减的支持向量
–大规模：750万维，百万级训练样本
-在内存中保留支持向量，并继续读取
–每台计算服务器的内存仅为：500M
数据再次训练，直至所有数据都已经
读取一次
http://lamda.nju.edu.cn/chenqg
LS2VM算法-Map任务设计
读取500M数据
数据集
原问题
对偶问题
http://lamda.nju.edu.cn/chenqg
LS2VM算法-Map任务设计
再读取500M数据
数据集
Shrinking策略
http://lamda.nju.edu.cn/chenqg
LS2VM算法-Map任务设计
再读取500M数据
数据集
Shrinking策略
http://lamda.nju.edu.cn/chenqg
LS2VM算法-Map任务设计
再读取500M数据
数据集
Shrinking策略
http://lamda.nju.edu.cn/chenqg
LS2VM算法-测试
节点1
节点2
模型 f1
模型 f2
…
节点33
模型 f33
http://lamda.nju.edu.cn/chenqg
LS2VM算法-测试
模型 f1
模型 f2
得分 f1(x)
得分 f2(x)
…
模型 f33
得分 f33(x)
预测样本类别为：2
http://lamda.nju.edu.cn/chenqg
处理流程概述
数据预处理
特征提取和表示
Map-Reduce框架搭建大规模多类SVM
基于词的排列组合:
eg. 关键词:天津_新开河街_房价
天津新开河街:1,天津房价:1,新开河街房价:1,天津:1,新开河街:1,房价:1
基于字符组合的特征：
eg. 关键词: 礼品蛋糕
对字段分词：
礼品蛋糕:1,礼品蛋:1,品蛋糕:1,礼品:1,品蛋:1,蛋糕:1,礼:1,品:1,蛋:1,糕:1
使用工具：IK-Analyzer
Bag-of-words向量化：
总维度: 750万维
http://lamda.nju.edu.cn/chenqg
结果和总结
• 在Map-Reduce框架下上实现了LS2VM
– 效率指标
• SVM：
–时间开销>3小时，内存开销>20G
• 我们的方法:
–时间开销=40分钟，内存开销(每个mapper) < 500M
– 可拓展性
• 线性版本的LS2VM同样可以获得特征重要性标定
– 蛋糕：3.349279
– 城堡：0
类别：9
类别：9
• 本地验证集平均准确率99.1%，在线评测的平均准确率为
98.66%，最终排名第一。
http://lamda.nju.edu.cn/chenqg
建议
有的查询涉及多个行业，只预测其中最确信的一种可能是不
够的，这是一个典型的多标记学习问题。
比如：二手三星手机
从直观上理解：它既可以被分为类别16(数码类别)，也
可以被分为类别19(回收市场)
所以如果能使用多标记学习，最终向用户展示一个多标记的
广告投放就能更加准确的把握用户的需求。
http://lamda.nju.edu.cn/chenqg
致谢
感谢竞赛的主办方CCF和百度
感谢机器学习与数据挖掘研究组、周志华教授的培养
感谢詹德川老师的指导
感谢南京大学计算机系其他老师和同学的帮助
http://lamda.nju.edu.cn/chenqg
致谢
感谢各位专家评委
请各位专家评委批评指正
http://lamda.nju.edu.cn/chenqg

HadoopEagleEye

Transcript HadoopEagleEye

Directory