百度实习报告-胡始昌

Download Report

Transcript 百度实习报告-胡始昌

1
百度实习总结
胡始昌
目录
• 工作环境介绍
• 工作介绍
– 基于规则的挖掘
– 图片作弊识别
– 作弊嫌疑载体挖掘(思想)
• 实习收获
工作环境介绍-主要工作
• 针对百度知道的提问、回答、评论中出现
的一些恶意推广、色情、以及一些非正常
用户进行过滤。
• 主要方法:
− 基于规则的挖掘
− 基于机器学习方法的挖掘
工作环境介绍-主要策略
• 提问、回答的文本分类 • 盗号和马甲用户判别策
•
•
•
•
•
打分;
用户特征打分;
基于全局和局部重复序
列;
文本质量判别策略;
基于urate 的验证码;
用户ip 聚类分析;
•
•
•
•
略;
url、号码、过滤词策略
;
用户行为分析;
图片作弊识别;
其他的局部策略和人工
审核。
工作环境介绍-工作流程
Pm确
认
确定需求
分析问题代价
收益比
提出解决方案
Pm确
认
上线并和QA
确认
开发策略以及
代码
线上线下自测
Pm确
认
及时回归测试
做好策略监控
工作介绍
• 基于规则的挖掘
• 图片作弊识别
• 作弊嫌疑载体挖掘(思想)
工作介绍-基于规则的挖掘
• 主要工作:是找出那些具有推广性的文本
信息
• 主要手段:定义推广句型
− 去XXX看看
− 到XXX网搜搜
− 去XXX搜索一下
− 搜XXX店
− 百度一下XXX牌
工作介绍-基于规则的挖掘
• 推荐动词组:verbs {
"去", "到", "往", "来", "看", "上", "在", "搜搜", "搜索", "搜一
下", "搜索一下", "百度一下", "搜“}
• 敏感后缀词组:keywords{
"网", "网站", "网络", "店", "馆", "堂", "铺", "品牌", "牌", "商城", "商店",
"医院", "专家", "培训", "教育", "热线", "软件", "影院", "影视", "公司", "
看看", "查查“}
工作介绍-基于规则的挖掘
• 用户维度+用户等级过滤
– count(user) > M
– n/N < a
n为高等级提交的命中词个数,N为该用户提交的
总共命中词个数
工作介绍-基于规则的挖掘
• 使用分词优化结果
–为了避免掉一些现成词的干扰,比如说“现在
我们家网络”,之前的策略就会捕捉到“在
XXX网络”。
工作介绍-基于规则的挖掘
• 效果
–准确率98%,召回是10w
工作介绍-图片作弊识别
• 主要工作:识别出带有广告载体的图片
• 主要手段:
–提取图片内容,然后提取和图片相关的特征,
使用机器学习方法判别。
–基于规则的识别图片
工作介绍-图片作弊识别
• 特征提取
–图片内容特征
–图片位置特征
–图片相关的提问、回答特征
–图片用户特征
工作介绍-图片作弊识别
工作介绍-图片作弊识别
工作介绍-图片作弊识别
• 提问和回答的热词打分
对于以往的删除帖子进行统计,然后对于新增的
提问里统计删除词,根据权值计算得分。计算权
值得分使用互信息公式。
• 提问和回答的文本分类打分
对于提问和回答内容文本训练模型,然后对于新
增文本进行打分。
工作介绍-图片作弊识别
• 用户特征
根据用户以往信息对这个用户进行一个评估。
Count(user) = 100
Spam(user) = 90
Bad(user) = 0.9
工作介绍-图片作弊识别
• 分类判别
使用逻辑回归训练及判别,好处是不需要训练模
型,直接根据一组权值计算最后得分。
sum = 𝑁
𝑖=1 𝑓𝑒𝑎𝑡𝑢𝑟𝑒 𝑖 ∗ 𝑤𝑒𝑖𝑔ℎ𝑡(𝑖) + intercept
score =
1
1+𝑒 −𝑠𝑢𝑚
score < t (0.35)
工作介绍-图片作弊识别
• 基于规则识别
对于提取内容查看是否含有作弊强特征,url、号
码、过滤词,然后对于内容做文本分类打分。
[NOTICE] 2013-07-28 10:07:11:
qid[563714627] rid[1445131775] uid[56540010]
uname[gnaiqgnaw1013] pic_id[7621127783]
spam_type[4] score[0.29912020053415] is
spam!
工作介绍-图片作弊识别
• 效果
–多特征:准确率98%,召回50%
–规则:准确率100%,召回52%
工作介绍-作弊嫌疑载体挖掘
• 主要工作:对于文本中出现的一些恶意推
广、色情、广告等信息进行挖掘识别。
• 主要手段
–基于新词的发现
–基于环绕词的挖掘
工作介绍-作弊嫌疑载体挖掘
• 基于新词发现
对于分词之后的结果进行两两组合,然后计算组
合后词的度量值。
度量值
 词间凝聚度
 词间自由度
工作介绍-作弊嫌疑载体挖掘
• 词间凝聚度
cohesion =
𝑝(𝑤𝑜𝑟𝑑1, 𝑤𝑜𝑟𝑑2)
𝑝 𝑤𝑜𝑟𝑑1 ∗𝑝(𝑤𝑜𝑟𝑑2)
值越高的表明,凝聚度越高,说明成词的概率越
大,比如说“忐忑”,拆开基本就不是词了,所
以凝聚度是很高的,而“的电影”的凝聚度就不
高,因为p(的, 电影) ≈ 𝑝 的 ∗ 𝑝(电影)
工作介绍-作弊嫌疑载体挖掘
• 词间自由度
freedom =
𝑁
𝑖=1(−𝑝(𝑖) log 𝑝(𝑖))
这个值衡量这个词是否十分依赖前后的词,如果
前后的词出现的越混乱,说明这个词越自由,那
么成词的概率越大。比如“被子”和“辈子”,
前一个词的自由度明显会比较高一点,因为会有
“晒被子”、“买被子”、“拿被子”等,而后
一个词,能搭配的只有“一”、“二”、“下”
等一些量词。
工作介绍-作弊嫌疑载体挖掘
• 两者的关系
两者是不可或缺的关系,缺少了后者,那么会找
出一些半词,比如说“不明觉厉”可能只能找出
“不明觉”;如果缺少了前者,可能会找出一些
垃圾词组,比如说“吃了没有”、“睡了没有”
中的“了没”。
工作介绍-作弊嫌疑载体挖掘
• 基于环绕词的挖掘
对于一些已经人工标注过的case或者已删除的数
据,抽取一些常见的环绕词,比如说之前的“去
XXX看看”或者“【XXX】”等。然后挖掘载体
,通过载体挖掘环绕词,反复迭代,直到结果达
到需求。
工作介绍-作弊嫌疑载体挖掘
实习收获
• 锻炼了动手能力
• 锻炼了对整体项目的把握能力
• 锻炼了团体合作的能力
实习收获
• 你需要去做的不一定是你喜欢的
• 工作努力不代表合格
• 小细节决定大事件
• 等待指示永远不是最合适的工作态度
30
Thanks!