Transcript 胡玲玲-报告
实习介绍 胡玲玲 网页搜索部 2013-09-01 目录 LTR 大搜索策略上线 初识-调研流程平台 定位 平台组快速调研整合的流程整合部份,作为调研的统一入口,对调研的 过程、工具、数据等进行有效的管理。 目标 为实现调研全过程的改善打下基础,改善大搜索,提升效率。 调研流程平台-整体框架 调研流程平台-整体框架 入手-LTR 用机器学习的方式做ranking 学术界一般称为Learning to rank(LTR) 也称为machine-learned ranking (MLR) 定位 机器学习在Ranking系统中应用方法的研究,产出可执 行的系统方法 Ranking 问题: 简单的说:一个query下的url list,给出一个排序,使得 排序和相关性高低尽可能一致。 为什么需要LTR? 传统上使用人工经验来确定特征的权值 得到模型易于理解 性能稳定 依赖于个人经验,难以国际化 效率较低,成本较高 采用机器学习的方法,自动从特征中构建排序模型 提高研发效率,降低国际化壁垒 参数可以自动确定 部分模型的可理解性与可解释性不佳 机器学习的发展 监督学习方法比较成熟 针对ranking的机器学习越来越多(高质量paper 百余篇以上) 为什么需要LTR? Ranking 很难做 基础相关性 页面质量 页面权威性 …… Ranking 怎么做? Socre(query,url)= Function(x)=wx+b LTR在业界的情况 第一个使用LTR的搜索引擎: AltaVista 2003 后称为Overture, 现在是Yahoo一部分 微软Bing: 2005 俄罗斯Yandex:2009 Google?…… Yahoo! Learning to Rank Challenge2010 Yandex's Internet Mathematics 2009 LTR基本流程 LTR基本流程-样本获取 什么是样本 样本即训练数据,是rank模型获取知识的素材。 型如:(Label,Query,feature1,feature2,...,featureN,URL) 样本来源? LTR基本流程-特征 特证名 网页特征有哪些? 含义 F_BASIC_WEI AC中用到28维特征 基础相关性特征 F_NEWQUALITY 基础相关性特征 页面丰富度 是否英文页 特征处理目标和方式与选择的训练模型有很大关系,比如目前 F_IS_OTHER 是否繁体页 ACreranking中选择的rank-SVM是线性(不带核函数)的,处理特征的 F_IS_ANTISPAM_PUNISH 是否spam 目标就是尽量提高样本线性可分程度 F_IS_ENG F_SCORE_LEVEL score_level F_VALIDITY_WEI 资源有效性特征准确性不强 FU_CLICK 点击调权值 F_CLICK_NEED 点击需求值点击调权值的组成部分 F_LINK_WEI 链接权威性通过url F_DICT_SOBAR_PV sobar F_PAGERANK pagerank LTR基本流程-模型选择 rank系统的大脑,杂乱无章的网页靠它变得有序 pairwise模型: 在同一query下抽取两个具不同label值的URL,得到一个pair, 按照 Label url> Label url2划一类, Label url< Label url2为另一类,以此为训 练集,问题转换为二分类问题。 对此问题选择一种分类器,目前ACreranking用的rank-SVM训练。应用 时拿测试集的query-URL给模型评分。 LTR基本流程-评估 什么是评估 衡量一个list of URL与理想顺序的接近程度的过程就是评估 为什么要评估? 评估标准决定优化方向 如果model的效果好于线上很多,就可以考虑上线了 评估流程 策略调研 准备 PM调研 事前评估 PM上线评 估 小流量评 估 持续评估 监控 LTR 业务项目 要查看每个环节产出?对比两次调研? 多个语言调研需建立多次流程? 国际化,多 语种调研 统一管理 LTR 业务项目-统一管理 项目信息 LTR调研的整个过程,标注、模型上线、监控等,用到的或者产出的重要 数据,如模型、特征、标注、样本等,统一管理、方便各种操作。 满足LTR调研流程数据的管理和查看、下载、对比等功能 LTR业务项目-统一管理 LTR国际化项目-多语种调研 LTR国际化项目-多语种调研 选择调研语种+模 型 批量修改各项配置 批量运行 查看/分析结果 搜集语言模型 上线 项目二-策略上线项目 策略? 如何上线? 评估? 策略上线项目-策略 策略 知心,紧密度、知道文库架构改造、散乱命中、click query 影视知心例子 策略上线项目-上线 LTR上线流程 LTR基本流程 策略上线项目-评估 策略开发人员在全流量上线之前要评估新的策略的优劣,我们可以 使用小流量的方式评估出新策略的优异。 小流量:与全流量对应,线上流量划分出来的一个子集。这是一个 宽泛的概念,任何方式划分的流量子集都可以称为小流量。 策略对比 策略对比 常用评估指标 首次点击率:有点击的搜索次数/总搜索次数,即有点击的query占比,小 于1。 点击率:点击次数和/总搜索次数,一般大于1。 首页点击率:前十点击结果和次数和/总搜索次数,一般大于1。 展现率:有展现某策略的搜索次数/总搜索次数,即有展现某策略的query 占比。 Q&A