10.07.28.用户点击行为建模和应用

Transcript 10.07.28.用户点击行为建模和应用

用户点击行为建模
何靖
阿里云相关性团队
1
搜索用户行为
• 搜索用户行为
• 客户端
• 服务器端
2
ALIBABA CONFIDENTIAL
简单建模
• 点击=相关，不点击=不相关
• ClickThrough Rate(CTR)越大 越相关
• 应用
• 查询推荐
• 查询分类：Nav/Info, Close/Open
• 相关反馈
3
ALIBABA CONFIDENTIAL
• 位置偏差
• 环境偏差
• 周围文档质量 点击
Percentage
点击偏差
Reversed Impression
• 展示信息偏差
4
ALIBABA CONFIDENTIAL
点击行为建模
• 基本假定
• 偏好模型
• 绝对相关性模型
• 评价和应用
5
ALIBABA CONFIDENTIAL
符号定义
• 查询q
• 返回文档(d1, …, dn)
• 是否查看(e1, …, en) - binary
• 是否点击(c1, …, cn) - binary
• 相关性(r1, …, rn)
6
ALIBABA CONFIDENTIAL
基本假定
• 查看假定
• 级联假定
Position i
7
Position (i+1)
ALIBABA CONFIDENTIAL
偏好模型
• 基于规则[Joachims et al. SIGIR05, Joachims et al. TOIS07]
查看假定
Position i
级联假定
Position i
Position j, j < i
rj
• 统计意义的规则[Radlinski et al. AAAI05, Agrawal WSDM09]
Position i
8
ALIBABA CONFIDENTIAL
ri
偏好模型
• 模型：对用户点击和点击前的行为建模（查看-点击）
• 输出：部分偏好关系
• 问题
• 得到相关性信息较弱：不能得到相关性绝对值，不能得到所有偏好关系
• 综合多次查询-点击能力较弱
9
ALIBABA CONFIDENTIAL
绝对相关性模型（点击模型）
• 变量
• 依赖关系
ei
10
ci
ri
ALIBABA CONFIDENTIAL
绝对相关性模型：对用户行为的建模
i++
查看第i个文档的
展示信息
1.点击？
YES
NO
2.继续查看？
YES
查看第i个文档原
文
3.继续查看？
NO
11
ALIBABA CONFIDENTIAL
Cascade Model[Craswell et al. WSDM08]
• 何时点击？
• Pr(ci = 1 | ei = 1) = ri
• 点击后是否继续查看？
• 不点击是否继续查看？
• 问题：没有对一个以上的点击建模
12
ALIBABA CONFIDENTIAL
Dependent Click Model[Guo et al. WSDM09]
• 何时点击？
• Pr(ci = 1 | ei = 1) = ri
• 点击后是否继续查看？
λi
• 不点击是否继续查看？
• 问题：用户也可能不点击而离开
13
ALIBABA CONFIDENTIAL
Click Chain Model[Guo et al. WWW09]
• 何时点击？
• Pr(ci = 1 | ei = 1) = ri
• 不点击后是否继续查看？
α1
• 点击是否继续查看？
ri
ei+1
 2ri  3 (1  ri )
• 问题：展示信息偏差
14
ALIBABA CONFIDENTIAL
Dynamic Bayesian Networks
[Chapelle et al.
WWW09]
• 何时点击？
• Pr(ci = 1 | ei = 1) = ai
• 这里决定点击的是展示信息的吸引度(attractiveness)
• 不点击后是否继续查看？
• 点击是否继续查看？
15
γ
(1  ri )
ALIBABA CONFIDENTIAL
模型推导
• 可见变量
• 隐变量
• 推导方法
• EM[Chapelle+09,Dupret+08]
• M-step: 计算在当前文档相关性下的最有可能的查看情况
• E-step: 根据当前查看情况，估计文档相关性
• Bayesian Framework（Approximate）[Guo+09b]
Pr(C | R)  P( R | C)  R
Nc1
(1 
case
16
ALIBABA CONFIDENTIAL
case
R)
Ncase
模型验证
• 指标
• likelihood
• Perplexity = 2^KL
• 应用性验证
• 对Learn to Rank的帮助
• 验证结果
• Likelihood: CCM > UBM > DCM > Cascade [Guo+09b]
• Perplexity: CCM > UBM ≈ DCM > Cascade [Guo+09b]
• nDCG: DBM > Cascade [Chapelle+09]
17
ALIBABA CONFIDENTIAL
模型应用
• Learn to rank[Joachims02, Cao+06, Dou+08]
• 自动获得训练集
• 搜索引擎评测
• 利用偏好模型，可以比较两个搜索引擎的优劣[Joachims02,
Radlinski+08, He+09]
• 利用绝对相关性模型
• 得到了(r1, r2, …, rn)
• 用现有评测指标DCG/RBP等对搜索引擎进行评测
18
ALIBABA CONFIDENTIAL
我的已有工作
• 提出一种基于偏好模型的搜索引擎质量比较方法
• 结果合并-收集点击-质量比较
• 提出一种利用绝对相关性模型的高效相关性收集方法
• 依靠比较少次数的查询，就可以比较准确地获得结果质量
• 优先收集：排序靠前、区分性大、信息不充分的文档信息
• 方法：最小化信息熵
• 提出一种结合更多搜索引擎特征的评价指标
• 文档相关性不能绝对标识搜索引擎质量
• 用用户满足信息需求的有效时间比来衡量搜索引擎的好坏
• Case Study：加入展示信息质量
19
ALIBABA CONFIDENTIAL
计划
• 在统一的数据上验证各种假定
• 何时点击？文档相关度 or 展示信息
• 点击后是否终止？肯定终止 or 当前文档相关性决定 or 位置信息决定
• 略过后是否终止？肯定继续 or 唯一概率终止 or 位置信息决定
• 结合用户所有已点击信息预测用户的继续查看行为
• 用户继续查看/终止查询不是仅由前一个点击文档决定的[Dupret+10]
• 考虑已经点击的文档综合能提供的信息和查看过的文档的关系
• 足够多的相关文档已经满足 离开
• 看过足够多的文档但相关信息不多失去耐心离开
• 结合点击时间因素来预测文档相关性
• 点击一个不相关的文档可能导致快速返回，修改查询或点击新的文档
20
ALIBABA CONFIDENTIAL
21
ALIBABA CONFIDENTIAL

10.07.28.用户点击行为建模和应用

Transcript 10.07.28.用户点击行为建模和应用

Directory