10.07.28.用户点击行为建模和应用

Download Report

Transcript 10.07.28.用户点击行为建模和应用

用户点击行为建模
何 靖
阿里云相关性团队
1
搜索用户行为
• 搜索用户行为
• 客户端
• 服务器端
2
ALIBABA CONFIDENTIAL
简单建模
• 点击=相关,不点击=不相关
• ClickThrough Rate(CTR)越大 越相关
• 应用
• 查询推荐
• 查询分类:Nav/Info, Close/Open
• 相关反馈
3
ALIBABA CONFIDENTIAL
• 位置偏差
• 环境偏差
• 周围文档质量 点击
Percentage
点击偏差
Reversed Impression
• 展示信息偏差
4
ALIBABA CONFIDENTIAL
点击行为建模
• 基本假定
• 偏好模型
• 绝对相关性模型
• 评价和应用
5
ALIBABA CONFIDENTIAL
符号定义
• 查询q
• 返回文档(d1, …, dn)
• 是否查看(e1, …, en) - binary
• 是否点击(c1, …, cn) - binary
• 相关性(r1, …, rn)
6
ALIBABA CONFIDENTIAL
基本假定
• 查看假定
• 级联假定
Position i
7
Position (i+1)
ALIBABA CONFIDENTIAL
偏好模型
• 基于规则[Joachims et al. SIGIR05, Joachims et al. TOIS07]
查看假定
Position i
级联假定
Position i
Position j, j < i
rj
• 统计意义的规则[Radlinski et al. AAAI05, Agrawal WSDM09]
Position i
8
ALIBABA CONFIDENTIAL
ri
偏好模型
• 模型:对用户点击和点击前的行为建模(查看-点击)
• 输出:部分偏好关系
• 问题
• 得到相关性信息较弱:不能得到相关性绝对值,不能得到所有偏好关系
• 综合多次查询-点击能力较弱
9
ALIBABA CONFIDENTIAL
绝对相关性模型(点击模型)
• 变量
• 依赖关系
ei
10
ci
ri
ALIBABA CONFIDENTIAL
绝对相关性模型:对用户行为的建模
i++
查看第i个文档的
展示信息
1.点击?
YES
NO
2.继续查看?
YES
查看第i个文档原
文
3.继续查看?
NO
11
ALIBABA CONFIDENTIAL
Cascade Model[Craswell et al. WSDM08]
• 何时点击?
• Pr(ci = 1 | ei = 1) = ri
• 点击后是否继续查看?
• 不点击是否继续查看?
• 问题: 没有对一个以上的点击建模
12
ALIBABA CONFIDENTIAL
Dependent Click Model[Guo et al. WSDM09]
• 何时点击?
• Pr(ci = 1 | ei = 1) = ri
• 点击后是否继续查看?
λi
• 不点击是否继续查看?
• 问题: 用户也可能不点击而离开
13
ALIBABA CONFIDENTIAL
Click Chain Model[Guo et al. WWW09]
• 何时点击?
• Pr(ci = 1 | ei = 1) = ri
• 不点击后是否继续查看?
α1
• 点击是否继续查看?
ri
ei+1
 2ri  3 (1  ri )
• 问题: 展示信息偏差
14
ALIBABA CONFIDENTIAL
Dynamic Bayesian Networks
[Chapelle et al.
WWW09]
• 何时点击?
• Pr(ci = 1 | ei = 1) = ai
• 这里决定点击的是展示信息的吸引度(attractiveness)
• 不点击后是否继续查看?
• 点击是否继续查看?
15
γ
(1  ri )
ALIBABA CONFIDENTIAL
模型推导
• 可见变量
• 隐变量
• 推导方法
• EM[Chapelle+09,Dupret+08]
• M-step: 计算在当前文档相关性下的最有可能的查看情况
• E-step: 根据当前查看情况,估计文档相关性
• Bayesian Framework(Approximate)[Guo+09b]
Pr(C | R)  P( R | C)  R
Nc1
(1 
case
16
ALIBABA CONFIDENTIAL
case
R)
Ncase
模型验证
• 指标
• likelihood
• Perplexity = 2^KL
• 应用性验证
• 对Learn to Rank的帮助
• 验证结果
• Likelihood: CCM > UBM > DCM > Cascade [Guo+09b]
• Perplexity: CCM > UBM ≈ DCM > Cascade [Guo+09b]
• nDCG: DBM > Cascade [Chapelle+09]
17
ALIBABA CONFIDENTIAL
模型应用
• Learn to rank[Joachims02, Cao+06, Dou+08]
• 自动获得训练集
• 搜索引擎评测
• 利用偏好模型,可以比较两个搜索引擎的优劣[Joachims02,
Radlinski+08, He+09]
• 利用绝对相关性模型
• 得到了(r1, r2, …, rn)
• 用现有评测指标DCG/RBP等对搜索引擎进行评测
18
ALIBABA CONFIDENTIAL
我的已有工作
• 提出一种基于偏好模型的搜索引擎质量比较方法
• 结果合并-收集点击-质量比较
• 提出一种利用绝对相关性模型的高效相关性收集方法
• 依靠比较少次数的查询,就可以比较准确地获得结果质量
• 优先收集:排序靠前、区分性大、信息不充分的文档信息
• 方法:最小化信息熵
• 提出一种结合更多搜索引擎特征的评价指标
• 文档相关性不能绝对标识搜索引擎质量
• 用用户满足信息需求的有效时间比来衡量搜索引擎的好坏
• Case Study:加入展示信息质量
19
ALIBABA CONFIDENTIAL
计划
• 在统一的数据上验证各种假定
• 何时点击? 文档相关度 or 展示信息
• 点击后是否终止? 肯定终止 or 当前文档相关性决定 or 位置信息决定
• 略过后是否终止? 肯定继续 or 唯一概率终止 or 位置信息决定
• 结合用户所有已点击信息预测用户的继续查看行为
• 用户继续查看/终止查询不是仅由前一个点击文档决定的[Dupret+10]
• 考虑已经点击的文档综合能提供的信息和查看过的文档的关系
• 足够多的相关文档已经满足 离开
• 看过足够多的文档但相关信息不多失去耐心离开
• 结合点击时间因素来预测文档相关性
• 点击一个不相关的文档可能导致快速返回,修改查询或点击新的文档
20
ALIBABA CONFIDENTIAL
21
ALIBABA CONFIDENTIAL