次项目相似性的高效推è 算法CCML

Download Report

Transcript 次项目相似性的高效推è 算法CCML

REHIS:基于层次项目相似性
的高效推荐算法
论文作者:孙远帅
报告人:李培
2015/4/13
1
主要内容
2015/4/13
1
推荐系统概念
2
一般推荐算法
3
本文工作
2
1
推荐系统概念
2015/4/13
3
2
一般推荐算法
1. 基于内容的推荐
2. 协同推荐
3. 混合推荐
2015/4/13
4
3
本文工作
而本文的工作主要集中于协同过滤,协同过滤的主要思想就
是k近邻,即在用户集合中查找与目标用户最相似的K个用户
来进行推荐,其过程如下:
共同评分的item
推荐给目标用户
Top K
最相似用户最喜欢的item
2015/4/13
5
3
本文工作
1. Cosine距离
sim( x, y )  cos( x  y) 
r
x y
x  y
2

2
sS xy
r
x,s y ,s
2
r
 x,s
sS xy
2
r
 y ,s
sS xy
2. Pearson相关系数
 (r
sim( x, y) 
sS xy
x,s
 rx )(ry ,s  ry )
2
2
(
r

r
)
(
r

r
)
 x,s x  y ,s y
sS xy
sS xy
数据规模较大时,
其比较慢!
其中,Sxy是用户x和用户y共同评分的项目
2015/4/13
6
3
本文工作
为此我们引入倒排索引,构建一个用户项目的倒排索引
,来方便查找用户的共现项目。
虽然这样有效的减少了共现项目的查找时间,但其并没
有减少计算量,是否能减少计算量呢?
2015/4/13
7
本文工作
3
为此我们提出了TOPKS算法 ,利用相似度的分子是累加和
的形式,算法的主要过程如下:(以Cosine距离为例)
计算部分相似度
排序得到topk集
删除不必要用户
r
sS xy
r
x,s y ,s

r
r
x,s y ,s
2
 10000 | S xy
|
……
sS 1xy
估算最大值
2015/4/13
8
3
本文工作
不同规模用户数量上的比较实验
excution time(log10)
Excution Time Contrast Table Based-on
Different Number of User
4.50
4.00
3.50
3.00
2.50
2.00
1.50
1.00
0.50
0.00
Traditional
Inverted Index
TopKS
2.60
3.10
3.60
4.10
the number of participated users(log10)
2015/4/13
9
本文工作
3
不同稀疏度对近邻计算的影响
Excution Time Contrast Time Table Based-on
Different Sparsity of Rating Matrix
5.00
excution time(log10)
4.50
4.00
Traditional
3.50
3.00
Invert Index
2.50
2.00
1.50
TopKS
1.00
0.50
-0.50
0.50
1.50
2.50
3.50
the value of sparsity(*20)
2015/4/13
10
3
本文工作
通过Topks算法我们有效地提高了协同过滤算法的效率,但
是算法的效果不能令人满意。我们该如何改进呢?
协同过滤算法的效果依赖于一个准确的相似度度量,传统的
cosine距离、pearson系数等受限因素太多,难以准确度量
相似度。那我们该如何去度量相似度呢?
2015/4/13
2015/4/13
11
11
3
本文工作
为了提高协同过滤算法的相似度度量的准确度,我们就
需要引入更多的信息,而在推荐系统的用户数据上有很
多用户自定义的标签,这些标签存在着一定的层次关系
,并在一定程度上描述了项目的关键属性。
为此本文提出利用项目间的层次间关系,构建出一个
标签和项目之间的层次结构图,而后引入语义网络中
一种基于本体的概念相似度计算方法来计算相似度。
2015/4/13
12
3
本文工作
层次相似度的计算过程:
Artist
Genre
h
计算父子节点之间距离
a
wt(c, p )  (  (1   )
m
i
构建出标签和项目之间的层次结构图
Track
l
b
c
d
j
k
e
f
Album
g
E
d(p )  1 
)(
) IC (c )  IC ( p )T(c , p )
E(p )
d(p )
通过找到两个节点的最短距
离来求相似度
2015/4/13
13
3
本文工作
算法效果对比图
Accuracy Contrast Table
value of RMSE(log10)
1.32
1.30
1.28
cosine similarity
1.26
pearson correlation
1.24
1.22
TopKREHIS
1.20
1.18
0.00
0.50
1.00
1.50
2.00
N(the number of nearest user)(log10)
2015/4/13
14
3
本文工作
1. KNN扩展:引入倒排索引,加入Topks算法改进了KNN算法
使得传统协同过滤算法处理数据的能力有所提升,有效
的提高了算法的效率。
2. 基于层次项目相似性进行推荐:利用KNN算法和关联规则
完成标签层次结构,而后提出基于标签层次结构计算项
目相似度的方法,提高了推荐的准确度。
2015/4/13
15
欢迎批评指正!
论文作者:孙远帅
邮箱:[email protected]
电话:18250878229
2015/4/13
16