ppt - Jiaheng Lu

Download Report

Transcript ppt - Jiaheng Lu

学术搜索系统中的学者论文搜索和相关论
文推荐系统研究与实现
答
辩
人 :
夏成银
指 导 老 师:
陆嘉恒 教授
专
业:
计算机软件
与理论
2014/12/11
目 录
选题背景
相关工作
系统设计和研究方案
特色和创新点
参考文献
选题背景
学术搜索系统
选题背景
学术搜索系统方面,国内外都有已经有一些系统,比如
谷歌学术、微软学术搜索、百度学术,它们在提供学术
资源检索等功能的基础上,都有各自的特色。
Google Scholar:依托于谷歌自身做搜索引擎的数据资
源优势,谷歌学术中可以搜索到世界上几乎所有的学术
期刊等学术资源。
Academic Search:在内容方面,Academic Search也
致力于提供学术资源对象级别的检索服务。
百度学术搜索:可以检索到免费和收费的学术论文,并
能够根据相关性、被引用次数和发表时间等进行排序。
ArnetMiner:对学者的社会网络等信息进行了进一步的
挖掘,某个学者的研究方向等更加深入的信息。
选题背景
从上面可以看出,各个学术搜索系统除了提供学术资源检索等基本功能之外
,都有自己的侧重点和特色。但是,由于学术搜索面向用户的多样性和国内
计算机学科发展的特点,关于学术搜索,仍然有大量的工作需要做。
 不同层次的学者对计算机学术搜索系统的需求不一样,比如刚开始做研究
的学者想大致了解某个方向,而资深的老师想了解进一步的深入,想了解
某个领域最新的趋势。
 对于国内的计算机研究人员,中国计算学会对于国际上的论文期刊有不同
的A、B和C等三个分级认定,这个分级相当于对某篇学术论文的质量和水
平做了一个比较客观的论断。通过该分级,国内的学者能够对某一篇论文
有一个大概的直观认识。
学术搜索系统中的学者论文搜索和相关论文推荐系统
计算机领域的论文、学者和单位搜索
计算机领域论文的CCF分级
DBLP论文数据的自动更新
相关论文的推荐
目 录
选题背景
相关工作
系统设计和研究方案
特色和创新点
参考文献
相关工作
1、学术搜索系统
• 返回所有结果排序后的结果(Google Scholar)
– 优点:返回的结果比较全
– 缺点:没有对结果进行整理,需要用户自己从
中寻找有用的结果
• 垂直搜索和对象级别的检索(Microsoft
Academic Search)
– 是对库中的相关信息进行整合,抽取出需要的
数据进行处理后再以某种形式返回给用户。
– 提供面向资源对象级别的更加细化的检索
• 对学术社交网络中的信息进行进一步的挖掘
– Arnetminer
相关工作
2、相关论文推荐
• (1) 推荐算法
– 基于内容的推荐(Content-based recommendation)
分析所有待推荐条目的属性特征进行推荐
比如,一个电影网站中,给一个喜欢西部片的用户推荐属
于西部片的电影。
– 协同过滤(Collaborative filtering recommendation)
根据用户或者待推荐条目之间的相似性来进行推荐
比如,在一个在线书店中,对于两个具有相似看书爱好的
用户,将一个用户喜欢的书籍推荐给另一个用户。
相关工作
2、相关论文推荐
• (2)论文推荐
– 问题:给定用户的兴趣信息,找出用户可能感兴趣的
其他相关论文。
这里的用户兴趣可能是根据用户的浏览信息或者 是其他信
息推断得来的。
– 常用方法:Citations,协同过滤,probabilistic topic
modeling
目 录
选题背景
相关工作
系统设计和研究方案
特色和创新点
参考文献
系统设计和研究方案
1、系统设计
(1) 系统架构图
Offline
数据爬取
元数据抽
取
数据增量
更新
Online
论文推荐
数据存储
基础设施
相关技术:
Boostrap、MongoDB、Python、Flask
搜索
系统设计和研究方案
(2) 模块设计
增量更新设计
Paper
Incremental
DBLP
Update
Dectection
Journals &
Conference from
DBLP
Paper
Incremental &
Rank
Data
Incremental
Parser
Scholar
Incremental
论文分级的确定
Basic Paper
Rank
Update
in
Database
Scholar
Incremental
A:
ACM Multimedia
Booktitle
&
Journal
Final Rank
Paper Pages
Etc.
Paper Rank
Dict
ACM Multimedia (1)
ACM Multimedia (2)
ACM Multimedia (3)
系统设计和研究方案
2、相关论文推荐
(1) 问题的定义
给定一篇论文(计算机领域),找出和该论文相关的其它论文,供用
户参考。
输入:
DBLP的论文数据(包含题目、作者、会议、期刊、年份等)、计算机领
域的学者信息(姓名、单位等)和其他从网络上爬取到的论文摘要等信
息。
输出:
对于计算机领域的每一篇论文,找出和它相关的论文。
系统设计和研究方案
2、相关论文推荐
(2) 思路
1) 论文到论文的推荐
根据现有论文的题目、会议、年份、作者和摘要等信息,抽取出
论文的特征信息。
对于每一篇论文,找出和这篇论文相关的其他论文。
2) 由作者到论文的推荐
利用现有的学者数据,抽取出学者信息,然后对于每篇论文的作
者的研究方向进行建模,利用这些信息找出其它和这篇论文相关
的论文。
3) 将上面的两种结果进行综合,得到最终的推荐结果。
系统设计和研究方案
2、相关论文推荐
(3) 难点和挑战
• 如何基于现有的数据,抽取出有效表示论文内容的数据。
• 根据抽取出的论文特征数据,设计出有效的推荐算法
• Similarity和Diversity的平衡
• 当有新的论文数据加入时,如何更新推荐的数据
目 录
选题背景
相关工作
系统设计和研究方案
特色和创新点
参考文献
特色和创新点
学术搜索系统中的学者论文搜索和相关论文推荐系统
系统中能够搜索计算机领域论文的CCF分级
实现了学术搜索系统论文数据的自动化增量更新
实现了有效的相关论文推荐算法
目 录
选题背景
相关工作
系统设计和研究方案
特色和创新点
参考文献
参考文献
主要研究内容
• Fung, B., Wang, K., & Ester, M. (2003, May). Hierarchical document clustering using
frequent items. SDM’03, San Francisco, CA
• G. Adomavicius and A. Tuzhilin, “Towards the next generation of recommender
systems: a survey of the state-of-the-art and possible extensions,” IEEE Trans. on
Data and Knowledge Engineering 17:6, pp. 734–749, 2005.
• C. Anderson, The Long Tail: Why the Future of Business is Selling Less of More,
Hyperion Books, New York, 2006.
• G. Linden, B. Smith, and J. York, “Amazon.com recommendations: itemto-item
collaborative filtering,” Internet Computing 7:1, pp. 76–80, 2003.
• L. von Ahn, “Games with a purpose,” IEEE Computer Magazine, pp. 96–98, June
2006
• Anick, P. G., Brennan, J. D., Flynn, R. A., Hanssen, D. R., Alvey, B., & Robbins, J. M.
(1990). A direct manipulation interface for boolean information retrieval via natural
language query. In Proc. of the ACM SIGIR-90(pp. 135–150).
感谢各位老师的指导纠正!