ppt - Jiaheng Lu

Download Report

Transcript ppt - Jiaheng Lu

面向学术系统的定向爬
取技术研究和实现
姓名:李德阳
学号:2013103310
导师:陆嘉恒
目录
选题依据
课题技术路线及研究方案
工作进度安排
预期成果
学术搜索
 Google学术搜索
Google学术搜索提供可广泛搜索学术文献的简单方法。您可以从一个
位置搜索众多学科和资料。它可以帮助您在整个学术领域中确定相关
性最强的研究。http://scholar.google.com/
 BASE学术搜索
BASE是德国比勒费尔德大学图书馆开发的一个多学科的学术搜索引擎,
提供对全球异构学术资源的集成检索服务。它整合了德国比勒费尔大
学图书馆的图书馆目录和大约160个开放资源(超过200万个文档)的
数据。http://www.base-search.net/
 pandasearch
选题依据
 信息量指数增长。
 标准爬虫满足不了需求。
慢
 标准爬虫缺点
消耗大量的存储空间
带宽资源
容易出错
 定向爬虫是为了获得互联网上某一方面的特定信息而设计的。最理想
的定向爬虫是能使获得的页面相关性最大,而不相关性最小。
 快速、消耗少量的带宽和存储空间、个人机就可以爬取。
 标准爬取和定向爬取
国内外研究现状分析
 根据某一特定查询语句来爬取特定文档信息。
seed keywords
seed urls
seed pages
topic keywords
web page
COMP630D Course Project Report:
Implementation of Focused Crawler
Yang Yongsheng,Wang Hui
Department of CS/EEE, HKUST
[email protected], [email protected]
国内外研究现状分析
国内外研究现状分析

The Context Focused Crawler
Focused Crawling Using Context Graphs
M.Diligenti,F.M.Coetzee,S.Lawrence,C.L.Giles and M.Gori
NEC Research Institute,4 Independence Way,Princeton,NJ 08540-6634
 满足不了学术搜索系统的建立。
要求:
1.全
2.准确
课题技术路线及研究方案
 爬取计算机相关网站,保证信息相关性最大,查全率、查准率最高。
服务器
爬取引擎
照片
静态页面
GoogleAPI Springer
IEEE
动态页面
ScienceDirect 知网
 建立学术搜索必须首先建立专家学者库以及论文库。
姓名、单位、照片、邮箱、介绍等

专家库
论文
论文标题、子标题、作者、期刊号、页码、摘要等
论文库
论文全文
 分类
Google
Springer
爬取的网站
IEEE
ScienceDirect
其他
照片
作者信息
爬取的内容
论文标题、摘要、期刊号、页码等信息
全文信息
爬取照片
服务器
本地
本地
Google
照片
 Google图片
优点:爬取的图片查准率较高。
缺点:但是稳定性差,速度慢。
 GoogleAPI
优点:爬取的图片查准率高,稳定性好,速度快。
缺点:每天的访问次数有限制。
照片
下载图片
切割图片
人脸识别
保存照片
下载图片
来源网站Google API
注册Google账户
爬取数据
申请key
json
解析
key值列表
url
爬取图片
过滤
 我们前台显示的照片大小为96*96,后缀为jpg,这就需要对下载下来
的图片进行切割。
1.程序切割
2.第三方工具
人脸识别
 去掉没有头像的图片
 OpenCV
 手动二次删除
转化成Base64字符串
保存到10.77.20.50服务器中
静态网页
enter new page
<a class="fz14" ..>
crawl Elements
getDom
other
input
extract
Candidate Elements
enter new page
getData
database
静态网页

CCF上面出版社为Springer的期刊
1.获得期刊名和网址的列表 seed urls
2.爬取每个网址,获得数据。
3.插入到数据库中。

Journal
1.获得所有journal的列表 seed urls
2.获取数据。

Lecture Notes
爬取数据

IEEE Transactions
1.获取列表 seed urls
2.爬取每个网址,获得数据。
3.插入到数据库中。
动态网页
 ScienceDirect、知网等网站的数据使用javascript生成,通过HttpClient
获得不了,这就需要使用其他方法获得动态数据。
 模拟浏览器的运行
HTMLunit、HttpClient、HttpURLConnection等是利用程序模拟浏览器
的,通过设置User-Agent参数来实现模拟。可是这样做却不能真正实
现浏览器的功能,比如不能运行js代码。我使用Selenium WebDriver,
它不拥有浏览器内核,而是直接调用真正的浏览器。
动态网页
enter new page
<a class="fz14" ..>
crawl Elements
getDomWithoutIframeContent
extract
has frame
frameDom
enter new page
Candidate Elements
click
fireEvent
getPageSource
output to 静态
动态网页
初始
状态
click hovor 元素 input
事件
dom url
状态1
状态5
状态2
状态3
状态4
实验结果
 从SD上获得爬取列表 seed urls
 下载静态页面
 解析页面获得数据
 插入到数据库中。
全文
服务器
远程服务器
从服务器上获取pdf链接地址
爬取pdf
本地
面临的挑战
 更新页面后如何防止重复的爬取
计算机科学每年都会产生大量新的数据,相关网站每年每月都会更新
数据,二次爬取时防止重复爬取,只爬取新的内容。
1个解决方法:可以按照volume issue编号来判断是否是新的内容。
工作进度安排
2014.11.1-2014.11.15
文献调研
2014.11.15-2014.12.31
系统设计
2015.1.1-2015.1.31
优化、测试系统
2015.3.1-2015.3.15
数据分析
2015.3.16-2015.5.1
撰写论文
预期成果
 能够实现面向学术系统的定向爬取,爬取照片、个人信息、论文等。
能够实现基于JS网站的爬取,准确、快速地获得爬取结果,为学术搜
索提供丰富的数据。丰富了爬取手段,对于爬取更复杂网站提供有力
工具。