知识格构建 - Jiaheng Lu

Download Report

Transcript 知识格构建 - Jiaheng Lu

基于知识格
的学术搜索
引擎构建
黄斐然
2014.11.16
提要
任务分工
进度计划
知识格构建
系统开发
1
任务分工
任务分工
 数据提取(Figure)
 史晓文、张兴翰、薛乔轩
 数据提取(Text)
 陈瑛、凯秋雯、王嘉炜
 数据清洗
 韦皓诚、刘慧捷
 索引构建
 赵海洋、黄斐然
 知识格构建
 黄斐然、应梦婷、赵海洋
 系统集成与开发
 应梦婷、黄斐然、徐杰
2
进度计划
注:现有结果为R1版本
进度计划
(R1)
(R1)
算法
11.16 构建 11.30
数据提取
11.16
数据清洗
算法
构建
12.10
11.16 学习 11.30
索引构建
知识格
11.16 学习 11.30
11.16 学习 11.30
系统开发
算法
实现
校对
结果
12.20(R2)12.31
结果
(C1)
……
结果
12.31(C2)1.5
改进
(Cn) ……
1.5
测试改进
1.25
(I2)
1.5
测试改进
(K2)
1.25
构建
(I1)
构建
(K1)
构建
(S1)
改进
(Rn)
12.31
完善
(S2)
1.25
3
知识格构建
知识格构建
 为什么要构建知识格:
1、知识检索不同于普通文本检索,
试图获取更准确的结果;
2、分析知识的重要程度,指导搜索
引擎的搜索排名;
3、建立知识之间的联系,使搜索结
果形成较为完整的知识体系。
知识格构建
 如何构建知识格:
1、基于知识本身关键词
(难点:如何提炼关键词);
2、基于上下文关键词
(难点:如何选取关键词);
3、基于知识的重要性
(难点:如何定义知识的重要性)
4、基于知识之间的相关性
(难点:如何建立知识之间的联系);
知识格构建
 重要性的另一种构想:
Page Rank -> Paper rank.
Paper reference
B
A
C
D
① The knowledge in
Paper A is more
important than ones in
Paper E to a certain
probability.
E
F
② Maybe the
knowledge in Paper F
is very important too.
知识格构建
 相关性的另一种构想:
Location-based relation.
Paper A
Knowledge 1. aaaaaaaaaaaaaa
xxxxxxxxxxxxxxxxxxxxxx
Knowledge 2. bbbbbbbbbb
xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Knowledge 3. cccccccccccccccc
cccc
xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Knowledge 4. dddddddddddddd
dddddddddd
xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxx
Knowledge 5. eeeeeeeeeeeeee
eeeeeeeeeeeeeeeeeeeeeee
xxxxxxxxxxxxxxxxxxxxxxxxxxxx
① Knowledges in Paper
A are more relative to
each other than ones in
Paper B.
② Knowledge 5 is more
likely related to
Knowledge 4 other than
Knowledge 3, because
it is closer to the former
one.
 Data Structure
知识格构建
Relative
Most Relative
Definition
1
2
3
4
5
6
Figure
1
2
3
4
5
6
Algorithm
1
2
3
4
5
6
Example
1
2
3
4
5
6
4
系统开发
系统开发
 Struts + Spring + Hibernate
 MongoDB
Thanks!
Longing for
advice