Transcript Slide 1

信息抽取(Information Extraction)
及其在数字图书馆中的应用研究
中国科学院国家科学图书馆
张智雄
北京
2006.8.15
www.csdl.ac.cn
主要内容
1.
2.
3.
4.
5.
6.
什么是信息抽取(IE)
信息抽取相关研究活动
信息抽取的层次和类型
信息抽取系统及其应用
数字图书馆中信息抽取技术的应用前景
中文信息抽取系统的开发
www.csdl.ac.cn
1.什么是信息抽取(IE)
• 先从CLEF项目说起
• A Co-operative Clinical E-Science Framework
(CLEF)
• Funded by the UK Medical Research Council
• Descriptive information:
–
–
–
–
–
–
Clinical histories
radiology reports
pathology reports
annotations on genomic and image databases
technical literature
Web based resources
www.csdl.ac.cn
Knowledge
enrichment
Integrate &
Aggregate
Pseudonymised
Repository
Extract
Information
Hazard
monitoring
Ethical oversight
committee
Chronicle
Depersonalise
Summarise
& Formulate
Queries
Construct
‘Chronicle’
Pseudonymise
In Hospital
Data Acquisition
Cycle
Individual
Summaries
& Queries
Privacy
Enhancement
Technologies
Data Access
Cycle
Reidentify
By Hospital
CLEF Architecture Outline
www.csdl.ac.cn
临床报告
ROYAL MARSDEN NHS TRUST - PATIENT CASE NOTE
324A621F:MRS Dorothy Smith
DOB: 12/05/44
21, Park Crescent
Basingstoke B12 Q13
16 Dec 1992
Seen in General Surgical
This lady who has had a mastectomy and left open capsulotomy and
removal of her prosthesis was seen by me in the clinic today on
behalf of Mr Peterson. She has extensive bony lymphoedema in her
left arm which does not seem to be getting any better although
she is more or less reconciled to the problem. The original
problem was that she complained of shooting pain in the
direction of ulna nerve and although there does not seem to be
any evidence of local, regional or distant recurrence the pain
itself warrants management in a pain clinic. Mrs Smith could
be seen in the pain clinic at the Marsden but as this would
involve a lot of travelling would like to be treated nearer her
home. I wonder whether it would be possible for you to
investigate if there is a pain clinic available at Basingstoke as
I am sure Dotty could be treated and benefit from its
management. I have otherwise arranged for her to be seen in the
clinic again in a year's time. There are no signs of recurrence
at this time.
Mr Thomas Partridge
www.csdl.ac.cn
从文本中实现关键信息抽取
##### ####### NHS TRUST - PATIENT CASE NOTE
########:######### #######
DOB: 1944
CLEF-RMH-Entry-Key: 52A4F6DB2B46E
AB 1992
根据模版或相关的知识资源
标识出重要的信息及其相关
关系
Seen in General Surgical
This lady who has had a mastectomy and left open capsulotomy and
removal of her prosthesis was seen by me in the clinic today on
behalf of XXXXXXXXXXX. She has extensive bony lymphoedema in her
left arm which does not seem to be getting any better although
she is more or less reconciled to the problem. The original
problem was that she complained of shooting pain in the
direction of ulna nerve and although there does not seem to be
any evidence of local,
local, regional
regional or
or distant
distant recurrence the pain
clinic XXXXXXXXX could
itself warrants management in a pain clinic.
be seen in the pain clinic at the XXXXXXX but as this would
involve a lot of travelling would like to be treated nearer her
home. I wonder whether it would be possible for you to
investigate if there is a pain clinic available at XXXXXXXXXXX as
I am sure XXXXX could be treated and benefit from its
management
management. I have otherwise arranged for her to be seen in the
year’s time.
time There are no signs of recurrence
clinic again in a year's
at this time
time.
5213A4F612F1
Interventions
Problems
Problem Site
Locations
Time
www.csdl.ac.cn
从文本中实现关键信息抽取
放射报告、病理学
报告,或 其它叙述
性报告
GeneralSurgical
Surgical
General
left open capsulotomy
mastectomy
left open capsulotomy
mastectomy
removal of her prosthesis
removal of her prosthesis
today
left open
capsulotomy
today
bony lymphoedema management
bony lymphoedema
management
left arm
left arm
mastectomy
shooting pain in the
removal
of her prosthesis
shooting
pain
in
the
direction of ulna nerve
no signs of recurrence
direction of ulnalocal,
nerve regional or distant
bony lymphoedema
local, regional
pain
painor distant recurrence
pain
recurrence
pain clinic
management
recurrence
pain clinic
pain clinic
shooting pain in the
management
direction of ulna nerve
pain clinic
local, regional or distant
pain clinic
left arm
pain
clinic
management
pain clinic
a year’s time
General Surgical
management
clinic
pain clinic
a year’s
time
clinic
no signs
of recurrence no signs of recurrence
pain clinic
at this time
at this time
clinic
today
a year’s time
at this time
来自于药品或实验
中的信息
收集抽取出的信息…
也可跨越多个文档
Interventions
Problems
Problem Site
Locations
Time
www.csdl.ac.cn
形成病历
自动实现相关事件的链
接?
What happened & why ?
What was done & why ?
mastectomy
left open capsulotomy
management
caused_by
mastectomy
removal of her prosthesis
no signs of recurrence
recurrence
bony lymphoedema
pain
shooting pain in the
direction of ulna nerve
local, regional or distant
left arm
General Surgical
Interventions
Problems
bony lymphoedema
pain clinic
pain clinic
clinic
pain
today
a year’s time
at this time
Problem Site
Locations
Time
www.csdl.ac.cn
病历摘要
只有通过许可的人才可看到人名
等信息 EPR
Hospital
EPR Drugs Refer Tools Help
CLEF-RMH-Entry-Key:
52A4F6DB2B46E
Maria Sklodowska-Curie
Female 66 with radiation induced leukaemia since 1931
Onset age 63. Thirty three appointments to date.
Problems: Aplastic anaemia, cataract, asthenia
Tx:imatinib
Meds: unclear
12.10.20 Coryza: chest NAD: reassure
13.10.20 URTI: wheezy: amoxycillin
20.10.20 Anxiety: lump under arm: staging scan
24.10.21 PEFR : 300 :
10.11.21 PEFR : 400: CXR requested
12.11.21 CXR Basal Consolidation: : erythromycin
27.11.21 : Chest clear :
07.03.30 Depression: recurrence: Paroxetine
19.04.30 WCC OK
01.06.31 : : rpt Rx paroxetine
18.10.31 Pain L arm: : coproxamol
03.03.31 Viral URTI: PEFR 350: salbutamol
04.03.34 WCCAbnormal : :
30.05.34 : BP, ECG NAD :
Drugs Results Letters
形成一个非常简短的病
历摘要
Staging CT
Protocol 354
Appt
BP
在首页上形成一个
摘要
Haem Chem Immu Bact
Xray ECG USS
www.csdl.ac.cn
1.什么是信息抽取(IE)
• 针对目前的信息过载和数据泛滥的情况
–
–
–
–
–
–
–
–
自然语言处理(NLP)
人类语言技术(HLT)
计算机语言学(CL)
知识工程(KE)
知识管理(KM)
语义网络(Semantic Web)
智能代理(Agent Based Computing)
Web智能(Web Intelligence)
www.csdl.ac.cn
1.什么是信息抽取(IE)
• 欧洲美发达国家提出了“知识技术”
(Knowledge Technologies)这一概念
–
–
–
–
–
–
–
–
–
知识获取
知识建模
知识表示和可视化
知识解析和共享
知识重用
知识检索
知识的出版和分发
知识维护
……
www.csdl.ac.cn
1.什么是信息抽取(IE)
• 两条研究路线
– 基于KDD和Data Mining的线路。从结构化的数据(如数
据库中的数据)中发现新的知识。
– 基于自然语言处理(NLP)和文本挖掘(Text Mining)
的线路。从非结构化或半结构化的数据(如Word、
HTML、或PDF文件)发现新知识。“从大量的非结构
化的数据中标识并抽取出事件的趋势和模型,并它们转
换成为有用并可理解的信息”
www.csdl.ac.cn
集两种线路于一体的数字图书馆知
识发现和知识表现的解决方案
www.csdl.ac.cn
1.什么是信息抽取(IE)?
• 信息抽取(Information Extraction):目
前日渐成熟,并得到越来越多人关注的文
本挖掘方式
www.csdl.ac.cn
1.什么是信息抽取(IE)?
• Hamish Cunningham
– Information Extraction (IE) is a technology based on
analysing natural language in order to extract snippets
of information.
– 信息抽取是一个输入/输出过程。
• 输入:未知文本信息
• 输出:固定格式、无二意性数据(信息)
– 这些被抽取出来的数据可以
• 直接显示给用户
• 存储于数据库或电子表格中以供随后分析
• 被用于索引系统,以便于将来进行检索访问
www.csdl.ac.cn
1.什么是信息抽取(IE)?
• Douglas E. Appelt等
• 信息检索和信息抽取对比
– 信息检索仅仅从文件集(数据库)中找出相关的文献
(数据)并简单地显现给用户
– 而信息抽取不是仅仅指出某篇文献适合用户的需要,而
是抽取真正适合用户的那些信息片段提供给用户
www.csdl.ac.cn
1.什么是信息抽取(IE)?
• 继续对信息检索和信息抽取对比
– 信息检索:获取一个与检索内容相关的文章的子集,用
户得分析文章内容
www.csdl.ac.cn
1.什么是信息抽取(IE)?
• 继续对信息检索和信息抽取对比
– 信息抽取:抽取与用户所需内容相关的事实(件),用户
分析事实(件)。
www.csdl.ac.cn
1.什么是信息抽取(IE)?
• 信息检索和信息抽取对比总结
– 功能不同。 如前所述
– 处理技术不同。信息检索系统通常利用统计及关键词匹配
等技术,把文本看成词的集合(bags of words),不需
要对文本进行深入分析理解;而信息抽取往往要借助自然
语言处理技术,通过对文本中的句子以及篇章进行分析处
理后才能完成。
– 适用领域不同。由于采用的技术不同,信息检索系统通常
是领域无关的,而信息抽取系统则是领域相关的,只能抽
取系统预先设定好的有限种类的事实信息。
www.csdl.ac.cn
主要内容
1.
2.
3.
4.
5.
6.
什么是信息抽取(IE)
信息抽取相关研究活动
信息抽取的层次和类型
信息抽取系统及其应用
数字图书馆中IE的应用前景
中文信息抽取系统的开发
www.csdl.ac.cn
2.信息抽取相关研究活动
• IE的发展与以下研究活动密切相关:
–
–
–
–
MUC(Message Understanding for Comprehension)
MET(Multilingual Entity Task Evaluation)
ACE(Automatic Content Extraction)
DUC(Document Understanding Conferences)
www.csdl.ac.cn
2.1MUC
• MUC之于IE,正如TREC之于IR
• 也有人们认为MUC是Message Understanding
Conference或Message Understanding
Competition
• 20世纪80年代未由美国国防部的DARPA(Defense
Advanced Research Projects Agency) 发起
www.csdl.ac.cn
2.1MUC
• MUC唯一任务就是“信息抽取”:对自由文本进行分析,
标识出某一特定类型的事件,并将有关这一事件的信息填
写到相应的数据模板中
• 总共进行7次:
– 最初的MUC 1-2关注的是对电子邮件信息的抽取
– 20世纪90年代之后的MUC 3-7主要关注对新闻文章的抽取,主
题涉及恐怖活动、国际风险投资、企业成功管理经验
• MUC对于信息抽取的研究内容、信息抽取方式的分类、信息
抽取系统的评价等都起到重要的促进作用
www.csdl.ac.cn
2.2MET
• MET: Multilingual Entity Task Evaluation
• 也是DARPA发起的一个测评项目。
• MET的主要是对日语、汉语以及西班牙语等多语
种新闻文献进行命名实体抽取
• MET-1和MET-2测试分别于1996年和1998年进行
www.csdl.ac.cn
2.3ACE
• ACE (Automatic Content Extraction)
• 这一项目由美国国家安全局(NSA),美国商务部技术管理
部门(NIST),以及中央情报局(CIA)一同主管。
• 关注三种信息的自动化内容抽取:
– 网络上的在线新闻、
– 通过ASR(自动语音识别的)得到的广播新闻
– 以及通过OCR(光学字符识别)得到的报纸新闻,
• 两个目的:
– 希望在自动化内容抽取基础之上,为数据挖掘、链接分析、自
动摘要等打下基础
– 通过将相应的信息提供给相应的分析师,以提高信息分析的能
力。
www.csdl.ac.cn
2.3ACE
• 项目为期5年
– ACE Phase-1(1999.7-2000.12)优先发展的是实体探测及追踪
(EDT, Entity Detection and Tracking) 。
– ACE Phase2(2001-现在)被称为EDT + RDC。其中RDC为
Relation Detection and Characterization。ACE第二阶段希望
在第一阶段实体探测的基础之上,引入了对实体关系的评测,
需要能够将标识出的实体之间的关系揭示出来。
www.csdl.ac.cn
2.4 DUC
• DUC,Document Understanding Conferences
• 是在DARPA的TIDES (Translingual Information Detection,
Extraction, and Summarization program)基础之上发起的一
个对“文本概括”进行研究测评的项目
• 起于2000年,已经进行了DUC 01-06,DUC 2007也在规划
之中
• 目前,系统测评会议由美国商务部技术管理部门NIST来管
理。
www.csdl.ac.cn
主要内容
1.
2.
3.
4.
5.
6.
什么是信息抽取(IE)
信息抽取相关研究活动
信息抽取的层次和类型
信息抽取系统及其应用
数字图书馆中信息抽取技术的应用前景
中文信息抽取系统的开发
www.csdl.ac.cn
3.信息抽取的层次和类型
• MUC根据信息抽取内容以及所抽取出的信息的集聚水平的
不一样,将信息抽取分为以下的几种主要类型
– NE。命名实体识别(Named Entity Recognition)
– MET。多语种实体识别任务(Multi-lingual Entity Task)信息
抽取
– TE。模板元素(Template Element)信息抽取
– CO。参照(Coreference)信息抽取
– TR。模板关系(Template Relation)信息抽取。
– ST。情节模板(Scenario Template)信息抽取。
www.csdl.ac.cn
3.1 NE
• NE(Named Entity Recognition)命名实体识别
• 最为基础的类型,此类信息抽取需要系统能够识
别出实体名,并将相应的实体名进行归类。
• MUC测评识别并抽取出人名,组织名,日期,时
间,地点,以及某种类型的数字表达式(如货币
数量,百分数),并在文本中对这些信息进行标
注。
• NE具有非常直接的实用价值,在对文本中的名称、
地点、日期等进行标注之后,即提供了对这些信
息进行检索的可能。对于许多语言处理系统,NE
都是其中一个很重要的组件。
www.csdl.ac.cn
3.1NE
• The shiny red rocket was fired on Tuesday. It is
the brainchild of Dr. Big Head. Dr. Head is a staff
scientist at We Build Rockets Inc.
– NE: entities are "rocket", "Tuesday", "Dr. Head" and
"We Build Rockets"
www.csdl.ac.cn
3.2 MET
• MET(Multi-lingual Entity Task)多语种实体识别
任务信息抽取
• MET除了能够对英文命名实体进行识别之外,还
需要能够对多语种的命名实体进行识别,例如可
以对中文、日文或西班牙文进行命名实体识别。
www.csdl.ac.cn
3.3 TE
• TE模板元素(Template Element)信息抽取
• TE信息抽取将特定的描述信息与实体联系起来。
它需要从文本的任何地方将与组织、人物或其它
实体相关的基本信息抽取出来,并将这些信息作
为实体的属性进行聚集,形成实体对象
www.csdl.ac.cn
3.3 TE
• 在MUC评测中,TE系统需要能够从文本中抽取特
定类型的实体信息,并将这些信息填写到预先定
义的小型的属性模板之中。
• 例如对人物实体的模板元素抽取,需要信息抽取
系统能够抽取出预先定义的人物的名称、职务、
国籍等属性。
www.csdl.ac.cn
3.3 TE
• The shiny red rocket was fired on Tuesday. It is
the brainchild of Dr. Big Head. Dr. Head is a staff
scientist at We Build Rockets Inc.
– NE: entities are "rocket", "Tuesday", "Dr. Head" and
"We Build Rockets"
– TE: the rocket is "shiny red" and “Dr. Head's brainchild”.
www.csdl.ac.cn
3.4 CO
• CO 参照(Co-reference)信息抽取
• CO涉及在进行NE或TE任务时,从文本中标识出
对同一实体的不同表达方式。
• 例如
– 连接某同一实体的不同称谓。Tony Blair,The premier
minister
– 将某一名词和其相应的代名词进行连接。
www.csdl.ac.cn
3.4 CO
• 在MUC中,CO之所以得到重视,是因为它能够
为创建TE和ST(见下文)打下基础。
• CO可以将散布在文本中不同地方的同一实体的描
述信息连接起来。
• 分析
– 实体在文本中不同地方出现的情况
– 实体在不同场合与其它实体之间的关系
有助于情节信息的抽取。
www.csdl.ac.cn
3.4 CO
• The shiny red rocket was fired on Tuesday. It is the
brainchild of Dr. Big Head. Dr. Head is a staff scientist at
We Build Rockets Inc.
– NE: entities are "rocket", "Tuesday", "Dr. Head" and "We
Build Rockets"
– TE: the rocket is "shiny red" and Head's "brainchild".
– CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big
Head“ are the same
www.csdl.ac.cn
3.5 TR
• TR模板关系(Template Relation)
• TR需要在TE的基础之上标识出模板元素之间的关系。
• TR是MUC-7定义的一项新任务,需要抽取模板元素之间的
相互关系。
• 例如:
–
–
–
–
职员和组织之间的关系(employee_of)
产品和生产企业之间的关系(product_of)
以及公司和地区之间的关系(location_of)
etc
www.csdl.ac.cn
3.5 TR
• The shiny red rocket was fired on Tuesday. It is the
brainchild of Dr. Big Head. Dr. Head is a staff scientist at
We Build Rockets Inc.
– NE: entities are "rocket", "Tuesday", "Dr. Head" and "We
Build Rockets"
– CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big
Head“ are the same
– TE: the rocket is "shiny red" and Head's "brainchild".
– TR: Dr. Head works for We Build Rockets Inc.
www.csdl.ac.cn
3.6 ST
• ST 情节模板(Scenario Template)
• ST抽取某一事件中的事件信息并将事件信息与某
个组织、人物或其它实体相关联。
• ST需要标识出特定事件及事件的相关属性,包括
将事件中的各个实体填充到事件的相应角色中,
通过各个对象之间的关系,能够还原出整个事件
的“原型”。
www.csdl.ac.cn
3.6 ST
• The shiny red rocket was fired on Tuesday. It is the brainchild
of Dr. Big Head. Dr. Head is a staff scientist at We Build
Rockets Inc.
– NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build
Rockets"
– CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are
the same
– TE: the rocket is "shiny red" and Head's "brainchild".
– TR: Dr. Head works for We Build Rockets Inc.
– ST: a rocket launching event occurred with the various
participants.
www.csdl.ac.cn
主要内容
1.
2.
3.
4.
5.
6.
什么是信息抽取(IE)
信息抽取相关研究活动
信息抽取的层次和类型
信息抽取系统及其应用
数字图书馆中IE的应用前景
中文信息抽取系统的开发
www.csdl.ac.cn
4 信息抽取系统及其应用
• GATE
www.csdl.ac.cn
4.1 GATE
• GATE (General Architecture for Text
Engineering)
• 1995开始,University of Sheffield
• 纯Java语言开发的免费开源软件
• 编码方式是Unicode
• GATE支持的文档类型包括XML、 RTF、Email、
HTML、SGML以及纯文本文件
www.csdl.ac.cn
4.1 GATE
• Gate项目组认为,典型的信息抽取系统的应当包
括三大过程
– 预处理过程
– 命名实体探测过程
– 事件探测过程。
www.csdl.ac.cn
预处理过程
• 其中预处理过程并不实现信息抽取,但它是信息抽取的前提。
–
–
–
–
–
文本格式的检查(Format Detection)
特征标记(Tokenisation)
分词 (Word Segmentation)
句法分割(Sentence Splitting)
语法标记(POS tagging)
• 通过这些预处理,可以将文本分解成为有一定语言意义的语
言片段,并对这些语言片段进行标记,使文本能够被转换成
为更易于被信息抽取系统处理的模式
www.csdl.ac.cn
命名实体探测
• 命名实体探测过程实现对命名实体的探测,并通过参照实现
实体之间的联系。
• 在这一过程中,通常需要借助辞典来实现人物、组织、地点、
时间等命名实体的探测,辞典中也可能会包括一些相应的指
示词(如Ltd.提示公司名称)用以指示相应的实体内容。
• 一些系统还具有语义标记的功能。如ANNIE系统,通过
JAPE(Java Annotations Pattern Engine) 书写的规则,能够
对实体进行更深入的语义标注。
www.csdl.ac.cn
事件探测
• 事件探测过程是在命名实体探测过程基础之上实施的
一个过程,它抽取某一事件中的事件信息并将事件信
息与某个组织、人物或其它实体相关联,构造出事件
的概貌。
www.csdl.ac.cn
www.csdl.ac.cn
4.1 GATE
GATE的作用:
1)为语言处理软件规定了一个架构,提供了有组
织的结构。
2)提出了一个框架以及可以应用的类库,实现这
个架构并且可以将其嵌入到各种不同的语言处理
应用程序中。
3)提供了语言工程的开发环境。这个开发环境构
建在整体框架之上,并且提供了方便的开发组件
的图形化工具。
www.csdl.ac.cn
www.csdl.ac.cn
4.1 GATE
• GATE的应用领域:
• 知识管理和语义网络、数字图书馆和文化遗产、
E-science、生物信息学、人类语言技术、数字图
书馆中的文档标注和处理、数字图书馆中的多媒
体 、E-science与网格、语义网络与知识技术、人
类语言技术
www.csdl.ac.cn
4 信息抽取系统及其应用
• 除了GATE之外,还有很多IE系统和IE项目
–
–
–
–
–
–
–
–
–
–
–
KIM
ArtEquAKT
Amilcare
Armadillo
BioRAT
ANP(Arizona Noun Phraser)
DELOS WP5: Knowledge Extraction and Semantic
Interoperability
TAKE: Toolkit for Agent-based Knowledge Extraction
SKIF:A Distributed Knowledge Extraction Framework Based
on Semantic Web Services
BioMeKe :BioMedical Knowledge Extraction project
……
www.csdl.ac.cn
主要内容
1.
2.
3.
4.
5.
6.
什么是信息抽取(IE)
信息抽取相关研究活动
信息抽取的层次和类型
信息抽取系统及其应用
数字图书馆中IE的应用前景
中文信息抽取系统的开发
www.csdl.ac.cn
5 数字图书馆中IE的应用前景
• 许多与文本、信息、知识的获取、加工、分析、
管理相关的应用领域都可以利用信息抽取技术。
• 在数字图书馆的建设中,信息抽取技术也具有很
好的应用前景。
www.csdl.ac.cn
5.1自动标引及元数据获取
• 数字图书馆
– 海量信息资源
– 检索不仅仅是关键词检索的问题
– 有效揭示方式
• 内容标引和元数据加工是数字图书馆区别于其它低品质信息
检索系统的一个重要方面
• 国外还有多个项目:SEKT、S-CREAM、Amilcare、LASIE、
SemTag
www.csdl.ac.cn
5.2数据挖掘和情报研究分析
• 数据挖掘的前提是大量相关数据的采集。
• 数字图书馆的情报研究分析亦需要从大量的相关信息中研究
分析出事件发展的各种态势。
• 竞争情报更是有目的情报收集和研究。
• 这些信息和数据从何处而来?
• 信息抽取提供了一条进行大规模数据及信息采集的思路。
• 例子很多。MUC, ACE的支持者都与国家安全机构相关
(DoD, CIA),主题“反恐”,“风险投资”
www.csdl.ac.cn
5.3大型知识库、数值库建设
• 数字图书馆的长远目标从信息检索服务转向知识
提供服务。知识提供的前提是知识的获取。如何
有效地获取知识呢?
• 从非结构化的文本中建设知识库。
• 中国科学院科学数据库。
• Ontology驱动的信息抽取来实现知识的获取
www.csdl.ac.cn
5.4 问题解答
• 问题解答(Question Answering, QA)其实也是NLP研究中的
一项重要内容。
• 数字图书馆中的参考咨询正在促进着数字图书馆服务方式从
检索方式到问题解答方式的转变,目前的参考咨询系统主要
凭借馆员个人的学识对读者的问题进行解答。然而NLP技术
的进步,已经开始显示出自动从知识库中获得答案的可能。
• 信息抽取技术能够为问题解答系统提供坚实的支持。
• 相关研究如Prof. Rob Gaizauskas (Question Answering
and Summarisation)
www.csdl.ac.cn
主要内容
1.
2.
3.
4.
5.
6.
什么是信息抽取(IE)
信息抽取相关研究活动
信息抽取的层次和类型
信息抽取系统及其应用
数字图书馆中信息抽取技术的应用前景
中文信息抽取系统的开发
www.csdl.ac.cn
6.中文信息抽取系统的开发
• 英文信息抽取相对成熟
• GATE对中文信息抽取的支撑不足
• 我馆在GATE的基础之上,开发出了一个支持中文
信息抽取的系统,初步解决了中文信息抽取问题。
www.csdl.ac.cn
6.中文信息抽取系统的开发
• 初步解决中文信息抽取
www.csdl.ac.cn
6.中文信息抽取系统的开发
• 三个中文信息抽取的主要问题
– Chinese tokenizing
– Chinese gazetteers
– Chinese named entity recognition
www.csdl.ac.cn
相应的处理方案
Chi Tokenizing
中
文
信
息
抽
取
Chi IE
Chi Gazetteer
Chi Rules
应用实例
应用实验
用Java的JNI调用计算所
ICTCLAS实现分词和词性标注。
基于GATE的英文、中文信息抽
取,开发Chinese Annie组件。
通过网上免费语料或自己制作
获得。(目前已有英文词表95
个;中文词表74个)
重新构造中文IE的JAPE规则。
和现有信息系统结合,比如
RSS信息聚合系统。
www.csdl.ac.cn
www.csdl.ac.cn
中文预处理
•
•
•
•
•
•
•
•
•
•
•
•
中文分词与词性标注
利用了ICTCLAS的研究(C++)成果
词性标注算法:HMM(马尔可夫隐码模型)
分词算法:图的N阶最短路径问题算法
源码结构:
Utility
共用函数模块
Unknown
未登录词识别模块
Tag
HMM标注模块
Segment
词语切分模块
Result
结果生成模块
Data
概率数据文件
res
Windows界面的资源
www.csdl.ac.cn
www.csdl.ac.cn
中文语料收集
• 语料的收集:训练语料与词表
3.3 语料的收集、加工
• 中文语料收集(人民日报标注语料库、哈工大信息检
索研究室语料等)共125M
www.csdl.ac.cn
• 词表共95张英文词表,74张中文词表(世界城市、公司名称、
国家形容词形式、人名等)
• 制作30万词的中图法词表一张(txt与SQL)
3.3 语料的收集、加工
www.csdl.ac.cn
已收集英文语料
世界城市
词数
已收集英文语料
词数
组织名称
1033
人名
874
3.3 语料的收集、加工
1968
公司称谓
401
公司名称
2610
国家
455
女名
5815
国家形容词形式
1505
男名
4377
货币单位
257
省份名称
1211
节日名称
156
政府机构名称
112
职业名称
1443
共95张英文词表
www.csdl.ac.cn
已收集中文语料
协会名称
中国城市名
数量
已收集中文语料
数量
名胜旅游
331
女名
416
3.3 语料的收集、加工
110
1309
世界城市名
140
外企公司名称
1241
政府机构名
210
国企公司名称
288
男名
654
传媒公司名称
147
组织名称关键词
912
国家名称
222
县名称
2189
中国大学名称
1003
此外有约30万词的中图法分
类词表、约37万词的中英对
照词表共74张中文词表
www.csdl.ac.cn
命名实体识别
• GATE系统是基于规则的信息抽取系统,通过
JAPE语言的定义。
• 需要针对中文重新写JAPE规则
www.csdl.ac.cn
英文JAPE规则
www.csdl.ac.cn
中文JAPE规则
www.csdl.ac.cn
最后的效果
www.csdl.ac.cn
主要内容
1.
2.
3.
4.
5.
6.
什么是信息抽取(IE)
信息抽取相关研究活动
信息抽取的层次和类型
信息抽取系统及其应用
数字图书馆中信息抽取技术的应用前景
中文信息抽取系统的开发
www.csdl.ac.cn
谢谢
• 欢迎批评指正!
• [email protected]
www.csdl.ac.cn