Transcript Slide 1
信息抽取(Information Extraction) 及其在数字图书馆中的应用研究 中国科学院国家科学图书馆 张智雄 北京 2006.8.15 www.csdl.ac.cn 主要内容 1. 2. 3. 4. 5. 6. 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中信息抽取技术的应用前景 中文信息抽取系统的开发 www.csdl.ac.cn 1.什么是信息抽取(IE) • 先从CLEF项目说起 • A Co-operative Clinical E-Science Framework (CLEF) • Funded by the UK Medical Research Council • Descriptive information: – – – – – – Clinical histories radiology reports pathology reports annotations on genomic and image databases technical literature Web based resources www.csdl.ac.cn Knowledge enrichment Integrate & Aggregate Pseudonymised Repository Extract Information Hazard monitoring Ethical oversight committee Chronicle Depersonalise Summarise & Formulate Queries Construct ‘Chronicle’ Pseudonymise In Hospital Data Acquisition Cycle Individual Summaries & Queries Privacy Enhancement Technologies Data Access Cycle Reidentify By Hospital CLEF Architecture Outline www.csdl.ac.cn 临床报告 ROYAL MARSDEN NHS TRUST - PATIENT CASE NOTE 324A621F:MRS Dorothy Smith DOB: 12/05/44 21, Park Crescent Basingstoke B12 Q13 16 Dec 1992 Seen in General Surgical This lady who has had a mastectomy and left open capsulotomy and removal of her prosthesis was seen by me in the clinic today on behalf of Mr Peterson. She has extensive bony lymphoedema in her left arm which does not seem to be getting any better although she is more or less reconciled to the problem. The original problem was that she complained of shooting pain in the direction of ulna nerve and although there does not seem to be any evidence of local, regional or distant recurrence the pain itself warrants management in a pain clinic. Mrs Smith could be seen in the pain clinic at the Marsden but as this would involve a lot of travelling would like to be treated nearer her home. I wonder whether it would be possible for you to investigate if there is a pain clinic available at Basingstoke as I am sure Dotty could be treated and benefit from its management. I have otherwise arranged for her to be seen in the clinic again in a year's time. There are no signs of recurrence at this time. Mr Thomas Partridge www.csdl.ac.cn 从文本中实现关键信息抽取 ##### ####### NHS TRUST - PATIENT CASE NOTE ########:######### ####### DOB: 1944 CLEF-RMH-Entry-Key: 52A4F6DB2B46E AB 1992 根据模版或相关的知识资源 标识出重要的信息及其相关 关系 Seen in General Surgical This lady who has had a mastectomy and left open capsulotomy and removal of her prosthesis was seen by me in the clinic today on behalf of XXXXXXXXXXX. She has extensive bony lymphoedema in her left arm which does not seem to be getting any better although she is more or less reconciled to the problem. The original problem was that she complained of shooting pain in the direction of ulna nerve and although there does not seem to be any evidence of local, local, regional regional or or distant distant recurrence the pain clinic XXXXXXXXX could itself warrants management in a pain clinic. be seen in the pain clinic at the XXXXXXX but as this would involve a lot of travelling would like to be treated nearer her home. I wonder whether it would be possible for you to investigate if there is a pain clinic available at XXXXXXXXXXX as I am sure XXXXX could be treated and benefit from its management management. I have otherwise arranged for her to be seen in the year’s time. time There are no signs of recurrence clinic again in a year's at this time time. 5213A4F612F1 Interventions Problems Problem Site Locations Time www.csdl.ac.cn 从文本中实现关键信息抽取 放射报告、病理学 报告,或 其它叙述 性报告 GeneralSurgical Surgical General left open capsulotomy mastectomy left open capsulotomy mastectomy removal of her prosthesis removal of her prosthesis today left open capsulotomy today bony lymphoedema management bony lymphoedema management left arm left arm mastectomy shooting pain in the removal of her prosthesis shooting pain in the direction of ulna nerve no signs of recurrence direction of ulnalocal, nerve regional or distant bony lymphoedema local, regional pain painor distant recurrence pain recurrence pain clinic management recurrence pain clinic pain clinic shooting pain in the management direction of ulna nerve pain clinic local, regional or distant pain clinic left arm pain clinic management pain clinic a year’s time General Surgical management clinic pain clinic a year’s time clinic no signs of recurrence no signs of recurrence pain clinic at this time at this time clinic today a year’s time at this time 来自于药品或实验 中的信息 收集抽取出的信息… 也可跨越多个文档 Interventions Problems Problem Site Locations Time www.csdl.ac.cn 形成病历 自动实现相关事件的链 接? What happened & why ? What was done & why ? mastectomy left open capsulotomy management caused_by mastectomy removal of her prosthesis no signs of recurrence recurrence bony lymphoedema pain shooting pain in the direction of ulna nerve local, regional or distant left arm General Surgical Interventions Problems bony lymphoedema pain clinic pain clinic clinic pain today a year’s time at this time Problem Site Locations Time www.csdl.ac.cn 病历摘要 只有通过许可的人才可看到人名 等信息 EPR Hospital EPR Drugs Refer Tools Help CLEF-RMH-Entry-Key: 52A4F6DB2B46E Maria Sklodowska-Curie Female 66 with radiation induced leukaemia since 1931 Onset age 63. Thirty three appointments to date. Problems: Aplastic anaemia, cataract, asthenia Tx:imatinib Meds: unclear 12.10.20 Coryza: chest NAD: reassure 13.10.20 URTI: wheezy: amoxycillin 20.10.20 Anxiety: lump under arm: staging scan 24.10.21 PEFR : 300 : 10.11.21 PEFR : 400: CXR requested 12.11.21 CXR Basal Consolidation: : erythromycin 27.11.21 : Chest clear : 07.03.30 Depression: recurrence: Paroxetine 19.04.30 WCC OK 01.06.31 : : rpt Rx paroxetine 18.10.31 Pain L arm: : coproxamol 03.03.31 Viral URTI: PEFR 350: salbutamol 04.03.34 WCCAbnormal : : 30.05.34 : BP, ECG NAD : Drugs Results Letters 形成一个非常简短的病 历摘要 Staging CT Protocol 354 Appt BP 在首页上形成一个 摘要 Haem Chem Immu Bact Xray ECG USS www.csdl.ac.cn 1.什么是信息抽取(IE) • 针对目前的信息过载和数据泛滥的情况 – – – – – – – – 自然语言处理(NLP) 人类语言技术(HLT) 计算机语言学(CL) 知识工程(KE) 知识管理(KM) 语义网络(Semantic Web) 智能代理(Agent Based Computing) Web智能(Web Intelligence) www.csdl.ac.cn 1.什么是信息抽取(IE) • 欧洲美发达国家提出了“知识技术” (Knowledge Technologies)这一概念 – – – – – – – – – 知识获取 知识建模 知识表示和可视化 知识解析和共享 知识重用 知识检索 知识的出版和分发 知识维护 …… www.csdl.ac.cn 1.什么是信息抽取(IE) • 两条研究路线 – 基于KDD和Data Mining的线路。从结构化的数据(如数 据库中的数据)中发现新的知识。 – 基于自然语言处理(NLP)和文本挖掘(Text Mining) 的线路。从非结构化或半结构化的数据(如Word、 HTML、或PDF文件)发现新知识。“从大量的非结构 化的数据中标识并抽取出事件的趋势和模型,并它们转 换成为有用并可理解的信息” www.csdl.ac.cn 集两种线路于一体的数字图书馆知 识发现和知识表现的解决方案 www.csdl.ac.cn 1.什么是信息抽取(IE)? • 信息抽取(Information Extraction):目 前日渐成熟,并得到越来越多人关注的文 本挖掘方式 www.csdl.ac.cn 1.什么是信息抽取(IE)? • Hamish Cunningham – Information Extraction (IE) is a technology based on analysing natural language in order to extract snippets of information. – 信息抽取是一个输入/输出过程。 • 输入:未知文本信息 • 输出:固定格式、无二意性数据(信息) – 这些被抽取出来的数据可以 • 直接显示给用户 • 存储于数据库或电子表格中以供随后分析 • 被用于索引系统,以便于将来进行检索访问 www.csdl.ac.cn 1.什么是信息抽取(IE)? • Douglas E. Appelt等 • 信息检索和信息抽取对比 – 信息检索仅仅从文件集(数据库)中找出相关的文献 (数据)并简单地显现给用户 – 而信息抽取不是仅仅指出某篇文献适合用户的需要,而 是抽取真正适合用户的那些信息片段提供给用户 www.csdl.ac.cn 1.什么是信息抽取(IE)? • 继续对信息检索和信息抽取对比 – 信息检索:获取一个与检索内容相关的文章的子集,用 户得分析文章内容 www.csdl.ac.cn 1.什么是信息抽取(IE)? • 继续对信息检索和信息抽取对比 – 信息抽取:抽取与用户所需内容相关的事实(件),用户 分析事实(件)。 www.csdl.ac.cn 1.什么是信息抽取(IE)? • 信息检索和信息抽取对比总结 – 功能不同。 如前所述 – 处理技术不同。信息检索系统通常利用统计及关键词匹配 等技术,把文本看成词的集合(bags of words),不需 要对文本进行深入分析理解;而信息抽取往往要借助自然 语言处理技术,通过对文本中的句子以及篇章进行分析处 理后才能完成。 – 适用领域不同。由于采用的技术不同,信息检索系统通常 是领域无关的,而信息抽取系统则是领域相关的,只能抽 取系统预先设定好的有限种类的事实信息。 www.csdl.ac.cn 主要内容 1. 2. 3. 4. 5. 6. 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中IE的应用前景 中文信息抽取系统的开发 www.csdl.ac.cn 2.信息抽取相关研究活动 • IE的发展与以下研究活动密切相关: – – – – MUC(Message Understanding for Comprehension) MET(Multilingual Entity Task Evaluation) ACE(Automatic Content Extraction) DUC(Document Understanding Conferences) www.csdl.ac.cn 2.1MUC • MUC之于IE,正如TREC之于IR • 也有人们认为MUC是Message Understanding Conference或Message Understanding Competition • 20世纪80年代未由美国国防部的DARPA(Defense Advanced Research Projects Agency) 发起 www.csdl.ac.cn 2.1MUC • MUC唯一任务就是“信息抽取”:对自由文本进行分析, 标识出某一特定类型的事件,并将有关这一事件的信息填 写到相应的数据模板中 • 总共进行7次: – 最初的MUC 1-2关注的是对电子邮件信息的抽取 – 20世纪90年代之后的MUC 3-7主要关注对新闻文章的抽取,主 题涉及恐怖活动、国际风险投资、企业成功管理经验 • MUC对于信息抽取的研究内容、信息抽取方式的分类、信息 抽取系统的评价等都起到重要的促进作用 www.csdl.ac.cn 2.2MET • MET: Multilingual Entity Task Evaluation • 也是DARPA发起的一个测评项目。 • MET的主要是对日语、汉语以及西班牙语等多语 种新闻文献进行命名实体抽取 • MET-1和MET-2测试分别于1996年和1998年进行 www.csdl.ac.cn 2.3ACE • ACE (Automatic Content Extraction) • 这一项目由美国国家安全局(NSA),美国商务部技术管理 部门(NIST),以及中央情报局(CIA)一同主管。 • 关注三种信息的自动化内容抽取: – 网络上的在线新闻、 – 通过ASR(自动语音识别的)得到的广播新闻 – 以及通过OCR(光学字符识别)得到的报纸新闻, • 两个目的: – 希望在自动化内容抽取基础之上,为数据挖掘、链接分析、自 动摘要等打下基础 – 通过将相应的信息提供给相应的分析师,以提高信息分析的能 力。 www.csdl.ac.cn 2.3ACE • 项目为期5年 – ACE Phase-1(1999.7-2000.12)优先发展的是实体探测及追踪 (EDT, Entity Detection and Tracking) 。 – ACE Phase2(2001-现在)被称为EDT + RDC。其中RDC为 Relation Detection and Characterization。ACE第二阶段希望 在第一阶段实体探测的基础之上,引入了对实体关系的评测, 需要能够将标识出的实体之间的关系揭示出来。 www.csdl.ac.cn 2.4 DUC • DUC,Document Understanding Conferences • 是在DARPA的TIDES (Translingual Information Detection, Extraction, and Summarization program)基础之上发起的一 个对“文本概括”进行研究测评的项目 • 起于2000年,已经进行了DUC 01-06,DUC 2007也在规划 之中 • 目前,系统测评会议由美国商务部技术管理部门NIST来管 理。 www.csdl.ac.cn 主要内容 1. 2. 3. 4. 5. 6. 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中信息抽取技术的应用前景 中文信息抽取系统的开发 www.csdl.ac.cn 3.信息抽取的层次和类型 • MUC根据信息抽取内容以及所抽取出的信息的集聚水平的 不一样,将信息抽取分为以下的几种主要类型 – NE。命名实体识别(Named Entity Recognition) – MET。多语种实体识别任务(Multi-lingual Entity Task)信息 抽取 – TE。模板元素(Template Element)信息抽取 – CO。参照(Coreference)信息抽取 – TR。模板关系(Template Relation)信息抽取。 – ST。情节模板(Scenario Template)信息抽取。 www.csdl.ac.cn 3.1 NE • NE(Named Entity Recognition)命名实体识别 • 最为基础的类型,此类信息抽取需要系统能够识 别出实体名,并将相应的实体名进行归类。 • MUC测评识别并抽取出人名,组织名,日期,时 间,地点,以及某种类型的数字表达式(如货币 数量,百分数),并在文本中对这些信息进行标 注。 • NE具有非常直接的实用价值,在对文本中的名称、 地点、日期等进行标注之后,即提供了对这些信 息进行检索的可能。对于许多语言处理系统,NE 都是其中一个很重要的组件。 www.csdl.ac.cn 3.1NE • The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. – NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" www.csdl.ac.cn 3.2 MET • MET(Multi-lingual Entity Task)多语种实体识别 任务信息抽取 • MET除了能够对英文命名实体进行识别之外,还 需要能够对多语种的命名实体进行识别,例如可 以对中文、日文或西班牙文进行命名实体识别。 www.csdl.ac.cn 3.3 TE • TE模板元素(Template Element)信息抽取 • TE信息抽取将特定的描述信息与实体联系起来。 它需要从文本的任何地方将与组织、人物或其它 实体相关的基本信息抽取出来,并将这些信息作 为实体的属性进行聚集,形成实体对象 www.csdl.ac.cn 3.3 TE • 在MUC评测中,TE系统需要能够从文本中抽取特 定类型的实体信息,并将这些信息填写到预先定 义的小型的属性模板之中。 • 例如对人物实体的模板元素抽取,需要信息抽取 系统能够抽取出预先定义的人物的名称、职务、 国籍等属性。 www.csdl.ac.cn 3.3 TE • The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. – NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" – TE: the rocket is "shiny red" and “Dr. Head's brainchild”. www.csdl.ac.cn 3.4 CO • CO 参照(Co-reference)信息抽取 • CO涉及在进行NE或TE任务时,从文本中标识出 对同一实体的不同表达方式。 • 例如 – 连接某同一实体的不同称谓。Tony Blair,The premier minister – 将某一名词和其相应的代名词进行连接。 www.csdl.ac.cn 3.4 CO • 在MUC中,CO之所以得到重视,是因为它能够 为创建TE和ST(见下文)打下基础。 • CO可以将散布在文本中不同地方的同一实体的描 述信息连接起来。 • 分析 – 实体在文本中不同地方出现的情况 – 实体在不同场合与其它实体之间的关系 有助于情节信息的抽取。 www.csdl.ac.cn 3.4 CO • The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. – NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" – TE: the rocket is "shiny red" and Head's "brainchild". – CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are the same www.csdl.ac.cn 3.5 TR • TR模板关系(Template Relation) • TR需要在TE的基础之上标识出模板元素之间的关系。 • TR是MUC-7定义的一项新任务,需要抽取模板元素之间的 相互关系。 • 例如: – – – – 职员和组织之间的关系(employee_of) 产品和生产企业之间的关系(product_of) 以及公司和地区之间的关系(location_of) etc www.csdl.ac.cn 3.5 TR • The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. – NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" – CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are the same – TE: the rocket is "shiny red" and Head's "brainchild". – TR: Dr. Head works for We Build Rockets Inc. www.csdl.ac.cn 3.6 ST • ST 情节模板(Scenario Template) • ST抽取某一事件中的事件信息并将事件信息与某 个组织、人物或其它实体相关联。 • ST需要标识出特定事件及事件的相关属性,包括 将事件中的各个实体填充到事件的相应角色中, 通过各个对象之间的关系,能够还原出整个事件 的“原型”。 www.csdl.ac.cn 3.6 ST • The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. – NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" – CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are the same – TE: the rocket is "shiny red" and Head's "brainchild". – TR: Dr. Head works for We Build Rockets Inc. – ST: a rocket launching event occurred with the various participants. www.csdl.ac.cn 主要内容 1. 2. 3. 4. 5. 6. 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中IE的应用前景 中文信息抽取系统的开发 www.csdl.ac.cn 4 信息抽取系统及其应用 • GATE www.csdl.ac.cn 4.1 GATE • GATE (General Architecture for Text Engineering) • 1995开始,University of Sheffield • 纯Java语言开发的免费开源软件 • 编码方式是Unicode • GATE支持的文档类型包括XML、 RTF、Email、 HTML、SGML以及纯文本文件 www.csdl.ac.cn 4.1 GATE • Gate项目组认为,典型的信息抽取系统的应当包 括三大过程 – 预处理过程 – 命名实体探测过程 – 事件探测过程。 www.csdl.ac.cn 预处理过程 • 其中预处理过程并不实现信息抽取,但它是信息抽取的前提。 – – – – – 文本格式的检查(Format Detection) 特征标记(Tokenisation) 分词 (Word Segmentation) 句法分割(Sentence Splitting) 语法标记(POS tagging) • 通过这些预处理,可以将文本分解成为有一定语言意义的语 言片段,并对这些语言片段进行标记,使文本能够被转换成 为更易于被信息抽取系统处理的模式 www.csdl.ac.cn 命名实体探测 • 命名实体探测过程实现对命名实体的探测,并通过参照实现 实体之间的联系。 • 在这一过程中,通常需要借助辞典来实现人物、组织、地点、 时间等命名实体的探测,辞典中也可能会包括一些相应的指 示词(如Ltd.提示公司名称)用以指示相应的实体内容。 • 一些系统还具有语义标记的功能。如ANNIE系统,通过 JAPE(Java Annotations Pattern Engine) 书写的规则,能够 对实体进行更深入的语义标注。 www.csdl.ac.cn 事件探测 • 事件探测过程是在命名实体探测过程基础之上实施的 一个过程,它抽取某一事件中的事件信息并将事件信 息与某个组织、人物或其它实体相关联,构造出事件 的概貌。 www.csdl.ac.cn www.csdl.ac.cn 4.1 GATE GATE的作用: 1)为语言处理软件规定了一个架构,提供了有组 织的结构。 2)提出了一个框架以及可以应用的类库,实现这 个架构并且可以将其嵌入到各种不同的语言处理 应用程序中。 3)提供了语言工程的开发环境。这个开发环境构 建在整体框架之上,并且提供了方便的开发组件 的图形化工具。 www.csdl.ac.cn www.csdl.ac.cn 4.1 GATE • GATE的应用领域: • 知识管理和语义网络、数字图书馆和文化遗产、 E-science、生物信息学、人类语言技术、数字图 书馆中的文档标注和处理、数字图书馆中的多媒 体 、E-science与网格、语义网络与知识技术、人 类语言技术 www.csdl.ac.cn 4 信息抽取系统及其应用 • 除了GATE之外,还有很多IE系统和IE项目 – – – – – – – – – – – KIM ArtEquAKT Amilcare Armadillo BioRAT ANP(Arizona Noun Phraser) DELOS WP5: Knowledge Extraction and Semantic Interoperability TAKE: Toolkit for Agent-based Knowledge Extraction SKIF:A Distributed Knowledge Extraction Framework Based on Semantic Web Services BioMeKe :BioMedical Knowledge Extraction project …… www.csdl.ac.cn 主要内容 1. 2. 3. 4. 5. 6. 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中IE的应用前景 中文信息抽取系统的开发 www.csdl.ac.cn 5 数字图书馆中IE的应用前景 • 许多与文本、信息、知识的获取、加工、分析、 管理相关的应用领域都可以利用信息抽取技术。 • 在数字图书馆的建设中,信息抽取技术也具有很 好的应用前景。 www.csdl.ac.cn 5.1自动标引及元数据获取 • 数字图书馆 – 海量信息资源 – 检索不仅仅是关键词检索的问题 – 有效揭示方式 • 内容标引和元数据加工是数字图书馆区别于其它低品质信息 检索系统的一个重要方面 • 国外还有多个项目:SEKT、S-CREAM、Amilcare、LASIE、 SemTag www.csdl.ac.cn 5.2数据挖掘和情报研究分析 • 数据挖掘的前提是大量相关数据的采集。 • 数字图书馆的情报研究分析亦需要从大量的相关信息中研究 分析出事件发展的各种态势。 • 竞争情报更是有目的情报收集和研究。 • 这些信息和数据从何处而来? • 信息抽取提供了一条进行大规模数据及信息采集的思路。 • 例子很多。MUC, ACE的支持者都与国家安全机构相关 (DoD, CIA),主题“反恐”,“风险投资” www.csdl.ac.cn 5.3大型知识库、数值库建设 • 数字图书馆的长远目标从信息检索服务转向知识 提供服务。知识提供的前提是知识的获取。如何 有效地获取知识呢? • 从非结构化的文本中建设知识库。 • 中国科学院科学数据库。 • Ontology驱动的信息抽取来实现知识的获取 www.csdl.ac.cn 5.4 问题解答 • 问题解答(Question Answering, QA)其实也是NLP研究中的 一项重要内容。 • 数字图书馆中的参考咨询正在促进着数字图书馆服务方式从 检索方式到问题解答方式的转变,目前的参考咨询系统主要 凭借馆员个人的学识对读者的问题进行解答。然而NLP技术 的进步,已经开始显示出自动从知识库中获得答案的可能。 • 信息抽取技术能够为问题解答系统提供坚实的支持。 • 相关研究如Prof. Rob Gaizauskas (Question Answering and Summarisation) www.csdl.ac.cn 主要内容 1. 2. 3. 4. 5. 6. 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中信息抽取技术的应用前景 中文信息抽取系统的开发 www.csdl.ac.cn 6.中文信息抽取系统的开发 • 英文信息抽取相对成熟 • GATE对中文信息抽取的支撑不足 • 我馆在GATE的基础之上,开发出了一个支持中文 信息抽取的系统,初步解决了中文信息抽取问题。 www.csdl.ac.cn 6.中文信息抽取系统的开发 • 初步解决中文信息抽取 www.csdl.ac.cn 6.中文信息抽取系统的开发 • 三个中文信息抽取的主要问题 – Chinese tokenizing – Chinese gazetteers – Chinese named entity recognition www.csdl.ac.cn 相应的处理方案 Chi Tokenizing 中 文 信 息 抽 取 Chi IE Chi Gazetteer Chi Rules 应用实例 应用实验 用Java的JNI调用计算所 ICTCLAS实现分词和词性标注。 基于GATE的英文、中文信息抽 取,开发Chinese Annie组件。 通过网上免费语料或自己制作 获得。(目前已有英文词表95 个;中文词表74个) 重新构造中文IE的JAPE规则。 和现有信息系统结合,比如 RSS信息聚合系统。 www.csdl.ac.cn www.csdl.ac.cn 中文预处理 • • • • • • • • • • • • 中文分词与词性标注 利用了ICTCLAS的研究(C++)成果 词性标注算法:HMM(马尔可夫隐码模型) 分词算法:图的N阶最短路径问题算法 源码结构: Utility 共用函数模块 Unknown 未登录词识别模块 Tag HMM标注模块 Segment 词语切分模块 Result 结果生成模块 Data 概率数据文件 res Windows界面的资源 www.csdl.ac.cn www.csdl.ac.cn 中文语料收集 • 语料的收集:训练语料与词表 3.3 语料的收集、加工 • 中文语料收集(人民日报标注语料库、哈工大信息检 索研究室语料等)共125M www.csdl.ac.cn • 词表共95张英文词表,74张中文词表(世界城市、公司名称、 国家形容词形式、人名等) • 制作30万词的中图法词表一张(txt与SQL) 3.3 语料的收集、加工 www.csdl.ac.cn 已收集英文语料 世界城市 词数 已收集英文语料 词数 组织名称 1033 人名 874 3.3 语料的收集、加工 1968 公司称谓 401 公司名称 2610 国家 455 女名 5815 国家形容词形式 1505 男名 4377 货币单位 257 省份名称 1211 节日名称 156 政府机构名称 112 职业名称 1443 共95张英文词表 www.csdl.ac.cn 已收集中文语料 协会名称 中国城市名 数量 已收集中文语料 数量 名胜旅游 331 女名 416 3.3 语料的收集、加工 110 1309 世界城市名 140 外企公司名称 1241 政府机构名 210 国企公司名称 288 男名 654 传媒公司名称 147 组织名称关键词 912 国家名称 222 县名称 2189 中国大学名称 1003 此外有约30万词的中图法分 类词表、约37万词的中英对 照词表共74张中文词表 www.csdl.ac.cn 命名实体识别 • GATE系统是基于规则的信息抽取系统,通过 JAPE语言的定义。 • 需要针对中文重新写JAPE规则 www.csdl.ac.cn 英文JAPE规则 www.csdl.ac.cn 中文JAPE规则 www.csdl.ac.cn 最后的效果 www.csdl.ac.cn 主要内容 1. 2. 3. 4. 5. 6. 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中信息抽取技术的应用前景 中文信息抽取系统的开发 www.csdl.ac.cn 谢谢 • 欢迎批评指正! • [email protected] www.csdl.ac.cn