第5节-医学自然语言处理 - 上海生物信息技术研究中心

Download Report

Transcript 第5节-医学自然语言处理 - 上海生物信息技术研究中心

医学自然语言处理
上海生物信息技术研究中心
提纲
1
背景知识
2
关键技术
3
发展趋势
4
实例介绍
背景知识
据统计,日常工作中80%的信息来源于语言,
处理文本的需求在不断增长
文本是人类知识最大的存储源,并且文本的数
量在不停地增长
文本的种类繁多:科技文献、电子病历、电子
邮件、新闻、网页
机器能理解人类的语言吗?
背景知识
自然语言处理
NLP, Natural Language Processing
用机器处理人类语言的理论和技术
Natural language processing (NLP) is a field of computer science
and linguistics concerned with the interactions between
computers and human (natural) languages.
--WIKIPEDIA
自然语言 处理
以语音为物质外壳
语言是人类交际的工具
理解
转换
生成
背景知识
NLP is a very attractive method of humancomputer interaction.
NLP has significant overlap with the field of
computational linguistics, and is often
considered a sub-field of artificial intelligence.
背景知识
发展历史
1950
起步
机器翻译
自动文摘
1960
模式匹配方法
60年代末衰落
1970
Conceptual Ontologies
1980
Machine Learning
随互联网的发展而复苏
1990
Statistical Algorithm
2000
Unsupervised and semi-supervised
learning algorithms
背景知识
Modern NLP algorithms are grounded in
machine learning, especially statistical
machine learning.
Linguistics
Computer
Science
Statistics
背景知识
自然语言生成系统把计算机数据转化为自
然语言。
自然语言理解系统把自然语言转化为计算
机程序更易于处理的形式。
自然语言理解
背景知识
 自然语言处理的主要范畴













文本朗读(Text to speech)/语音合成(Speech synthesis)
语音识别(Speech recognition)
中文自动分词(Chinese word segmentation)
词性标注(Part-of-speech tagging)
句法分析(Parsing)
自然语言生成(Natural language generation)
文本分类(Text categorization)
信息检索(Information retrieval)
信息抽取(Information extraction)
文字校对(Text-proofing)
问答系统(Question answering)
机器翻译(Machine translation)
自动摘要(Automatic summarization)
背景知识
我国的自然语言处理研究,在一定程度上
处于一种低水平重复状态
 缺少公用的语言资源
 缺少公用的软件模块
缺乏一些公共的基础设施
 缺少公用的测试平台
 缺少公用的文献资料库
 缺少交流合作的机制
背景知识
公用的语言资源
 语言资源,包括词典、语料库、规则库
 英语的语言资源已相当丰富
 比较著名中文语言资源包括:
 北京大学计算语言学研究所开发的《现代汉语语法信息词典》
 北京大学计算语言学研究所、人民日报社和富士通公司联合
开发的《人民日报标注语料库》
 董振东先生的《知网》
 梅家驹先生的《同义词词林》
背景知识
公用的测试平台
 公共的测试平台可以使大家的研究工作有一个
互相比较的基准
 目前国际上一些著名的评测,如MUC、TREC、
CoNLL等,都极大地促进了相关领域的研究工
作
 汉语的自然语言处理研究中就很缺少这种公用
的平台
 国家863、973项目的范围内都组织过一些评测活动
 还没有形成真正意义上的公共测试基准
(benchmark)
关键技术
规则方法阶段
语言学家:撰写“规则库”(包括“词典”)
计算机科学家:编写算法程序,对“规则库”
进行解释和执行
统计方法阶段
语言学家:建立“语料库”
计算机科学家:
• 建立统计模型
• 利用语料库训练模型参数
• 编写算法解决问题
关键技术
规则方法流程
输入
算法
计算机学家
规则
语言学家
输出
关键技术
统计方法流程
输入
运用
参数
训练
语料库
模型
计算机学家
语言学家
输出
关键技术
规则方法
优点
语言知识的表示直观、灵活
易于表达复杂的语言知识
缺点
语言知识的覆盖率低
语言知识的冲突缺乏统一解决机制
统计方法
优点
统计模型提供了统一的冲突解决机制
大规模数据提高了语言知识的覆盖率
缺点
不善于表示复杂的、深层次的语言知识
对于数据稀缺的语言(小语种)没有好
的解决办法
关键技术
技术难点
 单词的边界界定
医学自然语言处理
Natural Language Processing
 词义的消歧
打乒乓球
玩
打毛衣
编制
 打电话
通讯
研究生命的起源
关键技术
技术难点
 句法的模糊性
 针对一个句子通常可能会剖析(Parse)出多棵剖析树
(Parse Tree)
 有瑕疵的或不规范的输入
 语音处理时遇到外国口音或地方口音
 文本处理中的拼写、语法或者光学字符识别(OCR)的错
误
他非常男人
ungelivable
关键技术
技术难点
 语言行为与计划
Q
你能把盐递给我吗?
A
能
不
太远了,我拿不到
……
Q
这门课有多少学生没通
过?
A
去年没开这门课
没人没通过
关键技术
List of natural language processing toolkits
关键技术
List of natural language processing toolkits
发展趋势
 传统的基于句法-语义规则的理性主义方法受到质疑,随
着语料库建设和语料库语言学的崛起,大规模真实文本的
处理成为自然语言处理的主要战略目标。
 统计数学方法越来越受到重视,自然语言处理中越来越多
地使用机器自动学习的方法来获取语言知识。
 浅层处理与深层处理并重,统计与规则方法并重,形成混
合式的系统。
 自然语言处理中越来越重视词汇的作用,出现了强烈的
“词汇主义”的倾向。
实例介绍
生物医学自然语言处理
需求是发明之母
当今生物医学信息学的一个重要任务就是帮助医生、生物
学家们处理由各种方法得来的海量数据。
生物医学电子文档
电子病历
健康档案
文献
临床指南
计算机可以
读懂这些
文字吗?
知识
决策
实例介绍
实例介绍
医学自然语言处理的发展
Pubmed医学自然语言处理文献统计
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
pubmed文献数
实例介绍
应用
信息抽提( information extraction)
文本挖掘(text mining)
医学知识库(medical knowledge base)
实例
肝癌手术记录自然语言处理
结直肠癌文献挖掘
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
• Step 1. Manually Annotating
• Step 2. Feature Vectors
• Step 3. Data Mining Modeling
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
自然语言处理
(Natural Language Processing)
SCRIPT
PERL
&
JAVA
Protégé
Knowtator
by
Stanford
Medical
Informatics
WEKA
Machine
Learning
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
实例介绍
•
v
v
v
v
v
v
v
v
肝癌手术记录自然语言处理
Eight feature vectors:
absolute distance
relative distance
whether it is a number
whether it is a privative
whether it is a sign of multiplication
whether it coincides with the keyword
number after search word
privative before search word
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
• A score(0 or 1): based on the
annotated text
A=1 stands for the candidate is the
“value” of the “search word”.
A=0 stands for the candidate is not the
“value” of the “search word”.
实例介绍
肝癌手术记录自然语言处理
 We used 400 EMRs of liver cancer patients from
Zhongshan Hospital for this study. The collection
was exported directly from the hospital information
systems, including all the information (hospital
records, operation records, course catalog,
discharge summaries, pathology reports, etc.), from
which 400 surgical records were extracted.
 Among these records, 36 were manually annotated
and used as training set for model building, and the
remaining 364 records were used as test set.
实例介绍
肝癌手术记录自然语言处理
Segmentation of words:
a word list integrated with specialized words
segment.pl
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
Feature vector selection can influence the
model’s performance:
实例介绍
肝癌手术记录自然语言处理
Classifier method selection can influence the
model’s performance:
实例介绍
PMC
结直肠癌文献挖掘
PubMed
公共文献数据库
•结直肠癌
文献检索
医学实体
全文(篇) 14414
摘要(条) 97609
本地文献数据库
实体识别
结直肠癌
•疾病
•基因
•药物
关联规则
实体映射
疾病、基因、药物相互作用网络
蛋白、基因相互作用网络
全部基因、蛋白质
给定基因(P53、MSH2和MLH1)
药物、基因相互关系标注
全部药物
给定药物(5-氟尿嘧啶)
实例介绍
结直肠癌文献挖掘
Information retrieval(IR)
Entity recognition(ER)
Information extraction(IE)
Network establishment and visualization
实例介绍
Abstract download
结直肠癌文献挖掘
实例介绍
结直肠癌文献挖掘
 Fulltext download
 Use E-Utilities tools:ESearch
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pmc&term=stem+cells+AND+free+fulltext[filter]
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pmc&term=colorectal+cancer+AND+free+fulltext[filter
]&retmax=5445
实例介绍
结直肠癌文献挖掘
Extract abstacts and fulltexts
Aabstrct: extract
Fulltext: remove HTML tags
实例介绍
结直肠癌文献挖掘
Information retrieval(IR)
Entity recognition(ER)
Information extraction(IE)
Network establishment and visualization
实例介绍
结直肠癌文献挖掘
实例介绍
结直肠癌文献挖掘
Information retrieval(IR)
Entity recognition(ER)
Information extraction(IE)
Network establishment and visualization
实例介绍
结直肠癌文献挖掘
 Extract entity names and links
<SENT sid="7" pm="."><plain>Finally, <z:drug
ids='APRD00264' cat='generic'>aspirin</z:drug>
produced a decrease in <z:go ids="GO:0005622"
onto="cellular_component">intracellular</z:go>
<z:uniprot fb="0"
ids="P26233,P35222,P35223,P35224,
Q02248,Q9WU82">beta-catenin</z:uniprot> levels,
suggesting that modulation of this protein is associated
with tumor prevention </plain></SENT>
实例介绍
Using GENIA tagger
结直肠癌文献挖掘
实例介绍
Using GENIA tagger
结直肠癌文献挖掘
实例介绍
结直肠癌文献挖掘
Information retrieval(IR)
Entity recognition(ER)
Information extraction(IE)
Network establishment and visualization
实例介绍
结直肠癌文献挖掘
A brief introduction to
Osprey is a software platform for visualization and
manipulation of complex interaction networks.
Osprey builds data-rich graphical representations that
are color-coded for gene function and experimental
interaction data.
Osprey also allows for user-defined large-scale
datasets to be processed for establishing networks.
In addition to this, Osprey is linked to the GRID and
comes rich with annotation and interaction data for
many commonly studied organisms, such as Yeast,
Mouse, Human, Zebrafish, Rat, S. Pombe, Worm.
实例介绍
结直肠癌文献挖掘
All fulltexts gene .protein interaction network
All abstracts gene.protein interaction network
p53 related protein and gene
Relationship between MLH1 and MSH2
实例介绍
结直肠癌文献挖掘
A brief introduction to
• A comprehensive package for the analysis of social
network.
• Can read and write a multitude of differently formatted
text files, as well as Excel files.
• Can handle a maximum of 32,767 nodes (with some
exceptions) although practically speaking many
procedures get too slow around 5,000 - 10,000 nodes.
• Integrated with UCINET is the NetDraw program for
drawing diagrams of social networks. In addition, the
program can export data to Mage and Pajek.
protein
drug
All abstracts gene.protein and drug interaction network
5-fluorouracil related protein and gene
p53 related drugs
参考资料
http://en.wikipedia.org/wiki/Natural_languag
e_processing
http://www.nlp.org.cn/
中文自然语言处理开放平台
刘群,中文自然语言处理的现状与展望
谢谢!