Class 05: 第5节-医学自然语言处理

Download Report

Transcript Class 05: 第5节-医学自然语言处理

计算机辅助医学
医学自然语言处理
刘雷
上海生物信息技术研究中心
2011.3.28
提纲
1
背景知识
2
关键技术
3
发展趋势
4
实例介绍
背景知识
据统计,日常工作中80%的信息来源于语言,
处理文本的需求在不断增长
文本是人类知识最大的存储源,并且文本的数
量在不停地增长
文本的种类繁多:科技文献、电子病历、电子
邮件、新闻、网页
机器能理解人类的语言吗?
背景知识
自然语言处理
NLP, Natural Language Processing
用机器处理人类语言的理论和技术
Natural language processing (NLP) is a field of computer science
and linguistics concerned with the interactions between
computers and human (natural) languages.
--WIKIPEDIA
自然语言 处理
以语音为物质外壳
语言是人类交际的工具
理解
转换
生成
背景知识
NLP is a very attractive method of humancomputer interaction.
NLP has significant overlap with the field of
computational linguistics, and is often
considered a sub-field of artificial intelligence.
背景知识
发展历史
1950
起步
机器翻译
自动文摘
1960
模式匹配方法
60年代末衰落
1970
Conceptual Ontologies
1980
Machine Learning
随互联网的发展而复苏
1990
Statistical Algorithm
2000
Unsupervised and semi-supervised
learning algorithms
背景知识
Modern NLP algorithms are grounded in
machine learning, especially statistical
machine learning.
Linguistics
Computer
Science
Statistics
背景知识
自然语言生成系统把计算机数据转化为自
然语言。
自然语言理解系统把自然语言转化为计算
机程序更易于处理的形式。
自然语言理解
背景知识
 自然语言处理的主要范畴













文本朗读(Text to speech)/语音合成(Speech synthesis)
语音识别(Speech recognition)
中文自动分词(Chinese word segmentation)
词性标注(Part-of-speech tagging)
句法分析(Parsing)
自然语言生成(Natural language generation)
文本分类(Text categorization)
信息检索(Information retrieval)
信息抽取(Information extraction)
文字校对(Text-proofing)
问答系统(Question answering)
机器翻译(Machine translation)
自动摘要(Automatic summarization)
背景知识
我国的自然语言处理研究,在一定程度上
处于一种低水平重复状态
 缺少公用的语言资源
 缺少公用的软件模块
缺乏一些公共的基础设施
 缺少公用的测试平台
 缺少公用的文献资料库
 缺少交流合作的机制
背景知识
公用的语言资源
 语言资源,包括词典、语料库、规则库
 英语的语言资源已相当丰富
 比较著名中文语言资源包括:
 北京大学计算语言学研究所开发的《现代汉语语法信息词典》
 北京大学计算语言学研究所、人民日报社和富士通公司联合
开发的《人民日报标注语料库》
 董振东先生的《知网》
 梅家驹先生的《同义词词林》
背景知识
公用的测试平台
 公共的测试平台可以使大家的研究工作有一个
互相比较的基准
 目前国际上一些著名的评测,如MUC、TREC、
CoNLL等,都极大地促进了相关领域的研究工
作
 汉语的自然语言处理研究中就很缺少这种公用
的平台
 国家863、973项目的范围内都组织过一些评测活动
 还没有形成真正意义上的公共测试基准
(benchmark)
关键技术
规则方法阶段
语言学家:撰写“规则库”(包括“词典”)
计算机科学家:编写算法程序,对“规则库”
进行解释和执行
统计方法阶段
语言学家:建立“语料库”
计算机科学家:
• 建立统计模型
• 利用语料库训练模型参数
• 编写算法解决问题
关键技术
规则方法流程
输入
算法
计算机学家
规则
语言学家
输出
关键技术
统计方法流程
输入
运用
参数
训练
语料库
模型
计算机学家
语言学家
输出
关键技术
规则方法
优点
语言知识的表示直观、灵活
易于表达复杂的语言知识
缺点
语言知识的覆盖率低
语言知识的冲突缺乏统一解决机制
统计方法
优点
统计模型提供了统一的冲突解决机制
大规模数据提高了语言知识的覆盖率
缺点
不善于表示复杂的、深层次的语言知识
对于数据稀缺的语言(小语种)没有好
的解决办法
关键技术
技术难点
 单词的边界界定
Natural Language Processing
 词义的消歧
打乒乓球
玩
打毛衣
编制
 打电话
通讯
医学自然语言处理
关键技术
技术难点
 句法的模糊性
 针对一个句子通常可能会剖析(Parse)出多棵剖析树
(Parse Tree)
 有瑕疵的或不规范的输入
 语音处理时遇到外国口音或地方口音
 文本处理中的拼写、语法或者光学字符识别(OCR)的错
误
关键技术
技术难点
 语言行为与计划
Q
你能把盐递给我吗?
Q
这门课有多少学生没通过?
A
能
不
太远了,我拿不到
……
A
去年没开这门课
没人没通过
关键技术
List of natural language processing toolkits
关键技术
List of natural language processing toolkits
发展趋势
 传统的基于句法-语义规则的理性主义方法受到质疑,随
着语料库建设和语料库语言学的崛起,大规模真实文本的
处理成为自然语言处理的主要战略目标。
 统计数学方法越来越受到重视,自然语言处理中越来越多
地使用机器自动学习的方法来获取语言知识。
 浅层处理与深层处理并重,统计与规则方法并重,形成混
合式的系统。
 自然语言处理中越来越重视词汇的作用,出现了强烈的
“词汇主义”的倾向。
实例介绍
生物医学自然语言处理
需求是发明之母
当今生物医学信息学的一个重要任务就是帮助医生、生物
学家们处理由各种方法得来的海量数据。
生物医学电子文档
电子病历
健康档案
文献
临床指南
计算机可以
读懂这些
文字吗?
知识
决策
实例介绍
实例介绍
医学自然语言处理的发展
Pubmed医学自然语言处理文献统计
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
pubmed文献数
实例介绍
应用
信息抽提( information extraction)
文本挖掘(text mining)
医学知识库(medical knowledge base)
实例
肝癌手术记录自然语言处理
结直肠癌文献挖掘
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
• Step 1. Manually Annotating
• Step 2. Feature Vectors
• Step 3. Data Mining Modeling
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
自然语言处理
(Natural Language Processing)
SCRIPT
PERL
&
JAVA
Protégé
Knowtator
by
Stanford
Medical
Informatics
WEKA
Machine
Learning
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
实例介绍
•
v
v
v
v
v
v
v
v
肝癌手术记录自然语言处理
Eight feature vectors:
absolute distance
relative distance
whether it is a number
whether it is a privative
whether it is a sign of multiplication
whether it coincides with the keyword
number after search word
privative before search word
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
• A score(0 or 1): based on the
annotated text
A=1 stands for the candidate is the
“value” of the “search word”.
A=0 stands for the candidate is not the
“value” of the “search word”.
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
实例介绍
肝癌手术记录自然语言处理
Feature vector selection can influence the
model’s performance:
实例介绍
肝癌手术记录自然语言处理
Classifier method selection can influence the
model’s performance:
实例介绍
PMC
结直肠癌文献挖掘
PubMed
公共文献数据库
•结直肠癌
文献检索
医学实体
全文(篇) 14414
摘要(条) 97609
本地文献数据库
实体识别
结直肠癌
•疾病
•基因
•药物
关联规则
实体映射
疾病、基因、药物相互作用网络
蛋白、基因相互作用网络
全部基因、蛋白质
给定基因(P53、MSH2和
MLH1)
药物、基因相互关系标注
全部药物
给定药物(5-氟尿嘧啶)
实例介绍
结直肠癌文献挖掘
结直肠癌相关基因、蛋白、药物作用网络
参考资料
http://en.wikipedia.org/wiki/Natural_languag
e_processing
http://www.nlp.org.cn/中文自然语言处理开
放平台
刘群,中文自然语言处理的现状与展望
谢谢!
2011.3.28