面向中文电子病历的NLP关键技术研究
Download
Report
Transcript 面向中文电子病历的NLP关键技术研究
面向中文电子病历的NLP关键技术
研究
蒋志鹏 关毅
哈尔滨工业大学计算机学院
[email protected]
2014年4月13日
Copyrights @ 2014 HIT
All Rights Reserved
电子病历(EMR)
医务人员在医疗活动过程中,使用医疗机构
信息系统生成的文字、符号、图表、图形、数
据、影像等数字化信息,并能实现存储、管理、
传输和重现的医疗记录
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
中文电子病历(CEMR)
对患者身体
状况的半结构
化专业描述
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
中文电子病历(CEMR)
医疗大数据
16
每天约800份
每月约15000份
每年约15万份
14
住院病历数量(万)
12
10
8
6
4
2
0
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
年份
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
中文电子病历(CEMR)
目前在CEMR方面展开的研究工作
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
CEMR句法树库构建
语法标注规范制定
语法标注结果及分析
高精度词性标注系统
2014年4月13日
Copyrights @ 2014 HIT
All Rights Reserved
语法标注规范制定
E语料
项目组讨论
随机抽样
咨询专业医生
机器自动标注
修订标注规范
标注者A1校对
基于PCTB规范
进行迭代修订
人机互助
医生协助
一致性评价
标注者A2校对
否
更新词典
计算标注一致性
一致性稳定?
是
标注G语料
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
语法标注规范制定
规范中一些重要修订
筛选、补充、细化PCTB词性标注规范
例如,“伴有视物模糊”中的“视物”
提出适用于CEMR的术语切分方案
PCTB:“吃饭”不切分,“吃梨”“吃桃”切分
CEMR:“持物”“抗凝”是否切分?
字段
预切分
是否可
还原
是
还原
否
是否可
替换
是
否
切分
不切分
以“抗凝”为例:
抗凝
预切分
是否可
还原
是 阻止/凝固
是否可
替换
是
阻止/发炎
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
语法标注规范制定
标注质量控制
表1 规范修订前后主要词性歧义项分布
NN
JJ
M
NN
JJ
PCTB词性标注规范
歧义项
数量
VV
89
LC
72
LC
64
VA
63
NN
37
NN
NN
JJ
NN
ND
面向电子病历的词性标注规范
歧义项
数量
VV
47
M
15
NN
9
VA
9
NN
6
表2 前3次迭代分词和词性标注准确率及一致性
迭代
次数
1
2
3
A1 F1值(%)
96.76
95.51
98.49
中文分词
A2 F1值(%)
92.27
96.94
96.47
IAA(%)
96.53
97.89
98.25
A1 Precision(%)
96.68
97.36
97.80
词性标注
A2 Precision(%)
88.53
97.81
97.60
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
IAA(%)
89.25
95.18
95.60
语法标注规范制定
分词、词性标注、句法标注规范
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
语法标注规范制定
标注结果
138份带有词性、句法标签的电子病历
来自神经内科和普通外科
<入院时情况>
包括出院小结和首次病程记录
(IP (VP (VP (VV 嗜)
(NP (NN 睡)))
(PU 、)
(VP (VV 懒)
(NP (NN 言)))
(PU 、)
(VP (NP (QP (CD 双))
(NP (ADJP (JJ 下))
(NP (NN 肢))))
(VP (VA 乏力))))
(PU .))
(…)
</入院时情况>
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
语法标注规范制定
CEMR句法树库构建的主要困难:
目前没有任何基于CEMR的标注语料
各级标注均需要医生的参与
不同医疗机构、不同科室病历差异较大
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
CEMR句法树库构建
语法标注规范制定
语法标注结果分析
高精度词性标注系统
2014年4月13日
Copyrights @ 2014 HIT
All Rights Reserved
语法标注结果分析
CEMR文本语言的特点:
包含大量专业术语(如“共济运动”、 “脑梗死”)、习
惯用语(如“伴”、“否认”)及缩略词(如“CT”、“MMR”)
常用数字、量词和形容词表示检查结果(如
“100/70mmHg”)
句子结构不完整,但规律性较强
频繁使用并列长句,导致句法结构趋于扁平
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
语法标注结果分析
通用标注模型效果
词性标注
平均准确率仅为 82.35%
100
90
80
70
60
50
40
30
20
10
0
OOV率
准确率
Fig.2a 出院小结各部分标注效果
100
90
80
70
60
50
40
30
20
10
0
OOV率
准确率
Fig.2b 首次病程记录各部分标注效果
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
语法标注结果分析
通用标注模型效果
句法分析
F1(auto pos) :53.58%
F1(gold pos) :73.19%
100
90
80
70
60
50
40
30
20
10
0
词性标注
句法分析
Fig.3a 出院小结各部分标注效果
100
90
80
70
60
50
40
30
20
10
0
词性标注
句法分析
Fig.3b 首次病程记录各部分标注效果
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
语法标注结果分析
实验数据:
训练集:56份中文电子病历
调试集:14份中文电子病历
实验结果:
CORPUS
POS(%)
PARSE(%)
CEMR(group)
93.59
80.68
CEMR(all)
93.76
80.36
CEMR(single)
93.53
80.11
PCTB
77.68
53.58
* CEMR(all)
85.94
68.46
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
CEMR句法树库构建
语法标注规范制定
语法标注结果及分析
高精度词性标注系统
2014年4月13日
Copyrights @ 2014 HIT
All Rights Reserved
系统处理流程
输入
输入:
基于字的模型
基于字的模型
处理后:
直#B_NN 肠#E_NN 粘#B_NN 膜#E_NN 内#B_VV 脱#E_NN 垂
#S_VV
基于转移的错误驱动的方
法修正结果
结果修正后:
直#B_NN 肠#E_NN 粘#B_NN 膜#E_NN 内#S_LC 脱#B_VV 垂
#E_VV
输出
输出:
(a)
直肠粘膜内脱垂
直肠#NN 粘膜#NN 内#LC 脱垂#VV
(b)
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved111
中文分词与词性标注的联合模型
感知器算法
输入: 训练样本;迭代次数T
初始化: 参数向量 0
训练过程:
for t = 1...T, i = 1...n
使用beam search 算法找到当前参数下满足下面条件的标注序列
z[1:ni ] arg maxzni s s s
i
如果 z[1:ni ] t[1:ni ] 则更新参数向量
s s s _ gold s
输出:
参数向量
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
基于转移的错误驱动模型
提出适用于CEMR的转移模板
扩展经典的训练算法:
1. 以转换前为当前词的规则
2. 以转换前为条件的规则
3. 以转换后为当前词的规则
4. 以转换后为条件的规则
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
实验结果及分析
实验数据:
训练集:PCTB语料+110份中文电子病历
调试集:14份中文电子病历
测试集:14份中文电子病历
实验结果
标注模型
分词(F1)
词性标注(F1)
WI postagger
94.39%
93.20%
词网格模型
90.45%
89.05%
基于字的模型
90.15%
88.73%
管道式模型
84.15%
82.11%
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
CEMR实体和实体关系语料构建
实体标注语料规模和科室分布
标注语料中实体的统计分析
实体标注规范制定
实体标注结果及评价
2014年4月13日
Copyrights @ 2014 HIT
All Rights Reserved
实体标注语料规模
CEMR实体标注语料规模
原始语料:2012全年的电子病历,共144230份,来
自35个科室,87个子科室
已校对语料:3085份中文电子病历,按照上述子科室
平均抽取
已标注语料:991份中文电子病历,包含为479420个
字符,35327个实体
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
实体标注语料科室分布
CEMR实体标注语料分布
已标注的病历数量分布图
普通外科
未标注的病历数量分布图
血液内科
普通外科
心血管内科
心血管内科
妇产科
妇产科
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
CEMR实体和实体关系语料构建
实体标注语料规模和科室分布
标注语料中实体的统计分析
实体标注规范制定
实体标注结果及评价
2014年4月13日
Copyrights @ 2014 HIT
All Rights Reserved
标注语料中实体的统计分析
对比CEMR和开放领域语料的实体密集度
开放领域语料:MET-2中的中文新闻语料,共104个文档
中文电子病历
开放领域语料
16.21%
30.72%
实体
非实体
69.28%
83.79%
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
CEMR实体和实体关系语料构建
实体标注语料规模和科室分布
标注语料中实体的统计分析
实体标注规范制定
实体标注结果及评价
2014年4月13日
Copyrights @ 2014 HIT
All Rights Reserved
实体标注语料构建团队
语料构建团队
研究室成员:
2名博士生,1名硕士生
主要负责标注规范初步制定、实体关系标注
参与标注的医生:
哈医大四院神经内科医生(硕士)
哈医大二院呼吸内科医生(博士)
主要负责标注规范修订、实体标注和标注人员培训
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
实体标注规范制定
●实体标注规范制定
●实体标注培训
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
The realization
of Chinese interface for UMLS
实体标注规范制定
CEMR实体和
实体关系标注规范
2015/4/8
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
CEMR实体和实体关系语料构建
实体标注语料规模和科室分布
标注语料中实体的统计分析
实体标注规范制定
实体标注结果及评价
2014年4月13日
Copyrights @ 2014 HIT
All Rights Reserved
The realization
of Chinese interface for UMLS
实体标注结果
CEMR实体标注样例
2015/4/8
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
The realization
of Chinese interface for UMLS
实体标注结果
CEMR实体关系标注样例
2015/4/8
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
实体标注语料一致性评价
正式标注质量控制
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
实体标注语料一致性评价
评价标准
实体边界匹配
实体边界、实体类型匹配
实体边界、实体类型、实体修饰类型匹配
IAA
Kappa
修饰
边界+类型+修饰
95.5%
73.6%
1
86.7%
类型
98.0%
2
93.9%
97.5%
95.7%
85.4%
3
94.2%
98.4%
96.5%
86.4%
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
其他研究工作
个性化健康信息
抽取
CEMR
个性化健康知识
表示
UMLS
个性化健康知识
维护
PHK
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
已录用文章
Xinbo Lv, Yi Guan, Benyang Deng. Transfer Learning based
Clinical Concept Extraction on Data from Multiple Sources.
Journal of Biomedical Informations,2014 (SCI 2.131)
杨锦锋, 于秋滨, 关毅, 蒋志鹏. 电子病历命名实体识别和实体
关系抽取研究综述,自动化学报,2014 (long)
蒋志鹏, 赵芳芳, 关毅, 杨锦锋. 面向中文电子病历的词法语料
标注研究. 高技术通讯, 2014,6
2014年4月13日
Copyrights @ 2014HIT
All Rights Reserved
谢谢!
Q&A
2014年4月13日
Copyrights @ 2014 HIT
All Rights Reserved