第4节-医学数据挖掘-(下):03/14/2012

Download Report

Transcript 第4节-医学数据挖掘-(下):03/14/2012

计算机辅助医学
医学数据挖掘(下)
刘雷
上海生物信息技术研究中心
提纲
1
基本概念
2
关键技术
3
应用实例
4
相关工具
复习
Artif Intell Med. 2004 Oct;32(2):71-83
例子
为什么将数据挖掘技术引
入到生物医学数据领域?
数据挖掘的相关概念
为什么将数据挖掘技术引入到生物医学数
据领域?
生物医学数据的特点
现有生物医学数据分析方法
记录内容多
记录的形式多样
不完整性
时间性
冗余性
维度高
数据量大
数据挖掘从大量数据中获取有效的、新颖的、潜
在有用的、最终可理解的模式的非平凡过程
医学数据挖掘技术
数据挖掘任务的分类
 数据挖掘任务的分类
 分类(Classification)
 关联规则(Association rules)
 估值(Estimation)
 聚类(Clustering)
 预测(Prediction)
 复杂数据类型挖掘(Text Web 图形 图像 视频 音频等)
医学数据挖掘关键技术
 医学数据挖掘关键技术
 数据预处理
 快速的、鲁棒的挖掘算法
 信息融合技术
 提供知识的准确性和可靠性
例子
数据挖掘的流程?
使用什么样的方法?
如何评价?
方法
1
2
数据收集
特征变量选择
统计方法
遗传算法
3
建模
SVM
分类任务
方法与结果
4
评价
Leave-one-out
交叉验证
Confusion Matrix
常用方法
True Positive Accuracy
False Positive Specific
Sensitive
方法与结果
4
评价
ROC曲线
数据挖掘在医学上的应用实例
需求
医学数据挖掘
结果
目的
结直肠癌肝转移预测模型
癌症相关突变预测
1.概述
• 1.1 课题的背景
– 结直肠癌是常见的消化道恶性肿瘤
– 结直肠癌肝转移是影响患者预后的重要问题,
也是结直肠癌患者死亡的主要原因之一
诊断
治疗
影像学
血清肿瘤标志物
化疗
手术切除
1.概述
• 1.2 课题的目的和意义
– 课题来源:863项目《建立基于医疗信息共享
的临床决策支持系统 》
– 研究的目的是将数据挖掘技术应用于癌症临床
研究,寻找适合分析癌症数据的数据挖掘方法
和流程,探索数据挖掘在癌症临床数据分析中
的应用价值
1.概述
• 1.3 研究的内容和方法
数据准备
数据分析
•数据存储
•特征选取
•数据清理
•模型建立
•模型测试
结直肠癌同时肝转移为例
服务的建立
•结果解释
2.数据准备
• 2.1 数据描述
1)患有原发性结直肠癌,排除
复发和转移性结直肠癌患者;
复旦大学附属肿瘤医院
大肠外科收治
的结直肠癌患者
2)有详细的临床和病理诊断;
3)通过CT、MRI和手术探查判
断患者是否发生同时肝转移。
训练数据集
•2000年6月-2005年12月
•1125例
•《大肠癌病史资料统计表》
•Excel表
•基本信息、临床诊断信息、
病理诊断信息、免疫组化信息、
影像学诊断信息、手术信息和
随访信息等,
•共234个数据项。
测试数据集
•2006年
•152例
•HTML文档
•基本信息、入院诊断、
手术信息和出院医嘱等
2.数据准备
• 2.2 数据存储
训练数据集
•2000年6月-2005年12月
•1125例
•《大肠癌病史资料统计表》
•Excel表
•基本信息、临床诊断信息、
病理诊断信息、免疫组化信息、
影像学诊断信息、手术信息和
随访信息等,
•共234个数据项。
原始数据
(excel格式)
大肠癌病史
资料统计表
xrff格式
XML中间文档
原始数
据模板
映射
目标模型文件
XML格式文件
Clindata Express
数据库
2.数据准备
• 2.3 数据抽提
测试数据集
•2006年
•152例
•HTML文档
•基本信息、入院诊断、
手术信息和出院医嘱等
分词
抽提
测试数据项
2.数据准备
• 2.4数据清理
– 去除空值较多的数据项
– 核查不准确数据
– 保留手术前记录的属性
训练数据集:48个数据项
训练数据集样本和测试数据集样本基本情况分布表
训练数据集
病例数
年龄
男性患者数
测试数据集
肝转移
非肝转移
肝转移
非肝转移
100
952
12
138
57.81±12.26 57.68±13.41 60.25±15.41
60
542
9
57.54±13.87
84
数据准备
数据分析
•数据存储
•特征选取
•数据清理
•模型建立
•模型测试
服务的建立
•结果解释
3.特征选取
• 特征选取可以降低数据维度、去除噪声变
量、减少计算量、提高模型分类性能
– 信息增益
CEA、CA50、CA19-9、最大径、直肠
– 遗传算法
– AdaBoost方法
特征变量提取方法
信息增益
结果
CEA,CA50,CA19-9,最大径,直肠
遗传算法
AdaBoost
CEA,CA50,CA19-9,最大径
CEA,CA50, 最大径,直肠
数据准备
数据分析
•数据存储
•特征选取
•数据清理
•模型建立
•模型测试
服务的建立
•结果解释
4.模型建立
• 4.1 评价标准
– 交叉验证
– 敏感性、特异性和准确率
– ROC曲线
• 4.2建模方法及工具
研究内容
•不同变量对应的模型
•缺失值处理
•分类属性和数值属性
– AdaBoost、Logistic回归、SimpleLogistic、SVM、
ADTree、Decision Stump和RandomForest 、J48
– Weka 3.5,R
4.模型建立
4.3不同变量对应的模型
全部47个变量
4.模型建立
4.3不同变量对应的模型
CEA、CA50、CA19-9、直肠、最大径
特征变量组合
CEA、CA50、CA19-9、直肠、最大径
4.模型建立
4.3不同变量对应的模型
CEA、CA50、CA19-9、直肠、最大径
特征变量组合
CEA、CA50、CA19-9、直肠、最大径
4.模型建立
4.3不同变量对应的模型
CEA、CA50、CA19-9、直肠、最大径
特征变量组合
CEA、CA50、CA19-9、直肠、最大径
4.模型建立
4.3不同变量对应的模型
随机抽取变量
平均ROC曲线下面积为:0.508
随机抽取变量建模的模型性能评价表
方法
AB
ADT
RF
DS
J48
Log
SL
SVM
0.534
0.533
0.562
0.541
0.499
0.506
0.541
0.5
横结肠、腹痛、AFP、肛管、
0.545
AgNOR
0.517
0.498
0.545
0.499
0.529
0.545
0.5
大便6-10次、阑尾、Bax、
里急后重、肛门坠胀
0.466
0.478
0.487
0.478
0.499
0.405
0.481
0.5
贫血、AFP、大便10次以上、
0.488
脾曲、Neu
0.464
0.495
0.474
0.499
0.456
0.46
0.5
大便困难、降结肠、P21、
横结肠、乙状结肠
0.529
0.519
0.531
0.547
0.499
0.537
0.574
0.5
里急后重、P21、Topo、大
便困难、合并肠梗阻
0.522
0.514
0.513
0.547
0.499
0.494
0.548
0.5
变量
便血、粘液便、大便6-10次
便形变细、腹泻与便秘交替
4.模型建立
小结与讨论
使用特征变量可以提升模型的分类性能
Logistic各模型的分类性能
变量
敏感性
特异性
准确率
AUC
47个变量
0.51
0.6954
0.6778
0.598
5个特征变量
0.70
0.7174
0.7158
0.782
AdaBoost方法性能较好
AdaBoost各模型的分类性能
变量
敏感性
特异性
准确率
AUC
全部47个变量
0.76
0.7857
0.78327
0.847
CEA、CA 50、CA 19-9、直肠、最大径
0.75
0.8298
0.82224
0.860
CEA、CA 50、直肠、最大径
0.79
0.7952
0.7947
0.863
CEA、CA 50、最大径
0.76
0.8180
0.8127
0.857
CEA、CA 50、直肠
0.81
0.7742
0.7776
0.854
CEA、CA 50
0.78
0.8141
0.8108
0.843
4.模型建立
• 4.4缺失值的处理
去掉数据集含有缺失值的样本
使用全局变量
使用类内均值填补缺失值
使用0填补缺失值
将缺失值视为单独的一个值
不同缺失值处理方法得到的AdaBoost CEA-CA 50模型的ROC曲线
4.模型建立
• 4.5数值属性与分类属性
阈值
阴性
CEA:0~10μg/L
CA 19-9:0~37U/ml
CA 50:0~20U/ml
阳性
∞
0
变量
AUC
分类(阳性/阴性) 数值
CEA、CA 50、CA 19-9、最大径、直肠
0.854
0.860
CEA、CA 50、最大径、直肠
0.833
0.863
CEA、CA 50
0.800
0.843
CEA、CA 19-9
0.804
0.851
数据准备
数据分析
•数据存储
•特征选取
•数据清理
•模型建立
•模型测试
服务的建立
•结果解释
5.模型的测试
AdaBoost CEA-CA50 模型
Logistic CEA-CA50 模型
各CEA-CA 50模型的分类性能表
方法
敏感性 特异性
准确率
AUC
AdaBoost
0.78
0.8140
0.8108
0.843
ADTree
0.71
0.8214
0.8108
0.800
RandomForest
0.74
0.6953
0.6996
0.728
Decision Stump
0.76
0.7185
0.7224
0.747
0.7805
0.7538
0.664
J48 decision tree 0.5
Logistic回归
0.82
0.7342
0.7424
0.838
SimpleLogistic
0.76
0.7731
0.7719
0.795
SVM
0.13
0.9937
0.9116
0.5618
5.模型的测试
• 整体预测性能
图 测试数据集上AdaBoost CEA-CA 50模型和Logistic CEA-CA 50模型的ROC曲线
5.模型的测试
取ROC曲线上距点(0,1)最近的点的阈值
•AdaBoost CEA-CA 50模型的阈值为0.082
•Logistic CEA-CA 50模型的阈值为0.069
取ROC曲线上距点(0,1)最近的点的阈值时模型的预测能力
模型
敏感性
特异性
准确率
AdaBoost CEA-CA 50模型
0.8333
0.8261
0.8267
Logistic CEA-CA 50模型
0.9167
0.6449
0.6667
5.模型的测试
• 5.3 特殊病例
病例1
病例2
肝脏侵犯
术前提示
肝右前叶低密度结节,转移
可能
•AdaBoost CEA-CA50模型
阳性
•Logistic CEA-CA50模型
阳性
病灶直接侵犯肝脏
•AdaBoost CEA-CA50模型
阳性
•Logistic CEA-CA50模型
阳性
数据准备
数据分析
•数据存储
•特征选取
•数据清理
•模型建立
•模型测试
服务的建立
•结果解释
6. 结直肠癌同时肝转移预测服务系统
• 6.1 系统架构及开发工具
JSP+TOMCAT+MySQL
服务器
预测模型1
Internet/
Intranet
预测模型2
数据库
预测模型3
6. 结直肠癌同时肝转移预测服务系统
• 6.2预测服务
预测页面
结果展示页面
7.讨论
• 7.1 模型的比较
Logistic
•变量较多时,
Logistic回归的
分类能力不强
AdaBoost
•性能较平均
•变量筛选
ADTree
•展示性好
•免疫球蛋白超基因粘附
•糖基抗原
分子家族 •高表达和肿瘤的转移有关
•能促进肿瘤细胞相互粘
•转移组和非转移组表达量
附或与宿主器官粘合
有统计学差异
•转移组和非转移组表达
•细胞粘附分子E-selectin的
量有统计学差异
受体
7.讨论
• 7.2 模型的生物医学意义
•糖基抗原
•转移组和非转移组表达量
有统计学差异
CA50
•直肠上的血流通过肺循环
回流入心脏
直肠
CEA
CA19-9
特征变量
最大径
癌症相关突变的预测
Cancer Re January 15, 2007 67(2):465-473;
癌症相关突变的预测
研究背景
癌症相关突变的发现将对癌症的早期检测和抗
癌药物的研制带来极大的推动作用
测序方法容易遗漏一些癌症相关的突变
癌症相关突变的预测
研究目的
借助现有的突变数据和数据挖掘的方法建立癌
症相关突变的预测模型
突变数据
数据挖掘方法
癌症相关突变
其他突变
癌症相关突变的预测
模型的建立
使用Random Forest算法
选择三个特征变量SIFT, Pfam logR.E 和 GOSS
scores
训练集包括200个cancer mutations 和 800 个
non-cancer
癌症相关突变的预测
• 数据
– common variants
– cancer-associated variants
– Mendelian disease–associated variants
– complex disease–associated variants
癌症相关突变的预测
癌症相关突变的预测
SIFT
LogR.E value
RF
Cancer associated
or not
GO log-odds
测试集包括730个突变数据
581个正常突变中有10个被分成癌症相关突变
(1.7%)
149个癌症相关突变中13个被分成了其他突变
(8.7%)
癌症相关突变的预测
http://www.cgl.ucsf.edu/Research/genentech/canpredict/index.html
癌症相关突变的预测
开源的数据挖掘集成环境
Weka is a collection of machine learning
algorithms for data mining tasks.
WEKA的全名是怀卡托智能分析环境
(Waikato Environment for Knowledge Analysis)
http://www.cs.waikato.ac.nz/ml/weka
同时weka也是新西兰的一种鸟,而WEKA的主
要开发者来自新西兰。
开源的数据挖掘集成环境
 Weka contains tools for data pre-processing,
classification, regression, clustering, association
rules, and visualization.
开源的数据挖掘集成环境
Weka图形用户界面---数据预处理
A
B
C
E
F
D
开源的数据挖掘集成环境
Weka图形用户界面---分类
A
B
D
C
E
开源的数据挖掘集成环境
The algorithms can either be applied directly
to a dataset or called from your own Java code.
It is also well-suited for developing new
machine learning schemes.
开源的数据挖掘集成环境
Open source data visualization and analysis
for novice and experts.
Data mining through visual programming or
Python scripting.
Components for machine learning.
Extensions for bioinformatics and text mining.
Packed with features for data analytics.
http://orange.biolab.si/
开源的数据挖掘集成环境
Visual programming
Visual programming
开源的数据挖掘集成环境
Interaction and data analytics
开源的数据挖掘集成环境
Scripting interface
Visualization
Large toolbox
参考资料
Lihua Li, Hong Tang, Zuobao Wu,et al. Data
mining techniques for cancer detection using
serum proteomic profiling. Artificial
Intelligence in Medicine (2004) 32, 71—83.
Kaminker JS, Zhang Y, Waugh A, et al.
Distinguishing cancer-associated missense
mutations from common polymorphisms.
Cancer Res. 2007 Jan 15;67(2):465-73.
谢谢