第3节-医学数据挖掘-(上)

Download Report

Transcript 第3节-医学数据挖掘-(上)

计算机辅助医学
医学数据挖掘(上)
刘雷
上海生物信息技术研究中心
2013.3.15
提纲
1
基本概念
2
关键技术
3
应用实例
4
相关工具
提纲
1
基本概念
2
关键技术
3
应用实例
4
相关工具
背景
什么激发了数据挖掘?
需求是发明之母
数据挖掘引起了信息产业的极大关注,主要原
因是存在大量的数据,并且迫切需要将这些
数据转换成有用的信息和知识。
背景
数据挖掘是信息技术自然演化的结果
数据收集和数据库创建
(20世纪60年代和更早)
--原始文件处理
数据库管理系统
(70年代)
•层次和网状数据库系统
•索引和数据组织技术:b+树
•关系数据库系统
•查询语言:SQL等
•数据建模工具:实体-联系模型
•联机事务处理(OLTP)
高级数据库系统
基于Web的数据库系统
(80年代中期-现在)
--高级数据模型
--面向应用
(90年代中期-现在)
--基于XML的数据库系统 --Web挖掘
数据仓库和数据挖掘
(80年代后期-现在)
--数据仓库和OLAP
--数据挖掘和知识发现
新一代综合信息系统
(2000-。。。)
数据库技术的演化
Jiawei Han, Data Mining
背景
数据的丰富带来了对强有力的数据分析工
具的需求
Databases are too big
数据挖掘—概念
 数据挖掘正处在变动和发展过程中,有很多数据挖掘的定
义,也有很多关于数据挖掘是什么和不是什么的讨论。
数据挖掘是从大量数据中提取或“挖掘”知
识。
--Jiawei Han,Micheline Kamber, Data Mining: Concepts and Techniques
大规模和快速的统计学。
--Darryl Pregibon
数据挖掘是用模式识别、统计学、数学等方法
过滤存储在数据库中大量的数据来发现新的、
有意义的关系、模式和趋势的过程。
--Gartner小组
数据挖掘—概念
 相关概念
机器学习
(machine
learning)
人工智能
(machine
learning)
模式识别
( pattern recognition )
a scientific discipline concerned with the design
and development of algorithms that allow
computers to evolve behaviors based on
empirical data, such as from sensor data or
databases.
the intelligence of machines and the branch of
computer science that aims to create it.
In machine learning, pattern recognition is the
assignment of some sort of output value (or label)
to a given input value (or instance), according to
some specific algorithm.
数据挖掘– 概念
数据挖掘是一个交叉学科
数据库技术
信息科学
可视化
机器学习
数据挖掘
统计学
其他科学
数据挖掘– 任务分类
分类(classification)
估值(estimation)
关联分析(association)
聚类(clustering)
数据挖掘
预测(prediction)
描述和可视化
(description and visualization)
背景
什么激发了医学数据挖掘?
需求是发明之母
数据
数据
数据
计算机信息管理系统的应用
数据
数据
数据
电子病历和病案的大量应用
医疗设备和仪器的数字化
分子生物学方法在医学上的应用
数据
数据
背景
如何利用海量数据的信息资源
为疾病的诊断和治疗提供科学的决策
为医学基础、临床研究提供知识
更好的为远程医疗及社区医疗提供保证
背景
常用医学数据分析方法
统计方法
常用统计软件
SPSS
SAS
S-Plus
背景
常用方法的局限性
量 – 大数据量
Data Mining
维 -- 高维度
医学数据
模型
数据挖掘的方法
知识
医学数据挖掘
医学数据
记录内容多
病人基本信息
手术记录
出院小结
免疫组化结果
影像学检测结果
医学数据挖掘
医学数据
记录的形式多样
纸质vs电子
Excel vs 自然语言
图像
……
EXCEL表格
电子病历
医学数据挖掘
医学数据
不完整性
病例和病案的有限性使医学数据库不可能对任何一
种疾病信息都能全面地反映, 表现为医学信息的不完
全性。
时间性。
医学检测的波形、 图像都是时间的函数。
冗余性。
医学数据库是一个庞大的数据资源, 每天都会有大量
相同的或部分相同的信息存储在其中。
医学数据挖掘
高通量生物医学数据特点
纬度高
数据量大
医学数据挖掘
数据挖掘技术在生物医学方面面临的挑战
医学数据存储
大规模、高通量、高维度数据的处理
高效、准确、稳定的分析方法
医学数据挖掘的关键技术
数据预处理
医学数据库中含有海量的、 不同来源的原始信
息, 其中包括大量模糊的、 不完整的、 带有噪
声和冗余的信息。
在数据挖掘之前, 必须对这些信息进行清理
医学数据挖掘的关键技术
信息融合技术
医学信息是由文字、 数据、 波形信号、 图
像、 以及少量的语音和视频信号组成。
对这些不同物理属性的医学数据, 应采用不同的
技术和措施进行处理
医学数据挖掘的关键技术
快速的、 鲁棒的挖掘算法
医学数据数据量大,必须考虑医学数据挖掘的
效率问题
研究快速挖掘算法对于远程医疗和社区医疗具
有更深远的意义, 将直接影响其响应速度和医疗
成本。
医学数据挖掘的关键技术
提供知识的准确性和可靠性
医学数据挖掘的主要目的是为医疗活动和管理
提供科学的决策
如何降低医学数据挖掘过程中的风险, 提高挖掘
结果的准确性和科学性, 是医学数据挖掘能否得
到实际应用的关键所在。
数据挖掘的一般过程
挖掘出的知识
结果解释
和评估
数据挖掘
算法执行
数据收集
数据预处理
问题定义
数据挖掘的过程
数据挖掘的关键步骤
学习领域知识
早
relevant prior knowledge and goals of application
期
1. Learning the application domain
2.
相关知识和目标
3. Creating a target data set: data selection
选择数据
4. Data cleaning and preprocessing: (may take 60% of effort!)
数据清理
5. Data reduction and transformation
数据转换
6. Find useful features, dimensionality/variable reduction,
invariant representation
提取特征
预
处
理
数
据
预
处
理
数据挖掘的关键步骤
7. Choosing functions of data mining 选挖掘功能,如:
summarization, classification, regression, association,
clustering
7. Choosing the mining algorithm(s) 选算法
挖
掘
8. Data mining: search for patterns of interest 挖掘模式
9. Pattern evaluation and knowledge presentation 评价结果,
知识表达
10. visualization, transformation, removing redundant patterns,
etc. 可视化,转换
11. Use of discovered knowledge
后
期
处
理
数据挖掘金字塔
不同层次的用户
Increasing potential
to support
business decisions
向上—更宏观
决策
End User
Decision Making
决策
Data Presentation表达
Visualization Techniques
Business
Analyst
Data Mining 挖掘
Information Discovery
Data
Analyst
Data Exploration 统计等等
Statistical Summary, Querying, and Reporting
预处理/集成, 数据仓库
Data Sources 数据源
Paper, Files, Web documents, Scientific experiments, Database Systems
DBA
数据预处理
数据整合
挑战
不同试验点
不同时间段
不同记录格式
不同的数据集合度
不同的错误形式
数据关联
数据仓库
整合程度
数据预处理
残缺值
通常指超出正常范围,或者在一个正常情况下
不可能出现0值的位置出现0.
残缺值出现的原因
填补残缺值
舍去残缺值
不正确的值
不良属性及属性值
数据的有效期
变量选择
The more , the better?
Yes and No
维度增高,对数据的描述全
面,
信息量增大
有些数据维度可能带有噪声
维度过大增加了计算量
数据量
数据维度
变量选择
特征选择
降低特征空间的维数
降低计算复杂度
提高分类的准确率
从一组特征中选出一部分最有代表性的特征。
从原来的特征空间里面选出一个真子集
特征抽提
采用变换的方式将原来的高维空间映射到一个
低维空间
可以看作从测量空间到特征空间的一种映射
(Mapping) 或变换( Transform)
特征选择
涉及的领域越来越广
电子、工业、医学
数据类型越来越多
高通量数据
文本
图像
……
特征选择
特征选择的数学定义:
所谓特征选择,就是从 L 个度量值集合
{x1,x2,…,xL}中,按某一准则 J 选择出供分类
用的子集,作为降维(m 维,m<L)的分类特征
特征选择
特征选择是模式识别的重要组成部分,它
主要有两方面应用:
从特征空间中选择一个维数更小的特征子空间
以最好的表达某个类自身;
从特征空间中选择一个维数更小的特征子空间
用于最好的区分不同类别。
特征选择
特征选择可以有效的降低维数
不相关的变量(irrelevant features)
冗余的变量(redundant features)
计算此圆的面积
S=π*r*r
在知道半径r的情况下,直径d为冗余变量
颜色() 为不相关的变量
特征选择
两种途径
1. ——————
2. —————
3. —————
4. ————
5. ————
6. ————
7. ———
8. ——
9. ——
排序(rank)
子集(subset)
S1
S2
S3
特征选择
相关概念
Models
Search strategies
Feature quality measures
Evaluation
特征选择
models
Filter Methods
Select the best features according to a reasonable
criterion
The criterion is independent of the real problem
Wrapper Methods
Select the best features according to the final criterion
For each subset of features, try to solve the problem
特征选择
Search strategies
完全搜索策略
非完全搜索策略
穷举法
分支定界法
启发式搜索策略
P
Q
F
F
前向:最优P
F
F
F
F
F
前向
后向
随机
F
F
F
F
F
F
后向:最优Q
特征选择
Feature quality measures
欧几里德距离(Euclidean distance)
特征熵
信息增益
特征选择
Evaluation
特征选择前后的比较
不同特征选取方法的比较
特征选择
有指导
数据集有分类标签
例如:信息熵增益
无指导
数据集无分类标签
例如:聚类--k-means
半指导
小部分数据有分类标签
大部分数据没有分类标签
数据挖掘—方法
数据挖掘方法
统计方法
机器学习
神经计算
可视化
医学数据挖掘—方法
数据挖掘方法
常用的数据挖掘方法一般都可用于医学数据
分类方法
SVM
Logistic回归
决策树
聚类方法
K-近邻
SOM
数据挖掘 – 方法
Apriori Algorithm
找
频
繁
项
集
产
生
关
联
规
则
候选项集合
Support
频繁项集
关联规则
强关联规则满足最小支持度和最
小置信度
置信度表示了这条规则有多大程
度上值得可信
Confidence(A==>B)=P(B|A)=support(A∪B)/spuuort(A)
有效规则
数据挖掘– 方法
Logistic回归
分类
因变量可以是二分类、多分类
自变量可以为类别变量、连续属性
流行病学和医学最
常用的分析方法
M
p
logit p= ln
  ajxj  b
1  p j 1
M
 a j x j b
p
e j1
M
 a j x j b
1  e j1
寻找危险因素
预测
判别
富士康跳楼事件
数据挖掘 – 方法
AdaBoost
分类
将分类性能较差的弱分类器串联起来,通过
加权投票机制有效提升弱分类器的分类性能
AdaBoost的每一轮训练都会为样本重新分配权值:对上一次训
练时被错误分类的样本给出更大的权值,以便在本次训练时着重
对错分的样本进行分类。
同时AdaBoost会给分类正确率高的弱分类器更高的权值,以提
升总体模型的分类准确率 。
AdaBoost对噪声数据和离群值敏感
数据挖掘– 方法
决策树
分类
通过把实例从根节点排列到某个叶子节点
来分类实例,叶子节点即为实例所属的分
类。树上的每一个节点说明了对实例的某
个属性的测试,并且该节点的每一个后继
分支对应于该属性的一个可能值
CEA
阳性
AFP
实例是由属性-值对表示的
目标函数具有离散的输出值
可能需要析取的描述
训练数据可以包含错误
训练数据可以包含缺少属性值的实例
阳性
预后差
阴性
预后好
阴性
预后好
数据挖掘– 方法
AD Tree
分类
Alternative Decision Tree(ADTree)是一种结合决策树(Decision
Tree)和Boosting的分类方法
一棵ADTree由若干决策节点(decision node)和预测节点(prediction
node)组成,其中决策节点表示一个预测状态,预测节点包含一个数
字。ADTree以预测节点为根节点,同时以预测节点为叶子节点。
ADTree方法优于AdaBoost之
处在于,ADTree方法假定当
前的弱分类器是建立在之前
迭代结果的基础上的,并能
以树(Tree)的形式将各弱
分类器展示出来,
数据挖掘 – 方法
K近邻
聚类
如果一个样本在特征空间中
的k个最相似(即特征空间中最
邻近)的样本中的大多数属于
某一个类别,则该样本也属
于这个类别。
K近邻中的k一般为奇数,避
免因两种票数相等而无法决
定。
基因芯片分析
癌细胞聚类分析
数据挖掘– 方法
自组织映射
聚类
自组织神经网络SOM(self-organization mapping net)通过
自动寻找样本中的内在规律和属性,自组织、自适应的改
变网络的参数与结构。
竞争学习
基于无监督学习方法的神经网络的一种重要类型。
向量归一化
寻求获胜神经元
网络输出与权值调整
胃癌尿液蛋白
组数据分析
数据挖掘 – 评价
算法评价效果的评价
常用评价方法
True Positive
False Positive
Accuracy
Specific
Sensitive
数据挖掘– 评价
算法评价效果的评价
数据挖掘– 评价
算法评价效果的评价
 ROC曲线 receiver operating characteristic curve
横坐标为FPR值
纵坐标为TPR值
 是算法的综合评价
ROC曲线下面积评价算法的优劣
数据挖掘
ROC曲线计算方法
数据挖掘的评价
交叉验证
K折交叉验证(k-fold cross validation)
留一法(leave-one-out)
参考资料
 Books
 Jiawei Han, Micheline Kamber. Data Mining-Concepts and
Techniques.(Second Edition)
 Ian H. Witten, Eibe Frank. Data Mining- Practical Machine
Learning Tools and Techniques. (Second Edition)
…
 Journal articles
 Riccardo Bellazzi, Blaz Zupan. Predictive data mining in
clinical medicine: Current issues and guidelines.
 Isabelle Guyon, Andr´e Elisseeff. An Introduction to
Variable and Feature Selection.
…
 Internet
谢谢!
刘雷
上海生物信息技术研究中心
2013.3.15