智能数据分析 (Intelligent Data Analysis,IDA) Josipa Kern, PhD Andrija Stampar公共卫生学院 萨格勒布大学医学院 萨格勒布,克罗地亚 对智能数据分析的兴趣和激情 决策的过程就是寻求信息和知识的 过程 数据处理可以提供这些 问题的多维度在于寻找合适的解决 方案和进行深入的数据处理和分析 学习目标 理解IDA的概念 浏览相关的网页和文献 接触一些IDA的工具 学习如何使用IDA工具和验证IDA的结果 绩效目标 识别需要使用IDA来解决的问题 准备数据并进行分析 验证并解释IDA的结果.
Download
Report
Transcript 智能数据分析 (Intelligent Data Analysis,IDA) Josipa Kern, PhD Andrija Stampar公共卫生学院 萨格勒布大学医学院 萨格勒布,克罗地亚 对智能数据分析的兴趣和激情 决策的过程就是寻求信息和知识的 过程 数据处理可以提供这些 问题的多维度在于寻找合适的解决 方案和进行深入的数据处理和分析 学习目标 理解IDA的概念 浏览相关的网页和文献 接触一些IDA的工具 学习如何使用IDA工具和验证IDA的结果 绩效目标 识别需要使用IDA来解决的问题 准备数据并进行分析 验证并解释IDA的结果.
智能数据分析
(Intelligent Data
Analysis,IDA)
Josipa Kern, PhD
Andrija Stampar公共卫生学院
萨格勒布大学医学院
萨格勒布,克罗地亚
对智能数据分析的兴趣和激情
决策的过程就是寻求信息和知识的
过程
数据处理可以提供这些
问题的多维度在于寻找合适的解决
方案和进行深入的数据处理和分析
学习目标
理解IDA的概念
浏览相关的网页和文献
接触一些IDA的工具
学习如何使用IDA工具和验证IDA的结果
绩效目标
识别需要使用IDA来解决的问题
准备数据并进行分析
验证并解释IDA的结果
IDA就是…
…与有效的数据分析相关的多学科研究
…用来从大量的联机数据中提取有用信
息;从固有数据库中提取需要的知识和
感兴趣的模型。
IDA还是…
数据开发(data mining)
从数据中获得的知识
基于算法(algorithm-based)的遗传规律
的发现
知识的发现
学习分类系统
机器学习(machine learning)
其他
IDA提供知识…
知识就是…
经过收集,分类,组织,整合,概括
和增值的信息的精华
位于比资料和信息更高的抽象概念的
水平,并能用来推出新的信息和知识
往往表现为用来解决特定问题的专门
技能
知识的获得…
是一个抽提、分析、转换、分类、
组织和整合知识并以一种能用于计
算机系统的形式来阐明的过程
一个领域的知识能用一系列的
规律来表达
规律就是…
用来规定建议、指令或策略的正规
方式。常用“如果前提,那么结论”
或“如果条件那么行为”的形式表
达
怎样发现隐藏在数据中
的规律?
一些IDA的工具…
See5—以决策树和/或规律设置的
形式来分析数据和生成分类器的程
序
http://www.rulequest.com
一些IDA的工具…
Cubist—分析数据和生成基于规律
的分段线形模型—规律的集合,每
个规律都有相关的线形表达来计算
目标值…
http://www.rulequest.com
一些IDA的工具…
ILLM—此工具以规律的形式建立了
分类模型,这种规律阐述了有关隐
藏在数据中的关系的知识
http://dms.irb.hr
一些IDA的工具…
Magnum Opus—找寻相关性规律,
因可以揭示数据中因素之间潜在的
相互作用而具有竞争性优势
http://www.rulequest.com
IDA结果评价
绝对&相对精确性
灵敏性&特异性
假阳性&假阴性
误差率
规律的可靠性
及其他
IDA举例
使用See5进行IDA演示
See5…应用…
应用.姓名—列出案例可能所属的组
别以及用来描述每个案例的属性
属性有两类:离散属性从一系列可
能性中提取出一个数值,而连续性
属性有数字值
See5…应用…
应用.数据—提供训练案例的信息,
See5从中提取出模型
每个案例的入口由一条或多条决定
所有属性值的线组成
See5…应用…
应用.测试—提供测试案例的信息
(用于结果评价)
每个案例的入口由一条或多条决定
所有属性值的线组成
See5…应用…实例…
流行病学研究(1970-1990)
在这段时间内死于心血管病的受试者样本
问题:他们知道自己生病了吗?
1—他们是健康的
2—他们有疾病(药物治疗,临床和实验室检
查阳性结果)
See5…应用…实例…
应用.姓名—实例
目标
性别:男,女
活性:1,2,3
年龄:连续的
吸烟:否,是
—
目标:1,2
—
See5…应用…实例…
应用.数据—实例
男,1,59,是,0,0,0,0,119,73,103,86,247,87,
15979,?,?,?,1,73,2.5
男,1,66,是, 0,0,0,0,132,81,183,239,?,783,
14403,27221,19153,23187,1,73,2.6
男,1,61,否, 0,0,0,0,130,79,148,86,209,115,
21719,12324,10593,11458,1,74,2.5
… …
See5…应用…实例…
结果—实例
规律 1:(包括26名)
性别=男
收缩压>111
油脂>2.9
->
1组 [0.929]
See5…应用…实例…
结果—实例
规律 4:(包括14名)
吸烟=是
收缩压>131
葡萄糖>93
葡萄糖<=118
油脂<= 2.9
->
2组 [0.938]
See5…应用…实例…
结果—实例
规律 15:(包括2名)
收缩压<=111
油脂>2.9
->
2组别 [0.750]
See5…应用…实例…
结果—实例
训练数据评价(199例)
(a)
(b)
<-分组为
----
----
107
3
(a): 组 1
17
72
(b): 组 2
See5…应用…实例…
结果—实例(训练集)
灵敏性=0.97
特异性=0.81
See5…应用…实例…
结果—实例
测试数据评价(73例)
(a)
(b)
<-分组为
----
----
43
1
(a): 组 1
3
26
(b): 组 2
See5…应用…实例…
结果—实例(测试集)
灵敏性=0.98
特异性=0.90
所有推荐的IDA工具在提到的URL上
都是可用的,至少也有测试版本
试试你自己的IDA…
谢谢!