智能数据分析 (Intelligent Data Analysis,IDA) Josipa Kern, PhD Andrija Stampar公共卫生学院 萨格勒布大学医学院 萨格勒布,克罗地亚 对智能数据分析的兴趣和激情 决策的过程就是寻求信息和知识的 过程  数据处理可以提供这些  问题的多维度在于寻找合适的解决 方案和进行深入的数据处理和分析  学习目标  理解IDA的概念  浏览相关的网页和文献  接触一些IDA的工具  学习如何使用IDA工具和验证IDA的结果 绩效目标  识别需要使用IDA来解决的问题  准备数据并进行分析  验证并解释IDA的结果.

Download Report

Transcript 智能数据分析 (Intelligent Data Analysis,IDA) Josipa Kern, PhD Andrija Stampar公共卫生学院 萨格勒布大学医学院 萨格勒布,克罗地亚 对智能数据分析的兴趣和激情 决策的过程就是寻求信息和知识的 过程  数据处理可以提供这些  问题的多维度在于寻找合适的解决 方案和进行深入的数据处理和分析  学习目标  理解IDA的概念  浏览相关的网页和文献  接触一些IDA的工具  学习如何使用IDA工具和验证IDA的结果 绩效目标  识别需要使用IDA来解决的问题  准备数据并进行分析  验证并解释IDA的结果.

智能数据分析
(Intelligent Data
Analysis,IDA)
Josipa Kern, PhD
Andrija Stampar公共卫生学院
萨格勒布大学医学院
萨格勒布,克罗地亚
对智能数据分析的兴趣和激情
决策的过程就是寻求信息和知识的
过程
 数据处理可以提供这些
 问题的多维度在于寻找合适的解决
方案和进行深入的数据处理和分析

学习目标

理解IDA的概念

浏览相关的网页和文献

接触一些IDA的工具

学习如何使用IDA工具和验证IDA的结果
绩效目标

识别需要使用IDA来解决的问题

准备数据并进行分析

验证并解释IDA的结果
IDA就是…

…与有效的数据分析相关的多学科研究

…用来从大量的联机数据中提取有用信
息;从固有数据库中提取需要的知识和
感兴趣的模型。
IDA还是…







数据开发(data mining)
从数据中获得的知识
基于算法(algorithm-based)的遗传规律
的发现
知识的发现
学习分类系统
机器学习(machine learning)
其他
IDA提供知识…
知识就是…
经过收集,分类,组织,整合,概括
和增值的信息的精华
 位于比资料和信息更高的抽象概念的
水平,并能用来推出新的信息和知识
 往往表现为用来解决特定问题的专门
技能

知识的获得…

是一个抽提、分析、转换、分类、
组织和整合知识并以一种能用于计
算机系统的形式来阐明的过程
一个领域的知识能用一系列的
规律来表达
规律就是…

用来规定建议、指令或策略的正规
方式。常用“如果前提,那么结论”
或“如果条件那么行为”的形式表
达
怎样发现隐藏在数据中
的规律?
一些IDA的工具…

See5—以决策树和/或规律设置的
形式来分析数据和生成分类器的程
序
http://www.rulequest.com
一些IDA的工具…

Cubist—分析数据和生成基于规律
的分段线形模型—规律的集合,每
个规律都有相关的线形表达来计算
目标值…
http://www.rulequest.com
一些IDA的工具…

ILLM—此工具以规律的形式建立了
分类模型,这种规律阐述了有关隐
藏在数据中的关系的知识
http://dms.irb.hr
一些IDA的工具…

Magnum Opus—找寻相关性规律,
因可以揭示数据中因素之间潜在的
相互作用而具有竞争性优势
http://www.rulequest.com
IDA结果评价
绝对&相对精确性
 灵敏性&特异性
 假阳性&假阴性
 误差率
 规律的可靠性
 及其他

IDA举例
使用See5进行IDA演示
See5…应用…

应用.姓名—列出案例可能所属的组
别以及用来描述每个案例的属性

属性有两类:离散属性从一系列可
能性中提取出一个数值,而连续性
属性有数字值
See5…应用…

应用.数据—提供训练案例的信息,
See5从中提取出模型

每个案例的入口由一条或多条决定
所有属性值的线组成
See5…应用…

应用.测试—提供测试案例的信息
(用于结果评价)

每个案例的入口由一条或多条决定
所有属性值的线组成
See5…应用…实例…



流行病学研究(1970-1990)
在这段时间内死于心血管病的受试者样本
问题:他们知道自己生病了吗?
1—他们是健康的
2—他们有疾病(药物治疗,临床和实验室检
查阳性结果)
See5…应用…实例…

应用.姓名—实例
目标
性别:男,女
活性:1,2,3
年龄:连续的
吸烟:否,是
—
目标:1,2
—
See5…应用…实例…

应用.数据—实例
男,1,59,是,0,0,0,0,119,73,103,86,247,87,
15979,?,?,?,1,73,2.5
男,1,66,是, 0,0,0,0,132,81,183,239,?,783,
14403,27221,19153,23187,1,73,2.6
男,1,61,否, 0,0,0,0,130,79,148,86,209,115,
21719,12324,10593,11458,1,74,2.5
… …
See5…应用…实例…

结果—实例
规律 1:(包括26名)
性别=男
收缩压>111
油脂>2.9
->
1组 [0.929]
See5…应用…实例…

结果—实例
规律 4:(包括14名)
吸烟=是
收缩压>131
葡萄糖>93
葡萄糖<=118
油脂<= 2.9
->
2组 [0.938]
See5…应用…实例…

结果—实例
规律 15:(包括2名)
收缩压<=111
油脂>2.9
->
2组别 [0.750]
See5…应用…实例…

结果—实例
训练数据评价(199例)
(a)
(b)
<-分组为
----
----
107
3
(a): 组 1
17
72
(b): 组 2
See5…应用…实例…

结果—实例(训练集)
灵敏性=0.97
特异性=0.81
See5…应用…实例…

结果—实例
测试数据评价(73例)
(a)
(b)
<-分组为
----
----
43
1
(a): 组 1
3
26
(b): 组 2
See5…应用…实例…

结果—实例(测试集)
灵敏性=0.98
特异性=0.90
所有推荐的IDA工具在提到的URL上
都是可用的,至少也有测试版本
试试你自己的IDA…
谢谢!