粗糙集理论及其在属性选择中的作用

Download Report

Transcript 粗糙集理论及其在属性选择中的作用

姚燕青
北京航空航天大学计算机学院
粗糙集理论
粗糙集理论是由波兰的Pawlak教授于20世纪80年代初提出的
一种研究不完整、不确定知识和数据的表达、学习、归纳的
理论方法。它能有效地对不确定、不精确、不完整的数据进
行分析和推理,从中发现隐含的知识,揭示潜在的规律。
粗糙集在决策支持系统、机器学习、归纳推理、数据库中的
知识发现、数据挖掘、模式识别等领域都得到了广泛的应用
。
粗糙集理论的基本观点
粗糙集方法仅利用数据本身提供的信息,无须任何先验知识。
粗糙集的研究对象是由一个多值属性(特征、症状、特性等)集合描述的
一个对象(观察、病历等)集合,对于每个对象及其属性都有一个值作为
其描述符号,对象、属性和描述符是表达决策问题的3个基本要素。
粗糙集理论建立在分类机制的基础上,它将分类理解为特定空间上的等
价关系,而等价关系 产 生 对该空间的划分。粗糙集理论将知识理解为对
数据的划分。
粗糙集是一个强大的数据分析工具,它能表达和处理不完备信息;能在
保留关键信息的前提下对数据进行化简并求得知识的最小表达式;能识
别并评估数据之间的依赖关系,揭示出概念的简单模式;能从经验数据
中获取易于证实的规则知识。
Outline:
粗糙集理论的基本概念
粗糙集理论的应用
属性约简
决策规则提取
其他
基本概念
1 知识
2 等价关系
3 决策信息系统(决策表)
4 下、上近似
正域,负域,边界域
基本概念(1):知识
粗糙集中,知识被认为是一种分类能力。那些根据
事物的特征差别将其分门别类的能力都可以看作是
某种“知识”。
论域中相互间不可分辨的对象构成的集合,是组成
知识的颗粒。知识是有粒度的. 粒度越小, 能精确表
达的概念越多. 粒度的形式表示: 等价类. 粒度是知
识的最小单位。
基本概念(2)等价关系
通常称研究的对象全体为论域。一般地, 记论域为
U={x1, x2,...,xn}.
设 R  U  U ,称R为U上的关系。U上的关系为等价
关系, 若满足:
(1)
?
(2)
?
(3)
?
基本概念(2)等价关系
通常称研究的对象全体为论域。一般地, 记论域为U={x1, x2,...,xn}.
设 R  U  U ,称R为U上的关系。U上的关系为等价关系, 若满足:
对于任意xi, xj,xk∈ U ,
(1)自反性: (xi, xi) ∈R;
(2)对称性: 若(xi, xj) ∈R时,有(xj,xi) ∈R;
(3)传递性: 若(xi, xj) ∈R且(xj,xk) ∈R,则(xi, xk) ∈R.
集合上的等价关系和集合上的划分是一一对应,相互唯一决定的。
例 一玩具积木的集合如下表描述
R1(颜色)
R2(形状)
R3(体积)
X1
红
圆形
小
X2
蓝
方形
大
X3
红
三角形
小
X4
蓝
三角形
小
X5
黄
圆形
小
X6
黄
方形
小
X7
红
三角形
小
X8
黄
三角形
大
由R1产生的划分为:{{x1,x3,x7}, {x2,x4}, {x5,x6,x8}}
由{R1,R2}产生的划分为{{x1}, {x3,x7}, {x2}, {x4}, {x5}, {x6},
{x8}}
基本概念(3)
决策信息系统(决策表)
决策信息系统实例:
U={1, 2,3,4,5};C={a1,a2,a3};
f a1 (1)  0, f a1 (2)  1,
U
a1
a2
a3
d
1
0
0
1
0
2
1
0
2
1
3
1
1
1
0
4
0
2
1
1
5
1
2
1
0
返回
基本概念(3)
决策信息系统(决策表)
称(U,C  d, F )是决策信息系统(或决策表),
其中U是对象集合,C是条件属性集,{d}是决
策属性集),对于 a  C  d  , Va为a的值域,
F = {f a : U → Va | a  C  d}
记RC ={(xi, xj) | fc(xi)=fc(xj) ,对于任意c∈C}
Rd ={(xi, xj) | fd(xi)=fd(xj) }
若RC为Rd的子集,则称该决策表为协调决策表.
问题
能否去掉几列,仍然得到相同的划分
?
基本概念(4) 集合的上近似、下近似和边界区
一个对象a是否属于集合X根据现有知识
判断,可分为三种情况:
1)a肯定属于集合X
2) a可能属于也可能不属于集合X
3) a肯定不属于集合X
返回
考虑决策信息系统 (U,C  d, F ) , B为C的子集。
记RB={(xi, xj ) | 对于B中任意元素 a,都有 fa(xi)=fa(xj)}.
则易知RB为U上的等价关系。记[xi]B={xj | (xi, xj ) ∈RB}
U的子集X关于集合B的下近似(Lower approximation)是由那些
根据现有知识判断肯定属于X的对象所构成的集合,有时也称为X
的正域(positive region),记做POSB(X)
R B ( X )  {x U : [ x]B  X }
U的子集X关于B的上近似(Upper approximation)是由所有与X
相交非空的等价类[x]B的并集,是那些可能属于X的对象所构成的
集合:
R B ( X )  {x U : [ x]B  X  }
如果上下近似是相等的, 则这是一个精确集合, 否则
它是一个粗糙集, 其中下近似称为该概念的正域, 上
下近似的差称为边界。上近似以外的区域称为负域(
Negative region),记为NEGB(x)。
BNDB ( X )  R B ( X )  R B ( X ).
故
R B ( X )  NEGB ( X )  U .
近似的示意图
假定有一个信息系统, 有两个属性. 属性一有5个值,
属性二有6个值. 现在有一个要近似的集合(X), 在图
中用红色的圆表示.
仅使用第一个属性进行划分的情形.
正域为空. 蓝色区域为负域.
使用两个属性进行划分的情况
加入第二个属性
负域
正域(下近似)
边界区域
上近似
综合表示
返回
例:
R1(颜色)
R2(形状)
R3(体积)
class
X1
红
圆形
小
1
X2
蓝
方形
大
1
X3
红
三角形
小
1
X4
蓝
三角形
小
1
X5
黄
圆形
小
2
X6
黄
方形
小
2
X7
红
三角形
大
2
X8
黄
三角形
大
2
问题: 令X={X1,X2,X3,X4}。求X关于集合
{R1,R2,R3}的上近似和下近似?
粗糙集的应用
在决策规则提取中的应用
基于粗糙集的数据约简
返回
例 含6个流感病例的表
病
例
头
疼
p1
否
是
p2
是
p3
p4
p5
p6
是
否
是
否
肌肉 体
痛 温
流
感
Step 1. 寻找由等价关系产生的划
分:
高
是
“头疼”:{p2,p3,p5},{p1,p4,p6}
否
高
是
是
很
高
是
正
常
否
否
高
否
是
很
高
是
“肌肉痛”:{p1,p3,p4,p6},{p2,p5}
“体温”:{p1,p2,p5},{p3,p6},{p4}
“头疼+肌肉痛”:
{p1,p4,p6},{p2,p5},{p3}
“头疼+体温”:
{p1},{p2,p5},{p3},{p4},{p6}
是
“肌肉痛+体温”:
{p1},{p2,p5},{p3,p6},{p4}
“头疼+肌肉痛+体温”:
{p1},{p2,p5},{p3},{p4},{p6}
Step 2. 针对各个属性的集合寻找下近似和上近似。
以“头疼+肌肉痛+体温”为例,设集合X为患流感的人
的集合,R为3个属性构成的一个等价关系:
{p1},{p2,p5},{p3},{p4},{p6}, 则
X={p1,p2,p3,p6}
U/R ={{p1},{p2,p5},{p3},{p4},{p6}}
集合X的下近似为 R( X )  POS( X )  {p1,p3,p6}
集合X的上近似为 R( X )  {p1,p2,p3,p5,p6}
集合X的负区为
NEG(X)={p4}
集合X的边界区为
BND(X)= {p2,p5}
Step 3. 获取决策规则
根据上面的分析可得出关于属性“头疼+肌肉痛+体温”的规则:
下近似得到的:
RULE1:IF (头疼=否)and(肌肉痛=是)and(体温=高) THEN 患有流感
RULE2:IF (头疼=是)and(肌肉痛=是)and(体温=很高) THEN 患有流
感
RULE3:IF (头疼=否)and(肌肉痛=是)and(体温=很高) THEN 患有流
感
负区得到的:
RULE4:IF (头疼=否)and(肌肉痛=是)and(体温=正常) THEN 没患流
感
边界区得到的:
RULE5:IF (头疼=是)and(肌肉痛=否)and(体温=高) THEN
可能
以“肌肉痛+体温”为例:
X={P1,P2,P3,P6}
U/R={{p1},{p2,p5},{p3,p6},{p4}}
RULE1:IF (肌肉痛=是)and(体温=高) THEN 患有流感
RULE2:IF (肌肉痛=是)and(体温=很高) THEN 患有流
感
RULE3:IF (肌肉痛=是)and(体温=正常) THEN 没患流
感
RULE4:IF (肌肉痛=否)and(体温=高) THEN
可能
返回
决策规则
决策表包含了某一领域的大量数据,是领域的样本数据库。
它记录了大量样本的属性值和决策情况,是领域知识的载体
。
知识获取的目的就是要通过分析这个实例库来得到该领域中
有用的、规律性知识。
决策表在决策应用中有十分重要的地位,可用于表达绝大多
数决策问题。对于决策表,最重要的是从决策表分析得到的
规律性知识,通常采用决策规则的形式记录下来。下面给出
决策规则的形式化描述。
决策规则
定义公式如下:
(1)(a,v)(或写为av,a∈A,v∈Va,表示属性a的取值为v)是公式且是原子
公式。
G  H, G  H, (G), G  H 都是公式。
(2)如果G和H都是公式,那么 G,
(3)只有按定义(1)和(2)所组成的式子是公式。
对于决策表T=(U,C∪D,f),其中子集C={ci|i=1,2,...,m}和D={d}
分别为条件属性集和决策属性集,有关决策规则的定义如下:
决策规则
公式(c1 , v1 )  (c2 , v 2 )    (cm , v m )称P基本公式,
这里v i  Vci , c1 , , cm  P, P  C 。
公式(d, v) 称Q基本公式,
这里v  Vd .
公式A→B称为决策规则,如果A是P基本公式且B是Q基本
公式,则A→B是基本决策规则。
可辨识矩阵
可辨识矩阵(也称分明矩阵)是由波兰数学家
Skowron.A教授提出的。
设协调决策信息系统T= (U,C  d, F ) ,
C={ci|i=1,2,...,m}和D={d}分别为条件属性集和决策
属性集, U={x1,...,xn}是论域, ci(xj)是样本xj在属
性上的取值。MT(i,j)表示可辨识矩阵中第i行j列的对
象,则可辨识矩阵定义为:
ak  C | f k ( xi )  f k ( x j ), if [ xi ] D [ x j ] D  ,
M T ([xi ]C , [ x j ]C )  
, if [ xi ] D [ x j ] D  .

其中,i,j=1,2,...,n.
协调决策表的属性约简
若属性集合BC是满足对于MD中的任一非空
项Mij≠, 都有B∩Mij≠成立的一个最小属性子集
,则称属性集合BC是A的一个约简。
换言之,约简是这样的最小属性子集,它能够区
分用整个属性集合A可区分的所有对象。
由上述定义可以看出,可辨识矩阵是一个对称矩阵
。当两个样本的决策属性取值相同时,矩阵元素值
为空;当两个样本的决策属性不同且可以通过某些
条件属性的取值加以区分时,矩阵元素值为这两个
样本属性值不同的条件属性集合。
一个数据集的所有约简可以通过构造可辨识矩阵并
且化简由可辨识矩阵导出的差别函数而得到,所有
的蕴含式包含的属性就是决策表的所有约简集合。
基于可辨识矩阵的属性约简算法
决策表属性约简实例
决策表属性约简实例
决策表属性约简实例
决策表属性约简实例
决策规则提取
得到相应的决策规则提取,如下:
RULE 1:
RULE 2:
RULE 3:
RULE 4:
RULE 5:
RULE 6:
RULE 7:
IF (a,1) and (c, 2), THEN (e,0) .
IF (a,0) and (c, 1), THEN (e,1) .
IF (a,2) and (c, 2), THEN (e,0) .
IF (a,0) and (c, 2), THEN (e,2) .
IF (c,2) and (d, 1), THEN (e,0) .
IF (c,1) and (d, 2), THEN (e,1) .
IF (c,2) and (d, 2), THEN (e,2) .
分析
从实例计算可以看出,信息表的属性约简是在
保持条件属性相对于决策属性的分类能力不变
的条件下,删除不必要的或不重要的属性。
一般来讲,条件属性对于决策属性的相对约简
不是唯一的,即可能存在多个相对约简。
思考题
课件见 http://yanqingyao.com
思考题 (1)
流感实例数据如下表。试对其进行属性约简和决策规则提取。
C(条件属性)
D(决策属性)
U
头痛(a)
肌肉痛(b)
体温(c)
流感(d)
e1
是(1)
是(1)
正常(0)
否(0)
e2
是(1)
是(1)
高(1)
是(1)
e3
是(1)
是(1)
很高(2)
是(1)
e4
否(0)
是(1)
正常(0)
否(0)
e5
否(0)
否(0)
高(1)
否(0)
e6
否(0)
是(1)
很高(2)
是(1)
e7
是(1)
否(0)
高(1)
是(1)
思考题(2)
气候信息数据如下表。试对其进行属性约简和决策规则提取。
粗糙集知识发现系统
http://www.cs.uregina.ca/~roughset
 RSES系统: 基于粗糙集理论的方法分析数据的工具集,波兰
华沙大学
 LERS系统: 基于粗糙集的实例学习系统,美国Kansas大学开发
 ROSE系统: 实现了Pawlak的基本粗糙集模型和可变精度粗糙
集模型,波兰Poznan工业大学计算机科学研究所智能决策支持系
统实验室研制
KDD-R系统: 基于可变精度粗糙集模型,采用知识发现的决策
矩阵方法。加拿大Regina大学研制
 Rough Enough系统:包括数据输入、预处理、编辑、生成可辨
识矩阵、集合近似、约简、生成规则、预测和分析。挪威Troll
Data Inc.公司开发
参考资料
International Rough set Society http://www.roughsets.org/ 相关
会议
KDDNuggets http://www.kdnuggets.com/ KDD动态
杨善林. 智能决策方法与智能决策支持系统. 科学出版社.
元昌安.数据挖掘原理与SPSS Clementine应用宝典.电子工业出
版社.
张文修,仇国芳.基于粗糙集的不确定决策.清华大学出版社.
张文修,吴伟志,梁吉业等.Rough Set理论与方法.科学出版社.