粗糙集理论及其在属性选择中的作用

Transcript 粗糙集理论及其在属性选择中的作用

姚燕青
北京航空航天大学计算机学院
粗糙集理论
粗糙集理论是由波兰的Pawlak教授于20世纪80年代初提出的
一种研究不完整、不确定知识和数据的表达、学习、归纳的
理论方法。它能有效地对不确定、不精确、不完整的数据进
行分析和推理，从中发现隐含的知识，揭示潜在的规律。
粗糙集在决策支持系统、机器学习、归纳推理、数据库中的
知识发现、数据挖掘、模式识别等领域都得到了广泛的应用
。
粗糙集理论的基本观点
粗糙集方法仅利用数据本身提供的信息，无须任何先验知识。
粗糙集的研究对象是由一个多值属性(特征、症状、特性等)集合描述的
一个对象(观察、病历等)集合，对于每个对象及其属性都有一个值作为
其描述符号，对象、属性和描述符是表达决策问题的3个基本要素。
粗糙集理论建立在分类机制的基础上，它将分类理解为特定空间上的等
价关系，而等价关系产生对该空间的划分。粗糙集理论将知识理解为对
数据的划分。
粗糙集是一个强大的数据分析工具，它能表达和处理不完备信息；能在
保留关键信息的前提下对数据进行化简并求得知识的最小表达式；能识
别并评估数据之间的依赖关系，揭示出概念的简单模式；能从经验数据
中获取易于证实的规则知识。
Outline：
粗糙集理论的基本概念
粗糙集理论的应用
属性约简
决策规则提取
其他
基本概念
1 知识
2 等价关系
3 决策信息系统（决策表）
4 下、上近似
正域，负域，边界域
基本概念（1）：知识
粗糙集中，知识被认为是一种分类能力。那些根据
事物的特征差别将其分门别类的能力都可以看作是
某种“知识”。
论域中相互间不可分辨的对象构成的集合，是组成
知识的颗粒。知识是有粒度的. 粒度越小, 能精确表
达的概念越多. 粒度的形式表示: 等价类. 粒度是知
识的最小单位。
基本概念（2）等价关系
通常称研究的对象全体为论域。一般地，记论域为
U={x1, x2,...,xn}.
设 R  U  U ，称R为U上的关系。U上的关系为等价
关系，若满足：
（1）
？
（2）
？
（3）
？
基本概念（2）等价关系
通常称研究的对象全体为论域。一般地，记论域为U={x1, x2,...,xn}.
设 R  U  U ，称R为U上的关系。U上的关系为等价关系，若满足：
对于任意xi, xj，xk∈ U ,
（1）自反性: （xi, xi) ∈R；
（2）对称性：若（xi, xj) ∈R时，有（xj，xi) ∈R；
（3）传递性：若（xi, xj) ∈R且（xj，xk) ∈R,则（xi, xk) ∈R.
集合上的等价关系和集合上的划分是一一对应，相互唯一决定的。
例一玩具积木的集合如下表描述
R1(颜色)
R2(形状)
R3(体积)
X1
红
圆形
小
X2
蓝
方形
大
X3
红
三角形
小
X4
蓝
三角形
小
X5
黄
圆形
小
X6
黄
方形
小
X7
红
三角形
小
X8
黄
三角形
大
由R1产生的划分为：{{x1,x3,x7}, {x2,x4}, {x5,x6,x8}}
由{R1,R2}产生的划分为{{x1}, {x3,x7}, {x2}, {x4}, {x5}, {x6},
{x8}}
基本概念（3）
决策信息系统（决策表）
决策信息系统实例：
U＝{1, 2，3，4，5}；C＝{a1,a2,a3};
f a1 (1)  0, f a1 (2)  1,
U
a1
a2
a3
d
1
0
0
1
0
2
1
0
2
1
3
1
1
1
0
4
0
2
1
1
5
1
2
1
0
返回
基本概念（3）
决策信息系统（决策表）
称(U,C  d, F )是决策信息系统(或决策表），
其中U是对象集合，C是条件属性集，{d}是决
策属性集)，对于 a  C  d  , Va为a的值域，
F = {f a : U → Va | a  C  d}
记RC ={(xi, xj) | fc(xi)=fc(xj) ，对于任意c∈C}
Rd ={(xi, xj) | fd(xi)=fd(xj) }
若RC为Rd的子集，则称该决策表为协调决策表.
问题
能否去掉几列，仍然得到相同的划分
？
基本概念（4）集合的上近似、下近似和边界区
一个对象a是否属于集合X根据现有知识
判断，可分为三种情况：
1）a肯定属于集合X
2) a可能属于也可能不属于集合X
3) a肯定不属于集合X
返回
考虑决策信息系统 (U,C  d, F ) , B为C的子集。
记RB={(xi, xj ) | 对于B中任意元素 a，都有 fa(xi)=fa(xj)}.
则易知RB为U上的等价关系。记[xi]B={xj | (xi, xj ) ∈RB}
U的子集X关于集合B的下近似（Lower approximation）是由那些
根据现有知识判断肯定属于X的对象所构成的集合，有时也称为X
的正域（positive region），记做POSB（X）
R B ( X )  {x U : [ x]B  X }
U的子集X关于B的上近似（Upper approximation）是由所有与X
相交非空的等价类[x]B的并集，是那些可能属于X的对象所构成的
集合:
R B ( X )  {x U : [ x]B  X  }
如果上下近似是相等的, 则这是一个精确集合, 否则
它是一个粗糙集, 其中下近似称为该概念的正域, 上
下近似的差称为边界。上近似以外的区域称为负域（
Negative region），记为NEGB（x）。
BNDB ( X )  R B ( X )  R B ( X ).
故
R B ( X )  NEGB ( X )  U .
近似的示意图
假定有一个信息系统, 有两个属性. 属性一有5个值,
属性二有6个值. 现在有一个要近似的集合(X), 在图
中用红色的圆表示.
仅使用第一个属性进行划分的情形.
正域为空. 蓝色区域为负域.
使用两个属性进行划分的情况
加入第二个属性
负域
正域(下近似)
边界区域
上近似
综合表示
返回
例：
R1(颜色)
R2(形状)
R3(体积)
class
X1
红
圆形
小
1
X2
蓝
方形
大
1
X3
红
三角形
小
1
X4
蓝
三角形
小
1
X5
黄
圆形
小
2
X6
黄
方形
小
2
X7
红
三角形
大
2
X8
黄
三角形
大
2
问题：令X={X1,X2,X3,X4}。求X关于集合
{R1,R2,R3}的上近似和下近似？
粗糙集的应用
在决策规则提取中的应用
基于粗糙集的数据约简
返回
例含6个流感病例的表
病
例
头
疼
p1
否
是
p2
是
p3
p4
p5
p6
是
否
是
否
肌肉体
痛温
流
感
Step 1. 寻找由等价关系产生的划
分：
高
是
“头疼”：{p2,p3,p5},{p1,p4,p6}
否
高
是
是
很
高
是
正
常
否
否
高
否
是
很
高
是
“肌肉痛”：{p1,p3,p4,p6},{p2,p5}
“体温”：{p1,p2,p5},{p3,p6},{p4}
“头疼＋肌肉痛”：
{p1,p4,p6},{p2,p5},{p3}
“头疼＋体温”：
{p1},{p2,p5},{p3},{p4},{p6}
是
“肌肉痛＋体温”：
{p1},{p2,p5},{p3,p6},{p4}
“头疼＋肌肉痛＋体温”：
{p1},{p2,p5},{p3},{p4},{p6}
Step 2. 针对各个属性的集合寻找下近似和上近似。
以“头疼＋肌肉痛＋体温”为例，设集合X为患流感的人
的集合，R为3个属性构成的一个等价关系：
{p1},{p2,p5},{p3},{p4},{p6}，则
X={p1,p2,p3,p6}
U/R ={{p1},{p2,p5},{p3},{p4},{p6}}
集合X的下近似为 R( X )  POS( X )  {p1,p3,p6}
集合X的上近似为 R( X )  {p1,p2,p3,p5,p6}
集合X的负区为
NEG(X)={p4}
集合X的边界区为
BND(X)= {p2,p5}
Step 3. 获取决策规则
根据上面的分析可得出关于属性“头疼＋肌肉痛＋体温”的规则：
下近似得到的：
RULE1：IF （头疼＝否）and（肌肉痛＝是)and(体温＝高） THEN 患有流感
RULE2：IF （头疼＝是）and（肌肉痛＝是)and(体温＝很高） THEN 患有流
感
RULE3：IF （头疼＝否）and（肌肉痛＝是)and(体温＝很高） THEN 患有流
感
负区得到的：
RULE4：IF （头疼＝否）and（肌肉痛＝是)and(体温＝正常） THEN 没患流
感
边界区得到的：
RULE5：IF （头疼＝是）and（肌肉痛＝否)and(体温＝高） THEN
可能
以“肌肉痛＋体温”为例：
X={P1,P2,P3,P6}
U/R={{p1},{p2,p5},{p3,p6},{p4}}
RULE1：IF （肌肉痛＝是)and(体温＝高） THEN 患有流感
RULE2：IF （肌肉痛＝是)and(体温＝很高） THEN 患有流
感
RULE3：IF （肌肉痛＝是)and(体温＝正常） THEN 没患流
感
RULE4：IF （肌肉痛＝否)and(体温＝高） THEN
可能
返回
决策规则
决策表包含了某一领域的大量数据，是领域的样本数据库。
它记录了大量样本的属性值和决策情况，是领域知识的载体
。
知识获取的目的就是要通过分析这个实例库来得到该领域中
有用的、规律性知识。
决策表在决策应用中有十分重要的地位，可用于表达绝大多
数决策问题。对于决策表，最重要的是从决策表分析得到的
规律性知识，通常采用决策规则的形式记录下来。下面给出
决策规则的形式化描述。
决策规则
定义公式如下：
(1)(a,v)(或写为av，a∈A，v∈Va，表示属性a的取值为v)是公式且是原子
公式。
G  H, G  H, (G), G  H 都是公式。
(2)如果G和H都是公式，那么 G，
(3)只有按定义(1)和(2)所组成的式子是公式。
对于决策表T=(U,C∪D,f),其中子集C={ci|i=1,2,...,m}和D={d}
分别为条件属性集和决策属性集，有关决策规则的定义如下：
决策规则
公式(c1 , v1 )  (c2 , v 2 )    (cm , v m )称P基本公式,
这里v i  Vci , c1 , , cm  P, P  C 。
公式(d, v) 称Q基本公式，
这里v  Vd .
公式A→B称为决策规则，如果A是P基本公式且B是Q基本
公式，则A→B是基本决策规则。
可辨识矩阵
可辨识矩阵（也称分明矩阵）是由波兰数学家
Skowron.A教授提出的。
设协调决策信息系统T= (U,C  d, F ) ，
C={ci|i=1,2,...,m}和D={d}分别为条件属性集和决策
属性集， U={x1,...,xn}是论域， ci(xj)是样本xj在属
性上的取值。MT(i,j)表示可辨识矩阵中第i行j列的对
象，则可辨识矩阵定义为：
ak  C | f k ( xi )  f k ( x j ), if [ xi ] D [ x j ] D  ,
M T ([xi ]C , [ x j ]C )  
, if [ xi ] D [ x j ] D  .

其中，i,j=1,2,...,n.
协调决策表的属性约简
若属性集合BC是满足对于MD中的任一非空
项Mij≠, 都有B∩Mij≠成立的一个最小属性子集
，则称属性集合BC是A的一个约简。
换言之，约简是这样的最小属性子集，它能够区
分用整个属性集合A可区分的所有对象。
由上述定义可以看出，可辨识矩阵是一个对称矩阵
。当两个样本的决策属性取值相同时，矩阵元素值
为空；当两个样本的决策属性不同且可以通过某些
条件属性的取值加以区分时，矩阵元素值为这两个
样本属性值不同的条件属性集合。
一个数据集的所有约简可以通过构造可辨识矩阵并
且化简由可辨识矩阵导出的差别函数而得到，所有
的蕴含式包含的属性就是决策表的所有约简集合。
基于可辨识矩阵的属性约简算法
决策表属性约简实例
决策表属性约简实例
决策表属性约简实例
决策表属性约简实例
决策规则提取
得到相应的决策规则提取，如下：
RULE 1:
RULE 2:
RULE 3:
RULE 4:
RULE 5:
RULE 6:
RULE 7:
IF (a,1) and (c, 2), THEN (e,0) .
IF (a,0) and (c, 1), THEN (e,1) .
IF (a,2) and (c, 2), THEN (e,0) .
IF (a,0) and (c, 2), THEN (e,2) .
IF (c,2) and (d, 1), THEN (e,0) .
IF (c,1) and (d, 2), THEN (e,1) .
IF (c,2) and (d, 2), THEN (e,2) .
分析
从实例计算可以看出，信息表的属性约简是在
保持条件属性相对于决策属性的分类能力不变
的条件下，删除不必要的或不重要的属性。
一般来讲，条件属性对于决策属性的相对约简
不是唯一的，即可能存在多个相对约简。
思考题
课件见 http://yanqingyao.com
思考题（1）
流感实例数据如下表。试对其进行属性约简和决策规则提取。
C（条件属性）
D（决策属性）
U
头痛（a）
肌肉痛（b）
体温（c）
流感（d）
e1
是（1）
是（1）
正常（0）
否（0）
e2
是（1）
是（1）
高（1）
是（1）
e3
是（1）
是（1）
很高（2）
是（1）
e4
否（0）
是（1）
正常（0）
否（0）
e5
否（0）
否（0）
高（1）
否（0）
e6
否（0）
是（1）
很高（2）
是（1）
e7
是（1）
否（0）
高（1）
是（1）
思考题（2）
气候信息数据如下表。试对其进行属性约简和决策规则提取。
粗糙集知识发现系统
http://www.cs.uregina.ca/~roughset
 RSES系统: 基于粗糙集理论的方法分析数据的工具集，波兰
华沙大学
 LERS系统: 基于粗糙集的实例学习系统,美国Kansas大学开发
 ROSE系统: 实现了Pawlak的基本粗糙集模型和可变精度粗糙
集模型,波兰Poznan工业大学计算机科学研究所智能决策支持系
统实验室研制
KDD-R系统: 基于可变精度粗糙集模型，采用知识发现的决策
矩阵方法。加拿大Regina大学研制
 Rough Enough系统:包括数据输入、预处理、编辑、生成可辨
识矩阵、集合近似、约简、生成规则、预测和分析。挪威Troll
Data Inc.公司开发
参考资料
International Rough set Society http://www.roughsets.org/ 相关
会议
KDDNuggets http://www.kdnuggets.com/ KDD动态
杨善林. 智能决策方法与智能决策支持系统. 科学出版社.
元昌安.数据挖掘原理与SPSS Clementine应用宝典.电子工业出
版社.
张文修，仇国芳.基于粗糙集的不确定决策.清华大学出版社.
张文修,吴伟志,梁吉业等.Rough Set理论与方法.科学出版社.

粗糙集理论及其在属性选择中的作用

Transcript 粗糙集理论及其在属性选择中的作用

Directory