聚类分析

Download Report

Transcript 聚类分析

知识发现(数据挖
掘)
第五章
聚类分析
Clustering Analysis
史忠植
中国科学院计算技术研究所
2020/4/25
高级人工智能
史忠植
1
内容提要
一、概述
二、相似性度量
三、划分方法
四、层次聚类方法
五、基于密度的聚类
六、基于网格方法
七、基于模型方法
八、蚁群聚类方法
十、粒度计算
十一、实例分析与计算机实现
高级人工智能 史忠植
2020/4/25
2
概







述
无监督学习不要求对数据进行事先标定,在数据的分类结构未
知时,按照事物的某些属性,把事物聚集成类,使类间的相似
性尽量小,类内相似性尽量大。利用无监督学习期望能够发现
数据集中自身隐藏的内蕴结构信息。
无监督学习也称聚类分析。 无监督学习源于许多研究领域,受
到很多应用需求的推动。例如,
在复杂网络分析中,人们希望发现具有内在紧密联系的社团
在图像分析中,人们希望将图像分割成具有类似性质的区域
在文本处理中,人们希望发现具有相同主题的文本子集
在有损编码技术中,人们希望找到信息损失最小的编码
在顾客行为分析中,人们希望发现消费方式类似的顾客群,以
便制订有针对性的客户管理方式和提高营销效率。这些情况都
可以在适当的条件下归为聚类分析。
概


述
“物以类聚,人以群分”。
一般的聚类算法是先选择若干个模式点作为聚类的中心。
每一中心代表一个类别,按照某种相似性度量方法(如最
小距离方法)将各模式归于各聚类中心所代表的类别,形
成初始分类。然后由聚类准则判断初始分类是否合理,如
果不合理就修改分类,如此反复迭代运算,直到合理为止。
与监督学习不同,无监督法是边学习边分类,通过学习找
到相同的类别,然后将该类与其它类区分开。
聚类分析

聚类分析(cluster analysis)是将样品个体或指标变量按其
具有的特性进行分类的一种统计分析方法。
o 对样品进行聚类,称为样品(Q型)聚类分析。其目的是将
分类不明确的样品按性质相似程度分成若干组,从而发
现同类样品的共性和不同类样品间的差异。
o 对指标进行聚类,称为指标(R型)聚类分析。其目的是
将分类不明确的指标按性质相似程度分成若干组,从而
在尽量不损失信息的条件下,用一组少量的指标来代替
原来的多个指标(主成分分析?因子分析?)
聚类分析
典型的数据聚类基本步骤如下:

(1)对数据集进行表示和预处理,包括数据清洗、特征
选择或特征抽取;

(2)给定数据之间的相似度或相异度及其定义方法;

(3)根据相似度,对数据进行划分,即聚类;

(4)对聚类结果进行评估。
相似性度量
如何刻画样品/(指标)变量间的亲疏
关系或相似程度?
样品相似性的度量
变量相似性的度量
相似系数度量



相似系数体现对象间的相似程度,反映样本之间相对于某
些属性的相似程度。确定相似系数有很多方法,这里列出
一些常用的方法,可以根据实际问题选择使用。
设 为被分类对象的全体,以 表示每一对象 的特征数据。
令xi, xjO, rij是xi和 xj之间的相似系数,满足以下条件:
rij=1  xi= xj
xi, xj, rij [0,1]
xi, xj, rij= rji
相似系数度量
1. 数量积法
1

rij   1
M

i  j;
m
x
k 1
ik
x jk
其中,M为正数,满足
i  j.
m
M  max ( xik x jk )
i j
k 1
相似系数度量
2、夹角余弦
两变量Xi与Xj看作p维空间的两个向量,这两个向量间的夹角余弦可用
下式进行计算
p
cos ij 
显然,∣cos
 ij∣  1。
X
k 1
ik
X jk
p
p
k 1
k 1
( X ik2 )( X 2jk )
相似系数度量
3.相关系数
相关系数经常用来度量变量间的相似性。变量Xi与Xj的相
关系数定义为
p
rij 
(X
k 1
ik
 X i )( X jk  X j )
p
p
k 1
k 1
2
2
(
X

X
)
(
X

X
)
 ik i  jk j
显然也有,∣rij∣
 1。
相似系数度量
4.最大最小法
m
rij 
 (x
ik
 x jk )
 (x
ik
 x jk )
k 1
m
k 1
5.算术平均最小法
m
rij 
2 ( xik  x jk )
k 1
m
 (x
k 1
ik
 x jk )
相似系数度量
6.几何平均最小法
m
rij 
 (x
k 1
m

k 1
ik
 x jk )
xik x jk
7.绝对值指数法
rij  e

m
 | xik  x jk |
k 1
相似系数度量
8.指数相似系数法
1 m ( xik  x jk )
rij   e
m k 1
2
sk2
9.绝对值倒数法
i j
1

M
rij   m
 |x x |
ik
jk
 
k 1
i j
相似系数度量
10.绝对值减数法
m
rij  1  c | xik  x jk |
k 1
11.非参数法
12. 贴近度法
13. 专家打分法
划分方法
划分聚类方法(partitioning method,PAM)是给定
一个有n个对象或元组的的数据库构建k个划分的
方法。每个划分为一个类(或簇),并且kn。
每个类至少包含一个对象,每个对象必须属于而
且只能属于一个类(模糊划分计算除外)。所形成
的聚类将使得一个客观划分标准最优化,从而使
得一个聚类中对象是“相似”的,而不同聚类中
的对象是“不相似”的
K均值聚类分析
K均值法是麦奎因(MacQueen,1967)提出的,这种算
法的基本思想是将每一个样品分配给最近中心(均值)的
类中,具体的算法至少包括以下三个步骤:
(1)从n个数据对象随机选取k个对象作为初始簇中心。
(2)计算每个簇的平均值,并用该平均值代表相应的簇。
(3)计算每个对象与这些中心对象的距离,并根据最小距离
重新对相应对象进行划分。
(4)转步骤(2),重新计算每个(自变化)簇的平均值。这个过
程不断重复直到某个准则函数不再明显变化或者聚类的对
象不再变化为止。
K均值聚类分析

【例】假定我们对A、B、C、D四个样品分别测量两个变
量和得到结果见表。
样品
A
B
C
D
变量
X1
X2
5
-1
1
-3
3
1
-2
-2
样品测量结果
试将以上的样品聚成两类。
K均值聚类分析
第一步:按要求取K=2,为了实施均值法聚类,我们将这
些样品随意分成两类,比如(A、B)和(C、D),然后
计算这两个聚类的中心坐标,见下表所示。
聚类
(A、B)
(C、D)
中心坐标
X1
X2
2
-1
2
-2
中心坐标是通过原始数据计算得来的,比如(A、 B)类
的,
等等。
5  (1)
X1 
2
2
K均值聚类分析
第二步:计算某个样品到各类中心的欧氏平方距离,然后
将该样品分配给最近的一类。对于样品有变动的类,重新
计算它们的中心坐标,为下一步聚类做准备。先计算A到
两个类的平方距离:
d 2 ( A, ( AB))  (5  2) 2  (3  2) 2  10
d 2 ( A, (CD))  (5  1) 2  (3  2) 2  61
由于A到(A、B)的距离小于到(C、D)的距离,因此A
不用重新分配。计算B到两类的平方距离:
d 2 ( B, ( AB))  (1  2) 2  (1  2) 2  10
d 2 ( B, (CD))  (1  1) 2  (1  2) 2  9
K均值聚类分析

由于B到(A、B)的距离大于到(C、D)的距离,因此B
要分配给(C、D)类,得到新的聚类是(A)和(B、C、
D)。更新中心坐标如下表所示。
中心坐标
聚类
(A)
(B、C、D)
X1
X2
5
-1
3
-1
更新后的中心坐标
K均值聚类分析
第三步:再次检查每个样品,以决定是否需要重新分类。
计算各样品到各中心的距离平方,结果见下表。
聚类
(A)
(B、C、D)

A
0
52
样品到中心的距离平方
B
C
40
41
4
5
D
89
5
到现在为止,每个样品都已经分配给距离中心最近的类,
因此聚类过程到此结束。最终得到K=2的聚类结果是A独
自成一类,B、C、D聚成一类。
距离选择的原则
一般说来,同一批数据采用不同的距离公式,会得到不同的分类结果。
产生不同结果的原因,主要是由于不同的距离公式的侧重点和实际意义
都有不同。因此我们在进行聚类分析时,应注意距离公式的选择。通常
选择距离公式应注意遵循以下的基本原则:
 (1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏
距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。
 (2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方
法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可
采用欧氏距离。
 (3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选
择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的
特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几
个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以
确定最合适的距离测度方法。
层次聚类方法
(hierarchical method)


定义:对给定的数据进行层次的分解:
分类:

凝聚方法(agglomerative)(自底向上)
思想:一开始将每个对象作为单独的一组,然后根据同类
相近,异类相异的原则,合并对象,直到所有的组合并成
一个,或达到一个终止条件为止。

分裂方法(divisive)(自顶向下)
思想:一开始将所有的对象置于一类,在迭代的每一步中
,一个类不断地分为更小的类,直到每个对象在单独的一
个类中,或达到一个终止条件。
层次聚类方法
(hierarchical method)

特点:



类的个数不需事先定好
需确定距离矩阵
运算量要大,适用于处理小样本数据
层次聚类方法


广泛采用的类间距离:
最小距离法(single linkage method)

极小异常值在实际中不多出现,避免极大值的影响
最短距离法
1. 最短距离法
定义类与之间的距离为两类最近样品的距离,即为
Dij 
min
X i Gi , X j G j
d ij
设类与合并成一个新类记为,则任一类与的距离为
Dkr 
min
X i Gk , X j Gr
 min{
dij
min
X i Gk , X j G p
 min{Dkp , Dkq }
dij ,
min
xi Gk , x j Gq
dij }
最短距离法

最短距离法进行聚类分析的步骤如下:
(1)定义样品之间距离,计算样品的两两距离,得一距离
阵记为D(0) ,开始每个样品自成一类,显然这时Dij =
dij。
(2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个
新类,记为Gr,即Gr = {Gp,Gq}。
(3)按(5.12)计算新类与其它类的距离。
(4)重复(2)、(3)两步,直到所有元素。并成一类为
止。如果某一步距离最小的元素不止一个,则对应这些
最小元素的类可以同时合并。
最短距离法

【例】设有六个样品,每个只测量一个指标,分别是1,2,
5,7,9,10,试用最短距离法将它们分类。
(1)样品采用绝对值距离,计算样品间的距离阵D(0) ,
见表
G2
G1
G1
0
G3
G2
1
0
G3
4
3
0
G4
6
5
2
0
G5
8
7
4
2
0
G6
9
8
5
3
1
表
G4
G5
G6
0
最短距离法
(2)D(0)中最小的元素是D12=D56=1,于是将G1和G2合
并成G7,G5和G6合并成G8,并利用式计算新类与其
它类的距离D(1) ,见下表:
G3
G7
G7
0
G3
3
0
G4
5
2
0
G8
7
4
2
表
G4
G8
0
最短距离法
(3)在D(1)中最小值是D34=D48=2,由于G4与G3合并,
又与G8合并,因此G3、G4、G8合并成一个新类G9,其与其
它类的距离D(2) ,见下表:
G7
G7
0
G9
3
表
G9
0
最短距离法
(4)最后将G7和G9合并成G10,这时所有的六个样品聚为一类,
其过程终止。
上述聚类的可视化过程见下图所示,横坐标的刻度表示并类的距离。
这里我们应该注意,聚类的个数要以实际情况所定,其详细内容将在
后面讨论。
图 最短距离聚类法的过程
最大距离法

最大距离法(complete linkage method)

可能被极大值扭曲,删除这些值之后再聚类
最大距离法
2. 最长距离法
定义类 Gi 与 G j 之间的距离为两类最远样品的距离,即
为
D pq 
max
X i G p , X j Gq
dij
最长距离法与最短距离法的并类步骤完全一样,也是将
各样品先自成一类,然后将距离最小的两类合并。将类
G p 与 Gq 合并为 Gr ,则任一类 Gk 与 Gr 的类间距离公
式为
最大距离法
Dkr 
max
X i Gk , X j Gr
 max{
dij
max
X i Gk , X j G pj
dij , max
xi Gk , x j Gq
dij }
 max{Dkp , Dkq }

再找距离最小两类并类,直至所有的样品全归为一类为止。
可以看出最长距离法与最短距离法只有两点不同:
 一是类与类之间的距离定义不同;

另一是计算新类与其它类的距离所用的公式不同。
类平均距离法

类平均距离法(average linkage method)类
间所有样本点的平均距离

该法利用了所有样本的信息,被认为是较好的系统
聚类法
中间距离法
3. 中间距离法
最短、最长距离定义表示都是极端情况,我们定义类间距离可以既不
采用两类之间最近的距离也不采用两类之间最远的距离,而是采用介
于两者之间的距离,称为中间距离法。
中间距离将类Gp与Gq类合并为类Gr,则任意的类Gk和Gr的距离公式
为
1 2 1 2
2
D  Dkp  Dkq  D pq
2
2
2
kr
(1/4    0)
设Dkq>Dkp,如果采用最短距离法,则Dkr = Dkp,如果采用
最长距离法,则Dkr = Dkq。如图5.2所示,(5.15)式就是取它们(最长
距离与最短距离)的中间一点作为计算Dkr的根据。
中间距离法

特别当 =  1/4,它表示取中间点算距离,公式为
1 2 1 2 1 2
Dkr 
Dkp  Dkp  D pq
2
2
4
图 中间距离法
重心法

重心法(centroid hierarchical method)


类的重心之间的距离
对异常值不敏感,结果更稳定
重心法
4. 重心法
重心法定义类间距离为两类重心(各类样品的均值)的距
离。重心指标对类有很好的代表性,但利用各样本的信息
不充分。
设 G p 与 Gq 分别有样品 n p ,n q 个,其重心分别为 X p 和 X q ,
则 G p 与 Gq 之间的距离定义为 X p 和 X q 之间的距离,这里
我们用欧氏距离来表示,即
2
Dpq
 ( X p  X q )( X p  X q )
重心法

设将 G p 和 Gq 合并为 Gr ,则 Gr 内样品个数为 n r  n p  n q ,
它的重心是 X r 
1
(n p X p  nq X q ) ,类 Gk 的重心是 X k ,
nr
那么依据(5.17)式它与新类 Gr 的距离为
D 
2
kr
np
nr
D 
2
kp
nq
nr
D 
2
kq
n p nq
nr2
2
Dpq
这里我们应该注意,实际上(5.18)式表示的类 Gk 与新类 Gr
的距离为:

重心法
Dkr2  ( X k  X r )( X k  X r )
1
1

 [ X k  (n p X p  nq X q )] [ X k  (n p X p  nq X q )]
nr
nr
 X k X k  2
np
nr
X k X p  2
nq
nr
X k X q
1 2
 2 (n p X p X p  2n p nq X p X q  nq2 X q X q )
nr
重心法
1
(n p X k X k  nq X k X k ) 代入上式,有
 利用 X k X k 
nr
D 
2
kr
np
nr
( X k X k  2 X k X p  X p X p )

nq

n p nq

nr
np
nr
( X k X k  2 X k X q  X q X q )
nr
( X p X p  2 X p X q  X q X q )
D 
2
kp
nq
nr
D 
2
kq
n p nq
nr2
2
Dpq
重心法
【例】针对例5.1的数据,试用重心法将它们聚类。
(1)样品采用欧氏距离,计算样品间的平方距离阵D2(0),见下表所示。

G2
G1
G1
0
G2
1
0
G3
16
9
0
G4
36
25
4
0
G5
64
49
16
4
0
G6
81
64
25
9
1
表
G3
G4
G5
G6
0
重心法
(2)D2(0)中最小的元素是D212=D256=1,于是将G1和G2合
并成G7,G5和G6合并成G8,并计算新类与其它类的距离得到距离阵
D2(1) ,见表
G2
G1
G1
0
G3
G2
12.25
0
G3
30.25
4
0
G4
64
20.25
6.25
1 2 1 2 1 1 2
D  D31  D32   D12
2
2
2 2
1
1
1 1
 16   9    1  12.25
2
2
2 2
2
37
其中,
其它结果类似可以求得
G4
0
重心法
(3)在D2(1)中最小值是D234=4,那么G3与G4合并一个新类G9,其
与与其它类的距离D2(2) ,见表:
G9
G7
G7
0
G9
20.25
0
G8
64
12.5
表
G8
0
重心法
(4)在中最小值是=12.5,那么与合并一个新类,其与与
其它类的距离,见表:
G10
G7
G7
0
G10
39.0625
0
重心法
(5)最后将G7和G10合并成G11,这时所有的六个样品聚为一类,其
过程终止。
上述重心法聚类的可视化过程见下图所示,横坐标的刻度表示并类的
距离。
图 重心聚类法的过程
离差平方和法

离差平方和法(ward method)
2=W
n L nk K-WL

DD
2 M-W



X

X
KL
K
L X K  X L 
nM
 即

Cluster K
Cluster L
Cluster M

对异常值很敏感;对较大的类倾向产生较大的距离,从
而不易合并,较符合实际需要。
类平均法
5.类平均法
类平均法定义类间距离平方为这两类元素两两之间距离平方的
平均数,即为
1
D 
n p nq
2
pq
 
X i G p X j G j
dij2
设聚类的某一步将 G p 和 G q 合并为 Gr ,则任一类类 Gk 与 Gr 的
距离为:
1
D 
nk nr
2
kr
 
X i Gk X j Gr
dij2
1

(   dij2    dij2 )
nk nr X i Gk X j Gp
X i Gk X j Gq

np
nr
D 
2
kp
nq
nr
Dkq2
类平均法的聚类过程与上述方法完全类似,这里就不在详述了。
类平均法
6. 可变类平均法
由于类平均法中没有反映出Gp和Gq之间的距离Dpq的影响,
因此将类平均法进一步推广,如果将Gp和Gq合并为新类
Gr,类Gk与新并类Gr的距离公式为:
D  (1   )(
2
kr
np
D 
2
kp
nq
2
Dkq2 )   Dpq
nr
nr
其中是可变的且 <1,称这种系统聚类法为可变类平均
法。
可变法
7.可变法
针对于中间法而言,如果将中间法的前两项的系数也依赖
于  ,那么,如果将 G p 和 G q 合并为新类 Gr ,类 Gk 与新
并类 Gr 的距离公式为:
1  2
2
2
Dkr 
( Dkp  Dkq2 )   D pq
2
其中  是可变的,且   1 。显然在可变类平均法中取
np
nq
1

 ,即为可变法。可变类平均法与可变法的分类
nr nr 2
效果与  的选择关系很大,在实际应用中  常取负值。
离差平方和法
8. 离差平方和法
该方法是Ward提出来的,所以又称为Ward法。该方法的
基本思想来自于方差分析,如果分类正确,同类样品的离
差平方和应当较小,类与类的离差平方和较大。具体做法
是先将n个样品各自成一类,然后每次缩小一类,每缩小
一类,离差平方和就要增大,选择使方差增加最小的两类
合并,直到所有的样品归为一类为止。
设将n个样品分成k类G1,G2,…,Gk,用Xit表示Gt中的
第I个样品,nt表示Gt中样品的个数,X t 是Gt的重心,则Gt
的样品离差平方和为
nt
St   ( X it  X t )( X it  X t )
t 1
离差平方和法
如果 G p 和 G q 合并为新类 Gr

类内离差平方和分别为
np
S p   ( X ip  X p )( X ip  X p )
i 1
nq
Sq   ( X iq  X q )( X iq  X q )
i 1
nr
Sr   ( X ir  X r )( X ir  X r )
i 1
离差平方和法
它们反映了各自类内样品的分散程度,如果 G p 和 G q 这两类

相距较近,则合并后所增加的离散平方和 S r  S p  S q 应较
小;否则,应较大。于是定义 G p 和 G q 之间的平方距离为:
2
Dpq
 Sr  S p  S q
其中 Gr  G p  Gq ,可以证明类间距离的递推公式为
nk  n p
nk  nq
nk
2
D 
D 
D 
Dpq
nr  nk
nr  nk
nr  nk
2
kr

2
kp
2
kq
这种系统聚类法称为离差平方和法或Ward方法。下面论
证离差平方和法的距离递推式。
离差平方和法
nr

Sr   ( X ir  X r )( X ir  X r )
由于
i 1
nr
  ( X ir  X p  X p  X r )( X ir  X p  X p  X r )
i 1
nr
nr
i 1
i 1
  ( X ir  X p )( X ir  X p )   ( X ir  X p )( X p  X r )
nr
nr
i 1
i 1
  ( X p  X r )( X ir  X p )   ( X p  X r )(X p  X r )
np
nq
i 1
i 1
  ( X ip  X p )( X ip  X p )   ( X iq  X p )( X iq  X p )
nr
 2( X p  X r ) ( X ir  X p )  nr ( X p  X r )( X p  X r )
i 1
nq
离差平方和法
 S p   ( X iq  X q  X q  X p )( X iq  X q  X q  X p )
i 1
 nr ( X p  X r )( X p  X r )
nq
 S p   ( X iq  X q )( X iq  X q )  nq ( X p  X q )( X p  X q )
i 1
 nr ( X p 
n p X p  nq Xq
nr
)( X p 
n p X p  nq Xq
 S p  Sq  nq ( X p  X q )( X p  X q ) 
 S p  Sq  nq ( X p  X q )( X p  X q ) 
nr
n 2p
)
( X p  X q )( X p  X q )
nr
nq n p
nr
( X p  X q )( X p  X q )
离差平方和法
从而,由式知

D 
2
pq
nq n p
nr
( X p  X q )( X p  X q )
那么,可以得到离差平方和法的平方距离的递推公式为:
nr nk
D 
( X r  X k )( X r  X k )
nr  nk
2
kr
 np
 ( X k  X p )( X k  X p )
 nr
nq
n p nq

 ( X k  X q )( X k  X q )  2 ( X p  X q )( X p  X q ) 
nr
nr

nn
 r k
nr  nk
离差平方和法

nk  n p

nk n p
nr  nk n p  nk

nk  nq

( X k  X p )( X k  X p )
nk nq
nr  nk nq  nk
( X k  X q )( X k  X q )
n p nq
nk
( X p  X q )( X p  X q )


nr  nk nr
nk  n p
nk  nq
nk
2
Dpq
D 
D 

nr  nk
nr  nk
nr  nk
2
kp
2
kq
类间距离的统一性

上述八种系统聚类法的步骤完全一样,只是距离的递推公
式不同。兰斯(Lance)和威廉姆斯(Williams)于1967
年给出了一个统一的公式。
2
Dkr2   p Dkp2   q Dkq2   Dpq
  Dkp2  Dkq2

其中ap、aq、  、 是参数,不同的系统聚类法,它们取
不同的数,详见表5.8。
这里应该注意,不同的聚类方法结果不一定完全相同,一
般只是大致相似。如果有很大的差异,则应该仔细考查,
找到问题所在;另外,可将聚类结果与实际问题对照,看
哪一个结果更符合经验。
系统聚类法参数表
方 法
p
q


最短距离法
1/2
1/2
0
-1/2
最长距离法
1/2
1/2
0
1/2
中间距离法
1/2
1/2
-1/4
0
重心法
n p nr
nq nr
 p q
0
类平均法
n p nr
nq nr
0
0
可变类平均
(1   ) n p nr
(1   ) nq nr
 ( 1)
0
法
可变法
(1   ) / 2
(1   ) / 2
 ( 1)
0
离差平方和
(n p  nk ) (nr  nk )
(nq  nk ) (nr  nk )
nk (nk  nr )
0
法
层次聚类方法
层次的方法缺陷一旦一个步骤(合并或分裂)



完成,就不能被撤销或修正,因此产生了改进
的层次聚类方法,如
BIRCH(balanced iterative reducing and
clustering using hierarchies)算法
CURE(clustering using representatives)算法
ROCK(robua clustering using links)算法等
BIRCH算法
通过引入了聚类特征和聚类特征树概念,Zhang 等人提出
BIRCH算法[Zhang et al. 1996] 。聚类特征是一个包含关
于簇的二元组,给出对象子聚类的信息汇总描述。如果某
个子聚类中有N个d维的点或对象,则该子聚类的定义为
CF=(N,LS,SS),其中,N是子类中点的个数,LS是N
个点的线性和,SS是点的平方和。聚类特征树中所存储
的是关于聚类的信息,这些信息是计算聚类和有效利用存
储的关键度量。每个叶节点包含一个或多个子聚类,每个
子聚类中包含一个或多个对象。一个聚类特征树有两个参
数:分支因子B和阈值T,分支因子B定义了每个非叶节点
后代的最大数目,阈值参数T给出了存储在树的叶子节点
中的子聚类的最大直径。BIRCH算法主要包括扫描数据库
和聚类两个阶段。
BIRCH算法
(1)扫描数据库,建立一个初始存放于内存的聚类特征树,
可以看作数据的多层压缩,试图保留数据内在的聚类结构
。一个对象被插入到距其最近的叶节点(子聚类)中时,如
果在插入对象后,存储在叶节点中的子聚类的直径大于阈
值,那么该叶节点被分裂,也可能有其他节点被分裂。新
对象插入后,关于该对象的信息向根节点传递。通过修改
阈值,聚类特征树的大小可以改变。如果存储聚类特征树
需要的内存大于主存的大小,可以定义一个较大的阈值,
并重建聚类特征树。重建过程从旧树的叶子节点建造一个
新树。这样,重建树的过程不需要重读所有的对象。因此
为了建树,只需读一次数据。采用一些启发式规则和方法
。通过额外的数据扫描来处理孤立点和改进CF树的质量
。聚类特征树建好后,可以在阶段二被用于任何聚类算法
。
BIRCH算法


(2)BIRCH采用某个聚类算法对聚类特征树的叶节点进行
聚类。
B1RCH算法具有可伸缩性,算法的时间复杂度为O(n)(
不重建聚类特征树时),通过对数据集的首次扫描产生一
个基本聚类,二次扫描进一步改进聚类质量并处理异常点
。BIRCH算法的处理速度较快,但对非球形簇处理效果不
好。
CURE算法


Guha 等人提出CURE(clustering using representatives)
算法利用代表点进行聚类,解决了大多数聚类算法偏好球
形和相似大小的问题,并且容易处理异常点[Guha et
al.1998] 。CURE算法选用数据空间中固定数目的、具有
代表性的点代表簇,然后根据一个特定的分数或收缩因子
向簇中心“收缩”或将其移动。如果两个簇的代表点距离
最近,则将这两个簇合并。
由于每个簇有一个以上的代表点,使CURE算法可以适
应非球形的几何形状,而且簇的收缩或凝聚可以控制异常
点的影响,因此CURE算法对异常点的处理更健壮。对于
大型数据库,CURE算法有良好的伸缩性,不会降低聚类
的质量
CURE算法







(1)从源数据集中抽取一个随机样本S,包含s个对象。
(2)将样本S分为p个划分,每个划分大小为s/p。
(3)将每个划分局部聚类成s/pq聚类,其中q>l。
(4)通过随机采样消除异常数据,若一个簇增长太慢,
就删除该簇。
(5)对局部的簇进行再聚类,落在每个新形成的聚类中
的代表点,则根据用户定义的收缩因子a收缩或向簇中心
移动。这些点将用于代表并描绘出聚类的边界。
(6)对簇中的数据标记上相应簇标记。
CURE算法的时间复杂度为O(n),最大问题是无法处理分
类属性。
ROCK算法








Guha等人于1999年提出了一个面向分类属性数据的聚类
算法ROCK [Guha et al. 2000]。其突出贡献是采用公共近
邻(链接)数的全局信息作为评价数据点间相关性的度量
标准,而不是传统的基于两点间距离的局部度量函数。
算法11.5 ROCK算法
Procedure cluster(S,k)
(1) begin
(2) link: = compute_links(S)
(3) for each s∈S do
(4) q[s]: = build_local_heap(link,s)
(5) Q: = build_global_heap(S,q)
ROCK算法











(6) while size(Q)>k do {
(7) u: = extract_max(Q)
(8) v: = max(q[u])
(9) delete(Q,v)
(10) w: = merge(u,v)
(11) for each x ∈ q[u] ∪q[v] {
(12)
link[x,w]:=link[x,u] + link[x,v]
(13)
delete(q[x],u); delete(q[x],v)
(14)
insert(q[x],w,g(x,w));insert(q[w],x,g(x,w))
(15)
update(Q,x,q[x])
(16) }
ROCK算法





(17) insert(Q,w,q[w])
(18) deallocate(q[u]); deallocate(q[v])
(19)}
(20) end
注意到算法中有两种队列,全局队列Q和普通队列q[i]。算
法中compute_links(S)是预处理计算公共点的数量。
ROCK算法











procedure compute_links(S)
begin
Compute inlist[i] for every point I in S
Set link[I,j] to be zero for all i,j
for i: = 1 to n do {
N: = inlist[i];
for j: = 1 to |N|-1 do
for l: = j+1 to |N| do
link[ N[j], N[l] ]: = link[ N[j], N[l] ] + 1
}
end
ROCK算法

在以往的算法中,两个对象之间的距离或相似性只与这两
个对象本身有关,而与其他对象无关。ROCK算法将这一
局部运算扩展成一种全局运算,在计算两个对象之间的距
离或相似性时,不仅考虑两个对象本身,还考虑周围邻居
的影响,增强了算法的抗噪声能力。为了能够处理大规模
的数据,ROCK也采用随机抽样的方法。
基于密度的方法
(density-based method)


主要有DBSCAN,OPTICS法
思想:


只要临近区域的密度超过一定的阈值,就继续聚类
特点:

可以过滤噪声和孤立点outlier,发现任意形状的类
基于密度的方法
(density-based method)



以空间中的一点为中心,单位体积内点的个数称为该点的密度。基于
密度的聚类(density-basedclustering)根据空间密度的差别,把具
有相似密度的相邻的点作为一个聚类。密度聚类只要邻近区域的密度
(对象或数据点的数目)超过某个阈值,就能够继续聚类。
也就是说,对给定类中的每个数据点,在一个给定的区域内必须至少
包含某个数目的点。这样,密度聚类方法就可以用来过滤“噪声”异
常点数据,发现任意形状的簇。
在密度聚类算法中,有基于高密度连接区域的DBSCAN(Densitybased Spatial Clustedng ofApplication with Noise)算法、通过对象排
序识别聚类结构的OPTICS(Ordering Points To Identify the
Clustering Structure)算法和基于密度分布函数聚类的
DENCLUE(DENsity.based CLUstEring)算法。
DBSCAN算法




DBSCAN通过不断生长足够高密度区域来进行聚类,它能
从含有噪声的空间数据库中发现任意形状的聚类。
DBSCAN方法将一个聚类定义为一组“密度相连”的点集
。DBSCAN的基本思想涉及的一些概念如下:
(1)对象的一邻域:给定对象的半径内的区域。
(2)核心点:一个对象的一邻域至少包含最小数目
(MinPts)个对象,则称该对象为核心点。
(3)直接密度可达:给定一组对象集合D,如果p是在q的
一邻域内,而q是一个核心点,则称对象p从对象q出发是
直接密度可达的。
DBSCAN算法




(4)密度可达:如果存在一个对象链p1,p2,,pm,其
中p1=p,且pm=q,对于pl∈D,(1≤i≤n),pi+1是从p1关于
和MinPts直接密度可达的,则对象p是从对象q关于和
MinPts密度可达的。
(5)密度相连:如果对象集合D中存在一个对象o,使得
对象p和q是从o关于和MinPts密度可达的,则对象p和q
是关于和MinPts密度相连的。
(6)边界点:非核心点,是从某一核心点直接密度可达
的。
(7)噪声:聚类结束时,不属于任何簇的点。
DBSCAN算法

DBSCAN算法首先需要用户给定聚类对象的半径一邻域
和一邻域中最小包含的对象数MinPts,然后算法检查某
个对象—邻域中的对象数,如果对象数大于MinPts,该
对象就是核心对象,就构建以该对象为核心的新簇。然后
,反复寻找从这些核心对象出发在一邻域内的对象,这
个寻找过程可能会合并一些簇,直到没有新的对象可以添
加到任何簇中为止。一个基于密度的簇是基于密度可达性
的最大的密度相连对象的集合。不包含在任何簇中的对象
被认为是“噪声”。
基于网格的方法
(grid-based method)
 网格聚类方法是将对象空间量化为有限数目的单元,形成一个网格结
构,所有的聚类操作都在这个网格结构(即量化的空间)上进行。这种方
法的主要优点是处理速度快,其处理时间独立于数据对象的数目,只与
量化空间中每一维上的单元数目有关。

在网格聚类方法中有利用存储在网格单元中的统计信息进行聚类的
STING(STatistical INformation Grid-based method)算法、用小波转换
方法进行聚类的WaveCluster方法和在高维数据空问基于网格和密度的
CLIQUE(Clustering InQUEst)聚类方法。

STING算法是一种基于网格的多分辨率聚类技术,它将空间区域划分
为矩形单元。针对不同级别的分辨率,通常存在多个级别的矩形单元,
这些单元形成了一个层次结构:高层的每个单元被划分为多个低一层的
单元。关于每个网格单元属性的统计信息(用于回答查询)被预先计算
和存储
STING算法

(1) 在层次结构中选定一层作为查询处理的开始点;
(2) 对前层次的每个网格单元,计算出反映该单元与给定查询的关联
程度的置信度区间;
(3) 从上面计算的置信度区间中标识每个网格单元是否与给定查询相
关;
(4) 如果当前层是底层,则执行步骤(6),否则执行步骤(5);
(5) 处理层次结构中的下一层,对于形成高层的相关网格单元执行步
骤(2);
(6) 如果查询要求被满足,则执行步骤(8);否则,执行步骤(7);
(7) 检索和进一步的处理落在相关单元中的数据,返回满足查询要求
的结果。执行步骤(9);
(8) 寻找相关网格的区域,返回满足查询要求的相关单元的区域。执
行步骤(9);
(9) 算法结束。
基于模型方法
(model-based method)


基于模型的聚类方法为每一个簇假定了一个模型,寻找数据对给定模
型的最佳拟合,它试图优化给定的数据和某些数学模型之间的适应性
,基于模型的方法经常假设数据是根据潜在的概率分布生成的,算法
主要有统计学和神经网络两种。
1987年Fisher提出了COBWEB算法[Fisher,1987] 。 COBWEB是
一种流行的简单增量概念聚类算法,它的输入对象用分类属性一值对
来描述,COBWEB以一个分类树的形式创建层次聚类。分类树与判
定树不同。分类树中的每个节点对应一个概念,包含该概念的一个概
率描述,概述被分在该节点下的对象。概率描述包括概念的概率和形
如P(Ai=Vij|Ck)的条件概率,这里Ai=Vij 是属性一值对,Ck是概念类(计
数被累计并存储在每个计算概率的节点)。这就与判定树不同,判定
树标记分支而非节点,而且采用逻辑描述符,而不是概率描述符。在
分类树某个层次上的兄弟节点形成了一个划分。为了用分类树对一个
对象进行分类,采用了一个部分匹配函数来沿着“最佳”匹配节点的
路径在树中向下移动。
COBWEB方法
(model-based method)

COBWEB采用分类效用作为启发式评估度量来帮助进行树的构造。
分类效用定义如下
2
2
P
(
C
)
[
P
(
A

V
|
C
)

P
(
A

V
)
k 1 k i  j i ij k i j i ij ]
n
n



这里n是在树的某个层次上形成一个划分{Cl,C2,,Cn}的节点
、概念或类别的数目。其中:
(1)概率P(Ai=Vij|Ck)表示类内相似性。该值越大,共享该属性一值
对的类成员比例就越大,更能预见该属性一值对是类成员。
(2)概率P(Ck|Ai=Vij)表示类间相异性。该值越大,在对照类中的对
象共享该属性一值对就越少,更能预见该属性一值对是类成员。
AutoClass方法

AutoClass是一种基于贝叶斯理论的数据聚类算法
[Cheeseman et al.1996] , 通过对数据进行处理,
计算出每条数据属于每个类别的概率值, 将数据进
行聚类。 AutoClass能对复杂数据进行精确的自
动聚类,可以事先设定好类别数目让AutoClass自
动寻找,在寻找结束后, 能够得到每一条数据分别
属于每一类别的几率。AutoClass的程序是由
Cheeseman和Stutz在1995年开发出来的。
AutoClass方法





AutoClass具有以下的优点:
(1) 聚类的数据不需要预先给定数据的类别, 但是定义了
每个数据成员。
(2) 可以处理连续型或是离散型数据.在AutoClass中, 每
一组数据都以一个向量来表示, 其中每个分量分别代表不
同的属性, 这些属性数据可以是连续型或是离散型。
(3) AutoClass 要求将资料存成Data File(存数据文件)与
Header File(描述数据的文件)两部分, 如此可以让使用者
自由搭配Data File 和Header File 而节省输入数据的时间.
(4) 可以处理缺值数据。当一组数据中的某些属性值有
缺漏时, AutoClass仍可将此组数据进行聚类。
AutoClass方法





AutoClass也存在以下缺点:
(1) AutoClass概率模型的前提是各属性相互独立,而这
个假设在许多领域中是不成立的。
(2)AutoClass不是一个完全自动化的聚类算法, 需要主
观地决定数据的适当群数范围, 而此问题却是聚类的一大
难题。
(3)使用AutoClass处理数据时, 必须不断地重复假设与
测试, 并结合专业知识与程序, 才能得到良好的结果, 因而
要花费大量的时间。
(4)没有提供一个先验标准来预测一组数据是否能够聚
类, 因而带有一定的臆断性。没有提供一个后验方法来评
估分类的结果是否可以信赖。
蚁群聚类方法



群体智能这个概念来自对蜜蜂和
蚂蚁可以进行直接通信或者间接
通信(通过改变局部环境)的主体,
这组主体能够合作进行分布问题
求解 。
任何启发于群居性昆虫群体和其
它动物群体的集体行为而设计的
算法和分布式问题解决装置都称
为群体智能。
群体智能在没有集中控制并且不
提供全局模型的前提下,为寻找
复杂的分布式问题的解决方案提
供了基础。
2020/4/25
高级人工智能
史忠植
85
群体智能的特点




分布式:能够适应当前网络环境下的工作状态
;
鲁棒性:没有中心的控制与数据,个体的故障
不影响整个问题的求解;
扩充性:个体的增加,系统的通信开销增加小
;
简单性:个体简单,实现也比较简单。
2020/4/25
高级人工智能
史忠植
86
蚁群算法





蚁群寻食行为研究,相对应组合优化算法和通信网络
路由控制算法;
群体分工和任务分配行为研究,相对应多主体分工协
作算法;
巢穴组织和自组织行为及群体分类行为研究,相对应
数据分析和图的分割算法;
建巢和自装配行为研究,相对应模拟建巢算法;
群体合作搬运行为研究,相对应机器人合作搬运算法
。
2020/4/25
高级人工智能
史忠植
87
蚁群算法
所需解决的关键问题





蚁群算法 效率与理论;
由于没有标准的测试集,除了寻食模型,蚁卵聚类、
蚁群分工和蚁巢自装配等模型都只处于证实阶段
理论和实验 ;
一个多主体自组织模型实验和测试平台 ;
对于追求效率的实际问题,如何既保持群体智能系统
的灵活性和鲁棒性等自组织特征又能保证系统的高效
率也是一个关键问题 ;
群体智能与分布式智能的智能主体研究相结合,将产
生新的智能主体协作、建模等算法和机制,提出网络
和网格环境的自适应多智能主体系统 。
2020/4/25
高级人工智能
史忠植
88
蚂蚁寻找最短路径原理
外激素多的短路径
将吸收更多的蚂蚁,
反过来,更多的蚂
蚁在短路径上会留
下更多的外激素,
加上外激素挥发效
应,最后,蚁群都
选择了最短路径。
A)蚁群到达决策点。
C)下方短路径蚂蚁到达
相反方向的决策点的时
间早于选择上方长路径
的蚂蚁。
2020/4/25
B)一些蚂蚁选择上方路径,一些蚂
蚁选择下方路径。选择是随机的。
D)短路径上外激素以较高的速度
积累。。
高级人工智能
史忠植
89
蚁群算法
第k个蚂蚁从城市i到城市j 的跃迁概率为:


 [ ij (t )]  [ij ]




k
[[

(
t
)]

[

]
ik
pij (t )    ik
 kallowed

0
j  allowed k
otherwise
τij(t)为t时刻边e(i,j)上外激素的强度
可见度ij为1/dij
2020/4/25
高级人工智能
史忠植
90
一种基于蚁群算法的TSP问题分段
蚁群算法
求解算法
 相遇算法,提高了蚂蚁一次周游的质量,
 然后将相遇算法与采用并行策略的分段算法
相结合,提出一种基于蚁群算法的TSP问题
分段求解算法。
 实验结果表明该算法有较好的有效性。
2020/4/25
高级人工智能
史忠植
91
TSP蚁群算法
实例



ST70 (TSPLIB) 677.88 677.1096
CHC144 (中国144城市)30354.3
kroB150 (TSPLIB) 26130 26127
2020/4/25
高级人工智能
史忠植
92
蚁群聚类算法CSI的研究



CSI聚类算法主要步骤;
基本模型简化:概率转换公式;
实验结果 。
2020/4/25
高级人工智能
史忠植
93
基于蚁群算法的聚类算法
主要步骤:
随机分布待聚类模式;
每只蚂蚁计算当前对象在局部环境的群体相似度,并通
过概率转换函数得到拾起或放下对象的概率,以这个概率
行动;
经过群体大量的相互作用,最终得到若干聚类中心;
2020/4/25
最后收集聚类结果。
高级人工智能
史忠植
94
概率转换公式的简化
基本模型

pp

k1
 (
)2
k1  f
pd


f

k  f 

 2

2
简化模型
1

Pp  1  k  f (oi )
0

2020/4/25
f (oi )  0
0  f (oi )  1 / k
f (oi )  1 / k
1

Pd  k  f (oi )
0

高级人工智能
史忠植
f (oi )  1 / k
0  f (oi )  1 / k
f (oi )  0
95
实验结果
2020/4/25
高级人工智能
史忠植
96
电信消费数据聚类分析实验结果比较
kmeans 30 聚类结果图表
群体智能聚类结果图表
4,000
平均值 话费总计
5,000
4,000
2,000
平均值 话费总计
平均值 话费总计
3,000
1,000
2020/4/25
0
高级人工智能
3031 2928 2625 27 232422 19 2118 1210 1516 1120 1314 5 2 0 6 7 17 8 3 9 4 1
史忠植
30
31
3,000
29
28
26
2,000
25
27
23
1,000
24
22
19
0
7210 2 29 5 16 13 28 6 25 4 18 23 27 15 20 9 26 8 11 14 1 3 17 10 19 22 24 21 12
18
SOM聚类结果图表
12
4,000 10
聚类序号
15
16
3,000 11
20
13
2,000 14
5
2
0
1,000
6
97
7
17
0
85 15 24 13 21 17 28 9 27 11 2 6 35 4 18 25 32 34 20 33 30 10 8 1 3 16 36 29
基于群体智能的文档聚类算法CSIM的研究

为了处理聚类过程中出现的散点以及克服算法的一些随机
因素,更是为了提高算法的效率,我们将基于群体智能的
文档聚类算法与经典的K均值算法相结合,对算法进行了
改进。

混合算法的过程是这样的:首先采用基于群体智能文档聚
类算法对聚类文档进行处理,得到初始的聚类中心个数和
聚类中心模板,然后运用K均值算法再次聚类。
这样,既保留了群体智能算法的自组织特征,又结合了K
均值算法的高效率,同时也克服了两种算法的弱点,如群
体智能算法的随机性和K均值算法的聚类中心个数的参数
2020/4/25
98
高级人工智能
史忠植
预定及输入顺序敏感。我们将算法缩写为CSIM。

基于群体智能的文档聚类算法CSIM的研究
类别
数据 文档 维数
集 数
D1 394 833
Gold,Coffee,
Sugar
D2 323 600 GNP,Livesto
ck,Sugar
D3
2020/4/25
1000 496
Football
高级人工智能
史忠植
来源
Reuters21578
Reuters21578
FM365 网
站
99
基于群体智能的文档聚类算法CSIM的研究
数据
集
D1
D2

6.5
8
9
8
聚类中 CSIM k心个数 正确率 means
正确
率
16
98.2% 97.4%
11
98.5% 97.2%
10
98.2% 95.4%
10
92.5% 88.5%
CSI正 CSI 散
确率 点
99.0%
99.4%
92.4%
94.7%
5.6%
2.1%
0.9%
10%
这个结果达到了SONIA系统所用文档聚类算法的水
平,而SONIA的算法性能明显高于Scatter/Gather和
TFIDF 方法。
2020/4/25
高级人工智能
史忠植
100
七、粒度计算


粒度计算从广义上来说是一种看待客观世界的
世界观和方法论。
粒度计算的基本思想就是使用粒而不是对象为
计算单元,使用粒、粒集以及粒间关系进行计
算或问题求解。
2020/4/25
高级人工智能
史忠植
101
粒度计算


2020/4/25
1997年Lotfi A. Zadeh 提出了粒度的概念,他认为在人类认知中存
在三种概念:粒度,组织与因果关系。从直观的来讲,粒化涉及到
从整体到部分的分解,而组织却是从部分到整体的集成,而因果关
系涉及原因与结果之间的联系。对一个事物的粒化就是以可分辨性、
相似性、邻近性与功能性集聚有关的事物。
粒度计算是信息处理的一种新的概念和计算范式,覆盖了所有有关
粒度的理论、方法、技术和工具的研究,主要用于处理不确定的、
模糊的、不完整的和海量的信息。粗略地讲,一方面它是模糊信息
粒度理论、粗糙集理论、商空间理论、区间计算等的超集,另一方
面是粒度数学的子集。具体地讲,凡是在分析问题和求解问题中,
应用了分组、分类、聚类以及层次化手段的一切理论与方法均属于
粒度计算的范畴。信息粒度在粒度计算,词计算,感知计算理论和
精化自然语言中都有反映
高级人工智能
史忠植
102
粒度计算的必要性

从哲学的角度看
Yager和Filev指出“人类已经形成了世界就是一个粒度的观点”以及
“人们观察、度量、定义和推理的实体都是粒度” 。信息粒是一种抽象,
它如同数学中的“点”、“线”、“面”一样,在人类的思维和活动中
占有重要地位。

从人工智能的角度看
张钹院士指出“人类智能的公认特点,就是人们能从极不相同的粒度上
观察和分析同一问题。人们不仅能在不同粒度的世界上进行问题求解,
而且能够很快地从一个粒度世界跳到另一个粒度的世界,往返自如,毫
无困难。这种处理不同世界的能力,正是人类问题求解的强有力的表
现” 。
2020/4/25
高级人工智能
史忠植
103
粒度计算的必要性

从优化论的角度来看
粒度计算的理论与方法在观念上突破了传统优化思想的束缚,不再以数
学上的精确解为目标,即:需要的是很好地理解和刻画一个问题,而不
是沉溺于那些用处不大的细节信息上。粒度计算的方法不要求目标函数
和约束函数的连续性与凸性,甚至有时连解析表达式都不要求,而且对
计算中数据的不确定性也有很强地适应能力,计算速度也快,这些优点
使粒度计算具有更广泛地应用前景,所以,粒度计算理论的研究对推动
优化领域的发展极其重要。
2020/4/25
高级人工智能
史忠植
104
粒度计算的必要性

从问题求解的角度看
用粒度计算的观点来分析解决问题显得尤为重要,这样就不用局限于具
体对象的细节。除此之外,将复杂问题划分为一系列更容易管理和更小
的子任务,可以降低全局计算代价。

从应用技术的角度看
图像处理、语音与字符识别等,是计算机多媒体的核心技术。这些信息
处理质量的好坏直接依赖于分割的方法和技术,而粒度计算的研究或许
能够解决这一问题。
2020/4/25
高级人工智能
史忠植
105
粒度计算的基本问题

两大问题



粒的构造 :处理粒的形成、表示和解释
使用粒的计算:处理在问题求解中粒的运用
两个方面


2020/4/25
从语义 上:侧重于对粒的解释 ,如为什么两个对象会在同
一个粒之中,为什么不同的粒会相关。
从算法上:如何进行粒化和如何进行基于粒的计算。对粒的
分解与合并方法的研究,是构建任何粒度体系结构的本质要
求。
高级人工智能
史忠植
106
粒度计算的国内外研究现状

粗糙集理论



商空间理论



粒:等价类,子集
粒的计算:粒之间的近似
粒:等价类,子集,粒之间具有拓扑关系
粒的计算:合成、分解
词计算理论


2020/4/25
粒:词
粒的计算:模糊数学
高级人工智能
史忠植
107
2020/4/25
高级人工智能
史忠植
108
商空间粒度模型

张铃, 张钹把商空间的概念通过模糊等价关系
推广到模糊集合上,他们证明下面4种提法等
价:




2020/4/25
在论域X上给定一个模糊等价关系
给定X的商空间上的一个归一化等腰距离
给定X的一个分层递阶结构
给定一个X的模糊知识基,另一个结论是,所有模
糊粒度全体,构成一个完备半序格
高级人工智能
史忠植
109
存在的问题




粒的定义:子集,没有内涵,无法区分粒和
类
粒的元素:粒的元素为基本对象,不能为粒
粒的嵌套层次结构简单
粒的功能是用于描述和近似,而对于问题求
解作用不大(明显)
2020/4/25
高级人工智能
史忠植
110
相关工作

基于近似和相容关系的粒度模型




近似空间
变精度粗糙集模型
相容空间
层次和嵌套模型



2020/4/25
由嵌套等价关系序列引导的嵌套粗糙集近似
由层次结构引导的层次粗糙集近似
由邻域系统引导的层次粗糙集近似
高级人工智能
史忠植
111
相容粒度空间模型

四元组(OS, TR, FG, NTC)




OS 表示对象集系统
TR 表示一个相容关系系统
FG表示相容粒转换函数
NTC表示一个嵌套相容覆盖系统
对象集系统由在
相容粒度空间中
处理和粒化的对
象组成,它也可
以看成是一个对
象域
2020/4/25
相容关系系统是一
个参数化的关系结
构,它由一组相容
关系组成,包括一
个粒度空间所基于
的关系和参数
高级人工智能
史忠植
嵌套相容覆盖系
统是一个参数化
的粒度结构,其
中定义了不同层
次的粒和基于对
象系统和相容关
系系统的参数化
过程。它定义了:
a. 粒之间、粒
集之间、对象之
间以及粒和对象
之间的关系;
b. 粒的合成和分
解。
112
相容粒

用一个三元组来描述相容粒G=(IG, EG, FG)



IG:相容粒G的内涵,用向量表示
EG:相容粒G的外延,用向量的集合表示
FG:内涵和外延之间的转换函数
定义了粒的内
涵和外延之间
的转换,可以
用函数、规则、
算法等形式来
描述
描述了相容粒在特定
环境下表现的知识,
并表示在一个特定任
务下相容粒中所有元
素的一般性特征、规
则、共同性等
2020/4/25
高级人工智能
史忠植
113
相容粒

粒的定义需要考虑三个基本属性:



2020/4/25
反映粒中元素交互作用的内部属性;(EG)
揭示一个粒与其它粒交互作用的外部属性;(IG)
表示一个粒在特殊环境下存在的上下文属性。(IG,
FG)
高级人工智能
史忠植
114
相容粒度空间模型的主要特点

功能特点


建模所基于关系的特点



粒度计算的功能不仅仅在于对问题的简化和近似化,更在于
以粒为单位通过粒之间的关系进行计算在某些问题的解决中
不可替代的作用。
相容关系
粒的定义的特点
粒度空间结构的特点

2020/4/25
通过定义粒的三种关系:内涵关系、外延关系和复合关系,
以及粒度空间的层次和嵌套结构实现了这种粒之间和粒度层
次之间交互跳跃的能力。
高级人工智能
史忠植
115
Thank You
Intelligence Science
http://www.intsci.ac.cn/
2020/4/25
史忠植
智能科学研究进展
116