聚类分析

Transcript 聚类分析

知识发现（数据挖
掘)
第五章
聚类分析
Clustering Analysis
史忠植
中国科学院计算技术研究所
2020/4/25
高级人工智能
史忠植
1
内容提要
一、概述
二、相似性度量
三、划分方法
四、层次聚类方法
五、基于密度的聚类
六、基于网格方法
七、基于模型方法
八、蚁群聚类方法
十、粒度计算
十一、实例分析与计算机实现
高级人工智能史忠植
2020/4/25
2
概







述
无监督学习不要求对数据进行事先标定，在数据的分类结构未
知时，按照事物的某些属性，把事物聚集成类，使类间的相似
性尽量小，类内相似性尽量大。利用无监督学习期望能够发现
数据集中自身隐藏的内蕴结构信息。
无监督学习也称聚类分析。无监督学习源于许多研究领域，受
到很多应用需求的推动。例如，
在复杂网络分析中，人们希望发现具有内在紧密联系的社团
在图像分析中，人们希望将图像分割成具有类似性质的区域
在文本处理中，人们希望发现具有相同主题的文本子集
在有损编码技术中，人们希望找到信息损失最小的编码
在顾客行为分析中，人们希望发现消费方式类似的顾客群，以
便制订有针对性的客户管理方式和提高营销效率。这些情况都
可以在适当的条件下归为聚类分析。
概


述
“物以类聚，人以群分”。
一般的聚类算法是先选择若干个模式点作为聚类的中心。
每一中心代表一个类别，按照某种相似性度量方法（如最
小距离方法）将各模式归于各聚类中心所代表的类别，形
成初始分类。然后由聚类准则判断初始分类是否合理，如
果不合理就修改分类，如此反复迭代运算，直到合理为止。
与监督学习不同，无监督法是边学习边分类，通过学习找
到相同的类别，然后将该类与其它类区分开。
聚类分析

聚类分析(cluster analysis)是将样品个体或指标变量按其
具有的特性进行分类的一种统计分析方法。
o 对样品进行聚类，称为样品(Q型)聚类分析。其目的是将
分类不明确的样品按性质相似程度分成若干组，从而发
现同类样品的共性和不同类样品间的差异。
o 对指标进行聚类，称为指标（R型）聚类分析。其目的是
将分类不明确的指标按性质相似程度分成若干组，从而
在尽量不损失信息的条件下，用一组少量的指标来代替
原来的多个指标（主成分分析？因子分析？）
聚类分析
典型的数据聚类基本步骤如下：

(1)对数据集进行表示和预处理，包括数据清洗、特征
选择或特征抽取；

(2)给定数据之间的相似度或相异度及其定义方法；

(3)根据相似度，对数据进行划分，即聚类；

(4)对聚类结果进行评估。
相似性度量
如何刻画样品/（指标）变量间的亲疏
关系或相似程度？
样品相似性的度量
变量相似性的度量
相似系数度量



相似系数体现对象间的相似程度，反映样本之间相对于某
些属性的相似程度。确定相似系数有很多方法，这里列出
一些常用的方法，可以根据实际问题选择使用。
设为被分类对象的全体，以表示每一对象的特征数据。
令xi, xjO, rij是xi和 xj之间的相似系数，满足以下条件：
rij=1  xi= xj
xi, xj, rij [0,1]
xi, xj, rij= rji
相似系数度量
1. 数量积法
1

rij   1
M

i  j;
m
x
k 1
ik
x jk
其中，M为正数，满足
i  j.
m
M  max ( xik x jk )
i j
k 1
相似系数度量
2、夹角余弦
两变量Xi与Xj看作p维空间的两个向量，这两个向量间的夹角余弦可用
下式进行计算
p
cos ij 
显然，∣cos
 ij∣  1。
X
k 1
ik
X jk
p
p
k 1
k 1
( X ik2 )( X 2jk )
相似系数度量
3．相关系数
相关系数经常用来度量变量间的相似性。变量Xi与Xj的相
关系数定义为
p
rij 
(X
k 1
ik
 X i )( X jk  X j )
p
p
k 1
k 1
2
2
(
X

X
)
(
X

X
)
 ik i  jk j
显然也有，∣rij∣
 1。
相似系数度量
4．最大最小法
m
rij 
 (x
ik
 x jk )
 (x
ik
 x jk )
k 1
m
k 1
5．算术平均最小法
m
rij 
2 ( xik  x jk )
k 1
m
 (x
k 1
ik
 x jk )
相似系数度量
6．几何平均最小法
m
rij 
 (x
k 1
m

k 1
ik
 x jk )
xik x jk
7．绝对值指数法
rij  e

m
 | xik  x jk |
k 1
相似系数度量
8．指数相似系数法
1 m ( xik  x jk )
rij   e
m k 1
2
sk2
9．绝对值倒数法
i j
1

M
rij   m
 |x x |
ik
jk
 
k 1
i j
相似系数度量
10．绝对值减数法
m
rij  1  c | xik  x jk |
k 1
11．非参数法
12. 贴近度法
13. 专家打分法
划分方法
划分聚类方法(partitioning method，PAM)是给定
一个有n个对象或元组的的数据库构建k个划分的
方法。每个划分为一个类（或簇），并且kn。
每个类至少包含一个对象，每个对象必须属于而
且只能属于一个类(模糊划分计算除外)。所形成
的聚类将使得一个客观划分标准最优化，从而使
得一个聚类中对象是“相似”的，而不同聚类中
的对象是“不相似”的
K均值聚类分析
K均值法是麦奎因（MacQueen，1967）提出的，这种算
法的基本思想是将每一个样品分配给最近中心（均值）的
类中，具体的算法至少包括以下三个步骤：
(1)从n个数据对象随机选取k个对象作为初始簇中心。
(2)计算每个簇的平均值，并用该平均值代表相应的簇。
(3)计算每个对象与这些中心对象的距离，并根据最小距离
重新对相应对象进行划分。
(4)转步骤(2)，重新计算每个(自变化)簇的平均值。这个过
程不断重复直到某个准则函数不再明显变化或者聚类的对
象不再变化为止。
K均值聚类分析

【例】假定我们对A、B、C、D四个样品分别测量两个变
量和得到结果见表。
样品
A
B
C
D
变量
X1
X2
5
-1
1
-3
3
1
-2
-2
样品测量结果
试将以上的样品聚成两类。
K均值聚类分析
第一步：按要求取K=2，为了实施均值法聚类，我们将这
些样品随意分成两类，比如（A、B）和（C、D），然后
计算这两个聚类的中心坐标，见下表所示。
聚类
（A、B）
（C、D）
中心坐标
X1
X2
2
-1
2
-2
中心坐标是通过原始数据计算得来的，比如（A、 B）类
的，
等等。
5  (1)
X1 
2
2
K均值聚类分析
第二步：计算某个样品到各类中心的欧氏平方距离，然后
将该样品分配给最近的一类。对于样品有变动的类，重新
计算它们的中心坐标，为下一步聚类做准备。先计算A到
两个类的平方距离：
d 2 ( A, ( AB))  (5  2) 2  (3  2) 2  10
d 2 ( A, (CD))  (5  1) 2  (3  2) 2  61
由于A到（A、B）的距离小于到（C、D）的距离，因此A
不用重新分配。计算B到两类的平方距离：
d 2 ( B, ( AB))  (1  2) 2  (1  2) 2  10
d 2 ( B, (CD))  (1  1) 2  (1  2) 2  9
K均值聚类分析

由于B到（A、B）的距离大于到（C、D）的距离，因此B
要分配给（C、D）类，得到新的聚类是（A）和（B、C、
D）。更新中心坐标如下表所示。
中心坐标
聚类
（A）
（B、C、D）
X1
X2
5
-1
3
-1
更新后的中心坐标
K均值聚类分析
第三步：再次检查每个样品，以决定是否需要重新分类。
计算各样品到各中心的距离平方，结果见下表。
聚类
（A）
（B、C、D）

A
0
52
样品到中心的距离平方
B
C
40
41
4
5
D
89
5
到现在为止，每个样品都已经分配给距离中心最近的类，
因此聚类过程到此结束。最终得到K=2的聚类结果是A独
自成一类，B、C、D聚成一类。
距离选择的原则
一般说来，同一批数据采用不同的距离公式，会得到不同的分类结果。
产生不同结果的原因，主要是由于不同的距离公式的侧重点和实际意义
都有不同。因此我们在进行聚类分析时，应注意距离公式的选择。通常
选择距离公式应注意遵循以下的基本原则：
 （1）要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏
距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。
 （2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方
法。如在进行聚类分析之前已经对变量作了标准化处理，则通常就可
采用欧氏距离。
 （3）要考虑研究对象的特点和计算量的大小。样品间距离公式的选
择是一个比较复杂且带有一定主观性的问题，我们应根据研究对象的
特点不同做出具体分折。实际中，聚类分析前不妨试探性地多选择几
个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以
确定最合适的距离测度方法。
层次聚类方法
（hierarchical method）


定义：对给定的数据进行层次的分解：
分类：

凝聚方法（agglomerative）（自底向上）
思想：一开始将每个对象作为单独的一组，然后根据同类
相近，异类相异的原则，合并对象，直到所有的组合并成
一个，或达到一个终止条件为止。

分裂方法（divisive）（自顶向下）
思想：一开始将所有的对象置于一类，在迭代的每一步中
，一个类不断地分为更小的类，直到每个对象在单独的一
个类中，或达到一个终止条件。
层次聚类方法
（hierarchical method）

特点：



类的个数不需事先定好
需确定距离矩阵
运算量要大，适用于处理小样本数据
层次聚类方法


广泛采用的类间距离：
最小距离法（single linkage method）

极小异常值在实际中不多出现，避免极大值的影响
最短距离法
1. 最短距离法
定义类与之间的距离为两类最近样品的距离，即为
Dij 
min
X i Gi , X j G j
d ij
设类与合并成一个新类记为，则任一类与的距离为
Dkr 
min
X i Gk , X j Gr
 min{
dij
min
X i Gk , X j G p
 min{Dkp , Dkq }
dij ,
min
xi Gk , x j Gq
dij }
最短距离法

最短距离法进行聚类分析的步骤如下：
（1）定义样品之间距离，计算样品的两两距离，得一距离
阵记为D（0），开始每个样品自成一类，显然这时Dij =
dij。
（2）找出距离最小元素，设为Dpq，则将Gp和Gq合并成一个
新类，记为Gr，即Gr = ｛Gp，Gq｝。
（3）按（5.12）计算新类与其它类的距离。
（4）重复（2）、（3）两步，直到所有元素。并成一类为
止。如果某一步距离最小的元素不止一个，则对应这些
最小元素的类可以同时合并。
最短距离法

【例】设有六个样品，每个只测量一个指标，分别是1，2，
5，7，9，10，试用最短距离法将它们分类。
（1）样品采用绝对值距离，计算样品间的距离阵D（0），
见表
G2
G1
G1
0
G3
G2
1
0
G3
4
3
0
G4
6
5
2
0
G5
8
7
4
2
0
G6
9
8
5
3
1
表
G4
G5
G6
0
最短距离法
（2）D（0）中最小的元素是D12＝D56＝1，于是将G1和G2合
并成G7，G5和G6合并成G8，并利用式计算新类与其
它类的距离D（1），见下表：
G3
G7
G7
0
G3
3
0
G4
5
2
0
G8
7
4
2
表
G4
G8
0
最短距离法
（3）在D（1）中最小值是D34＝D48＝2，由于G4与G3合并，
又与G8合并，因此G3、G4、G8合并成一个新类G9，其与其
它类的距离D（2），见下表：
G7
G7
0
G9
3
表
G9
0
最短距离法
（4）最后将G7和G9合并成G10，这时所有的六个样品聚为一类，
其过程终止。
上述聚类的可视化过程见下图所示，横坐标的刻度表示并类的距离。
这里我们应该注意，聚类的个数要以实际情况所定，其详细内容将在
后面讨论。
图最短距离聚类法的过程
最大距离法

最大距离法（complete linkage method）

可能被极大值扭曲，删除这些值之后再聚类
最大距离法
2. 最长距离法
定义类 Gi 与 G j 之间的距离为两类最远样品的距离，即
为
D pq 
max
X i G p , X j Gq
dij
最长距离法与最短距离法的并类步骤完全一样，也是将
各样品先自成一类，然后将距离最小的两类合并。将类
G p 与 Gq 合并为 Gr ，则任一类 Gk 与 Gr 的类间距离公
式为
最大距离法
Dkr 
max
X i Gk , X j Gr
 max{
dij
max
X i Gk , X j G pj
dij , max
xi Gk , x j Gq
dij }
 max{Dkp , Dkq }

再找距离最小两类并类，直至所有的样品全归为一类为止。
可以看出最长距离法与最短距离法只有两点不同：
 一是类与类之间的距离定义不同；

另一是计算新类与其它类的距离所用的公式不同。
类平均距离法

类平均距离法（average linkage method）类
间所有样本点的平均距离

该法利用了所有样本的信息，被认为是较好的系统
聚类法
中间距离法
3. 中间距离法
最短、最长距离定义表示都是极端情况，我们定义类间距离可以既不
采用两类之间最近的距离也不采用两类之间最远的距离，而是采用介
于两者之间的距离，称为中间距离法。
中间距离将类Gp与Gq类合并为类Gr，则任意的类Gk和Gr的距离公式
为
1 2 1 2
2
D  Dkp  Dkq  D pq
2
2
2
kr
(1／4    0)
设Dkq＞Dkp，如果采用最短距离法，则Dkr = Dkp，如果采用
最长距离法，则Dkr = Dkq。如图5.2所示，(5.15)式就是取它们（最长
距离与最短距离）的中间一点作为计算Dkr的根据。
中间距离法

特别当 =  1／4，它表示取中间点算距离，公式为
1 2 1 2 1 2
Dkr 
Dkp  Dkp  D pq
2
2
4
图中间距离法
重心法

重心法（centroid hierarchical method）


类的重心之间的距离
对异常值不敏感，结果更稳定
重心法
4. 重心法
重心法定义类间距离为两类重心（各类样品的均值）的距
离。重心指标对类有很好的代表性，但利用各样本的信息
不充分。
设 G p 与 Gq 分别有样品 n p ，n q 个，其重心分别为 X p 和 X q ，
则 G p 与 Gq 之间的距离定义为 X p 和 X q 之间的距离，这里
我们用欧氏距离来表示，即
2
Dpq
 ( X p  X q )( X p  X q )
重心法

设将 G p 和 Gq 合并为 Gr ，则 Gr 内样品个数为 n r  n p  n q ，
它的重心是 X r 
1
(n p X p  nq X q ) ，类 Gk 的重心是 X k ，
nr
那么依据（5.17）式它与新类 Gr 的距离为
D 
2
kr
np
nr
D 
2
kp
nq
nr
D 
2
kq
n p nq
nr2
2
Dpq
这里我们应该注意，实际上（5.18）式表示的类 Gk 与新类 Gr
的距离为：

重心法
Dkr2  ( X k  X r )( X k  X r )
1
1

 [ X k  (n p X p  nq X q )] [ X k  (n p X p  nq X q )]
nr
nr
 X k X k  2
np
nr
X k X p  2
nq
nr
X k X q
1 2
 2 (n p X p X p  2n p nq X p X q  nq2 X q X q )
nr
重心法
1
(n p X k X k  nq X k X k ) 代入上式，有
 利用 X k X k 
nr
D 
2
kr
np
nr
( X k X k  2 X k X p  X p X p )

nq

n p nq

nr
np
nr
( X k X k  2 X k X q  X q X q )
nr
( X p X p  2 X p X q  X q X q )
D 
2
kp
nq
nr
D 
2
kq
n p nq
nr2
2
Dpq
重心法
【例】针对例5.1的数据，试用重心法将它们聚类。
（1）样品采用欧氏距离，计算样品间的平方距离阵D2（0），见下表所示。

G2
G1
G1
0
G2
1
0
G3
16
9
0
G4
36
25
4
0
G5
64
49
16
4
0
G6
81
64
25
9
1
表
G3
G4
G5
G6
0
重心法
（2）D2（0）中最小的元素是D212＝D256＝1，于是将G1和G2合
并成G7，G5和G6合并成G8，并计算新类与其它类的距离得到距离阵
D2（1），见表
G2
G1
G1
0
G3
G2
12.25
0
G3
30.25
4
0
G4
64
20.25
6.25
1 2 1 2 1 1 2
D  D31  D32   D12
2
2
2 2
1
1
1 1
 16   9    1  12.25
2
2
2 2
2
37
其中，
其它结果类似可以求得
G4
0
重心法
（3）在D2（1）中最小值是D234＝4，那么G3与G4合并一个新类G9，其
与与其它类的距离D2（2），见表：
G9
G7
G7
0
G9
20.25
0
G8
64
12.5
表
G8
0
重心法
（4）在中最小值是＝12.5，那么与合并一个新类，其与与
其它类的距离，见表：
G10
G7
G7
0
G10
39.0625
0
重心法
（5）最后将G7和G10合并成G11，这时所有的六个样品聚为一类，其
过程终止。
上述重心法聚类的可视化过程见下图所示，横坐标的刻度表示并类的
距离。
图重心聚类法的过程
离差平方和法

离差平方和法（ward method）
2=W
n L nk K－WL

DD
2 M－W



X

X
KL
K
L X K  X L 
nM
 即

Cluster K
Cluster L
Cluster M

对异常值很敏感；对较大的类倾向产生较大的距离，从
而不易合并，较符合实际需要。
类平均法
5．类平均法
类平均法定义类间距离平方为这两类元素两两之间距离平方的
平均数，即为
1
D 
n p nq
2
pq
 
X i G p X j G j
dij2
设聚类的某一步将 G p 和 G q 合并为 Gr ，则任一类类 Gk 与 Gr 的
距离为：
1
D 
nk nr
2
kr
 
X i Gk X j Gr
dij2
1

(   dij2    dij2 )
nk nr X i Gk X j Gp
X i Gk X j Gq

np
nr
D 
2
kp
nq
nr
Dkq2
类平均法的聚类过程与上述方法完全类似，这里就不在详述了。
类平均法
6. 可变类平均法
由于类平均法中没有反映出Gp和Gq之间的距离Dpq的影响，
因此将类平均法进一步推广，如果将Gp和Gq合并为新类
Gr，类Gk与新并类Gr的距离公式为：
D  (1   )(
2
kr
np
D 
2
kp
nq
2
Dkq2 )   Dpq
nr
nr
其中是可变的且 <1，称这种系统聚类法为可变类平均
法。
可变法
7．可变法
针对于中间法而言，如果将中间法的前两项的系数也依赖
于  ，那么，如果将 G p 和 G q 合并为新类 Gr ，类 Gk 与新
并类 Gr 的距离公式为：
1  2
2
2
Dkr 
( Dkp  Dkq2 )   D pq
2
其中  是可变的，且   1 。显然在可变类平均法中取
np
nq
1

 ，即为可变法。可变类平均法与可变法的分类
nr nr 2
效果与  的选择关系很大，在实际应用中  常取负值。
离差平方和法
8. 离差平方和法
该方法是Ward提出来的，所以又称为Ward法。该方法的
基本思想来自于方差分析，如果分类正确，同类样品的离
差平方和应当较小，类与类的离差平方和较大。具体做法
是先将n个样品各自成一类，然后每次缩小一类，每缩小
一类，离差平方和就要增大，选择使方差增加最小的两类
合并，直到所有的样品归为一类为止。
设将n个样品分成k类G1，G2，…，Gk，用Xit表示Gt中的
第I个样品，nt表示Gt中样品的个数，X t 是Gt的重心，则Gt
的样品离差平方和为
nt
St   ( X it  X t )( X it  X t )
t 1
离差平方和法
如果 G p 和 G q 合并为新类 Gr

类内离差平方和分别为
np
S p   ( X ip  X p )( X ip  X p )
i 1
nq
Sq   ( X iq  X q )( X iq  X q )
i 1
nr
Sr   ( X ir  X r )( X ir  X r )
i 1
离差平方和法
它们反映了各自类内样品的分散程度，如果 G p 和 G q 这两类

相距较近，则合并后所增加的离散平方和 S r  S p  S q 应较
小；否则，应较大。于是定义 G p 和 G q 之间的平方距离为：
2
Dpq
 Sr  S p  S q
其中 Gr  G p  Gq ，可以证明类间距离的递推公式为
nk  n p
nk  nq
nk
2
D 
D 
D 
Dpq
nr  nk
nr  nk
nr  nk
2
kr

2
kp
2
kq
这种系统聚类法称为离差平方和法或Ward方法。下面论
证离差平方和法的距离递推式。
离差平方和法
nr

Sr   ( X ir  X r )( X ir  X r )
由于
i 1
nr
  ( X ir  X p  X p  X r )( X ir  X p  X p  X r )
i 1
nr
nr
i 1
i 1
  ( X ir  X p )( X ir  X p )   ( X ir  X p )( X p  X r )
nr
nr
i 1
i 1
  ( X p  X r )( X ir  X p )   ( X p  X r )(X p  X r )
np
nq
i 1
i 1
  ( X ip  X p )( X ip  X p )   ( X iq  X p )( X iq  X p )
nr
 2( X p  X r ) ( X ir  X p )  nr ( X p  X r )( X p  X r )
i 1
nq
离差平方和法
 S p   ( X iq  X q  X q  X p )( X iq  X q  X q  X p )
i 1
 nr ( X p  X r )( X p  X r )
nq
 S p   ( X iq  X q )( X iq  X q )  nq ( X p  X q )( X p  X q )
i 1
 nr ( X p 
n p X p  nq Xq
nr
)( X p 
n p X p  nq Xq
 S p  Sq  nq ( X p  X q )( X p  X q ) 
 S p  Sq  nq ( X p  X q )( X p  X q ) 
nr
n 2p
)
( X p  X q )( X p  X q )
nr
nq n p
nr
( X p  X q )( X p  X q )
离差平方和法
从而，由式知

D 
2
pq
nq n p
nr
( X p  X q )( X p  X q )
那么，可以得到离差平方和法的平方距离的递推公式为：
nr nk
D 
( X r  X k )( X r  X k )
nr  nk
2
kr
 np
 ( X k  X p )( X k  X p )
 nr
nq
n p nq

 ( X k  X q )( X k  X q )  2 ( X p  X q )( X p  X q ) 
nr
nr

nn
 r k
nr  nk
离差平方和法

nk  n p

nk n p
nr  nk n p  nk

nk  nq

( X k  X p )( X k  X p )
nk nq
nr  nk nq  nk
( X k  X q )( X k  X q )
n p nq
nk
( X p  X q )( X p  X q )


nr  nk nr
nk  n p
nk  nq
nk
2
Dpq
D 
D 

nr  nk
nr  nk
nr  nk
2
kp
2
kq
类间距离的统一性

上述八种系统聚类法的步骤完全一样，只是距离的递推公
式不同。兰斯（Lance）和威廉姆斯（Williams）于1967
年给出了一个统一的公式。
2
Dkr2   p Dkp2   q Dkq2   Dpq
  Dkp2  Dkq2

其中ap、aq、  、 是参数，不同的系统聚类法，它们取
不同的数，详见表5.8。
这里应该注意，不同的聚类方法结果不一定完全相同，一
般只是大致相似。如果有很大的差异，则应该仔细考查，
找到问题所在；另外，可将聚类结果与实际问题对照，看
哪一个结果更符合经验。
系统聚类法参数表
方法
p
q


最短距离法
1/2
1/2
0
-1/2
最长距离法
1/2
1/2
0
1/2
中间距离法
1/2
1/2
-1/4
0
重心法
n p nr
nq nr
 p q
0
类平均法
n p nr
nq nr
0
0
可变类平均
(1   ) n p nr
(1   ) nq nr
 ( 1)
0
法
可变法
(1   ) / 2
(1   ) / 2
 ( 1)
0
离差平方和
(n p  nk ) (nr  nk )
(nq  nk ) (nr  nk )
nk (nk  nr )
0
法
层次聚类方法
层次的方法缺陷一旦一个步骤（合并或分裂）



完成，就不能被撤销或修正，因此产生了改进
的层次聚类方法，如
BIRCH(balanced iterative reducing and
clustering using hierarchies)算法
CURE(clustering using representatives)算法
ROCK(robua clustering using links)算法等
BIRCH算法
通过引入了聚类特征和聚类特征树概念，Zhang 等人提出
BIRCH算法[Zhang et al. 1996] 。聚类特征是一个包含关
于簇的二元组，给出对象子聚类的信息汇总描述。如果某
个子聚类中有N个d维的点或对象，则该子聚类的定义为
CF=(N，LS，SS)，其中，N是子类中点的个数，LS是N
个点的线性和，SS是点的平方和。聚类特征树中所存储
的是关于聚类的信息，这些信息是计算聚类和有效利用存
储的关键度量。每个叶节点包含一个或多个子聚类，每个
子聚类中包含一个或多个对象。一个聚类特征树有两个参
数：分支因子B和阈值T，分支因子B定义了每个非叶节点
后代的最大数目，阈值参数T给出了存储在树的叶子节点
中的子聚类的最大直径。BIRCH算法主要包括扫描数据库
和聚类两个阶段。
BIRCH算法
(1)扫描数据库，建立一个初始存放于内存的聚类特征树，
可以看作数据的多层压缩，试图保留数据内在的聚类结构
。一个对象被插入到距其最近的叶节点(子聚类)中时，如
果在插入对象后，存储在叶节点中的子聚类的直径大于阈
值，那么该叶节点被分裂，也可能有其他节点被分裂。新
对象插入后，关于该对象的信息向根节点传递。通过修改
阈值，聚类特征树的大小可以改变。如果存储聚类特征树
需要的内存大于主存的大小，可以定义一个较大的阈值，
并重建聚类特征树。重建过程从旧树的叶子节点建造一个
新树。这样，重建树的过程不需要重读所有的对象。因此
为了建树，只需读一次数据。采用一些启发式规则和方法
。通过额外的数据扫描来处理孤立点和改进CF树的质量
。聚类特征树建好后，可以在阶段二被用于任何聚类算法
。
BIRCH算法


(2)BIRCH采用某个聚类算法对聚类特征树的叶节点进行
聚类。
B1RCH算法具有可伸缩性，算法的时间复杂度为O(n)(
不重建聚类特征树时)，通过对数据集的首次扫描产生一
个基本聚类，二次扫描进一步改进聚类质量并处理异常点
。BIRCH算法的处理速度较快，但对非球形簇处理效果不
好。
CURE算法


Guha 等人提出CURE(clustering using representatives)
算法利用代表点进行聚类，解决了大多数聚类算法偏好球
形和相似大小的问题，并且容易处理异常点[Guha et
al.1998] 。CURE算法选用数据空间中固定数目的、具有
代表性的点代表簇，然后根据一个特定的分数或收缩因子
向簇中心“收缩”或将其移动。如果两个簇的代表点距离
最近，则将这两个簇合并。
由于每个簇有一个以上的代表点，使CURE算法可以适
应非球形的几何形状，而且簇的收缩或凝聚可以控制异常
点的影响，因此CURE算法对异常点的处理更健壮。对于
大型数据库，CURE算法有良好的伸缩性，不会降低聚类
的质量
CURE算法







(1)从源数据集中抽取一个随机样本S，包含s个对象。
(2)将样本S分为p个划分，每个划分大小为s／p。
(3)将每个划分局部聚类成s／pq聚类，其中q>l。
(4)通过随机采样消除异常数据，若一个簇增长太慢，
就删除该簇。
(5)对局部的簇进行再聚类，落在每个新形成的聚类中
的代表点，则根据用户定义的收缩因子a收缩或向簇中心
移动。这些点将用于代表并描绘出聚类的边界。
(6)对簇中的数据标记上相应簇标记。
CURE算法的时间复杂度为O(n)，最大问题是无法处理分
类属性。
ROCK算法








Guha等人于1999年提出了一个面向分类属性数据的聚类
算法ROCK [Guha et al. 2000]。其突出贡献是采用公共近
邻（链接）数的全局信息作为评价数据点间相关性的度量
标准，而不是传统的基于两点间距离的局部度量函数。
算法11.5 ROCK算法
Procedure cluster(S,k)
(1) begin
(2) link: = compute_links(S)
(3) for each s∈S do
(4) q[s]: = build_local_heap(link,s)
(5) Q: = build_global_heap(S,q)
ROCK算法











(6) while size(Q)>k do {
(7) u: = extract_max(Q)
(8) v: = max(q[u])
(9) delete(Q,v)
(10) w: = merge(u,v)
(11) for each x ∈ q[u] ∪q[v] {
(12)
link[x,w]:=link[x,u] + link[x,v]
(13)
delete(q[x],u); delete(q[x],v)
(14)
insert(q[x],w,g(x,w));insert(q[w],x,g(x,w))
(15)
update(Q,x,q[x])
(16) }
ROCK算法





(17) insert(Q,w,q[w])
(18) deallocate(q[u]); deallocate(q[v])
(19)}
(20) end
注意到算法中有两种队列，全局队列Q和普通队列q[i]。算
法中compute_links(S)是预处理计算公共点的数量。
ROCK算法











procedure compute_links(S)
begin
Compute inlist[i] for every point I in S
Set link[I,j] to be zero for all i,j
for i: = 1 to n do {
N: = inlist[i];
for j: = 1 to |N|-1 do
for l: = j+1 to |N| do
link[ N[j], N[l] ]: = link[ N[j], N[l] ] + 1
}
end
ROCK算法

在以往的算法中，两个对象之间的距离或相似性只与这两
个对象本身有关，而与其他对象无关。ROCK算法将这一
局部运算扩展成一种全局运算，在计算两个对象之间的距
离或相似性时，不仅考虑两个对象本身，还考虑周围邻居
的影响，增强了算法的抗噪声能力。为了能够处理大规模
的数据，ROCK也采用随机抽样的方法。
基于密度的方法
（density-based method）


主要有DBSCAN，OPTICS法
思想：


只要临近区域的密度超过一定的阈值，就继续聚类
特点：

可以过滤噪声和孤立点outlier，发现任意形状的类
基于密度的方法
（density-based method）



以空间中的一点为中心，单位体积内点的个数称为该点的密度。基于
密度的聚类（density-basedclustering）根据空间密度的差别，把具
有相似密度的相邻的点作为一个聚类。密度聚类只要邻近区域的密度
(对象或数据点的数目)超过某个阈值，就能够继续聚类。
也就是说，对给定类中的每个数据点，在一个给定的区域内必须至少
包含某个数目的点。这样，密度聚类方法就可以用来过滤“噪声”异
常点数据，发现任意形状的簇。
在密度聚类算法中，有基于高密度连接区域的DBSCAN(Densitybased Spatial Clustedng ofApplication with Noise)算法、通过对象排
序识别聚类结构的OPTICS(Ordering Points To Identify the
Clustering Structure)算法和基于密度分布函数聚类的
DENCLUE(DENsity．based CLUstEring)算法。
DBSCAN算法




DBSCAN通过不断生长足够高密度区域来进行聚类，它能
从含有噪声的空间数据库中发现任意形状的聚类。
DBSCAN方法将一个聚类定义为一组“密度相连”的点集
。DBSCAN的基本思想涉及的一些概念如下：
(1)对象的一邻域：给定对象的半径内的区域。
(2)核心点：一个对象的一邻域至少包含最小数目
(MinPts)个对象，则称该对象为核心点。
(3)直接密度可达：给定一组对象集合D，如果p是在q的
一邻域内，而q是一个核心点，则称对象p从对象q出发是
直接密度可达的。
DBSCAN算法




(4)密度可达：如果存在一个对象链p1，p2，，pm，其
中p1=p，且pm=q，对于pl∈D，(1≤i≤n)，pi+1是从p1关于
和MinPts直接密度可达的，则对象p是从对象q关于和
MinPts密度可达的。
(5)密度相连：如果对象集合D中存在一个对象o，使得
对象p和q是从o关于和MinPts密度可达的，则对象p和q
是关于和MinPts密度相连的。
(6)边界点：非核心点，是从某一核心点直接密度可达
的。
(7)噪声：聚类结束时，不属于任何簇的点。
DBSCAN算法

DBSCAN算法首先需要用户给定聚类对象的半径一邻域
和一邻域中最小包含的对象数MinPts，然后算法检查某
个对象—邻域中的对象数，如果对象数大于MinPts，该
对象就是核心对象，就构建以该对象为核心的新簇。然后
，反复寻找从这些核心对象出发在一邻域内的对象，这
个寻找过程可能会合并一些簇，直到没有新的对象可以添
加到任何簇中为止。一个基于密度的簇是基于密度可达性
的最大的密度相连对象的集合。不包含在任何簇中的对象
被认为是“噪声”。
基于网格的方法
（grid-based method）
 网格聚类方法是将对象空间量化为有限数目的单元，形成一个网格结
构，所有的聚类操作都在这个网格结构(即量化的空间)上进行。这种方
法的主要优点是处理速度快，其处理时间独立于数据对象的数目，只与
量化空间中每一维上的单元数目有关。

在网格聚类方法中有利用存储在网格单元中的统计信息进行聚类的
STING(STatistical INformation Grid-based method)算法、用小波转换
方法进行聚类的WaveCluster方法和在高维数据空问基于网格和密度的
CLIQUE(Clustering InQUEst)聚类方法。

STING算法是一种基于网格的多分辨率聚类技术，它将空间区域划分
为矩形单元。针对不同级别的分辨率，通常存在多个级别的矩形单元，
这些单元形成了一个层次结构：高层的每个单元被划分为多个低一层的
单元。关于每个网格单元属性的统计信息（用于回答查询）被预先计算
和存储
STING算法

(1) 在层次结构中选定一层作为查询处理的开始点；
(2) 对前层次的每个网格单元，计算出反映该单元与给定查询的关联
程度的置信度区间；
(3) 从上面计算的置信度区间中标识每个网格单元是否与给定查询相
关；
(4) 如果当前层是底层，则执行步骤(6)，否则执行步骤(5)；
(5) 处理层次结构中的下一层，对于形成高层的相关网格单元执行步
骤(2)；
(6) 如果查询要求被满足，则执行步骤(8)；否则，执行步骤(7)；
(7) 检索和进一步的处理落在相关单元中的数据，返回满足查询要求
的结果。执行步骤(9)；
(8) 寻找相关网格的区域，返回满足查询要求的相关单元的区域。执
行步骤(9)；
(9) 算法结束。
基于模型方法
（model-based method）


基于模型的聚类方法为每一个簇假定了一个模型，寻找数据对给定模
型的最佳拟合，它试图优化给定的数据和某些数学模型之间的适应性
，基于模型的方法经常假设数据是根据潜在的概率分布生成的，算法
主要有统计学和神经网络两种。
1987年Fisher提出了COBWEB算法[Fisher，1987] 。 COBWEB是
一种流行的简单增量概念聚类算法，它的输入对象用分类属性一值对
来描述，COBWEB以一个分类树的形式创建层次聚类。分类树与判
定树不同。分类树中的每个节点对应一个概念，包含该概念的一个概
率描述，概述被分在该节点下的对象。概率描述包括概念的概率和形
如P(Ai=Vij|Ck)的条件概率，这里Ai=Vij 是属性一值对，Ck是概念类(计
数被累计并存储在每个计算概率的节点)。这就与判定树不同，判定
树标记分支而非节点，而且采用逻辑描述符，而不是概率描述符。在
分类树某个层次上的兄弟节点形成了一个划分。为了用分类树对一个
对象进行分类，采用了一个部分匹配函数来沿着“最佳”匹配节点的
路径在树中向下移动。
COBWEB方法
（model-based method）

COBWEB采用分类效用作为启发式评估度量来帮助进行树的构造。
分类效用定义如下
2
2
P
(
C
)
[
P
(
A

V
|
C
)

P
(
A

V
)
k 1 k i  j i ij k i j i ij ]
n
n



这里n是在树的某个层次上形成一个划分{Cl，C2，，Cn}的节点
、概念或类别的数目。其中：
(1)概率P(Ai=Vij|Ck)表示类内相似性。该值越大，共享该属性一值
对的类成员比例就越大，更能预见该属性一值对是类成员。
(2)概率P(Ck|Ai=Vij)表示类间相异性。该值越大，在对照类中的对
象共享该属性一值对就越少，更能预见该属性一值对是类成员。
AutoClass方法

AutoClass是一种基于贝叶斯理论的数据聚类算法
[Cheeseman et al.1996] , 通过对数据进行处理,
计算出每条数据属于每个类别的概率值, 将数据进
行聚类。 AutoClass能对复杂数据进行精确的自
动聚类，可以事先设定好类别数目让AutoClass自
动寻找,在寻找结束后, 能够得到每一条数据分别
属于每一类别的几率。AutoClass的程序是由
Cheeseman和Stutz在1995年开发出来的。
AutoClass方法





AutoClass具有以下的优点:
(1) 聚类的数据不需要预先给定数据的类别, 但是定义了
每个数据成员。
(2) 可以处理连续型或是离散型数据.在AutoClass中, 每
一组数据都以一个向量来表示, 其中每个分量分别代表不
同的属性, 这些属性数据可以是连续型或是离散型。
(3) AutoClass 要求将资料存成Data File(存数据文件)与
Header File(描述数据的文件)两部分, 如此可以让使用者
自由搭配Data File 和Header File 而节省输入数据的时间.
(4) 可以处理缺值数据。当一组数据中的某些属性值有
缺漏时, AutoClass仍可将此组数据进行聚类。
AutoClass方法





AutoClass也存在以下缺点:
(1) AutoClass概率模型的前提是各属性相互独立，而这
个假设在许多领域中是不成立的。
(2)AutoClass不是一个完全自动化的聚类算法, 需要主
观地决定数据的适当群数范围, 而此问题却是聚类的一大
难题。
(3)使用AutoClass处理数据时, 必须不断地重复假设与
测试, 并结合专业知识与程序, 才能得到良好的结果, 因而
要花费大量的时间。
(4)没有提供一个先验标准来预测一组数据是否能够聚
类, 因而带有一定的臆断性。没有提供一个后验方法来评
估分类的结果是否可以信赖。
蚁群聚类方法



群体智能这个概念来自对蜜蜂和
蚂蚁可以进行直接通信或者间接
通信(通过改变局部环境)的主体，
这组主体能够合作进行分布问题
求解。
任何启发于群居性昆虫群体和其
它动物群体的集体行为而设计的
算法和分布式问题解决装置都称
为群体智能。
群体智能在没有集中控制并且不
提供全局模型的前提下，为寻找
复杂的分布式问题的解决方案提
供了基础。
2020/4/25
高级人工智能
史忠植
85
群体智能的特点




分布式：能够适应当前网络环境下的工作状态
;
鲁棒性：没有中心的控制与数据，个体的故障
不影响整个问题的求解;
扩充性：个体的增加，系统的通信开销增加小
;
简单性：个体简单，实现也比较简单。
2020/4/25
高级人工智能
史忠植
86
蚁群算法





蚁群寻食行为研究，相对应组合优化算法和通信网络
路由控制算法；
群体分工和任务分配行为研究，相对应多主体分工协
作算法；
巢穴组织和自组织行为及群体分类行为研究，相对应
数据分析和图的分割算法；
建巢和自装配行为研究，相对应模拟建巢算法；
群体合作搬运行为研究，相对应机器人合作搬运算法
。
2020/4/25
高级人工智能
史忠植
87
蚁群算法
所需解决的关键问题





蚁群算法效率与理论；
由于没有标准的测试集，除了寻食模型，蚁卵聚类、
蚁群分工和蚁巢自装配等模型都只处于证实阶段
理论和实验；
一个多主体自组织模型实验和测试平台；
对于追求效率的实际问题，如何既保持群体智能系统
的灵活性和鲁棒性等自组织特征又能保证系统的高效
率也是一个关键问题；
群体智能与分布式智能的智能主体研究相结合，将产
生新的智能主体协作、建模等算法和机制，提出网络
和网格环境的自适应多智能主体系统。
2020/4/25
高级人工智能
史忠植
88
蚂蚁寻找最短路径原理
外激素多的短路径
将吸收更多的蚂蚁，
反过来，更多的蚂
蚁在短路径上会留
下更多的外激素，
加上外激素挥发效
应，最后，蚁群都
选择了最短路径。
A）蚁群到达决策点。
C）下方短路径蚂蚁到达
相反方向的决策点的时
间早于选择上方长路径
的蚂蚁。
2020/4/25
B）一些蚂蚁选择上方路径，一些蚂
蚁选择下方路径。选择是随机的。
D）短路径上外激素以较高的速度
积累。。
高级人工智能
史忠植
89
蚁群算法
第k个蚂蚁从城市i到城市j 的跃迁概率为：


 [ ij (t )]  [ij ]




k
[[

(
t
)]

[

]
ik
pij (t )    ik
 kallowed

0
j  allowed k
otherwise
τij（t）为t时刻边e(i,j)上外激素的强度
可见度ij为1/dij
2020/4/25
高级人工智能
史忠植
90
一种基于蚁群算法的TSP问题分段
蚁群算法
求解算法
 相遇算法，提高了蚂蚁一次周游的质量，
 然后将相遇算法与采用并行策略的分段算法
相结合，提出一种基于蚁群算法的TSP问题
分段求解算法。
 实验结果表明该算法有较好的有效性。
2020/4/25
高级人工智能
史忠植
91
TSP蚁群算法
实例



ST70 （TSPLIB） 677.88 677.1096
CHC144 （中国144城市）30354.3
kroB150 (TSPLIB) 26130 26127
2020/4/25
高级人工智能
史忠植
92
蚁群聚类算法CSI的研究



CSI聚类算法主要步骤；
基本模型简化：概率转换公式；
实验结果。
2020/4/25
高级人工智能
史忠植
93
基于蚁群算法的聚类算法
主要步骤：
随机分布待聚类模式；
每只蚂蚁计算当前对象在局部环境的群体相似度，并通
过概率转换函数得到拾起或放下对象的概率，以这个概率
行动；
经过群体大量的相互作用，最终得到若干聚类中心；
2020/4/25
最后收集聚类结果。
高级人工智能
史忠植
94
概率转换公式的简化
基本模型

pp

k1
 (
)2
k1  f
pd


f

k  f 

 2

2
简化模型
1

Pp  1  k  f (oi )
0

2020/4/25
f (oi )  0
0  f (oi )  1 / k
f (oi )  1 / k
1

Pd  k  f (oi )
0

高级人工智能
史忠植
f (oi )  1 / k
0  f (oi )  1 / k
f (oi )  0
95
实验结果
2020/4/25
高级人工智能
史忠植
96
电信消费数据聚类分析实验结果比较
kmeans 30 聚类结果图表
群体智能聚类结果图表
4,000
平均值话费总计
5,000
4,000
2,000
平均值话费总计
平均值话费总计
3,000
1,000
2020/4/25
0
高级人工智能
3031 2928 2625 27 232422 19 2118 1210 1516 1120 1314 5 2 0 6 7 17 8 3 9 4 1
史忠植
30
31
3,000
29
28
26
2,000
25
27
23
1,000
24
22
19
0
7210 2 29 5 16 13 28 6 25 4 18 23 27 15 20 9 26 8 11 14 1 3 17 10 19 22 24 21 12
18
SOM聚类结果图表
12
4,000 10
聚类序号
15
16
3,000 11
20
13
2,000 14
5
2
0
1,000
6
97
7
17
0
85 15 24 13 21 17 28 9 27 11 2 6 35 4 18 25 32 34 20 33 30 10 8 1 3 16 36 29
基于群体智能的文档聚类算法CSIM的研究

为了处理聚类过程中出现的散点以及克服算法的一些随机
因素，更是为了提高算法的效率，我们将基于群体智能的
文档聚类算法与经典的K均值算法相结合，对算法进行了
改进。

混合算法的过程是这样的：首先采用基于群体智能文档聚
类算法对聚类文档进行处理，得到初始的聚类中心个数和
聚类中心模板，然后运用K均值算法再次聚类。
这样，既保留了群体智能算法的自组织特征，又结合了K
均值算法的高效率，同时也克服了两种算法的弱点，如群
体智能算法的随机性和K均值算法的聚类中心个数的参数
2020/4/25
98
高级人工智能
史忠植
预定及输入顺序敏感。我们将算法缩写为CSIM。

基于群体智能的文档聚类算法CSIM的研究
类别
数据文档维数
集数
D1 394 833
Gold,Coffee,
Sugar
D2 323 600 GNP,Livesto
ck,Sugar
D3
2020/4/25
1000 496
Football
高级人工智能
史忠植
来源
Reuters21578
Reuters21578
FM365 网
站
99
基于群体智能的文档聚类算法CSIM的研究
数据
集
D1
D2

6.5
8
9
8
聚类中 CSIM k心个数正确率 means
正确
率
16
98.2% 97.4%
11
98.5% 97.2%
10
98.2% 95.4%
10
92.5% 88.5%
CSI正 CSI 散
确率点
99.0%
99.4%
92.4%
94.7%
5.6%
2.1%
0.9%
10%
这个结果达到了SONIA系统所用文档聚类算法的水
平，而SONIA的算法性能明显高于Scatter/Gather和
TFIDF 方法。
2020/4/25
高级人工智能
史忠植
100
七、粒度计算


粒度计算从广义上来说是一种看待客观世界的
世界观和方法论。
粒度计算的基本思想就是使用粒而不是对象为
计算单元，使用粒、粒集以及粒间关系进行计
算或问题求解。
2020/4/25
高级人工智能
史忠植
101
粒度计算


2020/4/25
1997年Lotfi A. Zadeh 提出了粒度的概念，他认为在人类认知中存
在三种概念：粒度，组织与因果关系。从直观的来讲，粒化涉及到
从整体到部分的分解，而组织却是从部分到整体的集成，而因果关
系涉及原因与结果之间的联系。对一个事物的粒化就是以可分辨性、
相似性、邻近性与功能性集聚有关的事物。
粒度计算是信息处理的一种新的概念和计算范式，覆盖了所有有关
粒度的理论、方法、技术和工具的研究，主要用于处理不确定的、
模糊的、不完整的和海量的信息。粗略地讲，一方面它是模糊信息
粒度理论、粗糙集理论、商空间理论、区间计算等的超集，另一方
面是粒度数学的子集。具体地讲，凡是在分析问题和求解问题中，
应用了分组、分类、聚类以及层次化手段的一切理论与方法均属于
粒度计算的范畴。信息粒度在粒度计算，词计算，感知计算理论和
精化自然语言中都有反映
高级人工智能
史忠植
102
粒度计算的必要性

从哲学的角度看
Yager和Filev指出“人类已经形成了世界就是一个粒度的观点”以及
“人们观察、度量、定义和推理的实体都是粒度” 。信息粒是一种抽象，
它如同数学中的“点”、“线”、“面”一样，在人类的思维和活动中
占有重要地位。

从人工智能的角度看
张钹院士指出“人类智能的公认特点，就是人们能从极不相同的粒度上
观察和分析同一问题。人们不仅能在不同粒度的世界上进行问题求解，
而且能够很快地从一个粒度世界跳到另一个粒度的世界，往返自如，毫
无困难。这种处理不同世界的能力，正是人类问题求解的强有力的表
现” 。
2020/4/25
高级人工智能
史忠植
103
粒度计算的必要性

从优化论的角度来看
粒度计算的理论与方法在观念上突破了传统优化思想的束缚，不再以数
学上的精确解为目标，即：需要的是很好地理解和刻画一个问题，而不
是沉溺于那些用处不大的细节信息上。粒度计算的方法不要求目标函数
和约束函数的连续性与凸性，甚至有时连解析表达式都不要求，而且对
计算中数据的不确定性也有很强地适应能力，计算速度也快，这些优点
使粒度计算具有更广泛地应用前景，所以，粒度计算理论的研究对推动
优化领域的发展极其重要。
2020/4/25
高级人工智能
史忠植
104
粒度计算的必要性

从问题求解的角度看
用粒度计算的观点来分析解决问题显得尤为重要，这样就不用局限于具
体对象的细节。除此之外，将复杂问题划分为一系列更容易管理和更小
的子任务，可以降低全局计算代价。

从应用技术的角度看
图像处理、语音与字符识别等，是计算机多媒体的核心技术。这些信息
处理质量的好坏直接依赖于分割的方法和技术，而粒度计算的研究或许
能够解决这一问题。
2020/4/25
高级人工智能
史忠植
105
粒度计算的基本问题

两大问题



粒的构造：处理粒的形成、表示和解释
使用粒的计算：处理在问题求解中粒的运用
两个方面


2020/4/25
从语义上：侧重于对粒的解释，如为什么两个对象会在同
一个粒之中，为什么不同的粒会相关。
从算法上：如何进行粒化和如何进行基于粒的计算。对粒的
分解与合并方法的研究，是构建任何粒度体系结构的本质要
求。
高级人工智能
史忠植
106
粒度计算的国内外研究现状

粗糙集理论



商空间理论



粒：等价类，子集
粒的计算：粒之间的近似
粒：等价类，子集，粒之间具有拓扑关系
粒的计算：合成、分解
词计算理论


2020/4/25
粒：词
粒的计算：模糊数学
高级人工智能
史忠植
107
2020/4/25
高级人工智能
史忠植
108
商空间粒度模型

张铃, 张钹把商空间的概念通过模糊等价关系
推广到模糊集合上，他们证明下面4种提法等
价：




2020/4/25
在论域X上给定一个模糊等价关系
给定X的商空间上的一个归一化等腰距离
给定X的一个分层递阶结构
给定一个X的模糊知识基，另一个结论是，所有模
糊粒度全体，构成一个完备半序格
高级人工智能
史忠植
109
存在的问题




粒的定义：子集，没有内涵，无法区分粒和
类
粒的元素：粒的元素为基本对象，不能为粒
粒的嵌套层次结构简单
粒的功能是用于描述和近似，而对于问题求
解作用不大（明显）
2020/4/25
高级人工智能
史忠植
110
相关工作

基于近似和相容关系的粒度模型




近似空间
变精度粗糙集模型
相容空间
层次和嵌套模型



2020/4/25
由嵌套等价关系序列引导的嵌套粗糙集近似
由层次结构引导的层次粗糙集近似
由邻域系统引导的层次粗糙集近似
高级人工智能
史忠植
111
相容粒度空间模型

四元组(OS, TR, FG, NTC)




OS 表示对象集系统
TR 表示一个相容关系系统
FG表示相容粒转换函数
NTC表示一个嵌套相容覆盖系统
对象集系统由在
相容粒度空间中
处理和粒化的对
象组成，它也可
以看成是一个对
象域
2020/4/25
相容关系系统是一
个参数化的关系结
构，它由一组相容
关系组成，包括一
个粒度空间所基于
的关系和参数
高级人工智能
史忠植
嵌套相容覆盖系
统是一个参数化
的粒度结构，其
中定义了不同层
次的粒和基于对
象系统和相容关
系系统的参数化
过程。它定义了：
ａ. 粒之间、粒
集之间、对象之
间以及粒和对象
之间的关系；
b. 粒的合成和分
解。
112
相容粒

用一个三元组来描述相容粒G=(IG, EG, FG)



IG：相容粒G的内涵，用向量表示
EG：相容粒G的外延，用向量的集合表示
FG：内涵和外延之间的转换函数
定义了粒的内
涵和外延之间
的转换，可以
用函数、规则、
算法等形式来
描述
描述了相容粒在特定
环境下表现的知识，
并表示在一个特定任
务下相容粒中所有元
素的一般性特征、规
则、共同性等
2020/4/25
高级人工智能
史忠植
113
相容粒

粒的定义需要考虑三个基本属性：



2020/4/25
反映粒中元素交互作用的内部属性；(EG)
揭示一个粒与其它粒交互作用的外部属性；(IG)
表示一个粒在特殊环境下存在的上下文属性。(IG,
FG)
高级人工智能
史忠植
114
相容粒度空间模型的主要特点

功能特点


建模所基于关系的特点



粒度计算的功能不仅仅在于对问题的简化和近似化，更在于
以粒为单位通过粒之间的关系进行计算在某些问题的解决中
不可替代的作用。
相容关系
粒的定义的特点
粒度空间结构的特点

2020/4/25
通过定义粒的三种关系：内涵关系、外延关系和复合关系，
以及粒度空间的层次和嵌套结构实现了这种粒之间和粒度层
次之间交互跳跃的能力。
高级人工智能
史忠植
115
Thank You
Intelligence Science
http://www.intsci.ac.cn/
2020/4/25
史忠植
智能科学研究进展
116

聚类分析

Transcript 聚类分析

Directory