复杂网络中的社团结构 - 北京师范大学系统科学学院

Download Report

Transcript 复杂网络中的社团结构 - 北京师范大学系统科学学院

复杂网络中的社团结构
樊瑛
北京师范大学系统科学系
2010年7月19日
纲要

实际网络中的社团结构
社团结构定义
检验算法的网络与Q函数
探索社团结构的方法
算法的评价以及加权网络的聚类方法

一个具体工作(基于比较性定义下的聚类方法)




实际系统中的社团结构
Collaboration network between scientists
working at the Santa Fe Institute. The colors
indicate high level communities obtained by the
algorithm of Girvan and Newman and
correspond quite closely to research divisions of
the institute.
Zachary's karate club, a standard benchmark in
community detection. The colors correspond to the
best partition found by optimizing the modularity
of Newman and Girvan.
Community structure in technological networks.
Sample of the web graph consisting of the
pages of a web site and their mutual hyperlinks,
which are directed. Communities, indicated by
the colors, were detected with the algorithm
of Girvan and Newman, by neglecting the
directedness of the edges.
Best division of econophysicists collaboration network,
with the divisions detected by GN algorithm represented
by different colors and numbers.
Community structure in protein-protein interaction networks. The graph pictures the interactions
between proteins in cancerous cells of a rat. Communities, labeled by colors, were detected with the
k-clique percolation method by Palla et al.
人际关系网
 引文网
 WWW网
 新陈代谢网
 食物链网
…
社团结构和功能之间的关系

社团结构的定义
社团结构的描述性定义
Community structure(社团结构)
is the groups of network vertices. Within these groups there have dense
internal links, but between groups there are fewer edges.
M. E. J. Newman, Detecting community structure in networks. Eur. Phys. J. B 38, 321-330 (2004).
社团结构的数学描述

Clique - Complete graph

k-core - subgraph in which each node is adjacent to at least a minimum
number, k, of the other nodes in the subgraph.

K-Clique Community

LS-Set
 An LS-set is a set of nodes such that each of its proper subsets has more
ties to its complement within the set than outside.
社团结构的比较性定义
检验算法的网络及Q函数
检验算法的网络

人工网络



GN Benchmark
LFR benchmark
一些实证网络(已知社团结构)
GN经典人造网



常用的人造网是由128个顶点构成的网络,这128个顶点
被平均分成四份,构成四个社团,每个社团包含32个顶点。
每个顶点度的期望值为16,Zin表示顶点与社团内部顶点连
边数目的期望值,Zout表示顶点与社团外顶点连边数目的
期望值,从而Zin + Zout =16.
Zout越小说明顶点与社团外部的连接越少,网络的社团结
构越明显; Zout越大说明网络越混乱,社团结构越不明显。
对于Zout值大的网络还能够基本正确的对网络进行划分的
算法,在实际应用中适用范围更广,价值更大。
LFR benchmark

LFR benchmark is a generalization of the GN
benchmark to heterogeneous group sizes and
graph degree distribution. Groups are also a priori
fixed with the degrees and the community sizes
following a power-like distribution. As before,
nodes have kin connections within its own group
and kout edges linking elsewhere.
检验算法的一些实际网络




空手道俱乐部网(34个点,78条边)
科学家合作网(物理学家、经济物理学、桑塔
菲研究所)
美国大学足球赛季网(115个点,616次常规赛)
猴子网(16个点)
…
已知社团结构,便于比较算法的好坏。
评价函数---Modularity
Q 
1
[A

2m
ij
vw

kv k w
2m
] (cv , cw )
含义是:网络中连接社团内部顶点间的边的比例与拥有相同社团结构但是
顶点间随机连接的网络中连接社团内部顶点间的边的比例的期望值的差值。
Q    eii  ai
2
  Tre -
i
2
l
d
 v  
v
Q   
 
L
2
L

 
v 1 

n
对Q函数的质疑
e2
ai   eij
j
探测集团结构的基本方法
寻找社团结构的方法

基于网络拓扑结构



基于网络上的动力学




GN algorithm based on edge betweenness: M. Girvan, M. E. J. Newman PNAS 99
7821(2002)
Spectral analysis; L. Donetti, M. A. Munoz J. Stat. Mech. (2004) P10012
Potts Model;J. Reichardt, S. Bornhold, Phys Rev Lett. 93 (2004) 218701
Random Walk:M.Latapy, P.Pons,cond-mat/0412368 ; H. Zhou PRE.67.041908
Circuits:F. Wu, B.A. Huberman, Eur. Phys. J. B 38 (2004) 331
Q函数优化
Extremal Optimization:J. Duch A. Arenas, Phys Rev E. 72 (2005) 02710

Newman’s fast algorithm; M. E. J. Newman, Phys Rev E. 69 (2004) 066133
……

1、层次聚类法


根据顶点间的距离或相似程度划分网络中的社团。
具体过程为:
1 定义两点间的距离或相似度,社团与社团间的距离或
相似度;
2 将每个顶点视为一个社团,并根据定义计算社团间的
距离或相似度;
3 将距离最近的或相似度最高的社团合并,形成新的社
团,重新计算社团间的距离或相似度;
4 重复第3步操作,直到网络中的所有顶点被归入一个
社团为止。
结构等价定义顶点间的相似度

结构等价:如果一个顶点与网络中其余顶点的连接方式
和另一顶点与网络中其余顶点的连接方式完全相同,则
这两个顶点结构等价。例如在人际关系网中,如果两个
人的朋友完全相同,则这两个人就是结构等价的。

用欧几里德距离度量衡量结构等价。顶点i,j的距离为
S
D ij 
 a
ik
 a jk
k  1, k  i , j

此距离等于0时,两顶点结构等价。

2
•
其他距离及相似度的定义可参见
•
•
Mika Gutafsson, Comparison and validation of community structures in
complex networks. Physica A 367(2006)559-576
M. Girvan, E. Newman, Community structure in social and biological networks,
PNAS99(12)(2002)7821-7826
层次聚类法


社团与社团间的距离可以采用最短距离法、最长距离法或
平均距离法。
层次距离的过程可以用树状图表示
2、GN算法



Girvan和Newman提出的分裂算法已经成为探索网络社团
结构的一种经典算法,简称GN算法。
由网络中社团的定义可知,所谓社团就是指其内部顶点的
连接稠密,而与其他社团内的顶点连接稀疏。这就意味着
社团与社团之间存在联系的通道比较少,并且要想从一个
社团到另一个社团,至少要通过这些通道中的一条。如果
能找到这些重要的通道,并将它们移除,那么网络就自然
而然的分成了各个社团。
用最短路径边介数标记每条边对连通性的重要程度。
GN算法


最短路径边介数的定义为:找出每对顶点间的最短路径,
计算每条边被多少条最短路径通过,这个值就是这条边的
最短路径边介数。
GN算法的具体过程:
⑴计算网络中各条边的边介数;
⑵找出边介数最大的边,并将它移除(如果最大边介数的
边不唯一,那么既可以随机挑选一条边断开也可以将这些
边同时断开);
⑶重新计算网络中剩余各条边的边介数;
⑷重复第⑵、⑶步,直到网络中所有的边都被移除。
GN算法与Q值

最优社团划分的选择
3、 边集聚系数法


边集聚系数:一条边的集聚系数等于网络中利
用这条边构成的三角形的个数除以利用这条边
潜在可以构成三角形的个数。
连接i,j两点的边的集聚系数表示为:
(3)
j
C i,


(3)
j
zi,
m in [( k i  1), ( k
j
 1)]
连接不同社团的点的边,被较少的三角形包含,
或者根本不包含于任何三角形。从而边集聚系
数就小。然而社团内部由于有比较稠密的边,
所以应该包含较多的三角形,因此连接集团内
部的点的边的边集聚系数就大。
边集聚系数法

修正的边集聚系数:
zi, j  1
(3)
C i, j 
(3)

m in [( k i  1), ( k j  1)]
对于加权网其边集聚系数为:
wi , j z i , j  1
(3)
C i, j 
(3)

m in [( k i  1), ( k j  1)]
推广到更大的环:
wi , j z i , j  1
(g)
C
(g)
i, j

(g)
si , j
边集聚系数法

具体过程:
1、确定g值,根据边集聚系数的定义,计算
每条边的集聚系数;
2、断开边集聚系数最小的边;
3、重新计算每条边的集聚系数;
重复2、3过程,直到每条边都被断开为止。
4、优化算法——贪婪算法


直接以最大化Q函数值为目标,探索网络
中的社团。由此产生一类新的算法——
优化算法
贪婪算法的具体步骤:
(1)初始时将网络中每个顶点都视为一个社团,每个社团内只有
一个顶点。即如果网络中有n个顶点,则有n个社团。
(2)两两合并社团,并计算社团合并所产生的Q值的变化量。选
择使得Q值增加最大(或减少最小)的方式进行合并。
(3)重复步骤(2)的操作,直到所有顶点被归于一个社团为止。
网络的最优划分为Q函数最大值所对应的划分方式。
5、优化算法——EO算法



极值优化算法的基本思想:通过得到局部变量的极值,
达到全局变量的极值。
全局变量:Q
局部变量:一个顶点对整体Q值的贡献
qi   r (i )  k i a r (i )

标准化的局部变量,也称适合度:
 r (i )
qi
i 

 ar (i )
ki
ki
优化算法

算法的具体过程
1、将网络中的点随机的分成等大的两
部分,连通的部分构成社团。
2、计算每个节点的适合度,将适合度
最低的点从一部分移动到另一部分,
计算全局Q值,并重新计算每点的适
合度。
3、重复上述过程直到Q值最大为止。断
开两部分之间的所有的边。
4、对每一子部分重复1-3过程,直到Q
值不能进一步提高为止。
6、谱分析算法


主要思想:分析由连接矩阵形成的拉普拉斯矩阵(Laplacian Matrix)
或标准矩阵(Normal Matrix)的特征值特征向量。
以标准矩阵的分析为例
 所谓标准矩阵,是由网络的连接矩阵和一个对角矩阵的逆矩阵构
成的。对角矩阵中的元素是每个顶点的度值,表示网络中顶点的
个数。由于标准矩阵行的标准化,标准矩阵总有最大的特征值等
于1,以及与之对应的特征向量(1、1、1……)。
 在对社团化明显的网络的分析中发现,如果网络自然呈现m个社团,
则标准矩阵就有m-1个十分接近1的特征值,而其余的特征值则有
较大的距离。最大的特征值所对应的特征向量有一个特性:在同
一个社团中的顶点所对应的值较为接近。因此,特征向量中元素
的值呈现阶梯状分布,并且阶梯的级数与社团的个数相匹配。
图 顶点0-6号为一个社团,顶点7-12号为一个社
团,顶点13-18号为一个社团。
图 横坐标表示顶点的编号,纵坐标表示特征向量中顶点对应
的数值。可见0-6号的数值比较接近,7-12号的数值比较接近,
13-18号的数值比较接近。

同样的方法也可以对拉普拉斯矩阵进行分析。
差别在于,拉普拉斯矩阵总存在平庸的特征值
0,考察的标准是大于0的最小的特征值及其对
应的特征向量。
算法的评价以及加权网络的聚类方法
划分结果的比较方法


正确划分率比较法
共同信息比较法
 2  i 1 
cA
I ( A, B ) 

 i 1 N i . log(
cA
Ni.
N
cB
N ij N
N ij log( N
j 1
)

cB
A
B
A
B
(A
B) (A
A
B
B)
D 
d
k
)
N . j log(
j 1
D函数比较法
s 


d 

i.N. j
XY
N. j
N
)
评价方法

准确度 (accuracy)
计算得到的集团与已知集团比较

精确度 (precision)
在同一个网络上多次计算得到的多组集团间的两两比
较
Ying Fan, Menghui Li, et al, Accuracy and Precision of Methods for Community Identification in
Weighted Networks, Physica A.

算法的复杂度(complexity)
加权网上的社团结构
Q
w

1
2T

ij
w 
 ij
Ti   j wij
Ti T j
2T
 ( c , c )
i
j

T   wij
M. E. J. Newman,Phys. Rev. E. 70(2004) 056131


算法的推广
权重的影响
聚类算法
---WGN算法



基于网络拓扑结构, 边介数算法
根据无权网计算边介数值(Link Betweenness)
bij计算加权网中边介数值 ,即Bij= bij/wij;
删除介数值最高的边;
M. E. J. Newman,Phys. Rev. E. 70(2004) 056131
聚类算法
---极值优化算法(WEO)
Q   (err  (a ) )
w
w 2
r
r
q  Tr (i )  Ti a
w
i
w
r (i )
Q 
w
1
q

2T
i
 
w
i
w
i
q
Ti

w
i
Tr ( i )
Ti
a
w
r (i )
聚类算法
---极值优化算法(WEO)

随机把网络划分为节点数相同的两个集团;

把对目标函数贡献最小的节点移动到另一个集
团,再计算节点的贡献;

重复上面步骤,直到目标函数取得最大值为止;
J. Duch and A. Arenas, Phys Rev E. 72 (2005) 027104
加权理想网络

128个节点,每32个节点假定为一个集团,共
有4个集团
 kint er    kint ra  16  wint ra    wint er  2
 wint ra  集团内边权的平均值
 wint er  集团间边权的平均值
加权实际网络
一种比较性定义下的社团结构探测方法
社团结构的原始比较性定义
我们改进后的比较性定义

Modified Definition
划分集团结构的算法

集团k对顶点i的吸引力:

初始化集团

计算任一集团对每一顶点的吸引力

将顶点移动到吸引力最大的集团中
集团内部边密度
集团外部边密度
评价指标:
人工网络上的结果
The accuracy of each detected community compared
with the counterpart of real-world communities in College football
network
.
附加内容
带有overlapping的社团结构

Palla G.Dernyi I.Farkas I Uncovering the overlapping community structure of
complex networks in nature and society 2005(7043)
有向网中的社团结构(Motif)
谢谢大家!