运筹学方法、模型在生物信息学、系统生物学研究中的重要作用

Download Report

Transcript 运筹学方法、模型在生物信息学、系统生物学研究中的重要作用

复杂网络的社团结构分析
Community structure in complex networks
章祥荪
http://zhangroup.aporc.org
中国科学院 数学与系统科学研究院
全国复杂网络会议,苏州大学, 2010,10, 17
1
 复杂网络的动态性质研究
 复杂网络的静态结构研究
 小世界(Small world) ,尺度无关(Scale free),聚
类特性 (Clustering) 的确切数学模型。
 社团结构 (Community Structure)
 …………
2
复杂网络的模块化性质
 复杂网络中存在模块或者社区结构 (Module or
Community structure)
 模块或者社区定义为网络中内部连接稠密,与外部连
接稀疏的节点的集合 (Filippo Radicchi et. al. PNAS,
Vol.101, No.9, 2658-2663, 2004).
 数学表述:
其中V是子图,K是顶点的度。即子图 V 是模块的条件是模块内
顶点的内部连边的度值之和大于模块内顶点的外部连边的度值之
和。
PNAS ---- Proc. Natl. Acad. Sci. USA 美国科学院院刊
3
模块划分的重要性
 许多复杂网络共有的性质。
 研究模块结构有助于研究整个网络的结构和功能
数学生态学
统计物理
4
圣塔菲研究所的科学家
合作网:模块代表从事
相似领域研究的科学家
集合
Martin Rosvall, Carl T. Bergstrom,
PNAS, vol. 105, no.4. 1118-1123,
2007
自然科学论文引用网络:6128
期刊, 约600万次引用,
划分为88个模块
和3024条
模块间的连接,
刻画了学科之间
的联系
5
一个社会网络的例子
W. W. Zachary, An information flow model for
conflict and fission in small groups, Journal of
Anthropological Research 33, 452-473 1977
 1970年美国大学里的一个空手道俱乐部关系网络:节点是
其34名成员,边是他们两年间的友谊关系,边数为78。俱
乐部里的矛盾导致其分裂为两个小的俱乐部。问题是能否
用网络的模块结构来重现这个过程?
 它是模块探测研究中的经典例子。
6
Importance of the topic
 Girvan, M, Newman, M., Proc.











7
Natl. Acad. Sci,
2002
Ravasz, E, Somera, A, Mongru, D, Oltvai, Z, Barabasi, A., Science, 2002
Radicchi, F, Castellano, C, Cecconi, F., Proc. Natl. Acad. Sci, 2004
Guimera, R, Mossa, S, Turtschi, A., Proc. Natl. Acad. Sci,
2005
Guimera, R, Amaral, L., Nature,
2005
Newman, M., Proc. Natl. Acad. Sci,
2006
Rosvall, M, Bergstrom, C., Proc. Natl. Acad. Sci,
2007
Fortunato, S, Barthelemy, M., Proc. Natl. Acad. Sci,
2007
Weinan, E, Li, T, Vanden-Eijnden, E., Proc. Natl. Acad. Sci,
2008
Rosvall, M, Bergstrom, C., Proc. Natl. Acad. Sci,
2008
Peter J. Mucha, et al., Science
2010
Yong-Yeol Ahn, James P. Bagrow & Sune Lehmann,Nature,
2010
生物信息学与最优化方法
社团结构探索方法概述
A large number of methods have been developed for detecting
communities, which can be generally categorized into local and
global methods.
 Local methods for community detection identify a subset of nodes as a
community according to certain local connection conditions,
independently from the structure of the rest of the network. Such
methods include clique overlap-based hierarchical clustering, clique
percolation method, and sub-graph fitness method.
 Global methods for community detection optimize certain global
quantitative functions encoding the quality of the overall partition of
the network, such as information theoretical method, Potts model, and
optimization of modularity measures.
8
我们小组在研究这一问题的早期发展了一些基于图论和
矩阵谱分解的模块探测算法 (local method)
Shihua Zhang, Rui-Sheng Wang, and Xiang-Sun Zhang.
Identification of overlapping community structure in complex networks using fuzzy cmeans Clustering.
Physica A, 2007, 374, 483–490.
Shihua Zhang, Rui-Sheng Wang and Xiang-Sun Zhang.
Uncovering fuzzy community structure in complex networks.
Physical Review E, 76, 046103, 2007
Rui-Sheng Wang, Shihua Zhang, Yong Wang, Xiang-Sun Zhang, Luonan Chen.
Clustering complex networks and biological networks by nonnegative matrix
factorization with various similarity measures.
Neurocomputing, 2007
9
衡量网络模块化的指标Q值
 设网络为 N=(V,E), Pk = { (V1, E1), …, (Vk, Ek)} 为一个
分划。L(Vi, Vj) =|Eij|, i in Vi, j in Vj.
 Newman 和 Girvan (Physical Review E, 2004) 提出一种衡量
网络社区结构的指标 Q 值
10
指标Q的问题 (Resolution limit)
Fortunato and Barthélemy, PNAS, 2007
 利用Q 划分网络的计算步骤:
k
maxQk  max max
Qi

k
k
k
i1|Vi |n i 1
 目前很大一部分模块探测的方法集中于利用各种启
发式算法来极大化Q值 ,例如模拟退火、遗传算法
等(Newman, PNAS, 2006; Guimera, Nature, 2005).
 Resolution limit 现象
11
极端例子:ring of cliques
Fortunato & Barthelemy,
Proc. Natl. Acad. Sci. USA
104 (1), 36-41 (2007)
12
提出新的模块化指标D值
 模块化密度函数 D:
Zhenping Li, Shihua Zhang, Rui-Sheng Wang, Xiang-Sun Zhang,
Luonan Chen,
Quantitative function for community detection.
Physical Review E, 77, 036109, 2008
13
D值克服了Q值存在的 resolution limit 问题
14
结果
D值
划
分
正
确
的
顶
点
的
比
例
15
Q值
错分现象---Misidentification
 用Q或D作优化可能得到不满足定义的模块
Q partitions the network into three
communities (two Kn and one K5) when
n>=16 (respectively, n>=21), in which K5 is a
sub-graph violating all reasonable
community definition.
Xiang-Sun Zhang, Rui-Sheng Wang, Yong Wang, Ji-Guang Wang, Yu-Qing Qiu, Lin Wang, and
Luonan Chen.
Modularity optimization in community detection of complex networks.
Europhysics Letters (EPL), 87, 2009.
被评为 EPL 2009 best paper
16
该文的主要贡献是用离散凸规划的
概念对两个重要问题进行解析分析
 Q 值和D 值的最优化模型都是非线性整数规划
 目标函数的凸性和凹性无法解析得到
 对两个具有特殊结构的网络进行分析
 引入离散凸规划(变量是离散的,可以嵌入一个连续的
凸规划)的概念进行分析, 得到解析解
17
 所有对modularity进行研究的论文(指上面所列的
的PNAS,Nature,Sience文章)都是试题论证的,即
没有解析的证明.
 为了彻底分析resolution
limit和 Misidentification
现象,我们对两类典型网络建立了优化模型,引入
了离散凸分析技术,得到了两类问题的解析解.
18
生物信息学与最优化方法
基于特殊结构的凸分析
 这两个例子出现在PNAS中几乎所有讨论网络模块
探测的论文里
ring of dense lumps
ad hoc network
Finding 1
对
k
maxQk  max max
Qi

k
k
k
i1|Vi |n i 1
Finding 2
21
生物信息学与最优化方法
Finding 3
 解析解表明,对这两个经典的算例,Q和D都有
Resolution limit和Misidentification的现象产生,
所以Q 和D均只是近似的定量评估函数。
 网络社团划分的问题可以用一个优化问题来精确
描述,我们证明了这一模型是NP-hard的。
 我们相信用优化理论可以彻底解决网络社团划分
的问题。网络科学是运筹学的下一个热点。
22
为了彻底解决这些问题
 提出一个新的 OR 模型和相应的算法,这一算法不会产生
resolution limit 和 mis-identification 现象
Xiang-Sun Zhang, Zhenping Li, Rui-Sheng Wang, Yong Wang.
A combinatorial model and algorithm for globally searching community
structure in complex networks
Journal of Combinatorial Optimization (JCO), 2010.
DOI: 10.1007/s10878-010-9356-0
23
A new OR model
 Problem definition:
Given a network, the community identification
problem is to partition the network into as many
non-overlapping sub-networks as possible such that
each sub-network satisfies a given community
definition.
24
以上文字定义可以用一个整数线性规划来描述
 我们证明了这个模型是 NP-hard .
25
A qualified min-cut (QMC) algorithm
 A heuristic principle is given to find a feasible
partition with the largest number of communities.
 It is realized by a min-cut operation: A min-cut
operation is called qualified if the two resulting
sub-networks satisfy the module definition.
 The community identification problem can be
solved based on a series of qualified min-cut
operations.
26
Experiment results (artificial networks)
Rings of cliques
27
Uneven ad-hoc network
Experiment results (real networks)
Football team network
28
Jazz musician network
致谢
This work is cooperated with
Dr. 李珍萍,Dr. 王瑞省,Dr. 王勇,Dr. 张世华,
Dr. 王吉光,Dr. 张俊华
This work is supported by
国家自然科学重点基金10631070
973项目2066CB503905
国家自然科学基金项目60873205
29
 欢迎访问 ZHANGroup,
http://zhangroup.aporc.org
本报告可在该网页上下载
30