基因组岛的建模与识别

Download Report

Transcript 基因组岛的建模与识别

原核生物基因组岛的
建模
与识别
The detection Of Genomic Islands in Prokaryotic Genomes
2010年7月
北京师范大学数学科学学院
北京师范大学生命科学学院生物信息实验室
梁潇 曹莎 姜洁怡
Directed by 林魁 毛永华
1
2
背景介绍
研究计划
.
3
4
项目创新点
其它说明
·研究背景
•在疾病的预防和治疗方面,人类取得
微生物对人类最重要的影响之一是导
了长足的进展。
致传染病的流行。在人类疾病中有50
•但是新现和再现的微生物感染还是不
%是由病毒引起。世界卫生组织公布
断发生,像大量的病毒性疾病一直缺
资料显示:传染病的发病率和病死率
乏有效的治疗药物。
在所有疾病中占据第一位。微生物导
•一些疾病的致病机制并不清楚。
致人类疾病的历史,也就是人类与之
•大量的广谱抗生素的滥用造成了强大
不断斗争的历史。
的选择压力,使许多菌株发生变异,
导致耐药性的产生。
•人类健康受到新的威胁
幽门螺杆菌 Helicobacter pylori
革兰氏阴性菌,幽门螺杆菌是人类至今
唯一一种已知的胃部细菌。由于长期的
•一些分节段的病毒之间可以通过重
溃疡,会导致癌症,是第一个可致癌的
组或重配发生变异,最典型的例子
原核生物。
就是流行性感冒病毒。
铜绿假单胞菌
P.Aeruginosa
•每次流感大流行流感病毒都与前次
原称绿脓杆菌,有复杂的耐药机制,影
导致感染的株型发生了变异,这种
响肺部及泌尿道,造成烧伤、伤口及血
快速的变异给疫苗的设计和治疗造
液感染,如败血病
成了很大的障碍。 ; 亦会造成肺炎。
10%在医院感染的病症都是由绿脓杆菌
•而耐药性结核杆菌的出现使原本已
所引致的。它亦是引致皮肤炎的其中一
近控制住的结核感染又在世界范围
种细菌。
内猖獗起来。
鲍 曼 不 动 杆 菌 Acinetobacter Baum
Annie
20世纪70年代,鲍曼不动杆菌几乎对所
有抗生素都很敏感。由于它具有惊人
的迅速获得抗药性的能力,目前已对多
种抗菌药物表现耐药。
•基因组岛的研究价值
微生物的致病作用
基因组岛的进化起源
基因组岛的删除
基因组岛的插入机制
基因组岛在菌株间的转移机制
抗生素抗性
共生微生物的共生性
外源性化合物的降解
•何为基因组岛?
一般是指原核生物基因组染色体上一段具有有别
于该基因组背景典型特征的DNA片段基因簇,具有移动
元件的特征,如G+C百分比和密码子使用情况与宿主菌
不同,其通常具有移动元件的特征,常含移动基因,
可以在同种甚至于不同种菌株间水平转移。
FEMS Microbiology Reviews Vol. 33, 2 Pages: 376393
1
2
背景介绍
研究计划
.
3
4
项目创新点
其它说明
研究目标
实验路线
研究内容
可行性分析
研究进度
.
预实验结果
项目的研究目标
通过整合统计学、机器学习、比较基因组学等
方法,设计并实现一个有较好性能的原核生物基因
组岛识别分析系统。
项目的研究内容
1. 通过具有较高敏感性的方法寻找出待测基因组的基因组岛。
2. 用统计分析的方法研究基因组岛边缘序列的结构特征及其局部区域相关关系,建
立起更准确的识别基因组岛的马尔可夫识别模型。整合我们自己研究的原核生物基因
组进化方法进行备选基因组岛的比较基因组学鉴定。
3. 设计评价指标来评价所设计的系统,检验算法于模型的有效性及实用性。
4. 利用基于Linux的MySQL数据库系统,PERL/C++编程以及Apache服务器实现整个系
统并提供给相关科学家使用。
拟解决的关键问题
1.基于全基因组的基因组岛识别算法的优化模型建立
2.识别的性能(准确性)评价
实验路线流程图
第一阶段
第一阶段
全基因组序列数据
待分析序列 基因组岛区域
第二阶段
第二阶段
最终优化方案
第三阶段
第三阶段
MYSQL数据库
Z-curve
准确性判断模型
建立隐马氏模型
处理数据
(HMM)
第四阶段
第四阶段
系统发育
提取特征参数
否
返回修改模型参数
进化关系
是否达到预设阀值?
编程实现整个系统
比较基因组法
基因组岛区域
最终优化方案
初步识别
基因组岛
是
实验的可行性分析
1 全基因组测序计划的实行,使我们通过互联网即可拥有可靠的
已测序的全基因组数据来源,如GenBank数据库检索系统:
http://ncbi.nlm.nih.gov/genbank/query_form.html。成熟的
WEB程序及具体的数据、地址可在有关资料上找到,这给了我们
开发相关程序很好的参考。
2 基因组岛识别研究的系统方法虽然还属于起步阶段,但基因识
别从其初期的到现在已有多年,技术已相当成熟,与之相对应的
软件系统开发也很全面、系统。利用统计学以及机器学习技术改
进基因组岛识别的系统的可操作性很强,在我们的研究时段内可
以顺利完成。
成果提供形式及初步预实验结果
•现有算法详细列表
算法
Islandpath/DI
MOB
(2005)
论文
原先是用来协助原核基因岛的识别。
William W L Hsiao, Korine Ung, Dana Aeschliman, Jenny
途径是通过可视化GI的几种共同的特
Bryan, B Brett Finlay, and Fiona S L Brinkman. Evidence of a
点:例如序列组成偏向,tRNA,整合
large novel gene pool associated with prokaryotic genomic
酶和转座酶。这些特征可以用于决定
islands. PLoS Genet, 1(5):e62, Nov 2005.
GI的位置。
SIGI-HMM
(2006)
Stephan Waack, Oliver K, Roman A, Thomas B, Carsten D,
Wolfgang F.F, Katharina S, Peter M, and Rainer M. Scorebased prediction of genomic islands in prokaryotic genomes
using hidden markov models. BMC Bioinformatics, 7:142,
2006.
MobilomeFI
NDER(2007)
Mobilomefinder: web-based tools for Insilco and experimental
discovery of bacterial genomic islands. Nucleic Acids Res,
35(Web Server issue):W97–W104, Jul 2007.
这个算法利用了各分类的密码子使用
的显著差异来识别pA基因和预测它们
可能的起源。(用HMM,Viterbi算法,
有高度可靠性)
IslandPick
(2008)
使用比较基因组预测方法来建立严格
的GI和非GI数据集,这些阳性和阴性
MorganGILangille,WilliamWLHsiao,andFionaSLBrinkman.
的数据集被用来评价一些基于序列组
Evaluation of genomic island predictors using a comparative
成的GI预测方法。该方法可以自动选
genomics approach. B MC Bioinformatics, 9:329, 2008.
择用于比较的基因组,用户也可以根
据子的的见解来选则。
IslandViewer
(2009)
Morgan G I Longville and Fiona S L Brinkman. Islandviewer:
方 法 : SIGI-HMM 和 IslandPathan integrated inter- face for computational identification and
DIMOB, 以及一个比较基因组预测方
visualization of genomic islands. Bioinformatics, 25(5):664–5,
法IslandPick.
Mar 2009.
整合了两种基于序列组成的的GI预测
1
IslandPick
2
Z-Curve
.
3
4
SIGI-HMM
其它说明
BLAST
• BLAST(Basic Local Alignment Search Tool") 是
一个用来比对生物序列的一级结构(如不同蛋白
质的氨基酸序列或不同基因的DNA序列)的算法
。
• 已知一个包含若干序列的数据库,BLAST可以
让研究者在其中寻找与其感兴趣的序列相同或类
似的序列。 例如如果某种非人动物的一个以前
未知的基因被发现,研究者一般会在人类基因组
中做一个BLAST搜索来确认人类是否包含类似
的基因(通过序列的相似性)。
1
2
IslandPick
Z-Curve
.
3
4
SIGI-HMM
其它说明
窗口化方法
使用20kb的窗
口在Bacillus
cereus(蜡样芽
孢杆菌)和
Bacillus
anthracis(炭
疽芽孢杆菌)的
全基因组上滑动
所得到的GC含
量的分布图。
Z-curve
• DNA序列一一对应于一条Z-curve
• Xn=(An+Gn)-(Cn+Tn)
• Yn=(An+Cn)-(Gn+Tn)
• Zn=(An+Tn)-(Gn+Cn)
• 特别地,Zn分量体现了整个序列的GC/AT的分
布
Z-curve
• 对于一个AT丰富的基因组,Zn是近似的关于n的单
调增的线性函数。反之,在GC含量比较丰富的区域
,Zn是近似的关于n的单调减的函数。
• 曲线Zn~n可以用一条直线使用最小二乘法拟合。该
曲线为Z=kn,易知,它对应的基因组的GC含量是稳
定的。
• 令Zn’=Zn-kn,GC含量的改变被放大。(??)
• 这样,Zn曲线和直线的偏差,即Z’曲线就可以突出
地刻画基因组内GC含量的偏差了。
Z’曲线的几何意义
• Z’曲线被称为累积GC含量轮廓图
• 对于序列上某一段特定的序列∆n,它内部的GC
含量的平均值有如下关系:
Z’曲线的几何意义
• 从上式可以看出累积GC含量图——Z’曲线的特征:
• 1)如果曲线的某一个区域接近于一条直线,则该区
域的GC含量几乎保持不变;
• 2)曲线上任何一个突然的最大(小)点预示着一个
转折点——GC含量经历了一个很突然的从相对低(
高)到相对高(低)的变化。
累积GC含量轮廓图
• 在基因组某一碱基处的G+C 含量是关于Z’曲线
在该点切线的斜率的一个很简单函数。
• 在某一窗口中的平均G+C 含量则正比于此函数
在该窗口内的定积分。这样,我们就把生物学中
G+C 含量的概念拓广了,使之在基因组处处都
有定义。如果不从微积分的角度来看,很难理解
基因组在某一碱基位置处的G+C 含量是什么意
思。
• 精度高,不需要滑动窗口;极限情况下,就算只
有一个碱基也能计算;
累积GC含量轮廓图
绿色:
Bacillus
cereus
粉红区域:
GI
蓝色:
Bacillus
anthracis
紫色:
Bacillus
cereus去除
掉GI区域以
后
原核生物基因组岛的
建模与识别
-END-