多序列比对工具－clustalX

Transcript 多序列比对工具－clustalX

Slide 1

多序列比对与Clustal的使用，
以及各类常见的序列分析工具
介绍
中山大学生科院

2004年4月

Slide 2

内容提要
第一部分：多序列比对
• 意义、方法、算法
• Clustal的使用
1.Clustalx
2.Clustalw

第二部分：常见的序列分析软
件分类简介

Slide 3

第一部分：
多序列比对及Clustal的使用

Slide 4

序列相似性比较和序列
同源性分析
序列相似性比较：
就是将待研究序列与DNA或蛋白质序列库进行比较，
用于确定该序列的生物属性，也就是找出与此序列相似
的已知序列是什么。完成这一工作只需要使用两两序列
比较算法。常用的程序包有BLAST、FASTA等；
序列同源性分析：
是将待研究序列加入到一组与之同源，但来自不同物
种的序列中进行多序列同时比较，以确定该序列与其它
序列间的同源性大小。这是理论分析方法中最关键的一
步。完成这一工作必须使用多序列比较算法。常用的程
序包有CLUSTAL等；

Slide 5

多序列比对的意义
• 用于描述一组序列之间的相似性关系，
以便了解一个基因家族的基本特征，寻
找motif，保守区域等。
• 用于描述一个同源基因之间的亲缘关系
的远近，应用到分子进化分析中。
• 其他应用，如构建profile，打分矩阵等。

Slide 6

多序列比对的方法
• 同源性分析中常常要通过多序列比对来
找出序列之间的相互关系，和blast的局
部匹配搜索不同，多序列比对大多都是
采用全局比对的算法。这样对于采用计
算机程序的自动多序列比对是一个非常
复杂且耗时的过程，特别是序列数目多，
且序列长的情况下。

Slide 7

多序列比对的方法
基本上多序列比对可以分为
1.手工比对（辅助编辑软件如bioedit，
seaview，Genedoc等）
通过辅助软件的不同颜色显示不同残基，靠分
析者的观察来改变比对的状态。

2.计算机程序自动比对
通过特定的算法（如同步法，渐进法等），由
计算机程序自动搜索最佳的多序列比对状态。

Slide 8

自动多序列比对的算法
1.同步法
将序列两两比对时的二维动态规划矩
阵扩展到三维矩阵。即用矩阵的维数来
反映比对的序列数目。这种方法的计算
量很大，对于计算机系统的资源要求比
较高，一般只有在进行少数的较短的序
列的比对的时候才会用到这个方法。

Slide 9

自动多序列比对的算法
2.步进法
最常见的就是clustal所采用的方法。
其基本思想就是基于相似序列通常具
有进化相关性的这一假设。

Slide 10

Clustal的渐进比对过程
在比对过程中，先对所有的序列进行
两两比对并计算它们相似性分值，然后
根据相似性分值将它们分成若干组，并
在每组之间进行比对，计算相似性分值。
根据相似性分值继续分组比对，直到得
到最终比对结果。在比对过程中，相似
性程度较高的序列先进行比对而距离较
远的序列添加在后面。

Slide 11

多序列比对工具
－clustal
Clustal是一个单机版的基于渐进比对的
多序列比对工具，由Higgins D.G. 等开发。
有应用于多种操作系统平台的版本，包括
linux版，DOS版的clustlw，clustalx等。

Slide 12

Clustal简介
• CLUSTAL是一种渐进的比对方法，先将
多个序列两两比对构建距离矩阵，反应
序列之间两两关系；然后根据距离矩阵
计算产生系统进化指导树，对关系密切
的序列进行加权；然后从最紧密的两条
序列开始，逐步引入临近的序列并不断
重新构建比对，直到所有序列都被加入
为止。

Slide 13

Clustalx的工作界面
（多序列比对模式）

Slide 14

Clustalx的工作界面
（剖面(profile)比对模式）

Slide 15

Clustal的工作原理
Clustal输入多个序列
快速的序列两两比对，计算序列间的
距离，获得一个距离矩阵。
邻接法(NJ)构建一个树（引导树）

根据引导树，渐进比对多个序列。

Slide 16

Clustal的应用
1.输入输出格式。
输入序列的格式比较灵活，可以是前面介绍过的
FASTA格式，还可以是PIR、SWISS-PROT、
GDE、Clustal、GCG/MSF、RSF等格式。
输出格式也可以选择，有ALN、GCG、PHYLIP
和NEXUS等，用户可以根据自己的需要选择合
适的输出格式。

Slide 17

Clustal的应用
2.两种工作模式。
a.多序列比对模式。
b.剖面(profile)比对模式。
3.一个实际的例子。

Slide 18

多序列比对实例
输入文件的格式(fasta)：
>KCC2_YEAST
NYIFGRTLGAGSFGVVRQARKLSTN……
>DMK_HUMAN
DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK…….
>KPRO_MAIZE
TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN……
>DAF1_CAEEL
QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD……
>1CSN
HYKVGRRIGEGSFGVIFEGTNLLNN……

Slide 19

第一步：输入序列文件。

Slide 20

第二步：设定比对的一些参数。

Slide 21

参数设定窗口。

Slide 22

第三步：开始序列比对。

Slide 23

Slide 24

第四步：比对完成，选择保存结果文件的格式

Slide 25

Slide 26

Clustalw的使用(一)

Slide 27

Clustalw的使用(二)
Clustalw还提供了命令调用形式的使用方
式，方便于批处理过程，下面是一个典
型的执行多序列比对的clustalw命令：

$ ./clustalw –infile=dna.fa –type=dna –
gapopen=10 –gapext=2 –output=gcg –
outfile=align.gcg -align

Slide 28

在线的clustalw分析
EBI提供的在线clustalw服务

http://www.ebi.ac.uk/clustalw/

Slide 29

EBI提供
的在线
Clustalw

服务

Slide 30

更为详细的教程
可以在这里得到更多关于clustal的帮助：
http://www-igbmc.ustrasbg.fr/BioInfo/ClustalX/Top.html

Slide 31

实际操作(练习)
• 使用clustalx程序，对给定的多序列，
选择合适的参数，进行多序列比对，输
出结果文件维phylip格式。
• 相同的文件，使用ebi和我们提供的在线
服务，进行多序列比对。

• 对上述计算机程序比对的结果进行手工
改动（bioedit，seaview），使得多序
列比对结果跟符合要求。

Slide 32

练习序列

>SIV
MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS
RAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP
ASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW
HELLILTNSALVPPASSYVSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR
QNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIY
ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAIS
AAGGTGGQAGSDYAQSYEFVIVAVNNNIVRIENSLVRNRRRWSREGPMVMVC
>TIV
MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS
RAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP
ASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW
HELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR
QNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIY
ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAIA
AAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVC
>WIV
MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS
RAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP
ASKRTGYDNMIGNVSSLINPVAPGGNLGSTGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW
TELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR
QNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIY
ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVN
AASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQNYLSGSFVTLLNRRKWSREGPMIMVQ
>CzIV
MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS
RAGDYLLQTWLRVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP
ASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW
PELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR
QNYTPLTNAMPTFDIRFSHAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIY
ENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVT
AAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVL
>CIV
MSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATWFTQVPVSLTRANGSANFGSEWSASIS
RAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIRWCRNFMHNLIRECSITFNDLVAARFDHYHLDFWAAFT
TPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQ
FHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSNEERRRMGCSVRDILVEQVQ
TAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHH
TTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMGSTNYGKLTNISIVPTAS
PAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL

Slide 33

第二部分：
常见的序列分析软件分类简介

Slide 34

1.综合序列分析软件包
•
•
•
•
•
•

GCG
EMBOSS(免费)
Vector NTI
DNAstar
Bioedit(免费)
其他

Slide 35

GCG(商业软件)
GCG (Genetics Computer Group)
是生物信息界最广为人知的分子序列
分析软件包，最早是在美国的威斯康
辛大学麦迪逊校区(University of
Wisconsin-Madison)内发展起来的，
后来独立成为一个商业公司，期间曾
经是Oxford Molecular 的分支机构,
在2000 年又由Pharmacopeia 所并
构。

Slide 36

GCG 软件包包括了超过130个独立的序列分析程序，大
致上可以分成以下12个类别：
1. Sequence Comparison
2. Database Searching and Retrieval
3.DNA/RNA Secondary Structure Prediction
4.Editing and Publication
5.Evolutionary Analysis
6.Fragment Assembly
7.Gene Finding and Pattern Recognition
8.Importing and Exporting
9.Mapping
10.Primer Selection
11.Protein Analysis
12.Translation

Slide 37

除了分析程序以外， GCG 同时也提供多种生物
学数据库。
核酸相关的:
GenBank(http://www.ncbi.nlm.nih.gov/ )
EMBL (http://www.ebi.ac.uk/)
蛋白质相关的：
SWISS-PROT (http://www.expasy.ch/sprot/)
PIR (http://www-nbrf.georgetown.edu/pir/)
SP-TrEMBL (http://www.expasy.ch/sprot/ )
使用者可以输入自己实验获得的分子序列，或者从这
些数据库中来获取得到分子序列，再用到GCG的分析
程序进行分析。

Slide 38

GCG的工作方式(S-C)
安装在基于Unix系统的服务器上，目
前可以安装的平台(platform)有SGI 的
IRIX 操作系统，SUN 的Solaris操作系
统，及Compaq 的Tru64操作系统，用
户可以通过网络连接的方法来使用GCG
提供的分析程序以及数据库。

Slide 39

执行GCG程序的方法
1.传统的命令行形式，这种情况要求用户熟悉程序
的命令。
2.借助SeqLab的用户窗口界面，通过各类表单的
操作来实现分析任务。
以上两个执行GCG的方法都是通过telnet来实现的。
3. 借助于WWW服务的SeqWeb，是最为简单和
方便的使用方式。
虽然命令行的操作需要一些操作，但是对于
熟悉GCG的用户来说，却是最为快捷和有效的
方法，此外这种方法还可以扩展到批处理中。

Slide 40

EMBOSS(免费软件)
EMBOSS（European Molecular Biology
Open Software Suite）源于1988年的EGCG
（主流商业软件GCG的扩展），由于版权等原
因，EGCG不再发行，开发人员在此基础上开
发出来公开源代码的EMBOSS软件包。
http://www.sanger.ac.uk/Software/EMBOS
S

Slide 41

Vector NTI
由Informax公司（现在已经归入
Invitrogen公司旗下）开发的一种高度
集成、功能齐全的分子生物学应用软件，
可以对DNA、蛋白质分子进行大量分析
和操作。

Slide 42

主要功能：
1.DNA序列的ORF、Motif、功能区搜索，
限制酶图谱，蛋白质翻译。
2.PCR引物、测序引物、杂交探针的设计和
评价。
3.DNA测序片断的拼接
4.同源比较和系统发育树构建
5.蛋白质结构预测：三维结构、化学键、
翻译后修饰位点、结构域等
6.模拟电泳：琼脂糖、PAGE

Slide 43

DNAstar
DNASTAR有限公司开发了Lasergen程序
组,可在计算机上进行DNA和蛋白分析。它们
是易于使用且对用户友好的软件,可进行分子
生物学中的小规模序列分析和多序列比较。
Lasergen有PC Windows和Macintosh两种版
本。Lasergen的一个主要功能是它有针对不
同应用的7种程序。用户可根据自己需要选择
购买。

Slide 44

主要功能：
1. Editseq，可以从键盘、数据库或数字序列
输入和编辑。
2. PrimerSelect，PCR引物和探针设计。
3. MapDraw，限制性位点分析和图谱绘制。
4. MegAlign，多个和成对蛋白或DNA序列比
对。
5. GeneMan，生物数据库和数据库检索。
6. Protean，蛋白结构分析。
7. SeqMan，序列装配和毗连(序列)群管理。

Slide 45

Bioedit
是一个性能优良的免费的分子生物学
应用软件，可以对核酸序列和蛋白质序
列进行常规的分析操作，并提供了很多
网络程序的分析界面和接口。

http://www.mbio.ncsu.edu/BioEdit/bi
oedit.html

Slide 46

2.快速同源性数据库搜索工具
• Blast
• Fasta
• HMMer

Slide 47

HMMER
HMMer 是一个采用隐马可夫模型
HMMs（Hidden Markov Models）来
识别不同基因之间的结构相似性程度的
工具。可以快速的在数据库中寻找与特
定基因具有一定相似性的基因结构。
http://hmmer.wustl.edu/

Slide 48

3.多序列比对工具
• Clustal
基于渐进算法的多序列比对优化算法，
由Higgins D.G. 等开发。Clustlw，
clustalx等。
• 其他：T_coffee

Slide 49

4.分子进化分析工具
• PHYLIP
• PAUP*
• 其他：Mega2，MrBayes，tree-puzzle
PAML，treeview

Slide 50

PHYLIP
Phylip是一个免费的系统发生(phylogenetics)分
析软件包。由华盛顿大学遗传学系开发，1980年首
次公布，目前的版本是3.6。包含了35个独立的

程序，这些独立的程序都实现特定的功能，
这些程序基本上包括了系统发生分析的所有
方面。
Phylip有多种不同平台的版本（包
括windows，Macintosh，DOS，Linux，
Unix和OpenVMX）。
http://evolution.genetics,washington.edu/ph
ylip.html

Slide 51

PAUP*
最早是在苹果机上开发的具有菜单界
面的进化分析软件，早先版本只有MP法，
后续版本已经包括距离法和ML法，现今
有mac，win，linux等多种版本，该软件
不是免费软件，使用者需要向开发者购
买。

Slide 52

5.其他工具
• 模式识别：Meme，signalscan，
domainFinder等
• 测序分析与序列拼接：Chromas，
Phred+Phrap+cross_match+consed,
contigExpress等
• 引物设计：Oligo，Primer3，
Primer Premier5.0等
• 三维分子：PDBviewer，CN3D,RASMOL等

Slide 53

序列分析工具的网络资源
生物软件网
http://www.bio-soft.net
NCBI
http://www.ncbi.nlm.nih.gov
Expasy
http://www.expasy.org/

Slide 54

生物软件网
由华北制药集团的谈杰创建，是一个
具有丰富生物信息学资源的站点，提供
了大量的生物信息学分析软件下载。
http://www.bio-soft.net

Slide 55

NCBI
美国国立生物技术信息中心（NCBI）成立于
1988年11月4日。是在NIH的国立医学图书馆
（NLM）的一个分支。NLM是因为它在创立和
维护生物信息学数据库方面的经验被选择的，
而且这可以建立一个内部的关于计算分子生物
学的研究计划。NCBI的任务是发展新的信息学
技术来帮助对那些控制健康和疾病的基本分子
和遗传过程的理解。
主要资源包括：数据库和软件，以及相关的教育
和培训资源
http://www.ncbi.nlm.nih.gov

Slide 56

Expasy

由位于瑞士日内瓦的 Swiss Institute of
Bioinformatics 所建立的，是全世界最重要的
蛋白质数据库之一，也是 GCG 最主要的蛋白
质序列来源。
Expasy的主要有蛋白质序列、结构、2-D
PAGE (Two-dimentional polyacrylamide gel
electrophoresis ) 等多个数据库，还有大量
的蛋白质序列与结构分析工具以及FTP资源等。
蛋白质分析工具主要有蛋白质的功能预测，
序列搜索与比对，二级、三级和四级结构的预
测等等。
http://www.expasy.org/

Slide 57

计算机相关知识
• 操作系统
Unix（Linux），Windows， Macintosh
• 编程
语言：perl，C，php，VB
算法：动态规划，启发式，各类模型
数据结构：表，栈，树，图
• 数据库
Mysql，Oracle，SQL server，Sybase
• 网络
局域网构架与管理，并行化，网络应用（http，
ftp，telnet）

Slide 58

Linux：
是一个免费的可以在PC机上运行的UNIX
系统．Linux系统具有最新UNIX的全部功能，
包括真正的多任务，虚拟存储，共享库函数，
即时负载，优越的存储管理和TCP/IP，UUCP
网络工具。Linux由于其系统软件的免费获取，
硬件费用低廉的特点，近年来发展迅猛。
常见的Linux发行版有RedHat，Debian，
Mandrake，SuSe等

Slide 59

Perl

强大的正则表达式(regular expression)以
及字符串操作使这个工作变得简单而没有其它
语言能相比。Perl 非常擅长于切割，扭转，绞，
弄平，总结，以及其它的操作文字文件。生物
资料大部分是以文字文件存在的，如物种名称，
种属关系，基因或序列的注解，评住，目录查
阅, 就连DNA和蛋白质序列本身也是以文字形
式出现的。正是因为这样，在生物资料处理的
时候最多涉及的也是字符操作问题。各种不同
格式的生物信息资料之间的相互转换是一个很
难解决的问题，而perl由于具有方便和强大的
字符操作功能，使得它在这方面具有特殊的用
途。

Slide 60

MySQL
是一个免费的、多用户、多线程的小
型SQL数据库，是一个客户机/服务器结
构的应用，可以运行在多种平台上，它
由一个服务器守护程序mysqld和很多不
同的客户程序和库组成。MySQL具有快
速、多线程、多用户和稳定等特点，对
于中、小型应用系统是非常理想的数据
库服务平台。

Slide 61

动态规划（dynamic programming ）
动态规划的实质是分治思想和解决冗余，将
问题的实例分解为更小的、相似的子问题。动
态规划的思想在于，如果各个子问题不是独立
的，不同的子问题的个数只是多项式量级，如
果我们能够保存已经解决的子问题的答案，而
在需要的时候再找出已求得的答案，这样就可
以避免大量的重复计算。由此而来的基本思路
是，用一个表记录所有已解决的子问题的答案，
不管该问题以后是否被用到，只要它被计算过，
就将其结果填入表中。
动态规划算法在生物序列分析中是一个比较常
见也是比较有用的算法。

Slide 62

网络应用：
HTTP（超文本传输协议）：应用层网络
协议之一，主要用于传输www网页。
FTP（文件传输协议）：应用层网络传输
协议之一，主要用于文件传输。
其他应用协议：Telnet

Slide 63

http://life.zsu.edu.cn/bioinformatics/2004_4_21_multi_align.pps

本章结束，如有问题，请联系
[email protected]

多序列比对工具－clustalX

Transcript 多序列比对工具－clustalX

Directory