Transcript 分子进化等上机实习
生物信息学
授课教师:李学荣 教授
医学科技楼北1202室
电话:8733-1918
E-mail: [email protected]
课件内容:http://202.116.102.10/biology/news/home.aspx
上机实习内容
分子进化树的构建
ClustalX和Phylip软件相结合构建进化树
SNPs数据库使用
1. 如何利用基因来查找SNPs
2. 如何利用Marker来查找SNPs
3. 如何运用HapMap数据库来查找SNPs
分子进化树的构建
ClustalX和Phylip软件相结合构建进化树
一、ClustalX:图形化的多序列比对工具,利用这个工具可
以对数据进行比对,除掉结构相同的或者只有个别碱基序
列不同的序列,最后对保留的结果得到“.phy”格式文件。
二、Phylip:免费而强大的集成的进化分析工具,由华盛顿
大学遗传学系编写。Phylip包含了35个程序,这些程序基
本上囊括了系统发生分析方面的所有方面。包括分子程序
组、距离程序组、基因频率组、连续字符组、不连续字符
组和进化树绘制组。
一、多条序列比对:ClustalX
1. 安装ClustalX程序
从http://www.clustal.org/download/current/ 下载
clustalx-2.1-win.msi。下载后双击安装到自己的电脑上。
2. 准备要比对的序列
查找至少存在于5个物种中的同源序列(核酸或蛋白质皆
可),保存为fasta格式,所有的序列粘贴到同一个文件中。
例如:对下列8个序列进行进化树分析
Mo3
Mo5
Mo6
Mo7
Mo8
Mo9
Mo12
Mo13
ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCAT
ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT
ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT
ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT
ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT
ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT
ATGTATTTCGTACATTACTG CCAGCCACCATGAATATTGTACGGTACCAT
ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT
,
文件名:DNA8.txt (fasta格式)
3. 打开ClustalX程序
开始菜单-程序-clustalX2- clustalX2
4. 载入序列
点最上方的File菜单,选择Load Sequence-选择刚保
存的序列文件DNA8.txt,点打开。
注:ClustalX程序无法识别汉字,无法识别带空位的文件夹名,如
my document。序列文件不要保存在桌面上或带汉字的文件夹中,
推荐保存在D盘根目录下。
5. 更改输出格式
点File进入Save sequence as,在format 框中选
PHYLIP,文件在Phylip软件目录下以DNA8.phy存在,
点击OK。
将Phylip软件目录下的DNA8.phy文件拷贝到Phylip软件
集的EXE文件夹中。记事本方式打开的DNA8.phy文件。
二、用PHYLIP软件推导进化树
1. 进入EXE文件夹,点击SEQBOOT软件,输入DNA8.phy文
件名,回车后,输Y确认参数。并在Random number
seed (must be odd) ?的下面输入一个4N+1的数字如5, 程
序开始运行,并在EXE文件夹中产生文件outfile.
进化树的可靠性
分析: 自展法
(Bootstrap
Method)
2. 得到一个文件outfile,把文件outfile改名为infile, infile可
用记事本打开,内容如下:
建树方法:距离矩阵法推测进化树
3. 点击DNADIST(PRODIST for 蛋白序列)程序。输入M更改
参数,输入D选择data sets, 输入100。输Y确认参数, 程序
开始运行,并在EXE文件夹中产生outfile。
3. 点击DNADIST(PRODIST for 蛋白序列)程序。输入M更改
参数,输入D选择data sets, 输入100。输Y确认参数, 程序
开始运行,并在EXE文件夹中产生outfile。
4. 将原先infile文件名改为infile1,再将outfile文件名改为
infile。
5. 在EXE文件夹中选择通过距离矩阵推测进化树的算法:
点击NEIGHBOR程序(采用的是邻接法(N-J)和
UPGMAD相结合的算法), 输入M更改参数,输入D选择
data sets, 输入100, 输入奇数种子5, 输Y确认参数, 程序
开始运行,并在EXE文件夹中产生outfile和outtree两个
结果输出。
6. 将outtree文件名改为intree,点击
DRAWTREE程序,输入font1文件名,作为
参数。输Y确认参数。程序开始运行,并出现
Tree Preview图。
7. 点击DRAWGRAM程序,输入font1文件名,
作为参数。输Y确认参数。程序开始运行,并
出现Tree Preview图。
8. 将EXE文件夹中的outfile文件名改为outfile1,以
避免被新生成的outfile 文件覆盖。点击
CONSENSE程序。输入Y确认设置。EXE文件夹
中新生成outfile和outtree。
注: 由consence获得最优树(Bootstrap)。
9. 将EXE文件夹中的intree文件名改为intree1,将
outtree改intree。点击DRAWTREE程序,输入
font1文件名,作为参数。输Y确认参数。程序开
始运行,并出现Tree Preview图。
10. 点击DRAWGRAM程序,输入font1文件名,作
为参数。输Y确认参数。程序开始运行,并出现
Tree Preview图。
TREEVIEW
Treeview是一个读进化树免费软件,此软件可以根据Phylip
得到的树输出文件,做出无根树,有根树,还能在树中显示
进化距离。
上机实习内容
分子进化树的构建
ClustalX和Phylip软件相结合构建进化树
SNPs数据库使用
1. 如何利用基因来查找SNPs
2. 如何利用Marker来查找SNPs
3. 如何运用HapMap数据库来查找SNPs
SNPs数据库使用
1. 如何利用基因来查找SNPs?
2. 如何利用Marker来查找SNPs?
3. 如何运用HapMap数据库来查找
SNPs?
1. 利用基因来查找SNPs
第一步:
输入http://www.ncbi.nlm.nih.gov/ ,进入数据库主页
第二步:
选择SNP库,输入基因名或其简称如LPL,获得该
基因的所有SNP信息
SNP
第三步:
点击Human: 1163,获得人类LPL基因上1163个SNPs信息
第四步:
任意点击一个SNP,比如rsXXXXXXXXX,即可获得该位点
的详细数据
第五步:
在GeneView栏目下,选择
所有SNPs的数据
第六步:挑选出需要研究的SNP位点
即可获得LPL基因上
第三步:
点击Human: 1163,获得人类LPL基因上1163个SNPs信息
第四步:
任意点击一个SNP,比如rsXXXXXXXXX,即可获得该位点
的详细数据
第五步:
在GeneView栏目下,选择
所有SNPs的数据
第六步:挑选出需要研究的SNP位点
即可获得LPL基因上
SNPs数据库使用
1. 如何利用基因来查找SNPs?
2. 如何利用Marker来查找SNPs?
3. 如何运用HapMap数据库来查找
SNPs?
2. 利用Marker来找SNPs
第一步:
进入dbSNP数据库主页
http://www.ncbi.nlm.nih.gov/SNP/
第二步:
在Between Markers栏目下,输入两个Markers名
称后进行检索即可获得介于这两个Markers之间的
所有 SNPs信息
第三步:
任意点击一个SNP,比如rsXXXXXXXXX,即可获
得该位点的详细数据
第四步:
在GeneView栏目下,选择
基因上所有SNPs的数据
第五步:挑选出需要研究的SNP位点
即可获得该
SNPs数据库使用
1. 如何利用基因来查找SNPs?
2. 如何利用Marker来查找SNPs?
3. 如何运用HapMap数据库来查找
SNPs?
HapMap数据库
HapMap是人类基因组中常见遗传多态位点的目录,它描
述了这些变异的形式、在DNA上存在的位置、在同一群
体内部和不同人群间的分布状况。
HapMap计划不是用来建立特定的遗传变异与某一疾病之
间的联系。
HapMap计划是为研究者提供相关信息,使之能够将遗传
多态位点和特定疾病风险联系起来,从而为预防、诊断和
治疗疾病提供新的方法。
3. HapMap数据库运用
第一步:
输入http://hapmap.ncbi.nlm.nih.gov/,进入数据
库主页
第二步:点击Data进入数据库浏览页
第三步:点击Generic Genome Browser ,进
入数据浏览和下载网页
3. HapMap数据库运用
第一步:
输入http://hapmap.ncbi.nlm.nih.gov/,进入数据
库主页
第二步:点击Data进入数据库浏览页
第三步:点击Generic Genome Browser ,进
入数据浏览和下载网页
第四步:在查询窗中输入基因名或染色体区域,在数据窗选
择数据来源库,在保存、查询和其他选择窗中挑选Download
SNP genotype data 或tag SNP data来分别获取相应的数据。
第五步:点击配置,设定参数来获得在CHB(中国汉族人群)
群体中的SNP genotype data 或tag SNP data
第六步:选择CHB, rs, Save to Disk三个参数来保存SNP
genotype data,然后用HaploView软件进行分析。
或选择CHB, Tagger Multimarker*, r2≥0.8, MAF≥0.05,
Save to Disk五个参数来保存tag SNP data;获得的数据可
用于实验设计或发表论文。
基因型:一对同源染色体上的两个等位的组合。
Sequence name, gene name, locus or other landmark.
HaploView 软件使用
软件下载:http://www.broadinstitute.org/scientificcommunity/science/programs/medical-and-populationgenetics/haploview/downloads
1. 进入Hapmap网站。依次:Data/Generic Genome
Browser(数据/通用基因组浏览器)。输入要查询的基因名称,
如xrcc1,在右面选择“显示 SNP genotype data”, 点击配置。
2. 根据需要选择CHB(中国汉族人群)。Output
format(打开格式)选择Open directly in
HaploView(输出后的文件可直接导入HaploView
软件)。点击“执行”,将文件保存到指定位置比
如桌面。
3. 打开haploview软件,选择 Hapmap format,点击
browse,选择刚刚下载下来的文件。
4. 左边的LD Plot表示该基因所有snp的的连锁情
况,各个方块的颜色由浅至深(白—红),表示
连锁程度由低到高,深红色表示完全连锁。
在方块上点击右键,可看到连锁的具体信息。点
击“tagger”,可以进一步选择标签snp。r2指的
是两个位点间的统计学关联。一般认为两点间的
r2大于或等于0.8,就可以用一个点代表另外一个
点。
点击“Run Tagger”,即可出现符合条件的tagger
snp(标签snp)。
练习题
1. 查找人P53基因或你感兴趣基因的SNPs信息
2. 查找人类染色体STS Marker标志RH79657和
RH45644之间SNPs信息
3. 选择一个人类基因,利用HapMap数据库来分析该
基因在中国汉族群体中拥有的单核苷酸多态性的生
物学信息
练习题
4. 根据不同SARS病毒株基因序列,构建SARS病毒系统树
病毒株
基因存取号
病毒株
基因存取号
GZ01
AY278489
Palm civet
AY627048
ZS-A
AY394997
CUHK-AG01 AY345986
ZS-C
AY395004
TW1
AY291451
GZ-B
AY394978
Sin2500
AY283794
作业发送至邮箱:[email protected]
时间:2011年3月29日(周二)