分子进化等上机实习

Download Report

Transcript 分子进化等上机实习

生物信息学
授课教师:李学荣 教授
医学科技楼北1202室
电话:8733-1918
E-mail: [email protected]
课件内容:http://202.116.102.10/biology/news/home.aspx
上机实习内容
 分子进化树的构建
ClustalX和Phylip软件相结合构建进化树
 SNPs数据库使用
1. 如何利用基因来查找SNPs
2. 如何利用Marker来查找SNPs
3. 如何运用HapMap数据库来查找SNPs
分子进化树的构建
ClustalX和Phylip软件相结合构建进化树
一、ClustalX:图形化的多序列比对工具,利用这个工具可
以对数据进行比对,除掉结构相同的或者只有个别碱基序
列不同的序列,最后对保留的结果得到“.phy”格式文件。
二、Phylip:免费而强大的集成的进化分析工具,由华盛顿
大学遗传学系编写。Phylip包含了35个程序,这些程序基
本上囊括了系统发生分析方面的所有方面。包括分子程序
组、距离程序组、基因频率组、连续字符组、不连续字符
组和进化树绘制组。
一、多条序列比对:ClustalX
1. 安装ClustalX程序
从http://www.clustal.org/download/current/ 下载
clustalx-2.1-win.msi。下载后双击安装到自己的电脑上。
2. 准备要比对的序列
查找至少存在于5个物种中的同源序列(核酸或蛋白质皆
可),保存为fasta格式,所有的序列粘贴到同一个文件中。
例如:对下列8个序列进行进化树分析
Mo3
Mo5
Mo6
Mo7
Mo8
Mo9
Mo12
Mo13
ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCAT
ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT
ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT
ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT
ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT
ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT
ATGTATTTCGTACATTACTG CCAGCCACCATGAATATTGTACGGTACCAT
ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT
,
文件名:DNA8.txt (fasta格式)
3. 打开ClustalX程序
开始菜单-程序-clustalX2- clustalX2
4. 载入序列
点最上方的File菜单,选择Load Sequence-选择刚保
存的序列文件DNA8.txt,点打开。
注:ClustalX程序无法识别汉字,无法识别带空位的文件夹名,如
my document。序列文件不要保存在桌面上或带汉字的文件夹中,
推荐保存在D盘根目录下。
5. 更改输出格式

点File进入Save sequence as,在format 框中选
PHYLIP,文件在Phylip软件目录下以DNA8.phy存在,
点击OK。

将Phylip软件目录下的DNA8.phy文件拷贝到Phylip软件
集的EXE文件夹中。记事本方式打开的DNA8.phy文件。
二、用PHYLIP软件推导进化树
1. 进入EXE文件夹,点击SEQBOOT软件,输入DNA8.phy文
件名,回车后,输Y确认参数。并在Random number
seed (must be odd) ?的下面输入一个4N+1的数字如5, 程
序开始运行,并在EXE文件夹中产生文件outfile.
进化树的可靠性
分析: 自展法
(Bootstrap
Method)
2. 得到一个文件outfile,把文件outfile改名为infile, infile可
用记事本打开,内容如下:
建树方法:距离矩阵法推测进化树
3. 点击DNADIST(PRODIST for 蛋白序列)程序。输入M更改
参数,输入D选择data sets, 输入100。输Y确认参数, 程序
开始运行,并在EXE文件夹中产生outfile。
3. 点击DNADIST(PRODIST for 蛋白序列)程序。输入M更改
参数,输入D选择data sets, 输入100。输Y确认参数, 程序
开始运行,并在EXE文件夹中产生outfile。
4. 将原先infile文件名改为infile1,再将outfile文件名改为
infile。
5. 在EXE文件夹中选择通过距离矩阵推测进化树的算法:
点击NEIGHBOR程序(采用的是邻接法(N-J)和
UPGMAD相结合的算法), 输入M更改参数,输入D选择
data sets, 输入100, 输入奇数种子5, 输Y确认参数, 程序
开始运行,并在EXE文件夹中产生outfile和outtree两个
结果输出。
6. 将outtree文件名改为intree,点击
DRAWTREE程序,输入font1文件名,作为
参数。输Y确认参数。程序开始运行,并出现
Tree Preview图。
7. 点击DRAWGRAM程序,输入font1文件名,
作为参数。输Y确认参数。程序开始运行,并
出现Tree Preview图。
8. 将EXE文件夹中的outfile文件名改为outfile1,以
避免被新生成的outfile 文件覆盖。点击
CONSENSE程序。输入Y确认设置。EXE文件夹
中新生成outfile和outtree。
注: 由consence获得最优树(Bootstrap)。
9. 将EXE文件夹中的intree文件名改为intree1,将
outtree改intree。点击DRAWTREE程序,输入
font1文件名,作为参数。输Y确认参数。程序开
始运行,并出现Tree Preview图。
10. 点击DRAWGRAM程序,输入font1文件名,作
为参数。输Y确认参数。程序开始运行,并出现
Tree Preview图。
TREEVIEW
Treeview是一个读进化树免费软件,此软件可以根据Phylip
得到的树输出文件,做出无根树,有根树,还能在树中显示
进化距离。
上机实习内容
 分子进化树的构建
ClustalX和Phylip软件相结合构建进化树
 SNPs数据库使用
1. 如何利用基因来查找SNPs
2. 如何利用Marker来查找SNPs
3. 如何运用HapMap数据库来查找SNPs
SNPs数据库使用
1. 如何利用基因来查找SNPs?
2. 如何利用Marker来查找SNPs?
3. 如何运用HapMap数据库来查找
SNPs?
1. 利用基因来查找SNPs
第一步:
输入http://www.ncbi.nlm.nih.gov/ ,进入数据库主页
第二步:
选择SNP库,输入基因名或其简称如LPL,获得该
基因的所有SNP信息
SNP
第三步:
点击Human: 1163,获得人类LPL基因上1163个SNPs信息
第四步:
任意点击一个SNP,比如rsXXXXXXXXX,即可获得该位点
的详细数据
第五步:
在GeneView栏目下,选择
所有SNPs的数据
第六步:挑选出需要研究的SNP位点
即可获得LPL基因上
第三步:
点击Human: 1163,获得人类LPL基因上1163个SNPs信息
第四步:
任意点击一个SNP,比如rsXXXXXXXXX,即可获得该位点
的详细数据
第五步:
在GeneView栏目下,选择
所有SNPs的数据
第六步:挑选出需要研究的SNP位点
即可获得LPL基因上
SNPs数据库使用
1. 如何利用基因来查找SNPs?
2. 如何利用Marker来查找SNPs?
3. 如何运用HapMap数据库来查找
SNPs?
2. 利用Marker来找SNPs
第一步:
进入dbSNP数据库主页
http://www.ncbi.nlm.nih.gov/SNP/
第二步:
在Between Markers栏目下,输入两个Markers名
称后进行检索即可获得介于这两个Markers之间的
所有 SNPs信息
第三步:
任意点击一个SNP,比如rsXXXXXXXXX,即可获
得该位点的详细数据
第四步:
在GeneView栏目下,选择
基因上所有SNPs的数据
第五步:挑选出需要研究的SNP位点
即可获得该
SNPs数据库使用
1. 如何利用基因来查找SNPs?
2. 如何利用Marker来查找SNPs?
3. 如何运用HapMap数据库来查找
SNPs?
HapMap数据库
HapMap是人类基因组中常见遗传多态位点的目录,它描
述了这些变异的形式、在DNA上存在的位置、在同一群
体内部和不同人群间的分布状况。
HapMap计划不是用来建立特定的遗传变异与某一疾病之
间的联系。
HapMap计划是为研究者提供相关信息,使之能够将遗传
多态位点和特定疾病风险联系起来,从而为预防、诊断和
治疗疾病提供新的方法。
3. HapMap数据库运用
第一步:
输入http://hapmap.ncbi.nlm.nih.gov/,进入数据
库主页
第二步:点击Data进入数据库浏览页
第三步:点击Generic Genome Browser ,进
入数据浏览和下载网页
3. HapMap数据库运用
第一步:
输入http://hapmap.ncbi.nlm.nih.gov/,进入数据
库主页
第二步:点击Data进入数据库浏览页
第三步:点击Generic Genome Browser ,进
入数据浏览和下载网页
第四步:在查询窗中输入基因名或染色体区域,在数据窗选
择数据来源库,在保存、查询和其他选择窗中挑选Download
SNP genotype data 或tag SNP data来分别获取相应的数据。
第五步:点击配置,设定参数来获得在CHB(中国汉族人群)
群体中的SNP genotype data 或tag SNP data
第六步:选择CHB, rs, Save to Disk三个参数来保存SNP
genotype data,然后用HaploView软件进行分析。
或选择CHB, Tagger Multimarker*, r2≥0.8, MAF≥0.05,
Save to Disk五个参数来保存tag SNP data;获得的数据可
用于实验设计或发表论文。
基因型:一对同源染色体上的两个等位的组合。
Sequence name, gene name, locus or other landmark.
HaploView 软件使用
软件下载:http://www.broadinstitute.org/scientificcommunity/science/programs/medical-and-populationgenetics/haploview/downloads
1. 进入Hapmap网站。依次:Data/Generic Genome
Browser(数据/通用基因组浏览器)。输入要查询的基因名称,
如xrcc1,在右面选择“显示 SNP genotype data”, 点击配置。
2. 根据需要选择CHB(中国汉族人群)。Output
format(打开格式)选择Open directly in
HaploView(输出后的文件可直接导入HaploView
软件)。点击“执行”,将文件保存到指定位置比
如桌面。
3. 打开haploview软件,选择 Hapmap format,点击
browse,选择刚刚下载下来的文件。
4. 左边的LD Plot表示该基因所有snp的的连锁情
况,各个方块的颜色由浅至深(白—红),表示
连锁程度由低到高,深红色表示完全连锁。
 在方块上点击右键,可看到连锁的具体信息。点
击“tagger”,可以进一步选择标签snp。r2指的
是两个位点间的统计学关联。一般认为两点间的
r2大于或等于0.8,就可以用一个点代表另外一个
点。
 点击“Run Tagger”,即可出现符合条件的tagger
snp(标签snp)。
练习题
1. 查找人P53基因或你感兴趣基因的SNPs信息
2. 查找人类染色体STS Marker标志RH79657和
RH45644之间SNPs信息
3. 选择一个人类基因,利用HapMap数据库来分析该
基因在中国汉族群体中拥有的单核苷酸多态性的生
物学信息
练习题
4. 根据不同SARS病毒株基因序列,构建SARS病毒系统树
病毒株
基因存取号
病毒株
基因存取号
GZ01
AY278489
Palm civet
AY627048
ZS-A
AY394997
CUHK-AG01 AY345986
ZS-C
AY395004
TW1
AY291451
GZ-B
AY394978
Sin2500
AY283794
作业发送至邮箱:[email protected]
时间:2011年3月29日(周二)