下载教程

Download Report

Transcript 下载教程

16S-rDNASeq: one-stop pipeline for
microbial community diversity analysis
based on 16S-rDNAseq
何 飞
基本问题
① 问题1: 针对一个或者多个细古菌菌落,
鉴定其成员和定量其成员的丰度
② 问题2: 针对多个细古菌菌落, 检验是否
有差别和分析其差别
实验方法
① 方法1: 细古菌落鸟抢法测序, 数据来源
小部分已知或者大部分未知的细古菌全基
因组片断,分析复杂和困难
② 方法2:16S rDNA测序, 数据来自大部分
已知细古菌的16S rDNA片断, 分析简易
16S rRNA
① 16s rRNA基因是进化遗传研究的重要对象, 相对
于细菌的表型鉴定, 16s rRNA基因检测技术已成
为细菌检测和鉴定的使用广泛和快速的工具
② 16S rRNA基因是存在于原核生物基因组上编码
rRNA相对应的DNA序列。
③ 16S rRNA基因长度是1.5kb, 具有高度保守性区
域和高度特异性区域,特异性区域成为物种特异
的标志序列。
实验步骤
① 细古菌基因组DNA提取
② 16S rRNA特定区域扩增引物设计
③ PCR扩增
④ PCR产物纯化
⑤ Roche454测序
数据产生
① Roche454测序仪产生.sff数据文件
② 从.sff数据文件提取.fna数据文件和.qual数据文件
③ .fna数据文件保存碱基序列
>HKSD5CR01D6P3I length=70 xy=1599_2828 region=1
run=R_2012_03_15_01_23_26_GGAGTAGCATGCGTGACGAATCGTAGTTCCGACCAT
AACGATGCCGACCTTTGACCACGA
④ .qual数据文件保存质量分数序列
>HKSD5CR01D6P3I length=70 xy=1599_2828 region=1
run=R_2012_03_15_01_23_26_40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40
40 40 40 40 39 39 39 40 40 40 34 34 34 34 40 30 30 30 40 39 39 39 38 38 37 40
40 38 38 32 24 17 17 20 20 26 30 30 36 36 37 40 40 4040 40 40 40 40 40 40 39 39
39
⑤ 测序长度分布统计
长度分布统计
Raw Reads长度频数统计
600000
510444
500000
Reads_num
400000
300000
262540
190402
200000
121328
100000
30112
7199
517
34
3
3
3
1
300
350
400
450
500
550
600
0
50
100
150
200
250
Length(bp)
收录16S rRNA序列的常用数据库
① NCBI Nucleotide database(NT库)
网址: ftp://ftp.ncbi.nih.gov/blast/db/
② GreenGenes database
网址: http://greengenes.lbl.gov/cgibin/nph-index.cgi
③ Ribosomal database project database
网址: http://rdp.cme.msu.edu/
④ Silva: comprehansive ribosomal RNA
database 网址: http://www.arb-silva.de/
16S rRNA数据分析常用软件
① Mothur
网址:http://www.mothur.org/
② QIIME(Quantitative Insights Into Microbial Ecology)
网址:
http://qiime.sourceforge.net/tutorials/tutorial.html
③ GreenGenes database
网址: http://greengenes.lbl.gov/cgi-bin/nph-index.cgi
④ Ribosomal database project database
网址: http://rdp.cme.msu.edu/
数据分析内容
① 序列预处理
② 序列聚类操作分类单元(OTU)
③ Alpha多样性分析
④ 赋予物种分类单元
⑤ Beta多样性分析
⑥ 组间物种分类单元筛选
序列预处理
① 识别和去除序列起始8个碱基样本标记Barcode
(perl script)
② 去出引物序列
下
载地址:
http://compbio.dfci.harvard.edu/tgi/software/
执行命令:./seqclean *.fna -v primer.fa
和 ./cln2qual *.fna.cln *.qual
③ 去除序列中的低质量区域
下载地址: http://lucy.sourceforge.net/ 执行命
令:/lucy *.fna.clean *.qual.clean -e 0.03 0.03 -w
30 0.03 10 0.1 –b 4 0.03
序列聚类操作分类单元(OTU)
① 操作分类单元(OTU): 多条序列相似性为0.97
被认为可能属于同一个属(genus), 相似性为
0.99被认为可能属于同一个种(species)
软件下载地址:
http://www.drive5.com/uclust/downloads1_1_579.
html
执行命令:./uclust --sort *.fa --output *.sort.fa
执行命令:./uclust -input *.sort.fa -uc *.uc
Alpha多样性分析
① Alpha多样性指标:丰富度(richness)、香农
指数(Shannon index)
② 稀疏分析图:以样本中随机抽取序列数为横
坐标, 相应的Alpha多样性指数为纵坐标所
得,每条曲线是一个样本
③ 软件下载地址:
http://www.mothur.org/wiki/Download_mothu
r
执行命令: ./mothur “collect.single(list=*.txt,
freq=10);”
丰富度指数稀疏分析图
Rarefaction plot for richness
3000
2500
2000
Richness
MID1
MID2
MID3
1500
MID4
MID5
1000
MID6
MID7
500
0
0
20000
40000
60000
80000
Number of sequences
100000
120000
140000
香农指数稀疏分析图
Rarefaction plot for shannon index
4.5
4
3.5
3
shannon index
MID1
MID2
2.5
MID3
MID4
2
MID5
MID6
1.5
MID7
1
0.5
0
0
20000
40000
60000
80000
Number of sequences
100000
120000
140000
赋予物种分类单元
① 物种分类单元分为6层, 它们依次为domain、
phylum、class、order、family、genus
② 软件下载地址:
http://sourceforge.net/projects/rdp-classifier/
③ 执行命令: java –jar rdp_classifier-2.4.jar -q *.fa -o
*.output
④ 画物种分类单元丰度比例图, genus的域值设置
为0.8
物种分类单元丰度比例图
Class
100%
c_Alphaproteobacteria
90%
c_Bacilli
c_Actinobacteria
80%
c_Gammaproteobacteria
c_Clostridia
70%
c_Methanomicrobia
c_Bacteroidia
60%
c_Planctomycetacia
c_Mollicutes
50%
c_Betaproteobacteria
40%
c_Deltaproteobacteria
c_Epsilonproteobacteria
30%
c_Verrucomicrobiae
c_Thermomicrobia
20%
c_Sphingobacteria
c_Chloroplast
10%
c_Flavobacteria
c_Elusimicrobia
0%
MID1
MID2
MID3
MID4
MID5
MID6
MID7
Beta多样性分析
① 取uclust聚类生成的代表性序列进行多序列比对, 多序列比
对需要参考核心16S rDNA多序列队列文件:
core_set_aligned.fasta.imputed
下载地址: http://pynast.sourceforge.net/ 多序列队列文件:
http://greengenes.lbl.gov/Download/Sequence_Data/Fasta_dat
a_files/
执行命令:./pynast -p 0 -l 0 -i *.fa -t
core_set_aligned.fasta.imputed
② 构建代表性序列为节点的进化树
下载地址:http://microbesonline.org/fasttree/
执行命令./FastTree –gtr -nt *.tree
③ Beta多样性分析: 样本距离计算 , 需要序列丰度信息
网站访问地址: http://bmf2.colorado.edu/fastunifrac/
样本距离矩阵
样本聚类和PCA
组间物种分类单元筛选
① 物种分类单元特征包括5层, 分别是phylum、
class、order、family、genus。根据RDP分类器的
样本和物种分类单元丰度矩阵结果, 利用统计
检验筛选组间的差异物种分类单元特征 , 如果
每个样本组只有一个样本, 采用Fisher精确检
验, 如果每个样本组大于等于两 个样本, 采用T
检验。
软件下载地址http://metastats.cbcb.umd.edu/
谢 谢!