Transcript 下载教程
16S-rDNASeq: one-stop pipeline for microbial community diversity analysis based on 16S-rDNAseq 何 飞 基本问题 ① 问题1: 针对一个或者多个细古菌菌落, 鉴定其成员和定量其成员的丰度 ② 问题2: 针对多个细古菌菌落, 检验是否 有差别和分析其差别 实验方法 ① 方法1: 细古菌落鸟抢法测序, 数据来源 小部分已知或者大部分未知的细古菌全基 因组片断,分析复杂和困难 ② 方法2:16S rDNA测序, 数据来自大部分 已知细古菌的16S rDNA片断, 分析简易 16S rRNA ① 16s rRNA基因是进化遗传研究的重要对象, 相对 于细菌的表型鉴定, 16s rRNA基因检测技术已成 为细菌检测和鉴定的使用广泛和快速的工具 ② 16S rRNA基因是存在于原核生物基因组上编码 rRNA相对应的DNA序列。 ③ 16S rRNA基因长度是1.5kb, 具有高度保守性区 域和高度特异性区域,特异性区域成为物种特异 的标志序列。 实验步骤 ① 细古菌基因组DNA提取 ② 16S rRNA特定区域扩增引物设计 ③ PCR扩增 ④ PCR产物纯化 ⑤ Roche454测序 数据产生 ① Roche454测序仪产生.sff数据文件 ② 从.sff数据文件提取.fna数据文件和.qual数据文件 ③ .fna数据文件保存碱基序列 >HKSD5CR01D6P3I length=70 xy=1599_2828 region=1 run=R_2012_03_15_01_23_26_GGAGTAGCATGCGTGACGAATCGTAGTTCCGACCAT AACGATGCCGACCTTTGACCACGA ④ .qual数据文件保存质量分数序列 >HKSD5CR01D6P3I length=70 xy=1599_2828 region=1 run=R_2012_03_15_01_23_26_40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 39 39 39 40 40 40 34 34 34 34 40 30 30 30 40 39 39 39 38 38 37 40 40 38 38 32 24 17 17 20 20 26 30 30 36 36 37 40 40 4040 40 40 40 40 40 40 39 39 39 ⑤ 测序长度分布统计 长度分布统计 Raw Reads长度频数统计 600000 510444 500000 Reads_num 400000 300000 262540 190402 200000 121328 100000 30112 7199 517 34 3 3 3 1 300 350 400 450 500 550 600 0 50 100 150 200 250 Length(bp) 收录16S rRNA序列的常用数据库 ① NCBI Nucleotide database(NT库) 网址: ftp://ftp.ncbi.nih.gov/blast/db/ ② GreenGenes database 网址: http://greengenes.lbl.gov/cgibin/nph-index.cgi ③ Ribosomal database project database 网址: http://rdp.cme.msu.edu/ ④ Silva: comprehansive ribosomal RNA database 网址: http://www.arb-silva.de/ 16S rRNA数据分析常用软件 ① Mothur 网址:http://www.mothur.org/ ② QIIME(Quantitative Insights Into Microbial Ecology) 网址: http://qiime.sourceforge.net/tutorials/tutorial.html ③ GreenGenes database 网址: http://greengenes.lbl.gov/cgi-bin/nph-index.cgi ④ Ribosomal database project database 网址: http://rdp.cme.msu.edu/ 数据分析内容 ① 序列预处理 ② 序列聚类操作分类单元(OTU) ③ Alpha多样性分析 ④ 赋予物种分类单元 ⑤ Beta多样性分析 ⑥ 组间物种分类单元筛选 序列预处理 ① 识别和去除序列起始8个碱基样本标记Barcode (perl script) ② 去出引物序列 下 载地址: http://compbio.dfci.harvard.edu/tgi/software/ 执行命令:./seqclean *.fna -v primer.fa 和 ./cln2qual *.fna.cln *.qual ③ 去除序列中的低质量区域 下载地址: http://lucy.sourceforge.net/ 执行命 令:/lucy *.fna.clean *.qual.clean -e 0.03 0.03 -w 30 0.03 10 0.1 –b 4 0.03 序列聚类操作分类单元(OTU) ① 操作分类单元(OTU): 多条序列相似性为0.97 被认为可能属于同一个属(genus), 相似性为 0.99被认为可能属于同一个种(species) 软件下载地址: http://www.drive5.com/uclust/downloads1_1_579. html 执行命令:./uclust --sort *.fa --output *.sort.fa 执行命令:./uclust -input *.sort.fa -uc *.uc Alpha多样性分析 ① Alpha多样性指标:丰富度(richness)、香农 指数(Shannon index) ② 稀疏分析图:以样本中随机抽取序列数为横 坐标, 相应的Alpha多样性指数为纵坐标所 得,每条曲线是一个样本 ③ 软件下载地址: http://www.mothur.org/wiki/Download_mothu r 执行命令: ./mothur “collect.single(list=*.txt, freq=10);” 丰富度指数稀疏分析图 Rarefaction plot for richness 3000 2500 2000 Richness MID1 MID2 MID3 1500 MID4 MID5 1000 MID6 MID7 500 0 0 20000 40000 60000 80000 Number of sequences 100000 120000 140000 香农指数稀疏分析图 Rarefaction plot for shannon index 4.5 4 3.5 3 shannon index MID1 MID2 2.5 MID3 MID4 2 MID5 MID6 1.5 MID7 1 0.5 0 0 20000 40000 60000 80000 Number of sequences 100000 120000 140000 赋予物种分类单元 ① 物种分类单元分为6层, 它们依次为domain、 phylum、class、order、family、genus ② 软件下载地址: http://sourceforge.net/projects/rdp-classifier/ ③ 执行命令: java –jar rdp_classifier-2.4.jar -q *.fa -o *.output ④ 画物种分类单元丰度比例图, genus的域值设置 为0.8 物种分类单元丰度比例图 Class 100% c_Alphaproteobacteria 90% c_Bacilli c_Actinobacteria 80% c_Gammaproteobacteria c_Clostridia 70% c_Methanomicrobia c_Bacteroidia 60% c_Planctomycetacia c_Mollicutes 50% c_Betaproteobacteria 40% c_Deltaproteobacteria c_Epsilonproteobacteria 30% c_Verrucomicrobiae c_Thermomicrobia 20% c_Sphingobacteria c_Chloroplast 10% c_Flavobacteria c_Elusimicrobia 0% MID1 MID2 MID3 MID4 MID5 MID6 MID7 Beta多样性分析 ① 取uclust聚类生成的代表性序列进行多序列比对, 多序列比 对需要参考核心16S rDNA多序列队列文件: core_set_aligned.fasta.imputed 下载地址: http://pynast.sourceforge.net/ 多序列队列文件: http://greengenes.lbl.gov/Download/Sequence_Data/Fasta_dat a_files/ 执行命令:./pynast -p 0 -l 0 -i *.fa -t core_set_aligned.fasta.imputed ② 构建代表性序列为节点的进化树 下载地址:http://microbesonline.org/fasttree/ 执行命令./FastTree –gtr -nt *.tree ③ Beta多样性分析: 样本距离计算 , 需要序列丰度信息 网站访问地址: http://bmf2.colorado.edu/fastunifrac/ 样本距离矩阵 样本聚类和PCA 组间物种分类单元筛选 ① 物种分类单元特征包括5层, 分别是phylum、 class、order、family、genus。根据RDP分类器的 样本和物种分类单元丰度矩阵结果, 利用统计 检验筛选组间的差异物种分类单元特征 , 如果 每个样本组只有一个样本, 采用Fisher精确检 验, 如果每个样本组大于等于两 个样本, 采用T 检验。 软件下载地址http://metastats.cbcb.umd.edu/ 谢 谢!