Med-Library-Alert-20131226x

Download Report

Transcript Med-Library-Alert-20131226x

第16期
生物信息学资源
版权所有@清华大学图书馆
编辑制作:冷菲 /医学馆 2013年12月26日
生物信息学概述
生物信息学(Bioinformatics)是在生命科学的研究
中,以计算机为工具对生物信息进行储存、检索和分析的
科学。它是当今生命科学和自然科学的重大前沿领域之一,
同时也将是21世纪自然科学的核心领域之一。其研究重点
主要体现在基因组学(Genomics)和蛋白质组学
(Proteomics)两方面,具体说就是从核酸和蛋白质序列
出发,分析序列中表达的结构功能的生物信息。
研究方法
以数据(库)为核心
1 数据库的建立
2 生物学数据的检索
3 生物学数据的处理
4 生物学数据的利用:计算生物学
数据库概述
数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的
各个领域。生物信息中心有NCBI等,核酸序列数据库有GenBank,
EMBL, DDB等,蛋白质序列数据库有SWISS-PROT, PIR, OWL,
NRL3D, TrEMBL等,蛋白质片段数据库有PROSITE, BLOCKS,
PRINTS等,三维结构数据库有PDB, MMDB等,与蛋白质结构有关
的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等,文献数据库有
Medline, Uncover等。
下面循序简介一些著名和有特色的生物信息数据库。
常用生物信息中心
NCBI
美国国家生物技术信息中心(National Center for Biotechnology
Information),它的前身是美国国家卫生署(National Institute of
Health,简称NIH)所属的一个研究所的计算生物学研究室,1988年
独立为NCBI,形式上属于国家医学图书馆。NCBI管理着包括
GenBank在内的一批数据库,如UniGene、dbSNP、COG、
LoccusLink、OMIM和MMDB等。它提供Entrez数据库检索工具、
BLAST数据库序列搜索等服务。
参考网址:http://www.ncbi.nlm.nih.gov/
常用核酸序列数据库
GenBank (NCBI美国国立生物技术信息中心 )
Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文
献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护
的。它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量
EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。
Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库,和日本的
DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。Genbank的数
据可以从NCBI的FTP服务器上免费下载完整的库,或下载积累的新数据。
NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以
从NCBI的主页上找到这些服务。
(1)Genbank数据检索
NCBI的数据库检索查询系统是Entrez。Entrez是基于Web界面的综合
生物信息数据库检索系统。利用Entrez系统,用户不仅可以方便地检索
Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质
序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三
维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数
据。
(2)向Genbank提交序列数据
测序工作者可以把自己工作中获得的新序列提交给NCBI,添加到
Genbank数据库。这个任务可以由基于Web界面的BankIt或独立程序
Sequin来完成。BankIt是一系列表单,包括联络信息、发布要求、引用
参考信息、序列来源信息、以及序列本身的信息等。用户提交序列后,
会从电子邮件收到自动生成的数据条目,Genbank的新序列编号,以及
完成注释后的完整的数据记录。用户还可以在BankIt页面下修改已经发
布序列的信息。BankIt适合于独立测序工作者提交少量序列,而不适合
大量序列的提交,也不适合提交很长的序列,EST序列和GSS序列也不
应用BankIt提交。BankIt使用说明和对序列的要求可详见其主页面。
参考网址:
NCBI的网址:http://www.ncbi.nlm.nih.gov
Entrez的网址:
http://www.ncbi.nlm.nih.gov/entrez/
BankIt的网址:
http://www.ncbi.nlm.nih.gov/BankIt
Sequin的相关网址:
http://www.ncbi.nlm.nih.gov/Sequin/
常用核酸序列数据库
EMBL (European Molecular Biology Laboratory
欧洲分子生物学实验室)
EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序
列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个
全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护,查
询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。向
EMBL核酸序列数据库提交序列可以通过基于Web的WEBIN工具,
也可以用Sequin软件来完成。
参考网址:
数据库网址:http://www.ebi.ac.uk/embl/。
SRS的网址:http://srs.ebi.ac.uk/。
WEBIN的网址:
http://www.ebi.ac.uk/embl/Submission/webin.ht
ml。
常用核酸序列数据库
DDBJ (DNA Databank of Japan, 日本DNA数据库)
日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据
库,与Genbank和EMBL核酸库合作交换数据。可以使用
其主页上提供的SRS工具进行数据检索和序列分析。可以
用Sequin软件向该数据库提交序列。
参考网址:http://www.ddbj.nig.ac.jp/
常用蛋白质序列数据库
SWISS-PROT&TREMBL
日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)
合作维护。包括了从EMBL翻译而来的蛋白质序列,这些
序列经过检验和注释。
TREMBL包括了所有EMBL库中的蛋白质编码区序列,提
供了一个非常全面的蛋白质序列数据源
参考网址:http://www.ebi.ac.uk/swissprot/
http://www.expasy.ch/sprot/
常用蛋白质序列数据库
PIR
由美国华盛顿的乔治城大学全国生物医学研究基金会
(NBRF)、德国马普生物化学研究所的Martinsried蛋白
质序列研究所(MIPS)和日本东京理科大学的日本国际
蛋白质信息数据库(JIPID)3家实验室共同合作开发。
参考网址:http://www-nbrf.georgetown.edu/pir/
蛋白质三维结构数据库
PDB
Protein Data Bank(蛋白质数据库)的缩写,是一个生物
大分子三维结构实验数据库。PDB是目前最主要的蛋白质
分子结构数据库。随着晶体衍射技术的不断改进,结构测
定的速度和精度也逐步提高。其中大部分为蛋白质,包括
多肽和病毒,此外,还有核酸、蛋白和核酸复合物以及少
量多糖分子。
参考网址:
http://www.rcsb.org/pdbhttp://www.genome.ad.jp/dbg
et-bin/www
http://www.pdb.org
蛋白质三维结构数据库
MMDB
Entrez的蛋白质分子模型数据库,属于来源于
Brookhaven 蛋白数据库(PDB)的三维结构的一
个子集。其数据来源于X-ray晶体衍射和NMR色
谱,不包括理论模型。由NCBI的MMDB组维护。
蛋白质三维结构分类数据库
SCOP
SCOP是英国医学研究委员会(MRC)剑桥分子生物学实
验室开发的,是所有已知结构的蛋白质依据三维折叠模式
和进化关系划分 的结构分类库。目前在蛋白质的研究中,
三维结构的描述和分类非常活跃,所以,SCOP是各类蛋
白质数据库非常热的网点,其接受访问的频率明显超过
PDB。
参考网址:http://scop.mrc-lmb.cam.ac.uk/scop/
蛋白质三维结构分类数据库
FSSP
FSSP是具有相似结构蛋白质家族的数据库,通过三维结
构对比,得到用一维同源序列对比无法获得的结构相似性,
库中列出了相似 PDB结构三维结构对比参数,并给出了
序列同源性、二级结构、变化矩阵等结构叠合信息。
参考网址:http://www2.embl-ebi.ak/dall/fssp/
常用文献数据库
PubMed
NLM提供的一项服务,能够对MEDLINE上超过1200万
条的上世纪六十年代中期至今的杂志引用和其他的生命科
学期刊进行访问,并可以连接到参与的出版商网络站点的
全文文章和其他相关资源。MEDLINE也有缺陷,它以医
学为主,植物学等方面收录不够全面。
参考网址:http://www.ncbi.nlm.nih.gov/pubmed/
常用专业软件
BLAST :“局部相似性基本查询工具”(Basic Local Alignment
Search Tool)的 缩写,Blast是NCBI研制的一个生物基因数据库系统
的查询工具,功能强大,检索速度快,流行于世界上几乎所有的生
物信息中心。
功能名称
功能
Blastn
用核酸序列
Blastp
用蛋白质序列
Blastx
用核酸序列 (翻译成蛋白质) 搜索
TBlastn
用蛋白质序列 (翻译成核酸) 搜索 核酸序列数据库
Tblastx
搜索
搜索
核酸序列数据库
蛋白质序列数据库
蛋白质序列数据库
用核酸翻译的蛋白质序列搜索核酸翻译的蛋白质序列数据
库
Blast其它功能
BLAST两个序列
一个基于BLAST的工具,对齐两个核酸或蛋白的序列,产生一个成
对的DNA-DNA或蛋白—蛋白序列比较。
IgBLAST
IgBLAST被开发出来以便于分析在GenBank中的免疫球蛋白的序列。
它允许用blastp或blastn来搜索nr数据库或一个由免疫球蛋白
生殖系变化区基因的特殊的数据库。搜索可以限制在人类或小
鼠的基因。IgBLAST执行三个主要的功能:1)报告与查询序列
最相似的可变,D,或J区,2)根据Kabat et al.来注解免疫
球蛋白domains(从FWR1到FWR3),3)对于搜索核酸或蛋白nr
数据库,通过匹配IgBLAST的发现和最接近的生殖系变化区基
因来简化识别相关序列的过程。
PowerBLAST
PowerBLAST是一个程序,允许对非常长的序列进行快速的gapped
BLAST搜索,它把序列分割开,对每个部分搜索,然后把结果
组装起来。包含在Sequin中的PowerBlast版本使用了新的强大
的gapped BLAST算法,过滤和物种特异的输出特点还仍旧保留。
其他数据库和软件网址
Putative DNA Sequencing Errors Check
http://www.bork.embl-heidelberg.de/Frame/
MatInspector
http://www.gsf.de/cgi-bin/matsearch.pl
FastM
http://www.gsf.de/cgi-bin/fastm.pl
Web Signal Scan
http://www.dna.affrc.go.jp/htdocs/sigscan/signal.html
BCM Search Launcher
http://dot.imgen.bcm.tmc.edu:9331/seq-util/seq-util.html
Webcutter
http://www.firstmarket.com/cutter/cut2.html
Translate DNA to protein
http://www.expasy.ch/tools/dna.html
其他数据库和软件网址
ABIM
http://www-biol.univ-mrs.fr/english/logligne.html
sequence motifs:Pfam
http://www.sanger.ac.uk/Pfam/
http://pfam.wustl.edu/
ProDom
http://protein.toulouse.inra.fr/prodom.html
PRINTS
http://www.biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/
多种数据库、分析工具和生物信息学机构
http://www.unl.edu/stc-95/Restools/biotools
多种数据库和分析工具
http://www.ebi.ac.uk/Tools/
Comparative sequence analysis
http://www.bork.embl-heidelberg.de/
其他数据库和软件网址
功能基因组分析Transcription profiling technologies
http://www.ncbi.nlm.nih.gov/ncicgap/expression_tech_info.html
Protocols for cDNA array technology
http://cmgm.stanford.edu/pbrown/array.html
Data management and analysis of gene expression arrays
http://www.nhgri.nih.gov/DIR/LCG/15k/HTML/
Examples of commercially available filter arrays:
GeneFiltersTM (Research Genetics)
http://www.resgen.com
Gene Discovery Arrays (Genome Systems)
http://www.genomesystems.com
AtlasTM Arrays (CLONTECH)
http://www.clontech.com
参考书籍
Bioinformatics
基因VIII
Biological Sequence Analysis
分子进化与系统发育
计算分子进化
Problems and Solutions in
Biological Sequence Analysis
Algorithms on Strings, Trees and
Sequences
Python for Bioinformatics (Chapman &
Hall/Crc Mathematical & Computational
Biology)
Bioinformatics Programming Using
Python
Understanding Bioinformatics
Discovering Genomics, Proteomics
And Bioinformatics
Data Mining for Bioinformatics
Bioinformatics and Functional
Genomics
Introduction to Bioinformatics