普通生物学 ——生命科学通论

Download Report

Transcript 普通生物学 ——生命科学通论

Life
Science
Science
第九讲
生物信息学
将给生命科学带来变革性的变化!
Biology is shifting from being an
observational science to being a
quantitative molecular science
Life
Science
学习目的
1、了解生物信息学的发展背景、定义
2、理解生物信息学在生命科学研究中的作用
3、理解数学、计算机科学如何在生物信息中的地
位和作用
4、了解基因芯片的检测原理和制备方法
Life
Science
Science
第一节 生物信息学
(Bioinformatics)
一、生物学基础(复习)
二、发展背景与定义
三、研究内容
四、研究现状
五、发展前景
Life
Science
一、生物学基础
表型与基因型(phenotype vs. genotype)
遗传信息的流动
基因的表达与调控
分子进化
DNA序列分析:基因识别、调控元件识别、进化分析
mRNA:剪切位点识别、基因表达分析
蛋白质:结构预测、蛋白质间相互作用、亚细胞定位
基因组:基因预测、进化分析
染色体:结构分析
网络:pathway建模
细胞: 系统:
Life
Science
Life
Science
二、发展背景和定义
Life
Science
生物信息——广义的概念



生命现象是不同层次上的物质、能量与信息的
交换,不同层次是指核酸、蛋白质、细胞、器
官、系统、整体等
研究生物体系和生物过程中信息的内涵和信息
的传递
生物电磁学与电磁生物学、视觉系统与光信息
处理、脑和神经系统与信息、生物体结构与微
光机电系统
Life
Science
发展背景
Biocomputing
Computational Biology
Bioinformatics
1986 年 , 在 EMBL Heidelberg 成 立 Biocomputing 部 门 , 命 名 为
BIOinformatis.如果我们不能回答生物学问题,作为计算生物学家是失
败 的 。 1997 年 底 创 立 了 CABIOS(Computer Applications in the
Biosciences).
we assert:computational planning and analysis is an integral part of
the biological discovery process.
在完整基因组序列和高通量技术时代不要仅仅谈论分析海量数据的挑
战,相反,要谈论疾病产生的风险,关于人类遗传差异、基因型改变
的进化如何导致功能的改变,如何使用数据来回答这些问题。
Life
Science
背景
Background
Mark Bogulski (1998) Bioinformatics: A New Era
100,000
×1,00
0
10,000
1,000
Medline Records
100
10
DNA Sequences
Transistors/Chip
1
0.1
3D Structures
0.01
0.001
1965
1970
1975
1980
1985
1990
1995
2000
Cumulative Growth of Biological Information and Computer Power
Life
Science
生物医药工业
提供大量基因序列分析的工具,在以下方面加
快新药开发的进程:



资料的获取、包括从数据库中寻找新药开发者
感兴趣的基因序列和相关资料文献
基因功能的预测和基因生理作用的预测
需要大量信息处理的药物筛选和加工过程
(Weinstein JN et al. ,1997)
Life
Science
Definition of Bioinformatics (1)
Bioinformatics is defined as a scientific discipline that
encompasses all aspects of biological information acquisition,
processing, storage, distribution, analysis and interpretation,
that combines the tools and techniques of mathematics,
computer science and biology with the aim of understanding the
biological significance of a variety of data.
生物信息学是一门交叉学科。它包含了生物信息的获取、处理、存储、
分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学
和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。
Understanding Our Genetic Inheritance. The US Human Genome Project: The First Five Years
1991-1995. NIH Publibcation No. 901590, April, 1995
Life
Science
Definition of Bioinformatics (2)
Bioinformatics is conceptualising biology in terms
of molecules(in the sense of Physical chemistry)
and applying “informatics techniques” (derived
from disciplines such as applied maths, computer
science and statistics) to understand and
organise the information associated with these
molecules, on a large scale.
Oxford English Dictionary
Life
Science
Computation
Informatics
Bioinformatics
Biology
Life
Science
算法
统计学
信息理论
图形学
科学可视化
图像识别
人工智能
密码学
非线性动力学
计算机模拟
语言学
机器学习
数据库
软件工程
计算机网络
分布式系统
生物信息学
数据获取
数据解释
基因组图谱
三维结构预测
分子建模
药物设计
同源比较
分子进化
数据库检索
基因预测
仪器设计
数据库构建
基因调控
基因诊断及治疗
分子生物学
计算机科学和数学
Life
Science
生物信息学研究意义
利用数理统计、模式识别、动态规划、密码解读、
语意解析、信令传递、神经网络、遗传算法以及
隐马氏模型等各种方法
对序列、结构数据进行定性和定量分析,从中获
取基因编码、基因调控、序列-结构-功能关系等
理性知识
阐明细胞、器官和个体的发生、发育、病变、衰
亡的基本规律和时空联系
探索生命起源、生物进化、生命本质等重大理论
问题,最终建立“生物学周期表”
指导分子生物学实验
Life
Science
Life
Science
生物信息学 – 研究方向









基因组序列装配
基因识别
基因功能预报
基因多态性分析
基因进化
mRNA结构预测
基因芯片设计
基因芯片数据分析
疾病相关基因分析









蛋白质序列分析
蛋白质家族分类
蛋白质结构预测
蛋白质折叠研究
代谢途径分析
转录调控机制
蛋白质芯片设计
蛋白质芯片数据分析
药物设计
Life
Science
三、生物信息学的研究内容
数学、计算机科学、生物学
1、与HGP相关的研究内容
2、功能基因组研究相关内容
3、蛋白组学相关
4、基因芯片信息学研究
Life
Science
数学(Maths)
Statistics 统计学
Probability Theory 概率论 (特别是随机过程理论)
Operational Research 运筹学
Optimization Theory & Method 最优化理论与方法
Topology 拓扑学 (主要是几何拓扑)
Function Theory 函数论
Information Theory 信息论
Computational Mathematics 计算数学
Group Theory 群论
Life
Science
几个常用 数学模型概念与方法
Bayes 公式、 Bayes统计
马氏链 (Markov chains)
隐马氏链 (Hidden Markov chains)
Poisson 过程与连续时间马氏链
熵、相对熵与信息增益
神经网络 (neural networks (NN)):
Multi-layer feed-forward NN, self-organized
learning NN, recurrent NN(Hopfield NN,
Bolztmann machine )
Life
Science
计算机科学(Computer Science)
网络技术
数据库 (特别是关系型数据库)
数据整合和可视化
数据挖掘
基于Unix操作系统的各种软件包
一些重要的算法的复杂性研究
计算机硬件
Life
Science
生物信息学研究内容
 Alignment
(序列比对) [包括:全序列、局部和多重比对;Fasta, Blast, PSI-
Blast]
 Protein Structure Prediction
(蛋白质结构预测)
 Computer-Aided Gene Recognitions
(计算机辅助基因识别)
[算法纷纭,较著名的为GeneScan, GeneFinder, 等;尚存在许多问题]
 DNA Language
(DNA语言)
 Molecular Evolution & Compared Genomics
(分子进化和比较基因组学)
 Contig Assembly
(序列重叠群装配)
 Origin of Genetic Codes
(遗传密码的起源)
 Analysis of Metabolize Network
 GeneChip Design
(基因芯片设计)
(代谢网络分析)
Life
Science
与HGP相关的生物信息学研究
1、高度自动化的实验数据的获得、加工和整理
各种自动化分子生物学仪器应用上,如DNA测序仪,
PCR仪等
实验过 程 高度自 动 化甚至 工 厂化 , 产 生的海 量 数据
(gigabyte),专门的实验室数据管理系统自动完成包
括实验进程和实验数据的纪录,常规数据分析,数据质
量检测和问题的自动查找,常规的数据说明和数据输入
数据库。
目前还没有成熟的通用的分子生物学数据管理系统。
Life
Science
2、序列片段的拼接
目前DNA自动测序仪每个反应只能测序500bp左右,
传统测序方法是将克隆进行亚克隆并对亚克隆进行排序。
自 动 而 高 速 拼 接 序 列 的 算 法 , Lander-Waterman 模 型
(Lander ES and Waterman MS,1998)利用鸟枪法进行
测序,再将大量随机测序的片段用计算机进行自动拼接。
1.9Mb Haemophilus influenzae( 流 感 嗜 血 杆 菌 )
(Fleischmann RD et al. ,1995)0.58Mb Mycoplasmu
genitalium(枝原体)(Fraser CM et al. ,1995) 0.58Mb
jannaschii(甲烷杆菌) (Bult CJ et al. ,1996)
有待改进:将已知的基因组知识应用于拼接算法,进一步
提高拼接真核基因组的有效性;自动处理自动测序造成的
差错
Life
Science
Life
Science
Alignment
序列一
序列二
 Alignment
(序列比对、联配、
对齐等)
包括:全序列、局部
多重比对;
AGCGGTGCAGGTTACTGCGCGTAGTAC…
| |
|
ACGGTGCGGTTACTGCGGCGTAGTAC…
AGCGGTGCAGGTTACTGCGCGTAGTAC…
| |||||| | |
|||||||||
A_CGGTGCGGTTACTGCGGCGTAGTAC…
AGCGGTGCAGGTTACTGCGCGTAGTAC…
| |||||| ||||||||||
A_CGGTGC_GGTTACTGCGGCGTAGTAC…
Fasta, Blast, PSI-Blast
AGCGGTGCAGGTTACTGC_GCGTAGTAC…
| |||||| ||||||||| |||||||||
A_CGGTGC_GGTTACTGCGGCGTAGTAC…
Life
Science
Raw DNA sequence
GeneBank:
11.5Millon sequence 12.5billion bases
Separating coding and non-coding
Identification of introns and exons
Gene product prediction
Forensic analysis
Life
Science
基因识别
识别基因组编码区,识别基因结构
1、同源比较(DNA序列、EST)
2、基因预测(不是用同源搜索的方法来识别基因)
从头开始基因预测
基于知识的基因预测(密码子使用,碱基组
成,剪切位点特征,PolyA信号,2、3、6核苷酸
频率,转录信号,转译信号,尺寸分布)
Life
Science
基因预测的步骤:
1、识别可能的外显子
2、辨别起始/内部/终止外显子
3、把起始、一些内部的和终止外显子的连起
来,形成可能的基因
4、确保该可能的基因没有内部的移位或终止
密码子
5、leftovers:shadow exons
算法:
Rule-based system, linguistic system,
linear discriminant analysis, decision tree,
spliced alignment, fourier analysis
Life
Science
Life
Science
Life
Science
Evaluating Gene Prediction
敏感性(Sensitivity)
敏感性=预测基因中确为基因的数目/待测序列中的
基因数目;
How many exons were correctly predicted?
特异性(Specifity)
特异性=预测基因中确为基因的数目/预测基因数目
How many exon predictions are true?
Life
Science
生物学家们为人类基因的数目打赌
虽然人类基因组的草图很快就要完成,但生物学家们对基因组里到底有多少基因的猜测仍
有极大的不同。最近在美国纽约冷泉港召开的一个会议上,他们设立了一美元一个(次)的基因数
目赌注。胜者将于2003年揭晓,他除了可获得全部赌金外,还可得到一本由DNA结构的发现者
James Watson亲笔签名的皮革封面《双螺旋》一书。
如果基因组是生命的天书,那么基因就是写成这本书的词汇。生物学家们一直假设,微生物的故
事较短,而人类的故事则是一部巨作,人类拥有8万到10万个基因。但是美国加州大学伯克利分校的
果蝇基因组计划的主任Gerald Rubin指出,果蝇的基因比我们所认为的最简单的线虫少了5000个。
他警告说:“生物体的复杂性并不是简单地与基因数量相关联的。”
确实,根据目前已测序完成的人类基因组第21对、22对染色体的经验,德国分子生物技术
研究所的 Andre Rosenthal 说,我们得出的结论是整个基因组有不多于4万个基因。法国的分子遗传
学家Hugues Roest Crollius通过比较现有的人类基因序列与淡水河豚基因序列,提出了更低的人类基
因数估计:在27700与34300之间。美国西雅图华盛顿大学的基因学家Phil Green是常用的组合基因
序列数据的程序PHRED和PHRAP的发明人,他提出人类基因数大约为35000。
Green说:“我们使用了3种独立的计算方法得出了这些较低的基因数估计,我确信基因数
目就在这个范围内。”美国国家人类基因组研究所主任Francis Collins表示他同意Green的估计,将
他1美元的赌金下在48011个基因上。但马里兰Rockville的基因组研究所(TIGR)的John Quackenbush
根据TIGR的人类基因指数的估计,将他的1美元赌在118259个基因上。加州Incyte Genomics公司的
Sam LaBrie赌的基因数是153478个,该公司在1999年9月曾宣布人类基因至少有14万个。
但是支持人类基因数目是一个较小数的科学家们也不灰心,他们争论说生物体的复杂性来
自于基因如何被管理或表达的,而不是基因数目本身。Rosenthal解释说:“我们不需要那么多的基
因成为高等动物,”他赌的是38000个。你赌多少呢?
Life
Science
基因功能预测
(1)序列同源比较
如果基因A与基因 B有相当的同源性,那么基因A可能具有类似基因B
的功能。
公共数据库:GenBank,EMBL,DDBJ
功能数据库:dbEST, dbSTS, dbGSS(Genome Survey Sequence,类
似EST,不同的是它是基因组的片段而非cDNA的片段,来自随机的对
基 因 组 片 段 进 行 一 轮 测 序 , 以 及 外 显 子 捕 捉 和 Alu PCR 等 方
法),dbHTG(high throughput Genomic Sequence,未完成整理的序列数
据)
蛋白质序列库:PIR(protein information resource), Swiss-Prot
蛋白质高级结构数据库PDB(protein data bank):生物大分子三级结构的
数据库,包括原子标记、文献引用、一级和二级结构信息,以及晶体
结构和核磁共振的数据。
同源比较算法:
分为整体对齐(Global alignment)和局部对齐(local alignment)局
部对齐的算法有Smith-Watermann 算法;FASTA算法;BLAST算法
Life
Science
Protein Sequence
400,000 sequences(SWISS-PROT) 300aa
Sequence comparison algorithms
Multiple sequence alignments algorithms
Identification of conserved sequence motifs
Life
Science
蛋白质结构预测
可以通过计算(如分子力学、分子动力学等)来
进行结构预测
(1)对于自然的蛋白质结构和未折叠的蛋白质结
构,两者之间的能量差非常小(1kcal/mol 数量级)
(2)研究蛋白质结构的计算量非常大
Life
Science
蛋白质结构预测的实验基础
Anfinsen, 1960es
天然核糖核酸酶
X-射线衍射和核磁共振
变性还原核糖核酸酶
Life
Science
Life
Science
蛋白质的二级结构
二面角定义
a-螺旋
蛋白质分子的主链二面角
N
CA
R
y
O
R
C
CA
w
N
f
(f,y) ~ (-60,-40)
b-折叠
(f,y) ~ (-120,140)
环区
C
O
Life
Science
蛋白质分子的三级结构

典型的蛋白质结构类型
a、b、 a / b 、 a + b

PDBSUM
http://www.biochem.ucl.ac.uk/bsm/pdbsum

SCOP
http://mdl.ipc.pku.edu.cn/scop
Life
Science
其它结构层次



超二级结构
四级结构
分子聚合体
Life
Science
影响蛋白质结构的理化因素

立体作用(范式作用)
– Lennard-Jones式,空间堆积

静电作用
– 库仑定律


氢键
疏水作用
Life
Science
同源模型方法
如果具有25-30%的等同序列,可以假设这两个蛋
白质折叠成相似的空间结构
借助于数据库搜索和序列的比对排列而进行
利用同源模型化方法可以预测所有10-30%蛋白质
的结构
Life
Science
流行的序列分析工具
–
–
–
–
–
–
CLUSTAL: 已知同源的序列间的配比
FASTA:全基因数据库的快速搜索
PSI-BLAST:非常快速的全数据库搜索
HMM:特定蛋白家族的序列模式识别
PHYLIPS:基因进化树
充分利用Internet
Life
Science
二级结构预测
用处
–估计蛋白的结构类型
–提高同源模建的准确性
–三级结构预测的起点
–远缘蛋白的Threading
方法
–Chou-Fasman
–Garnier
–神经网络
–组合算法
Life
Science
蛋白质三级结构预测
(1)
(2)
(3)
同源模型化方法
远程同源模型化方法
结构的从头预测方法
距离几何
分子动力学
Life
Science
一级序列
数据库搜索同源结构
挑选模板蛋白
序列和结构配比
模建保守区域
模建环区
模建侧链
优化和评估
Life
Science
Macromolecular structure
Secondary,tertiary structure prediction
3D structural alignment algorithms
Protein geometry measurements
Surface and volume shape calculation
Intermolecular interactions
Molecular simulations
Force-field calculations
Molecular movements
Docking predictions
15,000 structures(PDB) ~1000 atomic coordinates each
Life
Science
Genomes
300 complete genomes 11.6 million sequences
Characterization of repeats
Structural assignments to genes
Phylogenetic analysis
Genomic scale censuses(characterization of
protein content, metabolic pathways)
Linkage analysis relating specific genes to
diseases
Life
Science
比较基因组学研究
研究生命是从哪里起源的?生命是如何进化的?
遗传密码是如何起源的?估计最小独立生活的生
物至少需要多少基因,这些基因是如何使它们活
起来的?比如,鼠和人的基因组大小相似,都含
有约三十亿碱基对,基因的数目也类似。可是鼠
和人差异确如此之大,这是为什么?同样,有的
科学家估计不同人种间基因组的差别仅为 0.1%;
人猿间差别约为1%。但他们表型间的差异十分显
著。 这又为什么?
完整基因组序列的比较研究是解决这些问题的重
要途径。
Life
Science
基于完整基因组数据的生物进化研究
1、序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比
较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列
是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有
BLAST、FASTA等;
2、序列同源性分析。是将待研究序列加入到一组与之同源,但来自不
同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同
源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用
多序列比较算法。常用的程序包有CLUSTAL等;
3、构建系统进化树。根据序列同源性分析的结果,重建反映物种间进
化关系的进化树。为完成这一工作已发展了多种软件包,象PYLIP、
MEGA等;
4、稳定性检验。为了检验构建好的进化树的可靠性,需要进行统计可
靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70
%以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap算法,
相应的软件已包括在构建系统进化树所用的软件包当中。为便于使用者
查找表三给出了进化分析相关软件的因特网地址。
Life
Science
Phylogeny of 23
completely
sequenced
Bacteria and
Archaea species
on the basis of
16s rRNA.
Life
Science
Gene expression
Correlating expression patterns
Mapping expression data to sequence, structural
and biochemical data
Life
Science
基因表达分析和调控网络研究
高通量基因转录实验技术
1、mRNA
cDNA microarray
Oligonucleotide chip
RT-PCR
SAGE
2、protein
2D-PAGE
Life
Science
Hierarchical
Clustering
Life
Science
Principal Component Analysis
4
3
2
1
-4
-3
-2
-1
1
-1
-2
-3
-4
2
3
4
Life
Science
Metabolic pathways
Pathway simulations
Metabolic pathways
Regulatory network
Signal cascade
Protein-protein interaction
Life
Science
Life
Science
Literature
11 million citations
Digital libraries for automated bibliographical
seraches
Knowledge databases of data from literature
Life
Science
其他
郝柏林院士:DNA序列中的分形模式,计算高频
片断
张春霆院士:z-curve
陈润生 拼接方法
基因表达数据分析和调控网络研究
基因芯片设计及信息处理
确定目标
自动设计目标
序列
数
序
据
列
库
分
查
析
询
探针设计
芯片优化
解决杂交条件一
致性问题
公共
数据库
数据分析
提高芯片制备效
率
专用
数据库
生 物 信 息 学
数 据 挖 掘
分析杂交检测结
果及可靠性
基因芯片
数据库
图像处理
杂交
检测
图像
Life
Science
四、生物信息学研究现状
1、研究机构
2、数据库
3、软件及应用
4、重大成果
Life
Science
Science
国际著名的生物信息中心
NCBI
National Center for Biotechnology Information (US)
EBI
European Bioinformatics Institute (EU)
HGMP Human Genome Mapping Project Resource Centre
(UK )
ExPASy Expert of Protein Analysis System (Switzerland )
CMBI Centre of Molecular and Biomolecule (The
Netherlands)
ANGIS National Genome Information Service (Australia)
NIG
National Institute of Genetics (Japan)
BIC
National Bioinformatics Centre (Singapore)
Life
Science
国内部分生物信息学和生物医学信息服务器
北京大学生物信息中心 http://www.cbi.pku.edu.cn
中国生物信息http://www.biosino.org/
北京大学物理化学研究所 http://www.ipc.pku.edu.cn
北京医科大学生物医学信息 http://cmbi.bjmu.edu.cn
中国科学院微生物研究所 http://www.im.ac.cn
天津大学生物信息中心 http://tubic.tju.edu.cn
中科院计算所智能信息处理重点实验室生物信息学研究组
http://www.bioinfo.org.cn/
中国科学院基因组信息学中心
http://www.genomics.org.cn/
Life
Science
北京大学生物信息中心
安装了70多个数据库,提供200多种软件下载
建立了14个国外著名生物信息中心镜象
提供了数据库和文献查询、搜索
构建了中华民族基因多样性等专用数据库
集成和开发了基于Web的生物信息软件工具
开展了分子模拟、序列分析等应用研究
举办了国际国内培训班、讲习班、讨论会
开设了生物信息学概论研究生课程
Life
Science
构建二次数据库
中华民族基因多样性数据库
转录因子细胞特异性数据库Cytomer
蛋白质结构域数据库Domain
蛋白质回环数据库Loop
水稻矮缩病毒数据库RDV
二硫键信息数据库Bridge
Life
Science
其他数据库
EMBL http://www.embl-heidelberg.de/ http://www.ebi.ac.uk/embl/
GenBank http://www.ncbi.nlm.nih.gov/Web/Genbank/
DDBJ http://www.ddbj.nig.ac.jp/
Ensembl http://www.ensembl.org/
Medline http://www2.ncbi.nlm.nih.gov/medline/query-form.html
BioMedNet http://www.BioMedNet.com/
Staden: http://www.cbi.pku.edu.cn/tools/staden/ (biological package)
RCSB(结构生物信息学研究联合实验室) www.rcsb.org
PRESAGE(Collaborative resource for structural genomics 结构基因组学联合
资源)http://presage.stanford.edu/
ExPASy http://www.expasy.ch/
SRS http://srs.ebi.ac.uk:5000/
Entrez http://www3.ncbi.nlm.nih.gov/Entrez/
GCG: http://www.accelrys.com/about/gcg.html
Life
Science
DictyDb ( Dictyostelium discoideum genome database Dictyostelium
discoideum基因组数据库)
http://glamdring.ucsd.edu/others/dsmith/dictydb.html
EcoCyc(Encyclopedia of E.coli genes and metabolism 大肠杆菌基因和代谢百
科全书)http://ecocyc.pangeasystems.com
EcoGene(Escherichia coli K12 genome database Escherichia coli K12基因组
数据库)http://bmb.med.miami.edu/EcoGene/EcoWeb/
FlyBase ( Drosophila genome database
果 蝇 基 因 组 数 据 库 )
http://flybase.bio.indiana.edu/ http://gin.ebi.ac.uk:7081/
HIV(HIV sequence database HIV序列数据库)http://hiv-web.lanl.gov/
MaizeDB ( Maize genome database
玉 米 基 因 组 数 据 库 )
http://www.agron.missouri.edu/
IMGT(ImMunoGeneTics db 免疫基因标记数据库)http://imgt.cnusc.fr:8104/
MAIZE-2DPAGE(Maize genome 2D Electrophoresis database 玉米基因组双向
电泳数据库)http://moulon.moulon.inra.fr/imgd/
Mendel(Mendel-GFDb (Plant genes families database) 孟德尔植物基因家族数
据库)http://www.mendel.ac.uk
MGD(Mouse genome database 小鼠基因组数据库)
http://www.informatics.jax.org/ http://mgd.wehi.edu.au/mgd/ http://bioin
formatics.weizmann.ac.il/mgd/ http://mgd.hgmp.mrc.ac.uk/ http://mgd.ni
ai.affrc.go.jp/
Life
Science
MIM(Online Mendelian Inheritance in Man (OMIM) 人类孟德尔遗传
网上数据库)http://www.ncbi.nlm.nih.gov/omim/
NRSUB(Non-redundant B.subtilis database 无冗余枯草杆菌数据库)
http://pbil.univ-lyon1.fr/nrsub/nrsub.html
SGD ( Saccharomyces Genome Database 酵 母 基 因 组 数 据 库 )
http://genome-www.stanford.edu/Saccharomyces/
SubtiList(Bacillus subtilis 168 genome database 枯草杆菌168基因组
数据库)http://www.pasteur.fr/Bio/SubtiList/
TIGR ( The bacterial database(s) of 'The Institute of Genome
Research' 基因组研究所的细菌数据库)http://www.tigr.org/tdb/
TubercuList(Mycobacterium tuberculosis H37Rv genome database
分 支 结 核 杆 菌 H37Rv 基 因 组 数 据 库 )
http://www.pasteur.fr/Bio/TubercuList/
GeneCards(GeneCards: human genes, protein and diseases 基因
卡:人基因、蛋白和疾病)http://bioinformatics.weizmann.ac.il/cards/
ZFIN(Zebrafish Information Network genome database 斑马鱼信息
网基因组数据库)http://zfish.uoregon.edu/ZFIN/
酵母功能库
http://www.mips.biochem.mpg.de/proj/yeast/pathways/index.html
Life
Science
ExPASy
(swiss
institute
of
Bioinfomativcs)http://www.isb-sib.ch/
(proteomics, protein prediction)
SWISS-PROT http://www.expasy.ch/sprot-top.html
PIR(Protein sequence database of the Protein Information Resource 蛋白质
信息资源数据库)
http://pir.georgetown.edu/ http://www-nbrf.georgetown.edu/pir/
GDB http://gdbwww.gdb.org/
PDB ( Protein
Data
Bank
蛋 白 质 结 构 数 据 库 )
http://www.rcsb.org/pdb/ http://www2.ebi.ac.uk/pdb/ http://pdb.wehi.ed
u.au/pdb/ http://pdb.weizmann.ac.il/ http://www.ipc.pku.edu.cn/npdb/
SCOP
http://www.ipc.pku.edu.cn/scop/
http://www.pdb.bnl.gov/scop/
http://scop.mrc-lmb.cam.ac.uk/scop/
BLOCKS(BLOCKS 蛋白质模块数据库)http://www.blocks.fhcrc.org/
DOMO ( Protein Domain database
蛋 白 质 结 构 域 数 据 库 )
http://www.infobiogen.fr/~gracy/domo
ECO2DBASE(Escherichia coli gene-protein database (2D gel spots) 大肠杆
菌基因-蛋白数据库)http://pcsf.brcf.med.umich.edu/eco2dbase/
ENZYME ( Enzymes nomenclature database
酶 命 名 数 据 库 )
http://www.expasy.ch/enzyme/
GCRDb ( G protein-coupled receptor database G 蛋 白 耦 联 受 体 数 据 库 )
http://www.gcrdb.uthscsa.edu/
Life
Science
HSSP(Homology-derived secondary structure of proteins database 蛋白质同
源二级结构数据库)http://www.sander.ebi.ac.uk/hssp/
Pfam ( Pfam protein domain database
蛋 白 质 结 构 域 数 据 库 )
http://genome.wustl.edu/Pfam/ http://www.sanger.ac.uk/Pfam/
PRINTS ( Protein Motif fingerprint database
蛋 白 质 模 式 数 据 库 )
http://bioinf.man.ac.uk/bsm/dbbrowser/PRINTS/
ProDom ( ProDom Protein domain database
蛋白质结构域数据库)
http://protein.toulouse.inra.fr/prodom.html
PROSITE(PROSITE: protein domains and families database 蛋白质结构域和
家族数据库)http://www.expasy.ch/prosite/
REBASE(Restriction enzymes and methylases database 限制性酶和甲基化酶
数据库)http://rebase.neb.com/
TrEMBL NRL-3D NRDB PDBsum
MMDB http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml
dbSNP http://www3.ncbi.nlm.nih.gov/SNP/
二级结构推导数据库DSSP http://www.sander.embl-heidelberg.de/dssp/
蛋白质结构(PSdb) http://www.psc.edu/~geigel/PSdb/PSdb.html
Life
Science
EBI FSSP database, fold classification based on structure-structure
alignment of proteins http://www2.ebi.ac.uk/dali/fssp/
TRANSFAC ( Transcription factor database
转 录 因 子 数 据 库 )
http://transfac.gbf.de/TRANSFAC/
WormPep ( Caenorhabditis elegans genome sequencing project protein
database 线 虫 基 因 组 测 序 计 划 蛋 白 数 据 库 )
http://www.sanger.ac.uk/Projects/C_elegans/wormpep/
YPD ( Yeast protein database
酵 母 蛋 白 质 数 据 库 )
http://www.proteome.com/databases/YPD/
EPD真核基因启动子数据库
BODYMAP人和老鼠基因表达信息的数据库 http://bodymap.ims.u-tokyo.ac.jp/
DbEST http://www.ncbi.nlm.nih.gov/dbEST/
DbSTS http://www.ncbi.nlm.nih.gov/dbSTS/
UniGene http://www.ncbi.nlm.nih.gov/UniGene/
SCPD: http://cgsigma.cshl.org/jian/
酵母细胞周期表达数据库:http://171.65.26.52/yeast_cell_cycle/cellcycle.html
微阵列基因表达数据库:http://www.mged.org/
Homeobox
Genes
DataBase
http://www.iephb.nw.ru/labs/lab38/spirov/hox_pro/summary.html
Life
Science
分子生物学软件
1. 分析和处理实验数据和公共数据,加快研究进
度,缩短科研时间
2. 提示、指导、替代实验操作,利用对实验数据
的分析所得的结论设计下一阶段的实验
3. 用计算机管理实验室数据及文献资料
4. 用计算机预测新基因及其结构和功能
5. 蛋白高级结构预测
Life
Science
1. 分析和处理实验数据和公共数据,加快研究进度,缩短科研
时间
蛋白:序列同源性比较,结构信息分析(包括Motif,
限制酶切点,内部重复序列的查找,氨基酸残基组成
及其亲水性及疏水性分析),等电点及二级结构预测等
等
核酸:序列同源性比较,分子进化树构建,结构信息
分析,包括基元(Motif)、酶切点、重复片断、碱基组
成和分布、开放阅读框(ORF),蛋白编码区(CDS)
及外显子预测、RNA二级结构预测、DNA片段的拼接
本地序列与公共序列的联接,成果扩大
Life
Science
五、展望与建议
Life
Science
第四次科学浪潮?
基因组超大量的序列和结构数据 
?
重大的发现
Life
Science
进一步学习
1、http://www.molbiol.ox.ac.uk/tutorials/year2_theory.html
2、http://www3.oup.co.uk/nar/Volume_27/Issue_01/
3、http://telomere.nrc.ca/html/dans_list.htm