生物資訊 (Bioinformatics) 蔡懷寬 E-mail:

Download Report

Transcript 生物資訊 (Bioinformatics) 蔡懷寬 E-mail:

生物資訊
(Bioinformatics)
蔡懷寬
E-mail: [email protected]
Please tell me

Why you are here?

Make a definition of bioinformatics
Introduction

What is bioinformatics?

Why bioinformatics?

The past, current, and future in
bioinformatics
什麼是生物資訊學?

它是一個跨領域的學門:



結合生物、資訊科學、數學、物理及化學等領域
終極目標:了解生物特性及生命本質
重要的子領域:
 大量資料的分析演算法及統計方法
 各種生物序列, 結構, 功能及演化的分析
與解釋
 管理及使用各種型態資訊的軟體工具
為什麼需要生物資訊學?
REVOLUTION IN BIO-MEDICAL RESEARCH
CLASSICAL APPROACH
Northern Hybridization
Western Hybridization
Southern Hybridization
RFPD
HIGH-THROUGHPUT APPROACH
Differential Display
Subtraction Library
Real-Time PCR
Microarray
2-Dimensional Protein Electrophoresis
Serial Analysis of Gene Expression
Expression Sequence Tags
EXPERIMENT DRIVEN
Hypothesis  Experiment
INFORMATION DRIVEN
Experiment  Hypothesis
為什麼需要生物資訊學?

生物相關資料的累積迅速,資料量非常
大,亟需電腦協助分析
The GeneBank Data (9/25/2002)
Year
Base Pairs
Sequences
1982
680338
606
1983
2274029
2427
1984
3368765
4175
1985
5204420
5700
1986
9615371
9978
1987
15514776
14584
1988
23800000
20579
1989
34762585
28791
1990
49179285
39533
1991
71947426
55627
1992
101008486
78608
1993
157152442
143492
1994
217102462
215273
1995
384939485
555694
1996
651972984
1021211
1997
1160300687
1765847
1998
2008761784
2837897
1999
3841163011
4864570
2000
11101066288
10106023
2001
15849921438
14976310
Protein DataBank Data (9/25/2002)
為什麼需要生物資訊學?




生物相關資料的累積迅速,資料量非常
大,亟需電腦協助分析
提供實驗設計更宏觀的看法,從以往個
別基因的研究,邁向整個基因組的研究
透過資料挖掘來了解基因功能及蛋白質
結構
更進一步了解演化歷史及物種間的演化
關係
人類基因組解讀計畫
基因組(genome)


All the genetic material in the chromosomes
of a particular organism
Its size is generally given as its total number
of base pairs.
基因組的大小






Human: 3000 million bases
Mouse: 3000 million bases
Drosophila (fruit fly): 165 million bases
Nematode (roundworm): 100 million bases
Yeast (fungus): 14 million bases
E. coli (bacteria) 4.67 million bases
人類基因組解讀計畫


簡稱為HGP (Human Genome Project)
主要目標有:






identify all the genes in human DNA,
determine the sequences of the 3 billion chemical
bases that make up human DNA
store this information in databases
develop tools for data analysis
transfer related technologies to the private sector
address the ethical, legal, and social issues (ELSI)
that may arise from the project
Human Genome
HGP的沿革與進展



HGP從1990年起開始進行
HGP是由美國及英國所主導的一項全球
性計畫
2000年六月與Celera私人公司共同宣布
人類基因組的初稿已完成
HGP的沿革與進展(續)

2001年2月:


Initial sequencing and analysis of the
human genome (Nature, Vol. 409, 15 Feb.
2001, by International Human Genome
Sequencing Consortium)
The sequence of the human genome
(Science, Vol. 291, 16 Feb. 2001, by J. C.
Venter, et al.)
Biology moves into the silicon
stage
in vivo
in vitro
in silico
從HGP來看整個生物資訊界的脈動
Before HGP

String analysis

Pair-wise, multiple sequence alignment
Sequence Analysis Alignment


Pair-wise alignment
SURVIVE
SURVIVE
SURIUE
SUR- IUE
Multiple sequence alignment
RPCVCPVLRQAAQ
RPCACCPVLRQVVQ
KPCLCPRQLRQV
KPCCPRQAAQ
S
s1
s2
RPCACCP__VLRQVVQ a2
s3
s4
RPCVC_ P__VLRQAAQ a1
KPCLC_ P RQLRQV_ _ a3
KPC_C_ P____ RQAAQ a4
A
Before HGP

String alignment


Pair-wise, multiple alignment
Linkage analysis
Linkage Analysis
Before HGP

String alignment



Pair-wise, multiple alignment
Linkage analysis
Phylogenetic tree
Phylogenetic Tree
Phylogenetic Tree
Before HGP

String alignment





Pair-wise, multiple alignment
Linkage analysis
Phylogenetic tree
Protein structure prediction
…
Protein Structure Prediction
During HGP

Sequencing


Physical mapping
Fragment assembly
Sequencing Strategies (1)
• Map-Based Assembly:
• Create a detailed complete fragment map
• Time-consuming and expensive
• Provides scaffold for assembly
• Original strategy of Human Genome Project
Sequencing Strategies (2)
• Shotgun:
• Quick, highly redundant – requires 7-9X coverage
•
•
•
for sequencing reads of 500-750bp. This means
that for the Human Genome of 3 billion bp, 21-27
billion bases need to be sequence to provide
adequate fragment overlap.
Computationally intensive
Troubles with repetitive DNA
Original strategy of Celera Genomics
Shotgun Sequencing: Assembly of
Random Sequence Fragments
• To sequence a Bacterial Artificial Chromosome (100-300Kb),
millions of copies are sheared randomly, inserted into plasmids,
and then sequenced. If enough fragments are sequenced, it will
be possible to reconstruct the BAC based on overlapping
fragments.
During HGP

Sequencing



Physical mapping
Fragment assembly
Gene Prediction
During HGP

Sequencing




Physical mapping
Fragment assembly
Gene Prediction
…
After HGP (Post Genomic)

Microarray
Microarray
After HGP (Post Genomic)


Microarray
Regulatory network
Regulatory Network  Simplified
representation of the NF- B network.
After HGP (Post Genomic)




Microarray
Regulatory network
Proteomics
…
生物資訊學的相關課題
生物資訊相關主題(1)

定序(sequencing)


基因組的DNA序列很長,但卻扭曲在小小的
細胞內,目前仍然沒有方法可以一次將整個
序列讀出來
現階段的方法都是將基因組序列切成很多的
小段,然後藉由重疊的區域將整個基因組序
列再組合回來
生物資訊相關主題(2)

序列分析(sequence analysis)









藉由序列分析的結果,來探索序列的功能
這是基因組學(genomics)分析的基礎
DNA序列間的比較
蛋白質序列間的比較
長序列的比較
相似序列的比較
多重序列比較
SNP (Single nucleotide polymorphism)
Haplotypes
生物資訊相關主題(3)

找尋基因(gene finding)



給定一個基因組序列,決定各個基因的位置
由於目前尚未完全理解DNA語言,所以並沒
有百分之一百正確的方法可以直接從基因組
序列決定出所有的基因出現位置
現階段的方法,很多都是用已知的基因所歸
納出來的規則來做判斷
生物資訊相關主題(4)

生物資訊資料庫(bioinformatics database)


生物序列相關的資訊累積很快,資料庫已成為
生物資訊應用上最重要的工具
資料庫就是一堆資料的儲存庫,它的存放方式,
通常會規劃得讓電腦可以快速搜尋及擷取資料。
而資料庫管理系統則可讓使用者設計所需要的
資料庫,以及操作資料庫所需的修訂、存取及
搜尋功能。
生物資訊相關主題(5)

蛋白質結構的預測(protein structure prediction)



蛋白質的功能很多是由它的結構所決定的
X-ray及NMR是目前決定蛋白質結構常用的方式
如何從蛋白質的一維序列推測它的三維結構,是
一個很難但很重要的研究課題
生物資訊相關主題(6)

蛋白體學(proteomics)
methodological developments in protein
separation and characterization
 advances in bioinformatics, and
 novel applications of proteomics in all
areas of the life sciences and industry.
(These endeavours give new insights into
protein functions, interactions and
pathways.)

生物資訊相關主題(7)

演化樹的建構(evolutionary tree construction)




演化樹的建構可協助了解演化過程及歷史
有的方法根據特徵(character)保留的狀況表
來決定演化樹
有個方法根據物種間的距離來決定演化樹
大部分的演化樹建構問題都是NP-Complete
(換句話說,都是很難的計算問題)
生物資訊相關主題(8)

其他課題:





RNA二維結構預測(RNA secondary structures)
比較基因組學(comparative genomics)
基因網路(genetic networks)
微陣列晶片(microarrays 或稱基因晶片)
分子計算機(molecular computers)
生物資訊的相關文獻
Bioinformatics and Computational
Biology-Related Journals:









Bioinformatics (期刊原名為CABIOS)
Bulletin of Mathematical Biology
Computers and Biomedical Research
Genome Research
Genomics
Journal of Computational Biology
Journal of Molecular Biology
Nature
Science
Bioinformatics and Computational
Biology-Related Conferences:




the first IEEE Computer Society
Bioinformatics Conference (CSB 2002, CA,
USA)
Intelligent Systems for Molecular Biology
(ISMB 2003, Brisbane, Australia)
Pacific Symposium on Biocomputing
(PSB 2003, Kauai, Hawaii, USA)
The Seventh Annual International Conference
on Research in Computational Molecular
Biology (RECOMB 2003, Berlin, Germany)
Bioinformatics and
Computational Biology-Related
Books:






Calculating the Secrets of Life: Applications of the
Mathematical Sciences in Molecular Biology, by Eric S.
Lander and Michael S. Waterman (1995)
Introduction to Computational Biology: Maps, Sequences,
and Genomes, by Michael S. Waterman (1995)
Introduction to Computational Molecular Biology, by Joao
Carlos Setubal and Joao Meidanis (1996)
Algorithms on Strings, Trees, and Sequences: Computer
Science and Computational Biology, by Dan Gusfield (1997)
Computational Molecular Biology: An Algorithmic Approach,
by Pavel Pevzner (2000)
Introduction to Bioinformatics, by Arthur M. Lesk (2002)
生物資訊學相關網頁

MIT Biology Hypertextbook



The International Society for Computational Biology:



http://www.ncbi.nlm.nih.gov/
(NCBI, EBI 及 DDBJ是目前生物序列的三大集散中心,
它們互相傳遞資料)
European Bioinformatics Institute (EBI):


http://www.iscb.org/
National Center for Biotechnology Information
(NCBI, NIH):


http://www.mit.edu:8001/afs/athena/course/other/esgbio/www/700
1main.html
很不錯的on-line生物學
http://www.ebi.ac.uk/
DNA Data Bank of Japan (DDBJ):

http://www.ddbj.nig.ac.jp/
生命科學與資訊科學的互動

就某方面而言,這種互動很類似物理與
數學間的互動:


因為要解釋某些大量生物資料的信息,帶動
了新的資訊分析方法及工具的製作
新的資訊理論及工具的產生,也為未來的生
物學研究,舖設了新的途徑。
跨領域合作

文化背景不同



Credits
隔行如隔山
真理只有一個
研究步驟不同


分生的應用常迫在眉睫;而資訊理論的開發
卻常曠日費時且充滿不確定性
Theory & Practice
眼光要放遠