第0回 - Kyoto University Bioinformatics Center

Download Report

Transcript 第0回 - Kyoto University Bioinformatics Center

分子生物情報学(0)
バイオインフォマティクス
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
バイオインフォマティクス(1)


生物学+情報技術(IT)
1990年代に大きく発展
← ゲノム計画の急速な進展
(既に100種類程度以上の生物種のゲノムが決定)

情報解析の必要性



DNA配列⇔プログラムのオブジェクトコード
意味の解析が必要
配列以外のデータ解析も重要

立体構造、遺伝子発現データ、代謝パスウェイなど
バイオインフォマティクス(2)

主要トピック






データベース構築
遺伝子発見、遺伝子制御領域推定
配列検索、配列比較、進化系統樹
たんぱく質/RNA構造予測、機能予測、相互作用予測
遺伝子発現データ解析
分野としての特徴


多くのデータベース・ソフトウェアがWEBなどから利用可能
研究成果が(生物学研究への)応用に直結
バイオインフォマティクスにおける
データベース

多くの重要なデータベースが無償でWEBから
アクセス可能





DNA配列: GenBank, EMBL, DDBJ
タンパク質配列: Swissprot
タンパク質立体構造: PDB
モチーフ: Prosite, Pfam, …
代謝パスウェイ: KEGG
バイオインフォマティクスセンター
Bioinformatics Center



京都大学 化学研究所 附属
2001年4月設立
現在、4研究室



金久研: KEGG
藤研: 分子進化
馬見塚研:
データマイニング

阿久津研:
アルゴリズム
研究室の研究内容

研究方針



数理的原理に基づく生命情報解析手法の開発
生命システムの数理的理解
研究トピック

相互作用推定






タンパク質―タンパク質、遺伝子―遺伝子など
スケールフリーネットワーク
配列解析(文字列解析)アルゴリズム
タンパク質立体構造解析(比較・予測)
化学情報解析(ケモインフォマティクス)
生物データ解析のための統計的手法

HMM、サポートベクタマシン
遺伝子と蛋白質

遺伝情報の流れ


遺伝子


DNA配列中で直接的に
機能する部分
エ キソ ン

(プ ロモ ー タ ー な ど)
転写 ・
スプライシング
mRNA
GGU

アミノ酸(20種類)の鎖
GCA
翻訳
G G U → G ly
染色体全体(半数体)
遺伝情報の総体
タンパク質
エ キソ ン
転写制御領域
ゲノム


DNA⇒RNA⇒タンパク
エ キソ ン
G C A → A la
タンパ ク質
DNA
DNAとアミノ酸
DNAはA,C,G,Tの4文
字の並び

DNAは二重ラセン構
造⇒相補鎖

塩基:DNA1文字、
残基:アミノ酸1文字

DNA3文字がアミノ酸
1文字に対応
(アミノ酸は20種類)

コー ド表
T
T
1
文
字
C
目
A
相補鎖
G
A
C
G
T
C
G
T
C
T
G
C
A
G
C
A
G
2文 字 目
C
TTT
T TC
F
T TA
TTG
L
CTT
C TC
C TA
C TG
L
ATT
A TC
A TA
I
A TG
M
G TT
G TC
G TA
G TG
V
TC T
TC C
TC A
TC G
CCT
C CC
CCA
CCG
ACT
ACC
ACA
ACG
GC T
GC C
GC A
GC G
A
S
P
T
A
TA T
TA C
TA A
TA G
G
Y
s to p
TG T
TGC
TGA
TGG
CAT
CAC
H
CAA
CAG
C
s to p
W
Q
C GT
C GC
C GA
C GG
R
AAT
AAC
N
A GT
A GC
S
AAA
AAG
K
A GA
A GG
R
GA T
GA C
D
GA A
GA G
E
GG T
GGC
GGA
GG G
G
アミノ酸と蛋白質


アミノ酸:20種類
蛋白質:アミノ酸の
鎖(短いものはペ
プチドと呼ばれる)
ア ミ ノ酸
R
H
側鎖
OH
C
N
C
アミ ノ基
カル ボシキル 基
H
H
O
蛋白質
R
H
O
H
C
N
N
C
C
C
O
R
H
H
ペ プ チ ド結 合
側鎖の例
A la ア ラ ニ ン
CH
P he フ ェ ニ ル
A sp ア ス パ ラ
H is ヒ ス
C ys シ ス
ア ラニ ン
ギン酸
チジン
テイン
3
CH
HC
H3C
CH
C
CH
CH
CH
HC
V al バ リ ン
O
3
O
-
HN
SH
+
C
CH
NH
2
2
CH
CH
CH
2
G ly グ リ シ ン
2
H
計算量

情報科学では、入力データのサイズ(n)に対して、計算時間がど
のように変化するかを理論的に解明することが重要
 O(n): かなり速い(文字列検索など)
 O(n log n): 結構速い(ソートなど)
2
 O(n ): まあまあ速い(アライメントなど)
3
 O(n ): ちょっと遅い(RNA二次構造予測など)
4
 O(n ): 結構遅い(Pseudo-knotつきRNA二次構造予測など)
 NP困難: すごく遅い (マルチプルアライメント、スレッディングなど)



P=NP は理論計算機科学における最大の難問
P≠NPならば、NP困難問題に対する理論的に効率的なアルゴリズム
(多項式時間アルゴリズム)は存在しない
しかし、タンパク質配列などは n ≦ 1000 くらいなので、実用アルゴリ
ズムを開発できる可能性はある
講義内容







ペアワイズアライメント法(動的計画法)
マルチプルアライメント法
確率モデル(HMM)に基づく配列解析
進化系統樹推定法
RNAおよびタンパク質の高次構造推定
遺伝子発現データの情報解析法
スケールフリーネットワーク