第１回 - Kyoto University Bioinformatics Center

Transcript 第１回 - Kyoto University Bioinformatics Center

集中講義（東京大学）「化学システム工学特論第３」
バイオインフォマティクス的手法による化合物の性質予測
（１）
バイオインフォマティクス概観
阿久津達也
京都大学化学研究所
バイオインフォマティクスセンター
バイオインフォマティクス（１）


生物学＋情報技術（IT）
１９９０年代に大きく発展
← ゲノム計画の急速な進展
（既に１００種類以上の生物種のゲノムが決
定）

情報解析の必要性



DNA配列⇔プログラムのオブジェクトコード
意味の解析が必要
配列以外のデータ解析も重要

立体構造、遺伝子発現データ、代謝パスウェイなど
バイオインフォマティクス（２）

主要トピック








データベース構築
遺伝子発見、遺伝子制御領域推定
配列検索、配列比較、進化系統樹
タンパク質構造予測、機能予測、相互作用予測
遺伝子発現データ解析
ネットワーク構造解析
化合物の性質推定
分野としての特徴


多くのデータベース・ソフトウェアがWEBなどから利用可能
研究成果が（生物学研究への）応用に直結
バイオインフォマティクスにおける
データベース

多くの重要なデータベースが無償でWEBから
アクセス可能





DNA配列： GenBank, EMBL, DDBJ
タンパク質配列： Swissprot
タンパク質立体構造： PDB
モチーフ： Prosite, Pfam, …
代謝パスウェイ： KEGG
バイオインフォマティクスセンター
Bioinformatics Center



京都大学化学研究所附属
2001年4月設立
現在、４研究室


金久研: KEGG
馬見塚研:
データマイニング

阿久津研:
アルゴリズム

人材養成ユニット（藤研）: 分子進化
KEGG:
Kyoto Encyclopedia of Genes and Genomes


金久研が開発しているデータベース
様々な生物情報データを格納
代謝パスウェイ
 化合物、代謝反応式
 ゲノム配列
 遺伝子発現データ
 DBGET (統合データベースシステム)


GenBnak, PDB, SwissProt, …
KEGG:
Top page
KEGG中の代謝パスウェイの例
KEGG/LIGAND中の代謝反応式の例
研究室の研究内容

研究方針



数理的原理に基づく生命情報解析手法の開発
生命システムの数理的理解
研究トピック

相互作用推定






タンパク質―タンパク質、遺伝子―遺伝子など
スケールフリーネットワーク
配列解析（文字列解析）アルゴリズム
タンパク質立体構造解析（比較・予測）
化学情報解析（ケモインフォマティクス）
生物データ解析のための統計的手法

HMM、サポートベクタマシン
遺伝子と蛋白質

遺伝情報の流れ


遺伝子


DNA配列中で直接的に
機能する部分
エキソン
転写制御領域
（プロモーターなど）

スプライシング
mRNA
GGU

アミノ酸（２０種類）の鎖
GCA
翻訳
GGU → Gly
GCA → Ala
染色体全体（半数体）
遺伝情報の総体
タンパク質
エキソン
転写・
ゲノム


DNA⇒RNA⇒タンパク
エキソン
タンパク質
DNA
DNAとアミノ酸
DNAはA,C,G,Tの４文
字の並び

DNAは二重ラセン構
造⇒相補鎖

塩基：DNA１文字、
残基：アミノ酸１文字

DNA３文字がアミノ酸
１文字に対応
（アミノ酸は２０種類）

コード表
2文字目
T
TTT
TTC
T
１
文
字
目
C
A
TTA
TTG
CTT
CTC
CTA
CTG
ATT
ATC
ATA
ATG
相補鎖
G
A C G T C G T C
T G C A G C A G
GTT
GTC
GTA
GTG
C
F
L
L
I
M
V
TCT
TCC
TCA
TCG
CCT
CCC
CCA
CCG
ACT
ACC
ACA
ACG
GCT
GCC
GCA
GCG
A
S
P
T
A
TAT
TAC
TAA
TAG
G
Y
stop
CAT
CAC
H
CAA
CAG
TGT
TGC
TGA
TGG
C
stop
W
Q
CGT
CGC
CGA
CGG
R
AAT
AAC
N
AGT
AGC
S
AAA
AAG
K
AGA
AGG
R
GAT
GAC
D
GAA
GAG
E
GGT
GGC
GGA
GGG
G
アミノ酸と蛋白質


アミノ酸：２０種類
蛋白質：アミノ酸の
鎖（短いものはペ
プチドと呼ばれる）
アミノ酸
R
H
側鎖
OH
C
N
アミノ基
C
カルボシキル基
H
H
O
蛋白質
R
N
H
C
H
H
C
O
N
H
C
R
ペプチド結合
O
C
側鎖の例
Ala アラニン
Phe フェニル
アラニン
CH 3
CH
HC
Val バリン
H3 C
CH
C
CH 3
CH
O
CH
HC
Asp アスパラ
ギン酸
CH ２
O
C
-
His ヒス
チジン
Cys シス
テイン
HN
SH
+
NH
CH ２
CH 2
CH ２
Gly グリシン
H
計算量

情報科学では、入力データのサイズ(n)に対して、計算時間がど
のように変化するかを理論的に解明することが重要
 O(n): かなり速い（文字列検索など）
 O(n log n): 結構速い（ソートなど）
2
 O(n ): まあまあ速い（アライメントなど）
3
 O(n ): ちょっと遅い（RNA二次構造予測など）
4
 O(n ): 結構遅い（Pseudo-knotつきRNA二次構造予測など）
 NP困難：すごく遅い（マルチプルアライメント、スレッディングなど)



P=NP は理論計算機科学における最大の難問
P≠NPならば、NP困難問題に対する理論的に効率的なアルゴリズム
（多項式時間アルゴリズム）は存在しない
しかし、タンパク質配列などは n ≦ 1000 くらいなので、実用アルゴリ
ズムを開発できる可能性はある
講義内容







スケールフリーネットワーク
配列アライメント
タンパク質立体構造予測
遺伝子発現データ解析
タンパク質-リガンド・ドッキング
カーネル法を用いた化合物の性質予測
おわりに＋２１世紀COE「ゲノム科学の知
的情報基盤・研究拠点形成」

第１回 - Kyoto University Bioinformatics Center

Transcript 第１回 - Kyoto University Bioinformatics Center

Directory