ゲノム統合データベースからの知識発見

Download Report

Transcript ゲノム統合データベースからの知識発見

神奈川科学技術アカデミー
バイオインフォマティクスコース
蛋白質立体構造予測 I,II,演習
阿久津 達也
東京大学 医科学研究所
ヒトゲノム解析センター
講義内容 I
①
②
③
④
⑤
蛋白質立体構造とその特徴
立体構造データベース: PDB
立体構造の分類: SCOP
立体構造表示ソフト: RASMOL
構造予測法の分類
講義内容 II
①
②
③
④
⑤
⑥
物理的原理に基づく方法
格子モデル
二次構造予測法
スレッディング法
スコア関数
立体構造予測コンテスト CASP
実習内容
①
立体構造の検索、表示、分類
(PDB,RASMOL,SCOP)
②
③
④
⑤
⑥
立体構造アライメント(DALI)
二次構造予測(PHD)
フォールド予測(スレッディング)
(GTOP,FUGUE,3DPSSM)
ホモロジーモデリング(FAMS)
CASP
遺伝子と蛋白質

遺伝情報の流れ


エ キソ ン
DNA
DNA配列中で直接的に
機能する部分
転写 ・
スプライシング
m RNA
GGU


G G U → G ly
染色体全体(半数体)
遺伝情報の総体
タンパク質
アミノ酸(20種類)の鎖
GCA
翻訳
ゲノム


エ キソ ン
遺伝子


DNA⇒RNA⇒タンパク
エ キソ ン
G C A → A la
タンパ ク質
蛋白質立体構造予測



アミノ酸配列から、蛋
白質の立体構造(3次
元構造)をコンピュー
タにより推定
実験よりは、はるかに
精度が悪い
だいたいの形がわか
れば良いのであれば、
5割近くの予測率
ア ミ ノ酸 配 列
T
C
A
V
F
G
L
G
G
V
R
L
S
V
D
コンピュー タ
タンパ ク質
立体構造
アミノ酸と蛋白質


アミノ酸:20種
類
蛋白質:アミノ酸
の鎖(短いもの
はペプチドと呼
ばれる)
ア ミ ノ酸
R
H
側鎖
OH
C
N
C
アミ ノ基
カル ボシキル 基
H
H
O
蛋白質
R
H
O
H
C
N
N
C
C
C
O
R
H
H
ペ プ チ ド結 合
側鎖の例
A la ア ラ ニ ン
CH
P he フ ェ ニ ル
A sp ア ス パ ラ
H is ヒ ス
C ys シ ス
ア ラニ ン
ギン酸
チジン
テイン
3
CH
HC
H3C
CH
C
CH
CH
CH
HC
V al バ リ ン
O
3
O
-
HN
SH
+
C
CH
NH
2
2
CH
CH
CH
2
G ly グ リ シ ン
2
H
アミノ酸コード表
Ala
Arg
Asn
Asp
Cys
Gln
Glu
Gly
His
Ile
A
R
N
D
C
Q
E
G
H
I
アラニン
アルギニン
アスパラギン
アスパラギン酸
システイン
グルタミン
グルタミン酸
グリシン
ヒスチジン
イソロイシン
Leu
Lys
Met
Phe
Pro
Ser
Thr
Trp
Tyr
Val
L ロイシン
K リシン
M メチオニン
F フェニルアラニン
P プロリン
S セリン
T トレオニン
W トリプトファン
Y チロシン
V バリン
アミノ酸の分類

疎水性アミノ酸


荷電アミノ酸(親水性)


Asp, Glu, Lys, Arg
極性アミノ酸


Ala, Val, Leu, Ile, Phe, Pro, Met
Ser, Thr, Tyr, His, Cys, Asn, Glu, Trp
グリシン(疎水性に分類されることもある)

Gly
蛋白質の種類と高次構造

蛋白質の分類







球状蛋白質
繊維状蛋白質
膜蛋白質
一次構造(アミノ酸配列)
二次構造(α、β、それ以外(ループ、コイル))
三次構造(三次元構造、立体構造)
四次構造(複数の鎖)
蛋白質立体構造の決定

主にX線結晶解析かNMR解析による



アミノ酸配列決定より困難



一般にX線解析の方が精度が高い
しかし、結晶中の構造しかわからない
半年から1年くらいかかることも珍しく無い
既知アミノ酸配列 > 10万
既知立体構造 < 1万
蛋白質立体構造の特徴


基本的には鎖(ひも)状
二種類の特徴的な構
造が頻繁に現れ、立体
構造の骨格(コア)を作
る


αへリックス(らせん状の
部分)
βシート(ひも状の部分
が並んだ部分)
α
β
ループ
構造とアミノ酸の種類の関係

(球状)蛋白質


αへリックス


内側:疎水性 外側:親水性
βストランド


内側:疎水性アミノ酸 外側:親水性アミノ酸
疎水性と親水性が交互に現れる
ループ領域

親水性が高い
立体構造データベース

PDB(Protein Data Bank )



SCOP


蛋白質立体構造データベース
現在約16000データ(ただし重複あり)
立体構造分類データベース
FSSP/DALI

立体構造アライメントデータベース/アライメ
ントサーバー
蛋白質立体構造の分類

構造分類の必要性



立体構造と機能の間には密接な関係
配列が似ていなくても構造類似の蛋白質が多数存在
SCOPによる階層的クラス分け




Class: 二次構造の組成(α、β、α+βなど)に基づく分
類
Fold: 構造の類似性
Superfamily: 進化的類縁性
Family: 明らかな進化的類縁性
立体構造アライメント



立体構造の類似性
判定のために有用
どのように回転、平
行移動すれば、最適
な残基間の対応づけ
が得られるかを計算
DALI,VASTなどいく
つかのアルゴリズム
Rasmol




蛋白質立体構造表示ツール
Windows版、UNIX版、LINUX版など(フ
リー)
バックボーン表示、リボン形式など様々な
形式での表示が可能
マウスなどで、回転、拡大なども可能
立体構造予測法の分類




力学的原理に基づく方法
格子モデル
2次構造予測
スレッディング
物理的原理に基づく方法






エネルギー最小化、もしくは、微分方程式を(数
値的に)解く、などの物理的原理に基づく方法
主として分子動力学法(Molecular Dynamics)
数十残基程度であれば、実際の蛋白質やペプチ
ドと似た構造を推定可能(なことがある)
構造の最適化や安定性の解析には実用的
側鎖のパッキングの計算にも有効
超並列計算機の利用 IBM BLUE GENEなど
分子動力学法


エネルギーの極小化(Eを極小化)
フォールディングのシミュレーション


mi d2ri/dt2 = -∇i E を差分化
E = Eb + Eθ + Eφ + Evdw + Eel





Eb = ΣKb(r-r0)2
結合長
Eθ = ΣKθ(θ-θ0)2
結合角
Eφ = ΣKφ[1+cos(nφ-δ)] 二面角
Evdw = Σ[Aij/(rij2)-Bij/(rij6)] ファンデルワールス力
Eel = Σqiqj/(εrij)
静電相互作用(クーロン力)
格子モデル


各残基が格子
点にあると仮定
予測よりも、
フォールディン
グの定性的な
理解のために
利用される
格子モデルに基づく研究


折れ畳み経路の
シミュレーションに
よる定性的理解
→フォールディン
グファンネル
エネルギー最小
の構造の計算法
→NP困難
親 水 性 アミ ノ酸
疎 水 性 アミ ノ酸
スコア
=-9
スコア
=-5
配列
二次構造予測




アミノ酸配列中の各残基
が、α、β、それ以外のど
れに属するかを予測
でたらめに推定しても、
33.3%の的中率
最も高精度なソフトを使え
ば、70%~80%の的中率
ニューラルネット、HMM、
サポートベクタマシンなど
の利用
L A P
α
β
I K
それ以 外
ニューラルネットによる二次構造予測
出力層
中間層
(隠 れ 層 )
入力層
Lys
V al
Le u
Asn
A la
Thr
G ly
膜蛋白質の膜貫通領域予測

膜貫通領域



αへリックス
7~17残基程
度の疎水性指
標の平均値を
プロット
平均値が高い
部分が膜貫通
領域と推定
D
膜蛋白
A
G
I
V
L
P
V
R
K
Q
A 1 .8
C : 2.5
D : - 3.5
E : -3 .5
F: 2 .8
細
胞
膜
...
疎水性
指標
フォールド予測(Fold Recognition)


精密な3次元構造
ではなく、だいたい
の形(fold)を予測
立体構造は1000
種類程度の形に分
類される、との予
測(Chotia, 1992)
に基づく
ア ミ ノ酸 配 列
T
C
A
V
F
G
L
G
G
V
R
L
1 00 0個 の テ ン プ レ ー ト 構 造
S
V
D
蛋白質スレッディング
立体構造(テンプレート)とアミノ酸配列の間
のアライメント
立体構造
T
C
A
V
ア ミ ノ酸 配列
F
G
L
G
K
V
R
L
S
V
D
スレッディングとアライメント
立体構造
T
C
A
V
F
入 力 ア ミ ノ酸配 列
G
L
G
K
V
R
L
S
V
D
A
L
G
F
G
S
L
Y
A
L
G
G V
S
L
G
A
L
G
F
S
L
A
L
G
S
L
G
G
V
G
Y
G
G
蛋白質スレッディングによる構造予測
①
②
③
構造未知の配列と既知の立体構造(数
百種類程度)の間のスレッディングを、そ
れぞれ、計算
スレッディング結果のスコア(適合度)が
最も高い構造を採用(スレッディングによ
り対応づけられた座標にアミノ酸を配置)
必要があれば、分子動力学法などを用
いて構造を最適化
スレディング法の分類

プロファイルによるスレッディング




PSI-BLAST
3D-1D法
構造アライメント結果に基づくスレッディング
残基間ポテンシャルによるスレッディング



コンタクトポテンシャル
距離依存ポテンシャル
その他のポテンシャル
残基4
プロファイル
残基3
立体構造


アライメントに
おけるスコア
行列と類似
スレッディング
の場合、残基
位置ごとにスコ
ア(位置依存ス
コア)
残基2
残基1
残基1 残基2 残基3 残基4
A
3.8
- 3.5
1.2
2.3
C
1.5
1.3
- 0.3
- 4.6
D
- 1.5
- 2.9
4.2
3.1
E
0.2
2.1
3.7
- 1.3
プロファイルによるアライメント


動的計画法
(DP)により
最適解を計
算
スコア行列
のかわりに
プロファイ
ルを使う
ア ミ ノ 酸 配 列 : A E D ......
プロ ファイル :
残基1 残基2 残基3 残基4
A
3 .8
- 3 .5
1 .2
2 .3
C
1 .5
1 .3
- 0 .3
- 4 .6
D
- 1 .5
- 2 .9
4 .2
3 .1
E
0 .2
- 4 .1
3 .7
- 1 .3
ア ライ メン ト
1 2 3 .....
A E D .....
1 2 34 .....
A -E D .....
1 - 2 3 .....
A E D C ...
3.8 -4.1+ 4 .2
3 .8 -2.0+ 3.7 +
3.8- 2.0-2 .9 +
=3.9
3 .1 =8.7
-0.3 =-1 .4
スコア
3D-1Dプロファイル


最初のversion
はEisenbergら
が1991年に提
案
構造中の残基
(位置)を18種
類の環境に分類


二次構造
(3種類)
内外性+極性
(6種類)
主鎖
側鎖
内外性
α
β
E
P2
P1
B3
極
B2
B1
性
残基1
3D-1Dプロファイル
残基4
蛋白質立体
残基2
構造
残基3
環 境 ク ラス
B 1α
内外性
E
P2
P1
B3
B2
B1
B 1β
B1
・ ・ ・ ・
A
-0 .66
- 0 .7 9
-0 .91
・ ・ ・ ・
A
-0 .7 9
-0 .79
- 0.9 1
・ ・ ・ ・
R
-1 .67
- 1 .1 6
-2 .16
・ ・ ・ ・
R
-1 .1 6
-1 .16
- 2.1 6
・ ・ ・ ・
ア
・
・
ミ
・
・
・
・
・
・
・
・
・
・
極
ノ
性
酸
Y
0.1 8
0 .0 7
0.1 7
・ ・ ・ ・
Y
0.0 7
0.0 7
0 .17
・ ・ ・ ・
W
1.0 0
1 .1 7
1.0 5
・ ・ ・ ・
W
1.1 7
1.1 7
1 .05
・ ・ ・ ・
残基1
残基2
3D-1Dス コ ア
残基3
3 D - プ ロ フ ァ イル
その他のプロファイル

配列のマルチプルアライメントに基づくプロ
ファイル



PSI-BLAST、HMM
立体構造のマルチプルアライメントに基づ
くプロファイル作成
角度情報なども考慮したプロファイル
アライメントプロファイルに基づく
スレッディング
構造未知
A H WA K G Y LD
配列
アラ イメ
ン ト結 果
A D R Y P K W- D
A - H F A - Y V D
A - K F T H Y L D
A - H WA K G Y L D
スレッディ
ング
A D R Y P K - W- D
A - H F A- - Y V D
A - K F T H - Y L D
ポテンシャル型スコア関数を
用いたスレッディング

全体のポテン
シャルエネル
ギーを最小化
(Σfd(X,Y)が最
小となるような
スレッディング
を計算)
立体構造
f d (T , F )
d
T
C
A
V
ア ミ ノ酸 配 列
F
G
L
G
K
V
R
L
S
V
D
プロファイル型スコア関数と
ポテンシャル型スコア関数


Pos1
Pos2
Pos3
Pos4
プロファイル型スコア
関数
A
3 .8
-3.5
1 .2
2 .3
C
1 .5
1.3
- 0 .3
- 4 .6
(Eisenberg et al. 1991)
D
- 1 .5
-2.9
4 .2
3 .1
E
0 .2
2.1
3 .7
- 1 .3
ポテンシャル型スコア
関数
(Miyazawa, Sippl, . . .)
s c o re
A
d
L
d
コンタクトポテンシャルと
距離依存ポテンシャル

コンタクトポテンシャ
ル (Miyazawa... 1985)

s c o re
A
d
比較的少ないデータからス
コア関数を導出可能
L
d

距離依存ポテンシャ
ル (Sippl, . . .)

精度の高いスコア関
数を得るには多くの
データが必要
s c o re
A
d
L
d
ポテンシャル型関数を用いた場
合の最適解の計算


厳密な最適解の計算は困難(NP完全)
様々なアルゴリズムの提案

分枝限定法 (Lathrop & Smith 94,96)



Frozen Approximation (Godzik & Skolnick 92)


多くの場合に現実的な時間で最適解を計算可能
コア領域内でのギャップは許されない
通常のDPと同様のアルゴリズムが利用可能
Double DP (Jones, Taylor & Thornton 92)


DPを二重に用いる
立体構造アライメントなどにも応用可能
最適解がDPで計算できない理由と
Frozen Approximation


○にFをアラインする際
のスコアの正確な計算
には、○に何がアライン
されているかを知ること
が必要
Frozen Approximation
もとの構造中で○に割り
当てられている残基の
情報を利用
(図の例ではFとDのコン
タクトポテンシャル)
立体構造
D
T
C
A
V
ア ミ ノ酸 配列
F
G
L
G
K
V
R
L
S
V
D
スコア関数の導出

残基の出現頻度の対数をとる


統計力学のボルツマン分布などが根拠
3D-1Dスコア



環境eのもとでの残基aの出現頻度:fe(a)
環境eの出現確率
 score(e,a)=log (fe(a)/ fe)
ポテンシャル型スコア
(Quasichemical Approximation (Miyazawa 85))

距離dにおける残基ペアa,bの出現頻度:fd(a,b)
 scored(a,b) =-log fd(a,b)
他のスコア関数導出法

学習データ(既知構造データ)より以下を
満たすスコア(エネルギー)を導出





正しい構造のエネルギー < 誤った構造のエネルギ or
Max( 誤った構造のエネルギー - 正しい構造のエネルギー )
ニューラルネット (Goldstein et al. 92)
モンテカルロ法 (Mirny,Shakhnovich 96)
線形計画法 (Maiorov,Crippen 92)
スレッディングに関するまとめ

プロファイル型


DPによりスレッディングが計算可能
ポテンシャル型

DPは(直接は)適用不可




Frozen Approximation, Double DP, …
コンタクトポテンシャル
距離依存ポテンシャル
スコア関数の導出

対数頻度
立体構造予測コンテスト:CASP


CASP (Critical Assessment of Techniques
for Protein Structure Prediction)
ブラインドテストにより予測法を評価
①
②
③
半年以内に立体構造が実験により決定する見込
みの配列(数十種類)をインターネット上で公開
参加者は予測結果を送付
構造決定後、正解とのずれなどを評価、順位づ
け
CASPの経過と結果の公表


CASP1 (1994), CASP2(1996), CASP3(1998),
CASP4(2000)
CAFASP(1998,2000)


完全自動予測法の評価
結果の公表


会議
ホームページ


http://predictioncenter.llnl.gov/
学術専門誌(Proteins)
予測カテゴリー

3D coordinate


Alignments to PDB structure


スレッディング
Residue-residue contacts


具体的な座標値まで計算→MDなど
残基間距離の推定
Secondary structure assignments

二次構造予測
各種サイト





PDB(立体構造データベース)
RASMOL(立体構造表示プログラム)
PHD(二次構造予測システム)
GTOP(PSI-BLASTベースの予測システム)
CAFASP2 servers(各種スレッディングプロ
グラムへのリンク)
まとめ

立体構造予測




実用的な予測法


正確な座標は予測できない
だいたいの形の予測であれば5割程度
二次構造予測であれば、70%-80%程度
PSI-BLASTに基づく方法が有力
進行中のプロジェクト

立体構造の網羅的決定→
残りの構造はアライメントでほぼ確実に推定
演習1

立体構造の検索、表示、分類




PDB(http://www.rcsb.org/pdb/)
RASMOL(http://www.umass.edu/microbio/rasmol/i
ndex2.htm)
SCOP(http://scop.mrc-lmb.cam.ac.uk/scop/)
実際の作業

PDBにてキーワード入力



(例:myoglobin, 1bov)
RASMOLで表示
SCOPにて分類を確認
演習2

立体構造アライメント、表示


DALI/FSSP(http://www.ebi.ac.uk/dali/)
実際の作業



FSSPにてmyoglobinと入力
1a6mをチェック
1a6m,1ash,1cpcAをチェック→アライメント結
果の表示(narrow)→アライメント結果をセーブ
し、RASMOLで表示
演習3

二次構造予測


PHD(http://www.emblheidelberg.de/predictprotein/predictprotein
.html)
実際の作業

DBGETでSwissprotをセレクトし、キーワード入
力(例:prion,lectin)→配列データをコピーし、
PHDに入力
演習4

フォールド予測(PSI-BLASTベース)


GTOP(http://spock.genes.nig.ac.jp/~geno
me/)
実際の作業

演習3のデータをGTOPにコピー→結果を見る
演習5

構造プロファイルなどに基づくスレッディン
グ


FUGUE(http://wwwcryst.bioc.cam.ac.uk/~fugue/prfsearch.htm
l)
3DPSSM(http://www.bmm.icnet.uk/servers
/3dpssm/)
演習6、7

ホモロジーモデリング


FAMS(http://physchem.pharm.kitasatou.ac.jp/FAMS/fams.html)
CASP結果の閲覧

http://predictioncenter.llnl.gov/