第6回 - Kyoto University Bioinformatics Center

Download Report

Transcript 第6回 - Kyoto University Bioinformatics Center

分子生物情報学(6)
スレッディング法によるタンパク質立体構造予測
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
内容







構造予測に関連する基本事項
立体構造予測の分類
スレッディング法
3D-1Dプロファイル
ポテンシャル型スコア関数を用いたスレッ
ディング
CASP
まとめ
タンパク質立体構造予測



アミノ酸配列から、タンパク
質の立体構造(3次元構
造)をコンピュータにより推
定
実験よりは、精度は低い
だいたいの形がわかれば
良いのであれば、5割近く
の予測率
ア ミ ノ酸 配 列
T
C
A
V
F
G
L
G
G
V
R
L
S
V
D
コンピュー タ
タンパ ク質
立体構造
アミノ酸とタンパク質


アミノ酸:20種類
タンパク質:アミノ
酸の鎖(短いもの
はペプチドと呼ば
れる)
ア ミ ノ酸
R
H
側鎖
OH
C
N
C
アミ ノ基
カル ボシキル 基
H
H
O
タ ン パ ク質
R
H
O
H
C
N
N
C
C
C
O
R
H
H
ペ プ チ ド結 合
側鎖の例
A la ア ラ ニ ン
CH
P he フ ェ ニ ル
A sp ア ス パ ラ
H is ヒ ス
C ys シ ス
ア ラニ ン
ギン酸
チジン
テイン
3
CH
HC
H3C
CH
C
CH
CH
CH
HC
V al バ リ ン
O
3
O
-
HN
SH
+
C
CH
NH
2
2
CH
CH
CH
2
G ly グ リ シ ン
2
H
タンパク質の種類と高次構造

タンパク質の分類







球状タンパク質
繊維状タンパク質
膜タンパク質
一次構造(アミノ酸配列)
二次構造(α、β、それ以外(ループ、コイル))
三次構造(三次元構造、立体構造)
四次構造(複数の鎖)
タンパク質立体構造の決定

主にX線結晶解析かNMR解析による



アミノ酸配列決定より困難



一般にX線解析の方が精度が高い
しかし、結晶中の構造しかわからない
半年から1年くらいかかることも珍しく無い
既知アミノ酸配列 > 10万
既知立体構造(重複を除く) < 1万数千
タンパク質立体構造の特徴


基本的には鎖(ひも)状
二種類の特徴的な構造
が頻繁に現れ、立体構造
の骨格(コア)を作る


αへリックス(らせん状の部
分)
βシート(ひも状の部分が
並んだ部分)
α
β
ループ
立体構造データベース

PDB(Protein Data Bank )



SCOP


タンパク質立体構造データベース
現在約20000データ(ただし重複あり)
立体構造分類データベース
FSSP/DALI

立体構造アライメントデータベース/アライメ
ントサーバー
タンパク質立体構造の分類

構造分類の必要性



立体構造と機能の間には密接な関係
配列が似ていなくても構造類似のタンパク質が多
数存在
SCOPによる階層的クラス分け




Class: 二次構造の組成(α、β、α+βなど)に基づく
分類
Fold: 構造の類似性 ← スレッディング法の対象
Superfamily: 進化的類縁性
Family: 明らかな進化的類縁性
立体構造予測法の分類




物理学的原理に基づく方法
格子モデル
2次構造予測
スレッディング
物理的原理に基づく方法






エネルギー最小化、もしくは、微分方程式を(数
値的に)解く、などの物理的原理に基づく方法
主として分子動力学法(Molecular Dynamics)
数十残基程度であれば、実際の蛋白質やペプチ
ドと似た構造を推定可能(なことがある)
構造の最適化や安定性の解析には実用的
側鎖のパッキングの計算にも有効
超並列計算機の利用、専用計算機の開発
分子動力学法


エネルギーの極小化(Eを極小化)
フォールディングのシミュレーション


mi d2ri/dt2 = -∇i E を差分化
E = Eb + Eθ + Eφ + Evdw + Eel





Eb = ΣKb(r-r0)2
結合長
Eθ = ΣKθ(θ-θ0)2
結合角
Eφ = ΣKφ[1+cos(nφ-δ)] 二面角
Evdw = Σ[Aij/(rij2)-Bij/(rij6)] ファンデルワールス力
Eel = Σqiqj/(εrij)
静電相互作用(クーロン力)
格子モデル


各残基が格子点
にあると仮定
予測よりも、
フォールディング
の定性的な理解
のために利用され
る
格子モデルに基づく研究


折れ畳み経路の
シミュレーションに
よる定性的理解
→フォールディン
グファンネル
エネルギー最小
の構造の計算法
→NP困難
親水性アミノ酸
疎水性アミノ酸
スコア
=-9
スコア
=-5
配列
格子モデル(String Folding問題)に
関する結果

2次元で1/4近似、3次元で3/8近似
[Hart,Istrail, STOC’95]

3次元でNP-Hard [Berger,Leighton,RECOMB’98]
2次元でNP-Hard [Crescenzi et al.,STOC’98]
2次元で1/3近似 [Newman, SODA’02]

実際には数十残基まで最適解が計算可能


二次構造予測




アミノ酸配列中の各残基
が、α、β、それ以外のど
れに属するかを予測
でたらめに推定しても、
33.3%の的中率
最も高精度なソフトを使え
ば、70%~80%の的中率
ニューラルネット、HMM、
サポートベクタマシンなど
の利用
L A P
α
β
I K
それ以 外
ニューラルネットによる二次構造予測
出力層
中間層
(隠 れ 層 )
入力層
Lys
V al
Le u
Asn
A la
Thr
G ly
フォールド予測(Fold Recognition)


精密な3次元構造
ではなく、だいたい
の形(fold)を予測
立体構造は1000
種類程度の形に分
類される、との予
測(Chotia, 1992)
に基づく
ア ミ ノ酸 配 列
T
C
A
V
F
G
L
G
G
V
R
L
1 00 0個 の テ ン プ レ ー ト 構 造
S
V
D
タンパク質スレッディング
立体構造(テンプレート)とアミノ酸配列の間
のアライメント
立体構造
T
C
A
V
ア ミ ノ酸 配列
F
G
L
G
K
V
R
L
S
V
D
スレッディングとアライメント
立体構造
T
C
A
V
F
入 力 ア ミ ノ酸配 列
G
L
G
K
V
R
L
S
V
D
A
L
G
F
G
S
L
Y
A
L
G
G V
S
L
G
A
L
G
F
S
L
A
L
G
S
L
G
G
V
G
Y
G
G
スレディング法の分類

プロファイルによるスレッディング




PSI-BLAST
3D-1D法
構造アライメント結果に基づくスレッディング
残基間ポテンシャルによるスレッディング



コンタクトポテンシャル
距離依存ポテンシャル
その他のポテンシャル
残基4
プロファイル
残基3
立体構造


アライメントに
おけるスコア
行列と類似
スレッディング
の場合、残基
位置ごとにスコ
ア(位置依存ス
コア)
残基2
残基1
残基1 残基2 残基3 残基4
A
3.8
- 3.5
1.2
2.3
C
1.5
1.3
- 0.3
- 4.6
D
- 1.5
- 2.9
4.2
3.1
E
0.2
2.1
3.7
- 1.3
プロファイルによるアライメント


動的計画法
(DP)により最
適解を計算
スコア行列の
かわりにプロ
ファイルを使う
ア ミ ノ 酸 配 列 : A E D ......
プロ ファイル :
残基1 残基2 残基3 残基4
A
3 .8
- 3 .5
1 .2
2 .3
C
1 .5
1 .3
- 0 .3
- 4 .6
D
- 1 .5
- 2 .9
4 .2
3 .1
E
0 .2
- 4 .1
3 .7
- 1 .3
ア ライ メン ト
1 2 3 .....
A E D .....
1 2 34 .....
A -E D .....
1 - 2 3 .....
A E D C ...
3.8 -4.1+ 4 .2
3 .8 -2.0+ 3.7 +
3.8- 2.0-2 .9 +
=3.9
3 .1 =8.7
-0.3 =-1 .4
スコア
3D-1Dプロファイル


最初のversionは
Eisenbergらが
1991年に提案
構造中の残基(位
置)を18種類の環
境に分類


二次構造(3種類)
内外性+極性(6
種類)
主鎖
側鎖
内外性
α
β
E
P2
P1
B3
極
B2
B1
性
残基1
3D-1Dプロファイル
残基4
蛋白質立体
残基2
構造
残基3
環 境 ク ラス
B 1α
内外性
E
P2
P1
B3
B2
B1
B 1β
B1
・ ・ ・ ・
A
-0 .66
- 0 .7 9
-0 .91
・ ・ ・ ・
A
-0 .7 9
-0 .79
- 0.9 1
・ ・ ・ ・
R
-1 .67
- 1 .1 6
-2 .16
・ ・ ・ ・
R
-1 .1 6
-1 .16
- 2.1 6
・ ・ ・ ・
ア
・
・
ミ
・
・
・
・
・
・
・
・
・
・
極
ノ
性
酸
Y
0.1 8
0 .0 7
0.1 7
・ ・ ・ ・
Y
0.0 7
0.0 7
0 .17
・ ・ ・ ・
W
1.0 0
1 .1 7
1.0 5
・ ・ ・ ・
W
1.1 7
1.1 7
1 .05
・ ・ ・ ・
残基1
残基2
3D-1Dス コ ア
残基3
3 D - プ ロ フ ァ イル
その他のプロファイル

配列のマルチプルアライメントに基づくプロ
ファイル




PSI-BLAST、HMM
立体構造のマルチプルアライメントに基づく
プロファイル作成
角度情報なども考慮したプロファイル
プロファイル vs プロファイルによるアライメ
ント
アライメントプロファイルに基づく
スレッディング
構造未知
A H WA K G Y LD
配列
アラ イメ
ン ト結 果
A D R Y P K W- D
A - H F A - Y V D
A - K F T H Y L D
A - H WA K G Y L D
スレッディ
ング
A D R Y P K - W- D
A - H F A- - Y V D
A - K F T H - Y L D
ポテンシャル型スコア関数を
用いたスレッディング

全体のポテン
シャルエネル
ギーを最小化
(Σfd(X,Y)が最
小となるような
スレッディング
を計算)
立体構造
f d (T , F )
d
T
C
A
V
ア ミ ノ酸 配 列
F
G
L
G
K
V
R
L
S
V
D
プロファイル型スコア関数と
ポテンシャル型スコア関数


Pos1
Pos2
Pos3
Pos4
プロファイル型スコア
関数
A
3 .8
-3.5
1 .2
2 .3
C
1 .5
1.3
- 0 .3
- 4 .6
(Eisenberg et al. 1991)
D
- 1 .5
-2.9
4 .2
3 .1
E
0 .2
2.1
3 .7
- 1 .3
ポテンシャル型スコア
関数
(Miyazawa, Sippl, . . .)
s c o re
A
d
L
d
コンタクトポテンシャルと
距離依存ポテンシャル

コンタクトポテンシャ
ル (Miyazawa... 1985)

s c o re
A
d
比較的少ないデータからス
コア関数を導出可能
L
d

距離依存ポテンシャ
ル (Sippl, . . .)

精度の高いスコア関
数を得るには多くの
データが必要
s c o re
A
d
L
d
ポテンシャル型関数を用いた場
合の最適解の計算(1)


厳密な最適解の計算は困難(NP完全)
最適解の計算法 (コア領域内ではギャップ無し)

分岐限定法 (Lathrop & Smith 96)




コアの位置の範囲を徐々に縮小
大きなタンパクに対しては最適解が計算不可
分割統治を用いる方法(Y. Xu et al., 1998)
線形計画法を用いる方法 (J. Xu et al. 2003)




整数計画問題として定式化し、更に線形計画問題に緩和
線形計画問題の解をもとに整数計画の解を探索
多くの場合には線形計画問題の解が整数解(最適解)
CAFASP3 でも良好な成績
ポテンシャル型関数を用いた場
合の最適解の計算(2)

コア領域のスレッディング
立体構造
ア ミノ 酸 配 列
ポテンシャル型関数を用いた場
合の最適解の計算(3)

近似解法

Frozen Approximation (Godzik & Skolnick 92)



ポテンシャルエネルギー計算の際に、もとの構造の残基
を用いる
通常のDPと同様のアルゴリズムが利用可能
Double DP (Jones, Taylor & Thornton 92)


DPを二重に用いる
立体構造アライメントなどにも応用可能
最適解がDPで計算できない理由と
Frozen Approximation


○にFをアラインする際
のスコアの正確な計算
には、○に何がアライン
されているかを知ること
が必要
Frozen Approximation
もとの構造中で○に割り
当てられている残基の
情報を利用
(図の例ではFとDのコン
タクトポテンシャル)
立体構造
D
T
C
A
V
ア ミ ノ酸 配列
F
G
L
G
K
V
R
L
S
V
D
スコア関数の導出

残基の出現頻度の対数をとる


統計力学のボルツマン分布などが根拠
3D-1Dスコア


環境eのもとでの残基aの出現頻度:fe(a) (条件付確率)
 score(e,a)=log (fe(a)/fe)
ポテンシャル型スコア
(Quasichemical Approximation (Miyazawa 85))

距離dにおける残基ペアa,bの出現頻度:fd(a,b)
 scored(a,b) =-log fd(a,b)
他のスコア関数導出法

学習データ(既知構造データ)より以下を
満たすスコア(エネルギー)を導出





正しい構造のエネルギー < 誤った構造のエネルギ or
Max( 誤った構造のエネルギー - 正しい構造のエネルギー )
ニューラルネット (Goldstein et al. 92)
モンテカルロ法 (Mirny,Shakhnovich 96)
線形計画法 (Maiorov,Crippen 92)
スレッディングに関するまとめ

プロファイル型


DPによりスレッディングが計算可能
ポテンシャル型

DPは(直接は)適用不可




Frozen Approximation, Double DP, 線形計画法の利用
コンタクトポテンシャル
距離依存ポテンシャル
スコア関数の導出

対数頻度
立体構造予測におけるブレーク
スルー

スレッディング法の発明(Eisenberg et al.,
1991)


PSI-BLASTの開発(Altschul et al, 1997)


構造既知の配列と類似性が無い配列の構造予測
プロファイルに基づくマルチプルアライメントの繰り
返し実行によるスレッディング
David Baker による ab initio 予測(1997)

統計情報+シミュレーション
立体構造予測コンテスト:CASP


CASP (Critical Assessment of Techniques for
Protein Structure Prediction)
ブラインドテストにより予測法を評価
①
②
③
半年以内に立体構造が実験により決定する見込み
の配列(数十種類)をインターネット上で公開
参加者は予測結果を送付
構造決定後、正解とのずれなどを評価、順位づけ
CASPの経過と結果の公表


CASP1 (1994), CASP2(1996), CASP3(1998),
CASP4(2000), CASP5(2002)
CAFASP(1998,2000,2002)


完全自動予測法の評価
結果の公表


会議
ホームページ


http://prediction center.llnl.gov/
学術専門誌(Proteins)
まとめ

立体構造予測




正確な座標は予測できない
だいたいの形の予測であれば5割近く
二次構造予測であれば、70%-80%程度
国際プロジェクトの進展と構造予測

立体構造の網羅的決定(タンパク質3000プロジェ
クトなど)
→ 残りの構造はアライメントでほぼ確実に推定?
→ スレッディングは不要?
参考文献














Newman: Proc. ACM-SIAM Symp. Discrete Algorithms, 876 (2002)
Bowie et al.: Science, 253, 164 (1991)
Godzik, Skolnick: PNAS, 89, 12098 (1992)
Jones et al.: Nature, 358, 86 (1992)
Miyazawa, Jernigan: Macromolecules, 18, 538 (1985)
Sippl, JMB, 213: 859 (1990)
Lathrop, Smith: JMB, 255, 641 (1996)
Goldstein et al.: PNAS, 89, 4918 (1992)
Mirny, Shakhnovich: JMB, 264, 1164 (1996)
Maiorov, Crippen: JMB, 227, 876 (1992)
Simons,,,Baker: JMB, 268, 209 (1997)
J. Xu et al.: J. Bioinformatics and Comp. Biol., 1, 95 (2003)
Y. Xu et al.: J. Comp. Biol., 5, 597 (1998)
CASP5特集:Proteins, 53, Supplement 6 (2003)