第6回 - Kyoto University Bioinformatics Center
Download
Report
Transcript 第6回 - Kyoto University Bioinformatics Center
分子生物情報学(6)
スレッディング法によるタンパク質立体構造予測
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
内容
構造予測に関連する基本事項
立体構造予測の分類
スレッディング法
3D-1Dプロファイル
ポテンシャル型スコア関数を用いたスレッ
ディング
CASP
まとめ
タンパク質立体構造予測
アミノ酸配列から、タンパク
質の立体構造(3次元構
造)をコンピュータにより推
定
実験よりは、精度は低い
だいたいの形がわかれば
良いのであれば、5割近く
の予測率
ア ミ ノ酸 配 列
T
C
A
V
F
G
L
G
G
V
R
L
S
V
D
コンピュー タ
タンパ ク質
立体構造
アミノ酸とタンパク質
アミノ酸:20種類
タンパク質:アミノ
酸の鎖(短いもの
はペプチドと呼ば
れる)
ア ミ ノ酸
R
H
側鎖
OH
C
N
C
アミ ノ基
カル ボシキル 基
H
H
O
タ ン パ ク質
R
H
O
H
C
N
N
C
C
C
O
R
H
H
ペ プ チ ド結 合
側鎖の例
A la ア ラ ニ ン
CH
P he フ ェ ニ ル
A sp ア ス パ ラ
H is ヒ ス
C ys シ ス
ア ラニ ン
ギン酸
チジン
テイン
3
CH
HC
H3C
CH
C
CH
CH
CH
HC
V al バ リ ン
O
3
O
-
HN
SH
+
C
CH
NH
2
2
CH
CH
CH
2
G ly グ リ シ ン
2
H
タンパク質の種類と高次構造
タンパク質の分類
球状タンパク質
繊維状タンパク質
膜タンパク質
一次構造(アミノ酸配列)
二次構造(α、β、それ以外(ループ、コイル))
三次構造(三次元構造、立体構造)
四次構造(複数の鎖)
タンパク質立体構造の決定
主にX線結晶解析かNMR解析による
アミノ酸配列決定より困難
一般にX線解析の方が精度が高い
しかし、結晶中の構造しかわからない
半年から1年くらいかかることも珍しく無い
既知アミノ酸配列 > 10万
既知立体構造(重複を除く) < 1万数千
タンパク質立体構造の特徴
基本的には鎖(ひも)状
二種類の特徴的な構造
が頻繁に現れ、立体構造
の骨格(コア)を作る
αへリックス(らせん状の部
分)
βシート(ひも状の部分が
並んだ部分)
α
β
ループ
立体構造データベース
PDB(Protein Data Bank )
SCOP
タンパク質立体構造データベース
現在約20000データ(ただし重複あり)
立体構造分類データベース
FSSP/DALI
立体構造アライメントデータベース/アライメ
ントサーバー
タンパク質立体構造の分類
構造分類の必要性
立体構造と機能の間には密接な関係
配列が似ていなくても構造類似のタンパク質が多
数存在
SCOPによる階層的クラス分け
Class: 二次構造の組成(α、β、α+βなど)に基づく
分類
Fold: 構造の類似性 ← スレッディング法の対象
Superfamily: 進化的類縁性
Family: 明らかな進化的類縁性
立体構造予測法の分類
物理学的原理に基づく方法
格子モデル
2次構造予測
スレッディング
物理的原理に基づく方法
エネルギー最小化、もしくは、微分方程式を(数
値的に)解く、などの物理的原理に基づく方法
主として分子動力学法(Molecular Dynamics)
数十残基程度であれば、実際の蛋白質やペプチ
ドと似た構造を推定可能(なことがある)
構造の最適化や安定性の解析には実用的
側鎖のパッキングの計算にも有効
超並列計算機の利用、専用計算機の開発
分子動力学法
エネルギーの極小化(Eを極小化)
フォールディングのシミュレーション
mi d2ri/dt2 = -∇i E を差分化
E = Eb + Eθ + Eφ + Evdw + Eel
Eb = ΣKb(r-r0)2
結合長
Eθ = ΣKθ(θ-θ0)2
結合角
Eφ = ΣKφ[1+cos(nφ-δ)] 二面角
Evdw = Σ[Aij/(rij2)-Bij/(rij6)] ファンデルワールス力
Eel = Σqiqj/(εrij)
静電相互作用(クーロン力)
格子モデル
各残基が格子点
にあると仮定
予測よりも、
フォールディング
の定性的な理解
のために利用され
る
格子モデルに基づく研究
折れ畳み経路の
シミュレーションに
よる定性的理解
→フォールディン
グファンネル
エネルギー最小
の構造の計算法
→NP困難
親水性アミノ酸
疎水性アミノ酸
スコア
=-9
スコア
=-5
配列
格子モデル(String Folding問題)に
関する結果
2次元で1/4近似、3次元で3/8近似
[Hart,Istrail, STOC’95]
3次元でNP-Hard [Berger,Leighton,RECOMB’98]
2次元でNP-Hard [Crescenzi et al.,STOC’98]
2次元で1/3近似 [Newman, SODA’02]
実際には数十残基まで最適解が計算可能
二次構造予測
アミノ酸配列中の各残基
が、α、β、それ以外のど
れに属するかを予測
でたらめに推定しても、
33.3%の的中率
最も高精度なソフトを使え
ば、70%~80%の的中率
ニューラルネット、HMM、
サポートベクタマシンなど
の利用
L A P
α
β
I K
それ以 外
ニューラルネットによる二次構造予測
出力層
中間層
(隠 れ 層 )
入力層
Lys
V al
Le u
Asn
A la
Thr
G ly
フォールド予測(Fold Recognition)
精密な3次元構造
ではなく、だいたい
の形(fold)を予測
立体構造は1000
種類程度の形に分
類される、との予
測(Chotia, 1992)
に基づく
ア ミ ノ酸 配 列
T
C
A
V
F
G
L
G
G
V
R
L
1 00 0個 の テ ン プ レ ー ト 構 造
S
V
D
タンパク質スレッディング
立体構造(テンプレート)とアミノ酸配列の間
のアライメント
立体構造
T
C
A
V
ア ミ ノ酸 配列
F
G
L
G
K
V
R
L
S
V
D
スレッディングとアライメント
立体構造
T
C
A
V
F
入 力 ア ミ ノ酸配 列
G
L
G
K
V
R
L
S
V
D
A
L
G
F
G
S
L
Y
A
L
G
G V
S
L
G
A
L
G
F
S
L
A
L
G
S
L
G
G
V
G
Y
G
G
スレディング法の分類
プロファイルによるスレッディング
PSI-BLAST
3D-1D法
構造アライメント結果に基づくスレッディング
残基間ポテンシャルによるスレッディング
コンタクトポテンシャル
距離依存ポテンシャル
その他のポテンシャル
残基4
プロファイル
残基3
立体構造
アライメントに
おけるスコア
行列と類似
スレッディング
の場合、残基
位置ごとにスコ
ア(位置依存ス
コア)
残基2
残基1
残基1 残基2 残基3 残基4
A
3.8
- 3.5
1.2
2.3
C
1.5
1.3
- 0.3
- 4.6
D
- 1.5
- 2.9
4.2
3.1
E
0.2
2.1
3.7
- 1.3
プロファイルによるアライメント
動的計画法
(DP)により最
適解を計算
スコア行列の
かわりにプロ
ファイルを使う
ア ミ ノ 酸 配 列 : A E D ......
プロ ファイル :
残基1 残基2 残基3 残基4
A
3 .8
- 3 .5
1 .2
2 .3
C
1 .5
1 .3
- 0 .3
- 4 .6
D
- 1 .5
- 2 .9
4 .2
3 .1
E
0 .2
- 4 .1
3 .7
- 1 .3
ア ライ メン ト
1 2 3 .....
A E D .....
1 2 34 .....
A -E D .....
1 - 2 3 .....
A E D C ...
3.8 -4.1+ 4 .2
3 .8 -2.0+ 3.7 +
3.8- 2.0-2 .9 +
=3.9
3 .1 =8.7
-0.3 =-1 .4
スコア
3D-1Dプロファイル
最初のversionは
Eisenbergらが
1991年に提案
構造中の残基(位
置)を18種類の環
境に分類
二次構造(3種類)
内外性+極性(6
種類)
主鎖
側鎖
内外性
α
β
E
P2
P1
B3
極
B2
B1
性
残基1
3D-1Dプロファイル
残基4
蛋白質立体
残基2
構造
残基3
環 境 ク ラス
B 1α
内外性
E
P2
P1
B3
B2
B1
B 1β
B1
・ ・ ・ ・
A
-0 .66
- 0 .7 9
-0 .91
・ ・ ・ ・
A
-0 .7 9
-0 .79
- 0.9 1
・ ・ ・ ・
R
-1 .67
- 1 .1 6
-2 .16
・ ・ ・ ・
R
-1 .1 6
-1 .16
- 2.1 6
・ ・ ・ ・
ア
・
・
ミ
・
・
・
・
・
・
・
・
・
・
極
ノ
性
酸
Y
0.1 8
0 .0 7
0.1 7
・ ・ ・ ・
Y
0.0 7
0.0 7
0 .17
・ ・ ・ ・
W
1.0 0
1 .1 7
1.0 5
・ ・ ・ ・
W
1.1 7
1.1 7
1 .05
・ ・ ・ ・
残基1
残基2
3D-1Dス コ ア
残基3
3 D - プ ロ フ ァ イル
その他のプロファイル
配列のマルチプルアライメントに基づくプロ
ファイル
PSI-BLAST、HMM
立体構造のマルチプルアライメントに基づく
プロファイル作成
角度情報なども考慮したプロファイル
プロファイル vs プロファイルによるアライメ
ント
アライメントプロファイルに基づく
スレッディング
構造未知
A H WA K G Y LD
配列
アラ イメ
ン ト結 果
A D R Y P K W- D
A - H F A - Y V D
A - K F T H Y L D
A - H WA K G Y L D
スレッディ
ング
A D R Y P K - W- D
A - H F A- - Y V D
A - K F T H - Y L D
ポテンシャル型スコア関数を
用いたスレッディング
全体のポテン
シャルエネル
ギーを最小化
(Σfd(X,Y)が最
小となるような
スレッディング
を計算)
立体構造
f d (T , F )
d
T
C
A
V
ア ミ ノ酸 配 列
F
G
L
G
K
V
R
L
S
V
D
プロファイル型スコア関数と
ポテンシャル型スコア関数
Pos1
Pos2
Pos3
Pos4
プロファイル型スコア
関数
A
3 .8
-3.5
1 .2
2 .3
C
1 .5
1.3
- 0 .3
- 4 .6
(Eisenberg et al. 1991)
D
- 1 .5
-2.9
4 .2
3 .1
E
0 .2
2.1
3 .7
- 1 .3
ポテンシャル型スコア
関数
(Miyazawa, Sippl, . . .)
s c o re
A
d
L
d
コンタクトポテンシャルと
距離依存ポテンシャル
コンタクトポテンシャ
ル (Miyazawa... 1985)
s c o re
A
d
比較的少ないデータからス
コア関数を導出可能
L
d
距離依存ポテンシャ
ル (Sippl, . . .)
精度の高いスコア関
数を得るには多くの
データが必要
s c o re
A
d
L
d
ポテンシャル型関数を用いた場
合の最適解の計算(1)
厳密な最適解の計算は困難(NP完全)
最適解の計算法 (コア領域内ではギャップ無し)
分岐限定法 (Lathrop & Smith 96)
コアの位置の範囲を徐々に縮小
大きなタンパクに対しては最適解が計算不可
分割統治を用いる方法(Y. Xu et al., 1998)
線形計画法を用いる方法 (J. Xu et al. 2003)
整数計画問題として定式化し、更に線形計画問題に緩和
線形計画問題の解をもとに整数計画の解を探索
多くの場合には線形計画問題の解が整数解(最適解)
CAFASP3 でも良好な成績
ポテンシャル型関数を用いた場
合の最適解の計算(2)
コア領域のスレッディング
立体構造
ア ミノ 酸 配 列
ポテンシャル型関数を用いた場
合の最適解の計算(3)
近似解法
Frozen Approximation (Godzik & Skolnick 92)
ポテンシャルエネルギー計算の際に、もとの構造の残基
を用いる
通常のDPと同様のアルゴリズムが利用可能
Double DP (Jones, Taylor & Thornton 92)
DPを二重に用いる
立体構造アライメントなどにも応用可能
最適解がDPで計算できない理由と
Frozen Approximation
○にFをアラインする際
のスコアの正確な計算
には、○に何がアライン
されているかを知ること
が必要
Frozen Approximation
もとの構造中で○に割り
当てられている残基の
情報を利用
(図の例ではFとDのコン
タクトポテンシャル)
立体構造
D
T
C
A
V
ア ミ ノ酸 配列
F
G
L
G
K
V
R
L
S
V
D
スコア関数の導出
残基の出現頻度の対数をとる
統計力学のボルツマン分布などが根拠
3D-1Dスコア
環境eのもとでの残基aの出現頻度:fe(a) (条件付確率)
score(e,a)=log (fe(a)/fe)
ポテンシャル型スコア
(Quasichemical Approximation (Miyazawa 85))
距離dにおける残基ペアa,bの出現頻度:fd(a,b)
scored(a,b) =-log fd(a,b)
他のスコア関数導出法
学習データ(既知構造データ)より以下を
満たすスコア(エネルギー)を導出
正しい構造のエネルギー < 誤った構造のエネルギ or
Max( 誤った構造のエネルギー - 正しい構造のエネルギー )
ニューラルネット (Goldstein et al. 92)
モンテカルロ法 (Mirny,Shakhnovich 96)
線形計画法 (Maiorov,Crippen 92)
スレッディングに関するまとめ
プロファイル型
DPによりスレッディングが計算可能
ポテンシャル型
DPは(直接は)適用不可
Frozen Approximation, Double DP, 線形計画法の利用
コンタクトポテンシャル
距離依存ポテンシャル
スコア関数の導出
対数頻度
立体構造予測におけるブレーク
スルー
スレッディング法の発明(Eisenberg et al.,
1991)
PSI-BLASTの開発(Altschul et al, 1997)
構造既知の配列と類似性が無い配列の構造予測
プロファイルに基づくマルチプルアライメントの繰り
返し実行によるスレッディング
David Baker による ab initio 予測(1997)
統計情報+シミュレーション
立体構造予測コンテスト:CASP
CASP (Critical Assessment of Techniques for
Protein Structure Prediction)
ブラインドテストにより予測法を評価
①
②
③
半年以内に立体構造が実験により決定する見込み
の配列(数十種類)をインターネット上で公開
参加者は予測結果を送付
構造決定後、正解とのずれなどを評価、順位づけ
CASPの経過と結果の公表
CASP1 (1994), CASP2(1996), CASP3(1998),
CASP4(2000), CASP5(2002)
CAFASP(1998,2000,2002)
完全自動予測法の評価
結果の公表
会議
ホームページ
http://prediction center.llnl.gov/
学術専門誌(Proteins)
まとめ
立体構造予測
正確な座標は予測できない
だいたいの形の予測であれば5割近く
二次構造予測であれば、70%-80%程度
国際プロジェクトの進展と構造予測
立体構造の網羅的決定(タンパク質3000プロジェ
クトなど)
→ 残りの構造はアライメントでほぼ確実に推定?
→ スレッディングは不要?
参考文献
Newman: Proc. ACM-SIAM Symp. Discrete Algorithms, 876 (2002)
Bowie et al.: Science, 253, 164 (1991)
Godzik, Skolnick: PNAS, 89, 12098 (1992)
Jones et al.: Nature, 358, 86 (1992)
Miyazawa, Jernigan: Macromolecules, 18, 538 (1985)
Sippl, JMB, 213: 859 (1990)
Lathrop, Smith: JMB, 255, 641 (1996)
Goldstein et al.: PNAS, 89, 4918 (1992)
Mirny, Shakhnovich: JMB, 264, 1164 (1996)
Maiorov, Crippen: JMB, 227, 876 (1992)
Simons,,,Baker: JMB, 268, 209 (1997)
J. Xu et al.: J. Bioinformatics and Comp. Biol., 1, 95 (2003)
Y. Xu et al.: J. Comp. Biol., 5, 597 (1998)
CASP5特集:Proteins, 53, Supplement 6 (2003)