Transcript タンパク質構造解析
生命情報学 (7)
タンパク質構造解析
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
タンパク質立体構造
アミノ酸とタンパク質
アミノ酸:20種類
タンパク質:アミノ
酸の鎖(短いもの
はペプチドと呼ば
れる)
アミノ酸
R
H
側鎖
OH
C
N
アミノ基
C
カルボシキル基
H
H
O
蛋白質
R
N
H
C
H
H
C
O
N
H
C
R
ペプチド結合
O
C
タンパク質の種類と高次構造
タンパク質の分類
球状タンパク質
繊維状タンパク質
膜タンパク質
一次構造(アミノ酸配列)
二次構造(α、β、それ以外(ループ、コイル))
三次構造(三次元構造、立体構造)
四次構造(複数の鎖)
タンパク質立体構造の決定
主にX線結晶解析かNMR解析による
アミノ酸配列決定より困難
一般にX線解析の方が精度が高い
しかし、結晶中の構造しかわからない
半年から1年くらいかかることも珍しく無い
既知アミノ酸配列 >> 10万
既知立体構造 < 数万
タンパク質立体構造の特徴
基本的には鎖(ひも)状
二種類の特徴的な構造
が頻繁に現れ、立体構造
の骨格(コア)を作る
αへリックス(らせん状の部
分)
βシート(ひも状の部分が並
んだ部分)
α
β
ループ
タンパク質立体構造の例(1)
立体構造:Cα原子の座標列で概要がわかる
αへリックスとβシートが構造の骨格を形成
タンパク質立体構造の例(2)
タンパク質立体構造の例(3)
構造とアミノ酸の種類の関係
(球状)タンパク質
αへリックス
内側:疎水性 外側:親水性
βストランド
内側:疎水性アミノ酸 外側:親水性アミノ酸
疎水性と親水性が交互に現れる
ループ領域
親水性が高い
立体構造アラインメント
タンパク質立体構造比較の必要性
立体構造と機能の間には密接な関係
配列が似ていなくても構造類似のタンパク質が多
数存在
構造分類データベース
SCOP(人間が分類)
FSSP(DALIプログラムにより分類)
CATH(SSAPプログラムなどにより分類)
立体構造アラインメント
立体構造の類似性判
定のために有用
どのように回転、平行
移動すれば、最適な残
基間の対応づけ(アラ
インメント)が得られる
かを計算
配列アラインメントの場
合と異なり、決定版とい
うようなアルゴリズムが
無い
構造アラインメント例
ヘモグロビン
ミオグロビン
RMSD(Root Mean Square Deviation)
点(e.g., Cα原子)の対応
関係がわかっている場合
に最適な重ね合わせとな
る回転・平行移動を計算
行列計算により O(n) 時
間で計算可能
p2
1 n
2
min
|
T
(
p
)
q
|
i
i
T
n i 1
q1
p3
p4
d rms ( P, Q)
p1
T
q2
q3
q4
構造アラインメントプログラム: stralign
広くは利用されていないが、理論(計算幾何学)的
考察に基づいてアルゴリズムが設計されている
問題の定義
入力: 3次元点列: P=( p1,…, pm ), Q=(q1,…, qn),お
よび、 実数δ
(m ≦ n とする)
出力: 以下を満たし、かつ、長さ(アラインされる点
のペアの個数)が最大となる P,Q 間のアラインメ
ント M (および、付随する平行・回転移動 T )
max | T ( pi ) q j |
( pi ,q j )M
stralign の基本アルゴリズム
M0← {}
for all triplets PP=(pi1,pi2,pi3) from P do
for all triplets QQ=(qj1,qj2,qj3) from Q do
Compute rigid motion TPP,QQ from PP to QQ
Compute alignment M between TPP,QQ(P) and Q
if |M| > |M0| then M0 ← M
Output M0
回転・平行移動 TPP,QQ の計算法
PP=(p1,p2,p3)、
QQ=(q1,q2,q3)
に対するTPP,QQ の計算法
p1 が q1 に重なるように PP
を並行移動
p1p2 と q1q2 が同一直線上
にあるように、 PP を回転
移動
PP と QQ が同一平面上に
あるように、PP を p1p2 を
軸として回転移動
q3
p1
q1
q2
p3
p2
TPP,QQ
T(P) と Q に対するアラインメント M の計算
q1
p1
q2
q3
p3
cδ
S[i 1, j ]
S[i, j ] max
S[i, j 1]
S[i 1, j 1] w
ij
1 if | T ( pi ) q j | c
wij
0 otherwise
p2
p1
q1
q4
p2
q2
p3
q3
q4
基本アルゴリズムの性能解析(1)
補題: PP=(p1,p2,p3), QQ=(q1,q2,q3)とし、T を
|T(pi) - qi| ≦δ (i=1,2,3) を満たす変換とすると、
任意の p reg(p1,p2,p3) について以下が成立
|T(p) - q| ≦ δ ならば |T PP,QQ(p) - q| ≦ 8δ
T
p3
p1
p2
p
T(p)
≦δ
q
≦8δ
TPP,QQ
TPP,QQ(p)
reg( p1, p2 , p3 ) { x | | x p1 | | p2 p1 |, dist( x, p1 p2 ) dist( p3 , p1 p2 ) }
基本アルゴリズムの性能解析(2)
定理: δに対する最適アラインメントを MOPT とすると、
基本アルゴリズムは O(n8) 時間で、以下を満たすアラ
インメント M (と変換 T)を出力する
max | T ( pi ) q j | 8 and | M | | M OPT |
( pi ,q j )M
証明概略
MOPT に現れる P,Q の部分集合を、それぞれ、P’,Q’ とする。す
ると、P’ がregの中に全部含まれるような PPP’ が存在。
MOPT において、PP に対応する QQ も存在し、補題の仮定を満
たす。よって、T(P’) は Q’ と 8δ 以内でマッチするため、アル
ゴリズムは |M|≧|MOPT| を満たすアラインメントを出力。
注: (かなり大きくなるが)定数倍の時間をかければ、8δ は δ に近づけることが可能
実用版 stralign
基本アルゴリズムは O(n8) 時間かかるので非実用的
ランダムサンプリング や sparse DP などを用いると O(n5) 時間
くらいに近づけることができるが、それでも非実用的
そこで、理論的な性能保証はあきらめ、実用的なアルゴリズムを
開発
PP,QQ として 長さ 10~20残基程度の連続した fragment を利
用し、TPP,QQ は rmsd の計算法により求める
全部で O(n2) ペアしか調べないので、 O(n2)×DPの計算量= O(n4)時間 。
実際には rmsd が大きいペアには DP を行わないため、より高速。
解の精度を高めるため、「アラインメント ⇒ rmsd fitting」 を数回
繰り返す
多くの場合、数秒程度でアラインメント可能
他の構造アラインメント・アルゴリズム
数多くの構造アライメント手法が提案
例
DALI(距離行列のアラインメント)
SSAP(二重DP) [Taylor & Orengo 1989]
CE (Combinatorial Expansion) [Shindyalov & Bourne 1998]
VAST (Vector Alignment Search Tool) [Gibrat et al. 1998]
DP+Iterative Improvement [Gernstein & Levitt 1998]
StrMul (二重DPを基にした多重構造アラインメント)
[Daiyasu & Toh 2000]
DALI (Alignment of Distance Matrices)
Distance Matrix のアラインメント [Holm & Sander 1993]
Distance Matrix
(同一タンパク P 内の)残基間の距離を行列形式で表現したもの
P と Q の distance matrix (ただし、アラインメントされる残基のみから構成
される行列)ができるだけ類似するようなアラインメントを計算
Simulated Annealing に類似した方法を用いて、アラインメントを計算
G
L
A
D
V
0
3
5
8
6
3
0
1
5
4
5
1
0
2
7
8
5
2
0
3
6
4
7
3
0
G
A
E
R
V
0
5
8
1
6
5
0
2
5
7
8
2
0
2
2
1
5
2
0
3
6
7
2
3
0
アラインメント
G L A D - V
G - A E R V
G
A
D
V
G
0
5
8
6
A
5
0
2
7
D
8
2
0
3
V
6
7
3
0
G
A
E
V
G
0
5
8
6
A
5
0
2
7
E
8
2
0
2
V
6
7
2
0
タンパク質立体構造予測
タンパク質立体構造予測
アミノ酸配列から、タ
ンパク質の立体構造
(3次元構造)をコン
ピュータにより推定
実験よりは、はるか
に精度が悪い
だいたいの形がわか
れば良いのであれば、
4~5割近くの予測
率?
アミノ酸配列
T C A V F G L G G V R L S D
V
コンピュータ
タンパク質
立体構造
立体構造予測法の分類
物理的原理に基づく方法 (ab initio法)
ホモロジーモデリング
各アミノ酸がα、β、それ以外のいずれかにあるかを予測
ランダムに予測すれば33.3…%の予測率であるが、高性能の手法を用い
れば80%近い予測率
格子モデル
スレッディング
配列アラインメントにより主鎖のだいたいの配置を決定した後、主鎖や側鎖
の配置の最適化を分子動力学法などで実行
2次構造予測
エネルギー最小化、分子動力学法
予測したい配列と既知構造の間のアラインメントを計算
フラグメント・アセンブリー法
数残基から十数残基からなる複数のフラグメント候補をデータベース検索
により選択した後、分子動力学法などを用いてそれらをつなげ合わせる
二次構造予測
アミノ酸配列中の各残基
が、α、β、それ以外のど
れに属するかを予測
でたらめに推定しても、
33.3%の的中率
最も高精度なソフトを使え
ば、70%~80%の的中率
ニューラルネット、HMM、
サポートベクタマシンなど
の利用
L A P I K
α
β
それ以外
フォールド予測(Fold Recognition)
精密な3次元構造
ではなく、だいたい
の形(fold)を予測
立体構造は1000
種類程度の形に分
類される、との予
測(Chotia, 1992)
に基づく
アミノ酸配列
T C A V F G L G G V R L S D
V
1000個のテンプレート構造
タンパク質スレッディング
立体構造(テンプレート)とアミノ酸配列の間
のアラインメント
立体構造
T C A V F G L G K V R L S D
V
アミノ酸配列
スレッディングとアラインメント
立体構造
A L G F G S L Y G
A L G G V S L G
A L G F G
A L G
T C A V F G L G K V R L S D
V
入力アミノ酸配列
S L Y G
G V S L
G
スレディング法の分類
プロファイルによるスレッディング
動的計画法で最適解が計算可能
PSI-BLAST
3D-1D法
構造アライメント結果に基づくスレッディング
残基間ポテンシャルによるスレッディング
NP困難。ただし、整数計画法などが効果的に適用可能
コンタクトポテンシャル
距離依存ポテンシャル
その他のポテンシャル
プロファイル
残基4
アラインメントに
おけるスコア行
列と類似
スレッディングの
場合、残基位置
ごとにスコア(位
置依存スコア)
残基3
立体構造
残基2
残基1
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
D
-1.5
-2.9
4.2
3.1
E
0.2
2.1
3.7
-1.3
プロファイルによるアラインメント
動的計画法
(DP)により最
適解を計算
スコア行列の
かわりにプロ
ファイルを使う
アミノ酸配列: AED ......
プロファイル:
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
D
1.5
1.3
-0.3
-4.6
-1.5
-2.9
4.2
3.1
E
0.2
-4.1
3.7
-1.3
アライメント
123 .....
AED .....
1234 .....
A-ED .....
1- 23 .....
AEDC ...
スコア
3.8-4.1+4.2
=3.9
3.8-2.0+3.7+
3.1=8.7
3.8-2.0-2.9+
-0.3=-1.4
3D-1Dプロファイル
最初のversionは
Eisenbergらが
1991年に提案
構造中の残基(位
置)を18種類の環
境に分類
二次構造(3種類)
内外性+極性(6
種類)
主鎖
α
β
側鎖
内外性
E
P2
P1
B3
B2
B1
極
性
3D-1Dプロファイル
残基1
タンパク質
立体構造
残基2
残基4
残基3
環境クラス
B 1α B 1β B 1
内外性
E
P2
P1
B3
極
B2 性
B1
ア
ミ
ノ
酸
・ ・ ・ ・
A
-0.66
-0.79
-0.91
・ ・ ・ ・
A
-0.79
-0.79
-0.91 ・ ・ ・ ・
R
-1.67
-1.16
-2.16
・ ・ ・ ・
R
-1.16
-1.16
-2.16 ・ ・ ・ ・
0.07
0.07
0.17
・ ・ ・ ・
1.17
1.17
1.05
・ ・ ・ ・
・
・
・
・
・
・
・
・
Y
・
W
・
・
Y
・
W
0.18
0.07
0.17
・ ・ ・ ・
1.00
1.17
1.05
・ ・ ・ ・
残基1 残基2
3D-1Dスコア
残基3
3D-プロファイル
その他のプロファイル
配列のマルチプルアラインメントに基づくプロファ
イル
PSI-BLAST、HMM
立体構造のマルチプルアラインメントに基づくプロ
ファイル作成
角度情報なども考慮したプロファイル
プロファイル vs プロファイルによるアラインメント
ポテンシャル型スコア関数を用いたスレッディング
全体のポテン
シャルエネル
ギーを最小化
(Σfd(X,Y)が最
小となるような
スレッディング
を計算)
立体構造
f d (T, F)
d
T C A V F G L G K V R L S D
V
アミノ酸配列
プロファイル型スコア関数と
ポテンシャル型スコア関数
プロファイル型スコア
関数
(Eisenberg
et al. 1991)
ポテンシャル型スコア
関数
(Miyazawa, Sippl, . . .)
Pos1 Pos2 Pos3 Pos4
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
D
E
-1.5
-2.9
4.2
3.1
0.2
2.1
3.7
-1.3
score
A
d
L
d
立体構造予測におけるブレークスルー
スレッディング法の発明(Eisenberg et al., 1991)
PSI-BLASTの開発(Altschul et al, 1997)
構造既知の配列と類似性が無い配列の構造予測
プロファイルに基づくマルチプルアラインメントの繰り返
し実行によるスレッディング
David Baker による フラグメントアセンブリ法
(1997)
統計情報+シミュレーション
フラグメント・アセンブリ法
Univ. Washington の Baker らが開発
現時点では最強の方法とされている
方法
数残基から十数残基の断片構造(フラグメント)をプロ
ファイル比較法などを用いて既知構造データベース
から取得
⇒ 各断片配列ごとにいくつかの候補を選ぶ
フラグメントをつなぎ合わせることにより全体構造を
予測。つなぎ合わせる際には分子動力学法などによ
るエネルギー最適化などを行う
立体構造予測コンテスト:CASP
CASP (Critical Assessment of Techniques for
Protein Structure Prediction)
ブラインドテストにより予測法を評価
半年以内に立体構造が実験により決定する見込みの配
列(数十種類)をインターネット上で公開
参加者は予測結果を送付
構造決定後、正解とのずれなどを評価、順位づけ
①
②
③
結果の公表
会議、専門学術誌(Proteins)
ホームページ
http://predictioncenter.gc.ucdavis.edu/
1994年より2年ごとに開催
まとめ
立体構造比較
構造分類データベースが作成されている
比較のためには構造アラインメントが有用
立体構造予測
ただし、決定版はなく様々な方法が提案されている
正確な座標は予測できない
だいたいの形の予測であれば4割~5割近く
二次構造予測であれば、70%-80%程度
スレッディング法
プロファイル型スコア関数
動的計画法で最適解が計算可能
ポテンシャル型スコア関数
NP困難だが整数計画法などにより最適解が計算可能