PPT - 医療情報システム研究室

Download Report

Transcript PPT - 医療情報システム研究室

シミュレ-テッドアニーリングを用いた
タンパク質立体構造エネルギ最小化における
温度パラメータの検討
同志社大学
同志社大学
○ 同志社大学大学院
国立分子科学研究所
廣安 知之
三木 光範
米田 真純
岡本 祐幸
研究背景
バイオインフォマティクス
Bio (生物学) + informatics (情報学)
情報技術を用いて,生命現象を解明
バイオインフォマティクス分野の課題
遺伝子の特定と機能の推定
タンパク質立体構造の推定
遺伝子ネットワークの推定
タンパク質立体構造の推定
タンパク質
生物の生命現象の中で重要な役割を担っている
タンパク質の機能
タンパク質の立体構造
タンパク質の立体構造の解明
新薬の開発
病理の発現機構の解明
アルツハイマー
狂牛病
C-peptide
タンパク質の立体構造に関する研究
実験的手法
NMR法,X線結晶構造解析
実験環境が解析結果に影響
純粋なタンパク質が
大量に必要
分子シミュレーション
運動方程式・タンパク質の
ポテンシャルを用いる
アミノ酸の配列情報のみから
構造予測が可能
タンパク質の持つエネルギーと立体構造
タンパク質
アミノ酸が連なった生体高分子
エネルギーの最も低い状態で存在
High Energy
エネルギー最小構造を
求めることにより,タンパク質の
立体構造を予測可能
Low Energy
最小化問題としてとらえる
タンパク質のモデル化
設計変数:二面角
タンパク質の原子間の回転角
目的関数:エネルギー関数(KONF90) [岡本 , 1991]
タンパク質の持つエネルギー値を定義する式
二面角
原子間の回転角
Energy : 3243
A
B
C
D
二面角
原子間の回転角
Energy : 3243
A
A
二面角を回転
B
B
C
D
C
D
二面角
原子間の回転角
立体構造が変化
エネルギー値が変化
Energy : 3243
Energy : 231
A
A
二面角を回転
B
B
C
D
C
D
エネルギー最小化
二面角の組み合わせを最適化
Optimum
タンパク質の立体構造予測
e.g. 5つのアミノ酸残基を持つMet-enkephalin
Energy : - 11
タンパク質のエネルギー関数
タンパク質の持つエネルギー値(Ep)を定義する式
ECEPP/2のエネルギーパラメータを採用したKONF90
静電力項
レナードジョーンズ項
水素結合項
ねじれ角項
タンパク質の持つエネルギー関数の形状
局所的に無数の極小値を持ち,大域的にもいくつかの極小
値を持つ
局所解に陥らないアルゴリズムが必要
長い計算時間を要する
ヒューリスティックな手法によって,最適解に近い解を実用的な計算
コストで求める
シミュレ-テッドアニーリングがよく用いられている [Kawaii , 1989]
シミュレ-テッドアニーリング (SA)
1.
2.
解の生成(生成処理)
エネルギーEと温度Tから受理判定
改良方向
受理確率 P = 1
改悪方向
Metropolis基準により
受理確率を決定
P  exp
高温
3.
( E next  E current )
Temperature
温度Tを減少(クーリング)

低温
温度スケジュールとSAの解探索能力が
密接に関係
Monte Carlo sweep
二面角の配列
1
2
3
N
1
2
3
N
生成, 受理判定, 推移
1
2
3
N
生成, 受理判定, 推移
1
2
3
N
生成, 受理判定, 推移
1
各二面角において順にSAの
生成,受理判定,推移を行う.
2
3
N
生成, 受理判定, 推移
1 MCsweep
研究目的
SAにおいて,解探索能力は温度パラメータに依存
SAを用いたタンパク質エネルギー最小化の
温度パラメータの検討を行う
数値実験
実験1
SAにおける重要な温度の検証
重要な温度とタンパク質の折り畳みに必要な転移温度
の比較
実験2
重要な温度を用いた,温度パラメータの検討
対象タンパク質
Met-enkephalin
5個のアミノ酸から構成される
19個の二面角
最小エネルギー構造
E ≦ -11.0 [kcal/mol]
Met-enkephalin
タンパク質の折り畳みに必要な転移温度
タンパク質は最低二段階を経て折り畳まれる
[Hansmann Okamoto , 1997]
これらの転移に対応して,二つの転移温度が存在する
第一段階の転移温度 T
ランダムコイル状態からコンパクトな状態に折り畳まれる段階
第一段階の転移温度は,比熱の最大値を取る温度に対応
比熱
 E tot  T   E tot  T
2
C  
2
2
N
タンパク質の折り畳みに必要な転移温度
第二段階の転移温度 T f
コンパクトな状態から最小エネルギー構造に折り畳まれる段階
第二段階の転移温度はオーバーラップの平均値の温度微分に対応
オーバーラップ(最小エネルギー構造との誤差)
O  1
1
90 n F
nF
 |i i
GS
|
i 1
オーバーラップの平均値の温度微分
d  O T
dT
  (  OE tot  T   O  T  E tot  T )
2
第二段階の転移温度は最適構造が既知でないと
求めることができない
SAの温度スケジュール
一般的な
温度スケジュール
特定の温度のみ探索を
行う温度スケジュール
高い温度から緩慢に冷却するのが一般的
特定の温度のみ探索する温度スケジュール
[Connolly 1990, Mark 2000]


良好な解が得られる
この温度領域はSAの解探索おいて非常に重要
実験1:重要な温度の検証
特定の温度での解探索で良好な解を得ることが
できる [Connoly 1990 , Mark 2000]
最高温度と最低温度の間で一定温度のMetropolis判定を繰り返し,
温度パラメータが解に与える影響を検証
実験1:パラメータ
パラメータ
値
最高温度
2.0
最低温度
0.1
温度数
32
MCsweep数
近傍幅
試行回数
100,000
±180°→ ±54°
50
重要温度領域の存在
温度によって解精度が異なる
特定の温度領域では良好な結
果を示している
重要な温度が存在
重要温度領域の存在
温度によって解精度が異なる
特定の温度領域では良好な結
果を示している
重要な温度が存在
重要温度領域の存在
温度によって解精度が異なる
特定の温度領域では良好な結
果を示している
重要な温度が存在
重要温度とその誤差の範囲を
含めて重要温度領域
重要温度領域の存在
温度によって解精度が異なる
特定の温度領域では良好な結
果を示している
重要な温度が存在
重要温度とその誤差の範囲を
含めて重要温度領域
Met-enkephalinにおいては
重要温度
:0.56
重要温度領域:0.4~0.7
重要温度領域と転移温度の比較
第一段階の転移温度
0.52~0.6
第二段階の転移温度
0.4~0.52
二つの転移温度が
繋がっている
重要温度領域と転移温度の比較
第一段階の転移温度
0.52~0.6
第二段階の転移温度
0.4~0.52
二つの転移温度が
繋がっている
重要温度領域
0.4~0.7
二つの転移温度を
包含していた
実験2:温度パラメータの検討
良好な結果を示す温度領域の存在を確認した
この温度領域はタンパク質が折り畳まれるために必要な温
度を包含していた
重要温度領域を考慮した温度スケジュールを
設定することにより,解探索能力の効率化を図る
岡本らが用いていた温度スケジュールと解探索能力を比較
(最高温度2.0,最低温度0.1)
実験2:パラメータ
パラメータ
値
最高温度
2.0
0.7
最低温度
0.1
0.4
MCsweep数
近傍幅
試行回数
100,000
±180°→ 54°
100
温度パラメータの検討結果(最適解発見率)
最適解発見率が約10%向上
効率的な解探索を行っている
温度パラメータの検討結果(解探索履歴)
重要温度領域のみの温度スケジュールは,局所解に陥るこ
となく,探索序盤から有効な解探索を行っている
まとめ
SAを用いたタンパク質エネルギー最小化において,
特定の温度で有効な解探索を行う重要温度領域の存在を
確認した
重要温度領域とタンパク質の折り畳みに必要な転移温度
との対応を示した
重要温度領域を考慮した温度スケジュールにより,
探索序盤から効率的に解探索を行い,最適解発見率が
向上した
重要温度領域をコストをかけずに見出すことが出で
きれば,SAにおけるタンパク質エネルギー最小化
に有効である
Fin
補足資料
タンパク質の機能
タンパク質は生物の生命現象に重要な役割を担っている
センサー(受容器)
外界からの刺激を感知し,情報を伝える.
(ex.神経伝達物質)
ヘモグロビン 酸素を筋肉などの組織に運ぶ
免疫 身体防御システム(ex.抗体)
酵素 生体内での化学反応を調整
細胞 体を構成する要素 (ex.筋肉,皮膚,DNA)
実験によるタンパク質の立体構造解析
X線結晶構造解析法
空気中の立体構造を知るための方法
結晶化したタンパク質にX線を当てることにより,
解析を行う
生理条件下でのタンパク質の立体構造を解析不可能
核磁気共鳴(NMR)法
水溶液(溶媒)中での立体構造を知るための方法
溶媒中でタンパク質を高速に回転し,解析を行う
小規模なタンパク質のみ解析が可能
タンパク質のモデル化
全原子型モデル
設計変数は二面角
立体構造予測が困難
予測の精度は高い
格子型モデル
設計変数はアミノ酸
立体構造予測が容易
予測の精度は低い