FP - In Silico Science

Download Report

Transcript FP - In Silico Science

分子の立体構造と生命講義 6回目
3-Dimensional Molecular Structure for
the Life Science
•
•
•
北里大学薬学部3年前期選択 2008年4月-7月 12回
担当者 梅山秀明、竹田-志鷹真由子、寺師玄記、加納和彦
毎週月曜日4時限 2:30-3:45 港区白金キャンパス1501教室
•
•
•
•
•
•
•
•
•
Hideaki Umeyama, Ph.D., Professor
School of Pharmacy, Kitasato University
5-9-1 Shirokane, Minato-ku, Tokyo 108-8641, Japan
phone : +81-3-5791-6330 fax : +81-3-3446-9553
e-mail:[email protected]
港区白金5-9-1
北里大学薬学部教授
(理化学研究所客員主管研究員、東北大学未来研客員教授)
梅山秀明
•
•
•
•
•
http://famshelp.gsc.riken.jp/famsbase/index.html
http://www.pd-fams.com/index_ja.html
http://www.pharm.kitasato-u.ac.jp/bmd/files/achievement.html
http://www.pharm.kitasato-u.ac.jp/bmd/
http://h20pharm.kitasato-u.websyllabus.jp/content/versionview/235/29
構造活性フォーラム2008
•
•
•
•
•
•
•
主催
日本薬学会構造活性相関部会
協賛
日本薬学会医薬化学部会,日本薬学会生物系薬学部会,日本薬学会薬学研究ビジョン部会,日
本化学会,日本農芸化学会,有機合成化学協会,日本分析化学会,日本農薬学会,近畿化学協
会,Combinatorial Chemistry 研究会
日時
平成19年6月20日(金)
会場 北里大学薬学部コンベンションホール
•
5.高能率インシリコパイプライン研究とドッキング医薬品候補化合物の選択
•
•
16:30~17:35
梅山秀明(北里大・理化学研究所客員主管研究員 兼任)
•
•
•
•
梅山秀明
高谷大輔 寺師玄記 加納和彦 竹田-志鷹真由子
高能率インシリコパイプライン研究とドッキング医薬品候補化合物の選択:
Bioinformatics based Ligand-Docking and in-silico screening
梅山秀明 高谷大輔 寺師玄記 加納和彦 竹田-志鷹真由子
北里大学薬学部 生物分子設計学教室
研究の発展経過
•
CASP2,3,4,5,6,7,8 タンパク質立体構造予測コンテスト
タンパク質モデリングソフト
FAMS Circle
•
Takeda-Shitaka M., Terashi G., Takaya D., Kanou K., Iwadate M, Umeyama H. Protein structure prediction in
CASP6 using CHIMERA and FAMS. Proteins, 61(Suppl 7):122-127 (2005)
•
Terashi G., Takeda-Shitaka M., Takaya D., Komatsu K., Umeyama H. Searching for protein-protein interaction
sites and docking by the methods of molecular dynamics, grid scoring, and the pairwise interaction potential of
amino acid residues. Proteins, 60:289–295 (2005)
•
Terashi G, Takeda-Shitaka M, Kanou K, Iwadate M, Takaya D, Hosoi A, Ohta K, Umeyama H. Fams-ace: a
combined method to select the best model after remodeling all server models. Proteins. 2007;69 Suppl 8:98-107.
•
•
CAPRIタンパク質ータンパク質ドッキング構造予測
Circle
Terashi G, Takeda-Shitaka M, Kanou K, Iwadate M, Takaya D, Umeyama H. The SKE-DOCK server and human
teams based on a combined method of shape complementarity and free energy estimation. Proteins. 2007 Dec
1;69(4):866-72.
•
•
タンパク質ーリガンド、タンパク質ータンパク質複合体予測
FAMS-Ligand & Complex
Takeda-Shitaka M., Terashi G., Chiba C., Takaya D., Umeyama H. Medicinal Chemistry, 2, 191-201 (2006).
•
タンパク質立体構造データの蓄積
•
誘導適合を考慮したリガンドドッキング
•
バイオインフォマティクスに基づいたリガンドドッキングとインシリコスクリーニング
ChooseLD
Takaya D, Takeda-Shitaka M, Terashi G, Kanou K, Iwadate M, Umeyama
H. Bioinformatics based ligand-docking and in-silico screening. Chem
Pharm Bull (Tokyo); 2008 May;56(5):742-4
•
RIKEN FAMSBASE
Genius
Arai らによる「誘導適合型受容体を対象にした受容体・リガ
ンド結合解析について」より
SARS Protease の活性部位近傍
構造活性相関情報
白色:初期構造(PDB code:1UK3)
球&ステック:1UK4のリガンド
アミノ酸表示は構造活性相関に利用した活性部位残基
既知の複合体情報から構造活性相関を利用方法である。
立体構造アライメントによってSARS Protease
(PDBID:1UK3) に既知リガンドを収集した。
このリガンド群かから必要な部品をつかって
未知の化合物をドッキングする
この講演の目的
• 相互作用が既知のタンパク質-リガンド複合体構
造を用いて、
• 自由エネルギーの最小化を満たすように、
• ドッキングする未知のリガンド構造を予測する式
を定義することによって、
• 試薬ライブラリから新規阻害剤をインシリコ探索
をする。
他のドッキング研究との関係
位置づけ
Fingerprint(FP)
静電相互作用や原子間分散力といった古典物理的な
ポテンシャル関数や疎水性相互作用
新たな関数
Glide,FlexX
医薬品データベース
化合物データベース
新規のドッキングソフトが必要である背景
類似した
阻害剤候補
リスト
新規
大きな製薬会社は入手可能
入手(購入)可能な化合物リスト
(ZINC, MDL ACD, ナミキ等)
なドッキングソフトはすべて
用いると考えられる。
Glide
他の手法と類似しない方法を
開発する必要がある。
ChooseLD
(CHOOse biological information SemiEmpirically on the Ligand Docking )
の方法
ターゲットタンパク質
の三次元座標
ターゲットリガンド
Our protcol
•FPAScoreの定義
FPAScore (FingerPrint Alignment Score)
算出に使用される
三次元化合物指紋(FP)
1.
ターゲットリガンドと
2.
ターゲットタンパク質の三次元座標
を入力情報とする。
予測複合体構造を
出力する
ファミリータンパク質に結合したリガンドから
FP Library (FP Band) の構築
• ターゲットタンパク質のアミノ酸配列からファミリータンパク質
配列を集めるために、アライメントソフトプログラム PSIBLASTを使用
• ファミリータンパク質の立体構造をPDBから収集
• タンパク質立体構造アライメント (CE) Z-Score 3.7以上のリ
ガンドを結合したファミリータンパク質を集める
• 結合したリガンドから三次元FPをつくり、FP bandの作成
Fingerprint(FP) の構築方法
4原子FP
2原子FP
3原子FP
FP重複は許容される
4原子FP
2,3,4個の結合した原子からなる
FP を構築する。3次元座標は含まない。
自由エネルギーが
安定な場所に三次元FPがあると仮定する。
スコアを計算するためのFP band 構築
FP bands を縮める
ターゲットタンパク質に特有のFP band
が構築される。
シミュレーティドアニーリングのための三次元FP 基底
リガンドコンフォメーションはこの時点では変化しない。
FPAScore の計算
スコアを計算する
ためのFP band
三次元FP 基底変換によるシミュレーティドアニーリング法の提案(発見)
Simulated annealing
新規関数FPAScore
が
最も高い複合体構造
で解答する
フレッキシブルリガンドドッキング
ターゲットリガンドの配座変換
リガンド結合部位へ
ドッキング
1サイクル
ドッキング候補構造
の収集
ドッキング構造のプール
FP アライメントを用いた
フィッティングによる並進回転
1 10,000 ステップのシミュレティッ
ドアニーリング
2 ターゲットリガンドとFP Library
のFP vector のアライメントの実行
。対応するFPの増大、減少、およ
び原子座標の対応関係の変更
FPAScoreが最も大き
い構造を選択
Simulated Annealing 時のFPAScore の関数
3-Dimensional Finger Print Alignment をRMSD利用してのScore化
数式1
FPAScore F (aligned_ fp, fp _ rmsd, molecule)
 BaseScore(aligned_ fp, fp _ rmsd)
 fp _ volume(molecule)
 fp _ contact_ surface(molecule)
•
FPAScore を算出する関数は
1.
Aligned_fp アライメントされた複数三次元FP
2.
Fp_rmsd
選択した複数三次元FPの最小自乗fit の rmsd
3.
Molecule
予測複合体構造の座標(タンパク質とリガンド)
を引数とする。
数式2(BaseScore)
RawScore(aligned_ fp)
BaseScore(aligned_ fp, fp _ rmsd) 
k1
1  ln( fp _ rmsd  1)
k1 は FP の重ね合わせの精度をどこまで厳密にするかをきめる スケール因子である。
k1が大きくなったときに、rmsdが大きい(悪い)とScoreが 小さくなるような定数である。
n
RawScore(aligned_ fp)  assigned_ score(i)
i 1
 total_ atom(i )
 Case1_ S  ln(n _ neighbor_ atom(i)  1)
1
total_jatom
(i )

assigned_ score(i)   Case2 _ S  ln(n _ neighbor_ atom(i)  1)
1
total_j atom
(i )

 Case3 _ S  ln(n _ neighbor_ atom(i)  1)
 j 1
Case1_S
5.0×4.0
リガンド
既知リガンドに
Case3_S
1.0×4.0
分子間FP
Case2_S
2.5×4.0
リガンド分子内FP
依存しないFP
(今回は使用しない)
 total_ atom(i )
 Case1_ S  ln(n _ neighbor_ atom(i)  1)
1
total_jatom
(i )

assigned_ score(i)   Case2 _ S  ln(n _ neighbor_ atom(i)  1)
1
total_j atom
(i )

 Case3 _ S  ln(n _ neighbor_ atom(i)  1)
 j 1
数式3(fp_volume)
1.0  nafpk 2
fp _ volume(molecule)  ln
1.0  napk 3
*nafp : リガンドが FPをどれだけ満たしているかを表す。
*nap :標的タンパク質領域にリガンドの座標が属する領域で
あり、標的タンパク質との衝突具合を表現している。
*k2 : 標的タンパク質に結合したFP Library のリガンド集団
の結合空間が占有する領域を重視する定数ある。
*k3: 標的タンパク質の占有する領域に対するドッキングリ
ガンドの衝突する許容度因子である。
数式3(fp_volume)は、リガンド原子が総三次元FP空間占める 個数(nafp)と、リガンド原子
がタンパク質と衝突する個数(nap)をバランスする関数である。
1.0  nafpk 2
fp _ volume(molecule)  ln
1.0  napk 3
古典的物理関数におけるLenard Jones ポテンシャルに相当する。
数式4(fp_contact_surface)
n
fp _ contact_ surface(molecule) 
density_ of _ atom(atom(i))
i 1
total _ density_ of _ atom(molecule)
0

density_ of _ atom(atom(i))  
ln(nfpcontact natom hi)
nfpcontact : atom(i)が属する格子点に属している原子とある一定の距離
(Default 3.8)で接触しているレセプタータンパク質の原子の個数
natom : atom(i)が属する格子点に属するFP Library を構成するの原子の数
となる。
hi : 特に重要な生化学的情報がある場合は使用する。 デフォルトでは 0 を用
いる。
total
total _ density_ of _ atom(molecule)  sort _ density_ of _ atom(i)
i 1
sort_density_of_atom は density_of_atomの分布を
大きい方から順に並べ替えたものである。
数式4(fp_contact_surface)は
受容体と接しているFPを優遇する関数である。
ITAI, Akiko’s patent
発明の名称:生体高分子-リガンド分子の安定複合体構造の探索方法
1.
リガンド結合部位の水素結合性官能基と水素結合しうるリガンドのヘ
テロ原子を網羅的に対応づける。ダミー原子を発生させ、最小自乗法
でfitting(Kabsh法)し、リガンド結合部位の座標系に変更する。
2.
リガンドの配座を変化させながら、ドッキングする。
3.
エネルギーはリガンド結合部位の三次元格子点(レナードジョーンズポ
テンシャル、静電相互作用:Einter)および、分子内エネルギー(例えば、
AMBER:Eintra)、水素結合(例えば、Simplex: Etotal = Einter +
Eintra + Whb(水素結合の重み)*Nhb(水素結合の数)*Chb(一個の
水素結合安定化エネルギー))を用いる。
経験的物理関数をもちいたドッキング
結果
(1) ChooseLDのドッキング性能
•
•
T85 (85個のリガンド結合タンパク質のベンチマークセット)をもちいたk1の最適化
Hartshorn, M. J., Verdonk, M. L., Chessari, G., Brewerton, S. C. & Mooij, W. T. M.
Diverse, High-Quality Test Set for the Validation of Protein-Ligand Docking
Performance J. Med. Chem. 50, 726-741 (2007)
•
•
T133 (133個のリガンド結合タンパク質のベンチマークセット)を用いた予測精度の検証
Jones, G., Willett, P., Glen, R. C., Leach, A. R. & Taylor, R Development and
Validation of a Genetic Algorithm for Flexible Docking J. Mol. Biol. 267, 727-748
(1997)
(2) ChooseLDのインシリコスクリーニング性能
Epidermal growth factor receptor (EGFR) を
ターゲットとした場合のk2 とk3の最適化
と
インシリコスクリーニング
Summary of benchmark set
T85とT133のトレーニング計算で使用した
既知タンパク質ーリガンド複合体情報
• 2007年 8月 31日時点でのPDBを使用した。
T85とT133のトレーニング計算で使用した
リガンド初期コンフォメーションの発生方法
• リガンド初期コンフォメーションは二面角をランダム
に変更して、rmsd が最も大きい構造を使用した。
Random change
初期リガンドの座標は用いない。
K1の最適化をT85 で行った。
ベンチマークセットにおける
T133
T85
PDBIDの分布
ドッキングリガンドとタンパク質結合リガンドのFP 基底の類似性をTanimoto 係数(Tc)で調べた
number_ of _ fp( A  B)
Tc 
number_ of _ fp( A  B)
ここで、number_of_fp(assembly)はある集合assemblyに所属するfp
の数である。
a
Tc 
a bc
Tc は0(似ていない)
から1.0(似ている)
の範囲で動く
a: fp が両方の fp band に存在する個数
b,c : fp が片方の fp band にのみ存在する個数
J. Chem. Inf. Comput. Sci. 2000, 40, 163-166
この研究のベンチマークテストにおける「成功」の定義
• ドッキング後のリガンドの構造と実験構造の
リガンドのRmsd(原子種類対応) が 2.0 Å以
下 (Good)
• ドッキング後のリガンドの構造と実験構造の
リガンドのRmsd が 2.5 Å以下 (Close)
J. Mol. Biol. 267, 727-748 (1997)
本研究では2.0Å を成功とする。
J. Chem. Inf. Model. 47, 1609-1618 (2007)
但し、2.5Åならば、MD, QM等の手法によっては2.0Å
以下に最適化できる可能性がある
T85におけるk1の最適化
k1 は三次元 FP の重ね合わせの精度をどこまで厳密にするかをきめる スケール因子
RawScore(aligned_ fp)
BaseScore(aligned_ fp, fp _ rmsd) 
k1
1  ln( fp _ rmsd  1)
1ターゲットタンパク質あたり10回計算し、2.0Å以下を成功とした。
得られた予測
構造の数
830
840
840
K1 = 4.0 の時が、成功率平均が最も高い。
T85における各ターゲットについて10回中の成功数
(rmsd 2.0Å以下を成功とした : Good)
すべて成功とすべて失敗のターゲットと二極化している。すべて成功が多い。
T85における 各ターゲットごとの10回中成功数
(rmsd 2.5Å以下を成功とした: Good + Close)
10回とも成功が増加した。
予測構造数
T85 における予測成功構造(rmsd 2.0Å以下)
における衝突(2.0Å以下)の個数分布
2個の
衝突例
8000
7000
6000
5000
4000
3000
2000
1000
0
0
1
2
3
4
2.0以内の衝突個数
5
6
7
古典物理学的エネルギー計算に対応するもとのして
FPAScore における数式3(fp_volume)の衝突判定は機能している
T85トレーニングセットで最適化したk1=4 を用いて
T133 でドッキング性能を試験
ベンチマークセットにおける
T133
T85
PDBIDの分布
J. Chem. Inf. Model. 2007, 47, 1609-1618 K.Onodera, K. Satou and H. Hirota
Rmsd 2.0Å以下(Good) の割合
T133における成功率(rmsd 2.0A)
Present work
Tc上限値をさらに低くする
ドッキングリガンドとタンパク質結合リガンドのFP 基底の類似性をTanimoto 係数(Tc)で
調べ、ドッキングリガンドに似ているタンパク質結合リガンドを使わない程度
(rmsd 2.0Å以下)
Tc range
0.16 - 0.08
0.24 - 0.08
0.36 - 0.08
success rate(%)
12.6
DOCK 21.1%
20.8
AutoDock 26.6%
29.2
Tc の上限値を下げると、使用できるドッキングリガン
ドに似ている結合リガンドの三次元FPが少なくなり
結果としてChooseLDの成功率は落ちる
T133 における予測成功構造(rmsd 2.0Å以下)
における衝突(2.0Å以下)の個数分布
予測構造の数
1200
2個の
衝突例
1000
800
600
400
200
0
0
1
2
3
4
5
2.0 A 以内の衝突個数
6
7
古典物理学的エネルギー計算に対応するもとのして
FPAScore における衝突判定は機能している
T133における 各ターゲットごとの10回中成功数
(rmsd 2.0Å以下を成功とした: Good)
すべて成功とすべて失敗のターゲットと二極化している
T133における 各ターゲットごとの10回中成功数
(rmsd 2.5Å以下を成功とした : Good + Close)
10回の成功ターゲット数が大幅に増えた。
T133における出現順位の選択と
成功率(rmsd 2.0A以下)の変化
10位までを選べば約65%で正解
構造が含まれている。
Glide, GOLDとの比較(J Med Chem. 2004 Mar 25;47(7):1739-49 )
T133中で90 target についてGOLD, Glide の両方にrmsd 値の比較
90 ターゲットタンパク質
Method
ChooseLD 0.96-0.08 ChooseLD 0.76-0.08 ChooseLD 0.56-0.08 Glide
GOLD
success rate(%)
62.2
61.1
60.0
72.2
66.7
ChooseLD :10回ドッキングの上位2個を選び ベストの構造を選択。
Glide : 当該論文には記載なし、 GOLDに準ずると考える。
GOLD : the best of GA 20 run
ベンチマークによって成績はある程度異なる
複数の有名ドッキングソフト間の
予測成功ターゲットタンパク質の
類似性(1.0 ~0)
Glide
Gold
FlexX
ChooseLD
Glide
Gold
FlexX
ChooseLD
Glide
1
0.645
0.609
0.545
Tc map
GOLD
FlexX
0.645
0.609
1
0.656
0.656
1
0.5
0.471
ChooseLD
0.545
0.5
0.471
1
Glide
1
0.697
0.697
0.607
Fc map
GOLD
FlexX
0.697
0.697
1
0.753
0.753
1
0.573
0.596
ChooseLD
0.607
0.573
0.596
1
a
Tc 
a bc
*a : どちらも成功
*b, c : どちらかが成功
ad
Fc 
a bc  d
*a : どちらも成功
*b, c : どちらかが成功
*d どちらも失敗
Tc が0.5(a=b+c)近傍であるのでChooseLDは
Glide, GOLD, FlexXと比べて独自性がある。
T133 においてGOLDがドッキングできなかったターゲット
(1)
PDBID: 1DR1 TITLE: CHICKEN LIVER DIHYDROFOLATE REDUCTASE DOCKED
LIGANSD: NADP RMSD: 1.743 FPAScore 1295.553
CYAN: Answer GREEN: Predicted ligand Structure The other: the binding site
T133 においてGOLDがドッキングできなかったターゲット(2)
PDBID: 4EST TITLE: CRYSTAL STRUCTURE OF THE COVALENT COMPLEX
FORMED BY A PEPTIDYL ALPHA,ALPHA-DIFLUORO-BETA-KETO AMIDE WITH
PORCINE PANCREATIC ELASTASE AT 1.78-ANGSTROMS RESOLUTION
DOCKED LIGAND: INHIBITOR ACE-*ALA-*PRO-*VAL-*DIFLUORO-*N*PHENYLETHYLACETAMIDE RMSD: 1.729 FPASCORE: 451.291
CYAN: Answer GREEN: Predicted ligand Structure The other: the binding site
他のドッキングソフトとの
結合モード予測成功率の比較(1)
PDBに登録されている複合体既知構造でのテスト
(116ターゲット;実験構造とRMSDが2Å以下で予測成功)
ChooseLD
ドッキングソフト
予測成功率 (%)
Corina
MINI
平均
DOCK
21.6
20.6
21.1
AutoDock
26.2
27
26.6
GOLD ChemScoreSTD
45.5
45.3
45.4
GOLD GOLDScoreLib
44.1
44.9
44.5
GOLD GOLDScoreSTD
45.2
46.7
46
Onodera et. al. J. Chem. Inf. Model. 47, 1609-1618 (2007)
Tc range
0.16 - 0.08
0.24 - 0.08
0.36 - 0.08
0.56 - 0.08
0.76 - 0.08
0.96 - 0.08
success rate(%)
12.6
20.8
29.2
40.1
44.8
46.4
Tc:Tanimoto係数
実験情報が増えるに従い、予測精度が上昇していく
と考えられる。
他のドッキングソフトとの
結合モード予測成功率の比較(2)
PDBに登録されている複合体既知構造でのテスト
(90ターゲット;GOLD,Glideの計算条件下;予測成功ターゲットの分布 )
GOLD成功 GOLD失敗
ChooseLD成功
38
16
ChooseLD失敗
23
13
Glide 成功
ChooseLD成功
42
ChooseLD失敗
23
Glide失敗
12
13
成功するターゲットにばらつきがあり、様々な
手法を併用することが新規阻害剤発見に必
須であると考える。
(1) ChooseLDのドッキング性能
• T85 のベンチマークセットをもちいたk1の最適化
• T133 を用いた予測精度の検証
(2) ChooseLDのインシリコスクリーニング性能
Epidermal growth factor receptor (EGFR)
を
ターゲットとした場合のk2 とk3の最適化
と
インシリコスクリーニング
EGFR kinase domain の阻害剤の探索を
サンプルとしてk2,k3を最適化する
ゲフィチニブ
(イレッサ)などが阻害
ファミリータンパク質立体構造アライメントによってEGFR
の活性部位(kinase domain) に複合体リガンドを集める。
このタンパク質結合リガンド群かから必要な部品である三次元FP を使って
未知の化合物リガンドをドッキングする
EGFR inhibitor情報の入手先
IC50既知化合物一覧(EGFR inhibitor 11個)
O
O
Cl
O
O
N
O
Cl
Cl
N
N
N
N
N
O
3um/L
N
O
3um/L
N
O
N
3nm/L
O
O
O
O
0.8um/L
O
O
O
O
O
N
N
O
O
N
1.2um/L
11nm/L
N
O
5um/L
N
O
N
O
O
N
O
2.4um/L
N
O
O
N
S
N
N
N
O
N
O
S
O
N
O
O
1.3um/L
35um/L
N
0.35um/L
Simulated annealing
Simulated annealing
新規関数FPAScore
が
最も高い複合体構造
で解答する
MDL CMC Libraryと新たに加えた
IC50既知 化合物(EGFR inhibitor 11個)とを用いたk2値の最適化
Enrichment curve
1.0  nafpk 2
fp _ volume(molecule)  ln
1.0  napk 3
k2
6000
0.5
1.0
2.0
3.0
4.0
5.0
random
5000
rank
4000
3000
2000
1000
0
1
2 3 4 5 6 7 8 9 10 11
the number of ranked compound
K2 =2.0のEnrichment curveが最適である
IC50既知化合物(EGFR inhibitor 11個)とMDL CMC Library を用いた
k3値の最適化(k2 = 1.0を使用した)
1.0  nafpk 2
fp _ volume(molecule)  ln
1.0  napk 3
Optimization of k3
Ranking sorted by
FPAScore
6000
5000
k3 0.5
k3 1.0
k3 2.0
random
4000
3000
2000
1000
0
1
2
3
4
5
6
7
8
9 10 11
the number of ranked compound
K3の変化に対してEnrichment curveが
あまり変化しなかったので、k3 = 1.0とした。
Tc 下限値の最適化 (上限値 1.00, 下限値 x )
(k1 = 4.0, k2 =2.0, k3 = 1.0) FP Library に対するリガンドの
類似性Tanimoto 係数(Tc)
rank
3000
下限値
2500
x
2000
0.08
0.16
0.24
0.32
1500
1000
500
0
1
2 3 4 5 6 7 8 9 10 11
The number of ranked compounds
FP Library に対するTc の下限値は 0.24 のときに
良好なEnrichment curveが得られた。
あまり似ていないタンパク質結合リガンドは含まない方が良い。
反対に、似ているものだけに絞っても好ましくない。
EGFR(Epidermal growth factor receptor)をター
ゲットタンパク質としたインシリコスクリーニングの
条件設定(IC50既知化合物の順位)
Fingerprint libraryに含め
るリガンドと試薬との類似度
の下限値
500位までに既知活
性化合物が5個出現
する。
FPAScoreによる順位
3000
2500
0.08
0.16
0.24
0.32
2000
1500
1000
500
0
1
2
3
4
5
6
7
8
9 10 11
化合物の出現個数(計11個)
試薬ライブラリ (MDL ACD Library)に対する
インシリコスクリーニングのための
絞込み条件1
• 下記のEGFR 特異的 FP band と試薬ライブラリ(MDL
ACD Library)の各化合物のFP band のTc を算出する
• 上記の記述に従って、計算されたTcの大きい順から試
薬ライブラリを20000 化合物までに絞り込む。
EGFR 特異的
FP band
EGFR のATPを基質とするkinase ドメインに対する
インシリコスクリーニングの結果(100位まで表示)
試薬ライブラリに
ATP 誘導体が多く存在する
オレンジはP原子
ATP誘導体を除外し、試薬ライブラリ
からドラッグライクの化合物を抽出す
る必要がある。
試薬ライブラリ (MDL ACD Library)に対する
インシリコスクリーニングのための
絞込み2: ドッキング構造絞り込み
• 分子量350以上800以下の低分子、リンを含まない。
• 重要な水素結合をしているか。(METの主鎖の窒素)
• タンパク質ーリガンドの衝突 2.0 A 以下が存在するドッ
キングリガンド分子をのぞき上位を選択した。
FPAScore 上位10個を表示
(スティックモデル)
Kinase ドメインの空間内におけ
る立体構造相補性を満たす
重要な水素結合を満たす
ドッキング構造がランキング
内に存在した。
購入可能な試薬(MDL ACD Library)であるの
で、すぐにでもEGFR kinase阻害剤の活性値の
測定が可能である。
既知阻害剤から得たFP Library を使用して、
EGFR kinase ドメインに対するインシリコスクリーニング:
FP Library を工夫することによりATP誘
導体をさける事が可能である。
結果のまとめ
• 新しく定義したFPAScore をSA( Simulated Annealing)で最適
化することによって、Rmsd 2.0 A 以下で予測できる割合は
GOLDと同程度である。
• Tc 上限値が低く設定した場合は DOCK, AutoDock と同程度であった。
• ChooseLDはGlide, GOLD, FlexXと比べて独自性があった。
• FPAScoreによるEGFRに対するドッキング構造の順位付け
に関して、k1 = 4.0, k2 =2.0, k3= 1.0 既知阻害剤を上位に
順位付けできるenrichment curveが得られた。
• EGFR kinase ドメインに対するインシリコスクリーニングに
おいて有望と考えられる化合物セットを得ることができた。
(実験で証明の必要有)
ChooseLDの適用例(結合実験の証明が必要)
1. Epidermal growth factor receptor (EGFR)の TGFα
binding ドメイン 阻害剤のインシリコスクリーニング
2. Vascular endothelial growth factor
(VEGF) Receptor- 2 にKRN633, KRN951をドッキング
3. Plasmodium falciparum enoyl acyl carrier protein
reductase に対する低分子(NAD)が介在した状態での
ドッキング
EGFR のTGFα binding ドメインの阻害剤の探索
二量体形成
阻害
EGFR二量体形成阻害剤のインシリコスクリーニング
TGFα binding
domain
EGFR (PDBID : 1MOX)
EGFRが二量体を形成するため
に必要なペプチドであり、
阻害剤のターゲットとなる
TGFα binding ドメイン 近傍に
TGF類似体のペプチドをFAMS Complex で
モデリングし、その側鎖を切り出した。
(同じFPが多数得られる主鎖は除いた。)
医薬品をドッキング
試薬をドッキング
タンパク質-タンパク質相互作用をFP Library
をとして使用できることを示した。
VEGFR-2 に対するKRN633, KRN951ドッキング構造の予測
Cl
O
O
O
H
N
H
N
N
N
O
KRN633
IC50 = 1.16nm/L
Mol Cancer Ther 2004;3(12).
Cl
O
H
N
H
N
O
N
O
O
O
FAMS(
J Mol Graph 18 258-72, 305-6 (2000))
でモデルを構築
N
KRN951
IC50 = 0.16nm/L
Cancer Res 2006; 66: (18).
(鋳型PDBID:2P2H_A
Homology:99.3%)残基欠損を補うため
KRN633
Simulated annealing
Simulated annealing
新規関数FPAScore
が
最も高い複合体構造
で解答する
VEGFR2 にKRN633をドッキング
ドッキングに使用されたFP Library の上位10
個のPDBID
2HZN_A , 1YWN_A , 2J5F_A , 2IVU_A ,
2H8H_A , 2OH4_A , 1GAG_A ,
1FPU_A ,2C0I_A , 2P4I_A
ChooseLDによる予測構造 10 個
Tc range 1.00 - 0.08
10個とも同様の構造が得られた。
予測構造のばらつきが少なく、信頼できる予測構造と考える。
VEGFR-2 にKRN951をドッキング
ドッキングに使用されたFP Library の上
位10個のPDBID
ChooseLDによる予測構造 10 個
2I0V_A , 2HZN_A, 2OH4_A , 1FGI_A ,
1YWN_A , 1FPU_A , 2OFU_A, 2C0I_A ,
2H8H_A , 2FGI_A
使用Tc range 1.00-0.08
FP Library Tc Maximum (0.29)
推定成功率24.3%
予測構造10個中8個がほぼ同じ構造であった。
Plasmodium falciparum enoyl acyl carrier protein reductaseに対
する低分子(NAD)が介在した状態でのドッキング
既知阻害剤
NAD
NADを含んだ複合体をターゲットとした。
医薬品ライブラリからドッキングし
FPAScore上位10構造を解答
NAD
ChooseLDはNAD, 水などの低
分子が介在してもドッキングが
可能である
Fingerprint alignment
Fingerprint
alignment
ChooseLD(CHOOse biological information SemiEmpirically on the Ligand Docking)法による
リガンドドッキング
ターゲットタンパク質の
三次元座標
ターゲットリガンドの
三次元座標
複合体構造を予測
ChooseLD法 概要
• PDBに対するホモロジー検索。
既知タンパク質ーリガンド複合体構造を入手
• タンパク質の立体構造アライメントにより、リガンド
をターゲットタンパク質の座標系に変換し、
figerprint library構築
(基本的な考え方:相互作用自由エネルギーを満たすと仮定した
figerprintを用いる)
• フレッキシブルリガンドドッキング
C/C++で記述した。約20,000行。
テキスト処理はスクリプト言語(Perl Ruby等)を用いた。
ChooseLD法 FPAScore(fingerprint alignment score)
自由エネルギー最小を満たすようなfingerprintを選び出す関数
FPAScore F (aligned_ fp, fp _ rmsd, molecule)
 BaseScore(aligned_ fp, fp _ rmsd)
 fp _ volume(molecule)
 fp _ contact_ surface(molecule)
BaseScore(aligned_ fp, fp _ rmsd) 
ドッキング項
RawScore(aligned_ fp)
1  ln( fp _ rmsdk1  1) (Figerprintの一致度)
1.0  nafpk 2
fp _ volume(molecule)  ln
1.0  napk 3
結合部位との衝突項
n
fp _ contact_ surface(molecule) 
density_ of _ atom(atom(i))
i 1
total _ density_ of _ atom(molecule)
結合部位との
接触項
並列計算を常時利用
大量の計算を複数の計算機に分散する
計算の
分散
FPAScore F (aligned_ fp, fp _ rmsd, molecule)
 BaseScore(aligned_ fp, fp _ rmsd)
 fp _ volume(molecule)
 fp _ contact_ surface(molecule)
結果の収集
計算機の数が増えるほど
 試薬リストを速く得ることができる
 大量のターゲットタンパク質に対してインシリコスクリーニングが可能となる
ChooseLD法の使用プロトコル(rsh;メモリ非共有型並列計算)
その他のプロトコル
世界中のネットワークにつながっている個人使用のデスクトップコン
ピュータを計算資源にする試み(BOINC等)
バーチャルライブラリの構築
(リガンドドッキングの準備過程)
• MDL® Available Chemicals Directory(年4回更新)
• MDL® Comprehensive Medicinal Chemistry(年1回更新)
• ナミキ商事 HTS 300万化合物
PostgreSQLを用いたテーブルによる化合物絞り込み、および
検索高速化
Tanimoto係数検索用関数をPostgresSQLの拡張関数として
C言語で実装
インシリコスクリーニングの結果整理
(阻害剤候補リスト)
SQLiteによる検索プログラムの実装
細かな検索条件の指定が可能(Perl、 Rubyで実装した)
Webインターフェイスを介した結果の視覚化
ディスカッションに
使用できる。
iPS細胞時代における
インシリコスクリーニングの役割
iPS細胞
テーラーメイド医療
個人特有の細胞、組織、
臓器
in-vitro
活性試験
In-vitro とin-vivo の
中間の活性試験
in-vivo
活性試験
新薬の有効性、安全性試験
インシリコスクリーニングの加速
が必要となる。
結論
• 新しく定義したFPAScore を用いるバイオインフォマティクスに基づい
たリガンドドッキングとインシリコスクリーニング法、ChooseLD を開
発した。
• FPAScore をSimulated Annealing で最適化する方法によって、
Rmsd 2.0 A 以下で予測できる割合はGOLDと同程度であり、Tc上
限値が低い場合は DOCK, AutoDock と同程度であった。
• 性能は既存の古典的物理関数を用いるアルゴリズムと同程度であり、
Glide, GOLD, FlexXと比べて独自性があった(従来法との併用でイ
ンシリコスクリーニングの精度が上昇すると期待される)。
• EGFR のkinaseドメインを用いてターゲットタンパク質に応じて、
FPAScore のk1, k2, k3 を最適化することにより良好なenrichment
curve が得られることを示した。
• 応用としてEGFR dimer 阻害剤インシリコスクリーニング、VEGFR2に対するKRN633, KRN951をドッキング、マラリアの標的タンパク
質に対するインシリコスクリーニングでChooseLDの可能性を示した。
今後の検討課題
• 最適化アルゴリズムの改良
遺伝的アルゴリズム、レプリカ交換法等
• 配列的に似ていない既知複合体構造からFP
Library Ligand をえる
PSI-Blast : Sequence-Profile Alignment
-> Profile-Profile Alignment
• FP が全く存在しない場合への対応
3D1Dスコアが優位になるようにリガンドを配置
既存物理関数のドッキングソフトを用いてFP
Library Ligand を作成
現状の課題
• 最適化アルゴリズムの改良
遺伝的アルゴリズム、レプリカ交換法等
• 配列的に似ていない既知複合体構造からFP Library を
得る
PSI-Blast (Sequence-Profile Alignment) に加えて
SPARK2, SP3 (Profile-Profile Alignment)
• FP が全く存在しない場合への対応
3D1Dスコアが優位になるようにリガンドを配置したり、古
典的物理関数のドッキングソフト等を用いてFP Library
を構築する
* 将来、PDBの登録数の増加に伴い、ChooseLDの精度
が向上すると考える。
下記の発表資料を参考にしました。
平成19年12月3日 課程博士 公開論文発表会
バイオインフォマティクスに基づいた
リガンドドッキングと
インシリコスクリーニング法の開発
生物分子設計博士課程
DP-05103 高谷大輔
指導教授 梅山秀明
分子の立体構造と生命講義 6回目
3-Dimensional Molecular Structure for
the Life Science
•
•
•
北里大学薬学部3年前期選択 2008年4月-7月 12回
担当者 梅山秀明、竹田-志鷹真由子、寺師玄記、加納和彦
毎週月曜日4時限 2:30-3:45 港区白金キャンパス1501教室
•
•
•
•
•
•
•
•
•
Hideaki Umeyama, Ph.D., Professor
School of Pharmacy, Kitasato University
5-9-1 Shirokane, Minato-ku, Tokyo 108-8641, Japan
phone : +81-3-5791-6330 fax : +81-3-3446-9553
e-mail:[email protected]
港区白金5-9-1
北里大学薬学部教授
(理化学研究所客員主管研究員、東北大学未来研客員教授)
梅山秀明
•
•
•
•
•
http://famshelp.gsc.riken.jp/famsbase/index.html
http://www.pd-fams.com/index_ja.html
http://www.pharm.kitasato-u.ac.jp/bmd/files/achievement.html
http://www.pharm.kitasato-u.ac.jp/bmd/
http://h20pharm.kitasato-u.websyllabus.jp/content/versionview/235/29