機械学習を用いた生体分子への金属イオン結合部位

Download Report

Transcript 機械学習を用いた生体分子への金属イオン結合部位

Nara Women’s University
SVMを用いた生体分子への
金属結合部位予測手法の提案
中澤昌美✝ 高田雅美✝ 横田恭宣*
野口保* 関嶋政和* 城和貴✝
✝奈良女子大学大学院人間文化研究科
* 産業技術総合研究所生命情報工学研究センター
目次
金属タンパク質
立体構造解析手法
Protein Data Bank (PDB)
Support Vector Machine (SVM)
金属結合予測手法
実験
まとめ
Nara Women’s University
金属タンパク質
金属タンパク質 = タンパク質 + 金属イオン
金属イオンの働き
 フォールディング
 補酵素
1A0B
1PPT
2AC3
Nara Women’s University
Calmodulin
低
Caイオンの濃度
Caイオンを含まない
不活性酵素が結合しない
高
Caイオンを含む
不活性酵素が結合し活性化
Ca2+/calmodulin
構造変化
Caイオンと結合しない状態
(1DMO)
Caイオンと結合した状態
(3CLN)
Nara Women’s
University
タンパク質の解析手法
タンパク質の立体構造の解析手法
 NMR (Nuclear Magnetic Resonance)
 X線結晶構造解析
莫大な費用と時間が必要
コンピュータによる解析
 実験設定が容易
 ターンアラウンドタイムの短縮
Nara Women’s University
コンピュータによる解析の問題点
タンパク質の立体構造が未決定
金属イオンのポテンシャル関数が不完全
コンピュータシミュレーションが困難
他のアプローチを用いたソフトウェアが必要
Nara Women’s University
アプローチ
三次構造から一次構造へ
ARG – CYS – THR – HIS –
TYP – ALA – GLY – SER –
PRO – GLN – GLN – LEU –
CYS – ARG – PRO – MET –
PRO – HIS – ARG – LEU –
GLN – CYS – TYP – SER
PDPID: 1PPT
タンパク質の立体構造
アミノ酸配列
(タンパク質の一次構造)
Nara Women’s University
Protein Data Bank (PDB)
タンパク質と核酸の三次元立体構造データベース
解析手法:NMR,X線結晶構造解析など
登録数は指数関数的に増加 (現在約55,000)
PDBファイルの情報
解析手法
三次元座標データ
アミノ酸配列
文献情報
熱揺らぎに関する情報
解像度
Nara Women’s University
Support Vector Machine (SVM)
Vapnikらによって提案
2クラス分類を行う学習機械
線形分離不可能でも高い認識率
– ソフトマージン
• 少しの誤りを許可
分離超平面
– カーネルトリック
• 高次元空間に写像
マージン
サポートベクター
Nara Women’s University
金属結合の予測手法
1.
2.
3.
4.
PDBから対象となるPDBファイルを抽出
学習データファイル作成
学習 → モデルファイル生成
予測
抽出
PDB
file
PDB
(Protein Data Bank)
学習
Training
data file
SVM
予測
Model
file
SVM
予測
結果
Nara Women’s University
金属結合の予測手法
1.
2.
3.
4.
PDBから対象となるPDBファイルを抽出
学習データファイル作成
学習 → モデルファイル生成
予測
抽出
PDB
file
PDB
(Protein Data Bank)
学習
Training
data file
SVM
予測
Model
file
SVM
予測
結果
Nara Women’s University
PDBファイルの抽出条件
モノマー
X線結晶構造解析
部位特異的変異なし
天然アミノ酸のみで構成
金属イオンを含んで解析
抽出
PDB
file
PDB
(Protein Data Bank)
野生型の立体構造に
与える影響のみを考慮
したPDBファイルが抽出
学習
Training
data file
SVM
予測
Model
file
SVM
予測
結果
Nara Women’s University
金属結合の予測手法
1.
2.
3.
4.
PDBから対象となるPDBファイルを抽出
学習データファイル作成
学習 → モデルファイル生成
予測
抽出
PDB
file
PDB
(Protein Data Bank)
学習
Training
data file
SVM
予測
Model
file
SVM
予測
結果
Nara Women’s University
学習データファイル作成手法
「結合距離を満たすデータ」
金属
– 金属との距離がある一定の距離以内に
α炭素原子が存在する残基を結合する distance
と仮定
α炭素原子
「PDBの結合情報データ」
– PDBファイルのCONECT行にある結合情報
を基にデータ作成
Nara Women’s University
結合距離による
学習データファイル作成手法 (1/2)
1. 金属イオンとα炭素原子の座標を取得
2. 金属イオン-α炭素原子間の距離を計算
3. 結合条件距離を設定
distance  (M_x  Cα_x ) 2  (M_y  Cα_y) 2  (M_z  Cα_z) 2
distance
Alpha carbon atom
Metal atom
(M_x, M_y, M_z)
(Cα_x, Cα_y, Cα_z)
Nara Women’s University
結合距離による
学習データファイル作成手法 (2/2)
4.
5.
6.
7.
条件を満たす残基とその前後の数残基を抽出
アミノ酸の種類ごとにカウント
アルファベット順に並べ替え (特徴ベクトル)
学習データファイルに出力
ARG PHE CYS
HIS
ARG
MET
TRP
PHE
金属イオン
: 抽出する残基
: 抽出しない残基
GLN
SER
ALA
TRP
ALA:0, ARG:2,・・・, GLX:0
学習データファイル
1:0 2:2 …21:0 22:0
1:0 2:1 …21:0 22:1
1:0 2:1 …21:0 22:0
Nara Women’s University
結合情報による
学習データファイル作成手法
1.
2.
3.
4.
5.
6.
金属イオンと結合原子のシリアルナンバーを取得
結合原子が含まれる残基の番号を取得
結合残基とその前後の数残基を抽出
アミノ酸の種類ごとにカウント
アルファベット順に並べ替え
学習データファイル
学習データファイルに出力
1:0 2:2 …21:0 22:0
1:0 2:1 …21:0 22:1
1:0 2:1 …21:0 22:0
Nara Women’s University
金属結合の予測手法
1.
2.
3.
4.
PDBから対象となるPDBファイルを抽出
学習データファイル作成
学習 → モデルファイル生成
予測
抽出
PDB
file
PDB
(Protein Data Bank)
学習
Training
data file
SVM
予測
Model
file
SVM
予測
結果
Nara Women’s University
金属結合の予測手法
1.
2.
3.
4.
PDBから対象となるPDBファイルを抽出
学習データファイル作成
学習 → モデルファイル生成
予測
抽出
PDB
file
PDB
(Protein Data Bank)
予測
学習
Training
data file
SVM
Model
file
SVM
予測
結果
Nara Women’s University
実験の設定
LIBSVM (A Library for Support Vector Machine)
– Linらによって開発されたSVMのライブラリ
SVMの種類
– C-SVC (C-Support Vector Classification)
• 金属結合性判定に使用
– ε-SVR (ε-Support Vector Regression)
• 金属結合部位予測に使用
Gaussian Kernel
パラメータ
– Grid search と Cross Validation により決定
Nara Women’s University
実験1:金属の結合判定(結合距離)
結合距離の条件を変化 (4Å,5Å,6Å)
抽出残基を変化 (7残基,9残基,11残基)
結合距離を用いた亜鉛結合予測精度(左) と 非結合予測精度(右)
7残基 9残基 11残基
4.0Å 37.2 % 62.1 % 71.1 %
7残基 9残基 11残基
4.0Å 89.0 % 82.0 % 87.0 %
5.0Å 31.8 % 46.4 % 73.5 %
5.0Å 100 % 100 % 100 %
6.0Å 35.7 % 47.1 % 72.0 %
6.0Å 99.0 % 100 % 100 %
Nara Women’s University
考察:実験1
「結合距離条件」データを用いた結合判定予測
亜鉛の結合(上)・非結合(下)予測精度
Zn
7残基
9残基 11残基
4.0Å 37.2 % 62.1 % 71.1 %
結合予測精度
結合距離条件を変化
- 精度の変化なし
5.0Å 31.8 % 46.4 % 73.5 %
6.0Å 35.7 % 47.1 % 72.0 %
Zn
7残基
9残基 11残基
4.0Å 89.0 % 82.0 % 87.0 %
5.0Å 100 % 100 %
100 %
6.0Å 99.0 % 100 %
100 %
抽出残基数を変化
- 多いほど精度向上
• アミノ酸の種類に特徴
• 特徴は広範囲に及ぶ
Nara Women’s University
考察:実験1
「結合距離条件」データを用いた結合判定予測
表.結合・非結合予測精度
Zn
7残基
9残基 11残基
4.0Å 37.2 % 62.1 % 71.1 %
5.0Å 31.8 % 46.4 % 73.5 %
非結合予測精度
4Åのとき精度少し低い
- データ数が少ない
学習が不十分
6.0Å 35.7 % 47.1 % 72.0 %
Zn
7残基
9残基 11残基
4.0Å 89.0 % 82.0 % 87.0 %
5.0Å 100 % 100 %
100 %
6.0Å 99.0 % 100 %
100 %
結合(Å) 4.0
5.0
データ数
153 318
23
6.0
Nara Women’s University
実験2:金属の結合判定(結合情報)
抽出残基を変化 (7残基,9残基,11残基)
亜鉛と鉄(II)
結合情報を用いた亜鉛結合予測(上) と 鉄(II)結合予測(下)
Zn
結合予測精度
7残基 9残基 11残基
96.7 % 100 % 100 %
非結合予測精度 86.0 % 100 % 100 %
Fe(II)
結合予測精度
7残基 9残基 11残基
41.5 % 22.6 % 42.5 %
% 100
% University
非結合予測精度 100 % 100 Nara
Women’s
考察:実験2
「結合情報」データを用いた結合判定予測
Zn
結合予測精度
7残基
9残基 11残基
96.7 % 100 %
100 %
非結合予測精度 86.0 % 100 %
100 %
Fe(II)
結合予測精度
7残基
9残基 11残基
41.5 % 22.6 % 42.5 %
非結合予測精度 100 % 100 %
100 %
結合情報データ
Fe(II)の予測精度が低い
- データ数が少ない
(Zn: 216,Fe(II): 11)
学習不足
• 20以上:100 %に近い精度
• 10~19:精度はさまざま
• 9以下 :10 %以下が多い
Nara Women’s University
実験3:結合部位予測 (1/2)
「結合情報」を用いた学習データ (実験2)
ε-SVRにより予測値を取得
– 予測値:結合確率を表す値 (0 ~ 1で表現)
1 に近いほど結合する確率が高い
基準値を設定 (0.95 ~ 0.50 : 0.05刻み)
– (予測値) > (基準値)
(予測値) > (基準値)
結合すると仮定
(予測値) > (基準値)
:結合予測部位
Nara Women’s University
実験3:結合部位予測 (2/2)
亜鉛が結合する残基番号
– 7, 25, 29, 37, 40, 53, 57, 65, 68, 81, 85 (全11残基)
基準値0.95
– 11残基中7残基が予測部位に属する
– 予測した4部位すべて正解部位
1A1Fへの亜鉛結合部位予測結果
基準値
予測部位
0.95
6~13 34~45 48~59 63~71
7, 25, 29, 37, 40, 53, 57, 65, 68, 81, 85
0.90
6~13 25~45 47~71 80~90
7, 25, 29, 37, 40, 53, 57, 65, 68, 81, 85
0.85
6~13 25~72 80~90
7, 25, 29, 37, 40, 53, 57, 65, 68, 81, 85
0.80
6~14 25~72 79~90
7, 25,
29, 37,
40, 53, 57,
65, 68, 81, 85
Nara
Women’s
University
考察:実験3
結合部位予測
– 基準値が設定できる金属 (Zn, Fe(II) など)
• 結合部位に特徴あり
– 基準値が低い (Pt、K など)
• 結合部位に特徴なし
基準値
1A1Fへの亜鉛結合部位予測結果
(正解部位) / (予測部位)
結合予測部位
0.95
6~13 34~45 48~59 63~71
4/4
0.90
6~13 25~45 47~71 80~90
4/4
0.85
6~13 25~72 80~90
3/3
0.80
6~14 25~72 79~90
Nara Women’s
University
3/3
まとめ
タンパク質への金属結合予測手法の提案
– 金属結合 ・ 結合部位の予測
– PDBからデータセットを抽出
– 2つの手法で学習データファイルを作成
「結合距離」,「結合情報」
– SVMによる学習と予測
実験
– 結合判定予測:学習データ数20以上で高い精度
– 結合部位予測:金属により精度に差
Nara Women’s University