機械学習を用いたタンパク質の分類法

Download Report

Transcript 機械学習を用いたタンパク質の分類法

生命情報学入門
機械学習を用いたタンパク質
の分類法
2011年6月7日
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
内容
•
•
•
•
発現データを用いた腫瘍細胞の分類
サポートベクターマシン
配列解析のためのカーネル
タンパク質の分類問題
腫瘍細胞分類
• 発現データを観
測することにより、
腫瘍細胞の詳細
な分類を行う
• 抗がん剤の適切
な投与などに応
用できる可能性
腫瘍細胞
DNAマイク
ロアレイ
Type A
腫瘍の
タイプ
Type B
Eric Landerらの研究-I (1999)
• 急性白血病の分類
– 6800個程度の遺伝子の発現データを利用
– 72サンプル
– ALL (acute lymphoblastic leukemias)
– AML (acute myeloid leukemias)
Eric Landerらの研究II
• 急性白血病のデータ(Golub et al, 1999)
• 38+34の患者の6817遺伝子の発現量を
AffymetrixのDNAチップで計測
• ALL と AML のクラス分け
• B-CELL ALL と T-CELL ALL のクラス分け
• 多数決により決定(ただし、差が少ない場合
には判定不能とする)
Eric Landerらの研究III
• クラス予測
– 与えられたデータがどの既知クラスに入るかを推定
– (重み付き)多数決により推定
• クラス発見
– 新たな腫瘍のタイプを発見
– 自己組織化マップ(クラスタリング技法の一種)を利用
• Informative Gene
– クラス予測に有用な遺伝子セット
– クラス分けとの相関に基づき選択
– Feature Selection (AI分野で数多くの研究)
発現データからの細胞分類

遺伝子1
遺伝子2
遺伝子3
遺伝子4
遺伝子5
遺伝子6
タイプ
Sample1
1.1
4.5
4.1
2.1
0.4
4.3
ALL
Sample2
2.2
2.6
5.0
5.3
0.5
3.4
ALL
Sample3
1.3
4.8
2.5
3.9
0.8
4.8
ALL
Sample4
0.8
4.6
4.3
4.5
0.3
3.5
ALL
Sample5
0.9
0.2
2.7
1.1
0.4
3.7
AML
Sample6
0.9
3.0
0.5
2.8
1.2
4.3
AML
Sample7
1.7
2.5
1.1
3.1
0.2
4.2
AML
(遺伝子2の発現量)+(遺伝子3の発現量)+(遺伝子4の発現量)>10.0
⇒ALL と推定
サポートベクターマシン (1)
• カーネル法の一つ
• 1990年代に、Cortes と Vapnik が発明
• トレーニングデータとして与えられた正例と負例から、
それらを分離する超平面を計算
⇒ 学習=超平面の計算
• 機械学習、統計学、人工知能、パターン認識、バイオ
インフォマティクスなど様々な分野に応用
–
–
–
–
–
配列分類
タンパク質フォールド予測、二次構造予測
遺伝子発現データ解析
タンパク質相互作用予測
化合物の性質推定
サポートベクターマシン (2)
• 正例と負例を与
えて、それらを最
適(マージンを最
大)に分離する超
平面を学習
• 例=点
• カーネルを適切に
定義することによ
り超平面以外で
の分離が可能
margin
SVMによるテストデータの分類
SVM: サポートベクターマ
シン
SVMの利用法
1. 学習データより超平面
を学習
2. 新たなデータ(テスト
データ)については、超
平面に対する上下で正
負を判定
テストデータ
サポートベクターマシンと細胞分類
• 白血病の場合
– 正例: ALL
– 負例: AML
• 学習データ
• テストデータ(新しい
患者)
– 青い点線より上側な
らALLと診断
– 下側ならAMLと診断
ALL
AML
テストデータ
カーネル
•
•
•
•
サポートベクターマシン:基本的には超平面で分離
Φ(x) (特徴ベクトル):「非線形曲面⇒超平面」に写像
カーネル: K(x,y)= Φ(x) ・ Φ(y)
x と y の類似度が高い ⇔ K(x,y)が大
φ(x)
カーネルの定義
• 関数 K: X×X→ R がカーネル
iff.
X から内積空間 F への写像φが存在し、
K (x, y)   (x)   (y)
とかける
マーセルの定理
• X を有限空間とし、K(x,y) を X 上の対称関
数とすると、
K(x,y) がカーネル
iff.
行列 K=(K(xi,xj)) (i, j=1,…,n) が半正定値
• 行列 K が半正定値 iff.
K の固有値がすべて非負 iff.
(x) (xtKx  0)
カーネルの例(1)
• (x・y+c)d はカーネル
– 証明(d=2, c=0の場合)
(x  y )  ( x1 y1  x2 y2 )
2
2
 x1 x1 y1 y1  x2 x2 y2 y2  2 x1 x2 y1 y2


 x1 x1 , x2 x2 , 2 x1 x2  y1 y1 , y2 y2 , 2 y1 y2

カーネルの例(2)
• K1, K2 がカーネルの時、以下もカーネル
(i)
K1 (x, y )  K 2 (x, y )
(ii)
a K1 (x, y )
(a  0)
(iii) K1 (x, y ) K 2 (x, y )
• (i)(ii)より、カーネルの正係数の線形和もカーネル
• (i)(ii)(iii)より、カーネルの正係数の多項式もカーネル
実問題に対するカーネル
• データから特徴ベクトル(feature vector)を
作るのが一般的、かつ、
多くの場合に実用的
• 特徴ベクトル: 実数値の列
• 例えば、各化合物 x に対し、
– Φ(x) = (分子量, 容積, 表面積, logP,…)
とすれば、化合物 x,y に対するカーネルは
Φ(x) と Φ(y) の単なる内積
配列解析のためのカーネル
• 配列を実数ベクトルに変換
• 様々なカーネルの提案
– Marginalized kernel, Fisher kernel, Local alignment kernel, …
ACCGTA
φ(x)
CACGTA
TCCGTCC
CCACCG
CCACCGA
TCCGTTC
CTACCA CTACCGG
GACCGTA
GACCTC
AGCGTG
AGCGTAA
TACCGTA
タンパク質配列解析のためのカーネル
• 隠れマルコフモデル(HMM)から特徴ベクトルを抽出
– Fisher カーネル (Jaakkola et al., 2000)
– Marginalized カーネル (Tsuda et al., 2002)
• 配列から直接特徴ベクトルを抽出
– Spectrum カーネル (Leslie et al., 2002)
– Mismatch カーネル (Leslie et al., 2003)
• 他の配列とのスコアを特徴ベクトルとして利用
– SVM pairwise (Liao & Noble, 2002)
• 配列パターンの出現頻度を特徴ベクトルとして利用
– モチーフカーネル(Ben-Hur & Brutlag, 2003)
• 二つの配列から直接カーネル値を計算
– Local Alignment Kernel (Saigo et al, 2004)
Spectrum カーネル
• 長さ k の各文字列の出現回数を特徴ベクトルとする
• カーネルはその内積(K(x,y)=Φ (x)・ Φ (y))
• 単純だけど有用、かつ、高速に計算可能
Spectrumカーネル
AA AC AG
A CCT A C
CC CG CT
TA TC
( 0
2
0
1
0
1
1 0
)
( 1
1
0
0
1
0
0 1
)
φ(x)
A A CGT C
φ(y)
K ( x, y)   ( x )  ( y)  2
カーネル法の応用:タンパク質細胞内局在性予測
• タンパク質が細胞のどの器官に運ばれるかを配列
から予測
SVMによる細胞内局在性予測
• 各器官ごとにSVMを学習
– 器官X
• 器官Xに輸送されるタンパク質配列を正例
• それ以外のタンパク質を負例
• 最も高いスコアを出力したSVMに対応する器官を予測結果とする
タンパク質配列
ゴルジ体
スコア
3.5
LVEKHPLADFCVEDRKLVIH......
細胞核
-2.0
予測結果
ミトコンドリア
5.8
ミトコンドリア
小胞体
-3.2
膜タンパク質の膜貫通領域予測
• 膜貫通領域: αへリックス
• 7~17残基程度の疎水性指標の平均値をプロット
• 平均値が高い部分が膜貫通領域と推定
D A G I
膜タンパク
細
胞
膜
V L P V R K Q
A 1.8
C: 2.5
D: -3.5
E: -3.5
F: 2.8
...
疎水性
指標
参考文献
• バイオインフォマティクス全般
– 金久實:ポストゲノム情報への招待、共立出版、2001
• カーネル法
– 大北(訳):サポートベクターマシン入門、共立出版、2005
– 赤穂昭太郎:カーネル多変量解析、岩波書店、2008
– 丸山修、阿久津達也:バイオインフォマティクス –配列デー
タ解析と構造予測、朝倉書店、2007