発現データからのガン細胞分類

Download Report

Transcript 発現データからのガン細胞分類

生命情報学基礎論
(第11回)
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
講義予定

12月7日


12月21日 (担当:上田展久)


配列データおよび化学構造データ解析のため
のカーネル法
1月11日


タンパク質立体構造予測
相互作用推定
2月1日

スケールフリーネットワーク
講義の内容

遺伝子ネットワーク推定



ブーリアンネットワーク推定
発現データに基づく細胞のクラス分け
タンパク質相互作用の推定
遺伝子ネットワーク推定
発
現
量
ネ ットワ ー ク
遺伝子発現量の時間変化
A C E TY L- C o A
O X A LO A C E TA TE
C IT2
M D H2
ACO 1
M LS 1
推定
IS O C ITR A TE
時間
IC L1
G LYO X Y LA TE
発現データからの遺伝子ネットワークの推定



環境変化(熱ショック、
栄養状態)や発生、細
胞分裂時の遺伝子の
時系列データを観測
時系列データから遺
伝子の制御関係(ネッ
トワーク)を推定
解析にはクラスタリン
グが有効
ネットワーク推定のための離散モデル





ブーリアンネットワーク
定性モデル
ニューロ的モデル
ベイジアンネットワーク
ペトリネットモデル
ネットワーク推定のための連続モデル





クラスタリング
微分方程式モデル(線形、S-system)
各種統計的モデル
(時系列解析、多変量解析)
グラフィカルモデリング
ハイブリッドペトリネット
(微分方程式 + ペトリネット)
ブーリアンネットワーク同定

ブーリアンネットワーク


遺伝子制御ネットワークのモデル
頂点⇔遺伝子、ブール関数⇔制御規則
ブーリアンネットワーク同定

遺伝子破壊・過剰発現を用いた同定
(Akutsu et al. 98)

REVEALアルゴリズム (Liang et al. 1998)
⇒ 少ないパターンから同定可能を示唆

O(log n)パターンから同定可能(n は頂点数)
(Akutsu et al. 99)
ブーリアンネットワークの例
状態遷移表
A
時刻 t
B
C
A’ = B
B ’ = A an d C
C’ = not A
時 刻 t+ 1
A
B
C
0
0
0
0
1
1
1
1
0
0
1
1
0
0
1
1
0
1
0
1
0
1
0
1
A’ B’ C’
0
0
1
1
0
0
1
1
0
0
0
0
0
1
0
1
1
1
1
1
0
0
0
0
状態遷移

状態遷移


初期状態が与えられれば、状態遷移表より、
どのような変化がおきるかがわかる
アトラクター:同じ状態系列が繰り返される


011 ⇒ 010 ⇒ 101 ⇒ 010 ⇒ 101 ⇒ …
111 ⇒ 110 ⇒ 100 ⇒ 000 ⇒ 001 ⇒ 001 ⇒
001 ⇒ …
ブーリアンネットワークの同定



時刻 t, t+1 の状態の組(遷移表の一部) ⇒ 例
例に無矛盾なネットーワークが一意かを判定
例は発現パターンの変化に相当
A’ = C
時刻 t
時 刻 t+ 1
A
B
C
1
0
0
0
1
1
0
0
1
A’ B’ C’
0
0
1
0
1
0
1
1
0
B ’ = B an d (no t C )
C’ = not C
A’ = C
B ’ = B xo r C
C’ = not C
入次数


ネットワーク形状に制約が無い場合
⇒状態遷移表の全部の行( 2 n )行が必要
入次数が定数 K 以下
⇒(全部で2n 行あるうちの)たったO(log n)行で十分
入次数=2
A
入次数=3
A
ブーリアンネットワーク同定の
ためのアルゴリズム


基本的にはしらみつぶし(Akutsu et al. 1999)
例えば、K=2の場合

xi’=xj, xi’=NOT xj, xi’=xj AND xk,… とすべての可
能な論理関数を調べる

いくつかの改良




情報量の利用(Liang et al. 1998)
貪欲算法の利用(Akutsu et al. 2000)
行列演算の利用(Akutsu et al. 2000)
しかし、本質的にしらみつぶし法より良い方法は
知られていない(Kを固定しない場合はNP完全)
アルゴリズム

例えば右図の場合、遺伝子D
の制御規則を推定するには






D’=A, D’=B
D’=C, D’=D
D’=NOT A, D’=NOT B
D’=NOT C, D’=NOT D
というすべての可能な規則を
生成し、入力データと矛盾が
ないかをチェック(K=1)
5行目までだと、D’=NOT A
と D’=NOT C が残る
6行目まで調べると、
D’=NOT C のみが残る
ネ ットワー ク
入 力 デ ータ
A
D
B
C
A B
C
D
A ’ B ’ C’ D ’
0
0
0
1
1
0
0
1
1
1
0
0
0
1
1
0
1
1
0
1
1
0
0
1
0
1
1
1
0
0
1
1
0
0
0
1
1
1
0
0
1
0
0
0
1
0
1
1
理論的結果:定理1

状態遷移表の中からランダムに選んだ
O ( 2 2 K  ( 2 K   )  log n ) 個の行が与え
1
られれば、確率 1 
以上で
n
与えられた例に無矛盾な入次数限定の
ブーリアンネットワークが一意に定まる。

ブーリアンネットワーク同定に関する結果

少数の遺伝子の発現パターンのみが変化
⇒多くの発現パターンが必要 (  ( n K ) )

多数の遺伝子の発現パターンが変化
⇒少ない発現パターンで十分 (  (log n ) )
多少のノイズがあってもOK

具体例
パターン数: 100億個 vs 数百個
ノイズありブーリアンネットワーク
の同定
確率p以下でエラーを起こ
す(ベイジアンネットワーク
と類似)
 同定アルゴリズム:
しらみつぶしに可能な論理
関数を調べ、エラーが最
小の関数を出力
 pが小さければ、ノイズ無
しの場合と同様の結果(O
(log n)パターンから同定
可能)

A
B
C
P ro b(C ’=1 |A =1 ,B =1 ) > 1 - p
P ro b(C ’=0 |A =1 ,B =1 ) < = p
P ro b(C ’=1 |A =0 ,B =1 ) < = p
P ro b(C ’=0 |A =0 ,B =1 ) > 1 - p
ベイジアンネットワーク




条件付き確率で知識
やネットワークを表現
AI分野で数多くの研
究
グラフィカルモデリング
と深い関係
ブーリアンネットワーク
とは異なり、時間を陽
には取り扱わない
NOT回 路 の 例
A
P ro b(B = 0 |A = 1 ) = 1 .0
P ro b(B = 1 |A = 1 ) = 0 .0
P ro b(B = 0 |A = 0 ) = 0 .0
P ro b(B = 1 |A = 0 ) = 1 .0
B
AND 回 路 の 例
A
B
P ro b(C = 1 |A = 1 ,B = 1 ) = 1 .0
P ro b(C = 0 |A = 1 ,B = 1 ) = 0 .0
P ro b(C = 1 |A = 0 ,B = 1 ) = 0 .0
P ro b(C = 0 |A = 0 ,B = 1 ) = 1 .0
C
実データ解析における問題点



時間間隔の長い(数十分以上)、数点から
数十点程度のデータしか利用できない
正確な発現量を測定できるわけではなく、
同じ測定を行っても数十%の差
同じような時間変化を示す遺伝子が多い
(数百が同じような変化)
遺伝子発現データを用いた
腫瘍細胞分類


発現データを観
測することにより、
腫瘍細胞の詳細
な分類を行う
抗がん剤の適切
な投与などに応
用できる可能性
腫瘍細胞
DNAマ イク
ロアレイ
腫瘍の
タイプ
T yp e A
T yp e B
Eric Landerらの研究I

(1999)
急性白血病の分類




6800個程度の遺伝子の発現データを利用
72サンプル
ALL (acute lymphoblastic leukemias)
AML (acute myeloid leukemias)
Eric Landerらの研究II





急性白血病のデータ(Golub et al, 1999)
38+34の患者の6817遺伝子の発現量を
AffymetrixのDNAチップで計測
ALL と AML のクラス分け
B-CELL ALL と T-CELL ALL のクラス分け
多数決により決定(ただし、差が少ない場
合には判定不能とする)
Eric Landerらの研究III

クラス予測



クラス発見



与えられたデータがどの既知クラスに入るかを推定
(重み付き)多数決により推定
新たな腫瘍のタイプを発見
自己組織化マップ(クラスタリング技法の一種)を利用
Informative Gene



クラス予測に有用な遺伝子セット
クラス分けとの相関に基づき選択
Feature Selection (AI分野で数多くの研究)
発現データからの細胞分類
Sample1
Sample2
Sample3
Sample4
Sample5
Sample6
Sample7

遺伝子1
遺伝子2
遺伝子3
遺伝子4
遺伝子5
遺伝子6
タイプ
1.1
2.2
1.3
0.8
4.5
2.6
4.8
4.6
4.1
5.0
2.5
4.3
2.1
5.3
3.9
4.5
0.4
0.5
0.8
0.3
4.3
3.4
4.8
3.5
ALL
0.9
0.9
1.7
0.2
3.0
2.5
2.7
0.5
1.1
1.1
2.8
3.1
0.4
1.2
0.2
3.7
4.3
4.2
AML
ALL
ALL
ALL
AML
AML
(遺伝子2の発現量)+(遺伝子3の発現量)+(遺伝子4の発現量)>10.0
⇒ALL と推定
発現データ解析に関するまとめ

3つの主要な問題


クラスタリング・分類←既存の情報技術を応用可能



クラスタリング、ネットワーク推定、細胞分類
自己組織化マップ、k-means法
ニューラルネットワーク、サポートベクタマシン
今後の課題



より多くの解析例の蓄積
誤差の大きなデータの取り扱い
複数のアレイデータベースや他のゲノム情報との統合利用
確率モデルに基づく
タンパク質相互作用推定





タンパク質相互作用の確率モデル
既存手法(アソシエーション法、EM法)
線形計画法を用いる方法
計算機実験
推定問題の困難性
背景

タンパク間相互作用データ




配列の進化的関係から推定する
方法は多数存在(文献1参照)
タンパク間相互作用からドメイン
間相互作用の推定の既存手法



Ito et al. (2000, 2001)
Uetz (2000)
アソシエーション法
EM法
我々の研究

線形計画法を利用
P1
D1
D2
D3
?
?
D4
D5
D6
P2
研究の概要
P1
P3
D1
D2
P5
D1
D3
D2
D5
D4
D4
D7
D6
D8
P4
D2
D4
D7
D8
P4
D3
D5
D4
D5
P2
D1
ドメイン間相互作用とタンパク間相互作用

Pi
確率モデル[Deng et al., 2002]




どれか1組ドメインが相互作用すれば、
タンパク質どうしが相互作用
各ドメインペアの相互作用の確率は独立
Pij=1: タンパク質 Pi と Pj が相互作用
Dmn=1: ドメイン Dm と Dn が相互作用
Prob ( Pij  1)  1 
 (1  Prob(
D mn  Pij
Dm
Dn
Pj
D mn  1))
アソシエーション法(Sprinzak et al., 2001)



既知データからのドメインどうしの相互
作用の確率を頻度に基づいて推定
Imn: ドメインペア Dm, Dn を含むタンパ
ク質のペアのうち、相互作用しているペ
アの個数
Nmn: ドメインペア Dm, Dn を含むタン
パク質のペアの個数
Prob ( D mn  1) :
I mn
N mn
Pi
Dm
Dn
Pj
EM法 (Deng et al., 2002)




尤度を以下(L)のように定義し、それを極大化する一般手
法である EM法 を適用
fp: false positive rate, fn: false negative rate
Pij: Pi と Pj が相互作用する確率
Oij: Pi と Pj の相互作用が観測される確率
fp  Pr( O ij  1 | Pij  0 )
fn  Pr( O ij  0 | Pij  1)
Pr( O ij  1)  Pr( O ij  1, Pij  1)  Pr( O ij  1, Pij  0 )
 Pr( Pij  1)( 1  fn )  (1  Pr( Pij  1)) fp
L

(Pr( O ij  1)
Oij
(1  Pr( O ij  1))
1  Oij
LPBN法(1)


Pi と Pj が相互作用 ⇔
1
 (1  
mn
)
D mn  Pij
この式を以下のように変形
 (1  
mn
)  1  ,
D mn  Pij
 ln( 1  
mn

ln   (1   mn )
 D P
 mn ij
)  ln( 1   ) ,
D mn  Pij
ただし、

mn

  ln( 1   ),


  ,
D mn  Pij
 mn  ln( 1   mn ),
  ln( 1   )
LPBN法(2)


右の条件を線形計画問題として記述
ただし、完全に制約を満たすのは難
しいので、スラック変数を導入
minimize

O ij  1 
ij
Pij
subject to

mn
   const   ij if O ij  1

mn
   const   ij if O ij  0
D mn  Pij
D mn  Pij
 mn  0 ,
 ij  0 ,
 0

D mn  Pij
mn

LP法とEM法の組み合わせ

LPEM法


LPBN を実行後に、その結果を初期値として
EM を実行
EMLP法
EM の結果からあまりずれない範囲で LPBN
を実行
 具体的には以下の制約式を追加

ln(( 1   )(1   mn ))   mn  ln(( 1   )(1   mn ))
SVM法


各タンパクペアから、ドメインペアの有無に
より特徴ベクトルを構成
各ペア Pij ごとに特徴ベクトル (fij)mn を以下
のように定義
( fij )
mn
1

0
if D mn  Pij
otherwise
サポートベクターマシン


正例と負例を与えて、
それらを最適(マー
ジンを最大)に分離
する超平面を学習
カーネルを適切に
定義することにより
超平面以外での分
離が可能
テス トデー タ
m a rgin
計算機実験

ニ値化データ(相互作用の有無のみ)




DIPデータベース(Xenarios et al. 2002)を利用
1767ペアのデータを利用
テストの場合: 2/3を学習、1/3をテスト
計算機環境


XEON 2.8GHz
LPソルバー: loqo
結果(1): トレーニングデータ(ニ値化データ)
結果(2): テストデータ(二値化データ)
推定問題のNP困難性





1
 (1  
)
「正例のうち
を満たすPijの
個数+
1   (1   )  
負例のうち
を満たすPij
の個数」を最大化
完全に分離できるなら多項式時間
完全に分離できない場合はNP困難
良い近似を得ることも困難(MAXSNP困難)
mn
D mn  Pij
mn
D mn  Pij
タンパク間相互作用推定に関する結論

結論

ドメイン間相互作用に基づく方法の利点




単純な確率モデルで、ある程度の予測精度
EMアルゴリズムが比較的、有効
ドメインのかわりにモチーフを利用
ドメイン間相互作用に基づく方法の問題点



1個のドメインから成るタンパク質には不適切
将来は、ドメイン間相互作用を、実験により決定可?
ドメイン間相互作用だけでは予測精度に限界
参考文献
1.
2.
3.
4.
藤 博幸, タンパク質機能解析のためのバイオインフォマティクス,
講談社, 2004.
阿久津達也, 遺伝子ネットワークの推定アルゴリズム, 数理科学,
432:40-46, 1999.
阿久津達也, 代謝および遺伝子ネットワーク解析のための情報技
術, システム/計測/制御, 48:92-97, 2004.
T. R. Golub, et al., Molecular classification of cancer: class
discovery and class prediction by gene expression monitorin,
Science, 286:531-537, 1999.
レポート課題

以下のいずれか一つのトピックを選び、インターネッ
ト上で利用可能なソフトを2種類以上利用し、得られ
た結果について比較、考察せよ。ただし、各サー
バーに負荷をかけすぎないように気をつけること。





タンパク質構造予測(2次構造予測も可)
遺伝子発現データ解析
タンパク質相互作用推定
提出先:10号館事務室のレポート提出BOX
提出期限:2月8日(火)